MultiONoticias

¿Qué es la cuantificación int8 y por qué es popular para las redes neuronales profundas?

¿Qué es la cuantificación int8 y por qué es popular para las redes neuronales profundas?

La implementación de deep learning para la inferencia en tiempo real es clave para muchas áreas de aplicación. Reduce significativamente el costo de comunicarse con la nube en términos de ancho de banda de red, latencia de red y consumo de energía.

Sin embargo, los dispositivos tienen memoria, recursos informáticos y potencia limitadas. Esto significa que una red de Deep learning debe optimizarse para la implementación integrada.

La cuantificación int8 se ha convertido en un enfoque popular para tales optimizaciones no solo para marcos de machine learning como TensorFlow y PyTorch, sino también para cadenas de herramientas de hardware como NVIDIA® TensorRT y Xilinx® DNNDK, principalmente porque int8 usa enteros de 8 bits en lugar de números de punto flotante y matemática para números enteros en lugar de matemática de punto flotante, lo que reduce los requisitos de memoria y cómputo.

Estos requisitos pueden ser considerables. Por ejemplo, una red relativamente simple como AlexNet tiene más de 200 MB, mientras que una red grande como VGG-16 tiene más de 500 MB. Las redes de este tamaño no entran en microcontroladores de baja potencia y FPGA más pequeños. En este artículo, analizamos detenidamente lo que significa representar números usando 8 bits y veremos cómo la cuantización int8,  puede reducir el uso de memoria y ancho de banda hasta en un 75%.

Acceda al artículo original aquí. Solicte su cotizacion:

Rozzana Almaráz
Ejecutivo MATLAB Académico
ralmaraz@multion.com
+52 (55) 55594050 Ext. 189

Gabriela Hernández
Ejecutivo MATLAB Académico
ghernandez@multion.com
+52 (55) 55594050 Ext. 122