Además, las plataformas de hardware de alto rendimiento permiten una mayor potencia computacional. El modelo de aprendizaje profundo requiere una gran cantidad de muestras, lo que hace inevitable una gran cantidad de cálculos. En el pasado, los dispositivos de hardware eran incapaces de procesar modelos complejos de aprendizaje profundo con más de cien capas. En 2011, DeepMind de Google utilizó 1000 dispositivos con 16 000 CPU para simular una red neuronal con aproximadamente 1000 millones de neuronas. Hoy en día, solo se requieren unas pocas GPU para lograr el mismo tipo de potencia computacional con una iteración aún más rápida. El rápido desarrollo de GPU, supercomputadoras, computación en la nube y otras plataformas de hardware de alto rendimiento ha permitido que el aprendizaje profundo sea posible.
Finalmente, la arquitectura de red juega su propio papel en el avance del aprendizaje profundo. A través de la optimización constante de algoritmos de aprendizaje profundo, se puede lograr un mejor reconocimiento de objetivos. Para aplicaciones más complejas como el reconocimiento facial o en escenarios con diferentes luces, ángulos, posturas, expresiones, accesorios, resoluciones, etc., la arquitectura de red afectará la precisión del reconocimiento, es decir, cuantos más capas en algoritmos de aprendizaje profundo, mejor será el rendimiento.
En 2016, Hikvision alcanzó el puesto número uno en la categoría de clasificación de escenas en el desafío de reconocimiento visual a gran escala ImageNet 2016. El equipo de Hikvision Research Institute utilizó redes de estilo inicial y redes residuales no tan profundas que se desempeñan mejor en un tiempo de capacitación considerablemente menor, según los experimentos de Hikvision para capacitación y pruebas. Además, la tecnología de reconocimiento óptico de caracteres (Optical Character Recognition, OCR) de Hikvision, basada en el aprendizaje profundo y dirigida por el Research Institute de la compañía, también ganó el primer precio en la competencia de lectura robusta ICDAR 2016. El equipo de Hikvision superó sustancialmente tanto a competidores nacionales como extranjeros fuertes en tres desafíos de reconocimiento de palabras, incluidas imágenes digitales nacidas, texto de escena enfocado y texto de escena incidental, lo que demuestra que la tecnología de reconocimiento de palabras de Hikvision alcanzó el nivel más alto del mundo.
Aplicación de productos de aprendizaje profundo
En los últimos dos años, la tecnología de aprendizaje profundo se ha destacado en reconocimiento del habla, visión por computadora, traducción de voz y mucho más. Incluso ha superado las capacidades humanas en las áreas de verificación facial y clasificación de imágenes; por lo tanto, ha sido muy respetado en el campo de la videovigilancia para la industria de la seguridad.
En la aplicación del video inteligente en la detección, el seguimiento y el reconocimiento de objetivos, el surgimiento del aprendizaje profundo ha tenido una profunda influencia. Al aplicar esas tres funciones, el aprendizaje profundo potencialmente afecta todos los aspectos de la industria de la videovigilancia de seguridad: detección facial, detección de vehículos, detección de vehículos no motores, reconocimiento facial, reconocimiento de marca de vehículos, detección de peatones, detección de características del cuerpo humano, detección facial anormal, seguimiento de múltiples objetivos, etc.
Estos tipos de funciones inteligentes requieren una serie de cámaras de vigilancia frontal, servidores back-end y otros productos que admiten algoritmos de aprendizaje profundo. En aplicaciones a pequeña escala, las cámaras frontales pueden operar directamente la extracción estructurada de características humanas y vehiculares, y decenas de miles de imágenes faciales humanas pueden almacenarse dentro de los dispositivos frontales para implementar la comparación facial directa, a fin de reducir los costos de comunicación con un servidor. En aplicaciones a gran escala, las cámaras front-end pueden funcionar con servidores back-end. Específicamente, la tarea de video estructurado es manejada por dispositivos front-end, lo que reduce la carga de trabajo para dispositivos back-end; también mejora la eficiencia de búsqueda y coincidencia de servidores back-end.
Este año, Hikvision pronto presentará una serie de productos con tecnología de aprendizaje profundo, como las cámaras de la serie DeepInview, que pueden detectar, reconocer y analizar con precisión las características y el comportamiento de seres humanos, vehículos y objetos, y que pueden utilizarse ampliamente en escenarios interiores y exteriores. Otro de los productos que vale la pena mencionar es la serie DeepInmind de NVR de Hikvision, que incorpora algoritmos avanzados de aprendizaje profundo e imita pensamientos y memoria humanos. Los productos DeepInmind cuentan con un modo NVR+GPU innovador, que conserva las ventajas de los NVR tradicionales y las funciones de análisis de video estructurado adicionales, que juntos mejoran en gran medida el valor del video.
El aprendizaje profundo es el siguiente nivel de desarrollo de IA. Es más allá del aprendizaje automático donde la clasificación supervisada de características y patrones se establece en algoritmos. El aprendizaje profundo incorpora principios no supervisados o de “autoaprendizaje”. Hikvision está desarrollando este concepto en sus propios algoritmos analíticos. La precisión mejorada es el resultado del aprendizaje de múltiples capas. La aplicación de este algoritmo en el reconocimiento facial, el reconocimiento de vehículos, el reconocimiento humano y otras plataformas mejorará significativamente el rendimiento del análisis.