Article à la une : Les avantages du deep learning pour le secteur de la sécurité

Dans le domaine de la sécurité, les périphériques de stockage de données doivent traiter d’énormes quantités et de nombreuses couches de données brutes. Les projets de sécurisation urbaine, quelle que soit leur taille, gagnant en importance. Les nœuds de surveillance sont désormais plusieurs centaines de milliers. De plus, la surveillance haute définition devenant de plus en plus répandue, la quantité de données impliquées dans la surveillance de sécurité a considérablement augmenté en peu de temps. L’efficacité de la collecte, de l’analyse et de l’application des données, ainsi que l’intelligence de leur utilisation deviennent toujours plus essentielles dans le secteur de la sécurité. L’amélioration de l’intelligence vidéo est donc un objectif inévitable pour l’ensemble du secteur.

Les utilisateurs espèrent que leur investissement dans de nouveaux produits leur apportera plus d’avantages, allant au-delà du simple repérage et suivi de personnes suspectes et du recueil de preuves après un incident de sécurité. Ces avantages incluent par exemple l’utilisation des dernières technologies pour remplacer la grande quantité de Sans titre-1.jpg main-d’œuvre qui était auparavant nécessaire pour faire des recherches dans les vidéos de surveillance, la détection de données présentant des anomalies et la recherche de méthodes plus efficaces pour passer du repérage après la survenue d’un incident à des alertes pendant, voire avant l’incident. De nouvelles technologies sont nécessaires pour répondre à ces demandes. La vidéosurveillance intelligente est accessible depuis de nombreuses années. Cependant, les résultats de son application n’étaient jusqu’ici pas idéaux.Avec l’émergence du deep learning, ces demandes sont devenues réalité.

Insuffisance des algorithmes intelligents traditionnels

La vidéosurveillance intelligente traditionnelle implique des exigences particulièrement strictes en termes d’arrière-plan de scène. La précision des reconnaissances et analyses intelligentes dans de tels scénarios manque de constance. Ce manque de constance de précision est principalement lié au fait que les algorithmes d’analyse vidéo intelligents traditionnels comprennent encore de nombreuses imperfections. Pour mener un processus de reconnaissance et d’analyse intelligent, deux étapes clés sont nécessaires : il faut d’abord extraire les caractéristiques, puis « apprendre la classification ».

Le niveau de précision de la première étape détermine directement la précision de l’algorithme. En réalité, la charge de travail du système consacrée aux calculs et aux tests est principalement mobilisée durant cette étape. Les caractéristiques d’image des algorithmes intelligents traditionnels sont pensées par des humains et sont donc très subjectives. Les caractéristiques les plus abstraites, que les humains ont beaucoup de mal à appréhender ou à décrire sont inévitablement omises. Lorsque les angles et la luminosité changent, et tout particulièrement lorsque le sujet est gigantesque, de nombreuses caractéristiques peuvent s’avérer trop difficiles à détecter. Par conséquent,bien que les algorithmes intelligents traditionnels soient efficaces dans des environnements très spécifiques, de subtiles variations (qualité d’image,environnement, etc.) peuvent constituer des défis considérables en termes de précision.

‍

La deuxième étape, l’apprentissage de la classification, implique principalement la détection de cibles et la reconnaissance d’attributs. Plus le nombre de catégories de classification disponibles augmente, plus le niveau de difficulté est élevé. Les technologies d’analyse intelligente traditionnelles sont donc par exemple très précises pour l’analyse des véhicules, mais pas pour l’analyse d’individus ou d’objets. Par exemple, pour la détection de véhicules, une distinction est faite entre ce qui est un véhicule et ce qui n’en est pas un. La classification est donc simple et le niveau de difficulté réduit. La reconnaissance d’attributs de véhicule exige une reconnaissance de différents types de véhicule, logos, etc. Cependant, ces attributs sont relativement peu nombreux, et les résultats de la classification sont donc généralement précis. Cependant, si la reconnaissance doit être menée sur des visages humains, chaque personne a une classification qui lui est propre, et les catégories de cette classification seront extrêmement nombreuses, ce qui entraîne naturellement un niveau de difficulté très élevé.

Les algorithmes intelligents traditionnels emploient généralement des modèles d’apprentissage peu profonds pour gérer des situations impliquant de grandes quantités de données dans des classifications complexes. Les résultats d’analyse sont loin d’être idéaux. De plus, ces résultats restreignent directement l’étendue et la profondeur des applications intelligentes et de leur développement ultérieur. Le besoin « d’approfondir » l’intelligence du big data dans le domaine de la sécurité se fait donc de plus en plus ressentir.

Avantages du deep learning et de ses algorithmes

Les algorithmes intelligents traditionnels sont conçus par des humains. Le fait qu’ils soient bien conçus ou non dépend grandement de l’expérience, voire de la chance des développeurs, et ce processus de conception exige beaucoup de temps. Serait-il alors possible de faire apprendre automatiquement certaines des caractéristiques aux machines ? La réponse est oui. C’est en réalité l’objectif de l’intelligence artificielle (IA).

Le deep learning est inspiré des réseaux neuronaux du cerveau humain. Nos cerveaux peuvent être considérés comme des modèles de deep learning très complexes et très profonds. Les réseaux neuronaux des cerveaux comprennent des milliards de neurones interconnectés, et le deep learning simule cette structure. Ces réseaux multicouche peuvent recueillir des informations et exécuter les actions qui leur sont associées. Ces réseaux ont également la capacité d’extraire et de reconstituer des objets.

Le deep learning est intrinsèquement différent des autres algorithmes. La manière dont il pallie les insuffisances des algorithmes traditionnels est englobée dans les aspects suivants.

Pour commencer, de l’apprentissage superficiel à l’apprentissage profond.
La structure du modèle algorithmique du deep learning est bien plus profonde que les deux structures à trois couches des algorithmes traditionnels. Le deep learning peut parfois impliquer plus de cent couches, et il est ainsi capable de traiter les énormes quantités de données des classifications complexes. Le deep learning est très similaire au processus d’apprentissage humain, et il inclut un processus d’extraction des caractéristiques couche par couche. Une « pondération » différente est affectée à chacune des couches, et cette pondération reflète ce qui a été appris au sujet des « composants » des images. Plus le niveau de la couche est élevée, plus les composants sont spécifiques. Puisque le deep learning simule le cerveau humain, le signal d’origine passe par différentes couches de traitement. Il passe ensuite d’une assimilation partielle (superficielle) à une extraction globale (profonde) rendant l’objet perceptible

Ensuite, des caractéristiques artificielles à l’apprentissage des caractéristiques
Aucune intervention manuelle n’est nécessaire pour le deep learning, puisqu’il s’appuie sur un ordinateur pour extraire les caractéristiques lui-même. Il est ainsi capable d’extraire autant de caractéristiques que possible de la cible, y compris des caractéristiques abstraites difficiles ou impossibles à décrire. Plus il y a de caractéristiques, plus la reconnaissance et la classification sont précises. Certains des avantages les plus directs des algorithmes basés sur le deep learning sont notamment une précision de reconnaissance de modèles comparable voire supérieure à celle du cerveau humain, de puissantes capacités anti-interférences et la possibilité de reconnaître et classer des milliers de caractéristiques.

Facteurs clés du deep learning

Au total, trois raisons principales expliquent pourquoi le deep learning n’est devenu populaire que ces dernières années et non auparavant : l’échelle des données impliquées, la puissance de calcul et l’architecture réseau.

Les améliorations des performances des algorithmes pilotés par des données ont en peu de temps accéléré le deep learning dans diverses applications intelligentes. Plus précisément, les performances des algorithmes se sont améliorées en parallèle de l’augmentation de l’échelle des données. L’expérience utilisateur s’est améliorée en conséquence, et de plus en plus d’utilisateurs ont été impliqués, favorisant encore davantage l’augmentation de l’échelle des données.

Les données de vidéosurveillance représentent 60 % des big data, et leur volume augmente de 20 % chaque année. La vitesse et l’ampleur de cette augmentation résultent de la popularisation de la vidéosurveillance haute définition. En effet, la HD 1080p est devenue courante, et la 4K et les résolutions plus élevées sont progressivement employées dans de nombreuses applications importantes.

Hikision opère dans le secteur de la sécurité depuis de nombreuses années. La société dispose de capacités de recherche et développement qui lui sont propres et emploie d’énormes quantités de données d’images et de vidéos réelles comme exemples d’apprentissage. Grâce à cette grande quantité de données de qualité et à son équipe de plus de cent personnes pour libeller les images vidéo, Hikvision a pu accumuler des exemples de données donnant lieu à des millions de catégories. Grâce à cette grande quantité de données d’apprentissage, les modèles de reconnaissance d’humains, de véhicules et d’objets vont devenir de plus en plus précis pour la vidéosurveillance.

De plus, les plateformes matérielles hautes performances permettent une puissance de calcul supérieure. Le modèle du deep learning exige une grande quantité d’exemples qui entraînent inévitablement une grande quantité de calculs. Les dispositifs matériels étaient auparavant incapables de traiter les modèles de deep learning complexes impliquant plus d’une centaine de couches. En 2011, Google DeepMind avait eu recours à 1 000 dispositifs et 16 000 processeurs pour simuler un réseau neuronal d’environ 1 milliard de neurones. Aujourd’hui, seules quelques cartes graphiques sont nécessaires pour obtenir une puissance de calcul équivalente, les itérations étant même encore plus rapides. La rapidité du développement des cartes graphiques, des superordinateurs, du cloud computing et d’autres plateformes matérielles hautes performances a rendu le deep learning possible.

Enfin, l’architecture réseau joue également un rôle dans les progrès du deep learning. L’optimisation constante des algorithmes de deep learning permet une amélioration de la reconnaissance d’objets cibles obtenue. Pour les applications plus complexes, comme la reconnaissance facile ou les scénarios impliquant différents éclairages, angles, postures, expressions, accessoires, résolutions, etc., l’architecture réseau affecte la précision de la reconnaissance : plus les couches des algorithmes de deep learning sont nombreuses, plus les performances sont bonnes.

En 2016, Hikvision a décroché la première place dans la catégorie Classification de scènes de l’ImageNet Large Scale Visual Recognition Challenge 2016. L’équipe de l’Institut de recherche de Hikvision a eu recours à des réseaux basés sur l’inception et à des réseaux résiduels « assez peu profonds » plus efficaces présentant un temps d’apprentissage nettement réduit, d’après les tests et expérimentations d’apprentissage de Hikvision. De plus, la technologie de reconnaissance optique de caractères (OCR) de Hikvision, qui repose sur le deep learning et dont le développement est dirigé par l’Institut de recherche de la société, a elle aussi remporté le premier prix lors du Concours de lecture robuste de l’ICDAR 2016. Dans les défis de reconnaissance de trois mots, l’équipe de Hikvision a surpassé ses puissants concurrents, qu’ils soient locaux ou étrangers, y compris pour les images nativement numériques, le texte d’une scène mise au point et le texte d’une scène d’accident, démontrant ainsi que la technologie de reconnaissance de mots de Hikvision était la meilleure au monde.

Application de produits basés sur le deep learning

Ces deux dernière années, la technologie du deep learning s’est avérée excellente pour la reconnaissance vocale, la vision par ordinateur, la traduction vocale, et bien d’autres domaines. Elle a même surpassé les capacités humaines pour la vérification facile et la classification d’images. Elle a donc été observée de près pour la vidéosurveillance dans le secteur de la sécurité.

Le développement du deep learning a eu une forte influence sur l’application de la vidéo intelligente pour la détection, le suivi et la reconnaissance de cibles. Lorsque ces trois fonctions sont appliquées, le deep learning touche potentiellement tous les aspects de la vidéosurveillance de sécurité : la détection faciale, la détection de véhicules, la détection de véhicules non motorisés, la reconnaissance faciale, la reconnaissance des marques de véhicule, la détection des piétons, la détection de caractéristiques du corps humain, la détection de visages anormaux, l’analyse de comportements de foule, le suivi multicible, etc.

Ces types de fonctions intelligentes exigent toute une série de caméras de surveillance front-end, de serveurs back-end et d’autres produits prenant en charge les algorithmes de deep learning. Dans les applications à petite échelle, les caméras front-end peuvent directement procéder à une extraction structurée des caractéristiques des humains et véhicules, et des dizaines de milliers d’images de visages peuvent être stockées sur les périphériques front-end pour mettre en œuvre une comparaison directe des visages, et ainsi réduire les coûts des communications avec un serveur. Dans les applications à grande échelle, les caméras front-end peuvent interagir avec les serveurs back-end. La tâche vidéo structurée est notamment gérée par les appareils front-end, ce qui réduit la charge de travail des périphériques back-end. L’efficacité de recherche et de détermination des analogies des serveurs back-end s’en trouve donc améliorée.

Cette année, Hikvision lancera bientôt une série de produits reposant sur le deep learning, par exemple, les caméras de la série DeepInview qui seront capables de détecter, reconnaître et analyser précisément les caractéristiques et comportements d’humains, de véhicules et d’objets. Ces caméras pourront être utilisées dans un large éventail de scénarios, qu’il s’agisse d’environnements intérieurs ou extérieurs. Un autre produit intéressant est la série de NVR DeepInmind de Hikvision, qui intègrent des algorithmes avancés de deep learning et sont capables d’imiter la mémoire et les pensées humaines. Les produits DeepInmind intègrent un innovant mode NVR+carte graphique, conservent les avantages des NVR et offrent des fonctions d’analyse vidéo structurée supplémentaires, le tout améliorant grandement la valeur de la vidéo.

Avec le deep learning, le développement de l’IA passe à la vitesse supérieure. Il va bien au-delà de l’apprentissage automatique dans le cadre duquel la classification supervisée des caractéristiques et modèles est définie dans les algorithmes. Le deep learning intègre des principes d’absence de supervision ou « d’auto-apprentissage ». Hikvision développe ce concept dans ses propres algorithmes analytiques. L’amélioration de la précision résulte de l’apprentissage multicouche et de l’exhaustivité de la collecte de données. L’application du deep learning à la reconnaissance faciale, la reconnaissance de véhicules, la reconnaissance d’individus et d’autres plateformes fera considérablement progresser les performances d’analyse.