Neurones artificiels, potentiel réel
Des algorithmes qui imitent le cerveau existent depuis un demi-siècle. Mais leur potentiel n'a pris son essor que récemment. Avec les réseaux de neurones artificiels, l'intelligence artificielle a fait un pas de géant. Par Fabien Goubet
(De "Horizons" no 109 juin 2016)
Mars 2016: le champion du monde de go Lee Sedol perd 1-4 face au logiciel AlphaGo. Pour beaucoup, il s'agit d'une défaite de plus de l'humanité face aux machines. Le résultat est dû à une technique d'intelligence artificielle qui a fortement progressé cette dernière décennie: le deep learning ou apprentissage profond. Ces algorithmes sont exécutés au sein de réseaux de neurones artificiels, une architecture logicielle qui reproduit le fonctionnement de leurs pendants biologiques.
Le deep learning doit beaucoup aux travaux de Jürgen Schmidhuber, directeur de l'IDSIA (Istituto Dalle Molle di Studi sull'Intelligenza Artificiale) dans la banlieue de Lugano. AlphaGo se base sur les algorithmes de DeepMind, une startup acquise début 2014 par Google pour 500 millions de dollars. L'un de ses trois fondateurs, Shane Legg, a fait son doctorat à l'IDSIA et trois autres membres sont passés par le laboratoire tessinois.
"Jürgen Schmidhuber est l'un des meilleurs chercheurs en deep learning, dit Boi Faltings, du Laboratoire d'intelligence artificielle de l'EPFL. Il a toujours été convaincu qu'il fallait continuer à travailler sur ce sujet." "Il est dans la course depuis le début", confirme Stéphane Marchand-Maillet, du Département d'informatique de l'Université de Genève.
Des photos de chats par milliers
Gagner au jeu de go n'est qu'une illustration, particulièrement forte, de la puissance du deep learning qui excelle dans la reconnaissance de formes. On le retrouve depuis quelques années dans une multitude d'applications: reconnaissance vocale et visuelle, outils de traduction en ligne ou encore assistants sur smartphone. Le deep learning repose sur le principe de l'apprentissage automatique: il faut d'abord nourrir les algorithmes de nombreux exemples pour qu'ils puissent s'entraîner. Le principe tire évidemment profit des contenus générés par les usagers du web 2.0 et des smartphones, depuis des photos annotées postées sur Facebook jusqu'aux traductions officielles trouvées sur le net. En montrant par exemple à la machine des milliers d'images de chats étiquetées comme telles, celle-ci apprend à les reconnaître et parvient au final à identifier des photos de chats qu'elle n'avait jamais vues.
L'idée du deep learning n'est pas nouvelle, mais aura dû attendre les ordinateurs modernes pour prendre son envol. Au début des années 1950, les biologistes tentent d'établir des principes formels pour expliquer le fonctionnement des neurones du cerveau. Le psychologue Frank Rosenblatt, du Cornell Aeronautical Laboratory dans l'Etat de New York, publie en 1956 un modèle numérique basé sur ces concepts et crée ainsi le premier réseau de neurones artificiels. Intégré dans un calculateur, il apprend à reconnaître des images rudimentaires.
"Ce réseau ne comprenait que huit neurones organisés en une seule couche. Il ne pouvait reconnaître que des caractères simples, raconte Claude Touzet, du Laboratoire de neurosciences intégratives et adaptatives de l'Université Aix-Marseille. Il faudra attendre 1985 pour voir des réseaux de neurones artificiels de deuxième génération en plusieurs couches, beaucoup plus performants." Une percée accomplie par trois chercheurs indépendants: Yann LeCun à Paris, Geoffrey Hinton à Toronto et Terrence Sejnowski à Baltimore.
Apprendre petit à petit
Dans de tels réseaux, chaque couche apprend à reconnaître visuellement des caractéristiques précises d'une forme. Celles-ci sont d'autant plus abstraites que la couche est profonde. Dans le cas de notre photo de chat, le premier niveau analyse les couleurs des pixels tandis qu'une structure supérieure se concentrerait plutôt sur la forme générale de l'animal. Cette architecture en profondeur, où les calculs se font parfois sur plusieurs milliers de couches, a donné son nom au deep learning.
"Chaque neurone artificiel reçoit une valeur en entrée, la transforme selon une fonction mathématique et s'active si le résultat dépasse un seuil défini au préalable", explique Stéphane Marchand-Maillet. Il reproduit ainsi le fonctionnement des vrais neurones: ils ne s'activent et transmettent l'information que si le signal en entrée (le potentiel électrique circulant le long du neurone jusqu'à la synapse) atteint une certaine valeur. Dans la version artificielle, les résultats produits au sein d'une même couche sont pondérés, additionnés puis envoyés comme signal d'entrée à la couche suivante, laquelle va les repasser à la moulinette d'autres fonctions et ainsi de suite jusqu'à la sortie.
Un exemple: nourri par un grand nombre de photos de pommes et de pastèques, le système va progressivement apprendre à distinguer les fruits selon leur diamètre, explique le chercheur genevois. Si la machine ne peut se décider (dans le cas d'une photo d'une petite pastèque), la couche suivante va prendre le relais en analysant la couleur ou la texture du fruit, et ainsi de suite, chaque étape améliorant la discrimination.
Les jeux vidéo à la rescousse
La trop faible puissance des ordinateurs a limité pendant des décennies des applications plus complexes. L'industrie s'en étant désintéressée, le deep learning doit son salut au domaine des jeux vidéo, car les processeurs graphiques (GPU) des consoles de jeux offrent des puissances inégalées pour un coût modique: jusqu'à 6 téraflops (6000 milliards d'opérations par seconde) pour quelques centaines de dollars. "C'est clairement cette puissance de calcul qui a permis le saut quantique du deep learning", note Claude Touzet. Les GPU se prêtent en outre très bien au calcul en parallèle, utile pour exécuter les innombrables opérations simultanées exigées par les réseaux de neurones.
L'analyse d'images obtient d'excellents résultats, mais les choses sont plus compliquées pour des informations séquentielles telles que le langage oral ou les vidéos. Jürgen Schmidhuber de l'IDSIA travaille sur ce sujet depuis 1989 et a développé des réseaux récurrents: les neurones communiquent entre eux via des boucles qui font également circuler l'information en arrière, vers les premières couches.
L'analyse des données séquentielles dépend fortement du contexte et de ce qui s'est produit précédemment. Les réseaux "Long Short Term Memory" (LSTM) développés au Tessin gardent en mémoire les événements passés. Ils peuvent ainsi mieux distinguer les mots "bateau" et "rateau" en notant qu'ils ont entendu "b" ou "r" avant le son "ateau". "Les réseaux de neurones récurrents sont plus puissants que les autres approches telles que les modèles de Markov cachés", déclare Jürgen Schmidhuber, qui précise que Google Voice a adopté des LSTM en 2015. "Avec ces réseaux en boucle, le nombre de couches devient potentiellement infini", ajoute Boi Faltings de l'EPFL.
Pour Jürgen Schmidhuber, le deep learning n'est qu'un aspect de l'intelligence artificielle (IA), et l'arrivée d'une véritable IA constituerait "le changement le plus important de notre civilisation". Mais Stéphane Marchand-Maillet voit dans l'apprentissage profond "un peu de hype, qui consiste à faire croire que l'IA peut apprendre n'importe quoi pourvu qu'on dispose des données. Le deep learning est-il extensible à tous les domaines? La question reste ouverte".
Fabien Goubet est journaliste scientifique pour Le Temps.