Pourquoi le test de Turing est une chimère – IA #7

Pour tester si une machine est intelligente ou non, le mathématicien anglais Alan Turing (1912, 1954) imagine en 1950 « le jeu de l'imitation ». Les règles du jeu consistent à évaluer si la machine parvient (ou non) à imiter la conversation humaine. Rebaptisé en 1968 « test de Turing » par Arthur C. Clarke, auteur de science-fiction, ce jeu est devenu célèbre grâce au film de Stanley Kubrick, 2001, l'Odyssée de l'espace, qui a adapté son livre. À ce jour, aucune IA n'a réussi à passer ce test.


L'appellation de "test de Turing" provient du roman d'Arthur C. Clarke, "2001, l'Odyssée de l'espace"

Le 7 juin 2014, un agent conversationnel (chatbot en anglais) réussit à se faire passer pour un jeune adolescent ukrainien de 13 ans appelé Eugene Goostman auprès des chercheurs de l'université anglaise de Reading. Les résultats sont aussitôt proclamés : un programme informatique a réussi le test de Turing ! Beaucoup de spécialistes contestent pourtant le caractère extraordinaire de cette annonce qu’ils n’hésitent pas à qualifier d’exagérée, pour ne pas dire intellectuellement foireuse.


Parmi eux, Jean-Paul Delahaye, professeur en informatique théorique et en intelligence artificielle à l'université Lille 1 : « C’est une conversation de 5 minutes, durant laquelle un peu plus de 30 % des interrogateurs ont été trompés. Affirmer que c'est cela le test de Turing tient à une mauvaise lecture de l'article original d’Alan Turing : il explique que le test du « jeu de l'imitation » sera accompli quand une machine arrivera à se faire passer pour un humain... sans limitation de temps. » (1)


Le test de Turing

Définir l'intelligence n'est pas chose aisée. C'est cette difficulté qui pousse Alan Turing, au mitan du XXe siècle, à contourner le problème, en proposant le jeu de l'imitation. Sans définir ce qu'est l'intelligence, il est possible de tester si une machine l’est ou non en la comparant à l'intelligence humaine. Plus précisément, la définition de l'intelligence est remplacée par une épreuve de conversation (écrite) au cours de laquelle l'intelligence supposée de la machine est confrontée à l'idée subjective que chaque membre du jury se fait du discours d'un homme (ou d'une femme) doté(e) de raison.


Le test de Turing est inspiré du jeu des imitations, sorte de jeu de rôle, régulièrement pratiqué par les Britanniques lors de soirées entre amis après la Seconde Guerre mondiale. Dans ce jeu, un homme et une femme s'isolent séparément dans une pièce. Les invités communiquent avec le couple en écrivant les questions et en lisant leurs réponses. Le but du jeu est de se faire passer pour l'autre. Si on remplace l'un ou l'autre des protagonistes par un ordinateur, on obtient le test de Turing (2).



Malgré son jeune âge, Alan Turing montre des aptitudes hors normes dans la résolution de problèmes mathématiques réputés ardus (école de Shelbourne, 1930)

Le procédé utilisé par Turing, définir l'intelligence d'une machine en la comparant à l'intelligence humaine, est assez classique en mathématique ou en physique. Lorsqu'on ne peut pas directement montrer qu'un objet possède une propriété particulière, on le compare à un autre objet dont on sait qu'il possède cette propriété. Une démarche similaire fut adoptée par Albert Einstein en 1907, lors de l'élaboration de sa fameuse expérience de pensée dite de l'ascenseur qui donnera lieu au principe d'équivalence gravitation-accélération, principe fondateur de la relativité générale (3).


Mais revenons au jeu de l'imitation... On trouve une description, certes succincte, du test du Turing dans une œuvre du XVIIIe siècle : les Pensées philosophiques de Denis Diderot. L’essayiste écrit qu'un perroquet qui répond à toutes les questions pourrait légitimement être considéré comme pensant (4). Le fait d'associer la pensée au langage est courant dans la philosophie occidentale. Au travers de son test, Turing résume de manière simple et élégante l'idée, somme toute intuitive, que le langage serait une expression (parmi d'autres) de l'intelligence.


Les ordinateurs et des algorithmes parviennent à réaliser – par l'exploitation massive des données et la puissance de calcul – des prouesses comme le diagnostic de certains cancers, la prédiction des ouragans ou l'aide à la régulation du trafic aérien. Alors, pourquoi les IA peinent-elles à tenir une conversation élémentaire de plus de 5 minutes ? Pourquoi le test de Turing est-il si difficile à passer ?


L'acquisition du langage humain est un processus éminemment complexe et nécessite une compréhension du monde réel. Par exemple, les adultes n'éprouvent en général aucune difficulté pour résoudre les « schémas de Winograd » (5), petites questions du genre : « Le trophée ne rentrait pas dans le sac parce qu'il était trop grand. Que représente le pronom il ? Le trophée ou le sac ? Évidemment, le trophée ». Et maintenant : « Le trophée ne rentrait pas dans le sac parce qu'il était trop petit. Que représente le pronom il ? »... Pour démêler un schéma de Winograd, il est nécessaire de raisonner sur les connaissances du monde et surtout de comprendre la question. Privées de sémantique, les machines sont dépourvues d'une dimension fondamentale pour réussir le test de Turing.


La chambre chinoise

Vers 1980, le philosophe américain John Searle conçoit l'expérience de pensée de la chambre chinoise, considérée à tort dans la littérature cognitiviste – nous verrons ensuite pourquoi – comme une contre-argumentation au test de Turing.


Searle imagine une personne, l'opérateur, enfermée dans une pièce avec à sa disposition un catalogue associant des suites de symboles mandarins (les questions d'un locuteur chinois), à d'autres symboles (les réponses de l'opérateur). On suppose le catalogue suffisamment complet et l'opérateur très habile dans la manipulation des symboles et du catalogue. Ainsi, grâce aux règles de correspondance du catalogue entre les questions et les réponses, l'opérateur est capable de faire croire au locuteur asiatique qu'il parle couramment le chinois.

Après avoir entré sa question, le locuteur chinois attend la réponse de l'opérateur

Selon Searle, nous avons ici un passage du test de Turing, puisque le couple opérateur-catalogue répond parfaitement à son interlocuteur. Et pourtant, rétorque le philosophe, l'opérateur ne parle pas un seul mot de chinois : il se contente « juste » de rechercher dans son catalogue la phrase qui correspond aux symboles en entrée. L'ensemble opérateur-catalogue imite évidemment le paradigme processeur-algorithme. Et Searle de conclure que la manipulation de symboles syntaxiques par un processeur selon les instructions d'un algorithme n’est en rien constitutive d'une quelconque sémantique en action, ou d'une compréhension de ce que le processeur manie (6). Searle a raison sur la limite du processeur-algorithme, appareillage purement syntaxique. En revanche, une telle machine ne peut pas passer le test de Turing.


Voyons de plus près pourquoi l'opérateur de la chambre chinoise ne peut tromper pendant très longtemps le locuteur expert en mandarin.


Imaginons, pour faciliter la compréhension, un catalogue de phrases en français et donc une chambre française. Le locuteur n'est plus chinois mais français, et l'opérateur est par exemple chinois et ne connaît rien à langue française... Supposons aussi que les questions et les réponses sont des phrases de 10 mots exactement. Le catalogue permet de faire correspondre une phrase de 10 mots donnée en entrée à une phrase en sortie de 10 mots également, en fonction du contexte de la conversation (les dernières phrases échangées entre le locuteur et l'opérateur).


Si le Petit Robert compte environ 60 000 mots, un être cultivé en connaîtrait autour de 30 000 (7). Pour simplifier l'estimation, supposons que 10 000 mots sont nécessaires pour tenir une conversation soutenue. Le nombre total de phrases différentes de 10 mots que l'on peut faire dans ce type de conversation est donc 10 000 puissance 10, c'est-à-dire : 10 puissance 40. Un nombre que l'on peut déjà qualifier de gigantesque (8).


Nous sommes en plein test de Turing d'une chambre française. Le locuteur rentre sa 5ième phrase (l'opérateur a répondu 4 fois). Le contexte de la conversation est donc constitué de 9 phrases de 10 mots. À ce stade, les possibilités de contexte sont de 10 000 puissance 90, c'est-à-dire : 10 puissance 360 ! Alors que le test ne fait que commencer, l'opérateur a déjà un nombre plus qu'astronomique de dialogues différents à consulter dans son catalogue, pour « matcher » avec le contexte de la conversation en cours, seul espoir pour lui de réagir de manière appropriée à la 5ième entrée du locuteur.


Cette illustration chiffrée montre combien le nombre de conversations différentes entre 2 interlocuteurs est potentiellement infini. Ce qui demande un catalogue d'une épaisseur infinie et donc une aptitude « invraisemblable » chez l'opérateur pour manipuler une telle liste dans un temps fini. Sachant que les temps de réponse dans un dialogue humain sont plutôt rapides (de l'ordre de la seconde), une chambre chinoise ne peut qu'échouer au test de Turing, contrairement à l'hypothèse essentielle tenue par John Searle dans son expérience de pensée (9).


Le « vivant » n'est pas calculable

En 1936, Alan Turing résout un problème de haut vol de logique mathématique via un nouveau concept : la machine de Turing, sorte de modèle abstrait pouvant accomplir une séquence d'opérations logiques à partir de données inscrites sur un ruban d'entrées/sorties supposé infini. Turing introduit également la notion de machine universelle de Turing, qui simule n'importe quelle machine de Turing. Les ordinateurs, avec leurs périphériques d'entrées/sorties, leurs processeurs et algorithmes, sont des machines universelles de Turing. De même, une chambre chinoise est équivalente à une machine de Turing (10).


Représentation d'une machine de Turing, avec son ruban de données et sa tête de lecture/écriture. On peut imaginer que la table de transitions (l'algorithme) et le dispositif qui l'actionne sont empaquetés dans le boîtier d'entrée/sortie

Alan Turing redéfinit de façon innovante la notion de ce qui est calculable ou non : « Il montre que ce qui est calculable peut être décomposé en un nombre fini d'étapes pouvant chacune être calculée par une machine de Turing » résume Jean Lassègue, philosophe au Centre de recherche en épistémologie appliquée au CNRS/École polytechnique (11). Il se trouve que ce qui est calculable est prédictible. L'inattendu, de par sa nature aléatoire, ne peut être calculé. Les processus biologiques évoluent en fonction des aléas provenant de leur environnement, c'est en partie la raison pour laquelle le « vivant » est non-calculable.


Alors que Turing voulait créer une machine capable de penser, il se détourne des ordinateurs, dont on peut dire qu'il est le père. Durant les 4 dernières années de sa vie, il va se passionner pour la morphogenèse, l'étude des lois naturelles qui font qu'un organisme animal ou végétal va adopter une forme plutôt qu'une autre (12). De la prédictibilité des algorithmes, le logicien va élargir son horizon vers la biologie et tenter de percer le secret (non-calculable) des formes vivantes.


Malgré les spectaculaires progrès de l'IA, les intelligences humaines et animales restent très loin devant celles des machines. À défaut d'un contre-exemple, nous pouvons postuler que l'intelligence est spécifique au vivant. Le paradigme processeur-algorithme (insufflé par la machine de Turing) ne réussira pas le test de Turing, quel que soit la puissance de calcul des processeurs ou la pertinence des algorithmes. Calculer n'est pas penser.


La naissance d'une véritable intelligence artificielle va exiger une rupture épistémologique. Cette révolution, si elle survient un jour, sera probablement basée sur une compréhension approfondie du vivant (biologie, biochimie, génétique,...) et la connaissance des mécanismes de la pensée (neurosciences, neurogenèse, psychologie,...). On peut alors se demander si Turing n'a pas anticipé – alors qu'il venait de poser les fondations de l'informatique – la nécessité d'intégrer les sciences de la vie pour passer le test éponyme.









Notes et références :

(1) Non, le test de turing n'a pas été passé par Eugène Goostman

https://www.sciencesetavenir.fr/fondamental/non-le-test-de-turing-n-a-pas-ete-passe-par-eugene-goostman_23114


(2) Test de Turing – un test pour mesurer l'intelligence artificielle

http://www.artificiel.net/test-de-turing


(3) Dans cette expérience de pensée, Einstein imagine un observateur dans un ascenseur en dehors du champ de gravitation de la Terre mais soumis à une accélération constante égale à la pesanteur, sorte de cabine dépourvue de hublot, tirée vers le haut par « un géant cosmique ». En l'absence de tout repère visuel extérieur, l'observateur ne peut différencier s'il est soumis à la gravité terrestre ou bien à une accélération. Einstein en conclue que gravitation et accélération sont localement équivalents et doivent être exprimés de manière identiques dans le langage de la physique.

https://fr.wikipedia.org/wiki/Ascenseur_d%27Einstein#:~:text=Description%20de%20l'exp%C3%A9rience%20de%20pens%C3%A9e,-La%20chute%20d&text=Einstein%20a%20utilis%C3%A9%20l'image,utilise%20que%20des%20ph%C3%A9nom%C3%A8nes%20m%C3%A9caniques


(4) Pensées Philosophiques, chapitre XX – Denis Diderot

https://books.google.fr/books?id=gYY9AAAAcAAJ&printsec=frontcover&dq=pens%C3%A9es+philosophiques+denis+diderot#v=onepage&q=pens%C3%A9es%20philosophiques%20denis%20diderot&f=false


(5) Les schémas de Winograd

https://hal.archives-ouvertes.fr/hal-01628342/document


(6) La chambre chinoise – Wikipedia

https://fr.wikipedia.org/wiki/Chambre_chinoise


(7) Selon le Petit Robert, la langue française compte environ 60 000 mots

https://www.orientation-education.com/article/1-000-c-est-le-nombre-moyen-de-mots-utilises-par-un-lyceen


(8) A titre comparatif, le nombre d'atomes composant la Terre est évalué à 10 puissance 50 et celui contenu dans l'Univers observable à 10 puissance 80

https://fr.wikipedia.org/wiki/Ordres_de_grandeur_de_nombres


(9) Les nouvelles techniques de Deep Learning ne changent rien à la donne, puisque malgré le côté « auto-évolutif » des algorithmes et le « matching » non plus exact mais statistique du contexte, c'est toujours in fine un algorithme (un catalogue) qui est traité par un ou plusieurs processeurs (opérateurs) sans capacité sémantique.


(10) En effet, le flot de symboles chinois qui entrent et sortent de la chambre chinoise est le ruban de la machine de Turing ; le catalogue est la table de transitions (le programme) ; et l'opérateur est le système qui fait fonctionner la table de transitions.


(11) Alan Turing, génie au destin brisé – CNRS Le Journal

https://lejournal.cnrs.fr/articles/alan-turing-genie-au-destin-brise


(12) Morphogenèse – Wikipedia

https://fr.wikipedia.org/wiki/Morphogen%C3%A8se