Nous ne pouvons pas comprendre l'IA avec notre vocabulaire actuel.
We Can't Understand AI Using our Existing Vocabulary
February 11, 2025
Auteurs: John Hewitt, Robert Geirhos, Been Kim
cs.AI
Résumé
Ce document de position soutient que, pour comprendre l'IA, nous ne pouvons pas nous appuyer sur notre vocabulaire existant de mots humains. Au lieu de cela, nous devrions nous efforcer de développer des néologismes : de nouveaux mots qui représentent des concepts humains précis que nous souhaitons enseigner aux machines, ou des concepts machines que nous devons apprendre. Nous partons du postulat que les humains et les machines ont des concepts différents. Cela signifie que l'interprétabilité peut être envisagée comme un problème de communication : les humains doivent être capables de référencer et de contrôler les concepts machines, et de communiquer des concepts humains aux machines. Nous croyons que la création d'un langage partagé entre humains et machines, grâce au développement de néologismes, pourrait résoudre ce problème de communication. Les néologismes réussis atteignent un niveau d'abstraction utile : pas trop détaillés, afin d'être réutilisables dans de nombreux contextes, et pas trop généraux, afin de transmettre des informations précises. À titre de preuve de concept, nous démontrons comment un "néologisme de longueur" permet de contrôler la longueur des réponses des LLM, tandis qu'un "néologisme de diversité" permet d'échantillonner des réponses plus variées. En somme, nous soutenons que nous ne pouvons pas comprendre l'IA en utilisant notre vocabulaire existant, et que son expansion par le biais de néologismes crée des opportunités pour mieux contrôler et comprendre les machines.
English
This position paper argues that, in order to understand AI, we cannot rely on
our existing vocabulary of human words. Instead, we should strive to develop
neologisms: new words that represent precise human concepts that we want to
teach machines, or machine concepts that we need to learn. We start from the
premise that humans and machines have differing concepts. This means
interpretability can be framed as a communication problem: humans must be able
to reference and control machine concepts, and communicate human concepts to
machines. Creating a shared human-machine language through developing
neologisms, we believe, could solve this communication problem. Successful
neologisms achieve a useful amount of abstraction: not too detailed, so they're
reusable in many contexts, and not too high-level, so they convey precise
information. As a proof of concept, we demonstrate how a "length neologism"
enables controlling LLM response length, while a "diversity neologism" allows
sampling more variable responses. Taken together, we argue that we cannot
understand AI using our existing vocabulary, and expanding it through
neologisms creates opportunities for both controlling and understanding
machines better.Summary
AI-Generated Summary