Não Podemos Compreender a IA Usando Nosso Vocabulário Existente
We Can't Understand AI Using our Existing Vocabulary
February 11, 2025
Autores: John Hewitt, Robert Geirhos, Been Kim
cs.AI
Resumo
Este artigo de posicionamento argumenta que, para compreender a IA, não podemos depender do nosso vocabulário existente de palavras humanas. Em vez disso, devemos nos esforçar para desenvolver neologismos: novas palavras que representem conceitos humanos precisos que desejamos ensinar às máquinas, ou conceitos de máquinas que precisamos aprender. Partimos da premissa de que humanos e máquinas possuem conceitos diferentes. Isso significa que a interpretabilidade pode ser enquadrada como um problema de comunicação: os humanos devem ser capazes de referenciar e controlar os conceitos das máquinas, e comunicar conceitos humanos às máquinas. Acreditamos que a criação de uma linguagem compartilhada entre humanos e máquinas, por meio do desenvolvimento de neologismos, poderia resolver esse problema de comunicação. Neologismos bem-sucedidos alcançam um nível útil de abstração: não são muito detalhados, para que possam ser reutilizados em muitos contextos, e não são muito abstratos, para que transmitam informações precisas. Como prova de conceito, demonstramos como um "neologismo de comprimento" permite controlar o tamanho das respostas de um LLM, enquanto um "neologismo de diversidade" permite amostrar respostas mais variáveis. Em conjunto, argumentamos que não podemos compreender a IA usando nosso vocabulário existente, e que expandi-lo por meio de neologismos cria oportunidades tanto para controlar quanto para entender melhor as máquinas.
English
This position paper argues that, in order to understand AI, we cannot rely on
our existing vocabulary of human words. Instead, we should strive to develop
neologisms: new words that represent precise human concepts that we want to
teach machines, or machine concepts that we need to learn. We start from the
premise that humans and machines have differing concepts. This means
interpretability can be framed as a communication problem: humans must be able
to reference and control machine concepts, and communicate human concepts to
machines. Creating a shared human-machine language through developing
neologisms, we believe, could solve this communication problem. Successful
neologisms achieve a useful amount of abstraction: not too detailed, so they're
reusable in many contexts, and not too high-level, so they convey precise
information. As a proof of concept, we demonstrate how a "length neologism"
enables controlling LLM response length, while a "diversity neologism" allows
sampling more variable responses. Taken together, we argue that we cannot
understand AI using our existing vocabulary, and expanding it through
neologisms creates opportunities for both controlling and understanding
machines better.Summary
AI-Generated Summary