ChatPaper.aiChatPaper

Wir können KI nicht mit unserem vorhandenen Vokabular verstehen.

We Can't Understand AI Using our Existing Vocabulary

February 11, 2025
Autoren: John Hewitt, Robert Geirhos, Been Kim
cs.AI

Zusammenfassung

Dieses Positionspapier argumentiert, dass wir, um KI zu verstehen, nicht auf unseren bestehenden Wortschatz menschlicher Wörter vertrauen können. Stattdessen sollten wir bestrebt sein, Neologismen zu entwickeln: neue Wörter, die präzise menschliche Konzepte repräsentieren, die wir Maschinen beibringen möchten, oder Maschinenkonzepte, die wir erlernen müssen. Wir gehen von der Prämisse aus, dass Menschen und Maschinen unterschiedliche Konzepte haben. Dies bedeutet, dass Interpretierbarkeit als ein Kommunikationsproblem betrachtet werden kann: Menschen müssen in der Lage sein, auf Maschinenkonzepte Bezug zu nehmen und sie zu kontrollieren sowie menschliche Konzepte an Maschinen zu kommunizieren. Durch die Entwicklung von Neologismen zur Schaffung einer gemeinsamen menschlich-maschinellen Sprache glauben wir, dass dieses Kommunikationsproblem gelöst werden könnte. Erfolgreiche Neologismen erreichen einen nützlichen Abstraktionsgrad: nicht zu detailliert, um in vielen Kontexten wiederverwendbar zu sein, und nicht zu hochrangig, um präzise Informationen zu vermitteln. Als Machbarkeitsnachweis zeigen wir, wie ein "Längen-Neologismus" die Kontrolle über die Länge der LLM-Antwort ermöglicht, während ein "Diversitäts-Neologismus" das Erzeugen variablerer Antworten ermöglicht. Zusammenfassend argumentieren wir, dass wir KI nicht mithilfe unseres bestehenden Wortschatzes verstehen können und dass die Erweiterung durch Neologismen Möglichkeiten sowohl zur besseren Kontrolle als auch zum besseren Verständnis von Maschinen schafft.
English
This position paper argues that, in order to understand AI, we cannot rely on our existing vocabulary of human words. Instead, we should strive to develop neologisms: new words that represent precise human concepts that we want to teach machines, or machine concepts that we need to learn. We start from the premise that humans and machines have differing concepts. This means interpretability can be framed as a communication problem: humans must be able to reference and control machine concepts, and communicate human concepts to machines. Creating a shared human-machine language through developing neologisms, we believe, could solve this communication problem. Successful neologisms achieve a useful amount of abstraction: not too detailed, so they're reusable in many contexts, and not too high-level, so they convey precise information. As a proof of concept, we demonstrate how a "length neologism" enables controlling LLM response length, while a "diversity neologism" allows sampling more variable responses. Taken together, we argue that we cannot understand AI using our existing vocabulary, and expanding it through neologisms creates opportunities for both controlling and understanding machines better.

Summary

AI-Generated Summary

PDF104February 17, 2025