ChatPaper.aiChatPaper

Was hat ein Foundation Model gelernt? Die Nutzung von Induktiver Verzerrung zur Untersuchung von Weltmodellen

What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models

July 9, 2025
papers.authors: Keyon Vafa, Peter G. Chang, Ashesh Rambachan, Sendhil Mullainathan
cs.AI

papers.abstract

Foundation Models basieren auf der Idee, dass Sequenzvorhersagen ein tieferes Verständnis eines Domänenbereichs offenbaren können, ähnlich wie Keplers Vorhersagen der Planetenbewegungen später zur Entdeckung der Newtonschen Mechanik führten. Die Bewertung, ob diese Modelle tatsächlich eine tiefere Struktur erfassen, bleibt jedoch eine Herausforderung. Wir entwickeln eine Technik zur Bewertung von Foundation Models, die untersucht, wie sie sich an synthetische Datensätze anpassen, die aus einem postulierten Weltmodell generiert wurden. Unsere Technik misst, ob der induktive Bias des Foundation Models mit dem Weltmodell übereinstimmt, und bezeichnen sie daher als eine induktive Bias-Sonde. Über mehrere Domänen hinweg stellen wir fest, dass Foundation Models zwar in ihren Trainingsaufgaben exzellente Leistungen erbringen können, jedoch oft keine induktiven Biases gegenüber dem zugrunde liegenden Weltmodell entwickeln, wenn sie an neue Aufgaben angepasst werden. Insbesondere beobachten wir, dass Foundation Models, die auf Bahntrajektorien trainiert wurden, konsequent versagen, die Newtonsche Mechanik bei der Anpassung an neue physikalische Aufgaben anzuwenden. Eine weitergehende Analyse zeigt, dass sich diese Modelle so verhalten, als ob sie aufgabenspezifische Heuristiken entwickeln, die nicht verallgemeinerbar sind.
English
Foundation models are premised on the idea that sequence prediction can uncover deeper domain understanding, much like how Kepler's predictions of planetary motion later led to the discovery of Newtonian mechanics. However, evaluating whether these models truly capture deeper structure remains a challenge. We develop a technique for evaluating foundation models that examines how they adapt to synthetic datasets generated from some postulated world model. Our technique measures whether the foundation model's inductive bias aligns with the world model, and so we refer to it as an inductive bias probe. Across multiple domains, we find that foundation models can excel at their training tasks yet fail to develop inductive biases towards the underlying world model when adapted to new tasks. We particularly find that foundation models trained on orbital trajectories consistently fail to apply Newtonian mechanics when adapted to new physics tasks. Further analysis reveals that these models behave as if they develop task-specific heuristics that fail to generalize.
PDF71July 14, 2025