Wat Heeft een Foundation Model Ontdekt? Het Gebruik van Inductieve Bias om Wereldmodellen te Onderzoeken
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models
July 9, 2025
Auteurs: Keyon Vafa, Peter G. Chang, Ashesh Rambachan, Sendhil Mullainathan
cs.AI
Samenvatting
Foundation models zijn gebaseerd op het idee dat sequentievoorspelling een dieper domeinbegrip kan onthullen, net zoals Keplers voorspellingen van planetaire beweging later leidden tot de ontdekking van de Newtoniaanse mechanica. Het blijft echter een uitdaging om te evalueren of deze modellen daadwerkelijk diepere structuren vastleggen. We ontwikkelen een techniek voor het evalueren van foundation models die onderzoekt hoe ze zich aanpassen aan synthetische datasets die gegenereerd zijn vanuit een verondersteld wereldmodel. Onze techniek meet of de inductieve bias van het foundation model overeenkomt met het wereldmodel, en daarom noemen we het een inductieve bias-probe. Over meerdere domeinen heen constateren we dat foundation models uitblinken in hun trainings taken, maar er niet in slagen inductieve biases te ontwikkelen ten opzichte van het onderliggende wereldmodel wanneer ze worden aangepast aan nieuwe taken. We ontdekken met name dat foundation models die getraind zijn op baan trajecten consistent falen in het toepassen van Newtoniaanse mechanica wanneer ze worden aangepast aan nieuwe natuurkundige taken. Verdere analyse onthult dat deze modellen zich gedragen alsof ze taakspecifieke heuristieken ontwikkelen die niet generaliseren.
English
Foundation models are premised on the idea that sequence prediction can
uncover deeper domain understanding, much like how Kepler's predictions of
planetary motion later led to the discovery of Newtonian mechanics. However,
evaluating whether these models truly capture deeper structure remains a
challenge. We develop a technique for evaluating foundation models that
examines how they adapt to synthetic datasets generated from some postulated
world model. Our technique measures whether the foundation model's inductive
bias aligns with the world model, and so we refer to it as an inductive bias
probe. Across multiple domains, we find that foundation models can excel at
their training tasks yet fail to develop inductive biases towards the
underlying world model when adapted to new tasks. We particularly find that
foundation models trained on orbital trajectories consistently fail to apply
Newtonian mechanics when adapted to new physics tasks. Further analysis reveals
that these models behave as if they develop task-specific heuristics that fail
to generalize.