Что обнаружила фундаментальная модель? Использование индуктивного смещения для исследования мировых моделей
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models
July 9, 2025
Авторы: Keyon Vafa, Peter G. Chang, Ashesh Rambachan, Sendhil Mullainathan
cs.AI
Аннотация
Фундаментальные модели основаны на идее, что предсказание последовательностей может раскрыть более глубокое понимание предметной области, подобно тому, как предсказания Кеплера о движении планет впоследствии привели к открытию ньютоновской механики. Однако оценка того, действительно ли эти модели улавливают более глубокую структуру, остается сложной задачей. Мы разработали метод оценки фундаментальных моделей, который исследует, как они адаптируются к синтетическим наборам данных, сгенерированным на основе некоторой предполагаемой модели мира. Наш метод измеряет, соответствует ли индуктивное смещение фундаментальной модели модели мира, и поэтому мы называем его зондом индуктивного смещения. В различных областях мы обнаруживаем, что фундаментальные модели могут преуспевать в своих обучающих задачах, но при этом не развивают индуктивные смещения в сторону базовой модели мира при адаптации к новым задачам. В частности, мы обнаруживаем, что фундаментальные модели, обученные на орбитальных траекториях, последовательно не применяют ньютоновскую механику при адаптации к новым физическим задачам. Дальнейший анализ показывает, что эти модели ведут себя так, как если бы они разрабатывали специфические для задачи эвристики, которые не обобщаются.
English
Foundation models are premised on the idea that sequence prediction can
uncover deeper domain understanding, much like how Kepler's predictions of
planetary motion later led to the discovery of Newtonian mechanics. However,
evaluating whether these models truly capture deeper structure remains a
challenge. We develop a technique for evaluating foundation models that
examines how they adapt to synthetic datasets generated from some postulated
world model. Our technique measures whether the foundation model's inductive
bias aligns with the world model, and so we refer to it as an inductive bias
probe. Across multiple domains, we find that foundation models can excel at
their training tasks yet fail to develop inductive biases towards the
underlying world model when adapted to new tasks. We particularly find that
foundation models trained on orbital trajectories consistently fail to apply
Newtonian mechanics when adapted to new physics tasks. Further analysis reveals
that these models behave as if they develop task-specific heuristics that fail
to generalize.