O Que um Modelo de Fundação Descobriu? Usando Viés Indutivo para Investigar Modelos de Mundo
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models
July 9, 2025
Autores: Keyon Vafa, Peter G. Chang, Ashesh Rambachan, Sendhil Mullainathan
cs.AI
Resumo
Modelos de base fundamentam-se na ideia de que a previsão de sequências pode revelar uma compreensão mais profunda do domínio, assim como as previsões de Kepler sobre o movimento planetário levaram posteriormente à descoberta da mecânica newtoniana. No entanto, avaliar se esses modelos realmente capturam estruturas mais profundas continua sendo um desafio. Desenvolvemos uma técnica para avaliar modelos de base que examina como eles se adaptam a conjuntos de dados sintéticos gerados a partir de um modelo de mundo postulado. Nossa técnica mede se o viés indutivo do modelo de base está alinhado com o modelo de mundo e, por isso, a chamamos de sonda de viés indutivo. Em vários domínios, descobrimos que os modelos de base podem se destacar em suas tarefas de treinamento, mas falham em desenvolver vieses indutivos em relação ao modelo de mundo subjacente quando adaptados a novas tarefas. Em particular, observamos que modelos de base treinados em trajetórias orbitais consistentemente falham em aplicar a mecânica newtoniana quando adaptados a novas tarefas de física. Uma análise mais aprofundada revela que esses modelos se comportam como se desenvolvessem heurísticas específicas para cada tarefa que não conseguem generalizar.
English
Foundation models are premised on the idea that sequence prediction can
uncover deeper domain understanding, much like how Kepler's predictions of
planetary motion later led to the discovery of Newtonian mechanics. However,
evaluating whether these models truly capture deeper structure remains a
challenge. We develop a technique for evaluating foundation models that
examines how they adapt to synthetic datasets generated from some postulated
world model. Our technique measures whether the foundation model's inductive
bias aligns with the world model, and so we refer to it as an inductive bias
probe. Across multiple domains, we find that foundation models can excel at
their training tasks yet fail to develop inductive biases towards the
underlying world model when adapted to new tasks. We particularly find that
foundation models trained on orbital trajectories consistently fail to apply
Newtonian mechanics when adapted to new physics tasks. Further analysis reveals
that these models behave as if they develop task-specific heuristics that fail
to generalize.