¿Qué ha descubierto un modelo fundacional? Uso del sesgo inductivo para explorar modelos del mundo
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models
July 9, 2025
Autores: Keyon Vafa, Peter G. Chang, Ashesh Rambachan, Sendhil Mullainathan
cs.AI
Resumen
Los modelos fundamentales se basan en la idea de que la predicción de secuencias puede revelar una comprensión más profunda del dominio, de manera similar a cómo las predicciones de Kepler sobre el movimiento planetario llevaron posteriormente al descubrimiento de la mecánica newtoniana. Sin embargo, evaluar si estos modelos realmente capturan una estructura más profunda sigue siendo un desafío. Desarrollamos una técnica para evaluar modelos fundamentales que examina cómo se adaptan a conjuntos de datos sintéticos generados a partir de un modelo de mundo postulado. Nuestra técnica mide si el sesgo inductivo del modelo fundamental se alinea con el modelo de mundo, por lo que la denominamos como una sonda de sesgo inductivo. En múltiples dominios, encontramos que los modelos fundamentales pueden sobresalir en sus tareas de entrenamiento, pero no logran desarrollar sesgos inductivos hacia el modelo de mundo subyacente cuando se adaptan a nuevas tareas. En particular, observamos que los modelos fundamentales entrenados en trayectorias orbitales consistentemente fallan en aplicar la mecánica newtoniana cuando se adaptan a nuevas tareas de física. Un análisis más detallado revela que estos modelos se comportan como si desarrollaran heurísticas específicas para cada tarea que no logran generalizarse.
English
Foundation models are premised on the idea that sequence prediction can
uncover deeper domain understanding, much like how Kepler's predictions of
planetary motion later led to the discovery of Newtonian mechanics. However,
evaluating whether these models truly capture deeper structure remains a
challenge. We develop a technique for evaluating foundation models that
examines how they adapt to synthetic datasets generated from some postulated
world model. Our technique measures whether the foundation model's inductive
bias aligns with the world model, and so we refer to it as an inductive bias
probe. Across multiple domains, we find that foundation models can excel at
their training tasks yet fail to develop inductive biases towards the
underlying world model when adapted to new tasks. We particularly find that
foundation models trained on orbital trajectories consistently fail to apply
Newtonian mechanics when adapted to new physics tasks. Further analysis reveals
that these models behave as if they develop task-specific heuristics that fail
to generalize.