¿Qué ha descubierto un modelo fundacional? Uso del sesgo inductivo para explorar modelos del mundo

Resumen

Los modelos fundamentales se basan en la idea de que la predicción de secuencias puede revelar una comprensión más profunda del dominio, de manera similar a cómo las predicciones de Kepler sobre el movimiento planetario llevaron posteriormente al descubrimiento de la mecánica newtoniana. Sin embargo, evaluar si estos modelos realmente capturan una estructura más profunda sigue siendo un desafío. Desarrollamos una técnica para evaluar modelos fundamentales que examina cómo se adaptan a conjuntos de datos sintéticos generados a partir de un modelo de mundo postulado. Nuestra técnica mide si el sesgo inductivo del modelo fundamental se alinea con el modelo de mundo, por lo que la denominamos como una sonda de sesgo inductivo. En múltiples dominios, encontramos que los modelos fundamentales pueden sobresalir en sus tareas de entrenamiento, pero no logran desarrollar sesgos inductivos hacia el modelo de mundo subyacente cuando se adaptan a nuevas tareas. En particular, observamos que los modelos fundamentales entrenados en trayectorias orbitales consistentemente fallan en aplicar la mecánica newtoniana cuando se adaptan a nuevas tareas de física. Un análisis más detallado revela que estos modelos se comportan como si desarrollaran heurísticas específicas para cada tarea que no logran generalizarse.

English

Foundation models are premised on the idea that sequence prediction can uncover deeper domain understanding, much like how Kepler's predictions of planetary motion later led to the discovery of Newtonian mechanics. However, evaluating whether these models truly capture deeper structure remains a challenge. We develop a technique for evaluating foundation models that examines how they adapt to synthetic datasets generated from some postulated world model. Our technique measures whether the foundation model's inductive bias aligns with the world model, and so we refer to it as an inductive bias probe. Across multiple domains, we find that foundation models can excel at their training tasks yet fail to develop inductive biases towards the underlying world model when adapted to new tasks. We particularly find that foundation models trained on orbital trajectories consistently fail to apply Newtonian mechanics when adapted to new physics tasks. Further analysis reveals that these models behave as if they develop task-specific heuristics that fail to generalize.