Computación en tiempo de prueba: desde el Pensamiento del Sistema-1 hasta el Pensamiento del Sistema-2

Resumen

El notable rendimiento del modelo o1 en el razonamiento complejo demuestra que la escalabilidad del cálculo en tiempo de prueba puede desbloquear aún más el potencial del modelo, permitiendo un pensamiento poderoso del Sistema-2. Sin embargo, todavía existe una falta de encuestas exhaustivas sobre la escalabilidad del cálculo en tiempo de prueba. Rastreamos el concepto de cálculo en tiempo de prueba hasta los modelos del Sistema-1. En los modelos del Sistema-1, el cálculo en tiempo de prueba aborda cambios en la distribución y mejora la robustez y generalización a través de la actualización de parámetros, la modificación de entradas, la edición de representaciones y la calibración de salidas. En los modelos del Sistema-2, mejora la capacidad de razonamiento del modelo para resolver problemas complejos a través de muestreos repetidos, autocorrección y búsqueda en árbol. Organizamos esta encuesta de acuerdo con la tendencia del pensamiento del Sistema-1 al Sistema-2, resaltando el papel clave del cálculo en tiempo de prueba en la transición de modelos del Sistema-1 a modelos débiles del Sistema-2, y luego a modelos fuertes del Sistema-2. También señalamos algunas posibles direcciones futuras.

English

The remarkable performance of the o1 model in complex reasoning demonstrates that test-time computing scaling can further unlock the model's potential, enabling powerful System-2 thinking. However, there is still a lack of comprehensive surveys for test-time computing scaling. We trace the concept of test-time computing back to System-1 models. In System-1 models, test-time computing addresses distribution shifts and improves robustness and generalization through parameter updating, input modification, representation editing, and output calibration. In System-2 models, it enhances the model's reasoning ability to solve complex problems through repeated sampling, self-correction, and tree search. We organize this survey according to the trend of System-1 to System-2 thinking, highlighting the key role of test-time computing in the transition from System-1 models to weak System-2 models, and then to strong System-2 models. We also point out a few possible future directions.