Вычисления во время тестирования: от мышления системы-1 к мышлению системы-2
Test-time Computing: from System-1 Thinking to System-2 Thinking
January 5, 2025
Авторы: Yixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang
cs.AI
Аннотация
Замечательная производительность модели o1 в сложном рассуждении демонстрирует, что масштабирование вычислений во время тестирования может дополнительно раскрывать потенциал модели, обеспечивая мощное мышление системы-2. Однако до сих пор отсутствуют всеобъемлющие обзоры для масштабирования вычислений во время тестирования. Мы прослеживаем концепцию вычислений во время тестирования до моделей системы-1. В моделях системы-1 вычисления во время тестирования решают проблемы с распределением и улучшают устойчивость и обобщение через обновление параметров, модификацию входных данных, редактирование представления и калибровку вывода. В моделях системы-2 это улучшает способность модели к рассуждению для решения сложных проблем через повторное выборочное обучение, самокоррекцию и поиск по дереву. Мы организуем этот обзор в соответствии с тенденцией от мышления системы-1 к мышлению системы-2, выделяя ключевую роль вычислений во время тестирования в переходе от моделей системы-1 к слабым моделям системы-2, а затем к сильным моделям системы-2. Мы также указываем на несколько возможных направлений для будущих исследований.
English
The remarkable performance of the o1 model in complex reasoning demonstrates
that test-time computing scaling can further unlock the model's potential,
enabling powerful System-2 thinking. However, there is still a lack of
comprehensive surveys for test-time computing scaling. We trace the concept of
test-time computing back to System-1 models. In System-1 models, test-time
computing addresses distribution shifts and improves robustness and
generalization through parameter updating, input modification, representation
editing, and output calibration. In System-2 models, it enhances the model's
reasoning ability to solve complex problems through repeated sampling,
self-correction, and tree search. We organize this survey according to the
trend of System-1 to System-2 thinking, highlighting the key role of test-time
computing in the transition from System-1 models to weak System-2 models, and
then to strong System-2 models. We also point out a few possible future
directions.Summary
AI-Generated Summary