Масштабирование на этапе вывода для сложных задач: текущее состояние и перспективы развития

Аннотация

Масштабирование на этапе вывода может улучшить способности крупных языковых моделей (LLM) решать сложные задачи, требующие пошагового подхода. Хотя увеличение длины генерируемых промежуточных записей (scratchpads) доказало свою эффективность для математических задач, более широкое влияние этого подхода на другие типы задач остается менее изученным. В данной работе мы исследуем преимущества и ограничения методов масштабирования на девяти современных моделях и восьми сложных задачах, включая математические и STEM-рассуждения, планирование календаря, NP-сложные задачи, навигацию и пространственное мышление. Мы сравниваем традиционные модели (например, GPT-4o) с моделями, доработанными для масштабирования на этапе вывода (например, o1), с использованием протоколов оценки, включающих повторные вызовы моделей — как независимые, так и последовательные с обратной связью. Эти оценки позволяют приблизить нижние и верхние границы производительности, а также потенциал для будущих улучшений каждой модели, будь то за счет улучшенного обучения или систем многомодельного вывода. Наш обширный эмпирический анализ показывает, что преимущества масштабирования на этапе вывода варьируются в зависимости от задач и уменьшаются с ростом сложности проблемы. Кроме того, простое увеличение количества токенов не всегда приводит к повышению точности в таких сложных условиях. Результаты множества независимых запусков традиционных моделей с использованием идеальных верификаторов показывают, что для некоторых задач эти модели могут достичь производительности, близкой к средней производительности современных наиболее продвинутых моделей рассуждений. Однако для других задач сохраняется значительный разрыв в производительности, даже при очень высоких уровнях масштабирования. Обнадеживает то, что все модели демонстрируют значительные улучшения, когда вывод дополнительно масштабируется с использованием идеальных верификаторов или сильной обратной связи, что указывает на значительный потенциал для будущих улучшений.

English

Inference-time scaling can enhance the reasoning capabilities of large language models (LLMs) on complex problems that benefit from step-by-step problem solving. Although lengthening generated scratchpads has proven effective for mathematical tasks, the broader impact of this approach on other tasks remains less clear. In this work, we investigate the benefits and limitations of scaling methods across nine state-of-the-art models and eight challenging tasks, including math and STEM reasoning, calendar planning, NP-hard problems, navigation, and spatial reasoning. We compare conventional models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g., o1) through evaluation protocols that involve repeated model calls, either independently or sequentially with feedback. These evaluations approximate lower and upper performance bounds and potential for future performance improvements for each model, whether through enhanced training or multi-model inference systems. Our extensive empirical analysis reveals that the advantages of inference-time scaling vary across tasks and diminish as problem complexity increases. In addition, simply using more tokens does not necessarily translate to higher accuracy in these challenging regimes. Results from multiple independent runs with conventional models using perfect verifiers show that, for some tasks, these models can achieve performance close to the average performance of today's most advanced reasoning models. However, for other tasks, a significant performance gap remains, even in very high scaling regimes. Encouragingly, all models demonstrate significant gains when inference is further scaled with perfect verifiers or strong feedback, suggesting ample potential for future improvements.

Масштабирование на этапе вывода для сложных задач: текущее состояние и перспективы развития

Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Аннотация

Support