Масштабирование на этапе вывода для сложных задач: текущее состояние и перспективы развития
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead
March 31, 2025
Авторы: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
cs.AI
Аннотация
Масштабирование на этапе вывода может улучшить способности крупных языковых моделей (LLM) решать сложные задачи, требующие пошагового подхода. Хотя увеличение длины генерируемых промежуточных записей (scratchpads) доказало свою эффективность для математических задач, более широкое влияние этого подхода на другие типы задач остается менее изученным. В данной работе мы исследуем преимущества и ограничения методов масштабирования на девяти современных моделях и восьми сложных задачах, включая математические и STEM-рассуждения, планирование календаря, NP-сложные задачи, навигацию и пространственное мышление. Мы сравниваем традиционные модели (например, GPT-4o) с моделями, доработанными для масштабирования на этапе вывода (например, o1), с использованием протоколов оценки, включающих повторные вызовы моделей — как независимые, так и последовательные с обратной связью. Эти оценки позволяют приблизить нижние и верхние границы производительности, а также потенциал для будущих улучшений каждой модели, будь то за счет улучшенного обучения или систем многомодельного вывода. Наш обширный эмпирический анализ показывает, что преимущества масштабирования на этапе вывода варьируются в зависимости от задач и уменьшаются с ростом сложности проблемы. Кроме того, простое увеличение количества токенов не всегда приводит к повышению точности в таких сложных условиях. Результаты множества независимых запусков традиционных моделей с использованием идеальных верификаторов показывают, что для некоторых задач эти модели могут достичь производительности, близкой к средней производительности современных наиболее продвинутых моделей рассуждений. Однако для других задач сохраняется значительный разрыв в производительности, даже при очень высоких уровнях масштабирования. Обнадеживает то, что все модели демонстрируют значительные улучшения, когда вывод дополнительно масштабируется с использованием идеальных верификаторов или сильной обратной связи, что указывает на значительный потенциал для будущих улучшений.
English
Inference-time scaling can enhance the reasoning capabilities of large
language models (LLMs) on complex problems that benefit from step-by-step
problem solving. Although lengthening generated scratchpads has proven
effective for mathematical tasks, the broader impact of this approach on other
tasks remains less clear. In this work, we investigate the benefits and
limitations of scaling methods across nine state-of-the-art models and eight
challenging tasks, including math and STEM reasoning, calendar planning,
NP-hard problems, navigation, and spatial reasoning. We compare conventional
models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g.,
o1) through evaluation protocols that involve repeated model calls, either
independently or sequentially with feedback. These evaluations approximate
lower and upper performance bounds and potential for future performance
improvements for each model, whether through enhanced training or multi-model
inference systems. Our extensive empirical analysis reveals that the advantages
of inference-time scaling vary across tasks and diminish as problem complexity
increases. In addition, simply using more tokens does not necessarily translate
to higher accuracy in these challenging regimes. Results from multiple
independent runs with conventional models using perfect verifiers show that,
for some tasks, these models can achieve performance close to the average
performance of today's most advanced reasoning models. However, for other
tasks, a significant performance gap remains, even in very high scaling
regimes. Encouragingly, all models demonstrate significant gains when inference
is further scaled with perfect verifiers or strong feedback, suggesting ample
potential for future improvements.Summary
AI-Generated Summary