Поиск с Первым Завершением: Эффективное Масштабирование во Время Тестирования в Больших Языковых Моделях
First Finish Search: Efficient Test-Time Scaling in Large Language Models
May 23, 2025
Авторы: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty
cs.AI
Аннотация
Масштабирование во время тестирования (Test-time scaling, TTS), которое предполагает динамическое распределение вычислительных ресурсов в процессе вывода, предлагает перспективный способ улучшения способности к рассуждению в больших языковых моделях. Хотя существующие методы TTS работают хорошо, они часто полагаются на длинные пути декодирования или требуют генерации большого количества выборок, что увеличивает использование токенов и задержку вывода. Мы наблюдаем удивительный факт, что для задач на рассуждение более короткие траектории с гораздо большей вероятностью оказываются правильными, чем длинные. Вдохновленные этим, мы представляем стратегию параллельного декодирования First Finish Search (FFS), которая не требует обучения, запускает n независимых выборок и возвращает результат, как только завершается любая из них. Мы оцениваем FFS наряду с простым декодированием, поиском по лучу, голосованием большинства и принудительным ограничением бюджета на четырех моделях для рассуждений (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B и Phi-4-Reasoning-Plus) и на четырех наборах данных (AIME24, AIME25-I, AIME25-II и GPQA Diamond). С моделью DeepSeek-R1 FFS достигает точности 82,23% на наборах данных AIME, что на 15% выше, чем точность DeepSeek-R1 в автономном режиме, почти соответствуя производительности OpenAI o4-mini. Наш теоретический анализ объясняет, почему остановка на самой короткой траектории с большой вероятностью дает правильный ответ, и определяет условия, при которых ранняя остановка может быть неоптимальной. Элегантность и простота FFS демонстрируют, что прямолинейные стратегии TTS могут работать исключительно хорошо, раскрывая неиспользованный потенциал простых подходов во время вывода.
English
Test-time scaling (TTS), which involves dynamic allocation of compute during
inference, offers a promising way to improve reasoning in large language
models. While existing TTS methods work well, they often rely on long decoding
paths or require a large number of samples to be generated, increasing the
token usage and inference latency. We observe the surprising fact that for
reasoning tasks, shorter traces are much more likely to be correct than longer
ones. Motivated by this, we introduce First Finish Search (FFS), a
training-free parallel decoding strategy that launches n independent samples
and returns as soon as any one completes. We evaluate FFS alongside simple
decoding, beam search, majority voting, and budget forcing on four reasoning
models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and
across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With
DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15%
improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's
o4-mini performance. Our theoretical analysis explains why stopping at the
shortest trace is likely to yield a correct answer and identifies the
conditions under which early stopping may be suboptimal. The elegance and
simplicity of FFS demonstrate that straightforward TTS strategies can perform
remarkably well, revealing the untapped potential of simple approaches at
inference time.Summary
AI-Generated Summary