Не усложняйте. Предпочтение более коротких цепочек рассуждений для улучшения логического мышления в языковых моделях.
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
May 23, 2025
Авторы: Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz
cs.AI
Аннотация
Крупные языковые модели (LLM), выполняющие задачи рассуждения, в значительной степени полагаются на масштабирование вычислительных ресурсов во время тестирования для выполнения сложных задач рассуждения путем генерации длинных цепочек "размышлений". Хотя этот подход демонстрирует впечатляющие результаты, он сопряжен с высокими вычислительными затратами и временем вывода. В данной работе мы ставим под сомнение предположение, что длинные цепочки размышлений приводят к лучшим способностям рассуждения. Сначала мы показываем, что более короткие цепочки рассуждений в рамках отдельных вопросов значительно чаще приводят к правильным ответам — точность может быть выше на 34,5% по сравнению с самой длинной цепочкой, сгенерированной для того же вопроса. На основе этих результатов мы предлагаем short-m@k — новый метод вывода для LLM, выполняющих рассуждения. Наш метод выполняет k независимых генераций параллельно и останавливает вычисления, как только завершаются первые m процессов размышлений. Окончательный ответ выбирается с помощью мажоритарного голосования среди этих m цепочек. Базовый метод short-1@k демонстрирует схожую или даже превосходящую производительность по сравнению со стандартным мажоритарным голосованием в условиях ограниченных вычислительных ресурсов — используя до 40% меньше токенов размышлений. Метод short-3@k, хотя и менее эффективен, чем short-1@k, стабильно превосходит мажоритарное голосование при всех уровнях вычислительных ресурсов, оставаясь при этом значительно быстрее (сокращение времени выполнения до 33%). Вдохновленные нашими результатами, мы дообучаем LLM, используя короткие, длинные и случайно выбранные цепочки рассуждений. Затем мы наблюдаем, что обучение на более коротких цепочках приводит к лучшей производительности. Наши результаты указывают на необходимость пересмотра текущих методов использования вычислительных ресурсов во время тестирования в LLM, выполняющих рассуждения, подчеркивая, что более длительные "размышления" не обязательно приводят к улучшению производительности и могут, вопреки интуиции, ухудшать результаты.
English
Reasoning large language models (LLMs) heavily rely on scaling test-time
compute to perform complex reasoning tasks by generating extensive "thinking"
chains. While demonstrating impressive results, this approach incurs
significant computational costs and inference time. In this work, we challenge
the assumption that long thinking chains results in better reasoning
capabilities. We first demonstrate that shorter reasoning chains within
individual questions are significantly more likely to yield correct answers -
up to 34.5% more accurate than the longest chain sampled for the same question.
Based on these results, we suggest short-m@k, a novel reasoning LLM inference
method. Our method executes k independent generations in parallel and halts
computation once the first m thinking processes are done. The final answer is
chosen using majority voting among these m chains. Basic short-1@k demonstrates
similar or even superior performance over standard majority voting in
low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while
slightly less efficient than short-1@k, consistently surpasses majority voting
across all compute budgets, while still being substantially faster (up to 33%
wall time reduction). Inspired by our results, we finetune an LLM using short,
long, and randomly selected reasoning chains. We then observe that training on
the shorter ones leads to better performance. Our findings suggest rethinking
current methods of test-time compute in reasoning LLMs, emphasizing that longer
"thinking" does not necessarily translate to improved performance and can,
counter-intuitively, lead to degraded results.Summary
AI-Generated Summary