ChatPaper.aiChatPaper

Не усложняйте. Предпочтение более коротких цепочек рассуждений для улучшения логического мышления в языковых моделях.

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

May 23, 2025
Авторы: Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz
cs.AI

Аннотация

Крупные языковые модели (LLM), выполняющие задачи рассуждения, в значительной степени полагаются на масштабирование вычислительных ресурсов во время тестирования для выполнения сложных задач рассуждения путем генерации длинных цепочек "размышлений". Хотя этот подход демонстрирует впечатляющие результаты, он сопряжен с высокими вычислительными затратами и временем вывода. В данной работе мы ставим под сомнение предположение, что длинные цепочки размышлений приводят к лучшим способностям рассуждения. Сначала мы показываем, что более короткие цепочки рассуждений в рамках отдельных вопросов значительно чаще приводят к правильным ответам — точность может быть выше на 34,5% по сравнению с самой длинной цепочкой, сгенерированной для того же вопроса. На основе этих результатов мы предлагаем short-m@k — новый метод вывода для LLM, выполняющих рассуждения. Наш метод выполняет k независимых генераций параллельно и останавливает вычисления, как только завершаются первые m процессов размышлений. Окончательный ответ выбирается с помощью мажоритарного голосования среди этих m цепочек. Базовый метод short-1@k демонстрирует схожую или даже превосходящую производительность по сравнению со стандартным мажоритарным голосованием в условиях ограниченных вычислительных ресурсов — используя до 40% меньше токенов размышлений. Метод short-3@k, хотя и менее эффективен, чем short-1@k, стабильно превосходит мажоритарное голосование при всех уровнях вычислительных ресурсов, оставаясь при этом значительно быстрее (сокращение времени выполнения до 33%). Вдохновленные нашими результатами, мы дообучаем LLM, используя короткие, длинные и случайно выбранные цепочки рассуждений. Затем мы наблюдаем, что обучение на более коротких цепочках приводит к лучшей производительности. Наши результаты указывают на необходимость пересмотра текущих методов использования вычислительных ресурсов во время тестирования в LLM, выполняющих рассуждения, подчеркивая, что более длительные "размышления" не обязательно приводят к улучшению производительности и могут, вопреки интуиции, ухудшать результаты.
English
Reasoning large language models (LLMs) heavily rely on scaling test-time compute to perform complex reasoning tasks by generating extensive "thinking" chains. While demonstrating impressive results, this approach incurs significant computational costs and inference time. In this work, we challenge the assumption that long thinking chains results in better reasoning capabilities. We first demonstrate that shorter reasoning chains within individual questions are significantly more likely to yield correct answers - up to 34.5% more accurate than the longest chain sampled for the same question. Based on these results, we suggest short-m@k, a novel reasoning LLM inference method. Our method executes k independent generations in parallel and halts computation once the first m thinking processes are done. The final answer is chosen using majority voting among these m chains. Basic short-1@k demonstrates similar or even superior performance over standard majority voting in low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while slightly less efficient than short-1@k, consistently surpasses majority voting across all compute budgets, while still being substantially faster (up to 33% wall time reduction). Inspired by our results, we finetune an LLM using short, long, and randomly selected reasoning chains. We then observe that training on the shorter ones leads to better performance. Our findings suggest rethinking current methods of test-time compute in reasoning LLMs, emphasizing that longer "thinking" does not necessarily translate to improved performance and can, counter-intuitively, lead to degraded results.

Summary

AI-Generated Summary

PDF544May 28, 2025