Масштабирование рассуждений может повысить достоверность в больших языковых моделях.
Scaling Reasoning can Improve Factuality in Large Language Models
May 16, 2025
Авторы: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI
Аннотация
Недавние исследования способностей крупных языковых моделей (LLM) к рассуждению продемонстрировали многообещающие улучшения в производительности моделей за счет использования длительного процесса мышления и дополнительных вычислительных ресурсов во время вывода, в основном в задачах, связанных с математическими рассуждениями (Muennighoff et al., 2025). Однако остается неясным, действительно ли более длинные цепочки рассуждений улучшают фактическую точность, особенно за пределами математических контекстов. В данной работе мы тщательно исследуем рассуждения LLM в сложных сценариях открытого домена для вопросно-ответных задач (QA). Мы сначала извлекаем траектории рассуждений из продвинутых крупномасштабных моделей рассуждений (QwQ-32B и DeepSeek-R1-671B), а затем дообучаем различные модели, начиная с меньших, настроенных на инструкции вариантов, до более крупных архитектур на основе Qwen2.5. Для обогащения траекторий рассуждений мы добавляем фактическую информацию из графов знаний в виде путей в наши траектории рассуждений. Наша экспериментальная установка включает четыре базовых подхода и шесть различных моделей, настроенных на инструкции, оцененных на наборе из шести датасетов, охватывающих более 22,6 тыс. вопросов. В общей сложности мы провели 168 экспериментальных прогонов и проанализировали около 1,7 млн траекторий рассуждений. Наши результаты показывают, что в рамках одного прогона меньшие модели рассуждений достигают заметных улучшений в фактической точности по сравнению с их исходными аналогами, настроенными на инструкции. Более того, наш анализ демонстрирует, что добавление вычислительных ресурсов и бюджета токенов во время тестирования последовательно улучшает фактическую точность на 2–8%, что дополнительно подтверждает эффективность масштабирования во время тестирования для повышения производительности и, следовательно, улучшения точности рассуждений в задачах открытого домена QA. Мы публикуем все экспериментальные материалы для дальнейших исследований.
English
Recent studies on large language model (LLM) reasoning capabilities have
demonstrated promising improvements in model performance by leveraging a
lengthy thinking process and additional computational resources during
inference, primarily in tasks involving mathematical reasoning (Muennighoff et
al., 2025). However, it remains uncertain if longer reasoning chains inherently
enhance factual accuracy, particularly beyond mathematical contexts. In this
work, we thoroughly examine LLM reasoning within complex open-domain
question-answering (QA) scenarios. We initially distill reasoning traces from
advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then
fine-tune a variety of models ranging from smaller, instruction-tuned variants
to larger architectures based on Qwen2.5. To enrich reasoning traces, we
introduce factual information from knowledge graphs in the form of paths into
our reasoning traces. Our experimental setup includes four baseline approaches
and six different instruction-tuned models evaluated across a benchmark of six
datasets, encompassing over 22.6K questions. Overall, we carry out 168
experimental runs and analyze approximately 1.7 million reasoning traces. Our
findings indicate that, within a single run, smaller reasoning models achieve
noticeable improvements in factual accuracy compared to their original
instruction-tuned counterparts. Moreover, our analysis demonstrates that adding
test-time compute and token budgets factual accuracy consistently improves by
2-8%, further confirming the effectiveness of test-time scaling for enhancing
performance and consequently improving reasoning accuracy in open-domain QA
tasks. We release all the experimental artifacts for further research.Summary
AI-Generated Summary