ChatPaper.aiChatPaper

Масштабирование моделей рассуждений во время тестирования пока неэффективно для задач, требующих глубоких знаний.

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

September 8, 2025
Авторы: James Xu Zhao, Bryan Hooi, See-Kiong Ng
cs.AI

Аннотация

Масштабирование во время тестирования увеличивает вычислительные затраты на этапе вывода, позволяя моделям генерировать длинные цепочки рассуждений, и демонстрирует высокую производительность во многих областях. Однако в данной работе мы показываем, что этот подход пока неэффективен для задач, требующих глубоких знаний, где критически важны высокая фактическая точность и низкий уровень галлюцинаций. Мы проводим всестороннюю оценку масштабирования во время тестирования с использованием 12 моделей рассуждений на двух тестовых наборах, ориентированных на знания. Наши результаты показывают, что увеличение вычислительных ресурсов на этапе тестирования не всегда приводит к повышению точности и во многих случаях даже увеличивает количество галлюцинаций. Затем мы анализируем, как расширенные рассуждения влияют на поведение галлюцинаций. Мы обнаруживаем, что снижение галлюцинаций часто связано с тем, что модель предпочитает воздержаться от ответа после более длительного размышления, а не с улучшением фактического воспроизведения информации. Напротив, для некоторых моделей более длительные рассуждения стимулируют попытки ответить на ранее оставленные без ответа вопросы, многие из которых приводят к галлюцинациям. Кейс-стади показывают, что расширенные рассуждения могут вызывать склонность к подтверждению своей точки зрения, что приводит к излишне уверенным галлюцинациям. Несмотря на эти ограничения, мы отмечаем, что по сравнению с отсутствием рассуждений, включение мышления остается полезным. Код и данные доступны по адресу https://github.com/XuZhao0/tts-knowledge.
English
Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-time computation does not consistently improve accuracy and, in many cases, it even leads to more hallucinations. We then analyze how extended reasoning affects hallucination behavior. We find that reduced hallucinations often result from the model choosing to abstain after thinking more, rather than from improved factual recall. Conversely, for some models, longer reasoning encourages attempts on previously unanswered questions, many of which result in hallucinations. Case studies show that extended reasoning can induce confirmation bias, leading to overconfident hallucinations. Despite these limitations, we observe that compared to non-thinking, enabling thinking remains beneficial. Code and data are available at https://github.com/XuZhao0/tts-knowledge
PDF72September 9, 2025