O Escalonamento em Tempo de Teste em Modelos de Raciocínio Ainda Não é Eficaz para Tarefas Intensivas em Conhecimento
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
September 8, 2025
Autores: James Xu Zhao, Bryan Hooi, See-Kiong Ng
cs.AI
Resumo
A escala no momento do teste aumenta a computação durante a inferência ao permitir que os modelos gerem cadeias de raciocínio longas e demonstrou um desempenho forte em diversos domínios. No entanto, neste trabalho, mostramos que essa abordagem ainda não é eficaz para tarefas que exigem grande conhecimento, onde alta precisão factual e baixas taxas de alucinação são essenciais. Realizamos uma avaliação abrangente da escala no momento do teste utilizando 12 modelos de raciocínio em dois benchmarks que exigem conhecimento intensivo. Nossos resultados revelam que aumentar a computação no momento do teste não melhora consistentemente a precisão e, em muitos casos, até leva a mais alucinações. Em seguida, analisamos como o raciocínio estendido afeta o comportamento de alucinação. Descobrimos que a redução das alucinações frequentemente resulta do modelo optar por se abster após pensar mais, em vez de uma melhoria na recordação factual. Por outro lado, para alguns modelos, o raciocínio mais longo encoraja tentativas em questões previamente não respondidas, muitas das quais resultam em alucinações. Estudos de caso mostram que o raciocínio estendido pode induzir viés de confirmação, levando a alucinações excessivamente confiantes. Apesar dessas limitações, observamos que, em comparação com a ausência de raciocínio, permitir que o modelo pense ainda é benéfico. O código e os dados estão disponíveis em https://github.com/XuZhao0/tts-knowledge.
English
Test-time scaling increases inference-time computation by allowing models to
generate long reasoning chains, and has shown strong performance across many
domains. However, in this work, we show that this approach is not yet effective
for knowledge-intensive tasks, where high factual accuracy and low
hallucination rates are essential. We conduct a comprehensive evaluation of
test-time scaling using 12 reasoning models on two knowledge-intensive
benchmarks. Our results reveal that increasing test-time computation does not
consistently improve accuracy and, in many cases, it even leads to more
hallucinations. We then analyze how extended reasoning affects hallucination
behavior. We find that reduced hallucinations often result from the model
choosing to abstain after thinking more, rather than from improved factual
recall. Conversely, for some models, longer reasoning encourages attempts on
previously unanswered questions, many of which result in hallucinations. Case
studies show that extended reasoning can induce confirmation bias, leading to
overconfident hallucinations. Despite these limitations, we observe that
compared to non-thinking, enabling thinking remains beneficial. Code and data
are available at https://github.com/XuZhao0/tts-knowledge