O Escalonamento em Tempo de Teste em Modelos de Raciocínio Ainda Não é Eficaz para Tarefas Intensivas em Conhecimento

Resumo

A escala no momento do teste aumenta a computação durante a inferência ao permitir que os modelos gerem cadeias de raciocínio longas e demonstrou um desempenho forte em diversos domínios. No entanto, neste trabalho, mostramos que essa abordagem ainda não é eficaz para tarefas que exigem grande conhecimento, onde alta precisão factual e baixas taxas de alucinação são essenciais. Realizamos uma avaliação abrangente da escala no momento do teste utilizando 12 modelos de raciocínio em dois benchmarks que exigem conhecimento intensivo. Nossos resultados revelam que aumentar a computação no momento do teste não melhora consistentemente a precisão e, em muitos casos, até leva a mais alucinações. Em seguida, analisamos como o raciocínio estendido afeta o comportamento de alucinação. Descobrimos que a redução das alucinações frequentemente resulta do modelo optar por se abster após pensar mais, em vez de uma melhoria na recordação factual. Por outro lado, para alguns modelos, o raciocínio mais longo encoraja tentativas em questões previamente não respondidas, muitas das quais resultam em alucinações. Estudos de caso mostram que o raciocínio estendido pode induzir viés de confirmação, levando a alucinações excessivamente confiantes. Apesar dessas limitações, observamos que, em comparação com a ausência de raciocínio, permitir que o modelo pense ainda é benéfico. O código e os dados estão disponíveis em https://github.com/XuZhao0/tts-knowledge.

English

Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-time computation does not consistently improve accuracy and, in many cases, it even leads to more hallucinations. We then analyze how extended reasoning affects hallucination behavior. We find that reduced hallucinations often result from the model choosing to abstain after thinking more, rather than from improved factual recall. Conversely, for some models, longer reasoning encourages attempts on previously unanswered questions, many of which result in hallucinations. Case studies show that extended reasoning can induce confirmation bias, leading to overconfident hallucinations. Despite these limitations, we observe that compared to non-thinking, enabling thinking remains beneficial. Code and data are available at https://github.com/XuZhao0/tts-knowledge

O Escalonamento em Tempo de Teste em Modelos de Raciocínio Ainda Não é Eficaz para Tarefas Intensivas em Conhecimento

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

Resumo

Support