ChatPaper.aiChatPaper

Il ridimensionamento al momento del test nei modelli di ragionamento non è ancora efficace per compiti ad alta intensità di conoscenza

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

September 8, 2025
Autori: James Xu Zhao, Bryan Hooi, See-Kiong Ng
cs.AI

Abstract

Il ridimensionamento al momento del test aumenta il calcolo durante l'inferenza consentendo ai modelli di generare lunghe catene di ragionamento e ha dimostrato prestazioni solide in molti domini. Tuttavia, in questo lavoro, mostriamo che questo approccio non è ancora efficace per compiti ad alta intensità di conoscenza, dove l'elevata accuratezza fattuale e bassi tassi di allucinazione sono essenziali. Conduciamo una valutazione completa del ridimensionamento al momento del test utilizzando 12 modelli di ragionamento su due benchmark ad alta intensità di conoscenza. I nostri risultati rivelano che aumentare il calcolo al momento del test non migliora in modo consistente l'accuratezza e, in molti casi, porta persino a più allucinazioni. Analizziamo quindi come il ragionamento esteso influisca sul comportamento delle allucinazioni. Scopriamo che la riduzione delle allucinazioni spesso deriva dal fatto che il modello sceglie di astenersi dopo aver pensato di più, piuttosto che da un miglioramento del richiamo fattuale. Al contrario, per alcuni modelli, un ragionamento più lungo incoraggia tentativi su domande precedentemente senza risposta, molte delle quali risultano in allucinazioni. Studi di caso mostrano che il ragionamento esteso può indurre un bias di conferma, portando a allucinazioni eccessivamente sicure. Nonostante queste limitazioni, osserviamo che, rispetto al non ragionamento, abilitare il ragionamento rimane vantaggioso. Codice e dati sono disponibili su https://github.com/XuZhao0/tts-knowledge.
English
Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-time computation does not consistently improve accuracy and, in many cases, it even leads to more hallucinations. We then analyze how extended reasoning affects hallucination behavior. We find that reduced hallucinations often result from the model choosing to abstain after thinking more, rather than from improved factual recall. Conversely, for some models, longer reasoning encourages attempts on previously unanswered questions, many of which result in hallucinations. Case studies show that extended reasoning can induce confirmation bias, leading to overconfident hallucinations. Despite these limitations, we observe that compared to non-thinking, enabling thinking remains beneficial. Code and data are available at https://github.com/XuZhao0/tts-knowledge
PDF82September 9, 2025