ChatPaper.aiChatPaper

Test-Time Scaling in Redeneermodellen Is Nog Niet Effectief voor Kennisintensieve Taken

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

September 8, 2025
Auteurs: James Xu Zhao, Bryan Hooi, See-Kiong Ng
cs.AI

Samenvatting

Test-time schaling verhoogt de rekentijd tijdens inferentie door modellen in staat te stellen lange redeneerketens te genereren, en heeft sterke prestaties getoond in vele domeinen. In dit werk tonen we echter aan dat deze aanpak nog niet effectief is voor kennisintensieve taken, waar hoge feitelijke nauwkeurigheid en lage hallucinatiepercentages essentieel zijn. We voeren een uitgebreide evaluatie uit van test-time schaling met behulp van 12 redeneermodellen op twee kennisintensieve benchmarks. Onze resultaten laten zien dat het verhogen van de rekentijd tijdens testen niet consistent leidt tot verbeterde nauwkeurigheid en in veel gevallen zelfs resulteert in meer hallucinaties. Vervolgens analyseren we hoe uitgebreid redeneren het hallucinatiegedrag beïnvloedt. We constateren dat verminderde hallucinaties vaak het gevolg zijn van het feit dat het model ervoor kiest zich te onthouden na langer nadenken, in plaats van verbeterde feitelijke herinnering. Omgekeerd moedigt langer redeneren bij sommige modellen pogingen aan op voorheen onbeantwoorde vragen, waarvan vele resulteren in hallucinaties. Casestudies tonen aan dat uitgebreid redeneren bevestigingsbias kan veroorzaken, wat leidt tot overmoedige hallucinaties. Ondanks deze beperkingen merken we op dat het inschakelen van redeneren, vergeleken met niet nadenken, nog steeds voordelig blijft. Code en data zijn beschikbaar op https://github.com/XuZhao0/tts-knowledge.
English
Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-time computation does not consistently improve accuracy and, in many cases, it even leads to more hallucinations. We then analyze how extended reasoning affects hallucination behavior. We find that reduced hallucinations often result from the model choosing to abstain after thinking more, rather than from improved factual recall. Conversely, for some models, longer reasoning encourages attempts on previously unanswered questions, many of which result in hallucinations. Case studies show that extended reasoning can induce confirmation bias, leading to overconfident hallucinations. Despite these limitations, we observe that compared to non-thinking, enabling thinking remains beneficial. Code and data are available at https://github.com/XuZhao0/tts-knowledge
PDF82September 9, 2025