La mise à l'échelle au moment du test dans les modèles de raisonnement n'est pas encore efficace pour les tâches nécessitant une connaissance approfondie.
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
September 8, 2025
papers.authors: James Xu Zhao, Bryan Hooi, See-Kiong Ng
cs.AI
papers.abstract
La mise à l'échelle au moment du test augmente les calculs lors de l'inférence en permettant aux modèles de générer des chaînes de raisonnement longues, et a démontré de solides performances dans de nombreux domaines. Cependant, dans ce travail, nous montrons que cette approche n'est pas encore efficace pour les tâches nécessitant une connaissance approfondie, où une grande précision factuelle et un faible taux d'hallucinations sont essentiels. Nous menons une évaluation complète de la mise à l'échelle au moment du test en utilisant 12 modèles de raisonnement sur deux benchmarks exigeant une connaissance approfondie. Nos résultats révèlent qu'augmenter les calculs au moment du test n'améliore pas systématiquement la précision et, dans de nombreux cas, cela entraîne même plus d'hallucinations. Nous analysons ensuite comment un raisonnement prolongé affecte le comportement d'hallucination. Nous constatons que la réduction des hallucinations résulte souvent du choix du modèle de s'abstenir après avoir réfléchi davantage, plutôt que d'une amélioration de la récupération factuelle. Inversement, pour certains modèles, un raisonnement plus long encourage des tentatives sur des questions précédemment sans réponse, dont beaucoup aboutissent à des hallucinations. Des études de cas montrent qu'un raisonnement prolongé peut induire un biais de confirmation, conduisant à des hallucinations trop confiantes. Malgré ces limitations, nous observons que, par rapport à l'absence de réflexion, permettre la réflexion reste bénéfique. Le code et les données sont disponibles à l'adresse https://github.com/XuZhao0/tts-knowledge.
English
Test-time scaling increases inference-time computation by allowing models to
generate long reasoning chains, and has shown strong performance across many
domains. However, in this work, we show that this approach is not yet effective
for knowledge-intensive tasks, where high factual accuracy and low
hallucination rates are essential. We conduct a comprehensive evaluation of
test-time scaling using 12 reasoning models on two knowledge-intensive
benchmarks. Our results reveal that increasing test-time computation does not
consistently improve accuracy and, in many cases, it even leads to more
hallucinations. We then analyze how extended reasoning affects hallucination
behavior. We find that reduced hallucinations often result from the model
choosing to abstain after thinking more, rather than from improved factual
recall. Conversely, for some models, longer reasoning encourages attempts on
previously unanswered questions, many of which result in hallucinations. Case
studies show that extended reasoning can induce confirmation bias, leading to
overconfident hallucinations. Despite these limitations, we observe that
compared to non-thinking, enabling thinking remains beneficial. Code and data
are available at https://github.com/XuZhao0/tts-knowledge