Test-Time-Skalierung in Reasoning-Modellen ist für wissensintensive Aufgaben noch nicht effektiv.
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
September 8, 2025
papers.authors: James Xu Zhao, Bryan Hooi, See-Kiong Ng
cs.AI
papers.abstract
Test-Time-Skalierung erhöht den Rechenaufwand während der Inferenz, indem sie Modellen ermöglicht, lange Argumentationsketten zu generieren, und hat in vielen Bereichen starke Leistungen gezeigt. In dieser Arbeit zeigen wir jedoch, dass dieser Ansatz für wissensintensive Aufgaben noch nicht effektiv ist, bei denen hohe faktische Genauigkeit und niedrige Halluzinationsraten entscheidend sind. Wir führen eine umfassende Bewertung der Test-Time-Skalierung mit 12 Argumentationsmodellen anhand von zwei wissensintensiven Benchmarks durch. Unsere Ergebnisse zeigen, dass eine Erhöhung des Rechenaufwands während der Inferenz die Genauigkeit nicht konsistent verbessert und in vielen Fällen sogar zu mehr Halluzinationen führt. Anschließend analysieren wir, wie erweiterte Argumentation das Halluzinationsverhalten beeinflusst. Wir stellen fest, dass reduzierte Halluzinationen oft darauf zurückzuführen sind, dass das Modell nach längerem Nachdenken beschließt, sich zu enthalten, anstatt auf eine verbesserte faktische Erinnerung. Umgekehrt führt längeres Nachdenken bei einigen Modellen dazu, dass sie versuchen, zuvor unbeantwortete Fragen zu beantworten, was häufig zu Halluzinationen führt. Fallstudien zeigen, dass erweiterte Argumentation einen Bestätigungsfehler induzieren kann, was zu übermäßig selbstbewussten Halluzinationen führt. Trotz dieser Einschränkungen stellen wir fest, dass das Aktivieren von Nachdenken im Vergleich zum Nicht-Nachdenken weiterhin vorteilhaft ist. Code und Daten sind verfügbar unter https://github.com/XuZhao0/tts-knowledge.
English
Test-time scaling increases inference-time computation by allowing models to
generate long reasoning chains, and has shown strong performance across many
domains. However, in this work, we show that this approach is not yet effective
for knowledge-intensive tasks, where high factual accuracy and low
hallucination rates are essential. We conduct a comprehensive evaluation of
test-time scaling using 12 reasoning models on two knowledge-intensive
benchmarks. Our results reveal that increasing test-time computation does not
consistently improve accuracy and, in many cases, it even leads to more
hallucinations. We then analyze how extended reasoning affects hallucination
behavior. We find that reduced hallucinations often result from the model
choosing to abstain after thinking more, rather than from improved factual
recall. Conversely, for some models, longer reasoning encourages attempts on
previously unanswered questions, many of which result in hallucinations. Case
studies show that extended reasoning can induce confirmation bias, leading to
overconfident hallucinations. Despite these limitations, we observe that
compared to non-thinking, enabling thinking remains beneficial. Code and data
are available at https://github.com/XuZhao0/tts-knowledge