Test-Time-Skalierung in Reasoning-Modellen ist für wissensintensive Aufgaben noch nicht effektiv.

papers.abstract

Test-Time-Skalierung erhöht den Rechenaufwand während der Inferenz, indem sie Modellen ermöglicht, lange Argumentationsketten zu generieren, und hat in vielen Bereichen starke Leistungen gezeigt. In dieser Arbeit zeigen wir jedoch, dass dieser Ansatz für wissensintensive Aufgaben noch nicht effektiv ist, bei denen hohe faktische Genauigkeit und niedrige Halluzinationsraten entscheidend sind. Wir führen eine umfassende Bewertung der Test-Time-Skalierung mit 12 Argumentationsmodellen anhand von zwei wissensintensiven Benchmarks durch. Unsere Ergebnisse zeigen, dass eine Erhöhung des Rechenaufwands während der Inferenz die Genauigkeit nicht konsistent verbessert und in vielen Fällen sogar zu mehr Halluzinationen führt. Anschließend analysieren wir, wie erweiterte Argumentation das Halluzinationsverhalten beeinflusst. Wir stellen fest, dass reduzierte Halluzinationen oft darauf zurückzuführen sind, dass das Modell nach längerem Nachdenken beschließt, sich zu enthalten, anstatt auf eine verbesserte faktische Erinnerung. Umgekehrt führt längeres Nachdenken bei einigen Modellen dazu, dass sie versuchen, zuvor unbeantwortete Fragen zu beantworten, was häufig zu Halluzinationen führt. Fallstudien zeigen, dass erweiterte Argumentation einen Bestätigungsfehler induzieren kann, was zu übermäßig selbstbewussten Halluzinationen führt. Trotz dieser Einschränkungen stellen wir fest, dass das Aktivieren von Nachdenken im Vergleich zum Nicht-Nachdenken weiterhin vorteilhaft ist. Code und Daten sind verfügbar unter https://github.com/XuZhao0/tts-knowledge.

English

Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-time computation does not consistently improve accuracy and, in many cases, it even leads to more hallucinations. We then analyze how extended reasoning affects hallucination behavior. We find that reduced hallucinations often result from the model choosing to abstain after thinking more, rather than from improved factual recall. Conversely, for some models, longer reasoning encourages attempts on previously unanswered questions, many of which result in hallucinations. Case studies show that extended reasoning can induce confirmation bias, leading to overconfident hallucinations. Despite these limitations, we observe that compared to non-thinking, enabling thinking remains beneficial. Code and data are available at https://github.com/XuZhao0/tts-knowledge

Test-Time-Skalierung in Reasoning-Modellen ist für wissensintensive Aufgaben noch nicht effektiv.

Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

papers.abstract

Support