Skalierbares Schließen kann die Faktentreue in großen Sprachmodellen verbessern.
Scaling Reasoning can Improve Factuality in Large Language Models
May 16, 2025
Autoren: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI
Zusammenfassung
Aktuelle Studien zu den Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Schließens haben vielversprechende Verbesserungen der Modellleistung gezeigt, indem ein ausgedehnter Denkprozess und zusätzliche Rechenressourcen während der Inferenz genutzt wurden, insbesondere bei Aufgaben, die mathematisches Schließen betreffen (Muennighoff et al., 2025). Es bleibt jedoch unklar, ob längere Schließketten die faktische Genauigkeit grundsätzlich verbessern, insbesondere über mathematische Kontexte hinaus. In dieser Arbeit untersuchen wir das Schließen von LLMs in komplexen, offenen Frage-Antwort-Szenarien (QA) eingehend. Zunächst extrahieren wir Schließspuren aus fortschrittlichen, großskaligen Schließmodellen (QwQ-32B und DeepSeek-R1-671B) und feintunen anschließend eine Vielzahl von Modellen, die von kleineren, instruktionsoptimierten Varianten bis hin zu größeren Architekturen auf Basis von Qwen2.5 reichen. Um die Schließspuren zu bereichern, integrieren wir faktische Informationen aus Wissensgraphen in Form von Pfaden in unsere Schließspuren. Unser experimenteller Aufbau umfasst vier Baseline-Ansätze und sechs verschiedene instruktionsoptimierte Modelle, die anhand eines Benchmarks von sechs Datensätzen mit über 22.600 Fragen evaluiert werden. Insgesamt führen wir 168 Experimente durch und analysieren etwa 1,7 Millionen Schließspuren. Unsere Ergebnisse zeigen, dass kleinere Schließmodelle innerhalb eines einzelnen Durchlaufs deutliche Verbesserungen in der faktischen Genauigkeit im Vergleich zu ihren ursprünglichen instruktionsoptimierten Gegenstücken erzielen. Darüber hinaus zeigt unsere Analyse, dass die Hinzufügung von Rechen- und Token-Ressourcen während der Testphase die faktische Genauigkeit konsistent um 2–8 % verbessert, was die Wirksamkeit der Skalierung während der Testphase zur Leistungssteigerung und damit zur Verbesserung der Schließgenauigkeit in offenen QA-Aufgaben weiter bestätigt. Wir stellen alle experimentellen Artefakte für weitere Forschungen zur Verfügung.
English
Recent studies on large language model (LLM) reasoning capabilities have
demonstrated promising improvements in model performance by leveraging a
lengthy thinking process and additional computational resources during
inference, primarily in tasks involving mathematical reasoning (Muennighoff et
al., 2025). However, it remains uncertain if longer reasoning chains inherently
enhance factual accuracy, particularly beyond mathematical contexts. In this
work, we thoroughly examine LLM reasoning within complex open-domain
question-answering (QA) scenarios. We initially distill reasoning traces from
advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then
fine-tune a variety of models ranging from smaller, instruction-tuned variants
to larger architectures based on Qwen2.5. To enrich reasoning traces, we
introduce factual information from knowledge graphs in the form of paths into
our reasoning traces. Our experimental setup includes four baseline approaches
and six different instruction-tuned models evaluated across a benchmark of six
datasets, encompassing over 22.6K questions. Overall, we carry out 168
experimental runs and analyze approximately 1.7 million reasoning traces. Our
findings indicate that, within a single run, smaller reasoning models achieve
noticeable improvements in factual accuracy compared to their original
instruction-tuned counterparts. Moreover, our analysis demonstrates that adding
test-time compute and token budgets factual accuracy consistently improves by
2-8%, further confirming the effectiveness of test-time scaling for enhancing
performance and consequently improving reasoning accuracy in open-domain QA
tasks. We release all the experimental artifacts for further research.Summary
AI-Generated Summary