Retrieval-unterstütztes Reasoning mit schlanken Sprachmodellen
Retrieval-augmented reasoning with lean language models
August 15, 2025
papers.authors: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI
papers.abstract
Dieser technische Bericht beschreibt einen neuartigen Ansatz zur Kombination von Reasoning und Retrieval-Augmented Generation (RAG) innerhalb einer einzigen, schlanken Sprachmodellarchitektur. Während bestehende RAG-Systeme typischerweise auf großskalige Modelle und externe APIs angewiesen sind, adressiert unsere Arbeit die zunehmende Nachfrage nach leistungsstarken und datenschutzfreundlichen Lösungen, die in ressourcenbeschränkten oder sicheren Umgebungen einsetzbar sind. Basierend auf aktuellen Entwicklungen in der Testzeit-Skalierung und kleinen Reasoning-Modellen entwickeln wir einen Retrieval-augmentierten Konversationsagenten, der in der Lage ist, komplexe, domänenspezifische Anfragen mithilfe eines leichtgewichtigen Basismodells zu interpretieren. Unser System integriert einen dichten Retriever mit feinabgestimmten Qwen2.5-Instruct-Modellen, wobei synthetische Anfragenerstellung und Reasoning-Traces, die von Frontier-Modellen (z.B. DeepSeek-R1) über einen kuratierten Korpus abgeleitet werden, verwendet werden – in diesem Fall die NHS A-to-Z-Konditionsseiten. Wir untersuchen die Auswirkungen von zusammenfassungsbasierter Dokumentkompression, synthetischer Datengestaltung und reasoning-bewusster Feinabstimmung auf die Modellleistung. Die Evaluierung sowohl gegenüber nicht-reasoning-basierten als auch allgemeinen schlanken Modellen zeigt, dass unser domänenspezifischer Feinabstimmungsansatz erhebliche Verbesserungen in der Antwortgenauigkeit und -konsistenz erzielt und dabei nahezu Frontier-Level-Leistung erreicht, während er gleichzeitig für lokale Bereitstellung geeignet bleibt. Alle Implementierungsdetails und der Code werden öffentlich freigegeben, um Reproduzierbarkeit und Anpassung über verschiedene Domänen hinweg zu unterstützen.
English
This technical report details a novel approach to combining reasoning and
retrieval augmented generation (RAG) within a single, lean language model
architecture. While existing RAG systems typically rely on large-scale models
and external APIs, our work addresses the increasing demand for performant and
privacy-preserving solutions deployable in resource-constrained or secure
environments. Building on recent developments in test-time scaling and
small-scale reasoning models, we develop a retrieval augmented conversational
agent capable of interpreting complex, domain-specific queries using a
lightweight backbone model. Our system integrates a dense retriever with
fine-tuned Qwen2.5-Instruct models, using synthetic query generation and
reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a
curated corpus, in this case, the NHS A-to-Z condition pages. We explore the
impact of summarisation-based document compression, synthetic data design, and
reasoning-aware fine-tuning on model performance. Evaluation against both
non-reasoning and general-purpose lean models demonstrates that our
domain-specific fine-tuning approach yields substantial gains in answer
accuracy and consistency, approaching frontier-level performance while
remaining feasible for local deployment. All implementation details and code
are publicly released to support reproducibility and adaptation across domains.