Retrieval-augmenteerd redeneren met lean taalmodellen
Retrieval-augmented reasoning with lean language models
August 15, 2025
Auteurs: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI
Samenvatting
Dit technisch rapport beschrijft een nieuwe aanpak voor het combineren van redeneren en retrieval-augmented generation (RAG) binnen een enkele, efficiënte taalmodelarchitectuur. Terwijl bestaande RAG-systemen doorgaans afhankelijk zijn van grootschalige modellen en externe API's, richt ons werk zich op de groeiende vraag naar performante en privacy-beschermende oplossingen die inzetbaar zijn in omgevingen met beperkte middelen of beveiligde omgevingen. Voortbouwend op recente ontwikkelingen in test-time scaling en kleinschalige redeneermodellen, ontwikkelen we een retrieval-augmented conversationele agent die complexe, domeinspecifieke queries kan interpreteren met behulp van een lichtgewicht basismodel. Ons systeem integreert een dense retriever met fijn afgestemde Qwen2.5-Instruct modellen, waarbij gebruik wordt gemaakt van synthetische querygeneratie en redeneersporen afgeleid van frontier modellen (bijvoorbeeld DeepSeek-R1) over een gecureerde corpus, in dit geval de NHS A-to-Z conditiepagina's. We onderzoeken de impact van samenvattingsgebaseerde documentcompressie, synthetische data-ontwerp en redeneringsbewuste fijnafstemming op de modelprestaties. Evaluatie tegen zowel niet-redenerende als algemene efficiënte modellen toont aan dat onze domeinspecifieke fijnafstemming aanpak aanzienlijke verbeteringen oplevert in antwoordnauwkeurigheid en consistentie, waarbij frontier-level prestaties worden benaderd terwijl het haalbaar blijft voor lokale implementatie. Alle implementatiedetails en code worden openbaar vrijgegeven om reproduceerbaarheid en aanpassing over verschillende domeinen te ondersteunen.
English
This technical report details a novel approach to combining reasoning and
retrieval augmented generation (RAG) within a single, lean language model
architecture. While existing RAG systems typically rely on large-scale models
and external APIs, our work addresses the increasing demand for performant and
privacy-preserving solutions deployable in resource-constrained or secure
environments. Building on recent developments in test-time scaling and
small-scale reasoning models, we develop a retrieval augmented conversational
agent capable of interpreting complex, domain-specific queries using a
lightweight backbone model. Our system integrates a dense retriever with
fine-tuned Qwen2.5-Instruct models, using synthetic query generation and
reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a
curated corpus, in this case, the NHS A-to-Z condition pages. We explore the
impact of summarisation-based document compression, synthetic data design, and
reasoning-aware fine-tuning on model performance. Evaluation against both
non-reasoning and general-purpose lean models demonstrates that our
domain-specific fine-tuning approach yields substantial gains in answer
accuracy and consistency, approaching frontier-level performance while
remaining feasible for local deployment. All implementation details and code
are publicly released to support reproducibility and adaptation across domains.