Raisonnement augmenté par la récupération avec des modèles de langage légers
Retrieval-augmented reasoning with lean language models
August 15, 2025
papers.authors: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI
papers.abstract
Ce rapport technique présente une nouvelle approche pour combiner le raisonnement et la génération augmentée par récupération (RAG) au sein d'une architecture de modèle linguistique unique et léger. Alors que les systèmes RAG existants reposent généralement sur des modèles à grande échelle et des API externes, notre travail répond à la demande croissante de solutions performantes et respectueuses de la vie privée, déployables dans des environnements à ressources limitées ou sécurisés. En nous appuyant sur les récents développements en matière de mise à l'échelle au moment du test et de modèles de raisonnement à petite échelle, nous développons un agent conversationnel augmenté par récupération capable d'interpréter des requêtes complexes et spécifiques à un domaine en utilisant un modèle de base léger. Notre système intègre un récupérateur dense avec des modèles Qwen2.5-Instruct affinés, en utilisant la génération de requêtes synthétiques et des traces de raisonnement dérivées de modèles de pointe (par exemple, DeepSeek-R1) sur un corpus soigneusement sélectionné, dans ce cas, les pages de conditions A-to-Z du NHS. Nous explorons l'impact de la compression de documents basée sur la synthèse, de la conception de données synthétiques et de l'affinage conscient du raisonnement sur les performances du modèle. L'évaluation par rapport à des modèles légers non raisonnants et à usage général démontre que notre approche d'affinage spécifique au domaine permet des gains substantiels en termes de précision et de cohérence des réponses, approchant les performances de pointe tout en restant réalisable pour un déploiement local. Tous les détails de mise en œuvre et le code sont publiés publiquement pour soutenir la reproductibilité et l'adaptation à travers différents domaines.
English
This technical report details a novel approach to combining reasoning and
retrieval augmented generation (RAG) within a single, lean language model
architecture. While existing RAG systems typically rely on large-scale models
and external APIs, our work addresses the increasing demand for performant and
privacy-preserving solutions deployable in resource-constrained or secure
environments. Building on recent developments in test-time scaling and
small-scale reasoning models, we develop a retrieval augmented conversational
agent capable of interpreting complex, domain-specific queries using a
lightweight backbone model. Our system integrates a dense retriever with
fine-tuned Qwen2.5-Instruct models, using synthetic query generation and
reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a
curated corpus, in this case, the NHS A-to-Z condition pages. We explore the
impact of summarisation-based document compression, synthetic data design, and
reasoning-aware fine-tuning on model performance. Evaluation against both
non-reasoning and general-purpose lean models demonstrates that our
domain-specific fine-tuning approach yields substantial gains in answer
accuracy and consistency, approaching frontier-level performance while
remaining feasible for local deployment. All implementation details and code
are publicly released to support reproducibility and adaptation across domains.