Ragionamento potenziato dal recupero con modelli linguistici snelli
Retrieval-augmented reasoning with lean language models
August 15, 2025
Autori: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI
Abstract
Questo rapporto tecnico descrive un approccio innovativo per combinare il ragionamento e la generazione aumentata da recupero (RAG) all'interno di un'unica architettura di modello linguistico snella. Mentre i sistemi RAG esistenti si basano tipicamente su modelli su larga scala e API esterne, il nostro lavoro risponde alla crescente domanda di soluzioni performanti e rispettose della privacy, implementabili in ambienti con risorse limitate o sicuri. Basandoci sui recenti sviluppi nel ridimensionamento al momento del test e nei modelli di ragionamento su piccola scala, abbiamo sviluppato un agente conversazionale aumentato da recupero in grado di interpretare query complesse e specifiche del dominio utilizzando un modello leggero. Il nostro sistema integra un recuperatore denso con modelli Qwen2.5-Instruct ottimizzati, utilizzando la generazione sintetica di query e tracce di ragionamento derivate da modelli all'avanguardia (ad esempio, DeepSeek-R1) su un corpus curato, in questo caso le pagine delle condizioni A-to-Z del NHS. Esploriamo l'impatto della compressione dei documenti basata sulla sintesi, del design dei dati sintetici e dell'ottimizzazione consapevole del ragionamento sulle prestazioni del modello. La valutazione rispetto a modelli snelli non deduttivi e di uso generale dimostra che il nostro approccio di ottimizzazione specifica per il dominio produce guadagni sostanziali in termini di accuratezza e coerenza delle risposte, avvicinandosi alle prestazioni di livello all'avanguardia pur rimanendo fattibile per l'implementazione locale. Tutti i dettagli di implementazione e il codice sono resi pubblicamente disponibili per supportare la riproducibilità e l'adattamento tra i vari domini.
English
This technical report details a novel approach to combining reasoning and
retrieval augmented generation (RAG) within a single, lean language model
architecture. While existing RAG systems typically rely on large-scale models
and external APIs, our work addresses the increasing demand for performant and
privacy-preserving solutions deployable in resource-constrained or secure
environments. Building on recent developments in test-time scaling and
small-scale reasoning models, we develop a retrieval augmented conversational
agent capable of interpreting complex, domain-specific queries using a
lightweight backbone model. Our system integrates a dense retriever with
fine-tuned Qwen2.5-Instruct models, using synthetic query generation and
reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a
curated corpus, in this case, the NHS A-to-Z condition pages. We explore the
impact of summarisation-based document compression, synthetic data design, and
reasoning-aware fine-tuning on model performance. Evaluation against both
non-reasoning and general-purpose lean models demonstrates that our
domain-specific fine-tuning approach yields substantial gains in answer
accuracy and consistency, approaching frontier-level performance while
remaining feasible for local deployment. All implementation details and code
are publicly released to support reproducibility and adaptation across domains.