Raciocínio aumentado por recuperação com modelos de linguagem enxutos
Retrieval-augmented reasoning with lean language models
August 15, 2025
Autores: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI
Resumo
Este relatório técnico detalha uma abordagem inovadora para combinar raciocínio e geração aumentada por recuperação (RAG) em uma única arquitetura de modelo de linguagem enxuta. Enquanto os sistemas RAG existentes geralmente dependem de modelos em larga escala e APIs externas, nosso trabalho atende à crescente demanda por soluções de alto desempenho e que preservam a privacidade, implantáveis em ambientes com recursos limitados ou seguros. Com base em desenvolvimentos recentes em escalonamento em tempo de teste e modelos de raciocínio em pequena escala, desenvolvemos um agente conversacional aumentado por recuperação capaz de interpretar consultas complexas e específicas de domínio usando um modelo backbone leve. Nosso sistema integra um recuperador denso com modelos Qwen2.5-Instruct ajustados finamente, utilizando geração sintética de consultas e traços de raciocínio derivados de modelos de fronteira (por exemplo, DeepSeek-R1) sobre um corpus curado, neste caso, as páginas de condições A a Z do NHS. Exploramos o impacto da compressão de documentos baseada em sumarização, do design de dados sintéticos e do ajuste fino consciente do raciocínio no desempenho do modelo. A avaliação em comparação com modelos enxutos de propósito geral e sem raciocínio demonstra que nossa abordagem de ajuste fino específica para o domínio resulta em ganhos substanciais na precisão e consistência das respostas, aproximando-se do desempenho de modelos de fronteira, enquanto permanece viável para implantação local. Todos os detalhes de implementação e código são disponibilizados publicamente para apoiar a reprodutibilidade e adaptação em diversos domínios.
English
This technical report details a novel approach to combining reasoning and
retrieval augmented generation (RAG) within a single, lean language model
architecture. While existing RAG systems typically rely on large-scale models
and external APIs, our work addresses the increasing demand for performant and
privacy-preserving solutions deployable in resource-constrained or secure
environments. Building on recent developments in test-time scaling and
small-scale reasoning models, we develop a retrieval augmented conversational
agent capable of interpreting complex, domain-specific queries using a
lightweight backbone model. Our system integrates a dense retriever with
fine-tuned Qwen2.5-Instruct models, using synthetic query generation and
reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a
curated corpus, in this case, the NHS A-to-Z condition pages. We explore the
impact of summarisation-based document compression, synthetic data design, and
reasoning-aware fine-tuning on model performance. Evaluation against both
non-reasoning and general-purpose lean models demonstrates that our
domain-specific fine-tuning approach yields substantial gains in answer
accuracy and consistency, approaching frontier-level performance while
remaining feasible for local deployment. All implementation details and code
are publicly released to support reproducibility and adaptation across domains.