Razonamiento aumentado por recuperación con modelos de lenguaje eficientes
Retrieval-augmented reasoning with lean language models
August 15, 2025
Autores: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI
Resumen
Este informe técnico detalla un enfoque novedoso para combinar razonamiento y generación aumentada por recuperación (RAG, por sus siglas en inglés) dentro de una arquitectura de modelo de lenguaje ligero y unificado. Mientras que los sistemas RAG existentes suelen depender de modelos a gran escala y APIs externas, nuestro trabajo aborda la creciente demanda de soluciones eficientes y que preserven la privacidad, desplegables en entornos con recursos limitados o seguros. Basándonos en desarrollos recientes en escalado en tiempo de prueba y modelos de razonamiento a pequeña escala, desarrollamos un agente conversacional aumentado por recuperación capaz de interpretar consultas complejas y específicas de un dominio utilizando un modelo base ligero. Nuestro sistema integra un recuperador denso con modelos Qwen2.5-Instruct ajustados finamente, empleando generación sintética de consultas y trazas de razonamiento derivadas de modelos de vanguardia (por ejemplo, DeepSeek-R1) sobre un corpus curado, en este caso, las páginas de condiciones A-to-Z del NHS. Exploramos el impacto de la compresión de documentos basada en resúmenes, el diseño de datos sintéticos y el ajuste fino consciente del razonamiento en el rendimiento del modelo. La evaluación comparativa con modelos no razonadores y modelos ligeros de propósito general demuestra que nuestro enfoque de ajuste fino específico del dominio produce mejoras sustanciales en la precisión y consistencia de las respuestas, acercándose al rendimiento de modelos de vanguardia mientras sigue siendo factible para implementaciones locales. Todos los detalles de implementación y el código se han publicado públicamente para apoyar la reproducibilidad y adaptación en diversos dominios.
English
This technical report details a novel approach to combining reasoning and
retrieval augmented generation (RAG) within a single, lean language model
architecture. While existing RAG systems typically rely on large-scale models
and external APIs, our work addresses the increasing demand for performant and
privacy-preserving solutions deployable in resource-constrained or secure
environments. Building on recent developments in test-time scaling and
small-scale reasoning models, we develop a retrieval augmented conversational
agent capable of interpreting complex, domain-specific queries using a
lightweight backbone model. Our system integrates a dense retriever with
fine-tuned Qwen2.5-Instruct models, using synthetic query generation and
reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a
curated corpus, in this case, the NHS A-to-Z condition pages. We explore the
impact of summarisation-based document compression, synthetic data design, and
reasoning-aware fine-tuning on model performance. Evaluation against both
non-reasoning and general-purpose lean models demonstrates that our
domain-specific fine-tuning approach yields substantial gains in answer
accuracy and consistency, approaching frontier-level performance while
remaining feasible for local deployment. All implementation details and code
are publicly released to support reproducibility and adaptation across domains.