Razonamiento aumentado por recuperación con modelos de lenguaje eficientes

Resumen

Este informe técnico detalla un enfoque novedoso para combinar razonamiento y generación aumentada por recuperación (RAG, por sus siglas en inglés) dentro de una arquitectura de modelo de lenguaje ligero y unificado. Mientras que los sistemas RAG existentes suelen depender de modelos a gran escala y APIs externas, nuestro trabajo aborda la creciente demanda de soluciones eficientes y que preserven la privacidad, desplegables en entornos con recursos limitados o seguros. Basándonos en desarrollos recientes en escalado en tiempo de prueba y modelos de razonamiento a pequeña escala, desarrollamos un agente conversacional aumentado por recuperación capaz de interpretar consultas complejas y específicas de un dominio utilizando un modelo base ligero. Nuestro sistema integra un recuperador denso con modelos Qwen2.5-Instruct ajustados finamente, empleando generación sintética de consultas y trazas de razonamiento derivadas de modelos de vanguardia (por ejemplo, DeepSeek-R1) sobre un corpus curado, en este caso, las páginas de condiciones A-to-Z del NHS. Exploramos el impacto de la compresión de documentos basada en resúmenes, el diseño de datos sintéticos y el ajuste fino consciente del razonamiento en el rendimiento del modelo. La evaluación comparativa con modelos no razonadores y modelos ligeros de propósito general demuestra que nuestro enfoque de ajuste fino específico del dominio produce mejoras sustanciales en la precisión y consistencia de las respuestas, acercándose al rendimiento de modelos de vanguardia mientras sigue siendo factible para implementaciones locales. Todos los detalles de implementación y el código se han publicado públicamente para apoyar la reproducibilidad y adaptación en diversos dominios.

English

This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retrieval augmented conversational agent capable of interpreting complex, domain-specific queries using a lightweight backbone model. Our system integrates a dense retriever with fine-tuned Qwen2.5-Instruct models, using synthetic query generation and reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a curated corpus, in this case, the NHS A-to-Z condition pages. We explore the impact of summarisation-based document compression, synthetic data design, and reasoning-aware fine-tuning on model performance. Evaluation against both non-reasoning and general-purpose lean models demonstrates that our domain-specific fine-tuning approach yields substantial gains in answer accuracy and consistency, approaching frontier-level performance while remaining feasible for local deployment. All implementation details and code are publicly released to support reproducibility and adaptation across domains.

Razonamiento aumentado por recuperación con modelos de lenguaje eficientes

Retrieval-augmented reasoning with lean language models

Resumen

Support