ChatPaper.aiChatPaper

Razonamiento aumentado por recuperación con modelos de lenguaje eficientes

Retrieval-augmented reasoning with lean language models

August 15, 2025
Autores: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI

Resumen

Este informe técnico detalla un enfoque novedoso para combinar razonamiento y generación aumentada por recuperación (RAG, por sus siglas en inglés) dentro de una arquitectura de modelo de lenguaje ligero y unificado. Mientras que los sistemas RAG existentes suelen depender de modelos a gran escala y APIs externas, nuestro trabajo aborda la creciente demanda de soluciones eficientes y que preserven la privacidad, desplegables en entornos con recursos limitados o seguros. Basándonos en desarrollos recientes en escalado en tiempo de prueba y modelos de razonamiento a pequeña escala, desarrollamos un agente conversacional aumentado por recuperación capaz de interpretar consultas complejas y específicas de un dominio utilizando un modelo base ligero. Nuestro sistema integra un recuperador denso con modelos Qwen2.5-Instruct ajustados finamente, empleando generación sintética de consultas y trazas de razonamiento derivadas de modelos de vanguardia (por ejemplo, DeepSeek-R1) sobre un corpus curado, en este caso, las páginas de condiciones A-to-Z del NHS. Exploramos el impacto de la compresión de documentos basada en resúmenes, el diseño de datos sintéticos y el ajuste fino consciente del razonamiento en el rendimiento del modelo. La evaluación comparativa con modelos no razonadores y modelos ligeros de propósito general demuestra que nuestro enfoque de ajuste fino específico del dominio produce mejoras sustanciales en la precisión y consistencia de las respuestas, acercándose al rendimiento de modelos de vanguardia mientras sigue siendo factible para implementaciones locales. Todos los detalles de implementación y el código se han publicado públicamente para apoyar la reproducibilidad y adaptación en diversos dominios.
English
This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retrieval augmented conversational agent capable of interpreting complex, domain-specific queries using a lightweight backbone model. Our system integrates a dense retriever with fine-tuned Qwen2.5-Instruct models, using synthetic query generation and reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a curated corpus, in this case, the NHS A-to-Z condition pages. We explore the impact of summarisation-based document compression, synthetic data design, and reasoning-aware fine-tuning on model performance. Evaluation against both non-reasoning and general-purpose lean models demonstrates that our domain-specific fine-tuning approach yields substantial gains in answer accuracy and consistency, approaching frontier-level performance while remaining feasible for local deployment. All implementation details and code are publicly released to support reproducibility and adaptation across domains.
PDF52August 20, 2025