ChatPaper.aiChatPaper

Извлечение-усиленное рассуждение с использованием компактных языковых моделей

Retrieval-augmented reasoning with lean language models

August 15, 2025
Авторы: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI

Аннотация

В данном техническом отчете представлен новый подход к объединению рассуждений и генерации, дополненной поиском (RAG), в рамках единой компактной архитектуры языковой модели. В то время как существующие системы RAG обычно полагаются на крупномасштабные модели и внешние API, наша работа отвечает растущему спросу на производительные и обеспечивающие конфиденциальность решения, которые можно развертывать в условиях ограниченных ресурсов или в защищенных средах. Опираясь на последние достижения в области масштабирования на этапе тестирования и компактных моделей для рассуждений, мы разработали поисково-дополненного диалогового агента, способного интерпретировать сложные, предметно-ориентированные запросы с использованием легковесной базовой модели. Наша система интегрирует плотный поисковый механизм с тонко настроенными моделями Qwen2.5-Instruct, используя синтетическую генерацию запросов и траектории рассуждений, полученные от передовых моделей (например, DeepSeek-R1), на основе тщательно отобранного корпуса, в данном случае — страниц с описанием состояний NHS A-to-Z. Мы исследуем влияние сжатия документов на основе суммаризации, проектирования синтетических данных и тонкой настройки с учетом рассуждений на производительность модели. Оценка в сравнении с нерассуждающими и универсальными компактными моделями демонстрирует, что наш подход к предметно-ориентированной тонкой настройке обеспечивает значительное улучшение точности и согласованности ответов, приближаясь к уровню передовых моделей, оставаясь при этом пригодным для локального развертывания. Все детали реализации и код публично доступны для обеспечения воспроизводимости и адаптации в различных областях.
English
This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retrieval augmented conversational agent capable of interpreting complex, domain-specific queries using a lightweight backbone model. Our system integrates a dense retriever with fine-tuned Qwen2.5-Instruct models, using synthetic query generation and reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a curated corpus, in this case, the NHS A-to-Z condition pages. We explore the impact of summarisation-based document compression, synthetic data design, and reasoning-aware fine-tuning on model performance. Evaluation against both non-reasoning and general-purpose lean models demonstrates that our domain-specific fine-tuning approach yields substantial gains in answer accuracy and consistency, approaching frontier-level performance while remaining feasible for local deployment. All implementation details and code are publicly released to support reproducibility and adaptation across domains.
PDF52August 20, 2025