ChatPaper.aiChatPaper

リーン言語モデルを用いた検索拡張推論

Retrieval-augmented reasoning with lean language models

August 15, 2025
著者: Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan
cs.AI

要旨

本技術レポートは、推論と検索拡張生成(RAG)を単一の軽量な言語モデルアーキテクチャ内で組み合わせる新たなアプローチを詳細に説明する。既存のRAGシステムは大規模モデルと外部APIに依存する傾向があるが、本研究はリソースが制約された環境やセキュアな環境での展開が可能な、高性能かつプライバシー保護を重視したソリューションに対する需要の高まりに対応する。テストタイムスケーリングや小規模推論モデルの最近の進展を基盤として、軽量なバックボーンモデルを用いて複雑なドメイン固有のクエリを解釈できる検索拡張型会話エージェントを開発した。本システムは、高密度検索器とファインチューニングされたQwen2.5-Instructモデルを統合し、キュレーションされたコーパス(この場合はNHS A-to-Z条件ページ)上でフロンティアモデル(例:DeepSeek-R1)から導出された合成クエリ生成と推論トレースを利用する。要約ベースのドキュメント圧縮、合成データ設計、推論を意識したファインチューニングがモデル性能に与える影響を探求する。非推論モデルおよび汎用軽量モデルとの評価により、ドメイン固有のファインチューニングアプローチが回答の正確性と一貫性において大幅な向上をもたらし、フロンティアレベルの性能に近づきつつローカル展開が可能であることを実証する。再現性と他ドメインへの適応を支援するため、すべての実装詳細とコードを公開している。
English
This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retrieval augmented conversational agent capable of interpreting complex, domain-specific queries using a lightweight backbone model. Our system integrates a dense retriever with fine-tuned Qwen2.5-Instruct models, using synthetic query generation and reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a curated corpus, in this case, the NHS A-to-Z condition pages. We explore the impact of summarisation-based document compression, synthetic data design, and reasoning-aware fine-tuning on model performance. Evaluation against both non-reasoning and general-purpose lean models demonstrates that our domain-specific fine-tuning approach yields substantial gains in answer accuracy and consistency, approaching frontier-level performance while remaining feasible for local deployment. All implementation details and code are publicly released to support reproducibility and adaptation across domains.
PDF52August 20, 2025