Verbeteren van contextgetrouwheid via native retrieval-augmented reasoning
Improving Context Fidelity via Native Retrieval-Augmented Reasoning
September 17, 2025
Auteurs: Suyuchen Wang, Jinlin Wang, Xinyu Wang, Shiqi Li, Xiangru Tang, Sirui Hong, Xiao-Wen Chang, Chenglin Wu, Bang Liu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben vaak moeite met contextgetrouwheid en produceren inconsistente antwoorden bij het beantwoorden van vragen op basis van verstrekte informatie. Bestaande benaderingen vertrouwen ofwel op kostbare supervised fine-tuning om bewijs achteraf te genereren, of trainen modellen om webzoekopdrachten uit te voeren zonder noodzakelijkerwijs het gebruik van de gegeven context te verbeteren. Wij stellen CARE voor, een innovatief native retrieval-augmented reasoning framework dat LLMs leert om expliciet in-context bewijs te integreren in hun redeneerproces met de eigen retrieval-mogelijkheden van het model. Onze methode vereist beperkte gelabelde bewijsdata terwijl het zowel de nauwkeurigheid van het ophalen als de prestaties van antwoordgeneratie aanzienlijk verbetert door strategisch opgehaalde in-context tokens in de redeneerketen. Uitgebreide experimenten op meerdere real-world en counterfactuele QA-benchmarks tonen aan dat onze aanzienlijk beter presteert dan supervised fine-tuning, traditionele retrieval-augmented generatiemethoden en externe retrieval-oplossingen. Dit werk vertegenwoordigt een fundamentele vooruitgang in het nauwkeuriger, betrouwbaarder en efficiënter maken van LLMs voor kennisintensieve taken.
English
Large language models (LLMs) often struggle with context fidelity, producing
inconsistent answers when responding to questions based on provided
information. Existing approaches either rely on expensive supervised
fine-tuning to generate evidence post-answer or train models to perform web
searches without necessarily improving utilization of the given context. We
propose CARE, a novel native retrieval-augmented reasoning framework that
teaches LLMs to explicitly integrate in-context evidence within their reasoning
process with the model's own retrieval capabilities. Our method requires
limited labeled evidence data while significantly enhancing both retrieval
accuracy and answer generation performance through strategically retrieved
in-context tokens in the reasoning chain. Extensive experiments on multiple
real-world and counterfactual QA benchmarks demonstrate that our approach
substantially outperforms supervised fine-tuning, traditional
retrieval-augmented generation methods, and external retrieval solutions. This
work represents a fundamental advancement in making LLMs more accurate,
reliable, and efficient for knowledge-intensive tasks.