ChatPaper.aiChatPaper

Zelflerende Agentische Lange Contextbegrip

Self-Taught Agentic Long Context Understanding

February 21, 2025
Auteurs: Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
cs.AI

Samenvatting

Het beantwoorden van complexe, lang-contextuele vragen blijft een grote uitdaging voor grote taalmodellen (LLM's), aangezien dit effectieve vraagverduidelijking en contextuele ophaling vereist. Wij stellen Agentic Long-Context Understanding (AgenticLU) voor, een raamwerk dat is ontworpen om het begrip van dergelijke vragen door een LLM te verbeteren door gerichte zelfverduidelijking te integreren met contextuele verankering binnen een agentisch werkstroom. In de kern van AgenticLU staat Chain-of-Clarifications (CoC), waar modellen hun begrip verfijnen door zelf gegenereerde verduidelijkingsvragen en bijbehorende contextuele verankeringen. Door inferentie te schalen als een boomzoekopdracht waarbij elke knoop een CoC-stap vertegenwoordigt, behalen we een antwoordherinnering van 97,8% op NarrativeQA met een zoekdiepte tot drie en een vertakkingsfactor van acht. Om de hoge kosten van dit zoekproces bij training te amortiseren, maken we gebruik van de voorkeursparen voor elke stap verkregen door de CoC-werkstroom en voeren we tweefasige modelverfijning uit: (1) begeleide verfijning om effectieve decompositiestrategieën te leren, en (2) directe voorkeursoptimalisatie om de redeneerkwaliteit te verbeteren. Dit stelt AgenticLU-modellen in staat om effectief en efficiënt verduidelijkingen te genereren en relevante context op te halen in één inferentiepassage. Uitgebreide experimenten over zeven lang-contextuele taken tonen aan dat AgenticLU aanzienlijk beter presteert dan state-of-the-art prompting-methoden en gespecialiseerde lang-contextuele LLM's, waarbij robuuste multi-hop redenering wordt bereikt terwijl de prestaties consistent blijven bij toenemende contextlengte.
English
Answering complex, long-context questions remains a major challenge for large language models (LLMs) as it requires effective question clarifications and context retrieval. We propose Agentic Long-Context Understanding (AgenticLU), a framework designed to enhance an LLM's understanding of such queries by integrating targeted self-clarification with contextual grounding within an agentic workflow. At the core of AgenticLU is Chain-of-Clarifications (CoC), where models refine their understanding through self-generated clarification questions and corresponding contextual groundings. By scaling inference as a tree search where each node represents a CoC step, we achieve 97.8% answer recall on NarrativeQA with a search depth of up to three and a branching factor of eight. To amortize the high cost of this search process to training, we leverage the preference pairs for each step obtained by the CoC workflow and perform two-stage model finetuning: (1) supervised finetuning to learn effective decomposition strategies, and (2) direct preference optimization to enhance reasoning quality. This enables AgenticLU models to generate clarifications and retrieve relevant context effectively and efficiently in a single inference pass. Extensive experiments across seven long-context tasks demonstrate that AgenticLU significantly outperforms state-of-the-art prompting methods and specialized long-context LLMs, achieving robust multi-hop reasoning while sustaining consistent performance as context length grows.

Summary

AI-Generated Summary

PDF32February 25, 2025