Selbstlernendes agentisches Verständnis langer Kontexte
Self-Taught Agentic Long Context Understanding
February 21, 2025
Autoren: Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
cs.AI
Zusammenfassung
Die Beantwortung komplexer, langatmiger Fragen bleibt eine große Herausforderung für große Sprachmodelle (LLMs), da sie effektive Frageklärungen und Kontextabruf erfordert. Wir schlagen Agentic Long-Context Understanding (AgenticLU) vor, ein Framework, das entwickelt wurde, um das Verständnis solcher Anfragen eines LLMs durch die Integration gezielter Selbstklärung mit kontextueller Verankerung innerhalb eines agentischen Arbeitsablaufs zu verbessern. Im Kern von AgenticLU steht Chain-of-Clarifications (CoC), bei dem Modelle ihr Verständnis durch selbstgenerierte Klärungsfragen und entsprechende kontextuelle Verankerungen verfeinern. Durch Skalierung der Inferenz als Baumstruktur, bei der jeder Knoten einen CoC-Schritt darstellt, erreichen wir eine Antwortabrufquote von 97,8% auf NarrativeQA mit einer Suchtiefe von bis zu drei und einem Verzweigungsfaktor von acht. Um die hohe Kosten dieses Suchprozesses für das Training zu amortisieren, nutzen wir die Präferenzpaare für jeden Schritt, die durch den CoC-Arbeitsablauf erhalten wurden, und führen ein zweistufiges Modellfeintuning durch: (1) überwachtes Feintuning, um effektive Zerlegungsstrategien zu erlernen, und (2) direkte Präferenzoptimierung zur Verbesserung der Argumentationsqualität. Dies ermöglicht es AgenticLU-Modellen, Klärungen zu generieren und relevante Kontexte effektiv und effizient in einem einzigen Inferenzdurchlauf abzurufen. Umfangreiche Experimente über sieben langatmige Aufgaben zeigen, dass AgenticLU signifikant besser abschneidet als führende Aufforderungsmethoden und spezialisierte langatmige LLMs, robuste Mehrfachsprung-Argumentation erreicht und eine konsistente Leistung beibehält, während die Kontextlänge zunimmt.
English
Answering complex, long-context questions remains a major challenge for large
language models (LLMs) as it requires effective question clarifications and
context retrieval. We propose Agentic Long-Context Understanding (AgenticLU), a
framework designed to enhance an LLM's understanding of such queries by
integrating targeted self-clarification with contextual grounding within an
agentic workflow. At the core of AgenticLU is Chain-of-Clarifications (CoC),
where models refine their understanding through self-generated clarification
questions and corresponding contextual groundings. By scaling inference as a
tree search where each node represents a CoC step, we achieve 97.8% answer
recall on NarrativeQA with a search depth of up to three and a branching factor
of eight. To amortize the high cost of this search process to training, we
leverage the preference pairs for each step obtained by the CoC workflow and
perform two-stage model finetuning: (1) supervised finetuning to learn
effective decomposition strategies, and (2) direct preference optimization to
enhance reasoning quality. This enables AgenticLU models to generate
clarifications and retrieve relevant context effectively and efficiently in a
single inference pass. Extensive experiments across seven long-context tasks
demonstrate that AgenticLU significantly outperforms state-of-the-art prompting
methods and specialized long-context LLMs, achieving robust multi-hop reasoning
while sustaining consistent performance as context length grows.Summary
AI-Generated Summary