Compréhension autonome de contextes longs par un agent auto-apprenant
Self-Taught Agentic Long Context Understanding
February 21, 2025
Auteurs: Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
cs.AI
Résumé
Répondre à des questions complexes et nécessitant un contexte étendu reste un défi majeur pour les grands modèles de langage (LLMs), car cela exige des clarifications efficaces des questions et une récupération pertinente du contexte. Nous proposons Agentic Long-Context Understanding (AgenticLU), un cadre conçu pour améliorer la compréhension des LLMs face à de telles requêtes en intégrant une auto-clarification ciblée avec un ancrage contextuel au sein d'un flux de travail agentique. Au cœur d'AgenticLU se trouve la Chaîne de Clarifications (CoC), où les modèles affinent leur compréhension grâce à des questions de clarification auto-générées et à des ancrages contextuels correspondants. En échelonnant l'inférence sous forme de recherche arborescente, où chaque nœud représente une étape de la CoC, nous obtenons un rappel de réponse de 97,8 % sur NarrativeQA avec une profondeur de recherche allant jusqu'à trois et un facteur de branchement de huit. Pour amortir le coût élevé de ce processus de recherche lors de l'entraînement, nous exploitons les paires de préférences obtenues à chaque étape par le flux de travail CoC et effectuons un affinage du modèle en deux étapes : (1) un affinage supervisé pour apprendre des stratégies de décomposition efficaces, et (2) une optimisation directe des préférences pour améliorer la qualité du raisonnement. Cela permet aux modèles AgenticLU de générer des clarifications et de récupérer le contexte pertinent de manière efficace et efficiente en une seule passe d'inférence. Des expériences approfondies sur sept tâches nécessitant un contexte étendu montrent qu'AgenticLU surpasse significativement les méthodes d'invocation d'état de l'art et les LLMs spécialisés dans les contextes longs, en réalisant un raisonnement multi-saut robuste tout en maintenant une performance constante à mesure que la longueur du contexte augmente.
English
Answering complex, long-context questions remains a major challenge for large
language models (LLMs) as it requires effective question clarifications and
context retrieval. We propose Agentic Long-Context Understanding (AgenticLU), a
framework designed to enhance an LLM's understanding of such queries by
integrating targeted self-clarification with contextual grounding within an
agentic workflow. At the core of AgenticLU is Chain-of-Clarifications (CoC),
where models refine their understanding through self-generated clarification
questions and corresponding contextual groundings. By scaling inference as a
tree search where each node represents a CoC step, we achieve 97.8% answer
recall on NarrativeQA with a search depth of up to three and a branching factor
of eight. To amortize the high cost of this search process to training, we
leverage the preference pairs for each step obtained by the CoC workflow and
perform two-stage model finetuning: (1) supervised finetuning to learn
effective decomposition strategies, and (2) direct preference optimization to
enhance reasoning quality. This enables AgenticLU models to generate
clarifications and retrieve relevant context effectively and efficiently in a
single inference pass. Extensive experiments across seven long-context tasks
demonstrate that AgenticLU significantly outperforms state-of-the-art prompting
methods and specialized long-context LLMs, achieving robust multi-hop reasoning
while sustaining consistent performance as context length grows.Summary
AI-Generated Summary