Comprensione Autodidatta Agente di Contesti Lunghi

Abstract

Rispondere a domande complesse e con contesto lungo rimane una sfida significativa per i grandi modelli linguistici (LLM), poiché richiede una chiara comprensione della domanda e un efficace recupero del contesto. Proponiamo Agentic Long-Context Understanding (AgenticLU), un framework progettato per migliorare la comprensione di tali query da parte di un LLM integrando l'auto-chiarificazione mirata con l'ancoraggio contestuale all'interno di un flusso di lavoro agentico. Al centro di AgenticLU si trova la Catena di Chiarificazioni (CoC), in cui i modelli affinano la loro comprensione attraverso domande di chiarificazione auto-generate e corrispondenti ancoraggi contestuali. Scalando l'inferenza come una ricerca ad albero, dove ogni nodo rappresenta un passo della CoC, otteniamo un richiamo delle risposte del 97,8% su NarrativeQA con una profondità di ricerca fino a tre e un fattore di ramificazione di otto. Per ammortizzare l'elevato costo di questo processo di ricerca durante l'addestramento, sfruttiamo le coppie di preferenze ottenute per ogni passo dal flusso di lavoro CoC e eseguiamo una fine-tuning del modello in due fasi: (1) fine-tuning supervisionato per apprendere strategie efficaci di scomposizione, e (2) ottimizzazione diretta delle preferenze per migliorare la qualità del ragionamento. Ciò consente ai modelli AgenticLU di generare chiarificazioni e recuperare contesti rilevanti in modo efficace ed efficiente in un singolo passaggio di inferenza. Esperimenti estesi su sette task con contesto lungo dimostrano che AgenticLU supera significativamente i metodi di prompting all'avanguardia e gli LLM specializzati per contesti lunghi, raggiungendo un ragionamento multi-hop robusto mantenendo prestazioni consistenti all'aumentare della lunghezza del contesto.

English

Answering complex, long-context questions remains a major challenge for large language models (LLMs) as it requires effective question clarifications and context retrieval. We propose Agentic Long-Context Understanding (AgenticLU), a framework designed to enhance an LLM's understanding of such queries by integrating targeted self-clarification with contextual grounding within an agentic workflow. At the core of AgenticLU is Chain-of-Clarifications (CoC), where models refine their understanding through self-generated clarification questions and corresponding contextual groundings. By scaling inference as a tree search where each node represents a CoC step, we achieve 97.8% answer recall on NarrativeQA with a search depth of up to three and a branching factor of eight. To amortize the high cost of this search process to training, we leverage the preference pairs for each step obtained by the CoC workflow and perform two-stage model finetuning: (1) supervised finetuning to learn effective decomposition strategies, and (2) direct preference optimization to enhance reasoning quality. This enables AgenticLU models to generate clarifications and retrieve relevant context effectively and efficiently in a single inference pass. Extensive experiments across seven long-context tasks demonstrate that AgenticLU significantly outperforms state-of-the-art prompting methods and specialized long-context LLMs, achieving robust multi-hop reasoning while sustaining consistent performance as context length grows.

Comprensione Autodidatta Agente di Contesti Lunghi

Self-Taught Agentic Long Context Understanding

Abstract

Support