ACC : Compilation de trajectoires d'agents pour l'entraînement en contexte long

Résumé

Le développement récent des agents a renouvelé la demande de capacité de raisonnement sur de longs contextes des LLM. Cependant, l'entraînement des LLM pour cette capacité nécessite une curation coûteuse de longs documents ou une synthèse heuristique de contexte. Nous observons que les agents produisent des trajectoires massives lorsqu'ils résolvent des problèmes, invoquant des outils et recevant des observations de l'environnement sur de nombreux tours. Les preuves nécessaires pour répondre à la question originale sont donc dispersées à travers ces tours, nécessitant l'intégration de segments de contexte distants. Néanmoins, le SFT standard des agents masque les réponses des outils et n'entraîne que la sélection d'outils au niveau du tour, créant un angle mort de supervision où ces signaux dispersés restent inutilisés. Nous proposons la Compilation de Contexte d'Agent (ACC), qui convertit les trajectoires d'agents de recherche, de génie logiciel et d'interrogation de bases de données en paires questions-réponses sur de longs contextes combinant la question originale avec les réponses des outils et les observations de l'environnement recueillies sur plusieurs tours, entraînant le modèle à répondre directement sans utilisation d'outils. Cela rend explicites les dépendances entre la question et les preuves, permettant une supervision directe du raisonnement sur de longs contextes sur des segments distants sans annotation supplémentaire. ACC est une approche simple mais efficace qui peut être combinée avec toute méthode existante d'extension de long contexte ou d'entraînement, fournissant des données de fine-tuning supervisé évolutives. Nous validons ACC sur des tâches de modélisation de dépendances à longue portée via MRCR et GraphWalks, des benchmarks exigeants nécessitant une résolution de coréférence inter-tour et un parcours de graphe sur des contextes étendus. L'entraînement de Qwen3-30B-A3B avec ACC atteint 68,3 sur MRCR (+18,1) et 77,5 sur GraphWalks (+7,6), des résultats comparables à Qwen3-235B-A22B, tout en préservant les capacités générales sur GPQA, MMLU-Pro, AIME et IFEval. Une analyse mécanistique plus poussée révèle que le modèle entraîné avec ACC présente une restructuration adaptative de l'attention et une spécialisation experte.

English

Recent development of agents has renewed demand for long-context reasoning capacity of LLMs. However, training LLMs for this capacity requires costly long-document curation or heuristic context synthesis. We observe that agents produce massive trajectories when solving problems, invoking tools and receiving environment observations across many turns. The evidence needed to answer the original question is thus scattered throughout these turns, requiring integration of distant context segments. Nevertheless, standard agent SFT masks tool responses and only trains turn-level tool selection, creating a supervision blind spot where these scattered signals go unused. We propose Agent Context Compilation (ACC), which converts trajectories from search, software engineering, and database querying agents into long-context QA pairs that combine the original question with tool responses and environment observations gathered across multiple turns, training the model to answer directly without tool use. This makes the dependencies between the question and the evidence explicit, enabling direct supervision of long-context reasoning over distant segments without additional annotation. ACC is a simple but effective approach that can be combined with any existing long-context extension or training method, providing scalable supervised fine-tuning data. We validate ACC on long-range dependency modeling tasks through MRCR and GraphWalks, challenging benchmarks requiring cross-turn coreference resolution and graph traversal over extended contexts. Training Qwen3-30B-A3B with ACC achieves 68.3 on MRCR (+18.1) and 77.5 on GraphWalks (+7.6), results comparable to Qwen3-235B-A22B, while preserving general capabilities on GPQA, MMLU-Pro, AIME, and IFEval. Further mechanism analysis reveals that the ACC-trained model exhibits task-adaptive attention restructuring and expert specialization.