ACC: Kompilieren von Agent-Trajektorien für Long-Context-Training

Zusammenfassung

Die jüngste Entwicklung von Agenten hat die Nachfrage nach der Fähigkeit großer Sprachmodelle (LLMs) zum Denken über lange Kontexte hinweg erneuert. Das Training von LLMs für diese Fähigkeit erfordert jedoch kostspielige langwierige Dokumentenkuratierung oder heuristische Kontextsynthese. Wir beobachten, dass Agenten bei der Lösung von Problemen umfangreiche Trajektorien erzeugen, dabei Werkzeuge aufrufen und Umgebungsbeobachtungen über viele Interaktionen hinweg erhalten. Die zum Beantworten der ursprünglichen Frage erforderlichen Informationen sind daher über diese Interaktionen verstreut, was die Integration entfernter Kontextsegmente erfordert. Dennoch maskiert das standardmäßige überwachte Feintuning (SFT) von Agenten die Antworten der Werkzeuge und trainiert nur die werkzeugbezogene Auswahl auf Interaktionsebene, wodurch eine Überwachungslücke entsteht, in der diese verstreuten Signale ungenutzt bleiben. Wir schlagen die Agent Context Compilation (ACC) vor, die Trajektorien von Such-, Softwareentwicklungs- und Datenbankabfrageagenten in Paare von langen Kontexten und Fragen umwandelt, die die ursprüngliche Frage mit über mehrere Interaktionen hinweg gesammelten Werkzeugantworten und Umgebungsbeobachtungen kombinieren, und das Modell darauf trainiert, direkt ohne Werkzeugnutzung zu antworten. Dies macht die Abhängigkeiten zwischen der Frage und den Informationen explizit und ermöglicht direkte Überwachung des Denkens über lange Kontexte hinweg über entfernte Segmente hinweg ohne zusätzliche Annotation. ACC ist ein einfacher, aber effektiver Ansatz, der mit jeder bestehenden Methode zur Kontexterweiterung oder zum Training kombiniert werden kann und skalierbare überwachte Feintuning-Daten bereitstellt. Wir validieren ACC anhand von Aufgaben zur Modellierung von Fernabhängigkeiten mittels MRCR und GraphWalks, anspruchsvollen Benchmarks, die eine über mehrere Interaktionen hinweggehende Koreferenzauflösung und Graphentraversierung über ausgedehnte Kontexte hinweg erfordern. Das Training von Qwen3-30B-A3B mit ACC erreicht 68,3 bei MRCR (+18,1) und 77,5 bei GraphWalks (+7,6), Ergebnisse, die mit Qwen3-235B-A22B vergleichbar sind, während die allgemeinen Fähigkeiten bei GPQA, MMLU-Pro, AIME und IFEval erhalten bleiben. Weitere Mechanismusanalysen zeigen, dass das mit ACC trainierte Modell eine aufgabenadaptive Neuausrichtung der Aufmerksamkeit und Spezialisierung von Experten aufweist.

English

Recent development of agents has renewed demand for long-context reasoning capacity of LLMs. However, training LLMs for this capacity requires costly long-document curation or heuristic context synthesis. We observe that agents produce massive trajectories when solving problems, invoking tools and receiving environment observations across many turns. The evidence needed to answer the original question is thus scattered throughout these turns, requiring integration of distant context segments. Nevertheless, standard agent SFT masks tool responses and only trains turn-level tool selection, creating a supervision blind spot where these scattered signals go unused. We propose Agent Context Compilation (ACC), which converts trajectories from search, software engineering, and database querying agents into long-context QA pairs that combine the original question with tool responses and environment observations gathered across multiple turns, training the model to answer directly without tool use. This makes the dependencies between the question and the evidence explicit, enabling direct supervision of long-context reasoning over distant segments without additional annotation. ACC is a simple but effective approach that can be combined with any existing long-context extension or training method, providing scalable supervised fine-tuning data. We validate ACC on long-range dependency modeling tasks through MRCR and GraphWalks, challenging benchmarks requiring cross-turn coreference resolution and graph traversal over extended contexts. Training Qwen3-30B-A3B with ACC achieves 68.3 on MRCR (+18.1) and 77.5 on GraphWalks (+7.6), results comparable to Qwen3-235B-A22B, while preserving general capabilities on GPQA, MMLU-Pro, AIME, and IFEval. Further mechanism analysis reveals that the ACC-trained model exhibits task-adaptive attention restructuring and expert specialization.