ACC: Het compileren van agenttrajecten voor lang-contexttraining

Samenvatting

De recente ontwikkeling van agents heeft de vraag naar lang-context redeneercapaciteit van LLMs opnieuw aangewakkerd. Het trainen van LLMs voor deze capaciteit vereist echter kostbare curatie van lange documenten of heuristische contextsynthese. We observeren dat agents bij het oplossen van problemen massale trajecten produceren, waarbij ze over vele beurten tools aanroepen en omgevingsobservaties ontvangen. Het bewijs dat nodig is om de oorspronkelijke vraag te beantwoorden, is daardoor verspreid over deze beurten, wat integratie van verre contextsegmenten vereist. Desalniettemin maskeert standaard agent SFT toolresponsen en traint alleen turn-level toolselectie, waardoor er een supervisieblinde vlek ontstaat waarin deze verspreide signalen ongebruikt blijven. We stellen Agent Context Compilation (ACC) voor, die trajecten van zoek-, software-engineering- en databasequery-agents omzet in lange-context QA-paren die de oorspronkelijke vraag combineren met toolresponsen en omgevingsobservaties verzameld over meerdere beurten, en het model traint om direct te antwoorden zonder toolgebruik. Dit maakt de afhankelijkheden tussen de vraag en het bewijs expliciet, waardoor directe supervisie van lang-context redeneren over verre segmenten mogelijk wordt zonder extra annotatie. ACC is een eenvoudige maar effectieve aanpak die kan worden gecombineerd met elke bestaande lang-context extensie- of trainingsmethode, en biedt schaalbare gesuperviseerde fine-tuning data. We valideren ACC op lange-afstandsafhankelijkheidsmodelleringstaken via MRCR en GraphWalks, uitdagende benchmarks die cross-turn coreferentieresolutie en graafdoorloop over uitgebreide contexten vereisen. Het trainen van Qwen3-30B-A3B met ACC behaalt 68,3 op MRCR (+18,1) en 77,5 op GraphWalks (+7,6), resultaten die vergelijkbaar zijn met Qwen3-235B-A22B, terwijl algemene capaciteiten op GPQA, MMLU-Pro, AIME en IFEval behouden blijven. Verdere mechanismeanalyse onthult dat het met ACC getrainde model taakadaptieve aandachtrestructurering en expertspecialisatie vertoont.

English

Recent development of agents has renewed demand for long-context reasoning capacity of LLMs. However, training LLMs for this capacity requires costly long-document curation or heuristic context synthesis. We observe that agents produce massive trajectories when solving problems, invoking tools and receiving environment observations across many turns. The evidence needed to answer the original question is thus scattered throughout these turns, requiring integration of distant context segments. Nevertheless, standard agent SFT masks tool responses and only trains turn-level tool selection, creating a supervision blind spot where these scattered signals go unused. We propose Agent Context Compilation (ACC), which converts trajectories from search, software engineering, and database querying agents into long-context QA pairs that combine the original question with tool responses and environment observations gathered across multiple turns, training the model to answer directly without tool use. This makes the dependencies between the question and the evidence explicit, enabling direct supervision of long-context reasoning over distant segments without additional annotation. ACC is a simple but effective approach that can be combined with any existing long-context extension or training method, providing scalable supervised fine-tuning data. We validate ACC on long-range dependency modeling tasks through MRCR and GraphWalks, challenging benchmarks requiring cross-turn coreference resolution and graph traversal over extended contexts. Training Qwen3-30B-A3B with ACC achieves 68.3 on MRCR (+18.1) and 77.5 on GraphWalks (+7.6), results comparable to Qwen3-235B-A22B, while preserving general capabilities on GPQA, MMLU-Pro, AIME, and IFEval. Further mechanism analysis reveals that the ACC-trained model exhibits task-adaptive attention restructuring and expert specialization.