ChatPaper.aiChatPaper

ACC: Compilando Trajetórias de Agentes para Treinamento de Contexto Longo

ACC: Compiling Agent Trajectories for Long-Context Training

May 21, 2026
Autores: Qisheng Su, Zhen Fang, Shiting Huang, Yu Zeng, Yiming Zhao, Kou Shi, Ziao Zhang, Lin Chen, Zehui Chen, Lijun Wu, Feng Zhao
cs.AI

Resumo

O desenvolvimento recente de agentes renovou a demanda pela capacidade de raciocínio em contexto longo dos LLMs. No entanto, treinar LLMs para essa capacidade requer curadoria dispendiosa de documentos longos ou síntese heurística de contexto. Observamos que agentes produzem trajetórias massivas ao resolver problemas, invocando ferramentas e recebendo observações do ambiente ao longo de muitos turnos. As evidências necessárias para responder à pergunta original estão, portanto, dispersas por esses turnos, exigindo integração de segmentos de contexto distantes. Contudo, o SFT padrão de agentes mascara respostas de ferramentas e treina apenas a seleção de ferramentas no nível do turno, criando um ponto cego de supervisão onde esses sinais dispersos não são utilizados. Propomos a Compilação de Contexto de Agentes (ACC), que converte trajetórias de agentes de busca, engenharia de software e consulta a bancos de dados em pares de QA de contexto longo que combinam a pergunta original com respostas de ferramentas e observações do ambiente coletadas em múltiplos turnos, treinando o modelo para responder diretamente sem uso de ferramentas. Isso torna explícitas as dependências entre a pergunta e as evidências, possibilitando supervisão direta do raciocínio em contexto longo sobre segmentos distantes sem anotação adicional. A ACC é uma abordagem simples, porém eficaz, que pode ser combinada com qualquer método existente de extensão ou treinamento de contexto longo, fornecendo dados de fine-tuning supervisionados escaláveis. Validamos a ACC em tarefas de modelagem de dependências de longo alcance por meio do MRCR e do GraphWalks, benchmarks desafiadores que exigem resolução de correferência entre turnos e percurso em grafos sobre contextos estendidos. Treinar o Qwen3-30B-A3B com ACC alcança 68,3 no MRCR (+18,1) e 77,5 no GraphWalks (+7,6), resultados comparáveis ao Qwen3-235B-A22B, preservando capacidades gerais em GPQA, MMLU-Pro, AIME e IFEval. Uma análise de mecanismos posterior revela que o modelo treinado com ACC exibe reestruturação de atenção adaptativa à tarefa e especialização de especialistas.
English
Recent development of agents has renewed demand for long-context reasoning capacity of LLMs. However, training LLMs for this capacity requires costly long-document curation or heuristic context synthesis. We observe that agents produce massive trajectories when solving problems, invoking tools and receiving environment observations across many turns. The evidence needed to answer the original question is thus scattered throughout these turns, requiring integration of distant context segments. Nevertheless, standard agent SFT masks tool responses and only trains turn-level tool selection, creating a supervision blind spot where these scattered signals go unused. We propose Agent Context Compilation (ACC), which converts trajectories from search, software engineering, and database querying agents into long-context QA pairs that combine the original question with tool responses and environment observations gathered across multiple turns, training the model to answer directly without tool use. This makes the dependencies between the question and the evidence explicit, enabling direct supervision of long-context reasoning over distant segments without additional annotation. ACC is a simple but effective approach that can be combined with any existing long-context extension or training method, providing scalable supervised fine-tuning data. We validate ACC on long-range dependency modeling tasks through MRCR and GraphWalks, challenging benchmarks requiring cross-turn coreference resolution and graph traversal over extended contexts. Training Qwen3-30B-A3B with ACC achieves 68.3 on MRCR (+18.1) and 77.5 on GraphWalks (+7.6), results comparable to Qwen3-235B-A22B, while preserving general capabilities on GPQA, MMLU-Pro, AIME, and IFEval. Further mechanism analysis reveals that the ACC-trained model exhibits task-adaptive attention restructuring and expert specialization.