ACC: Compilación de Trayectorias de Agentes para el Entrenamiento de Contexto Largo

Resumen

El reciente desarrollo de agentes ha renovado la demanda de capacidad de razonamiento en contextos largos de los LLMs. Sin embargo, entrenar LLMs para esta capacidad requiere una costosa curación de documentos largos o síntesis heurística de contexto. Observamos que los agentes producen trayectorias masivas al resolver problemas, invocando herramientas y recibiendo observaciones del entorno a través de muchos turnos. La evidencia necesaria para responder la pregunta original está así dispersa a lo largo de estos turnos, requiriendo integración de segmentos de contexto distantes. No obstante, el SFT estándar de agentes enmascara las respuestas de las herramientas y solo entrena la selección de herramientas a nivel de turno, creando un punto ciego de supervisión donde estas señales dispersas quedan sin usar. Proponemos Agent Context Compilation (ACC), que convierte trayectorias de agentes de búsqueda, ingeniería de software y consulta de bases de datos en pares de preguntas y respuestas de contexto largo que combinan la pregunta original con respuestas de herramientas y observaciones del entorno recopiladas a través de múltiples turnos, entrenando al modelo para responder directamente sin uso de herramientas. Esto hace explícitas las dependencias entre la pregunta y la evidencia, permitiendo la supervisión directa del razonamiento en contextos largos sobre segmentos distantes sin anotación adicional. ACC es un enfoque simple pero efectivo que puede combinarse con cualquier método de extensión o entrenamiento de contexto largo existente, proporcionando datos de ajuste fino supervisado escalables. Validamos ACC en tareas de modelado de dependencias de largo alcance a través de MRCR y GraphWalks, puntos de referencia desafiantes que requieren resolución de correferencia entre turnos y recorrido de grafos en contextos extendidos. Entrenar Qwen3-30B-A3B con ACC logra 68.3 en MRCR (+18.1) y 77.5 en GraphWalks (+7.6), resultados comparables a Qwen3-235B-A22B, mientras preserva capacidades generales en GPQA, MMLU-Pro, AIME e IFEval. Un análisis de mecanismos adicional revela que el modelo entrenado con ACC exhibe una reestructuración de atención adaptativa a la tarea y especialización de expertos.

English

Recent development of agents has renewed demand for long-context reasoning capacity of LLMs. However, training LLMs for this capacity requires costly long-document curation or heuristic context synthesis. We observe that agents produce massive trajectories when solving problems, invoking tools and receiving environment observations across many turns. The evidence needed to answer the original question is thus scattered throughout these turns, requiring integration of distant context segments. Nevertheless, standard agent SFT masks tool responses and only trains turn-level tool selection, creating a supervision blind spot where these scattered signals go unused. We propose Agent Context Compilation (ACC), which converts trajectories from search, software engineering, and database querying agents into long-context QA pairs that combine the original question with tool responses and environment observations gathered across multiple turns, training the model to answer directly without tool use. This makes the dependencies between the question and the evidence explicit, enabling direct supervision of long-context reasoning over distant segments without additional annotation. ACC is a simple but effective approach that can be combined with any existing long-context extension or training method, providing scalable supervised fine-tuning data. We validate ACC on long-range dependency modeling tasks through MRCR and GraphWalks, challenging benchmarks requiring cross-turn coreference resolution and graph traversal over extended contexts. Training Qwen3-30B-A3B with ACC achieves 68.3 on MRCR (+18.1) and 77.5 on GraphWalks (+7.6), results comparable to Qwen3-235B-A22B, while preserving general capabilities on GPQA, MMLU-Pro, AIME, and IFEval. Further mechanism analysis reveals that the ACC-trained model exhibits task-adaptive attention restructuring and expert specialization.