ChatPaper.aiChatPaper

ACC: Компиляция траекторий агентов для обучения с длинным контекстом

ACC: Compiling Agent Trajectories for Long-Context Training

May 21, 2026
Авторы: Qisheng Su, Zhen Fang, Shiting Huang, Yu Zeng, Yiming Zhao, Kou Shi, Ziao Zhang, Lin Chen, Zehui Chen, Lijun Wu, Feng Zhao
cs.AI

Аннотация

Недавнее развитие агентов возобновило спрос на способность больших языковых моделей (LLM) к рассуждению на основе длинного контекста. Однако обучение LLM такой способности требует дорогостоящего курирования длинных документов или эвристического синтеза контекста. Мы обнаружили, что агенты генерируют массивные траектории при решении задач, вызывая инструменты и получая наблюдения среды на протяжении множества шагов. Необходимая для ответа на исходный вопрос информация, таким образом, оказывается разбросанной по этим шагам, требуя интеграции удалённых фрагментов контекста. Тем не менее, стандартный SFT для агентов маскирует ответы инструментов и обучает только выбор инструментов на уровне шага, создавая слепую зону контроля, в которой эти разрозненные сигналы остаются неиспользованными. Мы предлагаем метод компиляции контекста агента (ACC), который преобразует траектории агентов поиска, программной инженерии и запросов к базам данных в пары вопрос-ответ для длинного контекста, объединяющие исходный вопрос с ответами инструментов и наблюдениями среды, собранными на нескольких шагах, обучая модель отвечать напрямую без использования инструментов. Это делает зависимости между вопросом и свидетельством явными, обеспечивая прямое обучение рассуждению на основе длинного контекста по удалённым сегментам без дополнительной разметки. ACC — простой, но эффективный подход, который может быть объединён с любым существующим методом расширения длинного контекста или обучения, предоставляя масштабируемые данные для контролируемой тонкой настройки. Мы валидируем ACC на задачах моделирования зависимостей на больших расстояниях с помощью MRCR и GraphWalks — это сложные бенчмарки, требующие разрешения cross-turn кореференций и обхода графов на расширенных контекстах. Обучение Qwen3-30B-A3B с ACC достигает 68.3 по MRCR (+18.1) и 77.5 по GraphWalks (+7.6), что сопоставимо с результатами Qwen3-235B-A22B, при этом сохраняя общие способности по GPQA, MMLU-Pro, AIME и IFEval. Дальнейший анализ механизмов показывает, что модель, обученная с ACC, демонстрирует адаптивную перестройку внимания и специализацию экспертов.
English
Recent development of agents has renewed demand for long-context reasoning capacity of LLMs. However, training LLMs for this capacity requires costly long-document curation or heuristic context synthesis. We observe that agents produce massive trajectories when solving problems, invoking tools and receiving environment observations across many turns. The evidence needed to answer the original question is thus scattered throughout these turns, requiring integration of distant context segments. Nevertheless, standard agent SFT masks tool responses and only trains turn-level tool selection, creating a supervision blind spot where these scattered signals go unused. We propose Agent Context Compilation (ACC), which converts trajectories from search, software engineering, and database querying agents into long-context QA pairs that combine the original question with tool responses and environment observations gathered across multiple turns, training the model to answer directly without tool use. This makes the dependencies between the question and the evidence explicit, enabling direct supervision of long-context reasoning over distant segments without additional annotation. ACC is a simple but effective approach that can be combined with any existing long-context extension or training method, providing scalable supervised fine-tuning data. We validate ACC on long-range dependency modeling tasks through MRCR and GraphWalks, challenging benchmarks requiring cross-turn coreference resolution and graph traversal over extended contexts. Training Qwen3-30B-A3B with ACC achieves 68.3 on MRCR (+18.1) and 77.5 on GraphWalks (+7.6), results comparable to Qwen3-235B-A22B, while preserving general capabilities on GPQA, MMLU-Pro, AIME, and IFEval. Further mechanism analysis reveals that the ACC-trained model exhibits task-adaptive attention restructuring and expert specialization.