ChatPaper.aiChatPaper

daVinci-Agency: Эффективное освоение долгосрочных агентских стратегий при ограниченных данных

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

February 2, 2026
Авторы: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

Аннотация

В то время как большие языковые модели (LLM) превосходно справляются с краткосрочными задачами, их масштабирование для долгосрочных агентских рабочих процессов остается сложной задачей. Ключевое узкое место заключается в нехватке обучающих данных, которые фиксируют аутентичные структуры с длинными зависимостями и межэтапную эволюционную динамику — существующие методы синтеза либо ограничиваются сценариями с одной функциональностью, скованными распределением модели, либо требуют непомерных затрат на человеческую разметку, не обеспечивая масштабируемого высококачественного контроля. Мы решаем эту проблему, переосмысливая синтез данных через призму эволюции реального программного обеспечения. Наше ключевое наблюдение: последовательности Pull Request (PR) естественным образом воплощают в себе сигналы контроля для долгосрочного обучения. Они декомпозируют сложные цели на проверяемые единицы提交, сохраняют функциональную согласованность между итерациями и кодируют аутентичные паттерны доработки через истории исправления ошибок. Основываясь на этом, мы предлагаем **daVinci-Agency** — подход, который систематически извлекает структурированный контроль из цепочек PR с помощью трех взаимосвязанных механизмов: (1) прогрессивная декомпозиция задач через непрерывные коммиты, (2) обеспечение долгосрочной согласованности через единые функциональные цели и (3) проверяемая доработка на основе аутентичных траекторий исправления ошибок. В отличие от синтетических траекторий, которые рассматривают каждый шаг независимо, структура daVinci-Agency, основанная на PR, изначально сохраняет причинно-следственные зависимости и итеративные улучшения, необходимые для обучения устойчивому целеориентированному поведению, и позволяет естественно согласовывать его с проектно-ориентированным, полнопроцессным моделированием задач. Получаемые траектории значительны по объему — в среднем 85 тыс. токенов и 116 вызовов инструментов — и при этом обладают замечательной эффективностью использования данных: дообучение модели GLM-4.6 на 239 образцах от daVinci-Agency приводит к широкому улучшению результатов по различным бенчмаркам, с notably относительным приростом в 47% на Toolathlon. Помимо производительности на бенчмарках, наш анализ подтверждает...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...
PDF431February 5, 2026