daVinci-Agency: Desbloqueando Agência de Longo Horizonte de Forma Eficiente em Dados
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
February 2, 2026
Autores: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI
Resumo
Embora os modelos de linguagem de grande escala (LLMs) se destaquem em tarefas de curto prazo, dimensioná-los para fluxos de trabalho agentivos de longo horizonte continua sendo um desafio. O principal gargalo reside na escassez de dados de treinamento que capturem estruturas autênticas de longa dependência e dinâmicas evolutivas entre estágios - os métodos de síntese existentes ou se confinam a cenários de característica única limitados pela distribuição do modelo, ou incorrem em custos proibitivos de anotação humana, falhando em fornecer supervisão escalável e de alta qualidade. Nós abordamos isso ao reconceitualizar a síntese de dados através da lente da evolução de software do mundo real. Nossa principal percepção: sequências de *Pull Request* (PR) incorporam naturalmente os sinais de supervisão para aprendizado de longo horizonte. Elas decompõem objetivos complexos em unidades de submissão verificáveis, mantêm coerência funcional entre iterações e codificam padrões autênticos de refinamento através de históricos de correção de bugs.
Com base nisso, propomos o *daVinci-Agency*, que minera sistematicamente a supervisão estruturada a partir de cadeias de PRs por meio de três mecanismos interligados: (1) decomposição progressiva de tarefas via *commits* contínuos, (2) imposição de consistência de longo prazo através de objetivos funcionais unificados, e (3) refinamento verificável a partir de trajetórias autênticas de correção de bugs. Diferente de trajetórias sintéticas que tratam cada etapa independentemente, a estrutura fundamentada em PRs do *daVinci-Agency* preserva inerentemente as dependências causais e os refinamentos iterativos essenciais para ensinar comportamentos persistentes direcionados a objetivos e permite um alinhamento natural com a modelagem de tarefas de ciclo completo em nível de projeto.
As trajetórias resultantes são substanciais - com média de 85 mil *tokens* e 116 chamadas de ferramentas - mas notavelmente eficientes em termos de dados: o *fine-tuning* do GLM-4.6 em 239 amostras do *daVinci-Agency* produz melhorias amplas em *benchmarks*, notavelmente alcançando um ganho relativo de 47% no Toolathlon. Para além do desempenho em *benchmarks*, nossa análise confirma...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...