daVinci-Agency: Desbloqueando Agência de Longo Horizonte de Forma Eficiente em Dados

Resumo

Embora os modelos de linguagem de grande escala (LLMs) se destaquem em tarefas de curto prazo, dimensioná-los para fluxos de trabalho agentivos de longo horizonte continua sendo um desafio. O principal gargalo reside na escassez de dados de treinamento que capturem estruturas autênticas de longa dependência e dinâmicas evolutivas entre estágios - os métodos de síntese existentes ou se confinam a cenários de característica única limitados pela distribuição do modelo, ou incorrem em custos proibitivos de anotação humana, falhando em fornecer supervisão escalável e de alta qualidade. Nós abordamos isso ao reconceitualizar a síntese de dados através da lente da evolução de software do mundo real. Nossa principal percepção: sequências de *Pull Request* (PR) incorporam naturalmente os sinais de supervisão para aprendizado de longo horizonte. Elas decompõem objetivos complexos em unidades de submissão verificáveis, mantêm coerência funcional entre iterações e codificam padrões autênticos de refinamento através de históricos de correção de bugs. Com base nisso, propomos o *daVinci-Agency*, que minera sistematicamente a supervisão estruturada a partir de cadeias de PRs por meio de três mecanismos interligados: (1) decomposição progressiva de tarefas via *commits* contínuos, (2) imposição de consistência de longo prazo através de objetivos funcionais unificados, e (3) refinamento verificável a partir de trajetórias autênticas de correção de bugs. Diferente de trajetórias sintéticas que tratam cada etapa independentemente, a estrutura fundamentada em PRs do *daVinci-Agency* preserva inerentemente as dependências causais e os refinamentos iterativos essenciais para ensinar comportamentos persistentes direcionados a objetivos e permite um alinhamento natural com a modelagem de tarefas de ciclo completo em nível de projeto. As trajetórias resultantes são substanciais - com média de 85 mil *tokens* e 116 chamadas de ferramentas - mas notavelmente eficientes em termos de dados: o *fine-tuning* do GLM-4.6 em 239 amostras do *daVinci-Agency* produz melhorias amplas em *benchmarks*, notavelmente alcançando um ganho relativo de 47% no Toolathlon. Para além do desempenho em *benchmarks*, nossa análise confirma...

English

While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...

daVinci-Agency: Desbloqueando Agência de Longo Horizonte de Forma Eficiente em Dados

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Resumo

Support