daVinci-Agency: 長期的エージェンシーをデータ効率的に実現する
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
February 2, 2026
著者: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI
要旨
大規模言語モデル(LLM)は短期的タスクでは優れた性能を発揮するものの、長期的なエージェントワークフローへの拡張は依然として課題である。中核的なボトルネックは、真正の長距離依存構造と段階間の進化的ダイナミクスを捉えた学習データの不足にある。既存の合成手法は、モデル分布に制約された単一機能シナリオに閉じこもるか、あるいは許容不能な人的アノテーションコストが発生し、拡張性のある高品質な教師信号を提供できていない。我々はこの問題を、実世界のソフトウェア進化のレンズを通じてデータ合成を再概念化することで解決する。鍵となる洞察は、プルリクエスト(PR)連鎖が自然に長期的学習のための教師信号を具現化している点である。PR連鎖は複雑な目標を検証可能な提交単位に分解し、反復を跨いだ機能的一貫性を維持し、バグ修正履歴を通じて真正の改良パターンを符号化する。これを基盤として、我々はdaVinci-Agencyを提案する。これはPR連鎖から構造化された教師信号を、3つの連動メカニズムを通じて体系的に抽出する:(1)継続的コミットによる漸進的タスク分解、(2)統一された機能目標に基づく長期的整合性強制、(3)真正のバグ修正軌跡からの検証可能な改良。各ステップを独立に扱う合成軌跡とは異なり、daVinci-AgencyのPRに根差した構造は、持続的な目標指向行動を教えるために不可欠な因果的依存関係と反復的改良を本質的に保持し、プロジェクトレベルでの完全循環型タスクモデリングとの自然な整合を可能にする。生成される軌跡は大規模(平均85kトークン、116ツール呼び出し)でありながら、顕著なデータ効率を実現:GLM-4.6を239のdaVinci-Agencyサンプルでファインチューニングすると、ベンチマーク全体で広範な改善が得られ、特にToolathlonで47%の相対向上を達成。ベンチマーク性能を超えて、我々の分析は…
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...