daVinci-Agency: 장기적 행동 주체성의 데이터 효율적 구현
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
February 2, 2026
저자: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI
초록
대규모 언어 모델(LLM)은 단기적 과제에서는 뛰어난 성능을 보이지만, 이를 장기적 에이전트 워크플로우로 확장하는 것은 여전히 과제로 남아 있습니다. 핵심 병목 현상은 진정한 장기 의존성 구조와 교차 단계 진화 역학을 포착하는 훈련 데이터의 부족에 있습니다. 기존의 합성 방법은 모델 분포에 제한된 단일 기능 시나리오에 국한되거나, 과도한 인간 주석 비용이 발생하여 확장 가능한 고품질 지도를 제공하지 못합니다. 우리는 실제 소프트웨어 진화의 관점에서 데이터 합성을 재구성하여 이 문제를 해결합니다. 우리의 핵심 통찰은 다음과 같습니다. 풀 리퀘스트(PR) 시퀀스는 장기적 학습을 위한 지도 신호를 자연스럽게 구현합니다. PR은 복잡한 목표를 검증 가능한 제출 단위로 분해하고, 반복에 걸쳐 기능적 일관성을 유지하며, 버그 수정 기록을 통해 진정한 개선 패턴을 인코딩합니다. 이를 바탕으로 우리는 체인-오브-PR(chain-of-PRs)에서 구조화된 지도를 체계적으로 추출하는 daVinci-Agency를 제안합니다. 이는 세 가지 연동 메커니즘을 통해 이루어집니다: (1) 지속적인 커밋을 통한 점진적 과제 분해, (2) 통합된 기능적 목표를 통한 장기적 일관성 강화, (3) 진정한 버그 수정 궤적로부터의 검증 가능한 개선. 각 단계를 독립적으로 취급하는 합성 궤적과 달리, daVinci-Agency의 PR에 기반한 구조는 지속적인 목표 지향 행동을 가르치는 데 필수적인 인과적 의존성과 반복적 개선을 본질적으로 보존하며, 프로젝트 수준의 전체 주기 과제 모델링과의 자연스러운 정렬을 가능하게 합니다. 그 결과 생성되는 궤적은 규모가 방대합니다(평균 85,000 토큰, 116개 도구 호출). 그러나 데이터 효율성은 놀랍습니다: GLM-4.6을 239개의 daVinci-Agency 샘플로 미세 조정하면 벤치마크 전반에 걸쳐 광범위한 성능 향상을 보였으며, 특히 Toolathlon에서 47%의 상대적 성능 향상을 달성했습니다. 벤치마크 성능을 넘어서, 우리의 분석은...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...