ChatPaper.aiChatPaper

컴퓨터 사용을 위한 효율적인 에이전트 훈련

Efficient Agent Training for Computer Use

May 20, 2025
저자: Yanheng He, Jiahe Jin, Pengfei Liu
cs.AI

초록

고품질 궤적 데이터의 확장은 인간과 유사한 컴퓨터 사용 에이전트 개발에 있어 오랫동안 중요한 병목 현상으로 여겨져 왔습니다. 우리는 대규모 인간 시연 데이터에 대한 의존도를 크게 줄이는 효율적인 에이전트 훈련 프레임워크인 PC Agent-E를 소개합니다. 단 312개의 인간 주석이 달린 컴퓨터 사용 궤적으로 시작하여, Claude 3.7 Sonnet을 활용해 다양한 행동 결정을 합성함으로써 데이터 품질을 더욱 향상시켰습니다. 이러한 풍부한 궤적 데이터로 훈련된 PC Agent-E 모델은 개선된 벤치마크인 WindowsAgentArena-V2에서 확장된 사고를 가진 강력한 Claude 3.7 Sonnet을 능가하며, 141%의 상대적 성능 향상을 달성했습니다. 또한, PC Agent-E는 OSWorld에서 다양한 운영 체제에 대한 강력한 일반화 능력을 보여주었습니다. 우리의 연구 결과는 소량의 고품질 궤적 데이터로도 강력한 컴퓨터 사용 능력을 자극할 수 있음을 시사합니다.
English
Scaling up high-quality trajectory data has long been a critical bottleneck for developing human-like computer use agents. We introduce PC Agent-E, an efficient agent training framework that significantly reduces reliance on large-scale human demonstrations. Starting with just 312 human-annotated computer use trajectories, we further improved data quality by synthesizing diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched trajectories, our PC Agent-E model achieved a remarkable 141% relative improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC Agent-E demonstrates strong generalizability to different operating systems on OSWorld. Our findings suggest that strong computer use capabilities can be stimulated from a small amount of high-quality trajectory data.

Summary

AI-Generated Summary

PDF372May 22, 2025