제안자-에이전트-평가자(PAE): 자율적인 기술 발견을 위한 기반 모델 인터넷 에이전트
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents
December 17, 2024
저자: Yifei Zhou, Qianlan Yang, Kaixiang Lin, Min Bai, Xiong Zhou, Yu-Xiong Wang, Sergey Levine, Erran Li
cs.AI
초록
널리 적응 가능하고 목표 지향적인 에이전트의 비전, 예를 들어 디지털 세계의 인터넷 탐색 에이전트와 물리적 세계의 가정용 인간형 로봇은, 기초 모델의 일반화 능력 덕분에 신속히 발전해왔습니다. 이러한 일반적인 에이전트는 두 여행 장소 간의 방향을 찾거나 인터넷에서 특정 항목을 구매하는 것과 같은 다양하고 방대한 기술 레퍼토리가 필요합니다. 각 기술이 고정된 인간 주석 지침 세트를 통해 수동으로 지정되어야 한다면, 인간 주석 지침의 양과 다양성으로 인해 에이전트의 기술 레퍼토리는 필연적으로 제한될 것입니다. 본 연구에서는 이러한 도전에 대응하기 위해 Proposer-Agent-Evaluator(제안자-에이전트-평가자)를 제안함으로써, 기초 모델 에이전트가 야생에서 기술을 자율적으로 발견하고 연습할 수 있는 효과적인 학습 시스템을 소개합니다. PAE의 핵심은 환경의 컨텍스트 정보(사용자 데모 또는 인터넷 탐색 에이전트의 웹사이트 이름만 포함)와 함께 에이전트에게 연습할 작업을 자율적으로 제안하는 컨텍스트 인식 작업 제안자입니다. 그런 다음, 에이전트 정책은 실제 세계에서 생각과 실제 기반 작업을 사용하여 해당 작업을 수행하고, 결과 궤적은 자율 VLM 기반 성공 평가자에 의해 평가됩니다. 성공 평가는 RL을 통해 정책을 개선하기 위한 보상 신호로 작용합니다. 우리는 WebVoyager 및 WebArena의 실제 세계 및 자체 호스팅 웹사이트를 사용하여 도전적인 비전 기반 웹 탐색에서 PAE를 검증합니다. 우리의 지식으로는, 본 연구는 SOTA 성능을 보이는 실제 세계 인간 주석 벤치마크를 일반화하는 에이전트를 위해 자율적인 작업 제안과 RL을 적용한 첫 번째 효과적인 학습 시스템을 대표합니다. 저희의 오픈 소스 체크포인트와 코드는 https://yanqval.github.io/PAE/에서 확인할 수 있습니다.
English
The vision of a broadly capable and goal-directed agent, such as an
Internet-browsing agent in the digital world and a household humanoid in the
physical world, has rapidly advanced, thanks to the generalization capability
of foundation models. Such a generalist agent needs to have a large and diverse
skill repertoire, such as finding directions between two travel locations and
buying specific items from the Internet. If each skill needs to be specified
manually through a fixed set of human-annotated instructions, the agent's skill
repertoire will necessarily be limited due to the quantity and diversity of
human-annotated instructions. In this work, we address this challenge by
proposing Proposer-Agent-Evaluator, an effective learning system that enables
foundation model agents to autonomously discover and practice skills in the
wild. At the heart of PAE is a context-aware task proposer that autonomously
proposes tasks for the agent to practice with context information of the
environment such as user demos or even just the name of the website itself for
Internet-browsing agents. Then, the agent policy attempts those tasks with
thoughts and actual grounded operations in the real world with resulting
trajectories evaluated by an autonomous VLM-based success evaluator. The
success evaluation serves as the reward signal for the agent to refine its
policies through RL. We validate PAE on challenging vision-based web
navigation, using both real-world and self-hosted websites from WebVoyager and
WebArena.To the best of our knowledge, this work represents the first effective
learning system to apply autonomous task proposal with RL for agents that
generalizes real-world human-annotated benchmarks with SOTA performances. Our
open-source checkpoints and code can be found in https://yanqval.github.io/PAE/Summary
AI-Generated Summary