ChatPaper.aiChatPaper

WILBUR: 강력하고 정확한 웹 에이전트를 위한 적응형 인-컨텍스트 학습

WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents

April 8, 2024
저자: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna
cs.AI

초록

웹 에이전트 연구 분야에서 일반화와 정확성을 동시에 달성하는 것은 여전히 어려운 과제로 남아 있습니다. 웹사이트 구조의 높은 변동성으로 인해 기존 접근 방식들은 종종 실패합니다. 또한, 기존의 미세 조정(fine-tuning) 및 문맥 학습(in-context learning) 기술들은 여러 웹사이트에 걸쳐 일반화하는 데 실패합니다. 우리는 Wilbur라는 접근 방식을 소개합니다. 이 방법은 미분 가능한 순위 모델과 새로운 명령어 합성 기술을 사용하여 블랙박스 대형 언어 모델(LLM)의 프롬프트를 이전 실행에서의 작업 데모로 최적으로 채웁니다. 엔드투엔드 성공률을 극대화하기 위해, 우리는 또한 실수를 학습하고 복구하는 지능형 역추적(backtracking) 메커니즘을 제안합니다. 마지막으로, 우리의 순위 모델이 생성적 자가 커리큘럼(generative auto-curriculum)에서 생성된 데이터로 훈련될 수 있음을 보여줍니다. 이 커리큘럼은 LLM에서 대표적인 목표를 샘플링하고, 에이전트를 실행하며, 수동 주석 없이 자동으로 평가합니다. Wilbur는 WebVoyager 벤치마크에서 최첨단 결과를 달성하며, 텍스트 전용 모델을 전체적으로 8%, 특정 웹사이트에서는 최대 36% 앞섭니다. 동일한 벤치마크에서 Wilbur는 텍스트 입력만 받음에도 불구하고 강력한 멀티모달 모델과 5% 이내의 성능 차이를 보이며, 추가 분석은 상당수의 실패가 웹 운영의 엔지니어링적 과제에 기인함을 보여줍니다.
English
In the realm of web agent research, achieving both generalization and accuracy remains a challenging problem. Due to high variance in website structure, existing approaches often fail. Moreover, existing fine-tuning and in-context learning techniques fail to generalize across multiple websites. We introduce Wilbur, an approach that uses a differentiable ranking model and a novel instruction synthesis technique to optimally populate a black-box large language model's prompt with task demonstrations from previous runs. To maximize end-to-end success rates, we also propose an intelligent backtracking mechanism that learns and recovers from its mistakes. Finally, we show that our ranking model can be trained on data from a generative auto-curriculum which samples representative goals from an LLM, runs the agent, and automatically evaluates it, with no manual annotation. Wilbur achieves state-of-the-art results on the WebVoyager benchmark, beating text-only models by 8% overall, and up to 36% on certain websites. On the same benchmark, Wilbur is within 5% of a strong multi-modal model despite only receiving textual inputs, and further analysis reveals a substantial number of failures are due to engineering challenges of operating the web.

Summary

AI-Generated Summary

PDF232December 15, 2024