ChatPaper.aiChatPaper

WILBUR: ロバストで正確なWebエージェントのための適応的インコンテキスト学習

WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents

April 8, 2024
著者: Michael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna
cs.AI

要旨

ウェブエージェント研究の領域において、汎用性と正確性の両立は依然として難しい課題です。ウェブサイト構造の多様性が高いため、既存のアプローチはしばしば失敗します。さらに、既存のファインチューニングやインコンテキスト学習技術は、複数のウェブサイトにわたる汎用化に失敗します。本論文では、Wilburというアプローチを紹介します。Wilburは、微分可能なランキングモデルと新しい指示合成技術を使用して、ブラックボックスの大規模言語モデルのプロンプトに、以前の実行から得たタスクデモンストレーションを最適に組み込みます。エンドツーエンドの成功率を最大化するために、間違いから学習し回復するインテリジェントなバックトラッキングメカニズムも提案します。最後に、生成型自己カリキュラムからサンプリングされた代表的な目標を用いてエージェントを実行し、自動的に評価することで、ランキングモデルを手動のアノテーションなしでトレーニングできることを示します。Wilburは、WebVoyagerベンチマークにおいて最先端の結果を達成し、テキストのみのモデルを全体で8%、特定のウェブサイトでは最大36%上回りました。同じベンチマークにおいて、Wilburはテキスト入力のみを受け取っているにもかかわらず、強力なマルチモーダルモデルと5%以内の差に収まっています。さらに、詳細な分析により、ウェブ操作のエンジニアリング上の課題が多くの失敗の原因となっていることが明らかになりました。
English
In the realm of web agent research, achieving both generalization and accuracy remains a challenging problem. Due to high variance in website structure, existing approaches often fail. Moreover, existing fine-tuning and in-context learning techniques fail to generalize across multiple websites. We introduce Wilbur, an approach that uses a differentiable ranking model and a novel instruction synthesis technique to optimally populate a black-box large language model's prompt with task demonstrations from previous runs. To maximize end-to-end success rates, we also propose an intelligent backtracking mechanism that learns and recovers from its mistakes. Finally, we show that our ranking model can be trained on data from a generative auto-curriculum which samples representative goals from an LLM, runs the agent, and automatically evaluates it, with no manual annotation. Wilbur achieves state-of-the-art results on the WebVoyager benchmark, beating text-only models by 8% overall, and up to 36% on certain websites. On the same benchmark, Wilbur is within 5% of a strong multi-modal model despite only receiving textual inputs, and further analysis reveals a substantial number of failures are due to engineering challenges of operating the web.

Summary

AI-Generated Summary

PDF232December 15, 2024