ChatPaper.aiChatPaper

エージェント型情報探索のためのネスト型ブラウザ利用学習

Nested Browser-Use Learning for Agentic Information Seeking

December 29, 2025
著者: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

要旨

情報探索(IS)エージェントは、広範かつ深い検索タスクにおいて強力な性能を達成しているが、そのツール利用はAPIレベルのスニペット取得やURLベースのページ取得に大きく限定されており、実際のブラウジングを通じて得られるより豊富な情報へのアクセスが制限されている。完全なブラウザ操作はより深い能力を解放する可能性があるが、その細粒度な制御と冗長なページコンテンツの返却は、ReActスタイルの関数呼び出しエージェントにとって大きな複雑さをもたらす。この隔たりを埋めるため、我々は**Nested Browser-Use Learning (NestBrowse)** を提案する。これは、最小限かつ完全なブラウザアクションフレームワークを導入し、ネスト構造を通じて操作制御とページ探索を分離する。この設計は、エージェントの推論を簡素化しつつ、効果的なディープウェブ情報の取得を可能にする。難易度の高いディープISベンチマークによる実証結果は、NestBrowseが実用上明確な利点を提供することを示している。さらに詳細な分析により、その効率性と柔軟性が裏付けられた。
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.
PDF71December 31, 2025