ChatPaper.aiChatPaper

에이전트 정보 탐색을 위한 중첩형 브라우저 사용 학습

Nested Browser-Use Learning for Agentic Information Seeking

December 29, 2025
저자: Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

초록

정보 탐색(IS) 에이전트는 광범위하고 심층적인 검색 작업에서 강력한 성능을 보여왔으나, 이들의 도구 사용은 여전히 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 대부분 제한되어 실제 브라우징을 통해 접근 가능한 더 풍부한 정보 활용에 한계가 있습니다. 완전한 브라우저 상호작용은 더 깊은 역량을 발휘할 수 있도록 하지만, 세분화된 제어와 장황한 페이지 콘텐츠 반환은 ReAct 스타일 함수 호출 에이전트에 상당한 복잡성을 초래합니다. 이러한 격차를 해소하기 위해, 우리는 중첩 구조를 통해 상호작용 제어와 페이지 탐색을 분리하는 최소하면서도 완전한 브라우저 액션 프레임워크를 도입하는 Nested Browser-Use Learning (NestBrowse)를 제안합니다. 이 설계는 효과적인 딥웹 정보 획득을 가능하게 하면서 에이전트 추론을 단순화합니다. 까다로운 심층 IS 벤치마크에 대한 경험적 결과는 NestBrowse가 실질적으로 명확한 이점을 제공함을 입증합니다. 추가적인 심층 분석은 그 효율성과 유연성을 부각합니다.
English
Information-seeking (IS) agents have achieved strong performance across a range of wide and deep search tasks, yet their tool use remains largely restricted to API-level snippet retrieval and URL-based page fetching, limiting access to the richer information available through real browsing. While full browser interaction could unlock deeper capabilities, its fine-grained control and verbose page content returns introduce substantial complexity for ReAct-style function-calling agents. To bridge this gap, we propose Nested Browser-Use Learning (NestBrowse), which introduces a minimal and complete browser-action framework that decouples interaction control from page exploration through a nested structure. This design simplifies agentic reasoning while enabling effective deep-web information acquisition. Empirical results on challenging deep IS benchmarks demonstrate that NestBrowse offers clear benefits in practice. Further in-depth analyses underscore its efficiency and flexibility.
PDF71December 31, 2025