ChatPaper.aiChatPaper

VibeSearchBench: Avaliação de Busca Proativa de Longo Horizonte no Mundo Real

VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

May 27, 2026
Autores: Xiaohongshu Inc
cs.AI

Resumo

Agentes baseados em LLMs obtêm boas pontuações em benchmarks de busca, mas usuários reais consistentemente consideram os resultados insatisfatórios, revelando uma lacuna persistente entre avaliação e experiência. Atribuímos essa lacuna à dependência dos benchmarks existentes em consultas superespecificadas, interações de turno único e avaliação com esquema fixo, nenhum dos quais reflete o comportamento real de busca, onde usuários e agentes refinam colaborativamente intenções vagas por meio de diálogo de múltiplas interações. Denominamos esse paradigma de VibeSearch e introduzimos o VibeSearchBench, um benchmark composto por 200 tarefas bilíngues (chinês e inglês) curadas manualmente em 20 domínios, divididas nos subconjuntos VibeSearch-Pro (profissional) e VibeSearch-Daily (cotidiano). Cada tarefa pareia uma persona de usuário com um grafo de conhecimento de referência sem esquema fixo, e é avaliada por meio de um simulador de usuário com divulgação progressiva e um framework de avaliação por correspondência de grafos. Comparamos sete modelos de fronteira utilizando tanto o framework ReAct quanto o harness de agente OpenClaw. Os resultados mostram que todos os modelos permanecem substancialmente inadequados para o VibeSearch (melhor F1: 30,30), destacando a necessidade de avanços fundamentais em raciocínio de contexto longo, elicitação proativa de intenção e construção de conhecimento estruturado.
English
LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.