VibeSearchBench: Avaliação de Busca Proativa de Longo Horizonte no Mundo Real

Resumo

Agentes baseados em LLMs obtêm boas pontuações em benchmarks de busca, mas usuários reais consistentemente consideram os resultados insatisfatórios, revelando uma lacuna persistente entre avaliação e experiência. Atribuímos essa lacuna à dependência dos benchmarks existentes em consultas superespecificadas, interações de turno único e avaliação com esquema fixo, nenhum dos quais reflete o comportamento real de busca, onde usuários e agentes refinam colaborativamente intenções vagas por meio de diálogo de múltiplas interações. Denominamos esse paradigma de VibeSearch e introduzimos o VibeSearchBench, um benchmark composto por 200 tarefas bilíngues (chinês e inglês) curadas manualmente em 20 domínios, divididas nos subconjuntos VibeSearch-Pro (profissional) e VibeSearch-Daily (cotidiano). Cada tarefa pareia uma persona de usuário com um grafo de conhecimento de referência sem esquema fixo, e é avaliada por meio de um simulador de usuário com divulgação progressiva e um framework de avaliação por correspondência de grafos. Comparamos sete modelos de fronteira utilizando tanto o framework ReAct quanto o harness de agente OpenClaw. Os resultados mostram que todos os modelos permanecem substancialmente inadequados para o VibeSearch (melhor F1: 30,30), destacando a necessidade de avanços fundamentais em raciocínio de contexto longo, elicitação proativa de intenção e construção de conhecimento estruturado.

English

LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.