VibeSearchBench : Évaluation comparative de la recherche proactive à long horizon en conditions réelles.

Résumé

Les agents basés sur les LLM obtiennent de bons résultats dans les benchmarks de recherche, mais les utilisateurs réels jugent constamment les résultats insatisfaisants, révélant un écart persistant entre l'évaluation et l'expérience. Nous attribuons cet écart à la dépendance des benchmarks existants à l'égard de requêtes trop spécifiques, d'interactions à un seul tour et d'une évaluation à schéma fixe, qui ne reflètent pas le comportement de recherche réel où les utilisateurs et les agents affinent de manière collaborative une intention vague par le dialogue multi-tour. Nous appelons ce paradigme VibeSearch et introduisons VibeSearchBench, un benchmark comprenant 200 tâches bilingues (chinois et anglais) sélectionnées manuellement dans 20 domaines, divisé en sous-ensembles VibeSearch-Pro (professionnel) et VibeSearch-Daily (vie quotidienne). Chaque tâche associe un persona utilisateur à un graphe de connaissances de vérité terrain sans schéma, et est évaluée via un simulateur d'utilisateur à divulgation progressive et un cadre d'évaluation par appariement de graphes. Nous évaluons sept modèles de pointe à la fois sous le cadre ReAct et sous le harnais d'agent OpenClaw. Les résultats montrent que tous les modèles restent largement inadéquats pour VibeSearch (meilleur F1 : 30,30), soulignant la nécessité d'avancées fondamentales dans le raisonnement en contexte long, l'élicitation proactive d'intention et la construction de connaissances structurées.

English

LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.