VibeSearchBench: Het benchmarken van proactief zoeken over lange horizon in het wild

Samenvatting

Op LLM gebaseerde agenten scoren goed op zoekbenchmarks, maar echte gebruikers vinden de resultaten consistent onbevredigend, wat een aanhoudende evaluatie-ervaringskloof onthult. We schrijven deze kloof toe aan de afhankelijkheid van bestaande benchmarks van overgespecificeerde zoekopdrachten, eenmalige interacties en evaluatie met een vast schema, waarvan geen van allen het echte zoekgedrag weerspiegelt, waarbij gebruikers en agenten gezamenlijk vage intenties verfijnen via meerstapsdialogen. We noemen dit paradigma VibeSearch en introduceren VibeSearchBench, een benchmark bestaande uit 200 handmatig samengestelde tweetalige (Chinees en Engels) taken in 20 domeinen, verdeeld in VibeSearch-Pro (professioneel) en VibeSearch-Daily (dagelijks leven) subsets. Elke taak koppelt een gebruikerspersona aan een schema-vrije ground-truth-kennisgraaf en wordt geëvalueerd via een gebruikerssimulator met progressieve onthulling en een graafmatching-evaluatiekader. We benchmarken zeven geavanceerde modellen onder zowel het ReAct-framework als het OpenClaw-agentomhulsel. Resultaten tonen aan dat alle modellen aanzienlijk ontoereikend blijven voor VibeSearch (beste F1: 30,30), wat de noodzaak benadrukt van fundamentele vooruitgang in lang-context redeneren, proactieve intentie-uitlokking en gestructureerde kennisconstructie.

English

LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.