VibeSearchBench: Benchmarking für langfristige proaktive Suche unter realen Bedingungen

Zusammenfassung

LLM-basierte Agenten erzielen hohe Punktzahlen bei Such-Benchmarks, doch reale Nutzer empfinden die Ergebnisse durchweg als unbefriedigend – ein Hinweis auf eine anhaltende Evaluations-Erfahrungs-Lücke. Wir führen diese Lücke auf die Abhängigkeit bestehender Benchmarks von übermäßig spezifizierten Abfragen, Einzelinteraktionen und einer Evaluierung mit festem Schema zurück, die das reale Suchverhalten nicht widerspiegeln, bei dem Nutzer und Agenten vage Absichten durch mehrschrittige Dialoge gemeinsam verfeinern. Wir bezeichnen dieses Paradigma als VibeSearch und führen VibeSearchBench ein, einen Benchmark mit 200 manuell kuratierten zweisprachigen (Chinesisch und Englisch) Aufgaben aus 20 Domänen, unterteilt in die Teilmengen VibeSearch-Pro (professionell) und VibeSearch-Daily (Alltag). Jede Aufgabe kombiniert eine Benutzerpersona mit einem schemafreien Ground-Truth-Wissensgraphen und wird mittels eines Benutzersimulators mit schrittweiser Offenlegung sowie eines Evaluierungsrahmens für Graphabgleich bewertet. Wir messen sieben Spitzenmodelle sowohl unter dem ReAct-Framework als auch mit dem OpenClaw-Agenten-Harness. Die Ergebnisse zeigen, dass alle Modelle für VibeSearch noch erheblich unzureichend sind (bestes F1: 30,30), was die Notwendigkeit grundlegender Fortschritte bei der Kontextverarbeitung über lange Sequenzen, der proaktiven Intentionsermittlung und der strukturierten Wissenskonstruktion unterstreicht.

English

LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.