VibeSearchBench: Evaluación comparativa de búsqueda proactiva de largo horizonte en entornos reales

Resumen

Los agentes basados en LLM obtienen puntuaciones altas en los benchmarks de búsqueda, pero los usuarios reales encuentran sistemáticamente insatisfactorios los resultados, revelando una brecha persistente entre evaluación y experiencia. Atribuimos esta brecha a la dependencia de los benchmarks existentes en consultas sobrespecificadas, interacciones de un solo turno y evaluación con esquemas fijos, ninguno de los cuales refleja el comportamiento real de búsqueda, donde usuarios y agentes refinan colaborativamente intenciones vagas a través de diálogos de múltiples turnos. Denominamos a este paradigma VibeSearch e introducimos VibeSearchBench, un benchmark compuesto por 200 tareas bilingües (chino e inglés) seleccionadas manualmente en 20 dominios, dividido en los subconjuntos VibeSearch-Pro (profesional) y VibeSearch-Daily (vida cotidiana). Cada tarea empareja una persona de usuario con un grafo de conocimiento de verdad fundamental sin esquema, y se evalúa mediante un simulador de usuario con revelación progresiva y un marco de evaluación de coincidencia de grafos. Evaluamos siete modelos de vanguardia bajo el marco ReAct y el arnés de agente OpenClaw. Los resultados muestran que todos los modelos son sustancialmente inadecuados para VibeSearch (mejor F1: 30,30), lo que resalta la necesidad de avances fundamentales en razonamiento de contexto largo, elicitación proactiva de intenciones y construcción de conocimiento estructurado.

English

LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.