VibeSearchBench: Бенчмаркинг долгосрочного проактивного поиска в реальных условиях

Аннотация

LLM-агенты показывают высокие результаты на поисковых бенчмарках, однако реальные пользователи неизменно находят результаты неудовлетворительными, что выявляет устойчивый разрыв между оценкой и опытом использования. Мы объясняем этот разрыв опорой существующих бенчмарков на избыточно специфицированные запросы, одношаговые взаимодействия и оценку по фиксированной схеме — ни один из этих элементов не отражает реальное поисковое поведение, при котором пользователи и агенты совместно уточняют расплывчатые намерения в ходе многошагового диалога. Мы называем эту парадигму VibeSearch и представляем VibeSearchBench — бенчмарк, включающий 200 вручную составленных двуязычных (китайский и английский) заданий по 20 областям, разделённых на подмножества VibeSearch-Pro (профессиональные) и VibeSearch-Daily (повседневные). Каждое задание сопоставляет профиль пользователя с графом знаний истинности, не привязанным к схеме, и оценивается с помощью пользовательского симулятора с постепенным раскрытием информации и структуры оценки на основе сопоставления графов. Мы тестируем семь передовых моделей как в рамках ReAct-фреймворка, так и с использованием обвязки агента OpenClaw. Результаты показывают, что все модели существенно неадекватны для VibeSearch (лучший F1: 30,30), что подчёркивает необходимость фундаментальных продвижений в рассуждении в длинном контексте, проактивном выявлении намерений и структурированном построении знаний.

English

LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-experience gap. We attribute this gap to existing benchmarks' reliance on over-specified queries, single-turn interactions, and fixed-schema evaluation, none of which reflect real search behavior where users and agents collaboratively refine vague intent through multi-turn dialogue. We term this paradigm VibeSearch and introduce VibeSearchBench, a benchmark comprising 200 manually curated bilingual (Chinese and English) tasks across 20 domains, split into VibeSearch-Pro (professional) and VibeSearch-Daily (daily-life) subsets. Each task pairs a user persona with a schema-free ground-truth knowledge graph, and is evaluated through a progressive-disclosure user simulator and a graph-matching evaluation framework. We benchmark seven frontier models under both the ReAct framework and the OpenClaw agent harness. Results show that all models remain substantially inadequate for VibeSearch (best F1: 30.30), highlighting the need for fundamental advances in long-context reasoning, proactive intent elicitation, and structured knowledge construction.