ChatPaper.aiChatPaper

Search Arena: Анализ языковых моделей с расширенным поиском

Search Arena: Analyzing Search-Augmented LLMs

June 5, 2025
Авторы: Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez
cs.AI

Аннотация

Языковые модели, дополненные поиском, объединяют веб-поиск с крупными языковыми моделями (LLM) для повышения обоснованности и актуальности ответов. Однако анализ таких систем остается сложной задачей: существующие наборы данных ограничены по масштабу и узки по охвату, часто сосредоточены на статических, одноходовых вопросах для проверки фактов. В данной работе мы представляем Search Arena — масштабный набор данных, собранный с участием людей, содержащий более 24 000 парных многоходовых взаимодействий пользователей с поисково-дополненными LLM. Набор данных охватывает разнообразные намерения и языки и включает полные системные трассировки с около 12 000 голосов, отражающих предпочтения пользователей. Наш анализ показывает, что предпочтения пользователей зависят от количества цитат, даже если цитируемый контент не напрямую поддерживает утверждения, что выявляет разрыв между воспринимаемой и фактической достоверностью. Кроме того, предпочтения пользователей различаются в зависимости от цитируемых источников, демонстрируя, что платформы, создаваемые сообществом, обычно предпочитаются, а статические энциклопедические источники не всегда являются подходящими и надежными. Для оценки производительности в различных условиях мы проводим кросс-аренные анализы, тестируя поисково-дополненные LLM в среде общего назначения для чата и традиционные LLM в условиях, требующих интенсивного поиска. Мы обнаруживаем, что веб-поиск не ухудшает, а может даже улучшить производительность в условиях, не связанных с поиском; однако качество в поисковых условиях значительно страдает, если полагаться исключительно на параметрические знания модели. Мы открыли доступ к набору данных для поддержки будущих исследований в этом направлении. Наш набор данных и код доступны по адресу: https://github.com/lmarena/search-arena.
English
Search-augmented language models combine web search with Large Language Models (LLMs) to improve response groundedness and freshness. However, analyzing these systems remains challenging: existing datasets are limited in scale and narrow in scope, often constrained to static, single-turn, fact-checking questions. In this work, we introduce Search Arena, a crowd-sourced, large-scale, human-preference dataset of over 24,000 paired multi-turn user interactions with search-augmented LLMs. The dataset spans diverse intents and languages, and contains full system traces with around 12,000 human preference votes. Our analysis reveals that user preferences are influenced by the number of citations, even when the cited content does not directly support the attributed claims, uncovering a gap between perceived and actual credibility. Furthermore, user preferences vary across cited sources, revealing that community-driven platforms are generally preferred and static encyclopedic sources are not always appropriate and reliable. To assess performance across different settings, we conduct cross-arena analyses by testing search-augmented LLMs in a general-purpose chat environment and conventional LLMs in search-intensive settings. We find that web search does not degrade and may even improve performance in non-search settings; however, the quality in search settings is significantly affected if solely relying on the model's parametric knowledge. We open-sourced the dataset to support future research in this direction. Our dataset and code are available at: https://github.com/lmarena/search-arena.
PDF121June 6, 2025