Arena de Búsqueda: Análisis de Modelos de Lenguaje Aumentados con Búsqueda
Search Arena: Analyzing Search-Augmented LLMs
June 5, 2025
Autores: Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez
cs.AI
Resumen
Los modelos de lenguaje aumentados con búsqueda combinan la búsqueda web con modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para mejorar la fundamentación y actualidad de las respuestas. Sin embargo, analizar estos sistemas sigue siendo un desafío: los conjuntos de datos existentes son limitados en escala y estrechos en alcance, a menudo restringidos a preguntas estáticas, de un solo turno y de verificación de hechos. En este trabajo, presentamos Search Arena, un conjunto de datos a gran escala y de preferencias humanas, creado mediante crowdsourcing, que contiene más de 24,000 interacciones de usuarios de múltiples turnos con LLMs aumentados con búsqueda. El conjunto de datos abarca diversas intenciones y lenguajes, e incluye trazas completas del sistema con alrededor de 12,000 votos de preferencia humana. Nuestro análisis revela que las preferencias de los usuarios están influenciadas por el número de citas, incluso cuando el contenido citado no respalda directamente las afirmaciones atribuidas, lo que expone una brecha entre la credibilidad percibida y la real. Además, las preferencias de los usuarios varían según las fuentes citadas, mostrando que las plataformas impulsadas por la comunidad son generalmente preferidas, mientras que las fuentes enciclopédicas estáticas no siempre son apropiadas y confiables. Para evaluar el rendimiento en diferentes contextos, realizamos análisis cruzados probando LLMs aumentados con búsqueda en un entorno de chat de propósito general y LLMs convencionales en entornos intensivos en búsqueda. Descubrimos que la búsqueda web no degrada y puede incluso mejorar el rendimiento en entornos no relacionados con búsqueda; sin embargo, la calidad en entornos de búsqueda se ve significativamente afectada si se depende únicamente del conocimiento paramétrico del modelo. Hemos liberado el conjunto de datos para apoyar futuras investigaciones en esta dirección. Nuestro conjunto de datos y código están disponibles en: https://github.com/lmarena/search-arena.
English
Search-augmented language models combine web search with Large Language
Models (LLMs) to improve response groundedness and freshness. However,
analyzing these systems remains challenging: existing datasets are limited in
scale and narrow in scope, often constrained to static, single-turn,
fact-checking questions. In this work, we introduce Search Arena, a
crowd-sourced, large-scale, human-preference dataset of over 24,000 paired
multi-turn user interactions with search-augmented LLMs. The dataset spans
diverse intents and languages, and contains full system traces with around
12,000 human preference votes. Our analysis reveals that user preferences are
influenced by the number of citations, even when the cited content does not
directly support the attributed claims, uncovering a gap between perceived and
actual credibility. Furthermore, user preferences vary across cited sources,
revealing that community-driven platforms are generally preferred and static
encyclopedic sources are not always appropriate and reliable. To assess
performance across different settings, we conduct cross-arena analyses by
testing search-augmented LLMs in a general-purpose chat environment and
conventional LLMs in search-intensive settings. We find that web search does
not degrade and may even improve performance in non-search settings; however,
the quality in search settings is significantly affected if solely relying on
the model's parametric knowledge. We open-sourced the dataset to support future
research in this direction. Our dataset and code are available at:
https://github.com/lmarena/search-arena.