ChatPaper.aiChatPaper

BESPOKE: Benchmark para Personalização de Modelos de Linguagem de Grande Escala Aumentados por Busca com Feedback Diagnóstico

BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

September 25, 2025
Autores: Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) aprimorados por busca avançaram tarefas de busca de informação ao integrar a recuperação na geração, reduzindo a carga cognitiva dos usuários em comparação com sistemas de busca tradicionais. No entanto, eles ainda são insuficientes para atender plenamente às diversas necessidades dos usuários, o que requer reconhecer como a mesma consulta pode refletir diferentes intenções entre os usuários e entregar a informação em formatos preferidos. Embora sistemas recentes como o ChatGPT e o Gemini tentem personalizar as respostas utilizando históricos dos usuários, a avaliação sistemática dessa personalização ainda é pouco explorada. Para preencher essa lacuna, propomos o BESPOKE, um benchmark realista para avaliar a personalização em LLMs aprimorados por busca. O BESPOKE foi projetado para ser realista, coletando históricos de chat e busca diretamente de humanos, e diagnóstico, associando respostas a pontuações detalhadas de preferência e feedback. O benchmark foi construído por meio de anotações humanas de longo prazo e engajamento profundo, onde anotadores contribuíram com seus próprios históricos, criaram consultas com necessidades de informação detalhadas e avaliaram respostas com pontuações e feedback diagnóstico. Utilizando o BESPOKE, realizamos análises sistemáticas que revelam requisitos-chave para uma personalização eficaz em tarefas de busca de informação, fornecendo uma base para avaliação detalhada de LLMs aprimorados por busca personalizados. Nosso código e dados estão disponíveis em https://augustinlib.github.io/BESPOKE/.
English
Search-augmented large language models (LLMs) have advanced information-seeking tasks by integrating retrieval into generation, reducing users' cognitive burden compared to traditional search systems. Yet they remain insufficient for fully addressing diverse user needs, which requires recognizing how the same query can reflect different intents across users and delivering information in preferred forms. While recent systems such as ChatGPT and Gemini attempt personalization by leveraging user histories, systematic evaluation of such personalization is under-explored. To address this gap, we propose BESPOKE, the realistic benchmark for evaluating personalization in search-augmented LLMs. BESPOKE is designed to be both realistic, by collecting authentic chat and search histories directly from humans, and diagnostic, by pairing responses with fine-grained preference scores and feedback. The benchmark is constructed through long-term, deeply engaged human annotation, where human annotators contributed their own histories, authored queries with detailed information needs, and evaluated responses with scores and diagnostic feedback. Leveraging BESPOKE, we conduct systematic analyses that reveal key requirements for effective personalization in information-seeking tasks, providing a foundation for fine-grained evaluation of personalized search-augmented LLMs. Our code and data are available at https://augustinlib.github.io/BESPOKE/.
PDF72September 26, 2025