BESPOKE: Benchmark para Personalização de Modelos de Linguagem de Grande Escala Aumentados por Busca com Feedback Diagnóstico
BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback
September 25, 2025
Autores: Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) aprimorados por busca avançaram tarefas de busca de informação ao integrar a recuperação na geração, reduzindo a carga cognitiva dos usuários em comparação com sistemas de busca tradicionais. No entanto, eles ainda são insuficientes para atender plenamente às diversas necessidades dos usuários, o que requer reconhecer como a mesma consulta pode refletir diferentes intenções entre os usuários e entregar a informação em formatos preferidos. Embora sistemas recentes como o ChatGPT e o Gemini tentem personalizar as respostas utilizando históricos dos usuários, a avaliação sistemática dessa personalização ainda é pouco explorada. Para preencher essa lacuna, propomos o BESPOKE, um benchmark realista para avaliar a personalização em LLMs aprimorados por busca. O BESPOKE foi projetado para ser realista, coletando históricos de chat e busca diretamente de humanos, e diagnóstico, associando respostas a pontuações detalhadas de preferência e feedback. O benchmark foi construído por meio de anotações humanas de longo prazo e engajamento profundo, onde anotadores contribuíram com seus próprios históricos, criaram consultas com necessidades de informação detalhadas e avaliaram respostas com pontuações e feedback diagnóstico. Utilizando o BESPOKE, realizamos análises sistemáticas que revelam requisitos-chave para uma personalização eficaz em tarefas de busca de informação, fornecendo uma base para avaliação detalhada de LLMs aprimorados por busca personalizados. Nosso código e dados estão disponíveis em https://augustinlib.github.io/BESPOKE/.
English
Search-augmented large language models (LLMs) have advanced
information-seeking tasks by integrating retrieval into generation, reducing
users' cognitive burden compared to traditional search systems. Yet they remain
insufficient for fully addressing diverse user needs, which requires
recognizing how the same query can reflect different intents across users and
delivering information in preferred forms. While recent systems such as ChatGPT
and Gemini attempt personalization by leveraging user histories, systematic
evaluation of such personalization is under-explored. To address this gap, we
propose BESPOKE, the realistic benchmark for evaluating personalization in
search-augmented LLMs. BESPOKE is designed to be both realistic, by collecting
authentic chat and search histories directly from humans, and diagnostic, by
pairing responses with fine-grained preference scores and feedback. The
benchmark is constructed through long-term, deeply engaged human annotation,
where human annotators contributed their own histories, authored queries with
detailed information needs, and evaluated responses with scores and diagnostic
feedback. Leveraging BESPOKE, we conduct systematic analyses that reveal key
requirements for effective personalization in information-seeking tasks,
providing a foundation for fine-grained evaluation of personalized
search-augmented LLMs. Our code and data are available at
https://augustinlib.github.io/BESPOKE/.