Rétro-tracé : Récupération de la cause de la requête
Backtracing: Retrieving the Cause of the Query
March 6, 2024
Auteurs: Rose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky
cs.AI
Résumé
De nombreux portails de contenu en ligne permettent aux utilisateurs de poser des questions pour approfondir leur compréhension (par exemple, de cours). Bien que les systèmes de recherche d'information (IR) puissent fournir des réponses à ces requêtes utilisateur, ils n'aident pas directement les créateurs de contenu -- tels que les enseignants souhaitant améliorer leur matériel -- à identifier les segments qui ont _provoqué_ ces questions. Nous introduisons la tâche de rétrotraçage, dans laquelle les systèmes récupèrent le segment de texte le plus susceptible d'avoir causé une requête utilisateur. Nous formalisons trois domaines du monde réel pour lesquels le rétrotraçage est crucial pour améliorer la diffusion et la communication du contenu : comprendre la cause de (a) la confusion des étudiants dans le domaine des Cours, (b) la curiosité des lecteurs dans le domaine des Articles de Presse, et (c) l'émotion des utilisateurs dans le domaine des Conversations. Nous évaluons les performances en zero-shot de méthodes populaires de recherche d'information et de modélisation du langage, incluant les méthodes bi-encodeur, de reclassement et basées sur la vraisemblance, ainsi que ChatGPT. Alors que les systèmes IR traditionnels récupèrent des informations sémantiquement pertinentes (par exemple, des détails sur les "matrices de projection" pour une requête "est-ce que projeter plusieurs fois conduit toujours au même point ?"), ils manquent souvent le contexte causalement pertinent (par exemple, l'enseignant déclare "projeter deux fois me donne la même réponse qu'une seule projection"). Nos résultats montrent qu'il y a une marge d'amélioration pour le rétrotraçage et qu'il nécessite de nouvelles approches de recherche. Nous espérons que notre benchmark contribuera à améliorer les futurs systèmes de recherche pour le rétrotraçage, engendrant des systèmes qui affinent la génération de contenu et identifient les déclencheurs linguistiques influençant les requêtes utilisateur. Notre code et nos données sont open-source : https://github.com/rosewang2008/backtracing.
English
Many online content portals allow users to ask questions to supplement their
understanding (e.g., of lectures). While information retrieval (IR) systems may
provide answers for such user queries, they do not directly assist content
creators -- such as lecturers who want to improve their content -- identify
segments that _caused_ a user to ask those questions. We introduce the task of
backtracing, in which systems retrieve the text segment that most likely caused
a user query. We formalize three real-world domains for which backtracing is
important in improving content delivery and communication: understanding the
cause of (a) student confusion in the Lecture domain, (b) reader curiosity in
the News Article domain, and (c) user emotion in the Conversation domain. We
evaluate the zero-shot performance of popular information retrieval methods and
language modeling methods, including bi-encoder, re-ranking and
likelihood-based methods and ChatGPT. While traditional IR systems retrieve
semantically relevant information (e.g., details on "projection matrices" for a
query "does projecting multiple times still lead to the same point?"), they
often miss the causally relevant context (e.g., the lecturer states "projecting
twice gets me the same answer as one projection"). Our results show that there
is room for improvement on backtracing and it requires new retrieval
approaches. We hope our benchmark serves to improve future retrieval systems
for backtracing, spawning systems that refine content generation and identify
linguistic triggers influencing user queries. Our code and data are
open-sourced: https://github.com/rosewang2008/backtracing.