Rastreo inverso: Recuperando la causa de la consulta
Backtracing: Retrieving the Cause of the Query
March 6, 2024
Autores: Rose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky
cs.AI
Resumen
Muchos portales de contenido en línea permiten a los usuarios hacer preguntas para complementar su comprensión (por ejemplo, de conferencias). Si bien los sistemas de recuperación de información (IR) pueden proporcionar respuestas a dichas consultas de los usuarios, no ayudan directamente a los creadores de contenido —como los conferencistas que desean mejorar su material— a identificar los segmentos que _causaron_ que un usuario hiciera esas preguntas. Introducimos la tarea de retroseguimiento (backtracing), en la que los sistemas recuperan el segmento de texto que más probablemente causó una consulta del usuario. Formalizamos tres dominios del mundo real en los que el retroseguimiento es importante para mejorar la entrega de contenido y la comunicación: comprender la causa de (a) la confusión de los estudiantes en el dominio de Conferencias, (b) la curiosidad de los lectores en el dominio de Artículos de Noticias, y (c) la emoción del usuario en el dominio de Conversaciones. Evaluamos el rendimiento de cero disparos (zero-shot) de métodos populares de recuperación de información y modelado de lenguaje, incluyendo métodos de bi-codificador, reordenamiento y basados en verosimilitud, así como ChatGPT. Mientras que los sistemas tradicionales de IR recuperan información semánticamente relevante (por ejemplo, detalles sobre "matrices de proyección" para una consulta como "¿proyectar múltiples veces sigue llevando al mismo punto?"), a menudo pierden el contexto causalmente relevante (por ejemplo, el conferencista afirma "proyectar dos veces me da la misma respuesta que una proyección"). Nuestros resultados muestran que hay margen de mejora en el retroseguimiento y que se necesitan nuevos enfoques de recuperación. Esperamos que nuestro punto de referencia sirva para mejorar futuros sistemas de recuperación para retroseguimiento, dando lugar a sistemas que refinen la generación de contenido e identifiquen los desencadenantes lingüísticos que influyen en las consultas de los usuarios. Nuestro código y datos son de código abierto: https://github.com/rosewang2008/backtracing.
English
Many online content portals allow users to ask questions to supplement their
understanding (e.g., of lectures). While information retrieval (IR) systems may
provide answers for such user queries, they do not directly assist content
creators -- such as lecturers who want to improve their content -- identify
segments that _caused_ a user to ask those questions. We introduce the task of
backtracing, in which systems retrieve the text segment that most likely caused
a user query. We formalize three real-world domains for which backtracing is
important in improving content delivery and communication: understanding the
cause of (a) student confusion in the Lecture domain, (b) reader curiosity in
the News Article domain, and (c) user emotion in the Conversation domain. We
evaluate the zero-shot performance of popular information retrieval methods and
language modeling methods, including bi-encoder, re-ranking and
likelihood-based methods and ChatGPT. While traditional IR systems retrieve
semantically relevant information (e.g., details on "projection matrices" for a
query "does projecting multiple times still lead to the same point?"), they
often miss the causally relevant context (e.g., the lecturer states "projecting
twice gets me the same answer as one projection"). Our results show that there
is room for improvement on backtracing and it requires new retrieval
approaches. We hope our benchmark serves to improve future retrieval systems
for backtracing, spawning systems that refine content generation and identify
linguistic triggers influencing user queries. Our code and data are
open-sourced: https://github.com/rosewang2008/backtracing.