Backtracing: Recuperando a Causa da Consulta
Backtracing: Retrieving the Cause of the Query
March 6, 2024
Autores: Rose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky
cs.AI
Resumo
Muitos portais de conteúdo online permitem que os usuários façam perguntas para complementar sua compreensão (por exemplo, de palestras). Embora os sistemas de recuperação de informação (IR) possam fornecer respostas para essas consultas dos usuários, eles não auxiliam diretamente os criadores de conteúdo — como palestrantes que desejam melhorar seu material — a identificar os segmentos que _causaram_ o usuário a fazer essas perguntas. Introduzimos a tarefa de rastreamento inverso (backtracing), na qual os sistemas recuperam o segmento de texto que provavelmente causou uma consulta do usuário. Formalizamos três domínios do mundo real para os quais o rastreamento inverso é importante para melhorar a entrega de conteúdo e a comunicação: compreender a causa de (a) confusão dos alunos no domínio de Palestras, (b) curiosidade dos leitores no domínio de Artigos de Notícias e (c) emoção dos usuários no domínio de Conversas. Avaliamos o desempenho zero-shot de métodos populares de recuperação de informação e modelagem de linguagem, incluindo métodos de bi-encoder, reclassificação e baseados em verossimilhança, além do ChatGPT. Enquanto os sistemas tradicionais de IR recuperam informações semanticamente relevantes (por exemplo, detalhes sobre "matrizes de projeção" para uma consulta como "projetar múltiplas vezes ainda leva ao mesmo ponto?"), eles frequentemente perdem o contexto causalmente relevante (por exemplo, o palestrante afirma "projetar duas vezes me dá a mesma resposta que uma projeção"). Nossos resultados mostram que há espaço para melhorias no rastreamento inverso e que ele requer novas abordagens de recuperação. Esperamos que nosso benchmark sirva para aprimorar futuros sistemas de recuperação para rastreamento inverso, gerando sistemas que refinem a geração de conteúdo e identifiquem gatilhos linguísticos que influenciam as consultas dos usuários. Nosso código e dados estão disponíveis em código aberto: https://github.com/rosewang2008/backtracing.
English
Many online content portals allow users to ask questions to supplement their
understanding (e.g., of lectures). While information retrieval (IR) systems may
provide answers for such user queries, they do not directly assist content
creators -- such as lecturers who want to improve their content -- identify
segments that _caused_ a user to ask those questions. We introduce the task of
backtracing, in which systems retrieve the text segment that most likely caused
a user query. We formalize three real-world domains for which backtracing is
important in improving content delivery and communication: understanding the
cause of (a) student confusion in the Lecture domain, (b) reader curiosity in
the News Article domain, and (c) user emotion in the Conversation domain. We
evaluate the zero-shot performance of popular information retrieval methods and
language modeling methods, including bi-encoder, re-ranking and
likelihood-based methods and ChatGPT. While traditional IR systems retrieve
semantically relevant information (e.g., details on "projection matrices" for a
query "does projecting multiple times still lead to the same point?"), they
often miss the causally relevant context (e.g., the lecturer states "projecting
twice gets me the same answer as one projection"). Our results show that there
is room for improvement on backtracing and it requires new retrieval
approaches. We hope our benchmark serves to improve future retrieval systems
for backtracing, spawning systems that refine content generation and identify
linguistic triggers influencing user queries. Our code and data are
open-sourced: https://github.com/rosewang2008/backtracing.