Backtracing: Recuperare la Causa della Query
Backtracing: Retrieving the Cause of the Query
March 6, 2024
Autori: Rose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky
cs.AI
Abstract
Molte piattaforme di contenuti online consentono agli utenti di porre domande per integrare la loro comprensione (ad esempio, delle lezioni). Mentre i sistemi di information retrieval (IR) possono fornire risposte a tali query degli utenti, non assistono direttamente i creatori di contenuti -- come i docenti che desiderano migliorare i loro materiali -- nell'identificare i segmenti che hanno _causato_ le domande degli utenti. Introduciamo il compito del backtracing, in cui i sistemi recuperano il segmento di testo che ha più probabilmente causato una query dell'utente. Formalizziamo tre domini reali per i quali il backtracing è importante per migliorare la consegna dei contenuti e la comunicazione: comprendere la causa di (a) confusione degli studenti nel dominio delle Lezioni, (b) curiosità dei lettori nel dominio degli Articoli di Notizie e (c) emozioni degli utenti nel dominio delle Conversazioni. Valutiamo le prestazioni zero-shot di metodi popolari di information retrieval e di modellazione del linguaggio, inclusi metodi bi-encoder, di riordinamento e basati sulla verosimiglianza, nonché ChatGPT. Mentre i tradizionali sistemi IR recuperano informazioni semanticamente rilevanti (ad esempio, dettagli sulle "matrici di proiezione" per una query "proiettare più volte porta ancora allo stesso punto?"), spesso mancano il contesto causalmente rilevante (ad esempio, il docente afferma "proiettare due volte mi dà lo stesso risultato di una proiezione"). I nostri risultati mostrano che c'è spazio per miglioramenti nel backtracing e che sono necessari nuovi approcci di retrieval. Speriamo che il nostro benchmark contribuisca a migliorare i futuri sistemi di retrieval per il backtracing, dando vita a sistemi che affinano la generazione di contenuti e identificano i trigger linguistici che influenzano le query degli utenti. Il nostro codice e i dati sono open-source: https://github.com/rosewang2008/backtracing.
English
Many online content portals allow users to ask questions to supplement their
understanding (e.g., of lectures). While information retrieval (IR) systems may
provide answers for such user queries, they do not directly assist content
creators -- such as lecturers who want to improve their content -- identify
segments that _caused_ a user to ask those questions. We introduce the task of
backtracing, in which systems retrieve the text segment that most likely caused
a user query. We formalize three real-world domains for which backtracing is
important in improving content delivery and communication: understanding the
cause of (a) student confusion in the Lecture domain, (b) reader curiosity in
the News Article domain, and (c) user emotion in the Conversation domain. We
evaluate the zero-shot performance of popular information retrieval methods and
language modeling methods, including bi-encoder, re-ranking and
likelihood-based methods and ChatGPT. While traditional IR systems retrieve
semantically relevant information (e.g., details on "projection matrices" for a
query "does projecting multiple times still lead to the same point?"), they
often miss the causally relevant context (e.g., the lecturer states "projecting
twice gets me the same answer as one projection"). Our results show that there
is room for improvement on backtracing and it requires new retrieval
approaches. We hope our benchmark serves to improve future retrieval systems
for backtracing, spawning systems that refine content generation and identify
linguistic triggers influencing user queries. Our code and data are
open-sourced: https://github.com/rosewang2008/backtracing.