Backtracing: Het achterhalen van de oorzaak van de query
Backtracing: Retrieving the Cause of the Query
March 6, 2024
Auteurs: Rose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky
cs.AI
Samenvatting
Veel online contentportals stellen gebruikers in staat om vragen te stellen om hun begrip te vergroten (bijvoorbeeld van colleges). Hoewel informatieherwinningssystemen (IR-systemen) antwoorden kunnen bieden op dergelijke gebruikersvragen, helpen ze contentmakers -- zoals docenten die hun inhoud willen verbeteren -- niet direct om de segmenten te identificeren die _aanleiding gaven_ tot die vragen. Wij introduceren de taak van backtracing, waarbij systemen het tekstsegment ophalen dat naar alle waarschijnlijkheid aanleiding gaf tot een gebruikersvraag. We formaliseren drie real-world domeinen waarin backtracing belangrijk is voor het verbeteren van contentlevering en communicatie: het begrijpen van de oorzaak van (a) verwarring bij studenten in het Collegedomein, (b) nieuwsgierigheid bij lezers in het Nieuwsartikeldomein, en (c) emotie bij gebruikers in het Gespreksdomein. We evalueren de zero-shot prestaties van populaire informatieherwinningsmethoden en taalmodelleringsmethoden, waaronder bi-encoder, herrangschikkings- en waarschijnlijkheidsgebaseerde methoden en ChatGPT. Hoewel traditionele IR-systemen semantisch relevante informatie ophalen (bijvoorbeeld details over "projectiematrices" voor een vraag als "leidt meerdere keren projecteren nog steeds tot hetzelfde punt?"), missen ze vaak de causaal relevante context (bijvoorbeeld de docent die zegt "twee keer projecteren geeft me hetzelfde antwoord als één projectie"). Onze resultaten laten zien dat er ruimte is voor verbetering bij backtracing en dat het nieuwe herwinningsbenaderingen vereist. We hopen dat onze benchmark toekomstige herwinningssystemen voor backtracing verbetert, wat systemen voortbrengt die contentgeneratie verfijnen en linguïstische triggers identificeren die gebruikersvragen beïnvloeden. Onze code en data zijn openbaar beschikbaar: https://github.com/rosewang2008/backtracing.
English
Many online content portals allow users to ask questions to supplement their
understanding (e.g., of lectures). While information retrieval (IR) systems may
provide answers for such user queries, they do not directly assist content
creators -- such as lecturers who want to improve their content -- identify
segments that _caused_ a user to ask those questions. We introduce the task of
backtracing, in which systems retrieve the text segment that most likely caused
a user query. We formalize three real-world domains for which backtracing is
important in improving content delivery and communication: understanding the
cause of (a) student confusion in the Lecture domain, (b) reader curiosity in
the News Article domain, and (c) user emotion in the Conversation domain. We
evaluate the zero-shot performance of popular information retrieval methods and
language modeling methods, including bi-encoder, re-ranking and
likelihood-based methods and ChatGPT. While traditional IR systems retrieve
semantically relevant information (e.g., details on "projection matrices" for a
query "does projecting multiple times still lead to the same point?"), they
often miss the causally relevant context (e.g., the lecturer states "projecting
twice gets me the same answer as one projection"). Our results show that there
is room for improvement on backtracing and it requires new retrieval
approaches. We hope our benchmark serves to improve future retrieval systems
for backtracing, spawning systems that refine content generation and identify
linguistic triggers influencing user queries. Our code and data are
open-sourced: https://github.com/rosewang2008/backtracing.