Обратное отслеживание: Восстановление причины запроса
Backtracing: Retrieving the Cause of the Query
March 6, 2024
Авторы: Rose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky
cs.AI
Аннотация
Многие онлайн-порталы контента позволяют пользователям задавать вопросы для дополнения своего понимания (например, лекций). В то время как системы информационного поиска (IR) могут предоставлять ответы на такие запросы пользователей, они не напрямую помогают создателям контента - таким как лекторы, желающие улучшить свой контент - идентифицировать сегменты, которые _привели_ пользователя к заданию этих вопросов. Мы представляем задачу обратного отслеживания, в рамках которой системы извлекают текстовый сегмент, который наиболее вероятно привел к запросу пользователя. Мы формализуем три области реального мира, для которых обратное отслеживание важно для улучшения предоставления контента и коммуникации: понимание причины (a) путаницы студентов в области Лекций, (b) любопытства читателя в области Новостей и (c) эмоций пользователя в области Бесед. Мы оцениваем нулевую производительность популярных методов информационного поиска и методов языкового моделирования, включая би-кодировщик, переоценку и методы на основе вероятности, а также ChatGPT. В то время как традиционные системы IR извлекают семантически связанную информацию (например, детали о "матрицах проекции" для запроса "приводит ли многократная проекция к одной и той же точке?"), они часто упускают контекст, имеющий причинно-следственную связь (например, лектор утверждает "двойная проекция дает мне тот же ответ, что и одна проекция"). Наши результаты показывают, что есть потенциал для улучшения обратного отслеживания, и это требует новых подходов к извлечению. Мы надеемся, что наш бенчмарк поможет улучшить будущие системы поиска для обратного отслеживания, порождая системы, которые совершенствуют генерацию контента и идентифицируют лингвистические триггеры, влияющие на запросы пользователей. Наш код и данные доступны по ссылке: https://github.com/rosewang2008/backtracing.
English
Many online content portals allow users to ask questions to supplement their
understanding (e.g., of lectures). While information retrieval (IR) systems may
provide answers for such user queries, they do not directly assist content
creators -- such as lecturers who want to improve their content -- identify
segments that _caused_ a user to ask those questions. We introduce the task of
backtracing, in which systems retrieve the text segment that most likely caused
a user query. We formalize three real-world domains for which backtracing is
important in improving content delivery and communication: understanding the
cause of (a) student confusion in the Lecture domain, (b) reader curiosity in
the News Article domain, and (c) user emotion in the Conversation domain. We
evaluate the zero-shot performance of popular information retrieval methods and
language modeling methods, including bi-encoder, re-ranking and
likelihood-based methods and ChatGPT. While traditional IR systems retrieve
semantically relevant information (e.g., details on "projection matrices" for a
query "does projecting multiple times still lead to the same point?"), they
often miss the causally relevant context (e.g., the lecturer states "projecting
twice gets me the same answer as one projection"). Our results show that there
is room for improvement on backtracing and it requires new retrieval
approaches. We hope our benchmark serves to improve future retrieval systems
for backtracing, spawning systems that refine content generation and identify
linguistic triggers influencing user queries. Our code and data are
open-sourced: https://github.com/rosewang2008/backtracing.