KITAB: Оценка языковых моделей на способность удовлетворять ограничениям при поиске информации
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval
October 24, 2023
Авторы: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI
Аннотация
Мы исследуем способность современных моделей отвечать на запросы, связанные с удовлетворением ограничений, для задач информационного поиска (например, «список магазинов мороженого в Сан-Диего»). В прошлом такие запросы считались задачами, которые можно решить только с помощью веб-поиска или баз знаний. Однако в последнее время крупные языковые модели (LLM) продемонстрировали начальные признаки способностей в решении таких задач. Тем не менее, многие существующие бенчмарки для оценки поиска либо достигли насыщения, либо не измеряют способность удовлетворять ограничениям. В связи с растущими опасениями относительно фактических ошибок и галлюцинаций LLM мы представляем KITAB — новый набор данных для оценки способности языковых моделей удовлетворять ограничениям. KITAB содержит данные, связанные с книгами, для более чем 600 авторов и 13 000 запросов, а также предлагает динамический подход к сбору данных и проверке ограничений для получения аналогичных тестовых данных для других авторов. Наши расширенные эксперименты с GPT-4 и GPT-3.5 характеризуют и разделяют типичные ошибки по таким параметрам, как популярность информации, типы ограничений и доступность контекста. Результаты показывают, что при отсутствии контекста модели демонстрируют серьезные ограничения, выражающиеся в нерелевантной информации, фактических ошибках и неполноте, многие из которых усугубляются с уменьшением популярности информации. Хотя доступность контекста снижает количество нерелевантной информации, он не помогает в удовлетворении ограничений, что указывает на фундаментальные барьеры в решении таких задач. Мы открываем доступ к нашим разработкам, чтобы стимулировать дальнейшие исследования по улучшению способности будущих моделей удовлетворять ограничениям.
English
We study the ability of state-of-the art models to answer constraint
satisfaction queries for information retrieval (e.g., 'a list of ice cream
shops in San Diego'). In the past, such queries were considered to be tasks
that could only be solved via web-search or knowledge bases. More recently,
large language models (LLMs) have demonstrated initial emergent abilities in
this task. However, many current retrieval benchmarks are either saturated or
do not measure constraint satisfaction. Motivated by rising concerns around
factual incorrectness and hallucinations of LLMs, we present KITAB, a new
dataset for measuring constraint satisfaction abilities of language models.
KITAB consists of book-related data across more than 600 authors and 13,000
queries, and also offers an associated dynamic data collection and constraint
verification approach for acquiring similar test data for other authors. Our
extended experiments on GPT4 and GPT3.5 characterize and decouple common
failure modes across dimensions such as information popularity, constraint
types, and context availability. Results show that in the absence of context,
models exhibit severe limitations as measured by irrelevant information,
factual errors, and incompleteness, many of which exacerbate as information
popularity decreases. While context availability mitigates irrelevant
information, it is not helpful for satisfying constraints, identifying
fundamental barriers to constraint satisfaction. We open source our
contributions to foster further research on improving constraint satisfaction
abilities of future models.