KITAB: 정보 검색을 위한 제약 조건 충족에 대한 대형 언어 모델 평가
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval
October 24, 2023
저자: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI
초록
우리는 최신 모델들이 정보 검색을 위한 제약 조건 충족 쿼리(예: '샌디에고에 있는 아이스크림 가게 목록')에 답변할 수 있는 능력을 연구합니다. 과거에는 이러한 쿼리가 웹 검색이나 지식 베이스를 통해서만 해결할 수 있는 작업으로 여겨졌습니다. 최근에는 대규모 언어 모델(LLM)들이 이러한 작업에서 초기적인 창발적 능력을 보여주었습니다. 그러나 현재의 많은 검색 벤치마크는 이미 포화 상태이거나 제약 조건 충족을 측정하지 않습니다. LLM의 사실 오류와 환각 현상에 대한 우려가 증가함에 따라, 우리는 언어 모델의 제약 조건 충족 능력을 측정하기 위한 새로운 데이터셋인 KITAB를 제시합니다. KITAB은 600명 이상의 작가와 13,000개 이상의 쿼리에 걸친 도서 관련 데이터로 구성되어 있으며, 다른 작가에 대한 유사한 테스트 데이터를 수집하기 위한 동적 데이터 수집 및 제약 조건 검증 접근법도 제공합니다. GPT4와 GPT3.5에 대한 확장된 실험을 통해 정보 인기도, 제약 조건 유형, 컨텍스트 가용성 등의 차원에서 일반적인 실패 모드를 특성화하고 분리합니다. 결과는 컨텍스트가 없는 경우 모델이 관련 없는 정보, 사실 오류, 불완전성 등으로 심각한 한계를 보이며, 이러한 문제는 정보 인기도가 낮아질수록 악화됨을 보여줍니다. 컨텍스트 가용성은 관련 없는 정보를 완화하지만, 제약 조건을 충족하는 데에는 도움이 되지 않아, 제약 조건 충족의 근본적인 장벽을 확인합니다. 우리는 향후 모델의 제약 조건 충족 능력 개선을 위한 추가 연구를 촉진하기 위해 기여 내용을 오픈소스로 공개합니다.
English
We study the ability of state-of-the art models to answer constraint
satisfaction queries for information retrieval (e.g., 'a list of ice cream
shops in San Diego'). In the past, such queries were considered to be tasks
that could only be solved via web-search or knowledge bases. More recently,
large language models (LLMs) have demonstrated initial emergent abilities in
this task. However, many current retrieval benchmarks are either saturated or
do not measure constraint satisfaction. Motivated by rising concerns around
factual incorrectness and hallucinations of LLMs, we present KITAB, a new
dataset for measuring constraint satisfaction abilities of language models.
KITAB consists of book-related data across more than 600 authors and 13,000
queries, and also offers an associated dynamic data collection and constraint
verification approach for acquiring similar test data for other authors. Our
extended experiments on GPT4 and GPT3.5 characterize and decouple common
failure modes across dimensions such as information popularity, constraint
types, and context availability. Results show that in the absence of context,
models exhibit severe limitations as measured by irrelevant information,
factual errors, and incompleteness, many of which exacerbate as information
popularity decreases. While context availability mitigates irrelevant
information, it is not helpful for satisfying constraints, identifying
fundamental barriers to constraint satisfaction. We open source our
contributions to foster further research on improving constraint satisfaction
abilities of future models.