ChatPaper.aiChatPaper

위대한 사고들이 비슷한가요? CAIMIRA를 활용한 인간-인공지능 보완성에 대한 질문 응답 연구

Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA

October 9, 2024
저자: Maharshi Gor, Hal Daumé III, Tianyi Zhou, Jordan Boyd-Graber
cs.AI

초록

최근 대형 언어 모델(LLM)의 발전으로, 인공지능이 자연어 처리(NLP) 작업에서 텍스트 이해와 추론과 같은 분야에서 인간을 능가했다는 주장이 제기되었습니다. 본 연구는 이러한 주장을 탐구하기 위해 항목 반응 이론(IRT)에 근간을 둔 새로운 프레임워크인 CAIMIRA를 소개하여, 질문-답변(QA) 에이전트인 인간과 인공지능 시스템의 문제 해결 능력을 양적으로 평가하고 비교할 수 있도록 합니다. CAIMIRA는 수천 개의 퀴즈 질문을 통해 약 70개의 인공지능 시스템과 155명의 인간으로부터 약 300,000개의 응답을 분석함으로써, 지식 영역과 추론 기술에서 구별되는 능력 패턴을 발견합니다. 인간은 지식 기반의 도출적 추론과 개념적 추론에서 인공지능 시스템을 능가하는 반면, GPT-4 및 LLaMA와 같은 최첨단 LLM은 목표 지향적 정보 검색 및 사실 기반 추론에서 우수한 성능을 보이며, 특히 정보 갭이 명확하게 정의되고 패턴 일치 또는 데이터 검색을 통해 해결할 수 있는 경우에 더 뛰어난 성과를 보입니다. 이러한 결과는 미래의 QA 작업이 고차원 추론과 과학적 사고 뿐만 아니라 미묘한 언어 해석과 교차 맥락적 지식 적용을 요구하는 질문에 초점을 맞추어야 함을 강조하며, 현실 세계의 문제 해결에서 인간의 인지 능력을 더 잘 모방하거나 보완하는 인공지능 발전을 돕는다는 점을 강조합니다.
English
Recent advancements of large language models (LLMs) have led to claims of AI surpassing humans in natural language processing (NLP) tasks such as textual understanding and reasoning. This work investigates these assertions by introducing CAIMIRA, a novel framework rooted in item response theory (IRT) that enables quantitative assessment and comparison of problem-solving abilities of question-answering (QA) agents: humans and AI systems. Through analysis of over 300,000 responses from ~70 AI systems and 155 humans across thousands of quiz questions, CAIMIRA uncovers distinct proficiency patterns in knowledge domains and reasoning skills. Humans outperform AI systems in knowledge-grounded abductive and conceptual reasoning, while state-of-the-art LLMs like GPT-4 and LLaMA show superior performance on targeted information retrieval and fact-based reasoning, particularly when information gaps are well-defined and addressable through pattern matching or data retrieval. These findings highlight the need for future QA tasks to focus on questions that challenge not only higher-order reasoning and scientific thinking, but also demand nuanced linguistic interpretation and cross-contextual knowledge application, helping advance AI developments that better emulate or complement human cognitive abilities in real-world problem-solving.

Summary

AI-Generated Summary

PDF42November 16, 2024