Grandes mentes pensam da mesma forma? Investigando a Complementaridade Humano-IA na Resposta a Perguntas com CAIMIRA
Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA
October 9, 2024
Autores: Maharshi Gor, Hal Daumé III, Tianyi Zhou, Jordan Boyd-Graber
cs.AI
Resumo
Os avanços recentes dos grandes modelos de linguagem (LLMs) levaram a alegações de que a IA ultrapassou os humanos em tarefas de processamento de linguagem natural (NLP) como compreensão textual e raciocínio. Este trabalho investiga essas afirmações ao introduzir o CAIMIRA, um novo framework enraizado na teoria da resposta ao item (IRT) que possibilita a avaliação quantitativa e comparação das habilidades de resolução de problemas de agentes de perguntas e respostas (QA): humanos e sistemas de IA. Através da análise de mais de 300.000 respostas de ~70 sistemas de IA e 155 humanos em milhares de perguntas de quiz, o CAIMIRA revela padrões distintos de proficiência em domínios de conhecimento e habilidades de raciocínio. Os humanos superam os sistemas de IA em raciocínio abdutivo e conceitual fundamentado em conhecimento, enquanto LLMs de ponta como GPT-4 e LLaMA demonstram desempenho superior em recuperação de informações direcionadas e raciocínio baseado em fatos, especialmente quando lacunas de informação são bem definidas e podem ser abordadas por meio de correspondência de padrões ou recuperação de dados. Essas descobertas destacam a necessidade de futuras tarefas de QA se concentrarem em perguntas que desafiem não apenas o raciocínio de ordem superior e o pensamento científico, mas também exijam interpretação linguística refinada e aplicação de conhecimento intercontextual, ajudando a avançar no desenvolvimento de IA que melhor emulem ou complementem as habilidades cognitivas humanas na resolução de problemas do mundo real.
English
Recent advancements of large language models (LLMs) have led to claims of AI
surpassing humans in natural language processing (NLP) tasks such as textual
understanding and reasoning. This work investigates these assertions by
introducing CAIMIRA, a novel framework rooted in item response theory (IRT)
that enables quantitative assessment and comparison of problem-solving
abilities of question-answering (QA) agents: humans and AI systems. Through
analysis of over 300,000 responses from ~70 AI systems and 155 humans across
thousands of quiz questions, CAIMIRA uncovers distinct proficiency patterns in
knowledge domains and reasoning skills. Humans outperform AI systems in
knowledge-grounded abductive and conceptual reasoning, while state-of-the-art
LLMs like GPT-4 and LLaMA show superior performance on targeted information
retrieval and fact-based reasoning, particularly when information gaps are
well-defined and addressable through pattern matching or data retrieval. These
findings highlight the need for future QA tasks to focus on questions that
challenge not only higher-order reasoning and scientific thinking, but also
demand nuanced linguistic interpretation and cross-contextual knowledge
application, helping advance AI developments that better emulate or complement
human cognitive abilities in real-world problem-solving.Summary
AI-Generated Summary