Le grandi menti la pensano allo stesso modo? Investigare la complementarità tra esseri umani e intelligenza artificiale nella risposta alle domande con CAIMIRA.
Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA
October 9, 2024
Autori: Maharshi Gor, Hal Daumé III, Tianyi Zhou, Jordan Boyd-Graber
cs.AI
Abstract
I recenti progressi dei grandi modelli linguistici (LLM) hanno portato a dichiarazioni riguardanti l'AI che supera gli esseri umani in compiti di elaborazione del linguaggio naturale (NLP) come la comprensione testuale e il ragionamento. Questo lavoro indaga tali affermazioni introducendo CAIMIRA, un nuovo quadro radicato nella teoria della risposta agli item (IRT) che consente la valutazione quantitativa e il confronto delle capacità di risoluzione dei problemi degli agenti di domanda-risposta (QA): umani e sistemi AI. Attraverso l'analisi di oltre 300.000 risposte da circa 70 sistemi AI e 155 esseri umani su migliaia di domande di quiz, CAIMIRA mette in luce distinti modelli di competenza nei domini della conoscenza e nelle abilità di ragionamento. Gli esseri umani superano i sistemi AI nel ragionamento abduttivo e concettuale basato sulla conoscenza, mentre i LLM all'avanguardia come GPT-4 e LLaMA mostrano prestazioni superiori nel recupero mirato di informazioni e nel ragionamento basato sui fatti, specialmente quando le lacune informative sono ben definite e risolvibili attraverso il matching di pattern o il recupero dati. Queste scoperte evidenziano la necessità che i futuri compiti di QA si concentrino su domande che mettano alla prova non solo il ragionamento di ordine superiore e il pensiero scientifico, ma che richiedano anche un'interpretazione linguistica sfumata e l'applicazione della conoscenza cross-contestuale, contribuendo a far progredire gli sviluppi dell'AI che meglio emulano o integrano le capacità cognitive umane nella risoluzione di problemi del mondo reale.
English
Recent advancements of large language models (LLMs) have led to claims of AI
surpassing humans in natural language processing (NLP) tasks such as textual
understanding and reasoning. This work investigates these assertions by
introducing CAIMIRA, a novel framework rooted in item response theory (IRT)
that enables quantitative assessment and comparison of problem-solving
abilities of question-answering (QA) agents: humans and AI systems. Through
analysis of over 300,000 responses from ~70 AI systems and 155 humans across
thousands of quiz questions, CAIMIRA uncovers distinct proficiency patterns in
knowledge domains and reasoning skills. Humans outperform AI systems in
knowledge-grounded abductive and conceptual reasoning, while state-of-the-art
LLMs like GPT-4 and LLaMA show superior performance on targeted information
retrieval and fact-based reasoning, particularly when information gaps are
well-defined and addressable through pattern matching or data retrieval. These
findings highlight the need for future QA tasks to focus on questions that
challenge not only higher-order reasoning and scientific thinking, but also
demand nuanced linguistic interpretation and cross-contextual knowledge
application, helping advance AI developments that better emulate or complement
human cognitive abilities in real-world problem-solving.