Le grandi menti la pensano allo stesso modo? Investigare la complementarità tra esseri umani e intelligenza artificiale nella risposta alle domande con CAIMIRA.

Abstract

I recenti progressi dei grandi modelli linguistici (LLM) hanno portato a dichiarazioni riguardanti l'AI che supera gli esseri umani in compiti di elaborazione del linguaggio naturale (NLP) come la comprensione testuale e il ragionamento. Questo lavoro indaga tali affermazioni introducendo CAIMIRA, un nuovo quadro radicato nella teoria della risposta agli item (IRT) che consente la valutazione quantitativa e il confronto delle capacità di risoluzione dei problemi degli agenti di domanda-risposta (QA): umani e sistemi AI. Attraverso l'analisi di oltre 300.000 risposte da circa 70 sistemi AI e 155 esseri umani su migliaia di domande di quiz, CAIMIRA mette in luce distinti modelli di competenza nei domini della conoscenza e nelle abilità di ragionamento. Gli esseri umani superano i sistemi AI nel ragionamento abduttivo e concettuale basato sulla conoscenza, mentre i LLM all'avanguardia come GPT-4 e LLaMA mostrano prestazioni superiori nel recupero mirato di informazioni e nel ragionamento basato sui fatti, specialmente quando le lacune informative sono ben definite e risolvibili attraverso il matching di pattern o il recupero dati. Queste scoperte evidenziano la necessità che i futuri compiti di QA si concentrino su domande che mettano alla prova non solo il ragionamento di ordine superiore e il pensiero scientifico, ma che richiedano anche un'interpretazione linguistica sfumata e l'applicazione della conoscenza cross-contestuale, contribuendo a far progredire gli sviluppi dell'AI che meglio emulano o integrano le capacità cognitive umane nella risoluzione di problemi del mondo reale.

English

Recent advancements of large language models (LLMs) have led to claims of AI surpassing humans in natural language processing (NLP) tasks such as textual understanding and reasoning. This work investigates these assertions by introducing CAIMIRA, a novel framework rooted in item response theory (IRT) that enables quantitative assessment and comparison of problem-solving abilities of question-answering (QA) agents: humans and AI systems. Through analysis of over 300,000 responses from ~70 AI systems and 155 humans across thousands of quiz questions, CAIMIRA uncovers distinct proficiency patterns in knowledge domains and reasoning skills. Humans outperform AI systems in knowledge-grounded abductive and conceptual reasoning, while state-of-the-art LLMs like GPT-4 and LLaMA show superior performance on targeted information retrieval and fact-based reasoning, particularly when information gaps are well-defined and addressable through pattern matching or data retrieval. These findings highlight the need for future QA tasks to focus on questions that challenge not only higher-order reasoning and scientific thinking, but also demand nuanced linguistic interpretation and cross-contextual knowledge application, helping advance AI developments that better emulate or complement human cognitive abilities in real-world problem-solving.

Le grandi menti la pensano allo stesso modo? Investigare la complementarità tra esseri umani e intelligenza artificiale nella risposta alle domande con CAIMIRA.

Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA

Abstract

Support