ChatPaper.aiChatPaper

I modelli di ragionamento su larga scala sono in grado di eseguire ragionamento analogico in condizioni di incertezza percettiva?

Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

March 14, 2025
Autori: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
cs.AI

Abstract

Questo lavoro presenta una prima valutazione di due modelli all'avanguardia per il ragionamento su larga scala (LRM), o3-mini di OpenAI e DeepSeek R1, sul ragionamento analogico, concentrandosi su test di QI non verbali ben consolidati basati sulle matrici progressive di Raven. Eseguiamo benchmark con il dataset I-RAVEN e la sua estensione più complessa, I-RAVEN-X, che testa la capacità di generalizzare a regole di ragionamento più lunghe e intervalli di valori degli attributi. Per valutare l'influenza delle incertezze visive su questi test di ragionamento analogico non verbale, estendiamo il dataset I-RAVEN-X, che altrimenti presuppone una percezione oracolare. Adottiamo una strategia a due livelli per simulare questa percezione visiva imperfetta: 1) introduciamo attributi confondenti che, essendo campionati casualmente, non contribuiscono alla previsione della risposta corretta dei puzzle e 2) levighiamo le distribuzioni dei valori degli attributi di input. Osserviamo un forte calo nell'accuratezza del compito di o3-mini di OpenAI, che passa dall'86,6% sull'originale I-RAVEN a solo il 17,0% – avvicinandosi al caso casuale – sul più impegnativo I-RAVEN-X, che aumenta la lunghezza e l'intervallo dell'input e simula l'incertezza percettiva. Questo calo si è verificato nonostante l'utilizzo di 3,4 volte più token di ragionamento. Una tendenza simile si osserva anche per DeepSeek R1: dall'80,6% al 23,2%. D'altra parte, un modello neuro-simbolico probabilistico abduttivo, ARLC, che raggiunge prestazioni all'avanguardia su I-RAVEN, è in grado di ragionare in modo robusto in tutti questi test fuori distribuzione, mantenendo un'elevata accuratezza con solo una modesta riduzione dal 98,6% all'88,0%. Il nostro codice è disponibile all'indirizzo https://github.com/IBM/raven-large-language-models.
English
This work presents a first evaluation of two state-of-the-art Large Reasoning Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning, focusing on well-established nonverbal human IQ tests based on Raven's progressive matrices. We benchmark with the I-RAVEN dataset and its more difficult extension, I-RAVEN-X, which tests the ability to generalize to longer reasoning rules and ranges of the attribute values. To assess the influence of visual uncertainties on these nonverbal analogical reasoning tests, we extend the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a two-fold strategy to simulate this imperfect visual perception: 1) we introduce confounding attributes which, being sampled at random, do not contribute to the prediction of the correct answer of the puzzles and 2) smoothen the distributions of the input attributes' values. We observe a sharp decline in OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X, which increases input length and range and emulates perceptual uncertainty. This drop occurred despite spending 3.4x more reasoning tokens. A similar trend is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a neuro-symbolic probabilistic abductive model, ARLC, that achieves state-of-the-art performances on I-RAVEN, can robustly reason under all these out-of-distribution tests, maintaining strong accuracy with only a modest reduction from 98.6% to 88.0%. Our code is available at https://github.com/IBM/raven-large-language-models.
PDF52March 17, 2025