ChatPaper.aiChatPaper

Modelos de Raciocínio de Grande Escala Podem Realizar Raciocínio Analógico sob Incerteza Perceptiva?

Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

March 14, 2025
Autores: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
cs.AI

Resumo

Este trabalho apresenta uma primeira avaliação de dois modelos de raciocínio em larga escala (LRMs) de ponta, o o3-mini da OpenAI e o DeepSeek R1, no raciocínio analógico, com foco em testes de QI não verbais bem estabelecidos baseados nas matrizes progressivas de Raven. Realizamos benchmarks com o conjunto de dados I-RAVEN e sua extensão mais desafiadora, I-RAVEN-X, que testa a capacidade de generalizar para regras de raciocínio mais longas e intervalos de valores dos atributos. Para avaliar a influência de incertezas visuais nesses testes de raciocínio analógico não verbal, estendemos o conjunto de dados I-RAVEN-X, que, de outra forma, assume uma percepção oráculo. Adotamos uma estratégia dupla para simular essa percepção visual imperfeita: 1) introduzimos atributos confundentes que, sendo amostrados aleatoriamente, não contribuem para a previsão da resposta correta dos quebra-cabeças e 2) suavizamos as distribuições dos valores dos atributos de entrada. Observamos uma queda acentuada na precisão da tarefa do o3-mini da OpenAI, caindo de 86,6% no I-RAVEN original para apenas 17,0% — aproximando-se do acaso — no I-RAVEN-X mais desafiador, que aumenta o comprimento e o intervalo da entrada e emula a incerteza perceptiva. Essa queda ocorreu apesar de gastar 3,4 vezes mais tokens de raciocínio. Uma tendência semelhante também é observada para o DeepSeek R1: de 80,6% para 23,2%. Por outro lado, um modelo neuro-simbólico probabilístico abdutivo, ARLC, que alcança desempenhos de ponta no I-RAVEN, consegue raciocinar de forma robusta sob todos esses testes fora da distribuição, mantendo uma alta precisão com apenas uma modesta redução de 98,6% para 88,0%. Nosso código está disponível em https://github.com/IBM/raven-large-language-models.
English
This work presents a first evaluation of two state-of-the-art Large Reasoning Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning, focusing on well-established nonverbal human IQ tests based on Raven's progressive matrices. We benchmark with the I-RAVEN dataset and its more difficult extension, I-RAVEN-X, which tests the ability to generalize to longer reasoning rules and ranges of the attribute values. To assess the influence of visual uncertainties on these nonverbal analogical reasoning tests, we extend the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a two-fold strategy to simulate this imperfect visual perception: 1) we introduce confounding attributes which, being sampled at random, do not contribute to the prediction of the correct answer of the puzzles and 2) smoothen the distributions of the input attributes' values. We observe a sharp decline in OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X, which increases input length and range and emulates perceptual uncertainty. This drop occurred despite spending 3.4x more reasoning tokens. A similar trend is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a neuro-symbolic probabilistic abductive model, ARLC, that achieves state-of-the-art performances on I-RAVEN, can robustly reason under all these out-of-distribution tests, maintaining strong accuracy with only a modest reduction from 98.6% to 88.0%. Our code is available at https://github.com/IBM/raven-large-language-models.

Summary

AI-Generated Summary

PDF52March 17, 2025