¿Pueden los Modelos de Razonamiento a Gran Escala realizar Razonamiento Analógico bajo Incertidumbre Perceptual?
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
March 14, 2025
Autores: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
cs.AI
Resumen
Este trabajo presenta una primera evaluación de dos modelos de razonamiento a gran escala (LRMs) de última generación, el o3-mini de OpenAI y el DeepSeek R1, en tareas de razonamiento analógico, centrándose en pruebas de coeficiente intelectual no verbales bien establecidas basadas en las matrices progresivas de Raven. Realizamos pruebas comparativas con el conjunto de datos I-RAVEN y su extensión más difícil, I-RAVEN-X, que evalúa la capacidad de generalizar a reglas de razonamiento más largas y rangos de valores de atributos. Para evaluar la influencia de las incertidumbres visuales en estas pruebas de razonamiento analógico no verbal, extendemos el conjunto de datos I-RAVEN-X, que de otro modo asume una percepción oráculo. Adoptamos una estrategia doble para simular esta percepción visual imperfecta: 1) introducimos atributos confusos que, al ser muestreados al azar, no contribuyen a la predicción de la respuesta correcta de los acertijos y 2) suavizamos las distribuciones de los valores de los atributos de entrada. Observamos una caída pronunciada en la precisión de la tarea del o3-mini de OpenAI, que pasa del 86,6% en el I-RAVEN original a solo el 17,0% —aproximándose al azar— en el I-RAVEN-X más desafiante, que aumenta la longitud y el rango de la entrada y emula la incertidumbre perceptual. Esta caída ocurrió a pesar de utilizar 3,4 veces más tokens de razonamiento. Se observa una tendencia similar para el DeepSeek R1: del 80,6% al 23,2%. Por otro lado, un modelo neuro-simbólico de abducción probabilística, ARLC, que logra rendimientos de última generación en I-RAVEN, puede razonar de manera robusta en todas estas pruebas fuera de distribución, manteniendo una alta precisión con solo una reducción modesta del 98,6% al 88,0%. Nuestro código está disponible en https://github.com/IBM/raven-large-language-models.
English
This work presents a first evaluation of two state-of-the-art Large Reasoning
Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning,
focusing on well-established nonverbal human IQ tests based on Raven's
progressive matrices. We benchmark with the I-RAVEN dataset and its more
difficult extension, I-RAVEN-X, which tests the ability to generalize to longer
reasoning rules and ranges of the attribute values. To assess the influence of
visual uncertainties on these nonverbal analogical reasoning tests, we extend
the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a
two-fold strategy to simulate this imperfect visual perception: 1) we introduce
confounding attributes which, being sampled at random, do not contribute to the
prediction of the correct answer of the puzzles and 2) smoothen the
distributions of the input attributes' values. We observe a sharp decline in
OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to
just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X,
which increases input length and range and emulates perceptual uncertainty.
This drop occurred despite spending 3.4x more reasoning tokens. A similar trend
is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a
neuro-symbolic probabilistic abductive model, ARLC, that achieves
state-of-the-art performances on I-RAVEN, can robustly reason under all these
out-of-distribution tests, maintaining strong accuracy with only a modest
reduction from 98.6% to 88.0%. Our code is available at
https://github.com/IBM/raven-large-language-models.Summary
AI-Generated Summary