대형 추론 모델은 지각적 불확실성 하에서 유추적 추론을 수행할 수 있는가?
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
March 14, 2025
저자: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
cs.AI
초록
본 연구는 OpenAI의 o3-mini와 DeepSeek R1이라는 두 가지 최신 대형 추론 모델(Large Reasoning Models, LRMs)을 비언어적 유추 추론 능력에 대해 처음으로 평가한 결과를 제시합니다. 이 평가는 Raven의 점진적 행렬(Raven's Progressive Matrices)에 기반한 잘 정립된 비언어적 인간 IQ 테스트에 초점을 맞추고 있습니다. 우리는 I-RAVEN 데이터셋과 더 어려운 확장 버전인 I-RAVEN-X를 벤치마크로 사용했는데, 이는 더 긴 추론 규칙과 속성 값 범위에 대한 일반화 능력을 테스트합니다. 비언어적 유추 추론 테스트에서 시각적 불확실성의 영향을 평가하기 위해, 우리는 I-RAVEN-X 데이터셋을 확장하여 오라클 지각(oracle perception)을 가정하지 않도록 했습니다. 이를 위해 불완전한 시각적 지각을 시뮬레이션하기 위한 두 가지 전략을 채택했습니다: 1) 퍼즐의 정답 예측에 기여하지 않는 무작위로 샘플링된 혼란 속성(confounding attributes)을 도입하고, 2) 입력 속성 값의 분포를 평활화(smoothen)했습니다. 그 결과, OpenAI의 o3-mini는 원래 I-RAVEN에서 86.6%의 정확도를 보였지만, 입력 길이와 범위가 증가하고 지각적 불확실성을 모방한 더 어려운 I-RAVEN-X에서는 17.0%로 급격히 하락하여 무작위 추측 수준에 근접했습니다. 이는 추론 토큰을 3.4배 더 사용했음에도 불구하고 발생한 현상입니다. DeepSeek R1에서도 유사한 경향이 관찰되었는데, 정확도가 80.6%에서 23.2%로 하락했습니다. 반면, I-RAVEN에서 최첨단 성능을 달성한 신경-기호적 확률적 귀추 모델(neuro-symbolic probabilistic abductive model)인 ARLC는 이러한 모든 분포 외(out-of-distribution) 테스트에서도 견고하게 추론할 수 있었으며, 정확도가 98.6%에서 88.0%로 약간만 감소하며 강력한 성능을 유지했습니다. 우리의 코드는 https://github.com/IBM/raven-large-language-models에서 확인할 수 있습니다.
English
This work presents a first evaluation of two state-of-the-art Large Reasoning
Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning,
focusing on well-established nonverbal human IQ tests based on Raven's
progressive matrices. We benchmark with the I-RAVEN dataset and its more
difficult extension, I-RAVEN-X, which tests the ability to generalize to longer
reasoning rules and ranges of the attribute values. To assess the influence of
visual uncertainties on these nonverbal analogical reasoning tests, we extend
the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a
two-fold strategy to simulate this imperfect visual perception: 1) we introduce
confounding attributes which, being sampled at random, do not contribute to the
prediction of the correct answer of the puzzles and 2) smoothen the
distributions of the input attributes' values. We observe a sharp decline in
OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to
just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X,
which increases input length and range and emulates perceptual uncertainty.
This drop occurred despite spending 3.4x more reasoning tokens. A similar trend
is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a
neuro-symbolic probabilistic abductive model, ARLC, that achieves
state-of-the-art performances on I-RAVEN, can robustly reason under all these
out-of-distribution tests, maintaining strong accuracy with only a modest
reduction from 98.6% to 88.0%. Our code is available at
https://github.com/IBM/raven-large-language-models.Summary
AI-Generated Summary