ChatPaper.aiChatPaper

大規模推論モデルは知覚的不確実性下での類推推論が可能か?

Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

March 14, 2025
著者: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
cs.AI

要旨

本研究では、最先端の大規模推論モデル(LRM)であるOpenAIのo3-miniとDeepSeek R1を、レイブンの漸進的マトリックスに基づく非言語的ヒトIQテストを中心とした類推推論において初めて評価する。I-RAVENデータセットとそのより難易度の高い拡張版であるI-RAVEN-Xを用いてベンチマークを行い、より長い推論ルールと属性値の範囲への一般化能力をテストする。これらの非言語的類推推論テストにおける視覚的不確実性の影響を評価するため、I-RAVEN-Xデータセットを拡張し、オラクル知覚を前提としないようにした。不完全な視覚知覚をシミュレートするために、二段階の戦略を採用した:1)パズルの正解予測に寄与しないランダムにサンプリングされた混同属性を導入し、2)入力属性値の分布を平滑化した。OpenAIのo3-miniのタスク精度は、元のI-RAVENでの86.6%から、入力長と範囲を増やし知覚的不確実性を模倣したより難しいI-RAVEN-Xでは17.0%に急激に低下し、ランダムな推測に近づいた。この低下は、推論トークンを3.4倍多く使用したにもかかわらず発生した。DeepSeek R1でも同様の傾向が観察され、80.6%から23.2%に低下した。一方、I-RAVENで最先端の性能を達成する神経記号的確率的アブダクションモデルであるARLCは、これらの分布外テストにおいても堅牢に推論でき、98.6%から88.0%とわずかな低下で高い精度を維持した。私たちのコードはhttps://github.com/IBM/raven-large-language-modelsで公開されている。
English
This work presents a first evaluation of two state-of-the-art Large Reasoning Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning, focusing on well-established nonverbal human IQ tests based on Raven's progressive matrices. We benchmark with the I-RAVEN dataset and its more difficult extension, I-RAVEN-X, which tests the ability to generalize to longer reasoning rules and ranges of the attribute values. To assess the influence of visual uncertainties on these nonverbal analogical reasoning tests, we extend the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a two-fold strategy to simulate this imperfect visual perception: 1) we introduce confounding attributes which, being sampled at random, do not contribute to the prediction of the correct answer of the puzzles and 2) smoothen the distributions of the input attributes' values. We observe a sharp decline in OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X, which increases input length and range and emulates perceptual uncertainty. This drop occurred despite spending 3.4x more reasoning tokens. A similar trend is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a neuro-symbolic probabilistic abductive model, ARLC, that achieves state-of-the-art performances on I-RAVEN, can robustly reason under all these out-of-distribution tests, maintaining strong accuracy with only a modest reduction from 98.6% to 88.0%. Our code is available at https://github.com/IBM/raven-large-language-models.

Summary

AI-Generated Summary

PDF52March 17, 2025