翻訳付きの日次キュレーションされたAI研究論文
本論文では、ネイティブ解像度の視覚認識と強力なマルチモーダル推論を目的として設計されたOvis2の後継モデル、Ovis2.5を紹介する。Ovis2.5は、ネイティブ解像度のVision Transformerを統合し、画像をその可変のネイティブ解像度で処理することで、固定解像度のタイル分割による劣化を回避し、複雑なチャートのような視覚的に密度の高いコンテンツにおいて、細部と全体のレイアウトの両方を保持する。推論能力を強化するため、モデルは線形の連鎖思考を超えて、自己チェックや修正を含む「リフレクション」を実行するように訓練されている。この高度な能力は、推論時にオプションの「思考モード」として提供され、ユーザーは遅延を犠牲にして難易度の高い入力に対する精度を向上させることができる。モデルは、5段階の包括的なカリキュラムを通じて訓練され、そのスキルを段階的に構築する。このプロセスは、基礎的な視覚およびマルチモーダルの事前学習から始まり、大規模な指示チューニングを経て、DPOとGRPOを用いたアライメントと推論の強化で終了する。これらのアップグレードを効率的にスケールするため、マルチモーダルデータパッキングとハイブリッド並列処理を採用し、エンドツーエンドの大幅な高速化を実現した。我々は、Ovis2.5-9BとOvis2.5-2Bの2つのオープンソースモデルを公開する。後者は、Ovis2の「小さなモデル、大きな性能」という哲学を継承し、リソースが制限されたオンデバイスシナリオに最適である。OpenCompassマルチモーダルリーダーボードにおいて、Ovis2.5-9Bは平均78.3を記録し、前身のOvis2-8Bを大幅に上回り、40Bパラメータ未満のオープンソースMLLMの中で最先端の結果を達成した。Ovis2.5-2Bは73.9を記録し、そのサイズにおいてSOTAを確立した。総合スコアを超えて、Ovis2.5はSTEMベンチマークでリーダーシップを発揮し、グラウンディングやビデオタスクにおいて強力な能力を示し、複雑なチャート分析においてその規模でオープンソースSOTAを達成した。
長編ストーリーや小説の物語理解は、その複雑なプロットラインや登場人物やエンティティ間の絡み合い、しばしば変化する関係性により、挑戦的な領域とされてきた。大規模言語モデル(LLM)の長文脈に対する推論能力の低下と高い計算コストを考慮すると、実践的には検索ベースのアプローチが重要な役割を果たしている。しかし、従来のRAG(Retrieval-Augmented Generation)手法は、ステートレスで単一ステップの検索プロセスであるため、長文脈内の相互に関連する関係性を捉える動的な性質を見落とすことが多い。本研究では、物語推論が一発のプロセスではなく、新しい証拠の獲得と過去の知識の統合との間の動的で進化する相互作用であるという原則に基づき、ComoRAGを提案する。これは、脳内の記憶関連信号を用いて推論する人間の認知に類似している。具体的には、推論の行き詰まりに遭遇した際、ComoRAGは動的なメモリワークスペースと相互作用しながら反復的な推論サイクルを経る。各サイクルでは、新しい探索パスを考案するためのプロービングクエリを生成し、その後、新しい側面の検索された証拠をグローバルメモリプールに統合し、クエリ解決のための一貫した文脈の出現を支援する。4つの挑戦的な長文脈物語ベンチマーク(20万トークン以上)において、ComoRAGは強力なRAGベースラインを一貫して上回り、最強のベースラインと比較して最大11%の相対的な向上を示した。さらなる分析により、ComoRAGはグローバルな理解を必要とする複雑なクエリに対して特に有利であり、ステートフルな推論に向けた検索ベースの長文脈理解のための原則的で認知科学的に動機づけられたパラダイムを提供することが明らかになった。私たちのコードはhttps://github.com/EternityJune25/ComoRAGで公開されている。
本論文では、単一画像から4D(動的3D)シーン表現を生成する初のフィードフォワードフレームワークである4DNeXを提案する。従来の計算集約的な最適化手法や複数フレームのビデオ入力を必要とする手法とは異なり、4DNeXは事前学習済みのビデオ拡散モデルを微調整することで、効率的なエンドツーエンドの画像から4D生成を実現する。具体的には、1) 4Dデータの不足を解消するため、高度な再構成手法を用いて生成した高品質な4Dアノテーションを含む大規模データセット4DNeX-10Mを構築した。2) RGBシーケンスとXYZシーケンスを統合的にモデル化する6Dビデオ表現を導入し、外観と形状の構造化された学習を可能にした。3) 事前学習済みのビデオ拡散モデルを4Dモデリングに適応させるためのシンプルかつ効果的な戦略を提案した。4DNeXは高品質な動的点群を生成し、新規視点ビデオ合成を可能にする。大規模な実験により、4DNeXは既存の4D生成手法を効率性と汎化性能の面で上回り、画像から4Dモデリングへのスケーラブルなソリューションを提供し、動的シーン進化をシミュレートする生成的な4D世界モデルの基盤を築くものであることを示した。
本研究では、画像を構造化されたシーケンスに分解する新たなアプローチを提案する。このシーケンスの各要素は同じ空間解像度を共有するが、使用されるユニークなトークンの数が異なり、異なるレベルの視覚的粒度を捉える。画像生成は、新たに導入したNext Visual Granularity(NVG)生成フレームワークを通じて行われる。このフレームワークは、空の画像から始まり、グローバルなレイアウトから細部まで、構造化された方法で視覚的粒度シーケンスを生成し、段階的に洗練させる。この反復プロセスは、階層的で層状の表現をエンコードし、複数の粒度レベルにわたる生成プロセスに対するきめ細かい制御を可能にする。ImageNetデータセットを用いてクラス条件付き画像生成のための一連のNVGモデルを学習し、明確なスケーリング挙動を観察した。VARシリーズと比較すると、NVGはFIDスコアにおいて一貫して優れた性能を示した(3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06)。また、NVGフレームワークの能力と可能性を示すために、広範な分析を実施した。我々のコードとモデルは公開予定である。
大規模言語モデル(LLMs)は、言語理解、生成、推論において印象的な結果を達成し、マルチモーダルモデルの能力の限界を押し広げています。現代のLLMsの基盤となるTransformerモデルは、優れたスケーリング特性を持つ強力なベースラインを提供します。しかし、従来のTransformerアーキテクチャは大量の計算を必要とし、大規模なトレーニングや実用的な展開において重大な障害をもたらします。本調査では、Transformerの内在的な制限を克服し、効率を向上させる革新的なLLMアーキテクチャを体系的に検討します。言語モデリングを出発点として、本調査は線形および疎なシーケンスモデリング手法、効率的な完全注意機構のバリエーション、疎な混合エキスパート、これらの技術を組み込んだハイブリッドモデルアーキテクチャ、そして新興の拡散LLMsの背景と技術的詳細を網羅します。さらに、これらの技術を他のモダリティに適用する事例や、スケーラブルでリソースを意識した基盤モデルの開発に対する広範な影響についても議論します。最近の研究を上記のカテゴリに分類することで、本調査は現代の効率的なLLMアーキテクチャの青図を提示し、より効率的で汎用性の高いAIシステムに向けた将来の研究を促進することを期待しています。
大規模言語モデル(LLM)は、プロンプトのフレージングやフォーマットにおける微妙な非意味論的変化に対して非常に敏感である。本研究では、プロンプトの堅牢性を向上させるための5つの手法を統一的な実験フレームワーク内で初めて体系的に評価する。これらの手法を、Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットの52タスクでベンチマークする。我々の評価は、ファインチューニングとインコンテキスト学習の両パラダイムにわたる堅牢性手法をカバーし、複数のタイプの分布シフトに対するそれらの汎化能力をテストする。最後に、GPT-4.1とDeepSeek V3に分析を拡張し、最先端モデルが現在フォーマットの摂動に対してどの程度堅牢であるかを評価する。我々の知見は、これらの堅牢性手法の相対的な有効性に関する実践的な洞察を提供し、実世界のアプリケーションにおいて安定した信頼性の高いLLMの性能を目指す際に、実践者が情報に基づいた意思決定を行えるようにする。コード: https://github.com/AIRI-Institute/when-punctuation-matters.
Classifier-free Guidance (CFG) は、現代の拡散モデルにおいてサンプル品質とプロンプトへの忠実度を向上させるために広く使用されている技術である。しかし、閉形式解を持つガウス混合モデリングを用いた実証分析を通じて、CFG が生成する最適ではない結果と真の値との間に乖離が存在することを観察した。モデルがこれらの最適ではない予測に過度に依存することは、しばしば意味的な不整合や低品質な出力を引き起こす。この問題に対処するため、まず、モデル自体のサブネットワークを用いることで、モデルの最適ではない予測を効果的に改善できることを実証的に示す。この知見に基づき、我々は S^2-Guidance を提案する。これは、順方向プロセス中に確率的なブロックドロップを活用して確率的サブネットワークを構築し、モデルを潜在的な低品質な予測から遠ざけ、高品質な出力に向けて導く新しい手法である。テキストから画像およびテキストから動画の生成タスクにおける広範な定性的および定量的な実験により、S^2-Guidance が優れた性能を発揮し、CFG や他の先進的なガイダンス戦略を一貫して凌駕することが示された。我々のコードは公開予定である。
近年、マルチモーダルモデルは目覚ましい進歩を遂げてきた。しかしながら、人工汎用知能を達成するための基本的な能力である空間理解と推論において、依然として顕著な限界を示している。最近リリースされたGPT-5は、現在最も強力なAIモデルとされており、主要なモデルが空間知能への道のりでどの位置に立っているかを検討するのに適切な時期である。まず、既存のベンチマークを統合する空間タスクの包括的な分類体系を提案し、公平な評価を確保する上での課題について議論する。次に、総計10億トークンを超えるコストをかけて、最先端のプロプライエタリモデルとオープンソースモデルを8つの主要なベンチマークで評価する。我々の実証研究は、(1) GPT-5が空間知能において前例のない強さを示す一方で、(2) 幅広いタスクにおいて人間の性能には及ばないことを明らかにした。さらに、(3) マルチモーダルモデルにとってより困難な空間知能の問題を特定し、(4) 最も難しい問題に直面した場合、プロプライエタリモデルが決定的な優位性を示さないことを明らかにした。加えて、人間にとって直感的であるが、最も先進的なマルチモーダルモデルでも失敗する多様なシナリオに対する定性的評価を実施する。
大規模言語モデル(LLM)は、数学やプログラミングなどの個別のステップバイステップ推論タスクにおいて顕著な能力を示していますが、解決策が相互依存する長期的で構造化された一連の行動を必要とする長期的計画(long-horizon planning)における熟練度はまだ十分に探求されていません。既存のベンチマークは、通常、抽象的または低次元のアルゴリズムタスクを通じてLLMを評価しており、現実的な計画環境の複雑さを捉えることができていません。本研究では、複雑なRPG風の仮想世界内での長期的計画と構造化推論を評価するために特別に設計された新しいベンチマーク「HeroBench」を紹介します。HeroBenchは、幅広い難易度をカバーする厳密に構築されたタスクデータセット、エージェントの計画を実行および検証するためのシミュレーション環境、モデルのパフォーマンスを評価するための詳細な分析ツールを提供します。タスクは、戦略的な計画を立て、効率的にリソースを収集し、必要なスキルを習得し、装備を製作し、敵を倒すことをモデルに要求し、実践的なシナリオの階層的な依存関係と制約を反映しています。GPT-5ファミリーを含むオープンソースおよびプロプライエタリモデルにわたる25の最先端LLMの広範な評価により、従来の推論ベンチマークではほとんど見られない大幅なパフォーマンスの差異が明らかになりました。詳細なエラー分析により、現在のモデルが堅牢な高レベルの計画を生成し、構造化された行動を確実に実行する能力における特定の弱点がさらに明らかになりました。したがって、HeroBenchはLLM推論の評価を大幅に進めるだけでなく、仮想環境における高度で自律的な計画の将来の研究のための柔軟でスケーラブルな基盤を提供します。
近年のインタラクティブビデオ生成の進展により、拡散モデルが複雑な物理的ダイナミクスやインタラクティブな挙動を捉えることで、世界モデルとしての潜在能力を示してきた。しかし、既存のインタラクティブ世界モデルは双方向の注意機構と長い推論ステップに依存しており、リアルタイム性能が大幅に制限されている。その結果、過去の文脈と現在のアクションに基づいて即座に結果を更新する必要がある現実世界のダイナミクスをシミュレートすることが困難である。この問題に対処するため、我々はMatrix-Game 2.0を提案する。これは、数ステップの自己回帰型拡散を用いてリアルタイムで長いビデオを生成するインタラクティブ世界モデルである。我々のフレームワークは以下の3つの主要なコンポーネントで構成されている:(1) Unreal EngineおよびGTA5環境におけるスケーラブルなデータ生産パイプライン。これにより、多様なインタラクションアノテーションを伴う大量のビデオデータ(約1200時間)を効率的に生成する。(2) フレームレベルのマウスおよびキーボード入力をインタラクティブ条件として可能にするアクション注入モジュール。(3) リアルタイムおよびストリーミングビデオ生成のための因果的アーキテクチャに基づく数ステップ蒸留。Matrix-Game 2.0は、多様なシーンにおいて25 FPSの超高速で高品質な分単位のビデオを生成することができる。我々は、インタラクティブ世界モデリングの研究を推進するため、モデルの重みとコードベースをオープンソースとして公開する。
我々は、人間の聴覚処理階層に着想を得た二段階フレームワークを通じて音声を符号化する生物学的にインスパイアされたモデル「AuriStream」を提案する。第一段階では、生の音声を人間の蝸牛に基づく時間-周波数表現に変換し、そこから離散的な蝸牛トークンを抽出する。第二段階では、蝸牛トークンに対して自己回帰型シーケンスモデルを適用する。AuriStreamは、意味のある音素および単語表現を学習し、最先端の語彙的意味論を獲得する。AuriStreamは、多様な下流SUPERB音声タスクにおいて競争力のある性能を示す。AuriStreamの強力な表現能力を補完するものとして、このモデルは音声の継続部分を生成し、それをスペクトログラム空間で可視化し、音声にデコードすることが可能であり、モデルの予測に関する洞察を提供する。要約すると、我々は、より人間らしいモデルの開発を促進し、幅広い音声ベースのタスクを効率的に処理するための音声表現学習の二段階フレームワークを提示する。
ビデオリライティングは、背景を置き換えながら前景の照明を調和のとれた形で調整するという、困難ながらも価値のあるタスクです。翻訳においては、アルベドなどの前景の元の特性を保持し、時間的なフレーム間で一貫したリライティングを伝播させることが重要です。本論文では、大規模なビデオ生成モデルを基に開発されたエンドツーエンドのビデオリライティングフレームワークであるLumenを提案します。Lumenは、照明と背景の制御を指示するための柔軟なテキスト記述を受け取ります。様々な照明条件下で同じ前景を持つ高品質なペアビデオの不足を考慮し、現実的および合成的なビデオを混合した大規模なデータセットを構築しました。合成的な領域では、コミュニティ内の豊富な3Dアセットを活用し、先進的な3Dレンダリングエンジンを使用して多様な環境でのビデオペアをキュレーションしました。現実的な領域では、HDRベースの照明シミュレーションを適応させ、野外でのペアビデオの不足を補完しました。前述のデータセットを活用し、合成的ビデオの物理的一貫性と現実的ビデオの一般化された領域分布という各領域の強みを効果的に引き出すための共同トレーニングカリキュラムを設計しました。これを実現するため、モデルに領域認識アダプターを注入し、リライティングと領域外観分布の学習を分離しました。前景の保存とビデオの一貫性評価の観点から、Lumenと既存の手法を評価するための包括的なベンチマークを構築しました。実験結果は、Lumenが入力ビデオを一貫した照明と厳密な前景保存を伴う映画的なリライティングビデオに効果的に編集することを示しています。プロジェクトページ: https://lumen-relight.github.io/
本論文では、事前情報を統合することでCUT3Rモデルを強化する、ガイド付き3Dシーン再構成のための新規フィードフォワード手法G-CUT3Rを紹介する。既存のフィードフォワード手法が入力画像のみに依存するのに対し、我々の手法は、現実世界のシナリオで一般的に利用可能な深度、カメラキャリブレーション、カメラ位置などの補助データを活用する。CUT3Rに軽量な修正を加え、各モダリティ専用のエンコーダを導入して特徴を抽出し、ゼロ畳み込みを介してRGB画像トークンと融合する。この柔軟な設計により、推論時に任意の組み合わせの事前情報をシームレスに統合できる。3D再構成やその他のマルチビュータスクを含む複数のベンチマークで評価を行った結果、本手法は利用可能な事前情報を効果的に活用しつつ、様々な入力モダリティとの互換性を維持する能力を示し、大幅な性能向上を実証した。
我々は、複雑な高自由度インタラクションのアクションからビデオ生成において、ドメイン間で転移可能な視覚的ダイナミクスを維持しつつ、統一的なアクション表現である視覚的アクションプロンプトを提案する。アクション駆動型ビデオ生成は、精度と汎用性のトレードオフに直面している:テキスト、プリミティブアクション、または粗いマスクを使用する既存の手法は汎用性を提供するが精度に欠け、一方でエージェント中心のアクション信号は精度を提供するがドメイン間の転移性を犠牲にする。アクションの精度とダイナミクスの転移性をバランスさせるため、我々はアクションを正確な視覚的プロンプトとして「レンダリング」し、幾何学的精度とドメイン間適応性を維持するドメイン非依存の表現として提案する。具体的には、汎用性とアクセシビリティの観点から視覚的スケルトンを選択する。我々は、人間と物体のインタラクション(HOI)と器用なロボット操作という2つのインタラクション豊富なデータソースからスケルトンを構築する堅牢なパイプラインを提案し、アクション駆動型生成モデルのドメイン間学習を可能にする。事前学習済みのビデオ生成モデルに視覚的スケルトンを軽微なファインチューニングで統合することで、複雑なインタラクションの正確なアクション制御を可能にしつつ、ドメイン間ダイナミクスの学習を維持する。EgoVid、RT-1、DROIDでの実験により、提案手法の有効性を実証する。プロジェクトページ:https://zju3dv.github.io/VAP/。
従来のマルチモーダル学習アプローチでは、視覚と言語のモダリティを橋渡しするために高コストなアライメント事前学習が必要であり、通常は視覚的特徴を離散的なテキストトークン空間に投影します。本研究では、このパラダイムの根底にある2つの基本的な前提に挑戦し、アライメント事前学習を完全に排除し、従来のマッピング方向を逆転させる新しいアプローチであるInverse-LLaVAを提案します。視覚的特徴をテキスト空間に投影する代わりに、本手法ではテキスト埋め込みを連続的な視覚表現空間にマッピングし、トランスフォーマーの中間層内で融合を行います。アテンションメカニズムにおける選択的な加算コンポーネントを通じて、大規模な画像-テキストアライメントデータセットを必要とせずに、視覚的およびテキスト表現の動的統合を可能にします。9つのマルチモーダルベンチマークにわたる包括的な実験により、微妙なパフォーマンスのトレードオフが示されました:Inverse-LLaVAは、推論集約型および認知タスク(MM-VET: +0.2%、VizWiz: +1.8%、ScienceQA: +0.2%、認知推論: +27.2%)で顕著な改善を達成し、記憶された視覚-テキスト関連付けを必要とする知覚タスク(有名人認識: -49.5%、OCR: -21.3%)では予想される低下を示しました。これらの結果は、特に複雑な推論タスクにおいて、効果的なマルチモーダル学習にアライメント事前学習が不要であることを初めて実証するものです。本研究は、計算要件を45%削減し、モダリティ融合に関する従来の知見に挑戦し、モダリティ固有の特性を保持する効率的なマルチモーダルアーキテクチャの新たな研究方向を開拓する新パラダイムの実現可能性を確立します。コードおよび追加リソースを含むプロジェクトウェブサイトはhttps://inverse-llava.github.ioで公開されています。
検証可能な報酬からの強化学習(RLVR)は、大規模言語モデル(LLMs)を強化するための強力なパラダイムとして登場し、OpenAIのo-seriesの成功に代表されています。RLVRでは、報酬は検証可能な信号から導出されます。例えば、コード生成におけるユニットテストの合格や、数学的推論における正解との一致などです。このアプローチは効果的ですが、自動的にチェック可能な結果を持つ領域にRLVRを限定する傾向があります。この制約を克服するため、我々はRLVRパラダイムをオープンエンドなタスクに拡張し、ルーブリックベースの報酬を統合します。ここでは、慎重に設計されたルーブリックが構造化されたモデル解釈可能な基準として機能し、主観的な出力の自動採点を行います。我々は、これまでで最大のルーブリック報酬システムを構築し、人間、LLMs、または人間とLLMの協力による10,000以上のルーブリックを収集しました。ルーブリックベースのRLの実装は困難ですが、我々は明確なフレームワークを用いてこれらの課題に取り組み、オープンソースのQwen-30B-A3Bモデルを提示します。このモデルは以下のような顕著な成果を示しています:1) 5,000以上のサンプルだけで、我々のシステムはオープンエンドなベンチマーク(特に人文科学)で+5.2%の改善を示し、671BのDeepSeek-V3モデルを+2.4%上回りながら、一般的な能力と推論能力を維持します。2) 我々の方法は、ルーブリックをアンカーとして使用し、「AIらしい」トーンを軽減し、より人間らしい表現豊かな応答を生成するための細かいスタイル制御を提供します。我々は、ルーブリックの構築、データ選択、トレーニングにおける重要な教訓を共有し、制限事項と今後のリリースについて議論します。
機械学習の忘却(Machine Unlearning: MU)は、訓練済みモデルから特定の訓練データを削除し、削除されたデータがモデルの挙動に影響を与えないようにすることを目的としています。これは、データプライバシー法における「忘れられる権利」の義務を果たすためです。しかし、この急速に発展している分野の研究者は、特にMUの3つの基本原則である精度、効率性、プライバシーの観点から、異なるMU手法の挙動を分析し理解する上で課題に直面しています。その結果、研究者は集計された指標やアドホックな評価に頼ることが多く、手法間のトレードオフを正確に評価することが困難になっています。このギャップを埋めるため、我々はMU手法の体系的評価を容易にするための視覚的分析システム「Unlearning Comparator」を導入します。我々のシステムは、評価プロセスにおける2つの重要なタスクをサポートします:モデル比較と攻撃シミュレーションです。まず、ユーザーは特定の手法によって生成されたモデルと再訓練されたベースラインモデルなど、2つのモデルの挙動をクラスレベル、インスタンスレベル、レイヤーレベルで比較し、忘却後の変更をより深く理解することができます。次に、我々のシステムはメンバーシップ推論攻撃(Membership Inference Attacks: MIAs)をシミュレートし、攻撃者が特定のデータサンプルが元の訓練セットに含まれていたかどうかを判断しようとする際に、手法のプライバシーを評価します。我々は、主要なMU手法を視覚的に分析するケーススタディを通じてシステムを評価し、ユーザーがモデルの挙動を理解するだけでなく、MU手法の改善に役立つ洞察を得るのに役立つことを示します。
大規模推論モデル(LRMs)は、既存のベンチマークにおいて、明確に定義された問題に対して顕著な問題解決能力を示してきた。しかし、そのような評価設定は重大なギャップを構成している。なぜなら、真の知能エージェントは、単に問題を解決する(数学クイズソルバーとしての役割)だけでなく、問題に十分な情報が欠けている場合に情報を要求する能力も持つべきであり、ユーザーのリクエストに対して積極的に対応できる必要があるからである。このギャップを埋めるために、我々は多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。このデータセットに基づいて、LRMsの体系的評価を行った結果、それらが積極的に情報を要求する能力に欠けていることが明らかになった。さらに、LRMsの過剰思考や幻覚に関連する行動を明らかにし、そのような能力を学習するための教師ありファインチューニングの可能性と課題を強調する。我々は、単に問題を解決するだけでなく、真の知能を持つLRMsを開発するための新たな洞察を提供することを目指している。
マルチモーダル大規模言語モデル(MLLM)が、0度、90度、180度、270度に回転した入力画像の向きをどの程度正確に識別できるかを調査します。このタスクは、画像の向きに関わらず、回転の手がかりを検出し、空間的関係を文脈化するための堅牢な視覚的推論能力を必要とします。これらの能力を評価するために、RotBenchという350枚の手動で選別されたベンチマークを導入しました。このベンチマークは、ライフスタイル、ポートレート、風景画像で構成されています。このタスクが比較的単純であるにもかかわらず、GPT-5、o3、Gemini-2.5-Proなど、いくつかの最先端のオープンおよびプロプライエタリなMLLMが、入力画像の回転を確実に識別できないことを示します。モデルにキャプション、深度マップなどの補助情報を提供したり、連鎖的思考(chain-of-thought)プロンプトを使用したりしても、わずかで一貫性のない改善しか得られません。結果は、ほとんどのモデルが正立(0度)画像を確実に識別できる一方、特定のモデルが逆さま(180度)画像を識別できることを示しています。しかし、90度と270度を確実に区別できるモデルはありません。異なる向きに回転した画像を同時に表示することで、推論モデルのパフォーマンスが中程度向上し、投票を使用した修正セットアップにより、弱いモデルのパフォーマンスが向上します。さらに、微調整(fine-tuning)を行っても、90度と270度の回転を区別する能力は向上しないものの、180度画像の識別は大幅に改善されることを示します。これらの結果を総合すると、MLLMの空間的推論能力と人間の知覚との間に、回転識別において大きなギャップがあることが明らかになります。