翻訳付きの日次キュレーションされたAI研究論文
科学AIの進歩にもかかわらず、科学的汎用知能(SGI)―すなわち、科学的領域を横断して自律的に構想し、調査し、推論する能力―に対する首尾一貫した枠組みは依然として欠如している。本論文では、実践的探究モデル(PIM:熟考、構想、実行、知覚)に基づく操作的なSGIの定義を提示し、それを4つの科学者に沿ったタスク(深層調査、アイデア生成、ドライ/ウェット実験、実験的推論)を通じて具体化する。SGI-Benchは、『Science』誌の「125の大きな疑問」に着想を得た、専門家によって精選された1,000以上の学際的サンプルから構成され、最先端の大規模言語モデル(LLM)の体系的評価を可能にする。結果は以下の課題を明らかにした:深層調査ではステップレベルの整合性があるにもかかわらず完全一致率が低い(10-20%)、アイデアは実現可能性と詳細性に欠ける、ドライ実験ではコード実行可能性は高いが実行結果の正確性が低い、ウェット実験プロトコルでは一連の手順の忠実度が低い、そしてマルチモーダル比較推論における持続的な課題である。さらに、推論時に検索強化型の新規性報酬を最適化するテスト時強化学習(TTRL)を導入し、参照解答を必要とせずに仮説の新規性を高める。以上のように、我々のPIMに基づく定義、ワークフロー中心のベンチマーク、実証的知見は、科学的発見に真に参加するAIシステムの基盤を確立するものである。
ロボットの一般化能力は、物理的知能に依存する。これは、自己中心的な知覚と行動のもとで、状態変化、接触豊富な相互作用、長期的な計画推論を行う能力である。しかし、ほとんどのVLMは主に三人称視点データで学習されており、ヒューマノイドロボットにとって根本的な視点の不一致を生み出している。ロボットの自己中心視点データ収集は、コストが高く多様性に限界があるため、大規模化は非現実的である。一方、大規模な人間の自己中心視点ビデオは、豊富な相互作用コンテキストと因果構造を自然に捉え、スケーラブルな代替手段を提供する。重要な課題は、生の自己中心視点ビデオを構造化され信頼性の高い具身化訓練の教師信号に変換することである。そこで我々は、一人称視点ビデオを、証拠の接地と時間的一貫性を強化した、マルチレベルでスキーマ駆動のVQA教師信号に変換するEgocentric2Embodiment変換パイプラインを提案する。これにより、大規模なEgocentric2Embodimentデータセット(E2E-3M)の構築を可能にする。E2E-3Mデータセットで学習することにより、自己中心視点認識を備えた具身化頭脳「PhysBrain」が得られる。PhysBrainは、特にEgoThinkにおける計画立案において、自己中心的理解が大幅に向上する。これは、よりサンプル効率の良いVLAファインチューニングと、より高いSimplerEnv成功率(53.9%)を可能にする自己中心視点認識を備えた初期化を提供し、人間の自己中心視点監督から下流のロボット制御への効果的な転移を実証する。
大規模推論モデル(LRM)は優れた性能を示す一方で、その推論挙動は直感に反する場合が多く、結果として最適な推論能力が発揮されないことがある。本論文では、理想的な推論挙動を理論的に形式化するため、LRMに内在する推論パターンを特徴づける統一フレームワーク「推論の法則(Laws of Reasoning: LoRe)」を提案する。まず、推論に要する計算量が問題の複雑度に比例して増加すべきという仮説に基づき「計算量の法則」を提唱する。さらに計算量に加えて、補足的な「精度の法則」をLoReに拡張する。問題の複雑度の実践的な定量化が困難であるため、我々はこれらの仮説を、法則が持つ「単調性」と「構成性」という二つの特性に着目して検証する。そこで、大規模推論モデルのこれら二つの扱いやすい特性を体系的に測定するベンチマーク「LoRe-Bench」を導入する。評価の結果、ほとんどの推論モデルは適切な単調性を示すものの、構成性に欠けることが明らかになった。この課題に対処するため、計算量の法則の構成性を強化する効果的なファインチューニング手法を開発する。大規模な実証研究により、計算量の法則への適合度を高めることが、複数のベンチマークにおける推論性能の持続的向上をもたらし、さらに特性間および法則間の相乗効果を明らかにすることを実証する。プロジェクトページ:https://lore-project.github.io/
大規模言語モデルは近年、厳密な数学的証明を生成する能力において著しい進歩を遂げている。一方、形式言語(Leanなど)における定理証明へのLLM応用は依然として困難であり、特に学部レベル以上の課題に対処する際には計算コストが高い。本研究では、大規模エージェント強化学習により訓練された形式定理証明モデルSeed-Prover 1.5と、効率的なテスト時スケーリング(TTS)ワークフローを提案する。Leanなどのツールとの大規模な相互作用を通じて、モデルはRLプロセス中に継続的に経験を蓄積し、形式定理証明の能力と効率を大幅に向上させる。さらに、自然言語証明における最近の進展を活用したTTSワークフローは、自然言語と形式言語の間のギャップを効率的に橋渡しする。従来の最先端手法と比較して、Seed-Prover 1.5はより少ない計算予算で優れた性能を発揮し、PutnamBench(学部レベル)の88%、Fate-H(大学院レベル)の80%、Fate-X(博士レベル)の33%の問題を解決した。特筆すべきは、本システムを用いてPutnam 2025の12問中11問を9時間以内に解決した点である。高品質な形式的フィードバックに駆動された経験からの学習のスケーリングが、形式的数学推論の将来に大きな可能性をもたらすことが示唆される。
現代的な潜在拡散モデル(LDM)は、通常、画素レベルの再構成に最適化された低次元のVAE潜在空間で動作する。視覚生成と理解を統合するため、表現エンコーダから得られる高次元特徴を生成潜在変数として採用する新たな潮流が生まれつつある。しかし我々は、このパラダイムに二つの根本的課題を実証的に見出した:(1)識別的特徴空間はコンパクトな正則化を欠いており、拡散モデルが多様体から外れた潜在変数を生成し、不正確なオブジェクト構造を引き起こす傾向がある;(2)エンコーダの本質的に弱い画素レベル再構成能力が、生成器の精密な幾何学構造とテクスチャの学習を妨げる。本論文では、理解志向のエンコーダ特徴を生成タスクに適応させる体系的なフレームワークを提案する。意味的・画素的重構成目標を導入して潜在空間を正則化し、意味情報と微細な詳細の両方を高密度に圧縮した表現(16×16空間ダウンサンプリング・96チャネル)を実現する。この設計により、潜在空間は意味的に豊かでありながら最先端の画像再構成を達成し、正確な生成に十分なコンパクト性を維持する。この表現を活用し、テキスト画像生成(T2I)と画像編集を統合したモデルを設計する。各種特徴空間との比較評価により、本手法が最先端の再構成性能、高速な収束、T2Iおよび編集タスクにおける大幅な性能向上を達成することを実証し、表現エンコーダが頑健な生成コンポーネントへ効果的に転用可能であることを立証する。
マルチモーダルLLM(MLLM)の進歩にもかかわらず、3D構造や時間的ダイナミクスに対する推論能力は、弱い4D知覚と時間的理解によって制限されたままである。既存の3Dおよび4D映像質問応答(VQA)ベンチマークも静的なシーンに重点を置き、領域レベルでのプロンプティングを欠いている。我々はこれらの問題に対処するため、以下を導入する:(a) 時間的知覚を強化した映像入力から4D表現を捕捉するように設計された専門MLLMである4D-RGPT、(b) 凍結された専門家モデルから4D-RGPTへ4D表現を転送し、包括的な4D知覚を実現する訓練フレームワークであるPerceptual 4D Distillation (P4D)、(c) 領域レベルでのプロンプティングを備えた深度認識可能な動的シーンのベンチマークであり、自動化と人間による検証を組み合わせたパイプラインで構築されたR4D-Bench。我々の4D-RGPTは、既存の4D VQAベンチマークと提案するR4D-Benchベンチマークの両方で顕著な改善を達成した。
LLM-as-a-Judgeは、評価手法として広く採用され、モデル訓練における教師あり報酬として機能してきた。しかし、既存のLLM-as-a-Judgeのベンチマークは主に人手で注釈された正解データに依存しており、人間のバイアスが導入されることで信頼性評価を損ない、拡張性に制約を課している。これらの限界を克服するため、我々は人間の注釈を一切必要とせずにLLM評価者の質を評価する新しい評価スイート、Sageを提案する。合理的選択理論の公理に着想を得て、SageはLLM-as-a-Judgeを測定するための二つの新しい視点を導入する:局所的自己一貫性(ペアワイズ選好の安定性)と大域論理的一貫性(選好全体にわたる推移性)である。構造化されたベンチマーク問題と実世界のユーザークエリを組み合わせることで、650問からなるデータセットを構築した。実験により、我々の指標の安定性と、LLMBarやRewardBench2のような教師ありベンチマークとの高い相関が実証され、SageがLLM-as-a-Judgeの頑健性と正確性を評価する信頼できるスイートであることが確認された。Sageに基づく分析により、現在の最先端LLMは、採点設定とペアワイズ設定の両方において評価者として機能する際に重大な信頼性問題を示すことが明らかになった。最高性能モデルであるGemini-2.5-ProとGPT-5でさえ、困難なケースの約4分の1で一貫した選好を維持できない。我々はこの原因を状況依存的選好(situational preference)という新現象に帰し、明示的な評価基準やルーブリックがモデルの回答ペア間での一貫した評価を助ける理由を説明する。さらなる分析により、ファインチューニングされたLLM-as-a-Judgeは性能向上の実現可能な方法であり、パネル型評価者や深い推論が評価の一貫性を高めうることが示された。また、人間の判断にも重大な不一致が見られ、人間の注釈が信頼できるゴールドスタンダードではない可能性が示唆された。
本論文では、マルチビューカメラ画像から実写レベルの自動車用レーダーポイントクラウドを合成する拡散モデル「RadarGen」を提案する。RadarGenは、レーダー計測値を鳥瞰図形式で表現し、空間構造に加えてレーダー反射断面積(RCS)およびドップラー属性を符号化することで、効率的な画像潜在拡散をレーダードメインに適応させる。軽量な復元ステップにより、生成されたマップから点群を再構築する。生成と視覚シーンとの整合性を高めるため、事前学習済み基盤モデルから抽出したBEV整合の深度、意味情報、動きの手がかりを組み込み、確率的生成プロセスを物理的に妥当なレーダーパターンへ導く。画像を条件付けることで、本手法は原理的に既存の視覚データセットやシミュレーションフレームワークとの幅広い互換性を有し、マルチモーダル生成シミュレーションへのスケーラブルな方向性を提供する。大規模運転データによる評価では、RadarGenが特徴的なレーダー計測分布を捉え、実データで学習した知覚モデルとの差を縮めることを示し、これはセンシングモダリティを横断する統合生成シミュレーションへの一歩を記すものである。
視覚的グラウンディング(自然言語記述から物体を位置特定する技術)は、言語理解と視覚理解を結ぶ重要な架け橋である。マルチモーダル大規模言語モデル(MLLM)が既存のベンチマークで高いスコアを達成している一方で、根本的な疑問が残る:MLLMは真に人間のように言語を視覚に結びつけられるのか、それとも単純化されたデータセットでのパターンマッチングに過ぎないのか?現在のベンチマークは、人間が曖昧な参照を容易に処理し、グラウンディングが不可能な場合を認識する現実世界の複雑さを捉えられていない。MLLMの真の能力を厳密に評価するため、我々はGroundingMEを提案する。このベンチマークは4つの重要次元でモデルに体系的に挑戦する:(1)識別性(類似物体の区別)、(2)空間性(複雑な関係記述の理解)、(3)限定性(遮蔽や微小物体の処理)、(4)拒絶性(グラウンディング不能な問い合わせの認識)。自動生成と人手検証を組み合わせた慎重な選定により、現実世界の複雑性を反映した1,005の挑戦的事例を構築した。25の最先端MLLMを評価した結果、深刻な能力ギャップが明らかになった:最高性能モデルでも精度45.1%に留まり、拒絶タスクでは大多数のモデルが0%、物体が存在しない場合でも反射的に虚構の物体を生成するなど、実用化における重大な安全性課題が浮き彫りとなった。改善策として2つのアプローチを検証:(1)テスト時スケーリング(思考軌道から最適応答を選択)により複雑なグラウンディングタスクで最大2.9%改善、(2)データ混合学習(グラウンディング不能な問い合わせを認識させる)により拒絶精度を0%から27.9%に向上。GroundingMEは、MLLMの現状限界を診断するツールであると同時に、人間レベルの視覚的グラウンディング実現への道標となる。
言語モデルのアーキテクチャ的差異を理解することは困難であり、特に学術規模の事前学習(例:13億パラメータ、1000億トークン)では、結果がノイズやランダム性に支配されがちである。この課題を克服するため、我々は核心的なモデル能力を分離・評価する制御された合成的事前学習タスクを導入する。この枠組み内で、我々は「カノン層」を発見した。これは音楽用語の「カノン」に由来する軽量なアーキテクチャ構成要素であり、隣接トークン間の水平的情報フローを促進する。カノン層は近傍トークン表現の重み付き和を計算し、Transformer、線形アテンション、状態空間モデル、あるいは任意のシーケンスアーキテクチャにシームレスに統合可能である。 我々は12の主要な結果を示す。これには、カノン層が推論深度(例:2倍向上)、推論広度、知識操作などを如何に強化するかが含まれる。これらは、NoPEのような弱いアーキテクチャをRoPEに匹敵する水準まで引き上げ、線形アテンションをMamba2/GDNのようなSOTA線形モデルと競合するまで強化する——これは合成的タスクと実世界の学術規模事前学習の両方で検証済みである。この合成的実験場は、学術規模では曖昧になりがちな核心的モデル能力を分離する、経済的かつ原理的な道筋を提供する。無限の高品質データを備えれば、将来のアーキテクチャが、データキュレーションの改善やRLベースの学習後処理など、学習パイプラインの進化に伴い如何に振る舞うかを「予測」することさえ可能であり、より深い推論と階層的推論を解き放つ可能性を秘めている。
Vision-Language-Action (VLA) モデルは、機械が指示を理解し物理世界と対話することを可能にし、ロボティクスにおける革命を推進している。この分野は新たなモデルとデータセットが爆発的に増加しており、その進歩に追従することは非常に刺激的であると同時に困難でもある。本サーベイは、VLAの研究状況を明確かつ構造化された形で整理するガイドを提供する。我々は研究者の自然な学習経路に沿うように設計した。すなわち、あらゆるVLAモデルの基本構成要素から始め、主要なマイルストーンを通して歴史を辿り、最近の研究フロンティアを定義する中核的な課題に深く立ち入る。我々の主な貢献は、(1) 表現、(2) 実行、(3) 汎化、(4) 安全性、(5) データセットと評価、という5つの最大の課題に対する詳細な分析である。この構造は、汎用エージェントの開発ロードマップを反映している。すなわち、基本的な知覚-行動ループを確立し、多様な身体性と環境にわたって能力を拡張し、最終的には信頼できる展開を保証する——これら全てが不可欠なデータ基盤によって支えられる。それぞれについて、既存のアプローチを概観し、将来の機会を強調する。本論文は、新規参入者にとっての基礎的ガイドであると同時に、経験豊富な研究者にとっての戦略的ロードマップとして位置づけ、具身化知能における学習の加速と新たなアイデアの創出という二重の目的を目指す。本サーベイの最新版は、継続的に更新され、プロジェクトページ (https://suyuz1.github.io/Survery/) で公開されている。
強化学習(RL)は、実世界環境で対話型LLMエージェントを訓練するための自然なアプローチとして再注目されている。しかし、広く使用されているGroup Relative Policy Optimization(GRPO)アルゴリズムを多ターンタスクに直接適用すると、特に長期的な推論を必要とするシナリオにおいて顕著な限界が生じる。これらの課題に対処するため、我々は、より安定かつ効果的なアドバンテージ推定戦略、特に多ターン設定向けの戦略を調査する。まず、代替案としてProximal Policy Optimization(PPO)を検討し、GRPOよりもロバスト性が高いことを確認した。多ターンシナリオにおけるPPOをさらに強化するため、一般的に使用されるトークンレベルのMDP定式化とは対照的に、ターンレベルのMDP定式化で動作する変種であるturn-PPOを導入する。WebShopおよびSokobanデータセットを用いた実験結果は、長い推論コンポーネントの有無にかかわらず、turn-PPOの有効性を実証している。
ビデオ大規模言語モデル(Video-LLM)は急速に進歩しているが、現在のビデオ質問応答(VideoQA)ベンチマークでは、単一の顕著な手がかりから質問に答えられる場合が多く、時間的に分散した複数の視覚的証拠を統合する必要がある推論能力の評価が不十分である。本論文では、時間を跨いだ複数証拠の統合を評価するために特別に設計されたVideoQAベンチマーク、HERBenchを提案する。各質問には、異なるビデオセグメントに跨る少なくとも3つの重複しない証拠手がかりの統合が要求されるため、言語事前情報や単一のスナップショットだけでは解答できない。HERBenchは、同一性の結合、複数実体間の関係、時間的順序、同時発生の検証、計数といった12の合成的タスクに分類された26,000の五者択一問題で構成される。証拠要求を測定可能とするため、正答するためにモデルが統合しなければならない最小フレーム数を示す最小必要フレームセット(MRFS)を導入し、HERBenchが既存データセット(平均MRFS 2.6-4.2)よりも大幅に高い要求(平均MRFS 5.5)を課すことを示す。13の最先端Video-LLMをHERBenchで評価した結果、広範な失敗が明らかとなった:31-42%の正解率は、20%のランダム推測ベースラインをわずかに上回るのみである。この失敗要因を2つの重大なボトルネックに分解する:(1) フレーム選択器が重要な証拠を見落とす検索不足、および (2) 必要な証拠が全て提供されている場合でも情報を統合できない融合不足である。時間を跨ぐ証拠の統合を回避不能かつ定量化可能にすることで、HERBenchは頑健で合成的なビデオ理解を推進するための原理的な目標を確立する。
ワールドモデルの近年の進歩は、対話的環境シミュレーションを大幅に発展させている。既存手法は主に二つのカテゴリに分類される:(1) 能動的エージェントを含まない3D環境を構築する静的ワールド生成モデルと、(2) 単一のエンティティが制御可能で、それ以外の環境は制御不能という限定的な動作を可能にする制御可能エンティティモデルである。本研究では、AniXを提案する。本手法は、静的ワールド生成の写実性と構造的基盤を活用しつつ、制御可能エンティティモデルを拡張し、オープンエンドな行動を実行可能なユーザ指定のキャラクターをサポートする。ユーザは3DGSシーンとキャラクターを提供し、自然言語を通じてキャラクターを指示することで、基本的な移動から物体中心の相互作用まで多様な行動を実行させながら、環境を自由に探索させることができる。AniXは、提供されたシーンとキャラクターの視覚的忠実性を保ちながら、時間的に一貫性のあるビデオクリップを合成する。これは条件付き自己回帰ビデオ生成問題として定式化される。事前学習済みビデオ生成モデルを基盤とし、我々の学習戦略は、行動とキャラクターにわたる汎化性を維持しつつ、動作ダイナミクスを大幅に強化する。評価は、視覚的品質、キャラクター一貫性、行動制御性、長期的コヒーレンスなど、多岐にわたる側面を網羅している。
我々は、10億パラメータ及び70億パラメータ規模において競争力を持つ、初の完全オープンなバイトレベル言語モデルファミリー「Bolmo」を発表する。従来のバイトレベルLM研究が主にスクラッチトレーニングに焦点を当ててきたのに対し、我々は既存のサブワードレベルLMをバイト化することでBolmoを訓練する。バイト化により、文字理解の不十分さや固定サブワード語彙による効率性の制約といったサブワードトークン化の限界を克服しつつ、主要なサブワードレベルLMと同等の性能を発揮する。Bolmoは特にバイト化のために設計されている:我々のアーキテクチャは、従来のバイトレベルアーキテクチャとサブワードレベルLMの間の表現力のミスマッチを解決し、Bolmoと元のサブワードモデル間で効果的な厳密な蒸留目標を採用することを可能にする。これにより、典型的な事前学習に必要なトークンバジェットの1%未満の投入で、サブワードレベルLMをバイトレベルLMに変換できる。Bolmoは、同規模の従来の全てのバイトレベルLMを大幅に上回り、文字理解タスクおよび場合によってはコーディングタスクにおいて元のサブワードレベルLMを上回る性能を示し、他のタスクでも元のLMの性能に迫る。さらに、高いトークン圧縮率で訓練することでサブワードレベルLMと競合する推論速度を達成可能であること、および元のサブワードレベルLMを巡る既存のエコシステムを活用することで、安価かつ効果的に事後訓練が可能であることを示す。我々の成果により、バイトレベルLMは広範なユースケースにおいてサブワードレベルLMと競合する実用的な選択肢となった。
SWE-benchなどのベンチマークは、リポジトリレベルのソフトウェアエンジニアリングタスクにおける大規模言語モデル(LLM)の評価を標準化してきました。しかし、これらの取り組みは、手動によるキュレーション、静的なデータセット、Pythonベースのバグ修正への偏重といった制限に留まっています。本稿では、オープンソースのGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動化フレームワーク、SWE-Bench++を提案します。合成的手法とは異なり、本パイプラインは実際のプルリクエストを収集し、11のプログラミング言語にわたるバグ修正と機能追加の両方を網羅します。SWE-Bench++は、GitHubのプルリクエスト(PR)を、プログラムによる収集、環境合成、テストオラクル抽出、品質保証という4つのステージを経て、再現可能かつ実行ベースのタスクへと変換します。最後のヒント誘導軌道合成ステップでは、強力なモデルが失敗したインスタンスを学習用の軌道に変換します。我々の最初のベンチマークは、11の言語にわたる3,971のリポジトリから得られた11,133のインスタンスで構成されています。このベンチマークの1,782インスタンスからなるサブセットにおいて、現在最も強力なモデルの性能は以下の通りです:claude-sonnet-4.5が36.20% pass@10、gpt-5-2025-08-07が34.57%、gemini/gemini-2.5-proが24.92%、gpt-4oが16.89%を達成しました。さらに、SWE-Bench++のインスタンスでファインチューニングを行うことで、SWE-bench Multilingualベンチマークにおいて測定可能な改善が得られることを示し、データセットの有用性を実証します。SWE-Bench++は、リポジトリレベルのコード生成を評価し改善するための、スケーラブルで多言語対応のベンチマークを提供します。
強化学習(RL)は大規模言語モデル(LLM)エージェントを環境と対話させ、複数ターンにわたる長期的タスクを解決するように訓練することを可能にしてきた。しかし、RLで訓練されたエージェントは、積極的な探索を必要とするタスクで苦戦し、試行錯誤の経験から効率的に適応することができない場合が多い。本論文では、LLMエージェントがテスト時に環境からのフィードバックを積極的に探索し学習することを可能にする、汎用メタRLフレームワーク「LaMer」を提案する。LaMerは二つの主要コンポーネントから構成される:(i)探索と長期的報酬の最適化を促進するためのエピソード間トレーニングフレームワーク、および(ii)内省的文脈内方策適応。これにより、エージェントは勾配更新なしでタスクのフィードバック信号から自身の方策を適応させることができる。様々な環境での実験により、LaMerがRLベースライン手法を大幅に上回る性能向上をもたらすことが示され、Sokoban、MineSweeper、Webshopにおいてそれぞれ11%、14%、19%の性能向上が確認された。さらにLaMerは、RLで訓練されたエージェントと比較して、より困難なタスクや未経験のタスクへの一般化性能も高めることを実証した。総合的に、我々の結果は、メタRLが言語エージェントに探索を誘導する原理的なアプローチを提供し、学習された探索戦略を通じて新規環境へのよりロバストな適応を可能にすることを示している。
Visual Autoregressive (VAR)モデリングは、従来の自己回帰(AR)モデルにおける次トークン予測のパラダイムから脱却し、次スケール予測により高品質な画像生成を実現する。しかし、VARパラダイムは、スケールステップが大きくなるにつれて計算複雑性と実行時間が急激に増加するという課題を抱えている。既存の高速化手法は大規模ステップにおける実行時間を短縮するが、手動によるステップ選択に依存し、生成プロセスにおける各ステージの重要度の違いを見過ごしている。この課題に対処するため、本論文ではVARモデルのための体系的研究およびステージを考慮した高速化フレームワークであるStageVARを提案する。我々の分析によれば、初期ステップは意味的および構造的一貫性を保つ上で重要であり変更すべきでない一方、後期ステップは主に詳細を洗練するものであり、高速化のためには剪定または近似が可能である。これらの知見に基づき、StageVARは、追加の学習を必要とせず、後期ステージの計算における意味的無関係性と低ランク特性を活用するプラグアンドプレイ型の高速化戦略を導入する。提案するStageVARは、GenEvalではわずか0.01、DPGでは0.26の精度低下で最大3.4倍の高速化を達成し、既存の高速化ベースライン手法を一貫して上回る。これらの結果は、効率的な視覚的自己回帰画像生成において、ステージを考慮した設計が強力な原則であることを示唆している。
マルチモーダル大規模言語モデル(MLLM)は、実世界の極度の視覚的劣化条件下で信頼性の高い性能を維持することが困難であり、実用的な頑健性を阻害している。既存の頑健なMLLMは主に、視覚エンコーダの一般化のみに焦点を当てた暗黙的な訓練/適応に依存しており、解釈性の限界と個別最適化の問題を抱えている。これらの限界を克服するため、我々は構造化された推論連鎖を通じて視覚的劣化を明示的にモデル化する新規フレームワーク「Robust-R1」を提案する。本アプローチは以下を統合する:(i) 劣化を意識した推論基盤のための教師ありファインチューニング、(ii) 劣化パラメータを正確に知覚するための報酬駆動型アライメント、(iii) 劣化強度に適応する動的推論深度スケーリング。このアプローチを可能にするため、4つの重要な実世界視覚処理段階で合成された現実的な劣化を特徴とする専門的な11Kデータセットを構築した。各データには、劣化パラメータ、知覚的影響、原像の意味的推論連鎖、結論を結ぶ構造化された連鎖が注釈されている。包括的評価により、Robust-R1が最高水準の頑健性を実証した:実世界劣化ベンチマークR-Benchにおいて、一般的および頑健な全てのベースラインを凌駕し、MMMB、MMStar、RealWorldQAにおける多強度敵対的劣化下でも優れた耐劣化性能を維持した。
近年の3Dシーン生成技術は視覚的に魅力的な出力を実現しているが、現在の表現手法では、視覚効果やゲーム開発において修正可能な3Dテクスチャメッシュシーンを必要とするアーティストのワークフローを妨げている。著しい進歩にもかかわらず、現在のテクスチャメッシュシーン再構築手法はアーティストが実用的に使える水準には程遠く、不正確なオブジェクト分解、不正確な空間関係、背景の欠落といった問題を抱えている。本論文では、単一画像からテクスチャ付き3Dオブジェクト群と背景を再構築する構成的フレームワークである3D-RE-GENを提案する。特定領域の最先端モデルを組み合わせることで、アーティストの要求事項に対応しつつ、最先端のシーン再構築性能を達成できることを示す。 当該再構築パイプラインは、アセット検出・再構築・配置の各モデルを統合し、特定モデルを元々想定されていた領域を超えて応用する。遮蔽されたオブジェクトの取得は、画像編集タスクとして扱い、生成モデルを用いて一貫した照明・幾何条件下でのシーンレベルの推論による推定と再構築を行う。既存手法と異なり、3D-RE-GENは最適化過程でオブジェクトを空間的に拘束する包括的な背景を生成し、視覚効果やゲームにおける現実的な照明・シミュレーションタスクの基盤を提供する。物理的に現実的なレイアウトを得るため、再構築されたオブジェクトを推定された地面平面に整合させる新規の4-DoF微分可能最適化を採用する。3D-RE-GENは、正確なカメラ復元と空間最適化に導かれた構成的生成により、一貫性があり修正可能なシーンを生成し、単一画像からの3Dシーン再構築において最先端の性能を達成する。
長文マルチモーダル動画理解には、視覚、音声、環境音の統合と、一貫性のある長距離推論が求められる。既存のベンチマークは、時間的長さかマルチモーダル性の豊かさのいずれかを重視しているが、両方を兼ね備えたものは稀である。また、一部では自由記述式の質問や高度な評価指標が導入されているが、ほとんどが単一のスコア精度に依存しており、失敗モードが不明確になりがちである。本研究では、LongShOTBenchを提案する。これは、自由記述式で意図駆動型の質問、単一ターンおよび複数ターンの対話、動画・音声・会話にわたるマルチモーダル推論とエージェンシックなツール使用を必要とするタスクを含む診断的ベンチマークである。各項目には、解釈可能で追跡可能な評価のための参照解答と段階的な評価基準が含まれる。LongShOTBenchは、拡張性のある人間検証済みパイプラインを通じて作成され、網羅性と再現性を保証している。ベンチマーク内の全サンプルは人間による検証と修正が施されている。さらに、前処理、検索、反復的な洗練化によって長い動画を分析するエージェンシックシステムであるLongShOTAgentを提示する。LongShOTBenchにおける評価では、最先端のMLLMに大きな課題が明らかになった:Gemini-2.5-Flashは52.95%、オープンソースモデルは30%未満、LongShOTAgentは44.66%を達成した。これらの結果は、実世界の長文動画理解の難しさを浮き彫りにしている。LongShOTBenchは、MLLMの評価と改善のための実用的で再現性の高い基盤を提供する。全てのリソースはGitHubで公開されている:https://github.com/mbzuai-oryx/longshot。
Text-to-Image(TTI)モデルは、テキストプロンプトに基づいて画像を生成するが、プロンプトは所望の画像の特定の側面を曖昧にすることが多い。このような曖昧さに直面した場合、TTIモデルは解釈においてバイアスを示すことが実証されている。これらのバイアスは、例えば特定の職業に対して特定の人種のみを表示する場合など、社会的影響を及ぼしうる。また、多様な可能性を網羅する代わりに生成画像セット内で冗長性が生じる場合、ユーザー体験にも影響を与える。本論文では、TTIモデルに偏った出力を生成させるプロンプトを自動的に発掘する手法「MineTheGap」を提案する。本手法は、単に所与のプロンプトにおけるバイアスを検出するだけでなく、遺伝的アルゴリズムを活用してプロンプトのプールを反復的に改良し、バイアスを露呈するプロンプトを探索する。この最適化プロセスは、既知のバイアスを含むデータセットで検証したように、バイアスの深刻度に基づいてランク付けする新規のバイアススコアによって駆動される。所与のプロンプトに対して、このスコアは生成画像の分布と、プロンプトのバリエーションを構成するLLM生成テキストの分布を比較することで得られる。コードと例はプロジェクトWebページで公開されている。