翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の最適化は、モデル規模の拡大に伴ってアルゴリズムの不正確さや訓練の不安定性への感受性が増幅されることから、特に重要な課題となっている。オプティマイザにおける最近の進歩は、運動量直交化を通じて収束効率を改善してきたが、直交化精度における次元的な脆弱性と、外れ値誘発ノイズへの耐性の弱さという二つの頑健性に関する限界に直面している。これらの課題に対処するため、我々は二重の頑健性メカニズムにより訓練安定性を高める頑健直交化オプティマイザ「ROOT」を提案する。第一に、特定の行列サイズに合わせた細粒度係数を用いた適応的ニュートン反復法による次元頑健な直交化スキームを開発し、多様なアーキテクチャ構成にわたって一貫した精度を確保する。第二に、意味のある勾配方向を保持しつつ外れ値ノイズを抑制する近接最適化による最適化頑健フレームワークを導入する。大規模な実験により、ROOTがノイズの多い非凸環境において特に優れ、MuonやAdamベースのオプティマイザと比較して大幅に改善された頑健性、高速な収束、優れた最終性能を達成することを実証した。本研究は、現代的な大規模モデル訓練の複雑性に対処可能な、頑健かつ高精度なオプティマイザ開発の新たなパラダイムを確立する。コードはhttps://github.com/huawei-noah/noah-research/tree/master/ROOTで公開予定である。
近年、LLM(大規模言語モデル)を活用した進化的計算、特にAlphaEvolve(Novikov et al., 2025; Georgiev et al., 2025)の進展は、新たな数学的構造の発見や困難な最適化問題の解決において顕著な成功を収めています。しかし、公表された研究における高レベルの記述は、多くの実装詳細を明示しておらず、再現性やさらなる研究の妨げとなっています。本報告では、AlphaEvolveに着想を得たハイブリッドLLM-進化アプローチを研究・実験するための拡張可能なオープンソースフレームワークであるGigaEvoを紹介します。本システムは、主要なコンポーネントのモジュール化された実装を提供します:MAP-Elites品質多様性アルゴリズム、非同期DAGベースの評価パイプライン、洞察生成と双方向系譜追跡を備えたLLM駆動突然変異オペレータ、柔軟なマルチアイランド進化戦略などです。再現性を評価し、実装を検証するために、GigaEvoをAlphaEvolve論文の難題であるHeilbronn三角形配置、正方形内の円充填、高次元接吻数問題に適用しました。本フレームワークは、モジュール性、並行性、実験の容易さを重視し、宣言的設定による迅速なプロトタイピングを可能にします。LLM駆動の進化的手法に関するさらなる研究を支援するため、システムアーキテクチャ、実装上の決定、実験方法論について詳細な記述を提供します。GigaEvoフレームワークおよびすべての実験コードは、https://github.com/AIRI-Institute/gigaevo-core で公開されています。
医用画像セグメンテーションは生体医学的発見の基盤技術である。既存手法は一般性に欠け、新たな臨床応用には時間を要する大量の手動アノテーションを必要とする。本論文では、医用画像・動画セグメンテーションのためのテキストプロンプト対応モデルMedSAM-3を提案する。セグメントエニシングモデル(SAM)3アーキテクチャを、意味的概念ラベルとペアにした医用画像でファインチューニングすることで、MedSAM-3は医用プロンプト対応概念セグメンテーション(PCS)を実現し、幾何学的プロンプトのみならずオープン語彙のテキスト記述による解剖学的構造の精密な標的化を可能にする。さらに、マルチモーダル大規模言語モデル(MLLM)を統合し、エージェントインザループワークフローにおいて複雑な推論と反復的な改良を実行するMedSAM-3エージェントフレームワークを導入する。X線、MRI、超音波、CT、動画など多様な医用画像モダリティにおける総合的な実験により、本手法が既存の専門モデル及び基盤モデルを大幅に上回る性能を示すことを実証する。コードとモデルはhttps://github.com/Joey-S-Liu/MedSAM3で公開予定である。
視覚言語エージェントは、様々なマルチモーダル推論タスクにおいて顕著な進歩を遂げてきた。しかし、その学習は人間による注釈に基づく教師信号の限界によって制約されている。近年の自己報酬化アプローチは、モデル自身が批評家または報酬提供者として振る舞うことを可能にすることで、この制約の克服を試みている。しかし、純粋にテキストベースの自己評価は、複雑な視覚的推論ステップを検証するのが困難であり、評価における幻覚(ハルシネーション)に悩まされることが多い。これらの課題に対処するため、我々はツール統合型推論における最近の進展に着想を得て、ツール統合型推論による継続的改善を実現する自己進化型視覚言語エージェント「Agent0-VL」を提案する。Agent0-VLは、ツール利用を推論のみならず、自己評価および自己修復にも組み込むことで、モデルが証拠に基づく分析を通じて自身の推論を内省、検証、洗練することを可能にする。本手法は、単一の大規模視覚言語モデル(LVLM)内に二つの相乗的役割を統合する。すなわち、マルチターンのツール統合推論を実行する「ソルバー」と、ツールに基づく批評を通じて構造化されたフィードバックときめ細かい自己報酬を生成する「検証器」である。これらの役割は「自己進化型推論サイクル」を通じて相互作用し、ツールベースの検証と強化学習が連携して、推論分布と評価分布を整合させ、安定した自己改善を実現する。この外部報酬を一切用いない進化プロセスを通じて、Agent0-VLは、人間の注釈や外部の報酬モデルを一切必要とせずに、その推論行動と検証行動を整合させ、継続的な自己改善を達成する。幾何学問題解決と視覚的科学分析に関する実験では、Agent0-VLがベースモデルを12.5%上回る改善を達成したことを示す。コードはhttps://github.com/aiming-lab/Agent0/Agent0-VLで公開されている。
初動フレームの同一性を維持しつつ正確なモーション制御を実現することは、人物画像アニメーションにおける根本的な課題である。主流のReference-to-Video(R2V)パラダイムにおけるImage-to-Motion Bindingプロセスは、実世界アプリケーションで頻発する時空間的なミスアラインメントを看過し、アイデンティティの変質や視覚的アーティファクトといった不具合を引き起こす。本論文では、Image-to-Video(I2V)パラダイムに基づくフレームワークSteadyDancerを提案する。これは調和のとれた一貫性あるアニメーションを実現し、初動フレーム保存を強固に保証する初の手法である。第一に、二つの相反する条件を調和させるCondition-Reconciliation Mechanismを導入し、忠実性を損なうことなく精密な制御を可能にする。第二に、参照画像との高い互換性を持つ適応的で一貫性あるポーズ表現を生成するSynergistic Pose Modulation Modulesを設計する。最後に、モーションの忠実性・視覚的品質・時間的一貫性を階層的に最適化するStaged Decoupled-Objective Training Pipelineを採用する。実験により、SteadyDancerが外観の忠実性とモーション制御の両方で最先端の性能を達成し、比較手法よりも大幅に少ない学習リソースで済むことを実証する。
近年、統合マルチモーダルモデルにおいて著しい進展が見られるものの、根本的な疑問が残されている:理解は真に生成を向上させるのか?この問題を検証するため、我々はデータ漏洩を防ぎ詳細な分析を可能にする制御された合成データセットと、分離型評価フレームワーク「UniSandbox」を提案する。実験結果から、理解と生成の間に顕著な隔たりが存在することが明らかとなり、これは主に「推論生成」と「知識転移」の二つの次元に現れる。具体的には、推論生成タスクにおいて、理解モジュールでの明示的な連鎖思考(Chain-of-Thought: CoT)が隔たりを効果的に埋めることを確認し、さらに自己訓練アプローチによりこの能力が内在化され、生成時の暗黙的推論を可能にすることを実証した。一方、知識転移タスクでは、CoTが新しく獲得した知識の検索を助けることで生成プロセスを支援すること、さらにクエリベースのアーキテクチャが本来備える潜在的なCoT的性質が転移に影響を与えることを発見した。UniSandboxは、理解と生成の隔たりを真に埋める次世代統合アーキテクチャと訓練戦略の設計に向けた重要な知見を提供する。コードとデータはhttps://github.com/PKU-YuanGroup/UniSandBoxで公開されている。
強化学習(RL)は大規模言語モデル(LLM)の推論能力を高める上でますます重要な役割を果たしているが、安定した高性能な方策最適化は依然として課題である。トークンレベルの重要度比率は高い分散を示すことが多く、これはMixture-of-Expertsモデルにおいて顕著になり、不安定な更新を引き起こす。既存のグループベースの方策最適化手法(GSPOやGRPOなど)は、ハードクリッピングによってこの問題を緩和するが、安定性と効果的な学習の両立が困難である。本研究では、ソフト適応型方策最適化(SAPO)を提案する。SAPOはハードクリッピングを、滑らかで温度制御されたゲートに置き換え、有用な学習信号を保持しつつオフポリシー更新を適応的に減衰させる。GSPOおよびGRPOと比較して、SAPOはシーケンス整合性とトークン適応性の両方を備えている。GSPOと同様に、SAPOはシーケンスレベルの整合性を維持するが、そのソフトゲーティングは連続的な信頼領域を形成し、GSPOで用いられる脆いハードクリッピング帯域を回避する。シーケンスに少数の高度にオフポリシーなトークンが含まれる場合、GSPOはそのシーケンスの全ての勾配を抑制するが、SAPOは問題のあるトークンのみを選択的に重み付け減衰し、ニアオンポリシーなトークンからの学習信号を保持するため、サンプル効率が向上する。GRPOに対しては、SAPOはハードなトークンレベルクリッピングを滑らかな温度制御スケーリングに置き換え、より情報量が多く安定した更新を可能にする。数学的推論ベンチマークにおける実験結果は、SAPOが同等の学習予算下で、学習の安定性が向上し、より高いPass@1性能を示すことを示している。さらに、我々はSAPOをQwen3-VLモデルシリーズの学習に適用し、SAPOが多様なタスクおよび異なるモデルサイズにわたって一貫した性能向上をもたらすことを実証した。全体として、SAPOはLLMのRL学習のための、より信頼性が高く、スケーラブルで、効果的な最適化戦略を提供する。
事前学習済みビデオモデルは、高品質で時間的一貫性のあるコンテンツを生成するための強力な事前知識を学習します。これらのモデルは時間的一貫性に優れていますが、その動態は連続的な学習データの性質によって制約されることが多いです。我々は、画像データが持つ豊かで制約のないコンテンツ多様性を、この一貫した時間的フレームワークに注入することで、自然な遷移と従来をはるかに超える広範な動的範囲を備えた画像セットを生成できると仮説を立てます。この目的のために、強力なビデオモデルをオールインワンの画像生成器に転用する統合フレームワーク「iMontage」を提案します。本フレームワークは可変長の画像セットを入力・出力し、多様な画像生成・編集タスクを統合的に扱います。これを実現するため、エレガントで最小限の介入に留める適応戦略を提案し、それに特化したデータキュレーション手法と訓練パラダイムを組み合わせます。このアプローチにより、モデルは貴重な元の動きに関する事前知識を損なうことなく、広範な画像操作能力を獲得します。iMontageは複数の主流な多対多画像タスクにおいて優れた性能を発揮し、画像間の強力な文脈的一貫性を維持するだけでなく、従来の範囲を超えた非凡な動態を持つシーンを生成します。ホームページは https://kr1sjfj.github.io/iMontage-web/ で公開しています。
ワールドモデルは、スケーラブルでデータ効率の良いエンボディードAIの基盤パラダイムとして台頭しつつある。本研究では、視覚-言語-行動(VLA)学習のデータエンジンとして明示的に設計された統一ワールドモデルフレームワーク「GigaWorld-0」を提案する。GigaWorld-0は、2つの相乗的コンポーネントを統合する:外観・カメラ視点・行動意味を細粒度で制御下に、多様で質感豊か、時間的一貫性のあるエンボディードシーケンスを大規模動画生成で生成する「GigaWorld-0-Video」と、3D生成モデリング・3Dガウススプラッティング再構成・物理微分可能なシステム同定・実行可能な運動計画を組み合わせ、幾何学的一貫性と物理的真实性を保証する「GigaWorld-0-3D」である。これらを共同最適化することで、視覚的に魅力的で空間的一貫性があり、物理的に妥当かつ指示に整合したエンボディード相互作用データのスケーラブルな合成を実現する。大規模学習は、FP8精度と疎注意を活用してメモリと計算要件を大幅に削減する効率的な「GigaTrain」フレームワークにより実現可能である。包括的評価により、GigaWorld-0が多次元にわたり高品質・多様・制御可能なデータを生成することを示す。決定的に、GigaWorld-0生成データで学習したVLAモデル(例:GigaBrain-0)は、学習中に実世界相互作用を一切行わずとも、物理ロボットにおける汎化性能とタスク成功率を大幅に向上させ、強力な実世界性能を達成する。
大規模言語モデル(LLM)における完全注意機構の二次計算量は、長文脈処理の効率性を制限する。疎注意機構は各クエリが関与する過去トークンのサブセットを制限することでこのコストを軽減するが、訓練不要な手法では性能の大幅な低下が生じやすい。ネイティブ疎注意手法(NSA、MoBAなど)はこの問題を緩和するものの、重要なパラドックスが存在する:完全注意を近似することを目的としながら、かえって完全注意モデルよりも注意の疎性が低下し、有効性が制限される可能性がある。我々はこのパラドックスの原因を勾配更新の欠陥に帰する:疎訓練中に除外される低ランクのキー・バリューペアは順方向の寄与も逆方向の勾配も受けず、適切な抑制を学習できない。この制限を克服するため、本論文ではSSA(Sparse Sparse Attention)を提案する。これは疎注意と完全注意の両方を考慮し、層ごとに双方向のアライメントを強化する統一的訓練フレームワークである。この設計により、全てのトークンへの勾配流れを維持しつつ、疎注意出力が完全注意出力に整合することを明示的に促進し、より強力な疎性を実現する。その結果、SSAは複数の常識ベンチマークにおいて、疎注意と完全注意の両推論で最先端の性能を達成した。さらにSSAはモデルが様々な疎性バジェットに適応することを可能にし、関与トークン数が増えるにつれて性能が一貫して向上し、推論時の計算量と性能の柔軟なトレードオフを実現する。最後に、ネイティブ疎注意訓練がシンク領域への注意値の過剰割り当てを緩和することで、長文脈外挿能力を向上させることを示し、SSAが最も強力な外挿能力を発揮することを確認する。
本論文は、OCRタスクに特化した商用グレードのオープンソース軽量(10億パラメータ)ビジョン言語モデル(VLM)、HunyuanOCRを提案する。本アーキテクチャは、Native Vision Transformer(ViT)と軽量LLMをMLPアダプタで接続した構造を採用している。HunyuanOCRは優れた性能を示し、商用API、従来のパイプライン、および大規模モデル(例:Qwen3-VL-4B)を上回る。具体的には、知覚タスク(文字領域検出・認識、構造解析)において現行の公開ソリューションを凌駕し、意味理解タスク(情報抽出、画像翻訳)でも卓越した性能を発揮し、ICDAR 2025 DIMT Challenge(小型モデル部門)で一位を獲得した。さらに、30億パラメータ未満のVLMにおいてOCRBenchでState-of-the-Art(SOTA)を達成した。 HunyuanOCRは以下の3つの重要な側面でブレークスルーを実現している:1)**多機能性と効率性の統一**:軽量フレームワーク内で、文字領域検出・認識、構造解析、情報抽出、視覚質問応答、翻訳といった中核機能を包括的にサポートする。これにより、機能が限定された「OCR専門モデル」と非効率な「汎用VLM」の課題を解決する。2)**効率化されたエンドツーエンドアーキテクチャ**:純粋なエンドツーエンドパラダイムを採用し、レイアウト解析などの前処理モジュールへの依存を排除した。これにより、従来パイプラインで一般的な誤伝播の問題を根本的に解決し、システム導入を簡素化する。3)**データ駆動と強化学習戦略**:高品質なデータの重要性を確認するとともに、業界で初めて、強化学習(RL)戦略がOCRタスクで顕著な性能向上をもたらすことを実証した。 HunyuanOCRはHuggingFace上で公式にオープンソース化されている。また、vLLMに基づく高性能なデプロイメントソリューションも提供しており、その実用環境での効率性は最高水準にある。本モデルが最先端研究を推進し、産業応用の強固な基盤を提供することを期待する。
近年のインタラクティブ動画ワールドモデル手法は、ユーザー指示に条件付けられたシーン進化を生成する。これらは印象的な結果を達成しているが、2つの重要な限界が残っている。第一に、指示駆動型のシーン運動と基盤となる3Dジオメトリとの対応関係を十分に活用できておらず、視点変更時の構造的不安定性を招いている。第二に、多段階インタラクション中に履歴情報を容易に忘却するため、誤差蓄積やシーン意味論・構造の漸進的ドリフトが生じる。これらの課題解決に向け、我々は3D幾何学事前情報と履歴検索を統合したインタラクティブ動画ワールドモデルMagicWorldを提案する。MagicWorldは単一シーン画像から出発し、ユーザー行動で動的シーン進化を駆動し、自己回帰的に連続シーンを合成する。我々は行動誘導型3Dジオメトリモジュール(AG3D)を導入し、各インタラクションの初フレームと対応する行動から点群を構築することで、視点遷移に対する明示的幾何学的制約を提供し、構造的一貫性を向上させる。さらに、生成中に関連する履歴フレームを検索し、条件付け信号として注入する履歴キャッシュ検索(HCR)機構を提案し、モデルが過去のシーン情報を利用し誤差蓄積を緩和することを支援する。実験結果により、MagicWorldがインタラクション反復におけるシーン安定性と連続性で顕著な改善を達成することを実証する。
正規化流(Normalizing Flows: NFs)は、連続データに対するエンドツーエンドの尤度ベース生成モデルであり、画像生成における有望な進展を背景に近年再び注目を集めている。しかし、時空間的な複雑さと計算コストが大幅に高いビデオ生成領域では、最先端のシステムはほぼ例外なく拡散モデルに依存している。本研究では、この設計空間を再検討し、正規化フローに基づくビデオ生成モデルSTARFlow-Vを提案する。本モデルは、エンドツーエンド学習、ロバストな因果的予測、ネイティブな尤度推定といった重要な利点を有する。最近提案されたSTARFlowを発展させたSTARFlow-Vは、大域‐局所構造を持つ時空間潜在空間で動作し、因果依存関係を大域潜在空間に制限しつつ、フレーム内の豊富な局所的相互作用を保持する。これにより、標準的な自己回帰的な拡散モデル生成において一般的な欠点である、時間経過に伴う誤差蓄積が軽減される。さらに、フロースコアマッチングを提案し、軽量な因果的デノイザをモデルに組み込むことで、自己回帰的な様式でビデオ生成の一貫性を向上させる。サンプリング効率を高めるため、STARFlow-Vは、因果性を損なうことなく内部更新を並列化可能な反復処理として再定義する、ビデオを意識したヤコビ反復スキームを採用する。可逆構造の恩恵により、同一モデルがテキストからビデオ、画像からビデオ、およびビデオからビデオへの生成タスクをネイティブにサポートする。実験により、STARFlow-Vは、拡散モデルベースのベースラインと比較して実用的なサンプリング処理能力を維持しつつ、強力な視覚的忠実度と時間的一貫性を達成する。これらの結果は、我々の知る限り、NFsが高品質な自己回帰的ビデオ生成を実現可能である初の証拠を示し、世界モデル構築における有望な研究方向としてNFsを確立するものである。コードと生成サンプルはhttps://github.com/apple/ml-starflow で公開されている。
進展があるにもかかわらず、ビデオ拡散トランスフォーマーは依然として学習長を超えた汎化に課題を抱えており、我々はこの課題を「ビデオ長外挿」と呼ぶ。我々は2つの失敗モードを特定した:モデル固有の周期的コンテンツ反復と、普遍的な品質劣化である。従来研究は位置エンコーディングによる反復の解決を試みてきたが、品質劣化を見過ごし、限定的な外挿しか達成できていなかった。本論文では、この課題をより根本的な視点、すなわち出力に影響を与えるコンテキストの関係を直接規定するアテンションマップから再検討する。両失敗モードは統一された原因、すなわち「アテンション分散」から生じることを明らかにした。これは、学習ウィンドウを超えたトークンが学習済みのアテンションパターンを希釈化する現象である。これが品質劣化を引き起こし、この分散が位置エンコーディングの調和特性によって誘発される周期的なアテンションパターンとして構造化される特殊な場合に反復が生じる。この知見に基づき、我々は訓練不要でプラグアンドプレイ可能な手法「UltraViCo」を提案する。これは定数減衰因子により学習ウィンドウを超えたトークンへのアテンションを抑制する。両失敗モードを同時に解決することで、幅広いモデルと外挿比率において多くのベースライン手法を凌駕し、外挿限界を2倍から4倍に押し上げた。特筆すべきは、4倍外挿において、従来の最良手法と比較してDynamic DegreeとImaging Qualityをそれぞれ233%、40.5%向上させた点である。さらに本手法は、制御可能なビデオ合成や編集などの下流タスクにもシームレスに汎化する。
生成モデルはRGB合成において優れた性能を示してきたが、実世界の応用ではRGBA操作が求められる。このため、現在は分断された状況にある:専門的な単一タスクモデルはアルファチャンネルを扱えるが汎用性に欠け、統合的なマルチタスクフレームワークはRGB領域に限定されている。この重要な隔たりを埋めるため、我々はシーケンス・トゥ・シーケンスのRGBA画像生成と編集を行う初の統合型マルチタスク生成フレームワーク「OmniAlpha」を提案する。そのアーキテクチャは、Diffusion Transformer(DiT)バックボーン向けに双方向拡張可能な層軸を備えた新規RoPE手法「MSRoPE-BiL」を特徴とし、複数の入力・ターゲットRGBAレイヤーの同時処理を可能にする。本フレームワークを支えるため、新たな自動合成・フィルターパイプラインにより構築された1,000組の高品質多層トリプレットから成る新しいデータセット「AlphaLayers」を導入した。21の多様なタスク群を網羅するこのデータセットでOmniAlphaを統合学習した結果、本統合アプローチが強力な専門ベースラインを一貫して上回ることを大規模実験で実証した。特に注目すべきは、AIM-500におけるマスク不要マッティングでSADを84.8%という劇的に削減し、レイヤー条件付き補完では90%以上の人選好性を獲得した点である。本研究成果は、統合型マルチタスクモデルがRGBAのための優れた共有表現を学習可能であることを示し、より強力なレイヤー認識生成システムへの道を開くものである。
本論文では、動的に撮影された可変長ビデオ向けの、カメラ制御による新規リテイク生成手法「ReDirector」を提案する。特に、既存研究におけるRoPEの一般的な誤用を是正し、入力ビデオと目標リテイクの時空間的位置を整合させる。さらに、回転カメラ符号化(RoCE)を導入する。これはカメラ条件付きのRoPE位相シフトであり、入力ビデオと目標リテイク内およびそれらを跨るマルチビュー関係を捕捉・統合する。カメラ条件をRoPEに組み込むことで、本手法は分布外のカメラ軌道やビデオ長に一般化し、動的オブジェクトの位置特定と静的背景の保持が改善される。各種軌道と長さにわたる広範な実験により、カメラ制御性、幾何学的一貫性、ビデオ品質の大幅な向上が実証された。
近年の視覚言語モデル(VLM)は画像理解において優れた性能を示すが、「画像を用いた思考」、すなわち多段階の視覚的インタラクションを通じた推論能力は依然として限界がある。本論文では、VLMにツール統合型の視覚推論能力を習得させるためのスケーラブルな訓練環境であるVISTA-Gymを提案する。VISTA-Gymは、多様な実世界のマルチモーダル推論タスク(合計13データセットの7タスク)を、視覚ツール(グラウンディング、解析など)の標準化インターフェース、実行可能なインタラクションループ、検証可能なフィードバック信号、効率的な軌道記録により統合し、大規模な視覚的エージェント強化学習を可能にする。近年のVLMはテキストのみの推論では強力だが、プロプライエタリ・オープンソース双方のモデルは、ツールの選択、呼び出し、調整に依然として課題を抱えている。VISTA-Gymを用いて、我々はVISTA-R1を、多ターン軌道サンプリングとエンドツーエンドの強化学習を通じて、ツール利用とエージェント推論を交互に行うように訓練した。11の公開推論集中型VQAベンチマークにおける大規模な実験により、VISTA-R1-8Bは同規模の最先端ベースラインを9.51%~18.72%上回り、VISTA-GymがVLMのツール統合型推論能力を解放する効果的な訓練環境であることを実証した。
現実的な3D都市の生成は、ワールドモデル、仮想現実、ゲーム開発において基礎的な技術であり、理想的な都市シーンは様式的多様性、細粒度性、制御可能性を両立する必要がある。しかし、既存手法は、テキストベース生成が提供する創造的柔軟性と、明示的構造表現が可能とするオブジェクトレベルでの編集性のバランスを取ることに課題を抱えている。本論文では、構造的一貫性と様式的多様性を備えた3D都市シーンを合成するための、自然言語駆動かつ美的適応型のフレームワーク「MajutsuCity」を提案する。MajutsuCityは都市を制御可能なレイアウト、アセット、マテリアルの構成として表現し、4段階のパイプラインで動作する。初期生成を超えた制御性を拡張するため、5つのオブジェクトレベル操作をサポートする対話型言語基盤編集エージェント「MajutsuAgent」を統合した。写真的でカスタマイズ可能なシーン合成を支援するため、2Dセマンティックレイアウトと高さマップ、多様な3D建築アセット、厳選されたPBRマテリアル及びスカイボックスから構成され、それぞれに詳細な注釈が付随する高品質マルチモーダルデータセット「MajutsuDataset」も構築した。同時に、構造的一貫性、シーン複雑性、マテリアル忠実度、照明雰囲気といった主要次元を網羅する実用的な評価指標群を開発した。大規模実験により、MajutsuCityはレイアウトFIDにおいてCityDreamer比83.7%、CityCraft比20.1%の改善を達成した。本手法は全AQS及びRDRスコアで首位を占め、既存手法を明確に上回る性能を示した。これらの結果は、MajutsuCityが3D都市生成における幾何学的忠実度、様式的適応性、意味的制御性の新たなstate-of-the-artであることを確認する。本フレームワークが3D都市生成研究の新たな道筋を開くことを期待する。データセットとコードはhttps://github.com/LongHZ140516/MajutsuCity で公開予定である。
大規模言語モデル(LLM)は複雑な問題を解決する一方で、より単純な変種問題には失敗することがあり、これは人間の推論とは根本的に異なるメカニズムを通じて正しい出力を得ていることを示唆している。この隔たりを理解するため、我々は認知科学の研究を統合し、推論不変性、メタ認知的制御、推論と知識を組織化するための表現、変換操作にまたがる28の認知要素からなる分類体系を構築した。細粒度の評価フレームワークを導入し、テキスト・画像・音声にわたる18モデルから192Kの推論軌跡、さらに公開する54の人間の発話思考プロトコルを用いて初の大規模実証分析を実施した。その結果、モデルは成功と相関する認知要素を十分に活用しておらず、多様な表現とメタ認知的モニタリングが決定的となる非構造化問題では硬直的な逐次処理に偏ることがわかった。人間の軌跡ではより多くの抽象化と概念的処理が見られるのに対し、モデルは表面的な列挙に依存する傾向があった。1.6KのLLM推論論文のメタ分析から、研究コミュニティは定量化が容易な要素(逐次的組織化:55%、分解:60%)に集中する一方、成功と相関するメタ認知的制御(自己認識:16%)を軽視している実態が明らかになった。モデルは成功に関連する行動レパートリーを有しながらも、それらを自律的に展開できない。これらのパターンを活用し、我々はテスト時に成功構造を自動支援する推論ガイダンスを開発し、複雑問題での性能を最大66.7%向上させた。認知科学とLLM研究の間の共通語彙を確立することで、本フレームワークは推論失敗の体系的な診断と、虚偽の近道ではなく堅牢な認知メカニズムによる推論モデルの原理的開発を可能にするとともに、人間の認知理論を大規模に検証するツールを提供する。
少数の事例からの抽象的推論は、GPT-5やGrok 4のような最先端基盤モデルにおいて未解決の中核的課題である。これらのモデルは依然として、数少ない事例から構造化された変換規則を推論することができず、これは人間の知性の重要な特徴の一つである。人工汎用知能のための抽象推論コーパス(ARC-AGI)は、この能力に対する厳格なテストベッドを提供し、概念的規則帰納と新規タスクへの転移を要求する。既存手法の多くはARC-AGIを純粋にテキストベースの推論タスクとして扱っているが、人間がこの種の課題を解く際に視覚的抽象化に強く依存している事実を見過ごしている。しかし我々の予備実験は、逆説的に、ARC-AGIグリッドを単純に画像としてレンダリングすると、不正確な規則実行により性能が低下することを明らかにした。このことから、視覚と言語は異なる推論段階において相補的な強みを持つという中心仮説が導かれる:視覚は大域的なパターン抽象化と検証を支援し、言語は記号的規則の定式化と精密な実行に特化している。この知見に基づき、我々は二つの相乗的戦略を提案する:(1) 視覚-言語相乗推論(VLSR):ARC-AGIをモダリティに沿ったサブタスクに分解する。(2) モダリティ切替自己補正(MSSC):視覚を利用してテキストベースの推論を検証し、内在的誤り補正を実現する。大規模な実験により、本手法が多様な基盤モデル及び複数のARC-AGIタスクにおいて、テキストのみのベースラインに対し最大4.33%の改善をもたらすことを実証した。我々の発見は、視覚的抽象化と言語的推論を統合することが、将来の基盤モデルにおいて一般化可能な人間的な知性を実現する上で重要な段階であることを示唆する。ソースコードは近日公開予定である。
コンピュータ利用エージェント(CUA)の進歩は、人間のコンピュータ操作を捉えた大規模で高品質なデータセットの不足によって制約されてきた。大規模言語モデル(LLM)が豊富なテキストデータで発展する一方で、CUAの軌跡に関しては同等のコーパスが存在しない。この課題を解決するため、我々は多段階Webタスク向けの新規合成データ生成システム「FaraGen」を提案する。FaraGenは、頻繁に利用されるWebサイトから多様なタスクを提案し、複数の解決試行を生成し、複数の検証器を用いて成功した軌跡をフィルタリングできる。本システムは多段階Webタスクにおいて高スループット、高収率、高多様性を実現し、検証済み軌跡を約1ドルで生成する。このデータを用いて、スクリーンショットのみでコンピュータを認識し、座標予測を通じてアクションを実行し、オンデバイスで動作可能な小型のネイティブCUAモデル「Fara-7B」を学習した。Fara-7Bは、WebVoyager、Online-Mind2Web、および既存ベンチマークで過少評価されていたWebタスクをより適切に捉える新規ベンチマーク「WebTailBench」において、同規模の他CUAモデルを凌駕する。さらに、Fara-7Bは遥かに大規模な先進モデルとも互角の性能を示し、スケーラブルなデータ生成システムが小型高効率なエージェントモデルを進歩させる上での重要性を実証する。我々はFara-7BをMicrosoft FoundryおよびHuggingFaceでオープンウェイト公開し、WebTailBenchをリリースする。
本論文は、Visual Question-Visual Answering (VQ-VA) を研究する。これは、視覚的質問に対してテキストではなく画像を生成する能力であり、NanoBananaやGPT-Imageといった専有システムにおいて最近登場したものである。この能力をオープンソースモデルにももたらすため、我々はVQ-VA Worldを提案する。これは、大規模かつ対象を絞ったデータ構築のためのエージェント的パイプラインを中核とした、データ中心のフレームワークである。このパイプラインは、ウェブ規模での展開を活用し、モデル訓練用に約180万件の高品質な画像-テキストインターリーブサンプルを大規模に収集する。評価のために、我々はさらにIntelligentBenchを公開する。これは人間が精選したベンチマークであり、世界知識、デザイン知識、推論の観点からVQ-VAを体系的に評価する。VQ-VA Worldデータを用いた訓練は強力な経験的向上をもたらす。それはLightFusionにIntelligentBenchで53.06を達成させ、従来の最高のオープンソースベースライン(すなわち、素のLightFusionの7.78、UniWorld-V1の1.94)を大幅に上回り、主要な専有システム(例えば、NanoBananaの81.67、GPT-Imageの82.64)との差を大きく縮める。モデル重み、データセット、パイプラインの一式を公開することで、VQ-VAに関する将来の研究を促進したい。
タスクスケジューリングは、エージェントが自然言語の指示に従い3D物理世界で効率的に動作を実行することを可能にする、具身AI(Embodied AI)において極めて重要である。しかし、既存のデータセットでは、オペレーションズ・リサーチ(OR)の知見や3D空間への接地を無視することで、タスク計画を単純化している場合が多い。本研究では、言語理解、3D接地、効率最適化の協調を必要とする新たなタスクとして、オペレーションズ・リサーチ知見に基づく3D接地タスクスケジューリング(ORS3D)を提案する。従来の設定とは異なり、ORS3Dでは、例えば電子レンジが作動している間にシンクを掃除するといった並列化可能なサブタスクを活用し、総完了時間を最小化することをエージェントに求める。ORS3Dの研究を促進するため、4Kの実世界シーンにわたる6万件の複合タスクからなる大規模データセットORS3D-60Kを構築した。さらに、効率的なタスクスケジュールと接地された動作を生成するために、シンプルかつ効果的なスケジューリングトークン機構を備えた具身マルチモーダル大規模言語モデルGRANTを提案する。ORS3D-60Kを用いた大規模な実験により、GRANTの言語理解、3D接地、スケジューリング効率における有効性が検証された。コードはhttps://github.com/H-EmbodVis/GRANT で公開されている。
現実的な3D都市生成は、仮想現実やデジタルツインを含む多様な応用分野において基盤技術である。しかし、既存手法の多くは単一の拡散モデルの学習に依存しており、個人化された無限の都市規模シーン生成能力が制限されている。本論文では、市販の大規模モデルの推論及び構成能力を活用し、ユーザーカスタマイズ可能で無限拡張性のある3D都市生成を実現する新しいエージェントフレームワーク「Yo'City」を提案する。具体的には、Yo'Cityはまず、階層的な「都市-地区-グリッド」構造を定義するトップダウン計画戦略により都市を概念化する。グローバルプランナーが全体レイアウトと機能地区の概要を決定し、ローカルデザイナーが各地区を詳細なグリッド単位の記述まで精緻化する。続いて、グリッド単位の3D生成は「生成-洗練-評価」から成る等角投影画像合成ループを経て、画像から3Dモデルへの変換により実現される。継続的な都市の進化をシミュレートするため、Yo'Cityはさらに、ユーザー対話型の関係性誘導拡張メカニズムを導入する。これはシーングラフに基づく距離及び意味論を考慮したレイアウト最適化を行い、空間的一貫性を保証しつつ都市の成長を実現する。本手法を包括的に評価するため、多様なベンチマークデータセットを構築し、意味論、幾何学、テクスチャ、レイアウトの観点から生成品質を評価する6つの多次元指標を設計した。大規模な実験により、Yo'Cityが全ての評価項目において既存の最先端手法を一貫して凌駕することを実証した。
検索拡張生成(RAG)は大規模言語モデル(LLM)に外部知識を付与するが、長い文脈と検索・生成の最適化の分離という課題が残る。本研究では、埋め込みベースの圧縮と共有連続空間における共同最適化を実現する統一フレームワーク「CLaRa(Continuous Latent Reasoning)」を提案する。意味的に豊かで検索可能な圧縮ベクトルを得るため、QAと言い換えによる監督を用いた鍵保存型データ合成フレームワークSCPを導入する。CLaRaは微分可能top-k推定器を用いて両モジュールをグラデント伝播させ、単一の言語モデリング損失によるリランカーと生成器のend-to-end学習を実現する。理論的には、この統一最適化により検索関連性と回答品質が整合する。複数のQAベンチマーク実験において、CLaRaは最先端の圧縮・リランキング性能を達成し、テキストベースのファインチューニングベースラインをしばしば上回った。
近年のビデオ生成モデルは視覚的な忠実度において著しい進歩を遂げているが、明示的な物理的な制御性と妥当性に欠けることが多い。この課題に対処するため、物理学ベースのレンダリングを用いてビデオ生成を誘導する試みがなされてきた。しかし、既存手法は複雑な物理特性の正確なモデル化や、長時間シーケンスにおける物理挙動の効果的な制御において本質的な困難に直面している。本研究では、単一画像から多様な制御性と物理的現実性を備えたビデオを生成する新規フレームワーク「PhysChoreo」を提案する。本手法は二段階の処理から構成される:まず、部分認識型物理特性再構成により画像内の全オブジェクトの静的初期物理特性を推定する。次に、時間指示付き物理編集可能シミュレーションを通じて、豊富な動的挙動と物理的現実性を備えた高品質なビデオを合成する。実験結果により、PhysChoreoが豊富な挙動と物理的現実性を備えたビデオを生成可能であり、複数の評価指標において既存の最先端手法を凌駕することを示す。
拡散モデルに基づく編集技術は、画像の局所領域を現実的に改変することを可能にし、AI生成コンテンツの検出を困難にしている。既存のAIGC検出ベンチマークは画像全体の分類に焦点を当てており、拡散ベース編集の局所化を見落としている。本研究では、細粒度検出を支援するために設計された、ピクセルレベル注釈付きの3万枚の拡散編集画像からなる公開データセットDiffSeg30kを提案する。DiffSeg30kの特徴は以下の通りである:1) 実世界画像—実世界のコンテンツ多様性を反映するため、COCOから画像または画像プロンプトを収集;2) 多様な拡散モデル—8つのSOTA拡散モデルを用いた局所的編集;3) マルチターン編集—実世界の連続編集を模倣するため、各画像は最大3段階の逐次編集を実施;4) 現実的な編集シナリオ—VLMベースのパイプラインにより意味領域を自動識別し、追加・削除・属性変更を含む文脈考慮型プロンプトを生成。DiffSeg30kはAIGC検出を二値分類からセマンティックセグメンテーションへ転換し、編集箇所の局所化と編集モデルの特定を同時に可能にする。3つのベースラインセグメンテーション手法を評価した結果、特に画像歪みに対する頑健性に関して、セマンティックセグメンテーション課題における重大な課題が明らかになった。また実験により、ピクセルレベル局所化のために訓練されたセグメンテーションモデルが、拡散編集の信頼性高い画像全体分類器として機能し、既存の偽造分類器を凌駕するとともに、クロスジェネレータ汎化において大きな可能性を示すことが判明した。DiffSeg30kはセグメンテーションベース手法の可能性と限界を実証することで、AI生成コンテンツの細粒度局所化研究を推進すると確信する。DiffSeg30kはhttps://huggingface.co/datasets/Chaos2629/Diffseg30k で公開されている。
マルチモーダル大規模言語モデル(MLLM)とビデオエージェントシステムの最近の進展は、一般的なビデオ理解を大幅に改善した。しかし、外部の専門知識の統合と厳密な段階的推論を要求する科学分野のビデオ理解と教育に適用する場合、既存の手法はしばしば困難に直面する。このギャップを埋めるため、我々は科学ビデオ理解と教育のための最初の反復的自己進化型マルチエージェントシステムであるSciEducatorを提案する。経営学における古典的デミングサイクルに基づく我々の設計は、そのPlan-Do-Study-Actの哲学を自己進化型推論・フィードバック機構へと再構成し、ビデオ中の複雑な科学活動の解釈を促進する。さらに、SciEducatorは、特定の科学プロセスに合わせて調整されたマルチモーダル教育コンテンツ(テキスト説明、視覚的ガイド、音声ナレーション、インタラクティブな参考文献を含む)を生成できる。評価を支援するため、物理、化学、日常現象の5カテゴリにわたる専門家検証済みかつ文献に基づいた500の科学QAペアから構成されるベンチマークSciVBenchを構築した。大規模な実験により、SciEducatorがベンチマークにおいて主要なクローズドソースMLLM(Gemini、GPT-4oなど)や最先端のビデオエージェントを大幅に上回り、コミュニティにとって新しいパラダイムを確立することを実証した。
近年、テキスト動画(T2V)拡散モデルは、印象的な品質とプロンプトへの忠実度を達成しているが、単一のテキストプロンプトから複数の動画を生成する際、出力の多様性が低くなる傾向がある。我々はこの課題を、集合レベルでの方策最適化問題として定式化し、与えられたプロンプトに対して考えられる多様な結果の範囲をカバーする方策を訓練することを目的として取り組む。この問題に対処するため、我々は多様な動画生成のための新しいフレームワークであるDPP-GRPOを提案する。これは、Determinantal Point Process(DPP)とGroup Relative Policy Optimization(GRPO)の理論を組み合わせ、多様な生成物に対して明示的な報酬を付与するものである。我々の目的関数は、冗長なサンプルに対して収益逓減を課し(DPPにより)、候補集合に対してグループ単位のフィードバックを提供する(GRPOにより)ことで、多様性を明示的な信号として変換する。本フレームワークはプラグアンドプレイかつモデル非依存であり、プロンプトへの忠実度や知覚品質を損なうことなく、視覚的外観、カメラ動作、シーン構造にわたる多様な生成を促進する。我々はこの手法をWANおよびCogVideoX上に実装し、VBench、VideoScore、人間の嗜好調査といった最先端のベンチマークにおいて、本手法が動画の多様性を一貫して向上させることを示す。さらに、将来の研究を支援するため、コードと3万の多様なプロンプトからなる新しいベンチマークデータセットを公開する。
構造ベースの創薬における生成モデルは、特定のモダリティに限定されることが多く、汎用性が制限されがちである。この課題に対処するため、我々はコンピュータビジョンに基づくフレームワークFuncBindを提案する。これは、原子システムを横断して標的構造を条件とした全原子分子を生成するものである。FuncBindは、分子を連続的な原子密度として表現するためにニューラルフィールドを利用し、コンピュータビジョン分野から適応された現代的なアーキテクチャを備えたスコアベース生成モデルを採用する。このモダリティに依存しない表現により、低分子から高分子まで多様な原子システムに対して単一の統一モデルを学習でき、非標準アミノ酸を含む、可変的な原子数/残基数を扱うことができる。FuncBindは、標的構造を条件として、低分子、大環状ペプチド、抗体相補性決定領域(CDR)ループを生成する際に、計算機上で競争力のある性能を達成した。またFuncBindは、選択した2つの共結晶構造のCDR H3ループをde novo再設計することで、新規の抗体バインダーをin vitroで生成した。最後の貢献として、構造条件付き大環状ペプチド生成のための新しいデータセットとベンチマークを導入する。コードはhttps://github.com/prescient-design/funcbind で公開されている。
大規模言語モデル(LLM)は、社会・政治・経済的事象に対して部分的ではあるが一定の予測能力を示す。しかしその予測精度は、領域の構造やプロンプトの設計によって顕著に変動する。本研究では、モデルのカットオフ日以降に発生した実世界の事象に関する質問に対し、異なるモデルファミリー間で予測性能がどのように変化するかを検証する。文脈設定、質問タイプ、外部知識が精度とキャリブレーションに与える影響、さらに事実に基づくニュース文脈を付加することが信念形成や失敗モードにどう作用するかを分析する。結果から、予測能力は「何を」「どのように」問うかに強く依存し、極めて可変的であることが示された。
視覚言語モデルはどのようなデータで学習すべきか?この問いに答えるため、多くのデータキュレーション手法はデータセットの品質に焦点を当てている。しかし、既存手法のほとんどは (i) オフライン的、すなわち事前に決められたフィルタリング基準に基づいて静的なデータセットを構築するものであり、(ii) 概念非依存的な、すなわちモデルベースのフィルタを用いることで追加的なデータバイアスを生み出すものである。本研究では、このようなオフライン的で概念非依存的な手法を超えて、より柔軟でタスク適応型の、概念に基づくオンラインキュレーションを提唱する。我々の第一の貢献は、その概念構成に関する細粒度の詳細が注釈された、128Mのウェブクロール画像-テキストペアからなるコレクションであるDataConceptである。DataConceptに基づき、我々は特定の目標分布に基づいて柔軟にバッチを動的に構築する、シンプルかつ効果的なバッチサンプリングフレームワークであるConcept-Aware Batch Sampling (CABS) を提案する。2つのバリアントを提案する:(i) 利用可能な概念の広範なカバレッジを持つバッチを精選する多様性最大化 (CABS-DM) と、(ii) 高いオブジェクト多重度を持つバッチを精選する頻度最大化 (CABS-FM) である。28のベンチマークにわたる広範な評価を通じて、我々のCABS手法がCLIP/SigLIPモデルクラスに大きな利益をもたらし、高性能なモデルを生成することを実証する。全体として、CABSはプロプライエタリなオンラインデータキュレーションアルゴリズムに対する強力なオープンソースの代替手段であり、実践者が特定のダウンストリームタスクを最適化するカスタム概念分布を定義することを可能にする。
単眼カメラ映像から卓球ボールの正確な3次元運動を取得することは困難な課題である。合成データで学習した既存手法は、実世界のノイズや不完全なボール・卓球台検出に汎化できないためである。これは主に、実写映像における3次元軌道と回転の正解データが本質的に欠如していることに起因する。この問題を克服するため、我々は問題を前段の知覚タスクと後段の2次元-3次元変換タスクに分割する新しい二段階パイプラインを提案する。この分離により、新たに構築したTTHQデータセットからの豊富な2次元教師データで前段コンポーネントを学習可能とし、後段の変換ネットワークは物理的に正確な合成データのみで学習する。特に変換モデルは、検出漏れや可変フレームレートといった実世界で一般的な問題に頑健となるよう再設計した。ボール検出器と卓球台キーポイント検出器を統合することで、概念実証レベルの変換手法を、実用的で頑健、かつ高性能な3次元卓球軌道・回転分析のエンドツーエンド応用へと発展させる。