翻訳付きの日次キュレーションされたAI研究論文
我々は、映像生成モデルにモーション制御機能をもたらす、シンプルでスケーラブルなフレームワーク「Wan-Move」を提案する。既存のモーション制御手法は、制御粒度が粗くスケーラビリティに限界があるため、実用に耐える出力品質が得られていない。本手法は、精密かつ高品質なモーション制御を実現することでこの課題を解決する。中核となるアイデアは、元の条件付け特徴量を直接的にモーション認識可能にし、映像合成を誘導することである。このためまず、密な点軌跡で物体の動きを表現し、シーンに対するきめ細かい制御を可能にする。次にこれらの軌跡を潜在空間に投影し、各軌跡に沿って最初のフレームの特徴量を伝播させることで、各シーン要素がどのように動くべきかを指示する整列時空間特徴マップを生成する。この特徴マップは更新された潜在条件として機能し、Wan-I2V-14Bのような既存の画像対映像モデルにアーキテクチャ変更なしで自然に統合され、モーションガイダンスとして働く。補助的なモーションエンコーダが不要となり、ベースモデルのファインチューニングが容易にスケール可能となる。スケーリング学習を通じて、Wan-Moveは5秒間の480p映像を生成し、ユーザスタディで示されたように、そのモーション制御性はKling 1.5 Proの商用機能「Motion Brush」に匹敵する。包括的評価を支援するため、多様なコンテンツカテゴリと厳密に検証された注釈を備えたベンチマーク「MoveBench」を設計した。これはより大規模なデータ量、より長い映像持続時間、高品質なモーション注釈によって特徴づけられる。MoveBenchと公開データセットを用いた広範な実験により、Wan-Moveの優れたモーション品質が一貫して実証された。コード、モデル、ベンチマークデータは公開されている。
ニューラルレンダリング、特に3Dガウシアンスプラッティング(3DGS)は急速に進化し、世界モデル構築の重要な構成要素となっている。しかし、既存のビューアーソリューションは断片的で重く、あるいはレガシーパイプラインに制約されており、導入障壁が高く、動的コンテンツや生成的モデルへの対応が限られている。本研究では、Visionaryを提案する。これは様々なガウシアンスプラッティングとメッシュのリアルタイムレンダリングのためのオープンでWebネイティブなプラットフォームである。効率的なWebGPUレンダラーとフレーム単位のONNX推論を基盤として構築され、Visionaryは軽量な「クリック実行」型のブラウザ体験を維持しながら動的なニューラル処理を実現する。標準化されたGaussian Generator契約を導入し、標準的な3DGSレンダリングをサポートするだけでなく、プラグアンドプレイ方式でアルゴリズムがフレームごとにガウシアンを生成または更新できる。この推論機能により、フィードフォワード型の生成的後処理の適用も可能となる。さらに本プラットフォームは、既存のWebアプリケーションへのシームレスな統合を可能にする簡潔なTypeScript APIを備えたthree.jsライブラリプラグインを提供する。実験では、同一の3DGSアセット条件下において、VisionaryがGPUベースのプリミティブソートにより既存のWebビューアーよりも優れたレンダリング効率を達成することを示す。すでにMLPベースの3DGS、4DGS、ニューラルアバター、スタイル変換や拡張ネットワークを含む複数のバリアントをサポートしている。ブラウザ上で推論とレンダリングを直接統合することにより、Visionaryは3DGS系手法の再現、比較、導入の障壁を大幅に低減し、再構成型と生成型の両パラダイムに対する統一的な世界モデルキャリアとして機能する。
ビデオ顔交換技術は、映画やエンターテインメント制作において重要な役割を果たしており、長く複雑なビデオシーケンスにおいて高精細度と時間的一貫性を実現することは依然として大きな課題である。最近の参照画像誘導型画像編集の進展に着想を得て、我々はソースビデオから豊富な視覚的属性を同様に活用することで、ビデオ顔交換の忠実度と時間的一貫性の両方を強化できるかどうかを探求する。この知見に基づき、本論文は初のビデオ参照誘導型顔交換モデルであるLivingSwapを提案する。本手法はキーフレームを条件付け信号として用いて対象人物のIDを注入し、柔軟で制御可能な編集を実現する。キーフレーム条件付けとビデオ参照誘導を組み合わせることで、モデルは時間的接合を行い、長いビデオシーケンスにわたる安定したID保持と高精細な再構成を保証する。参照誘導型学習のためのデータ不足に対処するため、我々はペア化された顔交換データセットFace2Faceを構築し、データペアを反転させることで信頼性の高い教師信号を確保した。大規模な実験により、本手法が最先端の結果を達成し、対象人物のIDをソースビデオの表情・照明・動きとシームレスに統合するとともに、制作ワークフローにおける手作業を大幅に削減できることを実証した。プロジェクトウェブページ: https://aim-uofa.github.io/LivingSwap
実世界のビデオにおけるストーリーテリングは、多くの場合、複数のショットを通じて展開されます。これらは不連続でありながら意味的につながったクリップ群が、一貫したナラティブを構成するものです。しかし、既存のマルチショット動画生成(MSV)手法は、限られた時間ウィンドウや単一キーフレーム条件付けに依存するため、長距離にわたるショット間のコンテキストを効果的にモデル化できず、複雑なナラティブ下では性能が低下する課題があります。本研究では、一貫性かつスケーラブルなナラティブ生成を実現するため、グローバルでありながらコンパクトなショット間コンテキストモデリングを可能にするOneStoryを提案します。OneStoryはMSVを次ショット生成タスクとして再定義し、事前学習済み画像→動画(I2V)モデルの強力な視覚的条件付けを活かしながら、自己回帰的なショット合成を実現します。我々は二つの主要モジュールを導入します:過去のショットから情報量の多いフレームを基に意味的に関連するグローバルメモリを構築するフレーム選択モジュールと、重要度誘導型パッチ化によって直接条件付けのためのコンパクトなコンテキストを生成する適応型条件付けモジュールです。さらに、実世界のストーリーテリングパターンを反映した参照記述付きの高品質マルチショットデータセットを構築し、次ショットパラダイム下での効果的な学習戦略を設計しました。事前学習済みI2Vモデルを構築した6万データセットでファインチューニングしたOneStoryは、テキスト条件付け及び画像条件付けの両設定において、多様かつ複雑なシーンで最先端のナラティブ一貫性を達成し、制御可能で没入感のある長尺動画ストーリーテリングを実現します。
推論時の計算リソース拡大により大規模言語モデル(LLM)の推論性能は大幅に向上したが、本質的に逐次的なデコード処理は複雑なタスクにおいて特に顕著な遅延を引き起こす。近年の適応的並列推論に関する研究は、問題解決プロセスを有益な場合に並列推論スレッドに分解することで推論効率の向上を目指している。しかし、現実的なタスクにおける既存手法は、教師あり行動クローニングに限定されるか、広く使われる逐次的な長い思考連鎖(CoT)ベースラインと比較して精度が大幅に低下する。さらに、多くの手法はカスタム推論エンジンを必要とし、導入を複雑にしている。我々はThreadWeaverを提案する。これは適応的並列推論フレームワークであり、同等サイズの一般的な逐次推論モデルと同等の精度を維持しつつ、推論遅延を大幅に削減する。ThreadWeaverの高性能は3つの核心的革新に由来する:1)教師ありファインチューニング向けに並列注釈付きの大規模高品質CoTデータを生成する二段階並列軌道生成器、2)位置埋め込みやKVキャッシュを変更せずに既存の自己回帰型推論エンジンで並列推論を可能にするトライ木ベースの訓練-推論協調設計、3)精度と効果的並列化のバランスをモデルに学習させる並列化意識強化学習フレームワーク。6つの難易度高い数学的推論ベンチマークにおいて、Qwen3-8B上で訓練したThreadWeaverは最先端の逐次推論モデルと同等の精度(平均71.9%、AIME24で79.9%)を達成するとともに、トークン遅延で平均1.53倍の高速化を実現し、精度と効率性の新たなパレートフロンティアを確立した。
Video Instance Segmentation (VIS)は、ピクセルレベルのマスクと時間的一貫性ラベルの二重の要件から、アノテーションにおいて大きな課題に直面している。最近のVideoCutLERのような教師なし手法は合成データを通じてオプティカルフローへの依存を排除しているが、合成データと実データのドメインギャップによって依然制約を受けている。本論文では、品質誘導型自己学習を通じてこのギャップを埋める新しい教師なしフレームワークであるAutoQ-VISを提案する。本手法は擬似ラベル生成と自動品質評価の間の閉ループシステムを構築し、合成ビデオから実ビデオへの段階的適応を可能にする。実験では、YouTubeVIS-2019 valセットにおいて52.6 AP_{50}を達成し、従来の最先端手法であるVideoCutLERを4.4%上回る性能を示した。これにより、教師なしVISにおける品質認識型自己学習の有効性が実証された。コードはhttps://github.com/wcbup/AutoQ-VISで公開予定である。
現代の大規模言語モデルは、長い連鎖思考により印象的な推論能力を達成しているが、推論時に多大な計算コストが発生し、これが性能とコストの比率を改善する技術の動機となっている。こうした技術の中でも、投機的デコーディングは、高速だが不正確な下書きモデルを用いて自動回帰的にトークンを提案し、それをより高能力なターゲットモデルが並列で検証する推論加速手法である。しかし、意味的に等価なステップにおけるトークンの不一致による不必要な棄却のため、従来のトークンレベルの投機的デコーディングは推論タスクで苦戦する。近年の研究はステップレベルの意味的検証へ移行し、推論ステップ全体を受理または棄却することで効率を改善しているが、既存のステップレベル手法でも多くの棄却ステップを再生成するため改善が小さく、貴重なターゲットモデルの計算リソースが浪費されている。この課題に対処するため、我々はアービトラージ(Arbitrage)という新しいステップレベル投機的生成フレームワークを提案する。これは下書きモデルとターゲットモデルの相対的優位性に基づいて生成を動的に振り分ける。固定の受理閾値を適用する代わりに、アービトラージはターゲットモデルが意味的に優れたステップを生成しそうなタイミングを予測するように訓練された軽量なルーターを使用する。この振り分けは、常により高品質なステップを選択する理想的なアービトラージオラクルを近似し、最適に近い効率と精度のトレードオフを実現する。複数の数学的推論ベンチマークにおいて、アービトラージは従来のステップレベル投機的デコーディングベースラインを一貫して上回り、同等の精度で推論レイテンシを最大2倍近く削減した。
身体性模倣学習は、多様で長期的なロボット操作データの不足によって制約を受けている。この分野における既存の動画生成モデルは、単純な動作の短いクリップの合成に限定され、手動で定義された軌道に依存することが多い。この課題に対処するため、我々は物理的に妥当かつ論理的に一貫した長期的ロボット操作動画を合成する階層的フレームワーク「MIND-V」を提案する。認知科学に着想を得たMIND-Vは、以下の3つの核心コンポーネントを通じて高次推論と画素レベル合成を橋渡しする:事前学習済み視覚言語モデルを活用してタスク計画を行う意味的推論ハブ(SRH)、抽象的な指示を領域不変表現に変換する行動的意味ブリッジ(BSB)、条件付き動画レンダリングを行うモーター動画生成器(MVG)。MIND-Vはテスト時最適化戦略である段階的視覚的未来ロールアウトを採用し、長期的な頑健性を向上させる。生成動画を物理法則に適合させるため、新たな物理的予測一貫性(PFC)報酬に導かれたGRPO強化学習による事後学習段階を導入する。PFCはV-JEPA世界モデルを活用し、特徴空間における予測と実際の動的変化の整合性を強制することで物理的妥当性を確保する。MIND-Vは長期的ロボット操作動画生成において最先端の性能を示し、身体性データ合成のためのスケーラブルで制御可能なパラダイムを確立する。
マルチモーダル大規模言語モデル(MLLM)は、視覚・聴覚・言語情報を統合的に解釈することが期待されているが、既存の動画ベンチマークでは人間の音声に関する細粒度の推論能力を十分に評価していない。多くのタスクは視覚情報のみで解決可能か、音声を粗く評価するに留まり、モデルが「誰が」「何を」「いつ」発話したかを正確に紐付けられるかどうかの知見が限られていた。本研究では、実世界の動画における話者中心の視聴覚推論に焦点を当てた3,212問の選択式問題から構成されるAV-SpeakerBenchを提案する。本ベンチマークの特徴は以下の通りである:(1)シーンではなく話者を推論の基本単位とする話者中心の定式化、(2)質問の意味構造に視聴覚の依存関係を組み込んだ融合基盤型質問設計、(3)時間的精度とクロスモーダル妥当性を保証する専門家による注釈。包括的評価の結果、Geminiファミリーがオープンソースシステムを一貫して上回り、Gemini 2.5 Proが最高性能を示した。オープンモデルではQwen3-Omni-30BがGemini 2.0 Flashに接近したが、主に視聴覚融合能力の弱さによりGemini 2.5 Proには大きく遅れを取った。AV-SpeakerBenchは、将来のマルチモーダルシステムにおける細粒度視聴覚推論の発展に堅固な基盤を提供すると考えられる。
大規模言語モデル(LLM)の最近の進歩により、強力なコーディングエージェントが登場し、コードアシスタントがコードエンジニアへと進化する可能性が開かれました。しかし、既存の手法は、情報過多とLLMのコンテキストボトルネックとの根本的な衝突により、科学論文からコードへの変換といった、高精度なドキュメントからコードベースへの合成を実現する上で依然として重大な課題に直面しています。本研究では、原理に基づいた情報フロー管理を通じてこの課題に根本的に取り組む完全自律型フレームワーク「DeepCode」を提案します。DeepCodeはリポジトリ合成をチャネル最適化問題として扱い、有限のコンテキスト予算下でタスク関連信号を最大化するために4つの情報操作をシームレスに調整します:ブループリント蒸留によるソース圧縮、ステートフルコードメモリを用いた構造化インデックス作成、検索拡張生成による条件付き知識注入、そして閉ループ誤り修正です。PaperBenchベンチマークによる広範な評価により、DeepCodeが最先端の性能を達成し、CursorやClaude Codeといった主要な商用エージェントを決定的に凌駕し、さらに重要なことに、主要な再現指標においてトップ機関の博士号取得者レベルの人間の専門家をも上回ることを実証しました。本論文は、論文の仕様を人間の専門家に匹敵するプロダクショングレードの実装へと体系的に変換することにより、研究評価と発見を加速できる自律的科学再現の新たな基盤を確立します。
強化学習(RL)による事後学習は、生成モデルを人間の選好に合わせるために重要であるが、その膨大な計算コストが広範な採用における主要な障壁となっている。本論文では、ノイズ除去プロセスを探索木として再構築することで、学習効率を劇的に向上させる新しいRLフレームワーク「TreeGRPO」を提案する。TreeGRPOは、共有された初期ノイズサンプルから出発し、戦略的に分岐して複数の候補軌道を生成すると同時に、それらの共通接頭辞を効率的に再利用する。この木構造アプローチは3つの主要な利点をもたらす:(1)同じ学習サンプル数条件下でより優れた性能を達成する高いサンプル効率、(2)ステップごとのアドバンテージを計算する報酬の逆伝播による細粒度の信用割り当て(軌道ベース手法の均一な信用割り当ての限界を克服)、(3)マルチチャイルド分岐により1回の順伝播で複数のポリシー更新を可能とする償却計算。拡散モデルとフローベースモデル双方における大規模な実験により、TreeGRPOが効率と報酬のトレードオフ空間において優れたパレートフロンティアを確立しつつ、2.4倍の高速な学習を達成することを実証した。本手法は、複数のベンチマークと報酬モデルにわたってGRPOベースラインを一貫して上回り、RLベースの視覚的生成モデルアラインメントのためのスケーラブルかつ効果的な経路を提供する。プロジェクトウェブサイトは treegrpo.github.io で公開されている。
本論文は、RAW入力を処理し高品質な表示参照画像を出力するモジュール型ニューラル画像信号処理(ISP)フレームワークを提案する。従来のニューラルISP設計とは異なり、本手法は高度なモジュール性を導入し、画像レンダリングプロセスにおける複数の中間段階を完全に制御可能とする。このモジュール設計は、高精度なレンダリングを実現するだけでなく、スケーラビリティ、デバッグ容易性、未見カメラへの一般化、異なるユーザー嗜好スタイルへの適応性を向上させる。本設計の利点を実証するため、提案ニューラルISPを活用し多様な編集操作と写真スタイルをサポートする対話型写真編集ツールを構築した。このツールは、ニューラルISPの高品質レンダリングを最大限に活用し、制限のない再編集可能な再レンダリングを実現するよう精巧に設計されている。提案手法は完全学習ベースのフレームワークであり、パイプライン全体のパラメータ数が中規模(約0.5M~約3.9M)の異なる容量バリエーションを有する。複数のテストセットにおいて、一貫して競争力のある定性的・定量的結果を達成している。補足動画は以下で閲覧可能:https://youtu.be/ByhQjQSjxVM
大規模言語モデル(LLM)は生成タスクに優れるが、主流の自己回帰(AR)復号化は本質的に逐次的であり、スループットのボトルネックを生み出す。拡散言語モデル(DLM)、特にブロック単位の変種は、並列生成とブロック内双方向推論を可能にするが、大規模なDLMをスクラッチから訓練するにはコストがかかり、成熟したARチェックポイントの知識を無駄にしてしまう。従来の「適応」手法は、ロジットを変更したり注意マスクをランダムに全系列拡散用に拡張したり、あるいは単にARの重みをブロック拡散レシピに移植するものであり、ARの因果性とブロック単位双方向性の根本的な不一致に対処できていなかった。本研究では、ARをブロックサイズ1のブロック拡散と見なすことで、適応をARからブロック拡散へのパラダイム内経路として再定義する。具体的には、以下の適応経路を設計する:文脈因果的注意マスク(文脈内では因果的、活性ブロック内でのみ双方向)、効率的な並列適応手順、データ利用率を最大化し事前学習知識を保持する補助AR損失、生成ブロックサイズの漸増。このレシピはマスク付きブロック拡散とシームレスに統合され、訓練と推論の一貫性を維持する。これらの構成要素に基づいて構築されたNBDiff-7B(Base版とInstruct版)は、長文脈モデリングと推論能力を継承し、7BクラスのDLMの中で最先端の性能を達成し、一般知識、数学、コードのベンチマークにおいて強力なベースラインを上回る大幅な改善を示した。これらの結果は、原理に基づいたARからブロック拡散への適応が、DLMをスクラッチから訓練するための効果的かつ計算効率の高い代替手段であることを実証している。コード:https://github.com/YuchuanTian/NBDiff。
動的シーンにおける複雑な幾何学構造と運動を映像から理解し再構築することは、コンピュータビジョンにおける依然として困難な課題である。本論文は、この課題を効率的に解決するために設計された、シンプルかつ強力な順伝播型モデルであるD4RTを提案する。D4RTは統一されたトランスフォーマーアーキテクチャを利用し、単一の映像から深度、時空間的対応関係、および完全なカメラパラメータを共同で推論する。その中核となる革新は、密なフレーム単位のデコーディングに伴う膨大な計算や、複数のタスク特化型デコーダを管理する複雑さを回避する、新規のクエリ機構である。本モデルのデコーディングインターフェースは、時空間内の任意の点の3次元位置を独立かつ柔軟に探索することを可能にする。その結果、軽量で拡張性の高い手法を実現し、非常に効率的な学習と推論を可能とする。我々のアプローチは、広範な4次元再構築タスクにおいて従来手法を凌駕し、新たな技術水準を確立することを実証する。動画による結果はプロジェクトWebページ(https://d4rt-paper.github.io/)を参照されたい。
近年の大規模視覚言語モデル(VLM)は視覚言語ナビゲーション(VLN)における汎化性能を向上させてきたが、既存手法の多くは、視覚言語入力を直接短期的な離散行動にマッピングするエンドツーエンドのパイプラインに依存している。このような設計では、断片的な動作が生じやすく、高レイテンシが発生し、動的障害物回避といった現実世界の課題に対処することが困難である。我々は、高次推論と低次行動実行を協調的に統合する、初のデュアルシステムVLN基盤モデルであるDualVLNを提案する。System 2はVLMベースの大域プランナーとして、画像に基づく推論により中期的なウェイポイント目標を予測するという「遅い接地」を行う。System 1は軽量なマルチモーダル条件付きDiffusion Transformerポリシーとして、System 2から得られる明示的なピクセル目標と潜在特徴の両方を活用し、滑らかで正確な軌道を生成するという「速い動作」を実現する。このデュアルシステム設計により、複雑で動的な環境におけるロバストなリアルタイム制御と適応的な局所意思決定が可能となる。訓練を分離することで、VLMはその汎化性能を保持し、System 1は解釈性が高く効果的な局所ナビゲーションを達成する。DualVLNは、全てのVLNベンチマークにおいて従来手法を凌駕し、実世界実験では動的環境におけるロバストな長期的計画とリアルタイム適応性を実証した。
基盤エージェントは、現実環境での推論と相互作用能力が急速に進化しており、その中核的能力の評価がますます重要になっています。既存の多くのベンチマークはエージェント性能の評価を目的としていますが、そのほとんどは学術的設定や人為的に設計されたシナリオに焦点を当てており、実アプリケーションで生じる課題を見落としています。この問題に対処するため、我々は実世界での応用性が極めて高い電子商取引領域に着目します。この領域は、多様なユーザーインタラクションが大量に発生し、市場環境が動的に変化し、現実の意思決定プロセスに直結するタスクを包含する特徴があります。本論文では、現実的なEコマース環境下でのエージェント性能を評価する包括的ベンチマーク「EcomBench」を提案します。EcomBenchは、世界主要Eコマースエコシステムに埋め込まれた実際のユーザー需要に基づいて構築され、明確性、正確性、領域関連性を保証するため専門家による入念な選定と注釈を経ています。Eコマースシナリオ内の複数のタスクカテゴリを網羅し、深層情報検索、多段階推論、クロスソース知識統合といった重要能力を評価する3段階の難易度を定義しています。実Eコマース文脈に根ざした評価を通じて、EcomBenchは現代のEコマースにおいてエージェントが持つ実践的能力を測定する厳密かつ動的なテストベッドを提供します。
大規模推論モデルは、長い思考連鎖を生成することで複雑なタスクにおいて高い性能を発揮するが、しばしば「過剰思考」に陥る。すなわち、正答に十分な情報が得られた後も推論を継続してしまう。これは推論時の計算資源を浪費し、精度を損なう可能性がある。既存の早期終了手法は、追加のサンプリングやヒューリスティクスを用いたデコード操作、補助的な検証モデルへの依存、あるいは事後解析パイプラインとしてのみ機能するものが多く、形式的保証を欠いていた。本研究では、モデル自身の隠れ状態の認識を信頼度制御された停止判断に変換するオンライン早期終了機構LYNXを提案する。LYNXは、生成中に自然発生する推論の手がかり(例:「うーん」「待てよ」)に終了判断を付与し、強制終了による教師信号を用いてこれらの手がかりトークンにおける隠れ状態に軽量なプローブを訓練する。さらに、得られたスコアを分割コンフォーマル予測で包むことで、早期終了に対する分布非依存的な制御を実現する。重要な点は、このプローブを汎用数学コーパスで一度訓練・較正するだけで、ベンチマークやデコード温度、非数学タスクにわたって変更なく再利用できることである。1.5Bから32Bパラメータにわたる3つのモデルファミリーにおいて、ベースモデルごとに数学的に訓練された単一のプローブが、精度と効率性の優れたトレードオフを実現した。GSM8Kでは、ベースライン精度を維持または向上させつつトークン数を40-65%削減。MATH-500では最大12ポイントの精度向上と約35-60%のトークン削減。AIME 2024ではベースライン精度を維持しつつ50%超のトークン節約。非数学ベンチマークであるCommonsenseQAでは、ゼロショット転移によりわずかな精度向上と最大70%のトークン削減を達成した。最先端の早期終了手法と比較して、LYNXは競争力のあるあるいは優れたパレートフロンティアを提供しつつ、完全なオンライン動作、推論時の代理モデル不要、ユーザー調整可能な明示的な信頼保証を実現している。
単眼3Dトラッキングは、単一の単眼ビデオから3D空間内のピクセルの長期的な動きを捉えることを目的とし、近年急速な進歩を遂げている。しかし、既存の単眼3Dトラッキング手法は、前景の動的動きからカメラ運動を分離することが不十分であり、ビデオ内で新たに出現する動的対象を密に追跡できないという問題点がある。これら2つの課題を解決するため、本論文では世界座標系におけるほぼ全てのピクセルの高密度3Dトラッキングを実現する新たなパイプライン「TrackingWorld」を提案する。まず、任意の疎な2Dトラックを効率的に高密度な2Dトラックに変換するトラッキングアップサンプラを導入する。次に、現在のトラッキング手法を新規出現対象に一般化するため、アップサンプラを全フレームに適用し、重複領域のトラックを除去することで2Dトラックの冗長性を低減する。最後に、カメラ姿勢とこれらの2Dトラックの3D座標を推定することで、高密度2Dトラックを世界中心の3D軌跡に逆投影する効率的な最適化ベースのフレームワークを提示する。合成データセットと実世界データセットにおける広範な評価により、本システムが世界座標系において正確かつ高密度な3Dトラッキングを実現することを実証する。
脳腫瘍は人間の生命に重大な脅威をもたらすため、より適切な診断と治療のために初期段階で正確に検出することが極めて重要である。脳腫瘍は、患者のMRIスキャン画像から放射線科医が手動で検出することが可能である。しかし、近年では小児および思春期における脳腫瘍の発症率が上昇しており、その結果、膨大な量のデータが生成されるため、手動での検出には時間がかかり困難となっている。現代社会における人工知能の台頭と医療分野でのその広範な応用により、脳腫瘍を自動的に早期検出するためのCAD(コンピュータ支援診断)システムへのアプローチが可能となる。この課題に対する既存のモデルは完全には一般化されておらず、検証データでの性能が不十分である。そこで我々は、2つの新しい深層学習アーキテクチャを提案した。(a) 各種脳腫瘍の分類を行うためのSAETCN(Self-Attention Enhancement Tumor Classification Network)である。検証データセットにおいて99.38%の精度を達成し、脳腫瘍を正確に検出できる数少ない新しい深層学習ベースのアーキテクチャの一つとなった。本モデルは、3種類の腫瘍(神経膠腫、髄膜腫、下垂体腫瘍)および非腫瘍症例の画像を含むデータセットで学習を行った。(b) 脳腫瘍の正確なセグメンテーションを行うためのSAS-Net(Self-Attentive Segmentation Network)である。全体のピクセル精度として99.23%を達成した。
メモリ拡張型大規模言語モデル(LLM)は、関連するメモリを保存しそれをコンテキストとして組み込むことで、長時間にわたる対話において顕著な一貫性を実証している。このようなメモリに基づくパーソナライゼーションは、ユーザーが会話とデータを非公開にできるオンデバイス設定においても重要である。しかし、メモリ拡張型システムは通常、ローカルでのオンデバイス展開にはコストが高すぎるLLMに依存している。小規模言語モデル(SLM)はLLMよりもオンデバイス推論に適しているが、十分な性能を達成できない。さらに、これらのLLMベースのシステムはネイティブの視覚機能を欠いており、マルチモーダルな文脈での適用性が制限されている。本論文では、(i)専用のメモリアダプタをSLMに装備することでローカル展開を可能にする新しいメモリシステムMemLoRAと、(ii)小規模視覚言語モデル(SVLM)をメモリシステムに統合しネイティブの視覚理解を可能にするその視覚拡張版MemLoRA-Vを提案する。知識蒸留の原理に従い、各アダプタは特定のメモリ操作(知識抽出、メモリ更新、メモリ拡張生成)のために個別に訓練される。メモリアダプタを装備した小型モデルは、クラウドへの依存なしで正確なオンデバイスメモリ操作を可能にする。テキストのみの操作では、MemLoRAは10倍大きいベースラインモデル(例:Gemma2-27B)を上回り、LoCoMoベンチマークでは60倍大きいモデル(例:GPT-OSS-120B)に匹敵する性能を達成する。視覚理解操作を評価するため、我々は直接的な視覚推論を必要とする挑戦的な視覚質問応答タスクでLoCoMoを拡張した。これにおいて、VLM統合型のMemLoRA-Vは、キャプションベースのアプローチ(精度23.7)に対して大幅な改善(精度81.3)を示し、テキストベースのタスクでも強力な性能を維持し、マルチモーダル文脈における本手法の有効性を実証している。
Human Mesh Recovery (HMR) は、2次元観測データから3次元人体姿勢と形状を復元することを目的とし、実世界シナリオにおける人間中心の理解の基盤となる技術である。SAM 3D Bodyに代表される近年の画像ベースHMR手法は、実写画像に対する高い頑健性を実現しているが、動画に適用する際はフレーム単位の推論に依存するため、時間的な不一致や遮蔽下での性能劣化が生じる。本研究では、追加の学習を必要とせず、動画が持つ人間の連続性に着目してこれらの課題に取り組む。訓練不要な枠組みであるSAM-Body4Dを提案し、動画からの時間的に一貫性があり遮蔽に頑健なHMRを実現する。まず、プロンプト可能な動画セグメンテーションモデルを用いてアイデンティティに一貫したマスクレットを生成し、Occlusion-Awareモジュールで精密化して欠損領域を復元する。精密化されたマスクレットがSAM 3D Bodyを誘導し、一貫性のある全身メッシュ軌跡を生成する。さらに、パディングに基づく並列化戦略により効率的な多人推論を可能にする。実験結果から、SAM-Body4Dが再学習を一切行わずに、困難な実写動画において時間的安定性と頑健性の向上を達成することを示す。コードとデモはhttps://github.com/gaomingqi/sam-body4dで公開している。
非定常流れに対する高速かつ形状一般化が可能な代理モデルの開発は依然として困難な課題である。本研究では、パラメトリックおよびノンパラメトリック形状周りの中等レイノルズ数流れの速度場を予測する、時間依存かつ形状認識型のDeep Operator Networkを提案する。本モデルは、符号付き距離場(SDF)を利用したトランクネットワークで形状を符号化し、CNNブランチで流れの履歴を符号化する。841件の高精度シミュレーションデータを用いて学習され、検証用形状において、CFD計算と比較してL2相対誤差約5%(単一ステップ)、最大1000倍の高速化を達成した。長期予測の忠実度を定量化するため、物理現象に焦点を当てたロールアウト診断(プローブ点での位相誤差、発散ノルムなど)を実施した。その結果、短期的な過渡現象は精度良く予測できる一方、微細な渦構造を含む後流領域では誤差が蓄積すること、特に角ばった幾何形状でこの傾向が顕著であることが明らかになった。故障モードの分析と実用的な緩和策についても述べる。再現性とベンチマークを支援するため、コード、データ分割、スクリプトをhttps://github.com/baskargroup/TimeDependent-DeepONet で公開している。
3Dガウシアンスプラッティング(3DGS)は、リアルタイムかつ高精細な3次元再構成および新視点合成を可能とする強力な明示的表現として登場した。しかし、数百万ものガウシアンを保存・レンダリングするために必要な膨大なメモリと計算コストが実用上の障壁となっている。これらの課題は、4次元動的シーンにおいてさらに深刻化する。こうした問題に対処するため、再構成品質を維持しつつ冗長性を削減する手法を提案する「効率的ガウシアンスプラッティング」の分野が急速に発展している。本サーベイは、効率的な3D/4Dガウシアンスプラッティング技術について初めて統一的な概観を提供する。3Dおよび4Dの両設定において、既存手法を「パラメータ圧縮」と「構造再編成による圧縮」という二つの主要方向に体系的に分類し、各カテゴリ内の核心的な考え方と手法の潮流を包括的にまとめる。さらに、広く利用されているデータセット、評価指標、代表的なベンチマーク比較についても詳述する。最後に、静的および動的3Dシーン表現のための、スケーラブルでコンパクト、かつリアルタイムなガウシアンスプラッティングを目指した現状の限界と有望な研究方向性について議論する。
本論文では、マルチモーダル大規模言語モデル(MLLM)におけるクロスモーダル不一致を体系的に評価するため、2つの新規ベンチマークRESTおよびREST+(Render-Equivalence Stress Tests)を提案する。MLLMは視覚情報と言語情報を同一の埋め込み空間で表現するよう学習されるが、両モーダルで同等のタスクを遂行することはできない。我々のベンチマークは、画像、テキスト、混合という3つのモーダルにおいて同一の意味情報を含むサンプルで構成され、最先端MLLMがこれらの異なるモーダル間で一貫した推論を行えないことを示す。15種類のMLLMを評価した結果、テキスト認識(OCR)の問題を考慮しても、モーダル不一致の程度がモデル間で大きく異なることが明らかとなった。テキストを画像としてレンダリングする場合も、画像をテキストとしてレンダリングする場合も、不一致の解消には至らない。OCRが正確であっても、視覚的特性(文字色と解像度。フォントは除く)や視覚トークン数がモデル性能に影響を及ぼすことが確認された。最後に、提案する一貫性スコアがテキストと画像間のモーダルギャップと相関することを発見し、クロスモーダル不一致を生むMLLMのメカニズム的解釈を提示する。
数十年にわたり、プロシージャルな世界構築はパーリンノイズなどのプロシージャルノイズ関数に依存してきた。これらは高速で無限に生成可能だが、リアリズムと大規模な一貫性において根本的な限界があった。本論文では、パーリンノイズのAI時代における後継技術としてTerrain Diffusionを提案する。これは、拡散モデルの高忠実性と、プロシージャルノイズを不可欠なものにしてきた特性(シームレスな無限拡張性、シード一貫性、定数時間ランダムアクセス)を橋渡しする。その中核には、無限生成のための新規アルゴリズムであるInfiniteDiffusionがあり、境界のない景観をシームレスかつリアルタイムで合成する。階層的な拡散モデルのスタックは、惑星規模の文脈と局所的な詳細を結合し、コンパクトなラプラシアン符号化は地球規模のダイナミックレンジにわたる出力を安定させる。オープンソースの無限テンソルフレームワークは、無制限のテンソルを定数メモリで操作することを可能にし、少数ステップの一貫性蒸留は効率的な生成を実現する。これらの要素が統合されることで、拡散モデルはプロシージャルな世界生成の実用的な基盤となり、惑星全体を一貫性と制御性を保ちながら、限界なく合成することが可能となる。