翻訳付きの日次キュレーションされたAI研究論文
エゴセントリック知覚は、人間が自身の視点から世界を直接体験し理解することを可能にします。エキソセントリック(三人称)映像をエゴセントリック(一人称)映像へ変換することは、没入型理解への新たな可能性を開くものの、極端なカメラ姿勢の変化と視野の重複の少なさから、依然として非常に困難な課題です。このタスクには、可視領域の内容を忠実に保ちつつ、未観測領域を幾何学的に一貫した方法で合成することが求められます。これを実現するため、単一のエキソントリック入力からエゴセントリック映像を生成する新規フレームワーク「EgoX」を提案します。EgoXは、大規模ビデオ拡散モデルの事前学習時空間知識を軽量なLoRA適応により活用し、幅方向とチャネル方向の連結を介してエキソセントリックとエゴセントリックの事前知識を統合する条件付け戦略を導入します。さらに、幾何学誘導型セルフアテンション機構が空間的に関連する領域を選択的に注目し、幾何学的整合性と高視覚忠実度を保証します。本手法は、未見映像や実世界映像に対しても強力な拡張性と頑健性を示しつつ、一貫性のある現実的なエゴセントリック映像生成を実現します。
歯科におけるマルチモーダルデータの信頼性ある解釈は、自動化された口腔医療に不可欠である。しかし、現在のマルチモーダル大規模言語モデル(MLLM)は、歯科画像の微細な視覚的詳細を捉えることが困難で、精密な診断に必要な推論能力も不十分である。これらの課題を解決するため、我々は高品質な領域知識注入と強化学習により開発された専門歯科MLLM「DentalGPT」を提案する。具体的には、診断に関連する視覚的特徴を詳細に記述した12万枚以上の歯科画像を統合し、歯科分野において現時点で最大の注釈付きマルチモーダルデータセットを構築した。このデータセットによる学習はMLLMの歯科病態に対する視覚的理解を大幅に強化し、続く強化学習段階ではマルチモーダル複合推論能力をさらに向上させる。口腔内写真とパノラマX線画像のベンチマーク、および医療VQAベンチマークの歯科サブセットを用いた総合的な評価により、DentalGPTは疾患分類と歯科VQAタスクにおいて優れた性能を発揮し、僅か70億パラメータながら多くの先進MLLMを凌駕することを実証した。これらの結果は、高品質な歯科データと段階的適応を組み合わせることで、能力の高い専門特化型歯科MLLMを構築する有効な道筋が得られることを示している。
視覚基盤モデル(VFM)の表現に基づく視覚生成は、視覚的理解、知覚、生成を統合する非常に有望な統一的なアプローチを提供する。この可能性にもかかわらず、VFM表現空間内で大規模なテキストから画像への拡散モデルを完全に学習する手法は、ほとんど未開拓の領域である。この隔たりを埋めるため、我々はSVG(自己教師あり視覚生成表現)フレームワークを拡張し、VFM特徴領域で直接高品質なテキストから画像への合成を実現するSVG-T2Iを提案する。標準的なテキストから画像への拡散パイプラインを活用することで、SVG-T2Iは競争力のある性能を達成し、GenEvalで0.75、DPG-Benchで85.78のスコアを記録した。この性能は、生成タスクにおけるVFMの本質的な表現能力を実証している。本研究では、オートエンコーダと生成モデル、それらの学習・推論・評価パイプライン、および事前学習済み重みを含むプロジェクトを完全にオープンソース化し、表現駆動型視覚生成のさらなる研究促進を図る。
現在の拡散モデルベースの肖像画アニメーション手法は、視覚的品質と表情のリアリズム向上に主眼が置かれている一方で、生成遅延やリアルタイム性能が軽視されており、ライブ配信シナリオにおける応用範囲を制限している。本研究ではPersonaLiveを提案する。これは、マルチステージ訓練レシピを用いたストリーミングリアルタイム肖像画アニメーションのための新しい拡散モデルベースのフレームワークである。具体的には、まず暗黙的面部表現と3D暗黙キーポイントからなるハイブリッド暗黙信号を採用し、表現力豊かな画像レベルのモーション制御を実現する。次に、より少ないステップ数の外観蒸留戦略を提案し、ノイズ除去プロセスにおける外観の冗長性を排除することで、推論効率を大幅に向上させる。最後に、スライディング訓練戦略と履歴キーフレーム機構を備えた自己回帰的マイクロチャンク・ストリーミング生成パラダイムを導入し、低遅延かつ安定した長期ビデオ生成を可能にする。大規模な実験により、PersonaLiveが従来の拡散モデルベースの肖像画アニメーション手法と比較して最大7~22倍の高速化を達成し、最先端の性能を発揮することを実証した。
大規模動画生成モデルは、実世界シーンにおける写実的な外観と照明相互作用のモデリングにおいて顕著な可能性を示しています。しかし、本質的なシーン特性(アルベド、法線、材質、放射照度など)を共同で理解し、それらを動画合成に活用し、さらに編集可能な本質的表現をサポートする閉ループフレームワークは未開拓の領域です。本論文では、本質的属性を考慮した初のエンドツーエンド動画編集フレームワーク「V-RGBX」を提案します。V-RGBXは以下の3つの核心機能を統合しています:(1) 本質的チャネルへの動画逆レンダリング、(2) これらの本質的表現からの写実的動画合成、(3) 本質的チャネルに条件付けられたキーフレームベース動画編集。V-RGBXの中核には、インターリーブ条件付けメカニズムを採用し、ユーザー選択キーフレームを通じた直感的で物理的に妥当な動画編集を実現し、あらゆる本質的モダリティの柔軟な操作をサポートします。大規模な定性・定量的評価により、V-RGBXが時間的一貫性のある写実的動画を生成しつつ、キーフレーム編集を物理的に妥当な方法でシーケンス全体に伝播できることを実証しました。物体外観編集やシーンレベルの再照明を含む多様な応用において、従来手法を凌駕する有効性を示しています。
Transformerベースの大規模言語モデル(LLM)における自己注意機構は、入力長に対して二次関数的に計算コストが増大するため、長文コンテキストの推論には高いコストが伴います。スライディングウィンドウ注意(SWA)はこのコストを線形計算量に削減しますが、完全注意(FA)で事前学習されたモデルにおいて、推論時に単純にSWAを適用すると、学習と推論の不一致から長文コンテキスト性能が大幅に低下します。ここで疑問が生じます:FAで事前学習されたLLMを再事前学習なしにSWAへ適応させることは可能か?本研究では、スライディングウィンドウ注意適応(SWAA)を提案し、この課題を検証します。SWAAは、より良い適応のための5つの手法を組み合わせた実践的なレシピです:(1)プリフィリング段階でのみSWAを適用、(2)「シンク」トークンの保持、(3)FA/SWA層の交互配置、(4)連鎖思考(CoT)、(5)ファインチューニング。実験結果から、SWAへの適応は非自明ながら実現可能であることが示されました:単一手法では不十分であるものの、特定の相乗効果を持つ組み合わせにより、元の長文コンテキスト性能を効果的に回復できます。さらに、様々なSWAA構成における性能と効率性のトレードオフを分析し、多様なシナリオに対応した推奨レシピを提供します。コードはhttps://github.com/yuyijiong/sliding-window-attention-adaptationで公開しています。
プリミティブベースのスプラッティング手法である3Dガウススプラッティングは、リアルタイムレンダリングによる新規視点合成に革命をもたらしました。しかし、その点ベースの表現は、AR/VRやゲームエンジンを支えるメッシュベースのパイプラインと互換性がありません。本論文では、微分可能レンダリングを通じてジオメトリと外観を共同最適化するメッシュベースの再構築手法「MeshSplatting」を提案します。制限付きドロネー三角形分割による接続性の確保と表面一貫性の洗練により、MeshSplattingはエンドツーエンドで滑らかで視覚的高品質なメッシュを生成し、リアルタイム3Dエンジンで効率的にレンダリングできます。Mip-NeRF360データセットでは、メッシュベース新規視点合成の現状最高手法であるMiLoをPSNRで+0.69dB上回り、学習速度は2倍高速、メモリ使用量は2分の1となり、ニューラルレンダリングとインタラクティブ3Dグラフィックスを統合してシームレスなリアルタイムシーンインタラクションを実現します。プロジェクトページはhttps://meshsplatting.github.io/で公開されています。
マルチモーダル学習は、強力な大規模言語モデル(LLM)を認知中核として活用するマルチモーダル大規模言語モデル(MLLM)を通じて、視覚理解を急速に発展させてきた。しかし、視覚生成の分野では、これらの強力な中核モデルは通常、拡散モデルのための大域的なテキストエンコーダーに縮小され、その推論・計画能力の大部分が未活用のままとなっている。これにより、現在のマルチモーダルLLMは複雑なレイアウト、属性、知識集約的なシーンを解析できる一方、同等に精密で構造化された制御を伴う画像や動画の生成には課題を抱えるというギャップが生じている。本研究では、MLLMが空間的および時空間的な潜在空間内で直接推論・計画を行い、拡散生成モデルと密接に連携する軽量フレームワーク「MetaCanvas」を提案する。我々はMetaCanvasを3つの異なる拡散モデルバックボーン上で実装し、テキストからの画像生成、テキスト/画像からの動画生成、画像/動画編集、文脈内動画生成を含む6つのタスクにおいて評価を行った。各タスクは精密なレイアウト、堅牢な属性バインディング、推論集約的な制御を必要とする。MetaCanvasは一貫して大域的條件付けベースラインを上回り、MLLMを潜在空間プランナーとして扱うことが、マルチモーダル理解と生成のギャップを埋める有望な方向性であることを示唆している。
現実とは、厳密な制約と変形可能な構造の間で繰り広げられるダンスである。映像モデルにおいては、これは忠実性と構造の両方を保持した動きを生成することを意味する。拡散モデルの進歩にもかかわらず、特に人間や動物のような関節構造を持つ物体や変形可能な物体において、現実的な構造保存的な動きを生成することは依然として困難な課題である。これまで、単に学習データをスケールアップするだけでは、物理的に不自然な遷移を解消することはできなかった。既存の手法は、オプティカルフローや外部の不完全なモデルから抽出された骨格など、ノイズの多い動き表現を用いた条件付けに依存している。これらの課題に対処するため、我々は自己回帰型映像追跡モデル(SAM2)から構造保存的な動きの事前分布を双方向映像拡散モデル(CogVideoX)に蒸留するアルゴリズムを提案する。本手法により、二つの革新を含むSAM2VideoXを学習する:(1)SAM2のような再帰型モデルから大域的な構造保存的動きの事前分布を抽出する双方向特徴融合モジュール;(2)局所的特徴が共にどのように動くかを整合させるLocal Gram Flow損失。VBenchおよび人間による評価実験において、SAM2VideoXは従来のベースラインと比較して一貫した性能向上(VBenchで+2.60%、FVDが21-22%低減、71.4%の人間選好度)を示した。具体的には、VBenchにおいて95.51%を達成し、REPA(92.91%)を2.60%上回り、FVDを360.57まで低減させ、REPAおよびLoRAファインチューニングと比較してそれぞれ21.20%、22.46%の改善を実現した。プロジェクトウェブサイトはhttps://sam2videox.github.io/で公開されている。
我々は、ロボットのための汎用言語駆動型知的エージェントフレームワーク「LEO-RobotAgent」を提案する。本フレームワークにより、大規模言語モデル(LLM)が様々なタイプのロボットを操作し、多岐にわたるシナリオで予測不能な複雑なタスクを完遂することが可能となる。このフレームワークは、強力な汎化性能、ロバスト性、効率性を特徴とする。これを核として構築されたアプリケーションレベルのシステムは、双方向の人間-ロボット意図理解を大幅に強化し、人間-ロボットインタラクションの参入障壁を低減することができる。 ロボットタスク計画に関して、既存研究の大半は単一タスクシナリオおよび単一ロボットタイプにおける大規模モデルの応用に焦点を当てている。これらのアルゴリズムは往々にして複雑な構造を持ち、汎用性に欠ける。そこで、提案するLEO-RobotAgentフレームワークは、可能な限り簡素化された構造で設計されており、大規模モデルがこの明確な枠組み内で自律的に思考、計画、行動することを可能にする。我々はモジュール化され容易に登録可能なツールセットを提供し、大規模モデルが様々な要件に対応するために柔軟にツールを呼び出せるようにした。同時に、フレームワークには人間-ロボットインタラクション機構が組み込まれており、アルゴリズムが人間のパートナーのように協働することが可能である。 実験により、本フレームワークが無人航空機(UAV)、ロボットアーム、車輪型ロボットを含む主流のロボットプラットフォームに容易に適応し、複雑さの異なる様々に工夫を凝らしたタスクを効率的に実行できることが検証された。コードはhttps://github.com/LegendLeoChen/LEO-RobotAgent で公開している。
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、その膨大なメモリと計算需要は積極的な量子化を必要とし、表現を1ビットという理論限界に向けて急速に押しやっている。iFairyのような複素数値LLMは、実数値モデルに比べて低ビット表現において優れた可能性を提供するが、スクラッチからの学習を必要とするため、事前学習済み実数値基盤モデルの広大なエコシステムの活用を妨げている。本論文ではFairy2iを提案する。これは事前学習済みの実数値層を等価な広義線形複素数形式に変換し、既存のチェックポイントを再利用しながら極端な低ビット量子化を可能とする普遍的なフレームワークである。実数写像と広義線形写像の間のロスレスな数学的等価性を証明することにより、標準的なTransformerを複素領域に変換し、4乗根からなる高効率なコードブックを用いた位相考慮型量子化スキームを採用する。さらに、量子化誤差を反復的に最小化する再帰的残余量子化機構を導入し、効率的な乗算不要の累積による推論を実現する。Fairy2iが、LLaMA-2 7Bの性能を実効2ビット精度においてフル精度ベースラインにほぼ匹敵する水準まで回復させ、最先端の実数値2値・3値量子化手法を大幅に上回ることを実証する。本研究は、複素数値演算の表現効率と事前学習モデルの実用性の間のギャップを埋め、市販ハードウェアにおける効率的な推論への新たな道を開くものである。
ステレオ基盤モデルは強力なゼロショット汎化性能を実現するが、リアルタイム応用には計算コストが過大である。一方、効率的なステレオアーキテクチャは速度を優先する代償として頑健性を犠牲にしており、ドメイン毎の高コストなファインチューニングを必要とする。この隔たりを埋めるため、我々は初めて強力なゼロショット汎化性能をリアルタイムフレームレートで達成するアーキテクチャ群であるFast-FoundationStereoを提案する。我々は分割征服型の高速化戦略を3つの構成要素で実施する:(1)ハイブリッドバックボーンを単一の効率的な学生モデルに圧縮する知識蒸留、(2)レイテンシ制約下で最適なコストフィルタリング設計を自動発見するブロック単位の神経アーキテクチャ探索(探索複雑性を指数関数的に低減)、(3)反復リファインモジュールの冗長性を排除する構造化プルーニング。さらに、合成学習データを補完し知識蒸留を促進するため、120万組の実世界ステレオペアを精選する自動擬似ラベリングパイプラインを導入する。結果として得られたモデルは、FoundationStereoのゼロショット精度を維持しつつ10倍以上高速に動作し、リアルタイム手法における新たなstate-of-the-artを確立する。プロジェクトページ:https://nvlabs.github.io/Fast-FoundationStereo/
本論文では、単一画像からの写実的なビュー合成手法「SHARP」を提案する。SHARPは単一の写真を入力として、描写されたシーンの3Dガウス表現のパラメータを回帰する。これは標準的なGPU上で、ニューラルネットワークの単一の順伝播により1秒未満で実行される。SHARPが生成する3Dガウス表現はリアルタイムでレンダリング可能であり、近傍視点における高解像度で写実的な画像を生成する。この表現は絶対スケールを持つ計量的な特性を有し、計量的なカメラ移動をサポートする。実験結果により、SHARPはデータセットを超えたロバストなゼロショット一般化性能を発揮することが実証された。複数のデータセットにおいて新たなstate-of-the-artを達成し、従来の最高性能モデルと比較してLPIPSを25-34%、DISTSを21-43%削減しつつ、合成時間を3桁短縮することに成功した。コードと重みはhttps://github.com/apple/ml-sharpで公開されている。
現代の大規模言語モデル事前学習は膨大な計算資源と訓練データを消費するため、異なるモデルのスケーリング特性(スケーリング則)は重要な差異要因となっている。離散拡散言語モデル(DLM)は自己回帰言語モデル(ALM)の代替として提案されているが、そのスケーリング特性は未だ十分に解明されておらず、従来研究ではALMと同等の性能を達成するためにより多くのデータと計算量を要すると示唆されていた。 本研究では、マスク拡散と一様拡散の間を滑らかに補間しつつ、バッチサイズや学習率などの重要ハイパーパラメータに注意を払うことで、異なるノイズタイプにおけるDLMのスケーリング特性を調査する。実験結果から、DLMのスケーリング特性はノイズタイプに強く依存し、ALMとは大きく異なることが明らかとなった。計算量制約下でのスケーリングでは全てのノイズタイプが同様の損失値に収束するが、計算効率の良い訓練においては、マスク拡散と比較して一様拡散はより多くのパラメータとより少ないデータを要することが分かり、データ制約環境における有望な候補となり得る。一様拡散モデルを10^{22} FLOPsで訓練し10Bパラメータまでスケールアップした結果、予測されたスケーリング特性が確認され、これは現在公開されている中で最大の一様拡散モデルとなった。
LLM-as-judge評価は、モデル評価のスケーリングにおけるデファクトスタンダードとなっているが、この手法は統計的に不健全である。較正されていないスコアは選好を逆転させ得る。較正されていないスコアに対する素朴な信頼区間は実質0%の被覆率となり、重要度重み付き推定量は高い有効サンプルサイズ(ESS)にも関わらず、限定的な重複の下では崩壊する。我々は、これら3つの問題を全て解決する枠組みであるCausal Judge Evaluation(CJE)を提案する。n=4,961件のChatbot Arenaプロンプト(5k件からフィルタリング後)を用いた評価において、CJEは全サンプルサイズで99%のペアワイズランキング精度(設定全体の平均94%)を達成し、オラクル品質に匹敵する。これは、16倍安価なジャッジを僅か5%のオラクルラベル(約250ラベル)で較正することにより、5つのポリシーをランキングするコストを14分の1に削減して実現した。CJEは以下の3つのコンポーネントを組み合わせる:(i) 平均保存等張回帰による報酬較正AutoCal-R、(ii) S-単調候補のスタッキングによる重み安定化SIMCal-W、(iii) 較正の不確実性を信頼区間に伝播させるOracle-Uncertainty Aware(OUA)推論。我々は、被覆率制限効率性(CLE)診断を定式化し、ESSが90%を超えてもIPS型推定量が失敗する理由(ターゲットポリシーが集中する領域をロガーがほとんど訪れない)を説明する。主な知見:SNIPSは重みの不安定性により報酬較正後もランキングを逆転(ペアワイズ38%、負のケンドールのτ)。較正済みIPSは重み安定化後もほぼランダム(47%)であり、CLEと一致。OUAは被覆率を実質0%から約86%(Direct)、約96%(stacked-DR)に改善し、素朴な区間の深刻な被覆不足を解決する。
本論文では、日常的な物体の単一の静的3Dメッシュを入力として、3Dパーツ、運動構造、動作制約を含む、関節構造の全ての属性を直接推論するフィードフォワード手法「Particulate」を提案する。その中核には、トランスフォーマーネットワークであるPart Articulation Transformerを採用している。このネットワークは、入力メッシュの点群を処理し、柔軟でスケーラブルなアーキテクチャにより、前述の全ての属性を、複数関節をネイティブにサポートしながら予測する。我々は、公開データセットから得た多様な関節付き3Dアセットを用いて、このネットワークをエンドツーエンドで学習させた。推論時には、Particulateはネットワークのフィードフォワード予測を入力メッシュに適用し、数秒で完全に関節化された3Dモデルを生成する。これは、オブジェクトごとの最適化を必要とする従来手法よりも遥かに高速である。またParticulateは、AI生成された3Dアセットの関節構造も正確に推論でき、既存の画像-to-3D生成器と組み合わせることで、単一の(実写または合成)画像から完全な関節付き3Dオブジェクトの抽出を可能にする。さらに、高品質な公開3Dアセットから厳選した、3D関節推定のための新たな難易度の高いベンチマークを導入し、評価プロトコルを人間の選好により一貫性のあるものに再設計した。定量的・定性的な結果は、Particulateが従来の最先端手法を大幅に上回ることを示している。
言語モデル(LM)を医療システムに統合することは、医療ワークフローと意思決定の改善において大きな可能性を秘めている。しかし、現実世界での導入における重大な障壁は、特に多言語医療環境において、その信頼性を評価する確立された方法が欠如している点である。既存のLMは主に高リソース言語で学習されており、中・低リソース言語における医療質問の複雑さと多様性に対処するには不十分である。これは、言語的多様性が鍵となるグローバルな医療現場にLMを展開する上で重大な課題をもたらす。本研究では、医療分野における言語モデルの信頼性を評価する包括的多言語ベンチマーク「CLINIC」を提案する。CLINICは、信頼性の5つの主要次元(真実性、公平性、安全性、頑健性、プライバシー)にわたり、18の多様なタスク、15言語(主要大陸を網羅)、疾患状態、予防措置、診断検査、治療、手術、薬剤など多岐にわたる重要な医療トピックを通じて、LMを体系的に比較評価する。我々の大規模な評価により、LMは事実の正確性に課題があり、人口統計学的・言語的グループ間でバイアスを示し、プライバシー侵害や敵対的攻撃に対して脆弱であることが明らかになった。これらの欠点を浮き彫りにすることで、CLINICは多様な言語にわたる医療分野でのLMのグローバルな到達範囲と安全性を向上させる基盤を築くものである。
本論文では、2025年BEHAVIOR Challengeにおいて1位を獲得した視覚-行動ポリシーを提案する。この大規模ベンチマークは、写実的なシミュレーション環境における50種類の多様な長時間ホライゾン家事タスクから構成され、両手操作、ナビゲーション、文脈を考慮した意思決定が要求される。 Pi0.5アーキテクチャを基盤として、我々は幾つかの革新を導入した。主な貢献は、フローマッチングにおける相関ノイズの提案であり、これにより学習効率が改善され、滑らかな行動系列のための相関を考慮したインペインティングが可能となった。さらに、学習可能な混合層アテンションと、曖昧性解消のためのSystem 2段階トラッキングを適用した。学習には分散低減のためのマルチサンプルフローマッチングを、推論時には行動圧縮と課題特有の補正ルールを採用している。 本手法は、公開及び非公開の両リーダーボードにおいて、全50タスクで26%のq-scoreを達成した。
大規模テキストコーパスの分析は、機械学習における中核的な課題であり、望ましくないモデル行動や訓練データ内のバイアスの特定などのタスクに不可欠である。現在の手法は、コストがかかるLLMベースの技術(データセット差異の注釈付けなど)や密な埋め込みモデル(クラスタリング用など)に依存することが多いが、これらは関心対象の特性を制御できない。我々は、スパースオートエンコーダ(SAE)を用いてSAE埋め込みを生成することを提案する。これは、各次元が解釈可能な概念に対応する表現である。4つのデータ分析タスクを通じて、SAE埋め込みがLLMよりも費用対効果が高く信頼性があり、密な埋め込みよりも制御性が高いことを示す。SAEの大規模な仮説空間を利用することで、(1)データセット間の意味的差異や(2)文書内の予期せぬ概念相関といった知見を明らかにできる。例えば、モデル応答を比較することで、Grok-4が他の9つのフロンティアモデルよりも曖昧さを明確にする頻度が高いことを発見した。LLMと比較して、SAE埋め込みは2~8倍低コストでより大きな差異を検出し、バイアスをより確実に特定する。さらに、SAE埋め込みは制御可能である:概念をフィルタリングすることで、(3)関心軸に沿った文書クラスタリングや、(4)特性ベース検索における密な埋め込みの性能向上を実現できる。SAE埋め込みを用いて、2つのケーススタディを通じてモデル行動を調査する:OpenAIモデルの行動が時間とともにどのように変化したかの調査と、Tulu-3(Lambert et al., 2024)が訓練データから学習した「トリガー」フレーズの発見である。これらの結果は、SAEを非構造化データ分析の汎用ツールとして位置づけ、データを通じたモデル解釈の重要性が軽視されてきた点を浮き彫りにする。
人間は複雑な活動を直感的に並列化できるが、モデルは単一人物の観察からこれを学習できるだろうか。一人称視点映像1本を入力として、我々はN-Body問題を提唱する:N人の個人が、この映像で観察された一連のタスクを仮想的にどのように実行し得るかという問題である。目標は高速化を最大化することだが、映像セグメントを個人に単純に割り当てるだけでは、現実世界の制約に違反し、二人の人物が同じ物体を使用したり同じ空間を占有するといった物理的に不可能なシナリオが生じがちである。この問題に対処するため、我々はN-Body問題を定式化し、性能(高速化、タスク網羅率)と実行可能性(空間的衝突、物体競合、因果的制約)の両方を評価する一連の指標を提案する。さらに、Vision-Language Model(VLM)が3D環境、物体使用、時間的依存関係について推論し、実行可能な並列実行計画を生成するよう導く構造化プロンプト戦略を導入する。EPIC-KitchensとHD-EPICの100本の映像を用いた実験では、N=2の場合、我々の手法はGemini 2.5 Proのベースラインプロンプトと比べて行動網羅率を45%向上させると同時に、衝突率、物体競合、因果的衝突をそれぞれ55%、45%、55%削減した。
不確実性推定は、医療画像セグメンテーションシステムの安全な臨床導入において不可欠であり、信頼性の低い予測の識別と人間による監視を支援する。従来の研究は主に画素レベルの不確実性に焦点を当ててきたが、ランドマークベースのセグメンテーションは本質的なトポロジー保証を提供する一方で、不確実性の観点からは未だ十分に探究されていない。本研究では、胸部X線画像における解剖学的ランドマークベースのセグメンテーションの不確実性推定を検討する。標準的な画像畳み込みエンコーダとグラフベースの生成的デコーダを組み合わせたハイブリッドニューラルネットワークアーキテクチャに着想を得て、その変分潜在空間を活用することで、二つの相補的指標を導出する:(i)学習された分布パラメータから直接抽出される潜在不確実性、(ii)潜在サンプルから複数の確率的出力予測を生成することで得られる予測不確実性。制御された改変実験を通じて、両方の不確実性指標が摂動の深刻度に応じて増加し、グローバルおよびローカルな劣化を反映することを示す。これらの不確実性シグナルが、手動で作成したグラウンドトゥルースとの比較により信頼性の低い予測を識別できること、およびCheXmaskデータセットにおける分布外検出を支援できることを実証する。さらに重要なのは、657,566件の胸部X線ランドマークセグメンテーションとノードごとの不確実性推定値を含む大規模データセットCheXmask-U(huggingface.co/datasets/mcosarinsky/CheXmask-U)を公開し、研究者がこれらの解剖学的マスクを使用する際にセグメンテーション品質の空間的変動を考慮できるようにした点である。我々の知見は、胸部X線におけるランドマークベースの解剖学的セグメンテーション手法のロバスト性と安全な導入を強化する有望な方向性として、不確実性推定を確立するものである。本手法の完全に動作するインタラクティブデモはhuggingface.co/spaces/matiasky/CheXmask-Uで、ソースコードはgithub.com/mcosarinsky/CheXmask-Uで公開されている。