AI研究論文デイリー

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28

ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang

マルチモーダル大規模言語モデル（MLLMs）は医療分野で大きな潜在能力を持っていますが、しばしば特定の医療領域におけるデータが不足しており、MLLMsが一般化に使用できる画像の種類を理解する必要性が強調されています。現在の研究では、複数タスクのトレーニングが単一タスクよりも優れていると示唆されており、異なるタスクが互いに利益をもたらすことができますが、これらのタスク内部の関係をしばしば見落としており、特定のタスクを強化するためのデータセットの選択に関する限られたガイダンスを提供しています。この現象を分析するために、我々は、学習した要素を再組み合わせることで新しい組み合わせを理解するモデルの能力である構成的一般化（CG）をガイドフレームワークとして採用しようとしました。医療画像はモダリティ、解剖領域、タスクによって正確に定義されるため、CGを探索する環境を自然に提供します。そのため、包括的な実験のために106の医療データセットを組み合わせてMed-MATを作成しました。実験は、MLLMsがCGを使用して見慣れない医療画像を理解し、複数タスクのトレーニングで観察される一般化の主要な要因の1つとしてCGを特定しました。さらに、さらなる研究では、CGがデータが限られているデータセットを効果的にサポートし、異なるバックボーン間で一貫したパフォーマンスを提供することが示され、その汎用性と広範な適用可能性が強調されました。Med-MATはhttps://github.com/FreedomIntelligence/Med-MAT で公開されています。

オブジェクトを生み出す：3Dオブジェクトからの4D生成

Bringing Objects to Life: 4D generation from 3D objects

Dec 29

ByOhad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik

最近の生成モデリングの進歩により、テキストプロンプトで制御される4Dコンテンツ（動く3Dオブジェクト）の作成が可能となりました。4D生成は、仮想世界、メディア、ゲームなどのアプリケーションにおいて大きな潜在能力を持っていますが、既存の手法は生成されたコンテンツの外観やジオメトリに対する制御が限られています。本研究では、ユーザー提供の3Dオブジェクトをアニメーション化する手法を紹介し、テキストプロンプトによって4D生成をガイドすることで、元のオブジェクトのアイデンティティを維持しながらカスタムアニメーションを可能にします。まず、3Dメッシュを入力オブジェクトの視覚的属性を保持する「静的」4Dニューラル輝度場（NeRF）に変換します。その後、テキストによって駆動される画像からビデオへの拡散モデルを使用してオブジェクトをアニメーション化します。動きのリアリズムを向上させるために、リアルな動きを促進するための視点選択プロトコルと、関連領域に最適化を焦点化するために注意マップを活用するマスク付きスコア蒸留サンプリング（SDS）損失を導入します。我々は、モデルの時間的一貫性、プロンプトへの遵守、視覚的忠実度に関して評価を行い、LPIPSスコアを使用して測定されたアイデンティティの保存において最大3倍の向上を達成し、視覚的品質と動的コンテンツのバランスを効果的に実現することができることを発見しました。

•

医療画像のためのマルチモーダルLLMの合成的汎化に関する研究