翻訳付きの日次キュレーションされたAI研究論文
高性能画像生成モデルの現状は、Nano Banana ProやSeedream 4.0といったプロプライエタリなシステムが支配的です。Qwen-Image、Hunyuan-Image-3.0、FLUX.2などの主要なオープンソース代替モデルは、巨大なパラメータ数(200億から800億)を特徴とし、コンシューマー向けハードウェアでの推論やファインチューニングを非現実的なものにしています。この格差を埋めるため、我々は「規模拡大一辺倒」のパラダイムに挑戦する、スケーラブルなシングルストリーム拡散トランスフォーマー(S3-DiT)アーキテクチャに基づく効率的な60億パラメータ基盤生成モデル「Z-Image」を提案します。精選されたデータインフラから合理化された訓練カリキュラムまで、モデルライフサイクル全体を体系的に最適化することで、完全な訓練ワークフローをわずか31万4千H800 GPU時間(約63万米ドル)で完了させました。報酬による事後訓練を組み合わせた数ステップ蒸留スキームにより、Z-Image-Turboを開発し、エンタープライズ向けH800 GPUでのサブ秒レベルの推論遅延とコンシューマー向けハードウェア(16GB VRAM未満)との互換性を両立させています。さらに、我々のオムニ事前訓練パラダイムは、優れた指示追従能力を備えた編集モデルZ-Image-Editの効率的な訓練も可能にします。定性的および定量的実験の両方において、本モデルが様々な次元で主要競合モデルに匹敵あるいは凌駕する性能を達成することを実証しています。特にZ-Imageは、写真的画像生成と二言語テキスト描画において卓越した能力を示し、トップクラスの商用モデルと互角の結果を提供することで、計算コストを大幅に削減しながら最先端の結果が達成可能であることを実証しました。コード、重み、オンラインデモを公開し、アクセス可能で低コストかつ最先端の生成モデルの発展を促進します。
近年、画像編集モデルは著しい進歩を見せている。一般的なアーキテクチャ設計として、マルチモーダル大規模言語モデル(MLLM)エンコーダと拡散デコーダの組み合わせが挙げられ、Step1X-EditやQwen-Image-Editなどのシステムで採用されている。これらではMLLMが参照画像と指示の両方を符号化するが、訓練中は固定されたままである。本研究では、MLLMの推論能力を解放することで、編集モデルの限界をさらに押し広げられることを実証する。具体的には、思考と反省という二つの推論メカニズムを探求し、指示理解と編集精度を向上させる。これに基づき、提案するフレームワークは「思考-編集-反省」ループによる画像編集を実現する。思考メカニズムはMLLMの世界知識を活用して抽象的な指示を解釈し、反省メカニズムは編集結果を検証して意図しない操作を自動修正し、終了タイミングを特定する。大規模な実験により、当社の推論アプローチがStep1X-EditからDiTを初期化した場合(ReasonEdit-S)、ImgEdit(+4.3%)、GEdit(+4.7%)、Kris(+8.2%)で顕著な性能向上を達成し、Qwen-Image-Editと統合した場合(ReasonEdit-Q)もGEditとKrisの両方で従来のオープンソース手法を上回ることを実証した。
近年、マルチ人物ビデオ生成が注目を集め始めている。音声駆動型のマルチ人物会話ビデオ生成についてはいくつかの先行研究が存在するが、多様なマルチ人物データ収集のコストの高さや、複数のアイデンティティを一貫した相互作用で駆動する難しさから課題に直面している。これらの課題に対処するため、我々は拡張可能なマルチストリーム処理アーキテクチャを特徴とするマルチ人物生成フレームワーク「AnyTalker」を提案する。具体的には、Diffusion Transformerのアテンションブロックを拡張し、アイデンティティと音声のペアを反復処理することで駆動可能なアイデンティティの任意のスケーリングを可能にする新規のアイデンティティ認識アテンション機構を実装した。さらに、マルチ人物生成モデルの学習には大規模なマルチ人物データが必要となるが、提案する学習パイプラインは単一人物ビデオのみでマルチ人物の会話パターンを学習し、少数の実マルチ人物クリップで相互作用性を洗練する。加えて、生成されたマルチ人物ビデオの自然さと相互作用性を評価するための指標とデータセットを構築した。大規模な実験により、AnyTalkerが優れた口唇同期性、視覚的品質、自然な相互作用性を達成し、データコストとアイデンティティ拡張性の間で良好なバランスを実現することを実証した。
本論文では、条件付き生成向けに設計されたBrownian Bridge Modelsの大規模実装であるVision Bridge Transformer(ViBT)を提案する。従来の拡散モデルがノイズをデータに変換するのに対し、Bridge Modelsは入力と出力の間の軌道を直接モデル化し、効率的なデータ間変換パラダイムを構築する。本モデルを200億パラメータ及び13億パラメータ規模にスケーリングし、画像・動画変換タスクにおける有効性を実証する。この規模を支えるため、Transformerアーキテクチャを採用し、ロバストな訓練のための分散安定化速度マッチング目的関数を提案する。これらの進歩により、指示ベース画像編集や複雑な動画変換におけるBridge Modelsのスケーリング効果が明らかとなった。
画像生成と理解のための統合マルチモーダルモデルは、AGIに向けた重要な一歩を表し、研究者の幅広い注目を集めている。この課題の主な難しさは、理解タスクと生成タスクに内在する目標の衝突により、最適な訓練パラダイムを確立することが困難な点にある。これらの衝突を緩和し、より高い性能を追求するため、多くの研究者が様々な程度のモデル分離(例:二重画像エンコーダ、MOE/MOTアーキテクチャ、または凍結されたMLLM)を採用している。しかし、過度なモデル分離は、インタリーブ生成能力の喪失を招き、統合モデルの本来の意図を損なう可能性がある。本研究では、モデル分離に頼らずにタスク衝突を緩和する方法を探ることを目的とする。まず、モデルのクロスモーダル注意行動を研究することで、分離がなぜ衝突を緩和するのかを分析する。モデル分離が本質的に、Qwen-VLやHunyuanImageに見られるように、モデルをタスク特化的なマルチモーダル相互作用パターンに向かわせること、そして分離が徹底されるほど行動の一貫性が高まることを観察した。この観察に動機付けられ、我々は訓練中にタスク特化的なマルチモーダル相互作用パターンを明示的に学習するAttention Interaction Alignment(AIA)損失を提案する。我々のAIA損失の一般性を示すため、Emu3とJanus-ProにそれぞれSFT段階と事後訓練段階で適用した。余計な工夫を一切加えずとも、AIAはクロスモーダル注意パターンを洗練させるだけでなく、生成と理解の両方の性能を向上させた。
大規模言語モデルは数学的推論において著しい進歩を遂げており、これはAIの重要な試験場として機能し、さらなる発展により科学研究に影響を与える可能性がある。正解を報酬とする強化学習による推論のスケーリングにより、LLMは低い性能状態から1年でAIMEやHMMTといった定量的推論競技で飽和する水準まで改善した。しかし、このアプローチには根本的な限界が存在する。最終回答精度の向上を追求しても、正解が正しい推論を保証しないという核心的課題は解決されない。さらに、定理証明のような多くの数学的タスクは数値的な回答ではなく厳密な段階的導出を必要とするため、最終回答報酬は適用不能である。深い推論の限界に挑むためには、数学的推論の包括性と厳密性を検証する必要性があると考えられる。特に既知の解がない未解決問題に対して、テスト時計算資源のスケーリングにおいて自己検証は極めて重要である。自己検証可能な数学的推論に向けて、我々は定理証明における正確で忠実なLLMベースの検証器の訓練方法を検討する。次に、この検証器を報酬モデルとして用いて証明生成器を訓練し、生成器が自身の証明を最終確定する前に可能な限り多くの問題点を特定し解決するよう動機付ける。生成器が強くなるにつれて生成-検証ギャップを維持するため、検証計算資源をスケールアップして新たな検証困難な証明を自動的にラベル付けし、検証器をさらに改善する訓練データを作成する提案を行う。結果として得られたモデルDeepSeekMath-V2は、強力な定理証明能力を示し、IMO 2025とCMO 2024で金賞レベル、Putnam 2024ではスケーリングされたテスト時計算資源により120点満点中118点というほぼ完璧な成績を達成した。
拡散モデルは、生成品質と計算効率の間で本質的なトレードオフに直面している。潜在拡散モデル(LDM)は効率的な解決策を提供するが、情報損失の可能性と非エンドツーエンド学習という課題を抱える。一方、既存のピクセル空間モデルはVAEを回避するが、高解像度合成には計算コストが過大となる。この課題を解決するため、我々は効率的なピクセル空間拡散フレームワーク「DiP」を提案する。DiPは生成プロセスを大域段階と局所段階に分離する:Diffusion Transformer(DiT)バックボーンが大規模パッチを処理して効率的な大域構造構築を行い、同時学習される軽量なPatch Detailer Headが文脈特徴を活用して細粒度の局所詳細を復元する。この協調的設計により、VAEに依存することなくLDMに匹敵する計算効率を実現する。DiPは従来手法比最大10倍の高速推論を達成し、パラメータ総数はわずか0.3%の増加に抑えられ、ImageNet 256×256で1.79のFIDスコアを達成した。
強力な推論能力を備えた一般化可能なVision-Language-Action(VLA)モデルを構築するためには、まずロボット実証データで専門特化型VLAを訓練して確かな操作技能を獲得し、その後、注釈付きロボットデータとマルチモーダルデータを混合して広範な推論能力を回復させるという戦略が一般的です。しかし、この手法で得られた推論型VLAは、ファインチューニング前の専門特化型モデルと比較して行動性能が劣化する現象(我々はこれを行動退化と呼ぶ)がしばしば観察されます。この問題を解決するため、我々はDualVLAを提案します。これは、注意深く設計された事後訓練を通じて行動性能を強化しつつ、推論能力を維持する手法です。まず、冗長な具身推論を除去して行動学習への悪影響を防ぐ二重層データ選別法を導入します。さらに行動生成を強化するため、推論能力を維持しながら異なるデータ領域に異なる監督信号を割り当てるデュアルティーチャー適応蒸留戦略を設計します。また、汎用VLAの評価ギャップを埋めるため、VLAの能力を推論・意図・行動・整合性の次元に分離してより細かい評価を行うVLAスコアを提案します。実験では、DualVLAがSimplerEnvで平均61.0%の成功率を達成し、8つの競合マルチモーダルベンチマークで平均65.4点を獲得し、精密な行動実行とマルチモーダル理解のより強力なバランスを示しました。プロジェクトWebsite: https://costaliya.github.io/DualVLA/。
敵対的フロー模型を提案する。この生成モデルは敵対的モデルとフローモデルを統合する。本手法はネイティブな一段階/多段階生成をサポートし、敵対的目標関数で学習される。従来のGANでは生成器がノイズ分布とデータ分布間の任意の輸送計画を学習するが、本手法の生成器は決定論的ノイズ-データ写像を学習し、これはフローマッチング模型と同様の最適輸送に対応する。これにより敵対的学習が大幅に安定化する。また、一貫性ベース手法とは異なり、本モデルは確率流の中間時間ステップを学習する必要なく、直接一段階/少数段階生成を学習する。これにより模型容量の節約、学習反復の削減、誤差蓄積の回避が可能となる。ImageNet-256pxにおける同一1NFE設定下で、我々のB/2模型は一貫性ベースXL/2模型の性能に迫り、XL/2模型は2.38という新たなFID最高値を達成した。更に、中間監督を一切必要とせず深度繰り返しによる56層・112層模型の end-to-end 学習可能性を示し、単一フォワードパスでそれぞれ2.08、1.94のFIDを達成、これらは2NFE/4NFE対応モデルを凌駕する結果となった。
本論文は、「記憶できる機械」の構築という課題に取り組み、長期記憶を効率的な超長文脈モデリングの問題として捉え直す。我々は、これには疎性、ランダムアクセス性、長さ一般化という3つの重要な特性が必要であると論じる。超長文脈モデリングに対処するため、これら3特性を全て満たす新しい注意機構である階層的疎性注意(HSA)を活用する。HSAをTransformerに統合し、HSA-UltraLongを構築した。これは80億パラメータのMoEモデルであり、8兆以上のトークンで学習され、ドメイン内およびドメイン外の様々な文脈長タスクで厳密に評価され、超長文脈処理能力を実証する。結果は、本モデルがドメイン内長では完全注意ベースラインと同等の性能を発揮しつつ、最大1600万トークンの文脈を用いたインコンテキスト検索タスクの大半で90%超の精度を達成することを示す。本報告は実験から得られた知見と未解決問題を概説し、超長文脈モデリングの将来研究への基盤を提供する。
拡散モデルの蒸留は、効率的な少数ステップおよび単一ステップ生成器を構築する強力な技術として登場している。中でもDistribution Matching Distillation(DMD)とその変種は、その印象的な性能により注目を集めており、これは一般に、生徒モデルの出力分布を事前学習済み教師モデルの分布に一致させるという中核メカニズムに起因すると広く考えられてきた。本研究では、この従来の理解に異議を唱える。DMDの訓練目的関数を厳密に分解することにより、テキストから画像への生成のような複雑なタスク(望ましい少数ステップ性能を得るには通常CFGが必要とされる)において、少数ステップ蒸留の主要な推進要因は分布マッチングではなく、我々がCFG Augmentation(CA)と同定した、これまで見過ごされてきた構成要素であることを明らかにする。我々は、この項が蒸留の核となる「エンジン」として機能し、一方でDistribution Matching(DM)項は訓練の安定性を確保し、アーティファクトを軽減する「正則化項」として機能することを実証する。さらに、DM項が極めて効果的な正則化項である一方で、それは唯一無二のものではなく、より単純な非パラメトリックな制約やGANベースの目的関数も、異なるトレードオフはあるものの、同様の安定化機能を果たし得ることを示すことで、この分離を検証する。この役割の分離は、両項の特性についてより原理に基づいた分析を動機づけ、より体系的かつ深い理解をもたらす。この新たな理解はさらに、蒸留プロセスへの原理に基づいた修正、例えばエンジンと正則化項のノイズスケジュールを分離するといった提案を可能にし、さらなる性能向上を導く。特筆すべきは、我々の手法がZ-Image( https://github.com/Tongyi-MAI/Z-Image )プロジェクトにおいて、最高水準の8ステップ画像生成モデルの開発に採用され、我々の発見の一般性と頑健性が経験的に検証されたことである。
言語モデル(LM)は自らの回答を自己修正できるのか?この問いは、現実世界の多様なユーザーインタラクションに修正リクエストが含まれることが増える中、ますます重要性を増している。しかし、従来の研究は主に、競技数学や単純化された足場を用いた記号的推論など検証可能なタスクにおいてLMの修正能力をテストしてきた。一方で、ユーザーは往々にしてオープンエンドなクエリを投げかけ、求めるものについて程度の異なるフィードバックを提供する。最近では、思考連鎖において自己内省パターンを示す推論モデルの登場により、この問いへの関心がさらに高まっている。これを分析するため、我々はRefineBenchを導入する。これは11の分野にわたる1000の難問からなるベンチマークと、チェックリストに基づく評価フレームワークを組み合わせたものである。我々は2つの修正モードを評価する:(1)ガイド付き修正:LMが自然言語のフィードバックを与えられる場合、(2)自己修正:LMがガイダンスなしで改善を試みる場合。自己修正設定では、Gemini 2.5 ProやGPT-5のような最先端LMでさえ、それぞれ31.3%、29.1%という低いベースラインスコアに留まり、ほとんどのモデルは反復を経ても一貫して改善しない(例:Gemini-2.5-Proは+1.8%の向上のみ、DeepSeek-R1は-0.1%の低下)。対照的に、ガイド付き修正では、プロプライエタリLMと大規模オープンウェイトLM(>70B)の両方が、特定のフィードバックを活用して5ターン以内に回答をほぼ完璧な水準にまで修正できる。これらの発見は、最先端LMが誤った回答を自己修正するにはブレークスルーが必要であること、そしてRefineBenchが進歩を追跡するための貴重なテストベッドを提供することを示唆している。
低遅延が求められる多くの実世界アプリケーションにおいて、小型言語モデル(SLM)の効率的なデプロイは極めて重要である。従来のSLM設計研究は主にパラメータ数を削減し、パラメータ効率の最適化を目指してきたが、パラメータ効率の向上が実デバイス上の速度向上に比例するとは限らない。本研究は、SLMの実デバイス遅延を決定する主要因を特定し、遅延を主たる考慮事項とするSLM設計・学習の一般化可能な原則と方法論を提示することを目的とする。具体的には、深さと幅の比率(Depth-Width Ratio)と演算子の選択という二つの中心的なアーキテクチャ要因に着目する。前者は小バッチサイズ時の遅延に、後者は遅延と大バッチサイズ時のスループットの両方に影響を与える。この観点から、まず遅延最適な深さと幅の比率を調査し、同じパラメータ予算では一般的に深く細いモデルが高い精度を達成するものの、それらが必ずしも精度と遅延のトレードオフ前沿(Pareto Frontier)上に位置しないという重要な知見を得た。次に、新たな効率的な注意機構の代替案を探索し、構築要素としての可能性を評価する。特定された有望な演算子を用いて、進化的探索フレームワークを構築し、ハイブリッドSLM内でこれらの演算子の遅延最適な組み合わせを自動発見することで、精度と遅延のトレードオフ前沿を推進する。アーキテクチャ改善に加え、重み正規化技術を用いてSLMの学習を強化し、より効果的な重み更新と最終的な収束の改善を実現した。これらの手法を組み合わせることで、Nemotron-Flashと名付けた新たなハイブリッドSLMファミリーを提案する。これは最新のSLMの精度と効率のトレードオフ前沿を大幅に押し上げており、例えばQwen3-1.7B/0.6Bと比較して、平均精度で+5.5%以上向上し、遅延は1.3倍/1.9倍低減、スループットは18.7倍/45.6倍向上している。
World Engineは、ユーザー制御下のカメラ運動によるシーンのインタラクティブな探索を可能にする、長尺で3D一貫性のあるビデオの合成を目指す。しかし、既存システムは積極的な6自由度軌道や複雑な屋外シーンでは、長距離の幾何学的一貫性の喪失、目標経路からの逸脱、あるいは過度に保守的な運動への退行といった課題に直面する。この問題に対処するため、我々は永続的なワールドメモリからの検索によりビデオを生成する、姿勢条件付きWorld EngineであるCaptain Safariを提案する。本手法は、与えられたカメラ経路に対して動的ローカルメモリを維持し、リトリーバーを用いて姿勢に整合したワールドトークンを取得し、それらを以て軌道に沿ったビデオ生成を条件付ける。この設計により、モデルは安定した3D構造を維持しつつ、挑戦的なカメラ操作を正確に実行できる。この設定を評価するため、多段階の幾何学的・運動学的検証パイプラインを経て構築された、検証済みカメラ軌道を伴う高ダイナミックなドローンビデオを含む新規実環境FPVデータセットOpenSafariを整備した。ビデオ品質、3D一貫性、軌道追従性の全ての指標において、Captain Safariはカメラ制御型生成の現状最先端手法を大幅に上回る。MEt3Rを0.3703から0.3690に低減し、AUC@30を0.181から0.200に改善し、全てのカメラ制御ベースラインよりも大幅に低いFVDを達成した。さらに重要なことに、5つの匿名化されたモデルから最良の結果を選択する50名参加の5者間人間評価では、全評価軸において67.6%の選好が本手法に集まった。本結果は、姿勢条件付きワールドメモリが長期的で制御可能なビデオ生成のための強力なメカニズムであることを示し、OpenSafariは将来のWorld Engine研究のための挑戦的な新たなベンチマークを提供する。
グローバル化が進んだ現代社会では、多様な起源を持つ文化的要素が単一の視覚的場面に頻繁に共存している。我々はこれを文化混合シナリオと呼ぶが、大規模視覚言語モデル(LVLM)がこれらのシナリオをどのように認識するかは未解明のままである。本研究では、複数地域の文化的アイテムが同時に出現する際のLVLMの挙動を、文化混合という重要な課題として検証する。これらの挙動を体系的に分析するため、拡散モデルで生成され人間によって検証された23,000枚の文化混合画像からなる食品視覚質問応答(VQA)ベンチマーク「CultureMix」を構築した。これは4つのサブタスク:(1)食品単体、(2)食品+食品、(3)食品+背景、(4)食品+食品+背景で構成される。10種類のLVLMを評価した結果、混合環境において個々の文化的アイデンティティを維持する能力に一貫した欠陥が認められた。モデルは背景への強い依存性を示し、食品単体のベースラインに文化的背景が追加されると精度が14%低下。さらに同一の食品に対しても文脈が異なると一貫性のない予測を行うことが明らかになった。これらの課題に対処するため、3つの頑健性向上戦略を検証したところ、多様な文化混合データセットを用いた教師ありファインチューニングがモデルの一貫性を大幅に改善し、背景への感度を低減できることが判明した。文化的に多様な実世界環境で確実に動作するLVLMの開発に向け、文化混合シナリオへの積極的な注目が不可欠であると訴求する。
マルチモーダル大規模言語モデル(MLLM)は多くの医療分野で大きな可能性を示しているが、歯科学分野では十分に研究が進んでいない。これは、領域特化データの不足、歯科専門家による注釈の乏しさ、モダリティ特有のモデリングの不備、信頼性に関する課題などが部分的に原因である。本論文では、多様な歯科画像モダリティと臨床タスクを対象とした、包括的かつ信頼性の高い分析を可能にする初の歯科特化MLLMであるOralGPT-Omniを提案する。歯科医の診断推論を明示的に捉えるため、歯科放射線科医の意思決定プロセスを反映した臨床基盤型チェーン・オブ・ソートデータセット「TRACE-CoT」を構築した。この推論的監督と、提案する4段階トレーニングパラダイムを組み合わせることで、歯科画像の理解と分析におけるモデルの能力を大幅に強化した。並行して、歯科画像分析における初の統一マルチモーダルベンチマーク「MMOral-Uni」を導入する。これは5つのモダリティと5つのタスクにわたる2,809組のオープンエンドな質問応答ペアから構成され、デジタル歯科におけるMLLMの包括的な評価環境を提供する。OralGPT-Omniは、MMOral-Uniベンチマークで総合スコア51.84、MMOral-OPGベンチマークで45.31を達成し、GPT-5のスコアを大幅に上回った。我々の研究は知能歯科学の発展を促進し、歯科画像分析の将来の進歩への道を開くものである。全てのコード、ベンチマーク、モデルは公開予定である。
画像内の特定のパッチを観測すると、他のパッチの不確実性が減少する。これらの実現は、残りの各パッチ特徴の分布エントロピーを低下させ、量子力学における粒子の波動関数の収縮に類似している。この現象は直感的に「パッチ崩壊」と呼ぶことができる。対象領域の崩壊時にどのパッチが最も依存されているかを特定するため、各対象パッチを再構築するためにソフトにパッチのサブセットを選択するオートエンコーダを学習する。これらの学習された依存関係を各パッチのPageRankスコアでグラフ化すると、画像を実現する最適なパッチ順序が明らかになる。この順序を尊重することが、様々なマスク画像モデリング手法に有益であることを示す。まず、最先端モデルMARを再学習することで、自己回帰的な画像生成を促進できる。次に、Vision Transformerに崩壊順序における高ランクパッチのみを入力する新しい画像分類手法を提案する。このようなパッチの22%を見るだけで、高い精度を達成できる。これらの実験を通じて、視覚効率を促進する新しい画像モデリングの視点としてパッチ崩壊を提案する。本プロジェクトはhttps://github.com/wguo-ai/CoP で公開されている。
近年の大規模言語モデルは、詳細な連鎖思考(Chain-of-Thought)の軌跡を生成することで強力な推論性能を達成しているが、これによりトークン使用量の過剰な増加や推論遅延の高まりが生じることが多い。既存の効率化アプローチは、冗長性を削減するために強化学習や教師ありファインチューニングといったモデル中心の介入に主眼を置く傾向がある。これに対し、我々は学習不要の入力中心アプローチを提案する。認知心理学に着想を得て、情報抽出と推論プロセスを分離するFocused Chain-of-Thought(F-CoT)を導入する。F-CoTはまず、質問から本質的な情報を簡潔で構造化された文脈に整理し、その後、モデルがこの文脈のみに特化して推論するよう誘導する。無関係な詳細への注意を防ぐことで、F-CoTは自然に短い推論経路を生成する。算数文章題において、F-CoTは標準的なゼロショットCoTと同等の精度を維持しつつ、生成トークン量を2~3分の1に削減した。これらの結果は、構造化された入力を用いることが、より効率的なLLM推論に向けた簡潔かつ効果的な手段であることを示唆している。
画像キャプションは、検索、推薦、マルチステップエージェント推論パイプラインなどのマルチモーダルシステムにおいて、視覚コンテンツの効率的な代替として機能する。しかし、現在の評価手法は根本的な問いを見落としている:実際の下流タスクにおいて、キャプションは画像の代わりを果たし得るのか?我々は、モデル生成キャプションを評価するための効用ベースのベンチマーク「CaptionQA」を提案する。ここではキャプションの品質が、下流タスクをどれだけ適切に支援するかで測定される。CaptionQAは拡張可能なドメイン依存型ベンチマークであり、自然画像、文書、Eコマース、具身AIの4領域を網羅し、各領域にはドメイン固有タスクに有用な情報を特定する細かな分類体系(25の大カテゴリ、69のサブカテゴリ)が設けられている。CaptionQAは33,027問の密注釈付き多肢選択問題(画像あたり平均50.3問)を構築しており、これらは明示的に視覚情報を必要とするため、キャプションの実用性を包括的に探ることができる。評価プロトコルでは、LLMがキャプションのみを用いてこれらの質問に答えることで、キャプションが画像レベルの実用性を保持し、下流LLMで利用可能かどうかを直接測定する。最先端のMLLMを評価した結果、画像とそのキャプションの実用性には大きな隔たりがあることが明らかになった。特に、従来の画像QAベンチマークでほぼ同等の性能を示すモデルでも、キャプション実用性では最大32%低下することが確認された。我々はCaptionQAと、新領域への拡張のためのオープンソースパイプラインを公開する。コードはhttps://github.com/bronyayang/CaptionQA で入手可能である。
拡散モデルをテスト時に改善し、ユーザー指定の報酬に対してサンプルが高く評価されるようにする一般的な手法は、拡散過程のダイナミクスに報酬の勾配を導入することである。しかし、ユーザー指定の報酬は通常、生成の最終段階におけるデータ分布上でのみ適切に定義されるため、この手順はしばしば不適切な問題設定となる。この問題に対する一般的な回避策は、デノイザを使用してサンプルが生成終了時点でどのような状態であったかを推定することであるが、本研究では、フローマップを直接扱うという単純な解決法を提案する。フローマップと瞬間的な輸送を支配する速度場の関係を利用することで、Flow Map Trajectory Tilting (FMTT) というアルゴリズムを構築する。このアルゴリズムは、報酬の勾配を含む標準的なテスト時手法よりも、理論的に報酬に対するより良い上昇を行うことを証明する。このアプローチは、重要度重み付けによる正確なサンプリング、または報酬によって傾けられた分布の局所最大化子を特定する原理的な探索のいずれかに利用できる。我々は、他の先読み技術と比較して本手法の有効性を実証し、フローマップが複雑な報酬関数との連携を可能にすることで、例えば視覚言語モデルとのインターフェースを通じて、新しい形式の画像編集を実現する方法を示す。
マルチモーダル大規模言語モデル(MLLM)は、出力が正確であるだけでなく、事前定義されたデータスキーマに準拠する必要があるエージェント的設定の実世界で、ますます展開されている。テキスト領域における構造化生成の最近の進展にもかかわらず、視覚的入力に対するスキーマに基づく情報抽出と推論を体系的に評価するベンチマークはまだ存在しない。本研究では、慎重に設計されたSO-Benchベンチマークを用いて、MLLMの視覚的構造化出力能力に関する包括的な調査を実施する。UI画面、自然画像、文書、図表の4つの視覚領域をカバーするSO-Benchは、6,500以上の多様なJSONスキーマと、人間による検証を経た1,800の厳選された画像とスキーマのペアから構築されている。オープンソースおよび最先端のプロプライエタリモデルに対するベンチマーク実験では、正確でスキーマに準拠した出力を予測する際に持続的なギャップが明らかになり、より優れたマルチモーダル構造化推論の必要性が浮き彫りになった。ベンチマーク評価を超えて、モデルの構造化出力能力を大幅に改善するための訓練実験もさらに実施した。当ベンチマークはコミュニティに公開する予定である。
本論文では、生成動画合成における制御性を向上させ、そのデータ不足問題に対処する新しいフレームワーク「Split-then-Merge(StM)」を提案する。注釈付きデータセットや手作りのルールに依存する従来手法とは異なり、StMは大規模なラベルなし動画コーパスを動的な前景層と背景層に分割し、それらを自己合成することで、動的な被写体が多様なシーンとどのように相互作用するかを学習する。このプロセスにより、モデルは写実的な動画生成に必要な複雑な合成的ダイナミクスを学習することが可能となる。StMは、アフォーダンスを考慮した合成を実現するための多層融合と拡張を利用する、新しい変換認識トレーニングパイプラインと、合成時の前景の忠実性を維持する同一性保持損失を導入する。実験により、StMが定量的ベンチマークと人間/VLLMベースの定性的評価の両方において、SoTA手法を凌駕することを示す。詳細はプロジェクトページ(https://split-then-merge.github.io)を参照されたい。
マルチモーダル大規模言語モデル(MLLM)は、画像内の物体を識別し情景を描写するといった「画像に何が写っているか」を問う課題には熟達しているが、人間の観察者が画像を「どのように感じるか」を理解する能力は往々にして欠如している。この隔たりは、画像の記憶に残りやすさ、滑稽さ、審美性、感情喚起性といった、主観的認知特性を考慮する際に最も顕著となる。この課題に体系的に取り組むため、我々は画像の認知特性に関するMLLM評価のための包括的ベンチマーク「CogIP-Bench」を提案する。評価結果から、現行のモデルはこれらの微妙な特性に対する人間の知覚との整合性が著しく低いことが明らかになった。次に、ポストトレーニング(訓練後学習)段階を導入することでこの隔たりを効果的に埋め、モデルと人間の判断との整合性を大幅に向上させ得ることを実証する。さらに、このようにして獲得された認知的整合性は、単に予測に留まらず、下流の創造的タスクにも転移可能であることを示す。我々の認知的に整合したMLLMを画像生成パイプラインに統合することで、合成プロセスを誘導し、より記憶に残る、または視覚的に魅力的であるといった、望ましい特性をより良く具現化した画像を生成できる。本研究は、この人間らしい知覚を測定するベンチマーク、それを強化するポストトレーニングの手法、そしてこの整合性がより人間中心のAIを実現する可能性を示す実証を提供する。
参照画像誘導型画像生成は急速に進歩しているが、現行の拡散モデルは、生成画像を参照画像を用いて精緻化する際に、微細な視覚的詳細を保持するのに依然として苦戦している。この制約は、VAEベースの潜在空間圧縮が本質的に微妙なテクスチャ情報を捨象するため、識別情報や属性特有の手がかりが失われることに起因する。さらに、既存手法に基づいて局所的な詳細を増幅する後編集アプローチは、照明、テクスチャ、形状において元画像との不整合を生じさせることが多い。この問題に対処するため、我々はピクセルレベルの一貫性を高めるために、参照駆動型補正を連続する2段階で実行する詳細認識リファインメントフレームワーク「」を提案する。まず、単一画像拡散エディタを、下絵画像と参照画像を同時に入力するようにファインチューニングして適応させ、構造的忠実性を維持しつつ大域的に首尾一貫した精緻化を可能にする。次に、強化学習を適用して局所的な編集能力をさらに強化し、詳細の正確性と意味的一貫性を明示的に最適化する。大規模な実験により、「」が参照画像との整合性と微細な詳細の保持を大幅に改善し、困難な参照誘導型復元ベンチマークにおいて、オープンソースモデルおよび商用モデルを凌駕する忠実で視覚的に一貫した編集結果を生成することが実証された。
本論文は、物体検出のための新しいMixture-of-Expertsフレームワークを提案する。複数のYOLOv9-Tエキスパート間の適応的ルーティングを組み込むことで、動的な特徴の専門化を実現し、単一のYOLOv9-Tモデルと比較してより高い平均適合率(mAP)および平均再現率(AR)を達成している。
拡散モデルは、2D画像、ビデオ、3D形状などの様々なモダリティで印象的な生成品質を達成しているが、その推論は反復的なノイズ除去プロセスにより計算コストが高いままである。近年のキャッシュベースの手法は、冗長な計算を効果的に再利用して2Dおよびビデオ生成を高速化するが、これらの技術を3D拡散モデルに直接適用すると、幾何学的な一貫性が深刻に損なわれる可能性がある。3D合成においては、キャッシュされた潜在特徴におけるわずかな数値誤差でさえ蓄積し、構造的なアーティファクトや位相的不整合を引き起こす。この制限を克服するため、我々は訓練不要の幾何学認識キャッシュフレームワークであるFast3Dcacheを提案する。これは3D拡散推論を高速化しつつ幾何学的忠実度を保持する。本手法は、ボクセル安定化パターンに応じてキャッシュ割当量を動的に決定する予測的キャッシュスケジューラ制約(PCSC)と、速度の大きさと加速度基準に基づいて再利用する安定特徴を選択する時空間的安定性基準(SSC)を導入する。包括的な実験により、Fast3Dcacheが推論を大幅に高速化し、最大27.12%の速度向上と54.8%のFLOPs削減を達成し、Chamfer距離(2.48%)およびF-Score(1.95%)で測定される幾何学的品質の劣化を最小限に抑えることが示された。
監視カメラ映像における稀で多様な異常を、ビデオレベルの教師信号のみで検出する課題に取り組む。提案するデュアルバックボーンフレームワークは、畳み込み表現とトランスフォーマー表現をtop-kプーリングにより統合し、UCF-Crimeデータセットで90.7%の曲線下面積(AUC)を達成した。
高解像度(HR)磁気共鳴画像法(MRI)は、多くの臨床および研究応用において極めて重要である。しかしながら、その実現には依然としてコストがかかり、技術的なトレードオフや実験上の制約によって制限されている。超解像(SR)は、より手頃な低解像度(LR)スキャンからHR画像を生成することで、追加のハードウェアを必要とせずに診断の精度と効率の向上を可能にする、これらの課題を克服する有望な計算手法である。本サーベイ論文は、深層学習(DL)アプローチに焦点を当て、MRI SR技術の最近の進展を概観する。コンピュータビジョン、計算イメージング、逆問題、MR物理学の観点からDLベースのMRI SR手法を検討し、理論的基礎、アーキテクチャ設計、学習戦略、ベンチマークデータセット、性能評価指標を網羅する。我々は、これらの手法を分類する体系的タクソノミーを提案し、臨床および研究の文脈における特有の課題を考慮しつつ、MRIに適用可能な確立された技術および新興のSR技術について詳細に検討する。さらに、学界が取り組むべき未解決の課題と方向性を明らかにする。加えて、必須のオープンアクセスリソース、ツール、チュートリアルをまとめ、GitHub (https://github.com/mkhateri/Awesome-MRI-Super-Resolution) で公開している。 IEEE キーワード: MRI, 超解像, 深層学習, 計算イメージング, 逆問題, サーベイ。
映像から抽出されたフレームデータセットにおける情報漏洩を軽減するため、クラスタベースのフレーム選択戦略を提案します。学習用・検証用・テスト用の各セットに分割する前に視覚的に類似したフレームをグループ化することで、より代表的で均衡の取れた信頼性の高いデータセット分割を実現します。
フェデレーテッドラーニング(FL)は、プライバシーを損なうことなくクライアント間での協調的な学習を可能にする。既存のFL手法の多くは均質なモデルアーキテクチャを仮定しているが、データやリソースにおけるクライアントの異質性により、この仮定は非現実的であり、モデル異質性FLの必要性が高まっている。この問題に対処するため、我々は新たなクライアント知識の形態である「連成表現」に基づくフレームワーク、Federated Representation Entanglement(FedRE)を提案する。FedREでは、各クライアントがローカルな表現を正規化されたランダム重みを用いて単一の連成表現に集約し、同じ重みを対応するone-hotラベル符号化に適用して連成ラベル符号化を生成する。これらはサーバーにアップロードされ、グローバル分類器の学習に用いられる。学習中、各連成表現はその連成ラベル符号化を介してカテゴリ横断的に監督され、ランダム重みは各ラウンドで再サンプリングされることで多様性が導入され、グローバル分類器の過信を抑制し、より滑らかな決定境界を促進する。さらに、各クライアントは単一のカテゴリ横断的連成表現とその連成ラベル符号化のみをアップロードするため、表現逆変換攻撃のリスクを軽減し、通信オーバーヘッドを低減する。大規模な実験により、FedREがモデル性能、プライバシー保護、通信オーバーヘッドの間で効果的なトレードオフを実現することを示す。コードはhttps://github.com/AIResearch-Group/FedRE で公開されている。