翻訳付きの日次キュレーションされたAI研究論文
拡散モデルは画像および動画合成における進歩の主要な駆動力であるが、推論速度が遅いという課題を抱えている。蒸留法、特に最近導入された敵対的拡散蒸留(ADD)は、モデルを多段階推論から単一段階推論に移行することを目指しているが、固定された事前学習済みDINOv2識別器に依存するため、高コストで最適化が困難である。本論文では、ADDの限界を克服する新たな蒸留手法である潜在敵対的拡散蒸留(LADD)を提案する。ピクセルベースのADDとは異なり、LADDは事前学習済みの潜在拡散モデルから生成的特徴を利用する。このアプローチにより、学習が簡素化され、性能が向上し、高解像度かつ多アスペクト比の画像合成が可能となる。我々はLADDをStable Diffusion 3(8B)に適用し、SD3-Turboを開発した。これは、非ガイド付きサンプリングをわずか4ステップで行うだけで、最先端のテキストから画像への生成器の性能に匹敵する高速モデルである。さらに、そのスケーリング挙動を体系的に調査し、画像編集やインペインティングなど様々な応用におけるLADDの有効性を実証する。
人間のフィードバックからの強化学習(RLHF)は、事前学習済み大規模言語モデル(LLM)を人間の好みに合わせるための強力な手法として証明されています。しかし、RLHFを用いたモデルのトレーニングは計算コストが高く、全体的に複雑なプロセスです。本研究では、Huら[2021]によって導入されたパラメータ効率的な手法であるLow-Rank Adaptation(LoRA)を使用して基盤モデルをトレーニングするRLHFを検討します。我々は、「パラメータ効率的強化学習」(PERL)のセットアップを調査し、LoRAを使用して報酬モデルのトレーニングと強化学習を実行します。PERLを従来のファインチューニング(フルチューニング)と比較し、報酬モデリングと強化学習のための7つのベンチマーク(うち2つは新規データセット)を様々な設定で評価します。その結果、PERLは従来のRLHF設定と同等の性能を発揮しつつ、より高速にトレーニングを行い、メモリ使用量も少ないことがわかりました。これにより、RLHFの高性能を維持しつつ、大規模言語モデルのアライメント手法としての採用を制限する計算負荷を軽減できます。また、RLHFに関する研究を促進するため、新規の「賛成/反対」選好データセット「Taskmaster Coffee」と「Taskmaster Ticketing」を公開します。
大規模言語モデル(LLM)に蓄積された知識の効率的かつ正確な更新は、現在最も喫緊の研究課題の一つである。本論文では、LLMを分散型エピソード記憶で強化する、脳に着想を得た新規アーキテクチャ「Larimar」を提案する。Larimarの記憶機構は、計算コストの高い再学習やファインチューニングを必要とせず、動的なワンショット知識更新を可能にする。複数の事実編集ベンチマークにおける実験結果は、Larimarが最も競争力のあるベースラインと同等の精度を達成するだけでなく、特に逐次編集設定においても優れた性能を示すことを実証している。さらに、提案アーキテクチャはシンプルでLLMに依存しない汎用性を有するため、速度面ではベースLLMに応じて4~10倍の高速化を実現し、柔軟性にも優れている。我々はさらに、Larimarを用いた選択的事実忘却と入力コンテキスト長の一般化のメカニズムを提供し、その有効性を示す。
本論文では、Stable Video 3D(SV3D)を提案する。これは、3Dオブジェクト周りの軌道ビデオを高解像度で画像から多視点生成するための潜在ビデオ拡散モデルである。最近の3D生成に関する研究では、2D生成モデルを新規視点合成(NVS)および3D最適化に適応させる技術が提案されている。しかし、これらの手法は視点が限られているか、NVSの一貫性が欠如しているため、3Dオブジェクト生成の性能に影響を及ぼすという欠点がある。本研究では、画像からビデオへの拡散モデルを新規多視点合成および3D生成に適応させたSV3Dを提案し、ビデオモデルの汎化性能と多視点一貫性を活用するとともに、NVSのための明示的なカメラ制御を追加する。さらに、SV3DとそのNVS出力を画像から3D生成に利用するための改良された3D最適化技術も提案する。2Dおよび3Dのメトリクスを用いた複数のデータセットでの広範な実験結果とユーザスタディにより、SV3Dが従来の手法と比較してNVSおよび3D再構成において最先端の性能を発揮することを実証する。
テキストから画像を生成するための拡散モデルの最近の進展を踏まえ、アイデンティティ保存型パーソナライゼーションは、単一の参照画像を用いて特定のアイデンティティを正確に捉えることに大きな進歩を遂げています。しかし、既存の手法は主に参照画像をテキスト埋め込み空間内に統合しており、画像情報とテキスト情報が複雑に絡み合うため、アイデンティティの忠実度と意味的一貫性の両方を維持することが困難です。この課題に対処するため、我々はInfinite-IDを提案します。これは、アイデンティティ保存型パーソナライゼーションのためのID-意味論分離パラダイムです。具体的には、拡散モデルの元のテキストクロスアテンションモジュールを無効化しつつ、十分なID情報を捕捉するために追加の画像クロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入します。これにより、画像ストリームが参照画像から提供されるアイデンティティを忠実に表現しつつ、テキスト入力からの干渉を軽減します。さらに、混合アテンションモジュールとAdaIN-mean操作を組み合わせた特徴相互作用メカニズムを導入し、二つのストリームをシームレスに統合します。このメカニズムは、アイデンティティの忠実度と意味的一貫性を向上させるだけでなく、生成画像のスタイルを容易に制御することを可能にします。生写真生成とスタイル画像生成の両方における広範な実験結果は、提案手法の優れた性能を実証しています。
視覚符号化は、大規模マルチモーダルモデル(LMMs)が視覚世界を理解するための基盤を構成します。従来のLMMsは固定サイズかつ限られた解像度で画像を処理しますが、この方向性における最近の探求は適応性、効率性、さらには正確性においても限界があります。本論文ではまず、GPT-4VとLLaVA-1.5を代表例として取り上げ、それらの視覚符号化戦略に根ざした体系的な欠陥を明らかにします。これらの課題に対処するため、任意のアスペクト比と高解像度で画像を効率的に認識できる大規模マルチモーダルモデル、LLaVA-UHDを提案します。LLaVA-UHDは以下の3つの主要なコンポーネントを含みます:(1)ネイティブ解像度の画像を効率的かつ拡張可能な符号化のために可変サイズのスライスに分割する画像モジュール化戦略、(2)視覚エンコーダからの画像トークンをさらに圧縮する圧縮モジュール、(3)LLM向けにスライストークンを整理する空間スキーマ。包括的な実験により、LLaVA-UHDが2~3桁多いデータで訓練された既存のLMMsを9つのベンチマークで上回ることが示されました。特に、LLaVA-1.5 336x336を基に構築した我々のモデルは、6倍大きい解像度(672x1088)の画像を94%の推論計算量でサポートし、TextVQAにおいて6.4ポイントの精度向上を達成しました。さらに、このモデルは学術環境において効率的に訓練可能で、8台のA100 GPU上で23時間(LLaVA-1.5の26時間に対して)で訓練できます。データとコードはhttps://github.com/thunlp/LLaVA-UHDで公開しています。
本論文では、画像生成における明示的な照明制御のための手法「LightIt」を提案する。近年の生成手法では照明制御が欠如しており、これは全体の雰囲気や映画的な外観の設定など、画像生成の芸術的側面において重要な要素である。この制限を克服するため、我々は生成プロセスをシェーディングマップと法線マップに基づいて条件付けることを提案する。照明モデルには、影を含むシングルバウンスシェーディングを採用した。まず、実世界の画像とシェーディングのペアからなるデータセットを生成するために、シェーディング推定モジュールを学習する。次に、推定されたシェーディングと法線を入力として制御ネットワークを学習する。本手法は、多様なシーンにおいて高品質な画像生成と照明制御を実現する。さらに、生成したデータセットを用いて、画像と目標シェーディングに基づくアイデンティティ保存型の再照明モデルを学習する。本手法は、制御可能で一貫性のある照明を伴う画像生成を可能にする初めての手法であり、専門的な再照明の最先端手法と同等の性能を発揮する。
オープンドメインの3Dオブジェクト合成は、データの制約と計算複雑性の高さから、画像合成に比べて遅れを取ってきた。このギャップを埋めるため、近年の研究ではマルチビューディフュージョンが探求されているが、3D一貫性、視覚品質、または効率性のいずれかが不足する場合が多い。本論文では、SDEditの3D版として機能するMVEditを提案し、祖先サンプリングを用いてマルチビュー画像を共同でノイズ除去し、高品質なテクスチャ付きメッシュを出力する。既存の2Dディフュージョンモデルを基盤として、MVEditはトレーニング不要の3Dアダプターを通じて3D一貫性を実現する。このアダプターは、最終タイムステップの2Dビューを一貫した3D表現に変換し、レンダリングされたビューを用いて次のタイムステップの2Dビューを条件付けする。視覚品質を損なうことなく、推論時間はわずか2~5分であり、スコア蒸留よりも品質と速度のバランスが優れている。MVEditは非常に汎用性が高く拡張可能であり、テキスト/画像から3D生成、3D編集、高品質テクスチャ合成など幅広い応用が可能である。特に、画像から3D生成およびテキストガイド付きテクスチャ生成タスクにおいて、最先端の性能を実証している。さらに、限られたリソースで小規模な3Dデータセットに基づいて2D潜在ディフュージョンモデルを微調整する方法を導入し、高速な低解像度テキストから3D初期化を可能にする。
脳活動からの視覚知覚の再構成は大幅に進化してきたが、その実用性は限られていた。これは、各被験者ごとに独立してモデルが訓練され、高品質な結果を得るために数十時間もの高価なfMRI訓練データが必要とされるためである。本研究では、わずか1時間のfMRI訓練データを用いて高品質な再構成を実現する。我々は7名の被験者にわたってモデルを事前訓練し、その後、新たな被験者の最小限のデータでファインチューニングを行う。新たに開発した機能アライメント手法により、全ての脳データを共有被験者の潜在空間に線形マッピングし、その後、CLIP画像空間への共有非線形マッピングを行う。さらに、CLIP空間からピクセル空間へのマッピングは、Stable Diffusion XLをファインチューニングして、テキストの代わりにCLIP潜在変数を入力として受け入れるようにすることで実現する。このアプローチは、限られた訓練データでの被験者外汎化を改善し、単一被験者アプローチと比較しても、画像検索および再構成の指標において最先端の性能を達成する。MindEye2は、MRI施設への単一訪問で正確な知覚再構成が可能であることを示している。全てのコードはGitHubで公開されている。
複数の基盤モデル(大規模言語モデルと視覚言語モデル)を新たな統一メモリ機構と統合することで、特に長時間のビデオにおける長期的な時間的関係を捉えるという困難なビデオ理解問題にどのように取り組むかを探求します。具体的に提案するマルチモーダルエージェント「VideoAgent」は、1) ビデオの一般的な時間的イベント記述とオブジェクト中心の追跡状態を保存する構造化メモリを構築し、2) 入力されたタスククエリに対して、ビデオセグメントの位置特定やオブジェクトメモリのクエリなどのツールを活用し、他の視覚基盤モデルと連携してインタラクティブにタスクを解決します。これにより、大規模言語モデルのゼロショットツール使用能力を活用します。VideoAgentは、複数の長期ビデオ理解ベンチマークで印象的な性能を示し、NExT-QAでは平均6.6%、EgoSchemaでは26.0%のベースラインを上回り、オープンソースモデルとGemini 1.5 Proなどのプライベートモデルとのギャップを縮めています。
機械学習(ML)の進歩は、ニューラルネットワークモデルのスケーリングによって推進されてきました。このスケーリングは、並列動作するデバイス間の高帯域幅通信を必要とするMLアプローチに対応するための、ますます高度なエンジニアリングの成果によって可能となりました。本研究では、MLモデルのための共同設計されたモジュール式アーキテクチャとトレーニングアプローチを提案します。これを「DIstributed PAth COmposition(DiPaCo)」と呼びます。トレーニング中、DiPaCoは計算を共有モジュールのセットを通るパスに分散します。Local-SGDにインスパイアされた最適化手法(DiLoCo)と組み合わせることで、通信を大幅に削減しながらモジュールを同期させます。このアプローチは、接続性が低く異種混在のワーカー間でのトレーニングを容易にし、ワーカーの故障やプリエンプションに対する堅牢性を確保する設計となっています。推論時には、各入力に対して単一のパスを実行するだけでよく、モデルの圧縮は必要ありません。このアプローチは、より非同期でモジュール化された大規模学習の新しいパラダイムに向けた最初のプロトタイプと位置付けています。広く使用されているC4ベンチマークでの実験では、同じトレーニングステップ数で、より短い実時間において、DiPaCoは1億5000万パラメータの256の可能なパスのうち1つを選択することで、10億パラメータの密なトランスフォーマー言語モデルの性能を上回りました。
ニューラルレンダリングの分野は、生成モデルと微分可能レンダリング技術の進歩により、大きな進展を遂げてきました。2D拡散モデルは成功を収めていますが、統一的な3D拡散パイプラインは未だ確立されていません。本論文では、このギャップを埋め、高速で高品質かつ汎用的な条件付き3D生成を可能にする新しいフレームワーク「LN3Diff」を提案します。我々のアプローチは、3D認識アーキテクチャと変分オートエンコーダ(VAE)を活用し、入力画像を構造化されたコンパクトな3D潜在空間にエンコードします。この潜在表現は、トランスフォーマーベースのデコーダによって高容量の3Dニューラルフィールドにデコードされます。この3D認識潜在空間上で拡散モデルを訓練することにより、我々の手法はShapeNetにおける3D生成で最先端の性能を達成し、単眼3D再構成や様々なデータセットにわたる条件付き3D生成において優れた性能を示します。さらに、インスタンスごとの最適化を必要とせず、推論速度において既存の3D拡散手法を凌駕します。提案するLN3Diffは、3D生成モデリングにおける重要な進歩であり、3D視覚およびグラフィックスタスクにおける様々な応用が期待されます。
本論文では、事前学習済みのビデオ拡散モデルを活用してスケーラブルな3D生成モデルを構築するための新たなパラダイムを提案する。基盤となる3D生成モデルの開発における主な障壁は、3Dデータの限られた可用性である。画像、テキスト、またはビデオとは異なり、3Dデータは容易にアクセスできず、取得が困難である。その結果、他の種類のデータの膨大な量と比較して、規模に大きな隔たりが生じている。この問題に対処するため、我々は、テキスト、画像、ビデオの大規模なデータセットで学習されたビデオ拡散モデルを3Dデータの知識源として利用することを提案する。ファインチューニングを通じてその多視点生成能力を解放し、大規模な合成多視点データセットを生成して、フィードフォワード型の3D生成モデルを学習させる。提案するモデルVFusion3Dは、約300万の合成多視点データで学習され、単一の画像から数秒で3Dアセットを生成することができる。現在の最先端(SOTA)のフィードフォワード型3D生成モデルと比較して優れた性能を発揮し、ユーザーの70%以上が我々の結果を好むことが確認された。