翻訳付きの日次キュレーションされたAI研究論文
近年、マルチモーダル大規模言語モデル(MLLM)の進展は目覚ましいものがあります。しかし、これらの汎用領域のMLLMは、ユーザーインターフェース(UI)画面を効果的に理解し、対話する能力においてしばしば不足が見られます。本論文では、モバイルUI画面の理解を強化するために設計された新しいMLLMであるFerret-UIを紹介します。このモデルは、参照、接地、推論の能力を備えています。UI画面は通常、自然画像よりも縦横比が長く、興味対象のオブジェクト(例:アイコン、テキスト)が小さいため、Ferretに「任意解像度」を追加して詳細を拡大し、視覚的特徴を強化します。具体的には、各画面を元の縦横比に基づいて2つのサブ画像に分割します(つまり、縦画面の場合は水平分割、横画面の場合は垂直分割)。両方のサブ画像は別々にエンコードされ、LLMに送られます。私たちは、アイコン認識、テキスト検索、ウィジェットリスト作成などの基本的なUIタスクから広範なトレーニングサンプルを慎重に収集します。これらのサンプルは、正確な参照と接地を容易にするために、領域アノテーションを伴う指示追従形式でフォーマットされています。モデルの推論能力をさらに高めるために、詳細な説明、認識/対話会話、機能推論を含む高度なタスクのデータセットを編纂します。厳選されたデータセットでトレーニングを行った後、Ferret-UIはUI画面の優れた理解力と、オープンエンドの指示を実行する能力を示します。モデル評価のために、前述のすべてのタスクを含む包括的なベンチマークを確立します。Ferret-UIは、ほとんどのオープンソースUI MLLMを凌駕するだけでなく、すべての基本的なUIタスクにおいてGPT-4Vをも上回ります。
テキストからビデオ生成(T2V)の最近の進展は、テキスト記述から高品質な一般的なビデオを合成する際に顕著な成功を収めています。T2Vにおいて大きく見過ごされている問題は、既存のモデルが現実世界の物理的知識を十分にエンコードしていないため、生成されるビデオは動きが限定的でバリエーションに乏しい傾向があることです。本論文では、タイムラプスビデオから現実世界の物理的知識を学習し、変態生成を実現するメタモルフィック・タイムラプスビデオ生成モデル「MagicTime」を提案します。まず、空間的および時間的トレーニングを分離し、変態ビデオからより多くの物理的知識をエンコードし、事前学習済みのT2Vモデルを変態ビデオ生成に変換する「MagicAdapter」スキームを設計します。次に、一般的なビデオよりも広範な変化範囲と劇的なオブジェクト変態プロセスをカバーするメタモルフィック・タイムラプスビデオに適応する「Dynamic Frames Extraction」戦略を導入します。これにより、より多くの物理的知識が具現化されます。最後に、変態ビデオプロンプトの理解を向上させる「Magic Text-Encoder」を導入します。さらに、変態ビデオ生成能力を引き出すために特別にキュレーションされたタイムラプスビデオ-テキストデータセット「ChronoMagic」を作成します。広範な実験により、MagicTimeが高品質でダイナミックな変態ビデオを生成する際の優位性と有効性が実証され、タイムラプスビデオ生成が物理世界の変態シミュレータを構築するための有望な道筋であることが示唆されています。
個人コンテンツの効果的な編集は、個人が創造性を発揮し、視覚的ストーリーの中に魅力的な物語を織り込み、視覚コンテンツの全体的な品質と影響力を高める上で重要な役割を果たします。そこで本論文では、SwapAnythingという新しいフレームワークを紹介します。このフレームワークは、参照によって与えられたパーソナライズされた概念で画像内の任意のオブジェクトを交換しつつ、コンテキストを変更せずに維持することができます。既存のパーソナライズされた対象交換手法と比較して、SwapAnythingには3つの独自の利点があります:(1) 主な対象ではなく、任意のオブジェクトや部分の正確な制御、(2) コンテキストピクセルのより忠実な保存、(3) パーソナライズされた概念の画像へのより良い適応。まず、ターゲット変数交換を提案し、潜在特徴マップに領域制御を適用し、マスクされた変数を交換することで、忠実なコンテキスト保存と初期の意味概念交換を実現します。次に、外観適応を導入し、画像生成プロセス中にターゲットの位置、形状、スタイル、コンテンツの観点から、意味概念を元の画像にシームレスに適応させます。人間による評価と自動評価の両方における広範な結果は、パーソナライズされた交換において、本手法がベースライン手法を大幅に改善することを示しています。さらに、SwapAnythingは、単一オブジェクト、複数オブジェクト、部分オブジェクト、およびクロスドメイン交換タスクにおいて、その正確で忠実な交換能力を示しています。SwapAnythingは、テキストベースの交換や、オブジェクト挿入などの交換以外のタスクにおいても優れた性能を達成しています。
拡散モデルに基づく生成画像編集の最近の進展は、画像の外部補完や内部補完タスクの領域に深い革命をもたらし、その風景を一変させました。しかしながら、この分野では依然として以下のような本質的な課題が存在しています:i) 品質の低さ、ii) 一貫性の欠如、iii) 指示への不十分な準拠、iv) 生成効率の低さ。これらの課題に対処するため、我々はByteEditを提案します。これは、生成画像編集タスクを強化(Boost)、準拠(Comply)、加速(Accelerate)するために綿密に設計された革新的なフィードバック学習フレームワークです。ByteEditは、美的感覚と画像-テキストの整合性を向上させるための画像報酬モデルをシームレスに統合し、さらに出力の一貫性を促進するために設計された高密度なピクセルレベル報酬モデルを導入します。さらに、モデルの推論速度を加速するための先駆的な敵対的かつ漸進的なフィードバック学習戦略を提案します。大規模なユーザー評価を通じて、ByteEditがAdobe、Canva、MeiTuなどの主要な生成画像編集製品を生成品質と一貫性の両面で凌駕することを実証しました。ByteEdit-Outpaintingは、ベースラインモデルと比較して、品質と一貫性においてそれぞれ388%と135%の顕著な向上を示しました。また、実験により、我々の加速モデルが品質と一貫性の面で優れた性能を維持することも確認されました。
拡散モデルは画像生成の分野に革命をもたらし、高品質なモデルの普及と多様な下流アプリケーションの拡大を牽引してきました。しかし、これらの大きな進歩にもかかわらず、現在の競合ソリューションは依然としていくつかの課題を抱えており、視覚品質の低さ、美的魅力の欠如、非効率な推論などが包括的な解決策を見出せずにいます。これらの課題に対処するため、我々はフィードバック学習を活用して拡散モデルを包括的に強化する統一フレームワーク「UniFL」を提案します。UniFLは、SD1.5やSDXLなど様々な拡散モデルに適用可能な、普遍的で効果的かつ汎用性の高いソリューションとして際立っています。特に、UniFLは以下の3つの主要コンポーネントを組み込んでいます:視覚品質を向上させる知覚的フィードバック学習、美的魅力を高める分離型フィードバック学習、推論速度を最適化する敵対的フィードバック学習です。詳細な実験と広範なユーザー調査により、提案手法が生成モデルの品質と加速の両面で優れた性能を発揮することが検証されました。例えば、UniFLは生成品質においてImageRewardを17%上回るユーザー選好度を示し、4ステップ推論ではLCMとSDXL Turboをそれぞれ57%と20%上回りました。さらに、Lora、ControlNet、AnimateDiffなどの下流タスクにおけるアプローチの有効性も確認されています。
ビデオにおける高密度かつ長距離のピクセル運動を復元することは困難な課題である。この難しさの一部は、3Dから2Dへの投影プロセスに起因し、2D運動領域におけるオクルージョンや不連続性を引き起こす。2D運動は複雑になり得るが、我々はその基盤となる3D運動がしばしば単純で低次元であると仮定する。本研究では、画像投影によって生じる問題を緩和するため、3D空間における点軌跡を推定する手法を提案する。我々の手法「SpatialTracker」は、単眼深度推定器を用いて2Dピクセルを3Dにリフトし、各フレームの3Dコンテンツをトライプレーン表現で効率的に表現し、トランスフォーマーを用いた反復的更新によって3D軌跡を推定する。3Dでの追跡により、可能な限り剛体に近い(ARAP)制約を活用すると同時に、異なる剛体部分にピクセルをクラスタリングする剛性埋め込みを学習する。広範な評価により、本手法が特に平面外回転などの困難なシナリオにおいて、質的・量的に最先端の追跡性能を達成することが示された。
詳細な制御を伴う高解像度の人間中心のシーン生成は、既存のテキストから画像への拡散モデルにとって依然として課題となっています。この課題は、限られた訓練画像サイズ、テキストエンコーダの容量(トークン数の制限)、および複数の人間が関与する複雑なシーンを生成する際の本質的な難しさに起因しています。現在の手法は訓練サイズの制限に対処しようと試みていますが、しばしば深刻なアーティファクトを伴う人間中心のシーンを生成してしまいます。我々は、BeyondSceneという新しいフレームワークを提案します。このフレームワークは、既存の事前訓練済み拡散モデルを使用して、卓越したテキストと画像の対応性と自然さを備えた高解像度(8K以上)の人間中心のシーンを生成し、従来の制限を克服します。BeyondSceneは、段階的かつ階層的なアプローチを採用し、最初に複数の人間のインスタンス生成と拡散モデルのトークン制限を超えた詳細な記述に焦点を当てた詳細なベース画像を生成し、その後、訓練画像サイズを超え、テキストとインスタンスを意識した詳細を取り入れた高解像度出力にシームレスに変換します。これは、我々が提案する高周波注入フォワード拡散と適応的ジョイント拡散からなる新しいインスタンス認識階層的拡大プロセスを介して実現されます。BeyondSceneは、詳細なテキスト記述との対応性と自然さの点で既存の手法を凌駕し、高解像度の人間中心のシーン作成における高度な応用の道を開きます。これにより、コストのかかる再訓練なしに、事前訓練済み拡散モデルの容量を超えたシーン生成が可能になります。プロジェクトページ: https://janeyeon.github.io/beyond-scene。
大規模言語モデル(LLM)の成功に伴い、視覚モデルをLLMに統合して視覚言語基盤モデルを構築することに、最近大きな関心が寄せられています。しかし、既存のLLMベースの大規模マルチモーダルモデル(例:Video-LLaMA、VideoChat)は、短い動画理解のために限られた数のフレームしか取り込むことができません。本研究では、主に長期的な動画理解のための効率的かつ効果的なモデルの設計に焦点を当てています。既存の研究のようにより多くのフレームを同時に処理しようとするのではなく、動画をオンライン方式で処理し、過去の動画情報をメモリバンクに保存することを提案します。これにより、モデルはLLMのコンテキスト長制約やGPUメモリ制限を超えることなく、長期的な分析のために過去の動画コンテンツを参照することが可能になります。私たちのメモリバンクは、既存のマルチモーダルLLMにシームレスに統合することができます。長編動画理解、動画質問応答、動画キャプション生成など、さまざまな動画理解タスクで広範な実験を行い、私たちのモデルは複数のデータセットで最先端の性能を達成することができます。コードはhttps://boheumd.github.io/MA-LMM/で公開されています。
フォトリアルなアバターのモデリングとレンダリングは、多くのアプリケーションにおいて極めて重要です。しかし、視覚的観察から3Dアバターを構築する既存の手法は、衣服を着た人間の再構築に苦戦しています。本論文では、逆レンダリングと逆物理を組み合わせた新しいフレームワーク「PhysAvatar」を紹介します。このフレームワークは、マルチビュービデオデータから人間の形状と外観、および衣服の物理パラメータを自動的に推定します。この目的のために、時空間メッシュトラッキングのためのメッシュアラインド4Dガウシアン技術と、固有の材質特性を推定する物理ベースの逆レンダラーを採用しています。PhysAvatarは、物理シミュレータを統合し、勾配ベースの最適化を用いて衣服の物理パラメータを原理的に推定します。これらの新機能により、PhysAvatarは、トレーニングデータでは見られない動きや照明条件下で、ゆったりとした衣服を着たアバターの高品質な新視点レンダリングを実現します。これは、物理ベースの逆レンダリングと物理シミュレーションを組み合わせたフォトリアルなデジタルヒューマンのモデリングに向けた重要な進展を示しています。プロジェクトのウェブサイトは以下をご覧ください: https://qingqing-zhao.github.io/PhysAvatar
急速に進化する生成モデルの分野において、効率的かつ高忠実度のテキストから画像への拡散システムの開発は重要なフロンティアとなっています。本研究では、人間の嗜好に合わせたReinforcement Learning from Human Feedback(RLHF)を用いた、新たなプロダクショングレードのテキストから画像へのカスケード拡散モデルであるYaARTを紹介します。YaARTの開発において、我々は特にモデルとトレーニングデータセットのサイズの選択に焦点を当てました。これらは、テキストから画像へのカスケード拡散モデルにおいてこれまで体系的に調査されていなかった側面です。特に、これらの選択がトレーニングプロセスの効率性と生成される画像の品質にどのように影響するかを包括的に分析しました。これは実用上非常に重要な要素です。さらに、高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルと競合できることを実証し、拡散モデルのトレーニングにおけるより効率的なシナリオを確立しました。品質の観点から、YaARTは多くの既存の最先端モデルよりも一貫してユーザーに好まれる結果を示しています。
本論文では、MoMAを紹介します。これはオープン語彙でトレーニング不要のパーソナライズド画像モデルであり、柔軟なゼロショット能力を備えています。基盤となるテキストから画像へのモデルが急速に進化する中、ロバストな画像間変換への需要が高まっています。このニーズに対応するため、MoMAは被写体主導のパーソナライズド画像生成に特化しています。オープンソースのマルチモーダル大規模言語モデル(MLLM)を活用し、MoMAを特徴抽出器と生成器の二重の役割で訓練します。このアプローチにより、参照画像とテキストプロンプトの情報を効果的に統合して価値ある画像特徴を生成し、画像拡散モデルを促進します。生成された特徴をより活用するため、新しいセルフアテンションショートカット手法を導入し、画像特徴を画像拡散モデルに効率的に転送することで、生成画像内のターゲットオブジェクトの類似性を向上させます。注目すべきは、チューニング不要のプラグアンドプレイモジュールとして、当モデルは単一の参照画像のみを必要とし、高詳細忠実度、強化された同一性保持、プロンプト忠実度を備えた画像生成において既存の手法を凌駕します。本研究はオープンソースであり、これらの進歩への普遍的なアクセスを提供します。
本論文では、テキストから画像を生成する拡散モデルを人間の効用期待値の最大化として定式化することでアライメントを行う新手法、Diffusion-KTOを提案する。この目的関数は各生成に対して独立に適用されるため、Diffusion-KTOは高コストなペアワイズ選好データの収集や複雑な報酬モデルの学習を必要としない。代わりに、本手法では「いいね」や「嫌い」といった単純な画像ごとの二値フィードバック信号を利用する。このようなデータは豊富に存在する。Diffusion-KTOを用いてファインチューニングを行った結果、テキストから画像を生成する拡散モデルは、教師ありファインチューニングやDiffusion-DPOなどの既存手法と比較して、人間による評価だけでなくPickScoreやImageRewardといった自動評価指標においても優れた性能を示した。全体として、Diffusion-KTOは容易に入手可能な画像ごとの二値信号を活用する可能性を開拓し、テキストから画像を生成する拡散モデルを人間の選好に沿ってアライメントする手法の適用範囲を広げるものである。
Transformerは、コンピュータビジョンや自然言語処理(NLP)分野の進歩を促進してきました。しかし、その高い計算複雑性は、高解像度画像生成などの長文脈タスクへの応用に制約を課しています。本論文では、NLPで使用されるRWKVモデルを基に、画像生成タスクに適用する拡散モデル向けに必要な修正を加えた一連のアーキテクチャを紹介します。これをDiffusion-RWKVと呼びます。Transformerを用いた拡散モデルと同様に、本モデルは、追加条件付きのシーケンスにおけるパッチ化された入力を効率的に処理し、大規模なパラメータとデータセットに対応できるように設計されています。その特筆すべき利点は、空間集約の複雑性が低減されており、高解像度画像の処理に特に優れている点です。これにより、ウィンドウ処理やグループキャッシュ操作の必要性がなくなります。条件付きおよび無条件の画像生成タスクにおける実験結果は、Diffusion-RWKVがFIDおよびISメトリクスにおいて、既存のCNNやTransformerベースの拡散モデルと同等またはそれ以上の性能を達成しつつ、総計算FLOP使用量を大幅に削減できることを示しています。
最近の拡散モデルの進展は、テキストプロンプトに基づいた2D画像編集において顕著な能力を示しています。しかし、これらの技術をNeural Radiance Fields(NeRF)のシーン編集に拡張することは複雑であり、個々の2Dフレームを編集すると、複数の視点間で不整合が生じる可能性があります。私たちの重要な洞察は、NeRFシーンのジオメトリがこれらの2D編集を統合するための橋渡しとして機能し得るということです。このジオメトリを活用し、深度条件付きControlNetを使用して各2D画像修正の一貫性を向上させます。さらに、NeRFシーンの深度情報を活用したインペインティング手法を導入し、2D編集を異なる画像間で分散させることで、エラーやリサンプリングの課題に対する堅牢性を確保します。私たちの結果は、この手法がテキスト駆動型NeRFシーン編集において、既存の主要な手法よりも一貫性があり、リアルで詳細な編集を実現することを示しています。
長時間動画質問応答は、短期的な活動を認識し、それらの細かな関係性を推論するという挑戦的な課題です。最先端のビデオ大規模言語モデル(vLLM)は、新たなタスクに対する創発的な能力を示しており、有望な解決策として期待されています。しかし、数百万の短秒単位の動画で学習されているにもかかわらず、vLLMは数分単位の動画を理解し、それに関する質問に正確に答えることができません。この制限を解決するため、我々は軽量で自己教師ありのアプローチである「Key frame-conditioned long video-LLM(Koala)」を提案します。このアプローチでは、事前学習済みのvLLMを長時間動画に適応させるために、学習可能な時空間クエリを導入します。我々の手法は、短時間および長時間の動画の瞬間を理解するために、スパースな動画キーフレームから計算された視覚トークンに基づく2つの新しいトークナイザーを導入します。提案手法をHowTo100Mで学習し、ゼロショットの長時間動画理解ベンチマークでその有効性を実証しました。その結果、すべてのタスクにおいて、最先端の大規模モデルを3~6%の絶対精度で上回りました。驚くべきことに、我々のアプローチは、事前学習済みのvLLMが長時間動画を理解するだけでなく、短期的な行動認識の精度も向上させることを経験的に示しました。