翻訳付きの日次キュレーションされたAI研究論文
近年、生成AIは急速な進歩を遂げ、マルチモーダル理解やコード生成において前例のない能力を達成しています。これにより、マルチモーダルLLMが視覚的なデザインを直接コード実装に変換するという新しいフロントエンド開発のパラダイムが可能になります。本研究では、これをDesign2Codeタスクとして形式化し、包括的なベンチマークを行います。具体的には、484の多様な実世界のウェブページをテストケースとして手動でキュレーションし、スクリーンショットを入力として与えられた参照ウェブページを直接レンダリングするコード実装を現在のマルチモーダルLLMがどれだけうまく生成できるかを評価するための自動評価指標を開発します。また、自動指標を補完するために、包括的な人間評価も行います。マルチモーダルプロンプティング手法のスイートを開発し、GPT-4VとGemini Pro Visionでの有効性を示します。さらに、Gemini Pro Visionの性能に匹敵するオープンソースのDesign2Code-18Bモデルをファインチューニングします。人間評価と自動指標の両方で、GPT-4Vが他のモデルと比較してこのタスクで最も優れた性能を示すことがわかります。さらに、アノテーターは、GPT-4Vが生成したウェブページが視覚的な外観と内容において元の参照ウェブページを49%のケースで置き換え可能であると考えています。そして、驚くべきことに、64%のケースでGPT-4Vが生成したウェブページは元の参照ウェブページよりも優れていると評価されています。私たちの細分化された指標は、オープンソースモデルが主に入力ウェブページから視覚要素を想起し、正しいレイアウトデザインを生成する点で遅れをとっている一方、テキスト内容や配色などの側面は適切なファインチューニングによって大幅に改善できることを示しています。
拡散モデルは、データからノイズへの順方向の経路を逆転させることでノイズからデータを生成し、画像や動画などの高次元で知覚的なデータに対する強力な生成モデリング技術として登場しました。Rectified flowは、データとノイズを直線的に接続する最近の生成モデルの定式化です。理論的に優れた特性と概念的な単純さを持っているにもかかわらず、まだ標準的な手法として確立されていません。本研究では、知覚的に重要なスケールに偏らせることで、Rectified flowモデルの訓練における既存のノイズサンプリング技術を改善します。大規模な研究を通じて、高解像度のテキストから画像への合成において、このアプローチが確立された拡散モデルの定式化を上回る性能を示すことを実証します。さらに、画像とテキストのトークン間で双方向の情報フローを可能にし、テキスト理解、タイポグラフィ、および人間の嗜好評価を向上させる、2つのモダリティに対して別々の重みを使用する新しいTransformerベースのアーキテクチャを提案します。このアーキテクチャが予測可能なスケーリングトレンドに従い、検証損失の低下が様々な指標と人間の評価によって測定されたテキストから画像への合成の改善と相関することを示します。私たちの最大のモデルは最先端のモデルを上回り、実験データ、コード、およびモデルの重みを公開する予定です。
画像ベースのバーチャルトライオン(VTON)は、ショップ内の衣類を着用したターゲット人物の画像を生成することを目的としており、着用した人物の高忠実度だけでなく、衣類のディテールを完全に保持することを要求する、挑戦的な画像合成タスクです。この問題に取り組むため、我々は事前学習された潜在拡散モデルの力を活用し、現実的で制御可能なバーチャルトライオンのための新しいネットワークアーキテクチャを設計したOutfitting over Try-on Diffusion(OOTDiffusion)を提案します。明示的なワーピングプロセスなしに、我々は衣類のディテール特徴を学習するためのアウトフィッティングUNetを提案し、拡散モデルのノイズ除去プロセスにおいて、提案されたアウトフィッティング融合を通じてそれらをターゲット人物の身体と統合します。アウトフィッティングUNetの制御性をさらに向上させるため、トレーニングプロセスにアウトフィッティングドロップアウトを導入し、分類器なしガイダンスを通じて衣類特徴の強度を調整できるようにします。VITON-HDおよびDress Codeデータセットでの包括的な実験により、OOTDiffusionが任意の人物および衣類画像に対して高品質なアウトフィッティング画像を効率的に生成し、忠実度と制御性の両方において他のVTON手法を上回ることを示し、バーチャルトライオンにおける印象的なブレークスルーを示しています。ソースコードはhttps://github.com/levihsu/OOTDiffusionで公開されています。
マルチモーダルモデルの発展は、機械がビデオを理解する方法において重要な一歩を記しました。これらのモデルは、短いビデオクリップの分析において有望な成果を示しています。しかし、映画のような長尺フォーマットになると、しばしばその性能が不十分です。主な障壁は、高品質で多様なビデオデータの不足と、そのようなデータを収集または注釈するために必要な多大な労力です。これらの課題に直面して、我々はMovieLLMという新しいフレームワークを提案します。このフレームワークは、長尺ビデオ向けの合成された高品質なデータを作成するために設計されています。GPT-4とテキストから画像を生成するモデルの力を活用して、詳細なスクリプトと対応するビジュアルを生成します。我々のアプローチは、その柔軟性と拡張性において際立っており、従来のデータ収集方法に比べて優れた代替手段となります。我々の広範な実験により、MovieLLMによって生成されたデータが、複雑なビデオナラティブを理解するマルチモーダルモデルの性能を大幅に向上させ、既存のデータセットの不足やバイアスに関する限界を克服することが検証されました。
近年、優れたテキストから画像生成技術を基盤として、ビデオ生成が著しい進展を遂げています。本研究では、画像からビデオを生成するための高忠実度フレームワーク「AtomoVideo」を提案します。マルチグラニュラリティな画像注入を基盤とすることで、生成されたビデオの与えられた画像に対する忠実度を高めています。さらに、高品質なデータセットとトレーニング戦略により、優れた時間的一貫性と安定性を維持しつつ、より大きな動きの強度を実現しています。我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張可能であり、反復生成を通じて長いシーケンスの予測を可能にします。さらに、アダプタトレーニングの設計により、既存のパーソナライズされたモデルや制御可能なモジュールと良好に組み合わせることができます。定量的および定性的な評価により、AtomoVideoは一般的な手法と比較して優れた結果を達成しており、詳細な例はプロジェクトウェブサイト(https://atomo-video.github.io/)でご覧いただけます。
大規模言語モデル(LLM)は、一般的に使用されるTransformerアーキテクチャの過剰な計算量とメモリ要件により、大きな課題に直面しています。一方、状態空間モデル(SSM)は、計算複雑性が低い新しいタイプの基盤ネットワークアーキテクチャですが、その性能はまだTransformerに完全には匹敵していません。本論文では、SSMにおける層間の隠れ情報の流れを強化する新しいアプローチであるDenseSSMを紹介します。浅い層の隠れ状態を深い層に選択的に統合することで、DenseSSMは最終出力に不可欠な細かい情報を保持します。Dense接続を強化したDenseSSMは、依然として訓練の並列化可能性と推論効率を維持しています。提案手法は、RetNetやMambaなど、さまざまなSSMタイプに広く適用可能です。同様のモデルサイズで、DenseSSMは大幅な改善を達成し、DenseRetNetが公開ベンチマークで元のRetNetを最大5%の精度向上で上回る例が示されています。
マルチモーダル大規模言語モデル(MLLMs)は近年、著しい進展を遂げています。しかしながら、高解像度画像内の複雑な詳細を正確に認識し理解するという課題は依然として残っています。堅牢なMLLMsの開発に不可欠であるにもかかわらず、この分野は十分に研究されていません。この課題に取り組むため、本研究ではInfiMM-HDを提案します。これは、異なる解像度の画像を低い計算コストで処理するために特別に設計された新しいアーキテクチャです。このイノベーションにより、MLLMsをより高解像度の能力に拡張することが可能になります。InfiMM-HDは、計算コストを削減するためにクロスアテンションモジュールとビジュアルウィンドウを組み込んでいます。このアーキテクチャ設計を4段階のトレーニングパイプラインと統合することで、我々のモデルは効率的かつコスト効果的に視覚的知覚を向上させます。実証研究は、InfiMM-HDの堅牢性と有効性を強調し、関連分野における新たな探求の道を開きます。コードとモデルはhttps://huggingface.co/Infi-MM/infimm-hdで公開されています。
近年のテキストから画像生成モデル(例:Stable Diffusion)およびそれに対応するパーソナライズ技術(例:DreamBoothやLoRA)の進展により、個人が高品質で想像力豊かな画像を生成することが可能になりました。しかし、これらのモデルは、訓練された領域外の解像度で画像を生成する際に制限に直面することがしばしばあります。この制限を克服するため、我々はResolution Adapter(ResAdapter)を提案します。これは、拡散モデル向けに設計されたドメイン一貫性のあるアダプタで、制限のない解像度とアスペクト比で画像を生成することができます。他のマルチ解像度生成手法が静的な解像度の画像を複雑な後処理操作で処理するのとは異なり、ResAdapterは動的な解像度で直接画像を生成します。特に、純粋な解像度の事前知識を深く理解した後、一般的なデータセットで訓練されたResAdapterは、パーソナライズされた拡散モデルを使用して、元のスタイルドメインを保ちつつ解像度制限のない画像を生成します。包括的な実験により、わずか0.5MのResAdapterが任意の拡散モデルに対して柔軟な解像度で画像を処理できることが実証されました。さらに拡張された実験では、ResAdapterが他のモジュール(例:ControlNet、IP-Adapter、LCM-LoRA)と互換性があり、広範囲の解像度で画像を生成できること、また他のマルチ解像度モデル(例:ElasticDiffusion)に統合して高解像度画像を効率的に生成できることが示されました。プロジェクトリンクはhttps://res-adapter.github.ioです。
本技術レポートでは、トランスフォーマーアーキテクチャを活用した高速フィードフォワード3D生成モデルであるTripoSRを紹介する。TripoSRは、単一の画像から0.5秒未満で3Dメッシュを生成する。LRMネットワークアーキテクチャを基盤として、TripoSRはデータ処理、モデル設計、およびトレーニング技術において大幅な改善を統合している。公開データセットでの評価により、TripoSRは他のオープンソースの代替モデルと比較して、定量的および質的に優れた性能を示すことが確認された。MITライセンスの下でリリースされたTripoSRは、研究者、開発者、およびクリエイターに3D生成AIの最新の進歩を提供することを目的としている。
言語は、複雑な概念を理解しやすい断片に分解する手段を提供します。最近のロボット模倣学習の研究では、視覚的観測と言語で指定された高レベルのタスクを基に行動を予測する言語条件付きポリシーが使用されています。これらの手法は、自然言語の構造を活用して、意味的に類似したタスク(例:「コーラ缶を拾う」と「リンゴを拾う」)間でデータを共有します。しかし、タスクが意味的に多様化する(例:「コーラ缶を拾う」と「カップに注ぐ」)につれ、タスク間でデータを共有することが難しくなり、高レベルのタスクを行動にマッピングする学習にはより多くのデモンストレーションデータが必要となります。タスクと行動を橋渡しするために、私たちの洞察は、ロボットに行動の言語を教えることです。具体的には、「腕を前に動かす」といったより細かいフレーズで低レベルの動作を記述します。これらの言語動作をタスクと行動の中間ステップとして予測することで、ポリシーは一見異なるタスク間で低レベルの動作の共有構造を学習することを強制されます。さらに、言語動作に条件付けられたポリシーは、実行中に人間が指定する言語動作を通じて簡単に修正できます。これにより、言語による人間の介入から学習できる柔軟なポリシーの新しいパラダイムが可能になります。私たちの手法RT-Hは、言語動作を使用して行動階層を構築します。まず言語動作を予測することを学習し、これと高レベルのタスクに基づいて行動を予測します。すべての段階で視覚的コンテキストを使用します。RT-Hがこの言語-行動階層を活用して、マルチタスクデータセットに効果的にアクセスすることで、より堅牢で柔軟なポリシーを学習することを示します。これらのポリシーが、言語介入に対応するだけでなく、そのような介入から学習し、遠隔操作による介入から学習する手法を上回ることを示します。私たちのウェブサイトと動画はhttps://rt-hierarchy.github.ioにあります。
3Dアセット生成は、テキストガイドによる2Dコンテンツ作成の最近の成功に触発され、多大な注目を集めています。既存のテキストから3Dを生成する手法は、事前学習済みのテキストから画像を生成する拡散モデルを最適化問題に使用したり、合成データでファインチューニングしたりしますが、これらはしばしば背景のない非写実的な3Dオブジェクトを生成してしまいます。本論文では、事前学習済みのテキストから画像を生成するモデルを事前分布として活用し、実世界のデータから単一のノイズ除去プロセスでマルチビュー画像を生成する方法を学習する手法を提案します。具体的には、既存のテキストから画像を生成するU-Netネットワークの各ブロックに、3Dボリュームレンダリングとクロスフレームアテンションレイヤーを統合することを提案します。さらに、任意の視点でより3D整合性の高い画像をレンダリングする自己回帰生成を設計します。実世界のオブジェクトデータセットでモデルを学習し、本手法が多様な高品質な形状とテクスチャを持つインスタンスを本物の環境下で生成する能力を示します。既存手法と比較して、本手法で生成された結果は一貫性があり、視覚品質が優れています(FID -30%、KID -37%)。
画像から動画(I2V)生成タスクでは、オープンドメインにおいて高い忠実度を維持することが常に課題となっています。従来の画像アニメーション技術は、主に顔や人間のポーズなど特定のドメインに焦点を当てており、オープンドメインに一般化することが困難です。最近の拡散モデルに基づくいくつかのI2Vフレームワークは、オープンドメインの画像に対して動的なコンテンツを生成できますが、忠実度を維持することができません。我々は、低い忠実度の主な要因として、画像の詳細の喪失と、ノイズ除去プロセス中のノイズ予測の偏りがあることを発見しました。これに対処するため、主流のビデオ拡散モデルに適用可能な効果的な手法を提案します。この手法は、より正確な画像情報の補完とノイズ補正に基づいて高い忠実度を実現します。具体的には、指定された画像に対して、まず入力画像の潜在表現にノイズを加えて詳細をより多く保持し、その後、適切な補正を行いながらノイズの多い潜在表現を除去することで、ノイズ予測の偏りを軽減します。我々の手法はチューニング不要で、プラグアンドプレイです。実験結果は、生成された動画の忠実度を向上させる我々のアプローチの有効性を示しています。より多くの画像から動画生成の結果については、プロジェクトのウェブサイトをご覧ください:https://noise-rectification.github.io。
多指を備えた両手による物体操作は、ロボット工学において長年の課題となってきた。これは、多くの操作タスクが接触を伴う性質を持つことや、高次元の両手システムを協調させることの複雑さに起因している。本研究では、様々なボトル状物体の蓋を両手で回す問題を取り上げ、深層強化学習を用いてシミュレーションで訓練したポリシーが現実世界に効果的に転移可能であることを実証する。物理モデリング、リアルタイム知覚、報酬設計に関する新たな工学的知見を活用することで、このポリシーは多様な未見の物体に対して一般化能力を示し、動的で器用な動作を実現する。我々の研究成果は、深層強化学習とシミュレーションから現実への転移を組み合わせるアプローチが、前例のない複雑さを伴う操作問題に対処する有望な手法であることを示す強力な証拠となる。
マルチビュービデオから動的シーンのフォトリアリスティックな自由視点映像(Free-Viewpoint Videos, FVVs)を構築することは、依然として困難な課題である。現在のニューラルレンダリング技術によって達成された顕著な進歩にもかかわらず、これらの手法は一般的にオフライン学習のために完全なビデオシーケンスを必要とし、リアルタイムレンダリングが不可能である。これらの制約に対処するため、我々は3DGStreamを提案する。この手法は、実世界の動的シーンにおける効率的なFVVストリーミングを目的として設計されている。我々の手法は、12秒以内でのフレームごとの高速なオンザフライ再構築と、200 FPSでのリアルタイムレンダリングを実現する。具体的には、シーンを表現するために3Dガウシアン(3DGs)を利用する。フレームごとに3DGsを直接最適化する単純なアプローチではなく、コンパクトなニューラル変換キャッシュ(Neural Transformation Cache, NTC)を使用して3DGsの並進と回転をモデル化し、各FVVフレームに必要な学習時間とストレージを大幅に削減する。さらに、動的シーンにおける新たなオブジェクトを処理するための適応型3DG追加戦略を提案する。実験結果から、3DGStreamはレンダリング速度、画質、学習時間、モデルストレージの点で、最先端の手法と比較して競争力のある性能を達成することが示されている。