翻訳付きの日次キュレーションされたAI研究論文
大規模視覚言語モデル(VLMs)は、マルチモーダル知覚と推論において著しい進展を遂げてきました。さらに、これらがエンボディエージェントにシームレスに統合されることで、自律的かつ文脈を認識したシステムの構築に向けた重要な一歩を意味します。このようなシステムは、計画を立案し、正確に命令を実行することが可能です。本論文では、Octopusという新しいVLMを紹介します。Octopusは、エージェントの視覚とテキストタスク目標を的確に解読し、複雑なアクションシーケンスを策定し、実行可能なコードを生成するように設計されています。私たちの設計により、エージェントはシミュレータ内での日常的な作業から複雑なビデオゲームでの高度なインタラクションまで、幅広いタスクを巧みに処理することが可能です。Octopusは、GPT-4を活用して探索エージェントを制御し、OctoVerseと呼ばれる実験環境内でトレーニングデータ(アクションブループリントと対応する実行可能コード)を生成することでトレーニングされます。また、環境フィードバックを伴う強化学習(RLEF)の強化されたトレーニングスキームを可能にするフィードバックも収集します。一連の実験を通じて、Octopusの機能を明らかにし、説得力のある結果を示します。提案されたRLEFは、エージェントの意思決定を洗練させることが判明しました。私たちは、モデルアーキテクチャ、シミュレータ、およびデータセットをオープンソース化することで、さらなるイノベーションを引き起こし、広範なエンボディAIコミュニティ内での協力的なアプリケーションを促進することを目指しています。
我々は、汎用性の高い言語エージェントの中核として機能するよう、自然言語とコーディング能力の両方に最適化されたオープンアクセスの言語モデル、LemurとLemur-Chatを紹介する。言語チャットモデルから機能的な言語エージェントへの進化には、モデルが人間との相互作用、推論、計画を習得するだけでなく、関連する環境に基づいた基盤を確保することが求められる。これには、モデルにおける言語とコーディング能力の調和の取れた融合が必要である。LemurとLemur-Chatは、この必要性に対応するために提案され、既存のオープンソースモデルがどちらかに特化する傾向があるのとは異なり、両分野においてバランスの取れた熟練度を示す。コード集約型コーパスを用いた入念な事前学習と、テキストおよびコードデータに対する指示ファインチューニングを通じて、我々のモデルはオープンソースモデルの中で多様なテキストおよびコーディングベンチマークにおいて最先端の平均性能を達成する。包括的な実験により、Lemurが既存のオープンソースモデルを上回り、完全観測可能および部分観測可能な環境下での人間とのコミュニケーション、ツールの使用、相互作用を含む様々なエージェントタスクにおいて熟練していることが実証された。自然言語とプログラミング言語の調和により、Lemur-Chatはエージェント能力においてプロプライエタリモデルとのギャップを大幅に狭め、環境をシームレスに横断する推論、計画、操作に熟達した先進的なオープンソースエージェントの開発に重要な洞察を提供する。https://github.com/OpenLemur/Lemur
「Idea to Image」を紹介する。これは、GPT-4V(ision)を用いたマルチモーダルな反復的自己改善を可能にし、自動的な画像設計と生成を実現するシステムである。人間は、反復的な探索を通じて異なるテキストから画像への変換(T2I)モデルの特性を迅速に特定できる。これにより、高レベルの生成アイデアを効果的なT2Iプロンプトに効率的に変換し、優れた画像を生成することが可能となる。我々は、大規模マルチモーダルモデル(LMM)に基づくシステムが、未知のモデルや環境を自己改善的な試行を通じて探索する能力を発揮できるかどうかを調査する。Idea2Imgは、修正されたT2Iプロンプトを循環的に生成し、ドラフト画像を合成し、プロンプトの修正に向けた方向性のあるフィードバックを提供する。これらは、調査されたT2Iモデルの特性に関する記憶に基づいて行われる。反復的な自己改善により、Idea2Imgは従来のT2Iモデルに対して様々な利点を持つ。特に、Idea2Imgは画像とテキストが交互に現れる入力アイデアを処理し、設計指示を含むアイデアに従い、意味的および視覚的に優れた品質の画像を生成できる。ユーザー選好調査により、自動的な画像設計と生成におけるマルチモーダルな反復的自己改善の有効性が検証された。
近年、テキストプロンプトからの3Dアセット生成は目覚ましい成果を上げています。2Dおよび3Dの拡散モデルは、プロンプトに基づいて良好な3Dオブジェクトを生成することができます。3D拡散モデルは優れた3D一貫性を持っていますが、学習可能な3Dデータが高価で入手困難であるため、その品質と汎用性は限られています。一方、2D拡散モデルは強力な汎用性と細かい生成能力を有していますが、3D一貫性を保証するのは困難です。本論文では、最近の明示的で効率的な3Dガウススプラッティング表現を介して、これら2種類の拡散モデルの力を統合しようと試みています。高速な3D生成フレームワーク「\name」を提案し、3D拡散モデルが初期化のための点群事前分布を提供し、2D拡散モデルが形状と外観を豊かにします。初期化されたガウシアンを強化するために、ノイズのある点の成長と色の摂動の操作を導入しています。私たちの\nameは、1つのGPU上で25分以内に高品質な3Dインスタンスを生成することができ、従来の方法よりもはるかに高速でありながら、生成されたインスタンスはリアルタイムで直接レンダリング可能です。デモとコードはhttps://taoranyi.com/gaussiandreamer/で公開されています。
大規模なテキストから画像への生成モデルにおいて大きな進展が見られるにもかかわらず、超リアルな人間画像の生成は依然として望まれるが未解決の課題である。Stable DiffusionやDALL-E 2などの既存のモデルは、不整合な部分や不自然なポーズを持つ人間画像を生成しがちである。これらの課題に取り組むため、我々の重要な洞察は、人間の画像が本質的に複数の粒度レベルで構造的であるということである。粗いレベルでの身体の骨格から細かい空間的ジオメトリまで、明示的な外観と潜在的な構造の間の相関を捉えることが、一貫性があり自然な人間画像を生成するために不可欠である。この目的のために、我々はHyperHumanという統一フレームワークを提案し、高リアルさと多様なレイアウトを持つ野外の人間画像を生成する。具体的には、1) まず、人間のポーズ、深度、表面法線などの包括的なアノテーションを持つ3億4千万枚の画像からなる大規模な人間中心のデータセット、HumanVerseを構築する。2) 次に、合成されたRGB画像とともに深度と表面法線を同時にノイズ除去するLatent Structural Diffusion Modelを提案する。我々のモデルは、画像の外観、空間的関係、ジオメトリを統一ネットワークで共同学習し、モデル内の各ブランチが構造的認識とテクスチャの豊かさを相互に補完する。3) 最後に、視覚品質をさらに向上させるために、より詳細な高解像度生成のための予測条件を構成するStructure-Guided Refinerを提案する。広範な実験により、我々のフレームワークが多様なシナリオ下で超リアルな人間画像を生成する最先端の性能を発揮することが示された。プロジェクトページ: https://snap-research.github.io/HyperHuman/
大規模な事前学習済み拡散モデルは、多様なビデオ生成において顕著な能力を発揮しています。同じ動作概念を持つ一連のビデオクリップが与えられた場合、Motion Customization(モーションカスタマイズ)のタスクは、既存のテキストからビデオへの拡散モデルを適応させ、その動作を持つビデオを生成することです。例えば、特定のカメラムーブメントの下で車が指定された方法で動くビデオを生成して映画を作成したり、クマがウェイトを持ち上げる様子を描いたビデオを生成してクリエイターにインスピレーションを与えたりすることが挙げられます。これまで、被写体やスタイルなどの外観をカスタマイズするための適応手法は開発されてきましたが、モーションについては未開拓でした。モーションカスタマイズのために主流の適応手法を拡張することは直感的であり、フルモデルのチューニング、追加レイヤーのパラメータ効率的なチューニング、低ランク適応(LoRA)などが含まれます。しかし、これらの手法で学習されたモーション概念は、トレーニングビデオの限られた外観と結びついていることが多く、カスタマイズされたモーションを他の外観に一般化することが困難です。この課題を克服するために、我々はMotionDirectorを提案し、外観とモーションの学習を分離するデュアルパスLoRAアーキテクチャを採用しました。さらに、外観の影響を時間的トレーニング目標から軽減するための新しい外観バイアス除去時間的損失を設計しました。実験結果は、提案手法がカスタマイズされたモーションに対して多様な外観のビデオを生成できることを示しています。また、我々の手法は、異なるビデオの外観とモーションをそれぞれ組み合わせたり、単一の画像をカスタマイズされたモーションでアニメーション化したりするなど、様々な下流アプリケーションをサポートします。コードとモデルウェイトは公開予定です。