翻訳付きの日次キュレーションされたAI研究論文
私たちは、自由形式のテキストと画像の構成と理解に優れた最先端の視覚言語モデル「InternLM-XComposer2」を紹介します。このモデルは、従来の視覚言語理解を超え、アウトライン、詳細なテキスト仕様、参照画像など多様な入力からテキストと画像を織り交ぜたコンテンツを巧みに作成し、高度にカスタマイズ可能なコンテンツ生成を実現します。InternLM-XComposer2は、Partial LoRA(PLoRA)アプローチを提案し、追加のLoRAパラメータを画像トークンにのみ適用することで、事前学習された言語知識の完全性を保ちつつ、正確な視覚理解と文学的な才能を活かしたテキスト構成のバランスを取ります。実験結果は、InternLM2-7Bを基盤とするInternLM-XComposer2が、高品質な長文マルチモーダルコンテンツの生成と、さまざまなベンチマークでの卓越した視覚言語理解性能を示しており、既存のマルチモーダルモデルを大幅に上回るだけでなく、特定の評価ではGPT-4VやGemini Proにも匹敵または凌駕することを証明しています。これは、マルチモーダル理解の領域におけるその驚異的な熟練度を強調しています。7BパラメータのInternLM-XComposer2モデルシリーズは、https://github.com/InternLM/InternLM-XComposer で公開されています。
大規模視覚言語モデル(LVLM)において、モデルのスケーリングは性能向上に有効である。しかし、モデルパラメータを拡張すると、計算において各トークンに対してすべてのモデルパラメータが活性化されるため、トレーニングと推論のコストが大幅に増加する。本研究では、LVLM向けの新しいトレーニング戦略であるMoE-tuningを提案する。この戦略は、膨大な数のパラメータを持つ疎なモデルを構築しつつ、計算コストを一定に保ち、マルチモーダル学習とモデルの疎性に伴う性能低下を効果的に解決する。さらに、MoEベースの疎なLVLMアーキテクチャであるMoE-LLaVAフレームワークを提示する。このフレームワークは、デプロイ時にルーターを通じてトップkのエキスパートのみを活性化し、残りのエキスパートを非活性化する。我々の広範な実験は、MoE-LLaVAの視覚理解における優れた能力と、モデル出力における幻覚を減少させる可能性を強調している。驚くべきことに、30億の疎活性化パラメータのみで、MoE-LLaVAは様々な視覚理解データセットにおいてLLaVA-1.5-7Bに匹敵する性能を示し、オブジェクト幻覚ベンチマークではLLaVA-1.5-13Bを凌駕する。MoE-LLaVAを通じて、疎なLVLMのベースラインを確立し、より効率的で効果的なマルチモーダル学習システムの開発に向けた将来の研究に貴重な洞察を提供することを目指す。コードはhttps://github.com/PKU-YuanGroup/MoE-LLaVAで公開されている。
大規模言語モデルは、ウェブから大規模にスクレイピングされたデータで学習されますが、そのデータはしばしば非構造化でノイズが多く、不適切な表現を含んでいます。現在のスケーリング則によると、そのようなデータから学習するためには、モデルのサイズに比例して計算資源とデータ量が大量に必要となります。これは、事前学習に関連する膨大な計算コストと時間、そしてウェブ上の高品質なデータの不足により実現が困難です。本研究では、ウェブ上のドキュメントを「Wikipedia風」や「質問応答形式」など特定のスタイルで言い換えるために、既存の指示チューニング済みモデルを使用するWeb Rephrase Augmented Pre-training(WRAP)を提案します。これにより、実データと合成された言い換えデータを組み合わせて大規模言語モデルを共同で事前学習します。まず、自然にノイズの多いC4データセットにWRAPを適用することで、事前学習を約3倍高速化できることを示します。同じ事前学習の計算予算で、Pileの異なるサブセット全体で平均10%以上のパープレキシティ改善を達成し、13のタスクにわたるゼロショット質問応答精度を2%以上向上させます。次に、言い換えスタイルがモデルの性能に与える影響を調査し、学習データの構成がOOD設定での大規模言語モデルの性能にどのように影響するかについて洞察を提供します。これらの改善は、合成された言い換えデータが実データよりも高い有用性を持つためであり、その理由は、(i) 下流評価スタイルに密接に反映されるスタイルの多様性を組み込んでいること、(ii) ウェブスクレイピングデータよりも高い「品質」を有していることです。
Motion-I2Vを紹介します。これは、一貫性と制御性を備えた新しい画像から動画生成(I2V)フレームワークです。従来の方法が複雑な画像から動画へのマッピングを直接学習するのに対し、Motion-I2VはI2Vを明示的なモーションモデリングを用いて2段階に分解します。第1段階では、拡散モデルに基づくモーションフィールド予測器を提案し、参照画像のピクセルの軌跡を推論することに焦点を当てます。第2段階では、動画潜在拡散モデルにおける限定的な1次元時間的注意を強化するために、モーション拡張時間的注意を提案します。このモジュールは、第1段階で予測された軌跡のガイダンスに基づいて、参照画像の特徴を合成フレームに効果的に伝播させることができます。既存の方法と比較して、Motion-I2Vは大きな動きや視点の変化があっても、より一貫した動画を生成することができます。第1段階のためのスパース軌跡ControlNetを訓練することで、Motion-I2Vはユーザーがスパース軌跡と領域アノテーションを用いてモーション軌跡とモーション領域を精密に制御することを可能にします。これにより、テキスト指示だけに頼るよりもI2Vプロセスの制御性が向上します。さらに、Motion-I2Vの第2段階は、ゼロショットの動画から動画への変換を自然にサポートします。定性的および定量的な比較により、Motion-I2Vが従来のアプローチよりも一貫性と制御性を備えた画像から動画生成において優れていることが示されています。
近年、ロボティック強化学習(RL)の分野では大きな進展が見られ、複雑な画像観測の処理、実世界でのトレーニング、デモンストレーションや事前経験などの補助データの組み込みを可能にする手法が開発されてきました。しかし、これらの進歩にもかかわらず、ロボティックRLの利用は依然として困難です。実務家の間では、これらのアルゴリズムの特定の実装詳細が、アルゴリズムの選択と同様に(あるいはそれ以上に)性能にとって重要であることが認識されています。我々は、ロボティックRLの広範な採用およびさらなる手法開発に対する大きな障壁として、これらの手法の比較的アクセスしにくさがあると考えます。この課題に対処するため、我々はサンプル効率の良いオフポリシー深層RL手法、報酬計算と環境リセットの手法、広く採用されているロボットのための高品質なコントローラ、そして多数の挑戦的なタスク例を含む、慎重に実装されたライブラリを開発しました。このライブラリをコミュニティのリソースとして提供し、その設計選択を説明し、実験結果を提示します。おそらく驚くべきことに、我々の実装は非常に効率的な学習を達成し、PCB基板の組み立て、ケーブル配線、物体の再配置のためのポリシーを平均25〜50分のトレーニングで獲得し、文献で報告されている類似タスクの最先端の結果を上回りました。これらのポリシーは完璧またはほぼ完璧な成功率、摂動下での極端なロバスト性、そして回復や修正の振る舞いを示します。我々は、これらの有望な結果と高品質なオープンソース実装が、ロボティクスコミュニティにとってロボティックRLのさらなる発展を促進するツールとなることを期待しています。我々のコード、ドキュメント、およびビデオはhttps://serl-robot.github.io/で閲覧できます。
音声から3D顔面アニメーションを合成する技術は、大きな注目を集めています。高品質な4D顔面データや十分に注釈された多様なマルチモーダルラベルの不足により、従来の手法はリアリズムの限界や柔軟な条件付けの欠如に悩まされてきました。私たちはこの課題を三部作で解決します。まず、Generalized Neural Parametric Facial Asset (GNPFA)を導入します。これは、顔の形状と画像を高度に一般化された表情の潜在空間にマッピングする効率的な変分オートエンコーダであり、表情とアイデンティティを分離します。次に、GNPFAを利用して、多数のビデオから高品質な表情と正確な頭部姿勢を抽出します。これにより、M2F-Dデータセットが作成されます。これは、感情やスタイルのラベルが十分に注釈された、大規模で多様なスキャンレベルの共話3D顔面アニメーションデータセットです。最後に、GNPFA潜在空間内での共話顔面アニメーション生成のための拡散モデルであるMedia2Faceを提案します。このモデルは、音声、テキスト、画像からの豊富なマルチモーダルガイダンスを受け入れます。広範な実験により、私たちのモデルが顔面アニメーション合成において高い忠実度を達成するだけでなく、3D顔面アニメーションの表現力とスタイル適応性の範囲を広げることが実証されました。
マルチモーダル大規模言語モデル(MLLM)に基づくモバイルデバイスエージェントが、最近注目を集めるアプリケーションとなっています。本論文では、Mobile-Agentという自律型マルチモーダルモバイルデバイスエージェントを紹介します。Mobile-Agentはまず、視覚的知覚ツールを活用して、アプリのフロントエンドインターフェース内の視覚的およびテキスト要素を正確に識別し、位置特定します。認識された視覚コンテキストに基づいて、複雑な操作タスクを自律的に計画・分解し、ステップバイステップでモバイルアプリを操作します。従来のアプリのXMLファイルやモバイルシステムのメタデータに依存するソリューションとは異なり、Mobile-Agentは視覚中心のアプローチにより、多様なモバイル操作環境への高い適応性を実現し、システム固有のカスタマイズの必要性を排除します。Mobile-Agentの性能を評価するために、モバイルデバイス操作を評価するベンチマークであるMobile-Evalを導入しました。Mobile-Evalに基づき、Mobile-Agentの包括的な評価を実施しました。実験結果は、Mobile-Agentが高い精度と完了率を達成したことを示しています。複数アプリの操作といった難しい指示に対しても、Mobile-Agentは要件を満たすことができます。コードとモデルはhttps://github.com/X-PLUG/MobileAgentでオープンソース化されます。
大規模な事前学習済みテキスト画像生成モデルの最近の進展により、高品質な人間中心の生成が前例のない能力を示しています。しかし、顔の同一性をカスタマイズすることは依然として困難な問題です。既存の方法では、トレーニング中に各被写体の複数の画像を使用しても、安定した同一性の保持と柔軟な編集性を保証できません。本研究では、たった1枚の顔画像で同一性を一貫して再文脈化できるStableIdentityを提案します。具体的には、顔エンコーダと同一性事前分布を使用して入力顔をエンコードし、その後、有名人の名前から構築された編集可能な事前分布を持つ空間に顔表現を配置します。同一性事前分布と編集可能性事前分布を組み込むことで、学習された同一性をさまざまな文脈でどこにでも注入できます。さらに、入力顔のピクセルレベルの知覚を向上させ、生成の多様性を維持するために、マスク付き二段階拡散損失を設計しました。広範な実験により、本手法が従来のカスタマイズ手法を凌駕することが示されています。さらに、学習された同一性は、ControlNetなどの既存のモジュールと柔軟に組み合わせることができます。特に、私たちの知る限り、単一画像から学習した同一性を微調整なしで直接ビデオ/3D生成に注入するのは初めてです。提案するStableIdentityは、画像、ビデオ、3Dのカスタマイズ生成モデルを統合するための重要な一歩であると信じています。
大規模なテキストから画像生成モデルがテキストから画像生成の分野で目覚ましい進歩を遂げる中、多くのファインチューニング手法が提案されてきました。しかし、これらのモデルは新しいオブジェクト、特にワンショットシナリオにおいて苦戦することが多いです。私たちが提案する手法は、単一の入力画像とオブジェクト固有の関心領域のみを使用して、汎用性と忠実度の課題をオブジェクト駆動型で解決することを目指しています。汎用性を向上させ、過学習を緩和するために、私たちのパラダイムでは、拡散モデルのファインチューニングを行う前に、オブジェクトの外観とそのクラスに基づいてプロトタイプ埋め込みを初期化します。また、ファインチューニング中に、オブジェクトクラスの事前知識を保持するためのクラス特性正則化を提案します。さらに、忠実度を向上させるために、オブジェクト固有の損失を導入し、これを使用して複数のオブジェクトを埋め込むことも可能です。全体として、私たちが提案する新しいオブジェクトを埋め込むためのオブジェクト駆動型手法は、既存の概念とシームレスに統合でき、高い忠実度と汎用性を実現します。私たちの手法は、いくつかの既存の研究を上回る性能を示しています。コードは公開予定です。
テキストから画像を生成するモデルは大幅な進歩を遂げているものの、複雑なテキストプロンプトの文脈において、特にオブジェクトの属性や関係性を保持する際に、テキストプロンプトの画像に対する制御性を確保することに依然として苦戦しています。本論文では、大規模言語モデル(LLM)エージェントを中核とした、訓練不要の構成テキストから画像生成のためのアプローチ「CompAgent」を提案します。CompAgentの基本的なアイデアは、分割統治法に基づいています。オブジェクト、属性、関係性を含む複数の概念からなる複雑なテキストプロンプトが与えられると、LLMエージェントはまずそれを分解し、個々のオブジェクト、それに関連する属性、そして一貫したシーンレイアウトの予測を行います。これらの個々のオブジェクトは独立して征服されます。その後、エージェントはテキストを分析して推論を行い、計画を立て、これらの孤立したオブジェクトを構成するためのツールを利用します。検証と人間のフィードバックメカニズムが最終的にエージェントに組み込まれ、潜在的な属性エラーを修正し、生成された画像をさらに洗練します。LLMエージェントの指導のもと、我々は訓練不要のマルチコンセプトカスタマイズモデルとレイアウトから画像を生成するモデルをコンセプト構成のためのツールとして提案し、検証のためにエージェントと相互作用するためのローカル画像編集方法を提案します。シーンレイアウトは、これらのツール間で画像生成プロセスを制御し、複数のオブジェクト間の混乱を防ぎます。広範な実験により、我々のアプローチが構成テキストから画像生成において優れていることが示されています:CompAgentは、オープンワールドの構成T2I生成のための包括的なベンチマークであるT2I-CompBenchにおいて、10%以上の改善を達成しました。様々な関連タスクへの拡張も、CompAgentの潜在的な応用における柔軟性を示しています。
既存の視覚言語モデルは、様々な視覚領域やタスクにおいて強力な汎化性能を示しています。しかし、これらのモデルは主に閉じたセットでのゼロショット認識を行い、設計上、オープンドメインの視覚概念を扱うことに苦労しています。最近では、プロンプト学習のようなファインチューニング手法が提案されており、これらは分布内(ID)と分布外(OOD)サンプルの識別を研究するだけでなく、IDとOODの精度の両方でいくつかの改善を示しています。本論文では、まず、十分に長いファインチューニングを行ったが適切な正則化を行わなかった視覚言語モデルが、与えられたデータセットの既知クラスに過剰適合し、未知クラスでの性能が低下する傾向があることを示します。次に、この欠点を解決するために、ファインチューニングされたモデルのOOD汎化(OOD GENeralization)を改善することに主眼を置いた新しいアプローチOGENを提案します。具体的には、クラス条件付き特徴生成器を導入し、未知クラスのクラス名のみを使用してOOD特徴を合成します。このような合成された特徴は、未知に関する有用な知識を提供し、IDデータとOODデータの間の決定境界を正則化するのに役立ちます。同様に重要なのは、共同最適化中に特徴生成モデルを正則化するための適応的自己蒸留メカニズムであり、モデル状態間で知識を適応的に転送することで、過剰適合をさらに防ぎます。実験により、我々の方法が異なる設定においてOOD汎化性能において説得力のある向上をもたらすことが検証されています。