翻訳付きの日次キュレーションされたAI研究論文
最近のビデオ拡散モデルの進歩により、現実世界のダイナミクスをシミュレートし、3Dの一貫性を維持する能力が非常に優れていることが示されています。この進歩は、これらのモデルの潜在能力を調査し、仮想撮影などのアプリケーションにとって非常に望ましい特徴であるさまざまな視点での動的一貫性を確保する可能性を私たちに示唆しています。4D再構築のための単一オブジェクトの多視点生成に焦点を当てた既存の手法とは異なり、私たちの関心は、任意の視点からのオープンワールドビデオの生成にあり、6 DoFカメラポーズを組み込んでいます。これを実現するために、事前にトレーニングされたテキストからビデオへのモデルを拡張するプラグアンドプレイモジュールを提案し、マルチカメラビデオ生成のために一貫したコンテンツを異なる視点で確保します。具体的には、外観とジオメトリの一貫性をこれらの視点で維持するためのマルチビュー同期モジュールを導入します。高品質なトレーニングデータが不足していることから、Unreal Engineでレンダリングされたマルチカメラビデオを補完するために、マルチカメラ画像と単眼ビデオを活用するハイブリッドトレーニングスキームを設計しています。さらに、私たちの手法は、新しい視点からビデオを再レンダリングするなどの興味深い拡張を可能にします。また、SynCamVideo-Datasetと名付けられたマルチビュー同期ビデオデータセットを公開しています。プロジェクトページ: https://jianhongbai.github.io/SynCamMaster/。
最近のテキストから画像への生成(T2I)の進歩は、テキストから高品質な画像を生成する際に顕著な成功を示しています。しかし、既存のT2Iモデルは、複数のオブジェクトや入り組んだ関係を含む構成画像生成において性能が低下していることが報告されています。この問題は、画像テキストのペアの既存データセットに、正確なオブジェクト間の関係の注釈が不足していることに起因すると考えられます。この問題に対処するために、複数のオブジェクトの属性や関係を正確に記述するシーングラフ(SG)の高品質な構造アノテーションを備えた大規模なデータセットであるLAION-SGを構築しました。LAION-SGを基に、構造アノテーション情報を生成プロセスに組み込む新しい基礎モデルSDXL-SGを訓練しました。広範な実験により、当社のLAION-SGで訓練された高度なモデルが既存のデータセット上のモデルよりも複雑なシーン生成において顕著な性能向上を誇ることが示されました。また、複成画像生成においてモデルを評価するベンチマークであるCompSG-Benchを導入し、この領域の新たな標準を確立しました。
最近、ビジョン言語モデルは著しい進歩を遂げ、光学文字認識や複雑な図解析などのさまざまなタスクで優れたパフォーマンスを示しています。この傾向を受けて、私たちはさまざまな実世界のアプリケーションで優れた性能を発揮するよう設計された新しいビジョン言語モデル、POINTS1.5を紹介します。POINTS1.5はPOINTS1.0の拡張版であり、いくつかの主要な革新を取り入れています。i) 固定された画像解像度を持つ元のCLIPビジョンエンコーダーを、ネイティブなダイナミックな高解像度をサポートするNaViTスタイルのビジョンエンコーダーに置き換えます。これにより、POINTS1.5は画像をタイルに分割することなく、任意の解像度の画像を処理できます。ii) POINTS1.5にバイリンガルサポートを追加し、中国語での機能を大幅に向上させます。ビジョン言語モデル向けのオープンソースの中国語データセットが不足しているため、インターネットから多数の画像を収集し、手動と自動の組み合わせを使用して注釈を付けます。iii) 視覚指示チューニングデータセット用の厳格なフィルタリング手法を提案します。これらのフィルタリング手法を包括的に評価し、最も効果的なものを選択して最終的な視覚指示チューニングセットを取得します。これらの革新により、POINTS1.5はPOINTS1.0を大幅に上回り、さまざまな実世界のアプリケーションで強力なパフォーマンスを発揮します。特に、4十億トークン未満でトレーニングされたPOINTS1.5-7Bは、10十億未満のパラメータを持つモデルの中でOpenCompassリーダーボードで1位にランクインしています。
コントロール可能な人物画像生成は、参照画像に基づいて人物画像を生成し、人物の外見やポーズを正確にコントロールすることを目指しています。しかし、従来の手法では、全体的な画質が高くなっても、参照画像から微細なテクスチャの詳細が歪んでしまうことがよくありました。これらの歪みは、参照画像内の対応する領域への適切な注意が不足していることに起因すると考えられます。この問題に対処するために、我々は学習フローを注視するアテンション(Leffa)を提案します。これにより、トレーニング中にターゲットクエリを明示的に正しい参照キーに注視させます。具体的には、拡散ベースライン内のアテンションマップに対する正則化損失を介して実現されます。我々の幅広い実験は、Leffaが外見(仮想試着)とポーズ(ポーズ転送)の制御において最先端の性能を達成し、微細な詳細の歪みを軽減しながら高い画質を維持することを示しています。さらに、我々の損失はモデルに依存せず、他の拡散モデルの性能を向上させるために使用できることも示しています。
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマーキングの成長するニーズに対応しており、特に自動化と大規模言語モデル(LLMs)を活用するWebインタラクションタスクに焦点を当てています。多くの既存のベンチマークは、分断と一貫性のない評価方法論に苦しんでおり、信頼性のある比較や再現可能な結果を得ることが難しい状況です。BrowserGymは、統一された、gymのような環境を提供し、明確に定義された観測および行動空間を備え、さまざまなベンチマークにわたる標準化された評価を促進します。エージェントの作成、テスト、分析を支援する補完的なフレームワークであるAgentLabと組み合わせることで、BrowserGymは新しいベンチマークの統合の柔軟性を提供しながら、一貫した評価と包括的な実験管理を確保します。この標準化されたアプローチは、Webエージェントの開発の時間と複雑さを削減し、より信頼性のある比較をサポートし、エージェントの振る舞いの詳細な分析を促進し、最終的にLLM駆動の自動化における革新を加速させることを目指しています。支持する証拠として、初めての大規模なマルチベンチマークWebエージェント実験を実施し、現在のBrowserGymで利用可能なすべてのベンチマークにおいて、6つの最先端のLLMsのパフォーマンスを比較しています。他の発見の中で、私たちの結果は、OpenAIとAnthropicの最新モデルの間に大きな相違があり、Claude-3.5-Sonnetがほとんどのベンチマークでトップをリードしている一方、GPT-4oが優れているビジョン関連のタスクがあります。これらの進展にもかかわらず、私たちの結果は、堅牢で効率的なWebエージェントの構築は、現実世界のWeb環境の固有の複雑さと現行モデルの制約のために依然として重大な課題であることを強調しています。
最近の基礎となるビデオ生成器は視覚的に豊かな出力を生み出していますが、依然として外観のドリフトに苦しんでおり、物体がフレーム間で徐々に劣化したり一貫性のない変化を遂げることで、視覚的な一貫性が崩れてしまいます。私たちは、これは特徴レベルでの空間追跡に関する明示的な監督がないためだと仮説を立てています。私たちは、空間的に意識したビデオ生成器であるTrack4Genを提案します。これは、フレーム間でのポイント追跡とビデオ拡散損失を組み合わせ、拡散特徴に対する強化された空間的監督を提供します。Track4Genは、既存のビデオ生成アーキテクチャに最小限の変更を加えることで、ビデオ生成とポイント追跡のタスクを単一のネットワークに統合します。安定したビデオ拡散をバックボーンとして使用することで、Track4Genは、通常は別々のタスクとして処理されるビデオ生成とポイント追跡を統一することが可能であることを示しています。私たちの包括的な評価は、Track4Genが外観のドリフトを効果的に軽減し、時間的に安定し視覚的に一貫したビデオ生成を実現することを示しています。プロジェクトページ: hyeonho99.github.io/track4gen
ビデオ生成モデルにおいて、スタイル制御は一般的に人気があります。既存の手法は、しばしば与えられたスタイルからかけ離れたビデオを生成し、コンテンツの漏洩を引き起こし、1つのビデオを所望のスタイルに転送するのに苦労します。私たちの最初の観察結果は、スタイル抽出段階が重要であるということです。一方、既存の手法はグローバルなスタイルを強調していますが、ローカルなテクスチャを無視しています。コンテンツの漏洩を防ぎつつ、テクスチャ特徴をもたらすために、プロンプトパッチの類似性に基づいてコンテンツ関連のパッチをフィルタリングし、スタイル関連のパッチを保持します。グローバルなスタイル抽出のために、モデルの錯覚を通じて対照学習を促進するために、対になるスタイルデータセットを生成します。これにより、絶対的なスタイルの一貫性が大幅に向上します。さらに、画像からビデオへのギャップを埋めるために、静止画像の上で軽量なモーションアダプタをトレーニングし、暗黙的にスタイル化の範囲を拡張し、画像でトレーニングされたモデルをビデオにシームレスに適用できるようにします。これらの取り組みの恩恵を受けて、当社の手法であるStyleMasterは、スタイルの類似性と時間的な一貫性の両方で著しい改善を達成するだけでなく、灰色のタイルControlNetを用いたビデオスタイル転送にも容易に一般化できます。幅広い実験と視覚化により、StyleMasterが競合他社を大幅に凌駕し、テキストコンテンツに適合し、参照画像のスタイルに密接に似た高品質なスタイル化されたビデオを効果的に生成することが示されています。弊社のプロジェクトページは以下にあります:https://zixuan-ye.github.io/stylemaster
一般化されたフィードフォワードガウスモデルは、大規模なマルチビューデータセットからの事前知識を活用して、疎な視点の3D再構築において重要な進展を遂げています。ただし、これらのモデルは、ガウス数の制約により高周波の詳細を表現するのに苦労することがよくあります。per-scene 3Dガウススプラッティング(3D-GS)最適化で使用される密度化戦略は、フィードフォワードモデルに適応できるが、一般化されたシナリオには理想的とは言えません。本論文では、フィードフォワードモデルによって生成されたガウスを密度化する効率的かつ汎用性のある方法であるGenerative Densificationを提案します。3D-GSの密度化戦略が、反復的に生のガウスパラメータを分割および複製するのに対し、当社の手法はフィードフォワードモデルから特徴表現をアップサンプリングし、それらに対応する細かいガウスを単一の前方パスで生成することで、埋め込まれた事前知識を活用して一層の一般化を実現します。オブジェクトレベルおよびシーンレベルの再構築タスクにおける実験結果は、当社の手法が、モデルサイズが同等または小さい状態で、優れた性能を発揮し、詳細な部分の表現において著しい改善を達成していることを示しています。
本論文では、StreamChatという新しいアプローチを提案し、ストリーミングビデオコンテンツとの対話能力を向上させる方法を示します。ストリーミング対話シナリオでは、従来の手法は質問が提示された時点で利用可能な視覚情報のみに依存しており、モデルがストリーミングビデオの後続の変更に気付かずにいるため、大幅な遅延が発生します。StreamChatは、デコーディングの各ステップで視覚的コンテキストを革新的に更新することで、デコーディングプロセス全体で最新のビデオコンテンツをモデルが利用することを保証し、この制限に対処します。さらに、動的なストリーミング入力を処理する柔軟かつ効率的なクロスアテンションベースのアーキテクチャを導入し、ストリーミング対話の推論効率を維持します。さらに、ストリーミング対話モデルのトレーニングを容易にするために新しい密な指示データセットを構築し、視覚とテキストのトークンの相対的な時間情報をエンコードする並列3D-RoPEメカニズムを補完します。実験結果は、StreamChatが確立された画像およびビデオベンチマークで競争力のあるパフォーマンスを達成し、最先端のビデオLMMと比較してストリーミング対話シナリオで優れた能力を示すことを示しています。
事前に学習されたテキストから画像への変換(T2I)拡散/フローモデルを使用して実画像を編集する場合、画像を対応するノイズマップに反転させることがしばしば含まれます。 ただし、反転そのものでは通常、満足のいく結果が得られないため、多くの手法がサンプリングプロセスに追加で介入します。 これらの手法は改善された結果を達成しますが、モデルアーキテクチャ間でシームレスに転送可能ではありません。 ここで、FlowEditという、事前に学習されたT2Iフローモデル用のテキストベースの編集手法を紹介します。この手法は、反転や最適化を必要とせず、モデルに依存しません。 当社の手法は、ソースとターゲットの分布(ソースとターゲットのテキストプロンプトに対応)間を直接マッピングするODEを構築し、反転アプローチよりも低い輸送コストを実現します。 これにより、Stable Diffusion 3とFLUXで示すように、最先端の結果が得られます。コードと例はプロジェクトのウェブページで入手可能です。
3D空間推論とは、3D空間内のオブジェクトの位置、向き、および空間的関係を分析および解釈する能力です。これにより、モデルは3Dシーンの包括的な理解を開発し、自律ナビゲーション、ロボティクス、AR/VRなど、さまざまな領域に適用できるようになります。大規模なマルチモーダルモデル(LMMs)は、画像とビデオ理解のさまざまなタスクで顕著な進歩を遂げていますが、多様な自然画像での3D空間推論の能力についてはあまり研究されていません。本研究では、初めての包括的な3D空間推論ベンチマークである3DSRBenchを紹介し、12種類の質問にわたる2,772の手動注釈つきビジュアル質問回答ペアを提供します。データ分布をバランスよく保ち、新しいFlipEval戦略を採用することで、3D空間推論能力の堅牢で徹底的な評価を行います。さらに、カメラの3D視点に関する3D空間推論の堅牢性をさらに調査するために、3DSRBenchには、共通および非共通の視点を持つペア画像に関する3D空間推論の質問を含む2つのサブセットが含まれています。さまざまなオープンソースおよびプロプライエタリなLMMsをベンチマークし、高さ、向き、位置、および複数オブジェクトの推論など、3D認識のさまざまな側面での制限、および非共通のカメラ視点を持つ画像での性能低下を明らかにします。3DSRBenchは、強力な3D推論能力を持つLMMsの将来の開発に関する貴重な知見と洞察を提供します。プロジェクトページとデータセットはhttps://3dsrbench.github.ioで入手可能です。
テキストからモーション生成の分野では、Bert型マスクモデル(MoMask、MMM)が現在、GPT型自己回帰モデル(T2M-GPT)よりも高品質な出力を生成しています。ただし、これらのBert型モデルは、しばしばビデオゲームやマルチメディア環境で必要とされるストリーミング出力機能を欠いており、これはGPT型モデルに固有の特徴です。さらに、これらのモデルは、分布外生成において性能が低いことが示されています。我々は、データのスケーリングを複雑にする余分なリファインメントモデルを追加せずに、GPT型構造を活用しつつBERT型モデルの品質を超えるために、新しいアーキテクチャであるMogo(Motion Only Generate Once)を提案します。Mogoは、単一のトランスフォーマーモデルを訓練することで、高品質でリアルな3D人間の動きを生成します。Mogoは、RVQ-VAE(階層的残差ベクトル量子化変分オートエンコーダ)という2つの主要なコンポーネントのみで構成されており、連続的な動きシーケンスを高い精度で離散化する役割を果たす一方、階層的因果トランスフォーマーは、基本的な動きシーケンスを自己回帰的に生成しながら、同時に異なるレイヤー間の残差を推論します。実験結果は、Mogoが260フレーム(13秒)までの連続および循環動きシーケンスを生成できることを示し、HumanML3Dなどの既存データセットの196フレーム(10秒)の長さ制限を超えています。HumanML3Dのテストセットでは、MogoはFIDスコア0.079を達成し、GPT型モデルT2M-GPT(FID = 0.116)、AttT2M(FID = 0.112)、BERT型モデルMMM(FID = 0.080)を上回っています。さらに、当モデルは分布外生成において最も優れた定量的性能を達成しています。
我々は、新しいビデオ作成体験である「デモンストレーションによるビデオ作成」を探求します。デモンストレーションビデオと異なるシーンのコンテキスト画像が与えられた場合、コンテキスト画像から自然に続く物理的に妥当なビデオを生成し、デモンストレーションからのアクション概念を実行します。この機能を可能にするために、我々はデルタ・ディフュージョンを提案します。これは、教師なし学習によって未ラベルのビデオから条件付き未来フレーム予測を行う自己監督トレーニング手法です。ほとんどの既存のビデオ生成制御が明示的な信号に基づいているのに対し、我々は一般的なビデオに必要な最大限の柔軟性と表現力のために暗黙の潜在制御の形式を採用しています。外観のボトルネック設計を採用したビデオ基盤モデルを活用することで、デモンストレーションビデオからアクションの潜在要素を抽出し、最小限の外観漏洩で生成プロセスを調整します。実証的に、デルタ・ディフュージョンは、人間の選好と大規模な機械評価の両方において関連するベースラインを上回り、インタラクティブな世界シミュレーションに向けた潜在能力を示しています。サンプリングされたビデオ生成結果は、https://delta-diffusion.github.io/ でご覧いただけます。
大規模言語モデルは、実世界の知識を捉えることで知られており、多くの下流タスクで優れた成績を収めることができます。最近の進歩にもかかわらず、これらのモデルは依然として幻覚として一般的に知られるものに陥りやすく、望ましくない事実と異なるテキストを生成することがあります。本研究では、幻覚に対抗するために使用できる新しい較正方法を提案します。モデルの語彙に特別な「わからない」トークン([IDK])を追加し、不正確な予測に対して確率質量を[IDK]トークンにシフトする目的関数を導入します。このアプローチにより、モデルは出力に不確実性を明示的に表現することができます。提案された方法を複数のモデルアーキテクチャと事実に基づく下流タスク全体で評価します。提案された方法でトレーニングされたモデルは、以前は誤りを犯す場所で不確実性を表現することができ、エンコードされた知識のわずかな損失のみが発生します。さらに、提案されたアプローチの複数のバリエーションについて包括的な削除研究を実施し、提案された方法の適合率と再現率のトレードオフについて詳細な分析を提供します。
大規模言語モデル(LLM)のサイズの増加は、これらのモデルを特定のタスクやドメインに適応させる際に著しい計算オーバーヘッドとメモリ使用量をもたらします。さまざまなパラメータ効率の良いファインチューニング(PEFT)手法が開発されており、これらの課題を軽減するためにモデルの重みのタスク固有の更新のために少数のパラメータをトレーニングすることが提案されています。PEFT手法の中で、LoRAはその単純さと効率性で際立っており、一連の派生手法の開発を促しています。しかし、LoRAおよびその後継者は、ターゲットとするタスクにノイズや関連性のない知識を無視しており、モデルのパフォーマンスに悪影響を及ぼし、最適化の達成を妨げています。この制限に対処するために、私たちはKnowledge-aware Singular-value Adaptation(KaSA)を導入します。KaSAは、特定のタスクにおける関連性に基づいて知識を動的に活性化するために特異値分解(SVD)を活用するPEFT手法です。私たちは、自然言語理解(NLU)、生成(NLG)、命令の遵守、常識的推論を含むタスクにわたるLLMの範囲で幅広い実験を実施します。実験結果は、KaSAが16のベンチマークと4つの合成データセットにわたるFFTおよび14の一般的なPEFTベースラインを一貫して上回ることを示し、当社の手法の効果と適応性を強調しています。当社の手法のソースコードは、https://github.com/juyongjiang/KaSA で入手可能です。
テキスト駆動スタイル変換は、参照画像のスタイルをテキストプロンプトで記述されたコンテンツと統合することを目指しています。テキストから画像へのモデルの最近の進歩により、スタイル変換の微妙さが向上しましたが、依然として重要な課題が残っています。特に、参照スタイルへの過学習、スタイルの制御の制限、およびテキストコンテンツとの不一致が挙げられます。本論文では、これらの問題に対処するための3つの補完的戦略を提案します。まず、スタイルとテキストの特徴をより良く統合し、整合性を高めるために、クロスモーダル適応インスタンス正規化(AdaIN)メカニズムを導入します。次に、スタイルベースの分類器フリーガイダンス(SCFG)アプローチを開発し、スタイル要素に対する選択的制御を可能にすることで、関連のない影響を減らします。最後に、初期生成段階で教師モデルを組み込むことで、空間レイアウトを安定させ、アーティファクトを軽減します。私たちの包括的な評価は、スタイル変換の品質とテキストプロンプトとの整合性が著しく向上していることを示しています。さらに、私たちのアプローチは、既存のスタイル変換フレームワークに微調整なしで統合することができます。
言語指示型エージェントの訓練用の高品質データを作成することは、具体的なAIにおける長年の課題です。本論文では、人間を介さないアノテーションを通じて、指示生成器とナビゲータの協力により、データプールを反復的に洗練することで高品質かつ大規模な航法指示-軌跡ペアを生成するSelf-Refining Data Flywheel(SRDF)を紹介します。具体的には、SRDFは、ベースジェネレータを使用して初期データプールを作成し、ベースナビゲータの訓練に使用し、訓練されたナビゲータをデータプールのフィルタリングに適用することから始まります。これにより、より高い忠実度のデータが得られ、より優れたジェネレータを訓練するためのデータが生成され、その結果、次のラウンドのナビゲータの訓練に使用できるより高品質のデータが生成されます。このようなフライホイールは、データの自己洗練プロセスを確立し、大規模な言語によるナビゲーション学習のための継続的に改善された非常に効果的なデータセットを生み出します。実験では、数回のフライホイールの後、ナビゲータはクラシックなR2Rテストセットでの性能基準を70%から78% SPLに引き上げ、人間のパフォーマンス(76%)を初めて上回りました。同時に、このプロセスにより、SPICEが23.5から26.2に増加し、これまでのすべてのVLN指示生成方法よりも優れたジェネレータが得られました。最後に、環境と指示の多様性を増やすことによる我々の手法のスケーラビリティと、様々な下流ナビゲーションタスクでの事前訓練済みナビゲータの汎化能力を示し、すべてのケースで従来の手法を大きく上回る結果を達成しました。
画像翻訳(IT)は、さまざまな領域で莫大な潜在能力を持ち、画像内のテキストコンテンツをさまざまな言語に翻訳することを可能にします。ただし、既存のデータセットはしばしば規模、多様性、品質の面で制約を抱えており、ITモデルの開発と評価を妨げています。この問題に対処するために、私たちはMIT-10Mを導入します。これは、実世界のデータから派生した1,000万以上の画像テキストペアを持つ大規模な多言語画像翻訳の並列コーパスであり、データの徹底的なクリーニングと多言語翻訳の検証を経ています。これには、3つのサイズの840,000枚の画像、28のカテゴリ、3つの難易度レベルのタスク、14言語の画像テキストペアが含まれており、既存のデータセットに比べてかなりの改善が見られます。MIT-10Mでモデルを評価しトレーニングするために幅広い実験を実施します。実験結果は明確に、当社のデータセットが、現実世界での難解で複雑な画像翻訳タスクに対するモデルのパフォーマンスを評価する際に、より高い適応性を持っていることを示しています。さらに、MIT-10Mでファインチューニングされたモデルのパフォーマンスは、ベースラインモデルと比較して3倍に向上しており、その優位性がさらに確認されています。