翻訳付きの日次キュレーションされたAI研究論文
ビデオ生成の分野は著しい進歩を遂げていますが、頑健でスケーラブルなモデルの開発を導く明確で体系的な手順が依然として求められています。本研究では、モデルアーキテクチャ、トレーニング手法、およびデータキュレーション戦略の相互作用を体系的に探究し、STIVと名付けられたシンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案しています。当該フレームの置換を通じて画像条件をDiffusion Transformer(DiT)に統合し、また画像テキスト条件つきクラシファイアフリーガイダンスを介してテキスト条件を組み込むことで、STIVはテキストからビデオ(T2V)およびテキスト画像からビデオ(TI2V)の両方のタスクを同時に実行できるようになります。さらに、STIVはビデオ予測、フレーム補間、多視点生成、長時間ビデオ生成など、さまざまなアプリケーションに簡単に拡張できます。T2I、T2V、TI2Vに関する包括的な削除研究により、STIVはそのシンプルな設計にもかかわらず強力なパフォーマンスを示しています。512解像度の8.7BモデルはVBench T2Vで83.1を達成し、CogVideoX-5B、Pika、Kling、Gen-3などの主要なオープンソースおよびクローズドソースモデルを凌駕しています。同じサイズのモデルは、512解像度でVBench I2Vタスクにおいて90.1という最先端の結果を達成しています。先端のビデオ生成モデルの構築に透明性と拡張性のある手順を提供することで、将来の研究を支援し、より多様で信頼性の高いビデオ生成ソリューションへの進展を加速することを目指しています。
コード大規模言語モデル(codeLLMs)は、コード生成において大きな進展を遂げています。これまでのコード関連のベンチマークは、さまざまなプログラミング演習とそれに対応するテストケースから成り、コードLLMsの性能と能力を評価するための共通の尺度として使用されてきました。しかしながら、現在のコードLLMsは、正しいコードスニペットを合成することに焦点を当てており、人間の好みとの整合性を無視しています。ここでのクエリは実用的なアプリケーションシナリオからサンプリングされ、モデルが生成する応答は人間の好みを満たすべきです。モデルが生成する応答と人間の好みとのギャップを埋めるために、複雑さと多様性を模倣する厳選されたヒューマンキュレーションベンチマークであるCodeArenaを提案します。このベンチマークは、40のカテゴリと44のプログラミング言語にわたる397の高品質サンプルを、ユーザークエリから慎重に選定しています。さらに、ウェブサイトからの指示をスケーリングしてほぼ20億トークンのSynCode-Instructという多様な合成指示コーパスを提案し、大規模な合成指示の微調整の効果を検証します。SynCode-Instructで完全にトレーニングされたQwen2.5-SynCoderは、オープンソースのコードLLMsの最高水準のパフォーマンスを達成できます。結果は、実行ベースのベンチマークとCodeArenaとのパフォーマンスの違いを示しています。40以上のLLMsにおけるCodeArenaの体系的な実験は、オープンSOTAコードLLMs(例:Qwen2.5-Coder)とプロプライエタリLLMs(例:OpenAI o1)との間に顕著なパフォーマンスの差を明らかにし、人間の好みの整合性の重要性を強調しています。\url{https://codearenaeval.github.io/}
ストーリーの視覚化は、テキストの記述から視覚的な物語を作成するタスクであり、テキストから画像を生成するモデルによって進展しています。しかし、これらのモデルはしばしば、特に複数のキャラクターが登場するシーンにおいて、キャラクターの外見や相互作用に効果的な制御を欠いています。これらの制限に対処するために、新しいタスク「カスタマイズされたマンガ生成」を提案し、ダイナミックなマルチキャラクター制御を特に対象とした革新的なフレームワークであるDiffSenseiを紹介します。DiffSenseiは、拡散ベースの画像生成器と、テキスト互換性のあるアイデンティティアダプターとして機能するマルチモーダル大規模言語モデル(MLLM)を統合しています。当アプローチでは、キャラクターの特徴をシームレスに組み込むためにマスクされたクロスアテンションを用い、直接的なピクセル転送なしに正確なレイアウト制御を可能にしています。さらに、MLLMベースのアダプターは、パネル固有のテキストの手がかりに合わせてキャラクターの特徴を調整し、キャラクターの表情、ポーズ、アクションを柔軟に調整することができます。また、このタスクに特化した大規模データセットであるMangaZeroを紹介し、43,264ページのマンガと427,147の注釈付きパネルを含み、連続するフレーム間でさまざまなキャラクターの相互作用や動きを視覚化するのをサポートしています。包括的な実験により、DiffSenseiが既存のモデルを上回り、テキストに適応可能なキャラクターカスタマイズを実現することで、マンガ生成の重要な進展を遂げたことが示されています。プロジェクトページはhttps://jianzongwu.github.io/projects/diffsensei/です。
最近、包括的なマルチモーダルモデルへの関心の急増により、異なるモダリティの統合が必要とされています。ただし、その統合は異なる手法に苦しんでいます。連続的なビジュアル生成には、テキスト領域の自己回帰モデリングとは異なるものの、完全シーケンス拡散ベースのアプローチが必要です。私たちは、過去の決定論的な経験に基づいて未来を予測する自己回帰モデリングが、ビジュアル生成モデルおよび潜在的な統合マルチモーダルモデルの両方を開発する上で重要であると考えています。本論文では、自己回帰モデリングと完全パラメータ拡散の間の補間を行い、ビジュアル情報をモデル化することを探求します。その中心には、ブロックサイズが拡散の場合、つまり自己回帰ユニットのサイズが柔軟に調整できるACDiT、すなわち自己回帰ブロックごとの条件付き拡散トランスフォーマーを提案します。ACDiTは、トークン単位の自己回帰と完全シーケンス拡散の間を補間するために、トレーニング中にSkip-Causal Attention Mask(SCAM)を作成するだけで実装が容易です。推論中、拡散のノイズ除去と自己回帰デコーディングの間を繰り返すプロセスが、KV-Cacheを十分に活用できます。ACDiTの画像およびビデオ生成タスクでの効果を検証します。また、自己回帰モデリングの恩恵を受けたことを示し、ACDiTは拡散目標で訓練されているにもかかわらず、ビジュアル理解タスクでシームレスに使用できることを実証します。自己回帰モデリングと拡散のトレードオフの分析は、ACDiTが長期的なビジュアル生成タスクで使用される潜在能力を示しています。これらの強みは、将来の統合モデルのバックボーンとして有望であると言えます。
UniRealという統一されたフレームワークを紹介します。このフレームワークは、さまざまな画像生成および編集タスクに対処するために設計されています。既存の解決策はタスクによって異なりますが、入出力間の一貫性を保ちながら視覚的な変化を捉えるという基本原則を共有しています。最近のビデオ生成モデルから着想を得て、フレーム間で一貫性と変化を効果的にバランスさせる方法を提案します。画像レベルのタスクを不連続なビデオ生成として扱う統一的なアプローチを提案します。具体的には、異なる数の入力および出力画像をフレームとして扱い、画像生成、編集、カスタマイズ、合成などのタスクをシームレスにサポートします。画像レベルのタスク向けに設計されていますが、普遍的な監督情報源としてビデオを活用しています。UniRealは大規模なビデオから世界のダイナミクスを学習し、影、反射、ポーズの変化、オブジェクトの相互作用を処理する高度な能力を示し、新しいアプリケーションに対する新たな能力も示しています。
画像生成器の品質が向上するにつれて、ディープフェイクは社会的な議論の対象となっています。画像透かしは、責任あるモデル所有者がAIによって生成されたコンテンツを検出してラベル付けすることを可能にし、被害を軽減できます。しかし、現在の画像透かしの最先端技術は、偽造や削除攻撃に対して脆弱なままです。この脆弱性は、透かしによって生成された画像の分布が歪み、透かし技術に関する情報を意図せずに明らかにしてしまうために発生します。 本研究では、画像のための歪みのない透かし付け方法を最初に示し、拡散モデルの初期ノイズに基づいています。ただし、透かしを検出するには、画像に対して再構築された初期ノイズを以前に使用されたすべての初期ノイズと比較する必要があります。これらの問題を軽減するために、効率的な検出のための二段階の透かしフレームワークを提案しています。生成中に、初期ノイズに生成されたフーリエパターンを追加して、使用した初期ノイズのグループに関する情報を埋め込みます。検出時には、(i) 関連するノイズのグループを取得し、(ii) 与えられたグループ内で画像に一致する可能性のある初期ノイズを検索します。この透かしアプローチは、多数の攻撃に対して偽造と削除に対する最先端の頑健性を実現しています。
最近のテキストから画像生成の進歩により、多様な応用を持つ高品質な画像の作成が可能となりました。しかし、特に芸術や写真の非専門家にとって、望ましい視覚的属性を正確に記述することは難しい場合があります。直感的な解決策は、ソース画像から好ましい属性を取り入れることです。現在の手法は、ソース画像からアイデンティティとスタイルを抽出しようとします。ただし、「スタイル」はテクスチャ、色、芸術的要素を含む広範な概念ですが、照明やダイナミクスなどの他の重要な属性はカバーしていません。さらに、単純化された「スタイル」の適応は、異なるソースからの複数の属性を1つの生成された画像に組み合わせることを防ぎます。本研究では、画像の美学を特定の視覚的属性に分解するより効果的なアプローチを定式化しています。これにより、ユーザーが異なる画像から照明、テクスチャ、ダイナミクスなどの特性を適用できるようになります。この目標を達成するために、私たちは、私たちの知識に基づいて初めての細かい視覚的属性データセット(FiVA)を構築しました。このFiVAデータセットは、視覚的属性のための整理されたタクソノミーを特徴とし、視覚的属性の注釈が付いた約100万枚の高品質生成画像を含んでいます。このデータセットを活用して、私たちは、1つまたは複数のソース画像から視覚的属性を生成された画像に分離して適応する細かい視覚的属性適応フレームワーク(FiVA-Adapter)を提案しています。このアプローチにより、ユーザーフレンドリーなカスタマイズが向上し、ユーザーが特有の好みや具体的なコンテンツ要件に合う画像を作成するために望ましい属性を選択的に適用できます。
ビデオ拡散モデルは印象的なリアリズムと制御可能性を達成していますが、高い計算要求によって制限されており、モバイルデバイスでの使用が制限されています。本論文では、最初のモバイル最適化ビデオ拡散モデルを紹介します。Stable Video Diffusion(SVD)からの時空間UNetを出発点とし、フレーム解像度を低下させ、多スケールの時空間表現を組み込み、チャネル数と時空間ブロックの数を削減するための2つの新しいプルーニングスキーマを導入します。さらに、敵対的なファインチューニングを使用して、ノイズ除去を単一のステップに削減します。当社のMobileVDと名付けられたモデルは、わずかな品質低下(FVD 149対171)で523倍効率的(1817.2対4.34 TFLOPs)であり、Xiaomi-14 Pro上で14x512x256 pxのクリップのラテントを1.7秒で生成します。当社の結果は、https://qualcomm-ai-research.github.io/mobile-video-diffusion/ で入手可能です。
本論文の目的は、ビデオ生成における複数エンティティの3Dモーションを操作することです。 従来の制御可能なビデオ生成手法は、主に2D制御信号を利用してオブジェクトのモーションを操作し、顕著な合成結果を達成してきました。 ただし、2D制御信号はオブジェクトのモーションの3D性質を表現するのに本質的に限界があります。 この問題を克服するために、我々は3DTrajMasterを導入します。これは、ユーザーが望むエンティティの6DoFポーズ(位置と回転)シーケンスを与えられたときに、3D空間で複数エンティティのダイナミクスを調整する堅牢なコントローラです。 我々の手法の中核には、複数の入力エンティティとそれぞれの3D軌跡をゲート付き自己注意メカニズムを介して融合する3Dモーションに基づくオブジェクトインジェクタがあります。 さらに、一般化能力に重要なビデオ拡散事前情報を保存するために、インジェクタアーキテクチャを活用しています。 ビデオ品質の低下を緩和するために、トレーニング中にドメインアダプタを導入し、推論中にアニールドサンプリング戦略を採用しています。 適切なトレーニングデータの不足に対処するために、360-Motion Datasetを構築しています。これは、まず収集された3D人間および動物アセットをGPTに生成された軌跡と関連付け、その後、多様な3D UEプラットフォーム上の12個の均等に配置されたカメラでその動きを捉えます。 幅広い実験結果は、3DTrajMasterが複数エンティティの3Dモーションを制御するための精度と一般化能力の両方で新たな最先端を確立していることを示しています。プロジェクトページ:http://fuxiao0719.github.io/projects/3dtrajmaster
Granite Guardianモデルを紹介します。これは、プロンプトとレスポンスのリスク検出を提供し、どんな大規模言語モデル(LLM)と組み合わせても安全で責任ある使用を可能にするために設計された一連の保護機能です。これらのモデルは、ソーシャルバイアス、卑猥さ、暴力、性的コンテンツ、倫理的な行動、ジェイルブレイキング、およびコンテキストの関連性、基盤、および回答の関連性などの幻覚関連リスクを含む複数のリスク次元にわたる包括的なカバレッジを提供します。人間の注釈と合成データを組み合わせた独自のデータセットでトレーニングされたGranite Guardianモデルは、通常従来のリスク検出モデルでは見落とされがちなジェイルブレイクやRAG固有の問題などのリスクに対処します。有害コンテンツとRAG幻覚関連ベンチマークでのAUCスコアがそれぞれ0.871と0.854であるGranite Guardianは、この分野で最も汎用性があり競争力のあるモデルです。オープンソースとして公開されたGranite Guardianは、コミュニティ全体で責任あるAI開発を促進することを目的としています。 https://github.com/ibm-granite/granite-guardian
最近の拡散ベースのビデオ編集の進歩は、実用的な応用に顕著な潜在能力を示しています。しかし、これらの手法は、モバイルデバイスでの展開が高コストであり、困難であるという課題が残っています。本研究では、モバイルビデオ編集を実現するための一連の最適化手法を紹介します。既存の画像編集モデルをベースにして、まずそのアーキテクチャを最適化し、軽量なオートエンコーダを組み込みます。その後、クラシファイアを使用しないガイダンス蒸留を複数のモダリティに拡張し、デバイス上での処理速度を3倍に向上させます。最後に、編集プロセスの操作性を保持する新しい敵対的蒸留スキームを導入することで、サンプリングステップの数を1に削減します。これらの最適化により、モバイルデバイス上で12フレーム/秒のビデオ編集が可能となり、高品質を維持します。当社の結果は、https://qualcomm-ai-research.github.io/mobile-video-editing/ でご覧いただけます。
私たちは、Diffusion Transformers(DiT)に特化した、新しく合成された動画に参照動画の動きを転送するための手法であるDiTFlowを提案します。最初に、事前にトレーニングされたDiTを使用して参照動画を処理し、クロスフレームの注意マップを分析し、Attention Motion Flow(AMF)と呼ばれるパッチ単位の動き信号を抽出します。我々は、最適化ベースでトレーニング不要の方法で、我々のAMF損失を最適化して潜在的なノイズ除去プロセスをガイドし、参照動画の動きを再現する動画を生成します。また、我々の最適化戦略をトランスフォーマーの位置エンベッディングに適用し、ゼロショットの動き転送能力を向上させます。我々は、DiTFlowを最近発表された手法と比較し、複数の指標と人間の評価ですべてを上回る性能を発揮します。
マルチモーダル言語モデル(MLM)は、特殊なモデルが優れる基本的な視覚認識タスクにおいて依然として課題に直面しています。3D構造に関する推論が必要なタスクでは深度推定が有益であり、2Dオブジェクトインスタンスに関する推論では物体検出が有益です。しかし、MLMは中間的な深度やボックスを生成して推論することができません。関連データでMLMをファインチューニングしても汎化性能が高くなく、専門のビジョンツールに計算を外部委託することは計算コストが高くメモリ効率が悪いです。この課題に対処するために、言語だけでは不十分な推論タスクを支援するために設計された固有の画像表現である知覚トークンを導入します。知覚トークンは、言語モデルの思考連鎖プロンプトに似た補助的な推論トークンとして機能します。例えば、深度関連のタスクでは、知覚トークンで拡張されたMLMは、トークンとして深度マップを生成することで問題を効果的に解決できます。私たちは、視覚入力に対する推論能力を向上させるためにMLMに知覚トークンを追加するAURORAというトレーニング方法を提案します。AURORAは、VQVAEを活用して中間的な画像表現(例:深度マップ)をトークン化し、複数のタスクトレーニングフレームワークで使用されるバウンディングボックストークンに変換します。AURORAは、カウントベンチマーク全体でファインチューニング手法を上回る汎化性能を実現し、BLINKで+10.8%、CVBenchで+11.3%、SEED-Benchで+8.3%の改善を達成しました。また、BLINKでは相対的な深度でも+6%以上の改善が見られます。知覚トークンを用いることで、AURORAはMLMの言語ベースの推論を超えた視覚推論能力を向上させ、より効果的な視覚推論の可能性を切り拓いています。
解釈可能性は、大規模言語モデル(LLM)に対する信頼構築における主要な課題であり、これはモデルのパラメータから推論を抽出する複雑さに起因しています。我々は、フレーム表現仮説を提案します。これは、線形表現仮説(LRH)に基づく理論的に堅固なフレームワークであり、複数トークンの単語をモデル化することで、LLMを解釈および制御することを可能にします。これまでの研究では、LRHを使用してLLM表現を言語概念とつなげることが試みられてきましたが、単一トークンの分析に限定されていました。ほとんどの単語は複数のトークンで構成されているため、LRHを複数トークンの単語に拡張し、これにより数千の概念を持つ任意のテキストデータで使用できるようにします。このため、単語をフレームとして解釈できると提案し、トークン-単語の関係をよりよく捉えるベクトルの順序付きシーケンスとして構成します。その後、概念は、共通の概念を共有する単語フレームの平均として表現できます。我々は、これらのツールをTop-k Concept-Guided Decodingを通じて示し、選択した概念を使用してテキスト生成を直感的に誘導できることを示します。我々は、Llama 3.1、Gemma 2、およびPhi 3ファミリーでこれらの考えを検証し、性別や言語の偏り、有害なコンテンツを明らかにすると同時に、それらを是正する可能性を示し、より安全で透明性の高いLLMに導きます。コードは以下のリンクから入手可能です:https://github.com/phvv-me/frame-representation-hypothesis.git
この研究は、パラメータ効率と軽量モデルの開発に焦点を当てており、パラメータ、FLOPs、性能のトレードオフを考慮しながら密な予測に向けた新たな5M規模の軽量モデルのフロンティアを確立することを目指しています。Inverted Residual Block(IRB)は軽量CNNのインフラストラクチャとして機能しますが、注意ベースの設計による対応が認識されていませんでした。本研究では、効率的なIRBの軽量インフラストラクチャとTransformer内の実用的なコンポーネントを統一的な視点から再考し、CNNベースのIRBを注意ベースのモデルに拡張し、軽量モデル設計のための1つのリジュメタモバイルブロック(MMBlock)を抽象化します。整然かつ効果的な設計基準に従い、現代的なImproved Inverted Residual Mobile Block(i2RMB)を導出し、複雑な構造を持たない階層的なEfficient MOdel(EMOv2)を改良します。モバイルユーザーが4G/5G帯域幅でモデルをダウンロードする際のほとんど気づかれない遅延を考慮し、モデルの性能を確保するために、5M規模の軽量モデルの性能上限を調査します。さまざまなビジョン認識、密な予測、画像生成タスクにおける幅広い実験は、当社のEMOv2が最先端の手法に優越していることを示し、例えば、EMOv2-1M/2M/5Mは、それぞれ72.3、75.8、79.4のTop-1を達成し、同程度のCNN-/Attentionベースのモデルを大幅に上回っています。同時に、EMOv2-5Mを搭載したRetinaNetは、物体検出タスクで41.5のmAPを達成し、以前のEMO-5Mを+2.6上回っています。より堅牢なトレーニングレシピを採用すると、EMOv2-5Mは最終的に82.9のTop-1精度を達成し、5M規模モデルの性能を新たなレベルに引き上げます。コードはhttps://github.com/zhangzjn/EMOv2 で入手可能です。
最近の画像生成モデルの進歩により、ユーザー定義の被写体(コンテンツ)とスタイルを持つ個人向け画像の作成が可能となりました。これまでの研究では、最適化ベースの方法を用いて対応する低ランク適応パラメータ(LoRAs)をマージすることで個人化を達成してきましたが、これは計算量が多く、スマートフォンなどのリソース制約のあるデバイスでのリアルタイム使用には適していません。この課題に対処するために、私たちはLoRA.rarを導入します。LoRA.rarは画像品質を向上させるだけでなく、マージプロセスで4000倍以上の驚異的な高速化を実現します。LoRA.rarは、多様なコンテンツ-スタイルLoRAペアのハイパーネットワークを事前トレーニングし、新しい未知のコンテンツ-スタイルペアにも一般化できる効率的なマージ戦略を学習することで、高速で高品質な個人化を実現します。さらに、既存のコンテンツ-スタイル品質の評価メトリクスの限界を特定し、より正確な評価のためにマルチモーダル大規模言語モデル(MLLM)を使用した新しいプロトコルを提案します。私たちの手法は、MLLMの評価と人間の評価によって検証されたように、コンテンツとスタイルの忠実度の両方で現行の最先端技術を大幅に上回っています。
本論文では、ILLUMEという統合されたマルチモーダル大規模言語モデル(MLLM)を紹介します。このモデルは、統一された次トークン予測形式を通じてマルチモーダル理解と生成能力をシームレスに統合しています。画像テキストの整合性に通常必要とされる大規模データセットサイズに対処するため、我々は意味情報を取り入れたビジョントークナイザーの設計と進行的な多段階トレーニング手法を組み合わせてデータ効率性を向上させることを提案しています。このアプローチにより、事前学習用のデータセットサイズを通常必要とされるものよりも4倍以上少ない15Mに削減しつつ、Janusなどの既存の統合MLLMと競合力のある、あるいはそれ以上のパフォーマンスを達成しています。さらに、従来の研究で未開拓の理解と生成能力の相乗的な向上を促進するために、新しい自己強化マルチモーダル整合スキームを導入しています。このスキームは、MLLMに自己生成画像とテキスト記述の整合性を自己評価させ、モデルが画像をより正確に解釈し、画像生成の整合性の不一致による非現実的で誤った予測を回避するのを支援しています。幅広い実験に基づいて、提案されたILLUMEは、マルチモーダル理解、生成、編集のさまざまなベンチマークにおいて、最先端の統合MLLMや専門モデルと競合し、際立っています。
最近、大規模言語モデル(LLM)は著しい変化を遂げ、その人気と能力が急速に向上しています。この進化を牽引しているのは、GPT-4やGPT-o1などのプロプライエタリなLLMであり、その優れたパフォーマンスと汎用性からAIコミュニティで広く注目されています。同時に、LLaMAやMistralなどのオープンソースのLLMは、モデルをカスタマイズして様々なアプリケーションに展開しやすいことから、LLMの人気の急速な拡大に大きく貢献しています。オープンソースのLLMは革新や研究に前例のない機会を提供していますが、LLMの商業化は透明性、再現性、安全性に関する懸念を引き起こしています。多くのオープンソースのLLMは、トレーニングコードやデータなどの重要なコンポーネントを隠すことで基本的な透明性要件を満たしておらず、一部は「オープンソース」と主張しながら制限的なライセンスを使用しており、これがLLMに関するさらなるイノベーションを妨げる可能性があります。この問題を緩和するために、Model Openness Framework(MOF)に準拠して開発された完全なオープンソースのLLMであるMoxin 7Bを紹介します。MOFは、AIモデルをモデルの完全性とオープン性に基づいて評価するランク付け分類システムであり、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に従っています。当社のモデルは、事前トレーニングコードと構成、トレーニングおよびファインチューニングデータセット、中間および最終チェックポイントを包括的に公開することで、「オープンサイエンス」という最高のMOF分類レベルを達成しています。実験結果は、当社のモデルが人気の7Bモデルと比較してゼロショット評価で優れたパフォーマンスを達成し、フューショット評価でも競争力を持つことを示しています。
最近の大規模多モーダルモデル(LMMs)の進歩は、画像とテキストのペアデータを増やすことによるスケーリングの重要性を強調し、一般的なタスクで印象的なパフォーマンスを達成しています。一般的なモデルは幅広い応用に効果的ですが、主に自然画像が支配するウェブスケールのデータセットで訓練されており、多くのドメイン固有の事前知識が必要な特定のタスクのための専門能力を犠牲にしています。さらに、特定のドメインに適合した専門モデルを直接統合することは、一般的なモデルと専門家の間の表現ギャップや最適化の不均衡のために困難です。これらの課題に対処するために、私たちはChimeraを導入します。これは、既存のLMMsの能力をドメイン固有の専門家と組み合わせるために設計されたスケーラブルで低コストなマルチモーダルパイプラインです。具体的には、専門家モデルの特徴を一般的なLMMの入力に統合するためのプログレッシブトレーニング戦略を設計しています。一般的なビジュアルエンコーダとの整合性の取れた最適化に起因する不均衡を解消するために、新しい一般的専門家協力マスキング(GSCM)メカニズムを導入しています。これにより、チャート、表、数学、および文書のドメイン全体で優れたパフォーマンスを発揮する汎用モデルが実現し、既存のLMMsを評価する上で難しいマルチモーダル推論と視覚コンテンツ抽出タスクで最先端のパフォーマンスを達成しています。
本研究の目的は、画像から動画(I2V)生成においてより正確かつ多目的なオブジェクト制御を実現することです。現在の方法では、通常、対象オブジェクトの空間移動を2D軌跡で表現しますが、これではユーザーの意図を捉えきれず、しばしば不自然な結果を生み出します。制御を向上させるために、トレーニング不要のオブジェクト制御手法であるObjCtrl-2.5Dを提案します。これは、深度情報を加えた2D軌跡から拡張された3D軌跡を制御信号として使用します。ObjCtrl-2.5Dは、オブジェクトの移動をカメラの移動としてモデリングし、3D軌跡をカメラポーズの系列として表現することで、既存のカメラモーション制御I2V生成モデル(CMC-I2V)をトレーニングなしで使用してオブジェクトの動きを制御します。グローバルな動き制御を目的とした元々のCMC-I2Vモデルをローカルなオブジェクトの動きを処理できるように適応させるために、背景から対象オブジェクトを分離するモジュールを導入し、独立したローカル制御を可能にします。さらに、オブジェクト領域全体で低周波数の変形潜在を共有することで、より正確なオブジェクト制御を実現する効果的な方法を考案しました。幅広い実験により、ObjCtrl-2.5Dがトレーニング不要の方法と比較してオブジェクト制御の精度を大幅に向上させ、2D軌跡を使用するトレーニングベースの手法よりも多様な制御機能を提供し、オブジェクトの回転などの複雑な効果を可能にすることが示されました。コードと結果は以下のリンクから入手可能です:https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
本論文の目的は、大規模言語モデルの性能を向上させることであり、推論ステップにおける可変の計算要求に対処することを目指しています。ここで、一部のトークンが他よりも多くの計算リソースを必要とする状況があります。私たちは、HARPという、"オフザシェルフ"のTransformerのフォワードパスに対する単純な変更を提案します。意思決定におけるためらいとフレーミング効果から着想を得て、HARPは、モデルがトークン生成中に不確実性に遭遇した際に追加の計算を選択的に適用します。私たちの手法は、難しい意思決定ポイントで一時停止し、異なる視点で入力を再構築することによって、人間の認知プロセスを模倣します。他の手法とは異なり、HARPはモデルに依存せず、トレーニング不要であり、実装が容易です。私たちは、様々な下流タスクとモデルサイズで当社の手法を徹底的に評価し、性能が最大+5.16%向上することを示しています。特筆すべきは、HARPがビームサーチよりも2倍高速な推論時間を維持しながら、これらの利益を達成する点です。シンプルでありながらも大きな利益をもたらすHARPは、最小限の計算影響でTransformerベースの言語モデルの性能を向上させるための実用的な解決策を提供しています。
テキストから画像(T2I)生成は、拡散モデルにより著しい進歩を遂げ、テキストプロンプトから写真のようなリアルな画像を生成することが可能になりました。この進歩にもかかわらず、既存の手法は依然として、特に合成的で複数段階の推論を必要とする複雑なテキストプロンプトに対処する際に課題に直面しています。このような複雑な指示があると、SOTAモデルはしばしばオブジェクト属性やそれらの関係を忠実にモデリングする際に誤りを comit します。本研究では、T2I合成のための代替パラダイムを提案し、複雑な複数段階の生成タスクを3つのステップに分解します。(a) 生成:まず、既存の拡散モデルを使用して画像を生成します。(b) プラン:Multi-Modal LLMs(MLLMs)を使用して、生成された画像の中の個々のオブジェクトとそれらの特性に関する誤りを特定し、編集計画として必要な修正ステップのシーケンスを生成します。(c) 編集:既存のテキストガイド画像編集モデルを使用して、生成された画像に対して編集計画を順次実行し、元の指示に忠実な所望の画像を取得します。私たちのアプローチは、モジュール式であり、トレーニングが不要であり、任意の組み合わせの画像生成と編集モデルに適用できるという強みを持っています。さらに、提案されたアプローチの全体的な精度を向上させるのに役立つ合成編集が可能なモデルも開発しています。私たちの手法は、合成的なテキストプロンプトに対する性能と推論時間の計算を柔軟にトレードオフします。DALLE-3や最新のSD-3.5-Largeを含む3つのベンチマークと10のT2Iモデルを対象に、包括的な実験評価を行いました。私たちのアプローチは、SOTAモデルの性能を最大3ポイント向上させるだけでなく、弱いモデルと強いモデルの性能差を縮小させます。
フェデレーテッドラーニング(FL)は、クライアントが生データを共有せずに機械学習モデルを共同でトレーニングすることで、データプライバシーを保護することを目的としています。しかし、最近の研究では、FL中に交換される情報が勾配反転攻撃(GIA)の対象となり、その結果、Secure Multi-party Computing(SMC)、Homomorphic Encryption(HE)、Differential Privacy(DP)などのさまざまなプライバシー保護手法がFLに統合され、このような攻撃を防ぐために利用されています。これらのアプローチはデータプライバシーを保護できる一方で、実質的なプライバシーと有用性のトレードオフを伴います。GIAにおけるFLのプライバシー露出の鍵は、プライベートデータを含むモデルの勾配を頻繁に共有することにあるため、我々は、共有されたパラメータとローカルのプライベートデータとの間の「直接的な接続」を防ぐために、新しい視点で、効果的にプライバシーを保護するFLフレームワークを設計します。具体的には、ハイパーネットワークを利用してローカルモデルのパラメータを生成し、サーバーにアップロードされるのはハイパーネットワークのパラメータのみとなるHypernetwork Federated Learning(HyperFL)フレームワークを提案します。理論的な分析により、提案されたHyperFLの収束速度を示し、幅広い実験結果により、HyperFLのプライバシー保護能力と比較可能なパフォーマンスが示されます。コードはhttps://github.com/Pengxin-Guo/HyperFL で入手可能です。
AIによる生成された対話は、公共の議論を促進する直接の返信を通じてオンラインの有害性を抑制するための有望でスケーラブルな戦略を提供します。しかしながら、現在の対話は一般的なものであり、モデレーションの文脈や関与するユーザーに適応していません。私たちは、モデレーションの文脈に適応し、モデレートされたユーザーに合わせて個別化された対話を生成するための複数の戦略を提案し評価します。LLaMA2-13Bモデルに対話を生成するよう指示し、異なる文脈情報と微調整戦略に基づいたさまざまな構成で実験します。我々は、定量的指標と事前登録された混合設計のクラウドソーシング実験を通じて収集された人間の評価を組み合わせることで、説得力のある対話を生成する構成を特定します。結果は、文脈に即した対話が適切さや説得力において、他の特性を損なうことなく、最先端の一般的な対話を大幅に上回ることを示しています。また、定量的指標と人間の評価との間には弱い相関があり、これらの方法が異なる側面を評価していることを示し、微妙な評価方法の必要性を強調しています。文脈に即したAIによる生成された対話の効果と、人間とアルゴリズムの評価の乖離は、コンテンツのモデレーションにおける人間とAIの協力の重要性を強調しています。
視覚運動ロボットポリシーは、大規模なデータセットでますます事前にトレーニングされるようになり、ロボティクス領域全体で大きな進歩が期待されています。ただし、これらのポリシーをエンドユーザーの好みと整合させることは依然として課題であり、特に好みを具体化するのが難しい場合にはそうです。人間のフィードバックからの強化学習(RLHF)は、大規模な言語モデルなどの非具現化された領域で整合性を図るための主要なメカニズムとなっていますが、視覚運動ポリシーの整合性を図る際には、視覚報酬関数を学習するために必要な人間のフィードバックの量が膨大であるため、同じ成功を収めていません。この制限に対処するために、私たちは「表現に整合した好みに基づく学習(RAPL)」を提案します。これは、観察のみを用いた方法で、はるかに少ない人間の好みのフィードバックから視覚報酬を学習するものです。従来のRLHFとは異なり、RAPLは、人間のフィードバックを事前にトレーニングされたビジョンエンコーダーを微調整してエンドユーザーの視覚表現と整合させ、その整合した表現空間での特徴一致を通じて密な視覚報酬を構築します。最初に、X-MagicalベンチマークとFranka Pandaロボティック操作のシミュレーション実験を通じてRAPLを検証し、人間の好みと整合した報酬を学習し、好みデータを効率的に使用し、ロボットの具現化を横断的に一般化することができることを示します。最後に、3つの物体操作タスクに対して事前にトレーニングされた拡散ポリシーを整合させるハードウェア実験を行います。RAPLは、これらのポリシーを実際の人間の好みデータを5倍少なく使用して微調整できることがわかり、人間のフィードバックを最小限に抑えつつ視覚運動ロボットポリシーの整合性を最大化する第一歩を踏み出しています。