翻訳付きの日次キュレーションされたAI研究論文
Transformerモデルのサイズを増大させても、必ずしも性能が向上するわけではない。この現象は、経験的なスケーリング則では説明できない。さらに、モデルが訓練サンプルを記憶するにつれて、汎化能力が向上するという現象が観察される。本論文では、Transformerベースの言語モデルの記憶プロセスと性能ダイナミクスを解明する理論的フレームワークを提示する。我々は、Hopfieldネットワークを用いてTransformerの振る舞いを連想記憶としてモデル化し、各Transformerブロックが近似的な最近傍探索を効果的に実行するように定式化する。これに基づいて、現代の連続Hopfieldネットワークと類似したエネルギー関数を設計し、Attentionメカニズムに対する洞察に富む説明を提供する。Majorization-minimization手法を用いて、Transformerの階層的アーキテクチャを捉えたグローバルなエネルギー関数を構築する。特定の条件下では、達成可能な最小の交差エントロピー損失が約1に等しい定数によって下から制限されることを示す。我々の理論的結果を検証するため、GPT-2を用いて様々なデータサイズで実験を行い、また200万トークンのデータセットでVanilla Transformerを訓練する実験を実施する。
人間として、私たちは自由意志に基づきながらも容易に制御可能なメディアコンテンツの創造を目指しています。生成技術の目覚ましい発展により、現在では2D拡散法を活用して、ラフスケッチや指定された人間のポーズに基づいて画像を合成したり、マスクを用いたインペインティングで局所領域を段階的に編集・再生成することが容易に可能となっています。しかし、3Dモデリングタスクにおいて同様のワークフローは、3D生成における制御性と効率性の欠如により、まだ実現されていません。本論文では、Coin3Dと名付けた、制御可能でインタラクティブな3Dアセットモデリングフレームワークを提案します。Coin3Dは、ユーザーが基本的な形状から組み立てた粗いジオメトリプロキシを用いて3D生成を制御することを可能にし、シームレスな局所パーツ編集をサポートするとともに、数秒以内に応答性の高い3Dオブジェクトプレビューを提供するインタラクティブ生成ワークフローを導入します。これを実現するため、拡散モデルに体積的な粗形状制御を適用する3Dアダプター、精密なパーツ編集のためのプロキシ境界編集戦略、応答性の高いプレビューをサポートするプログレッシブボリュームキャッシュ、一貫したメッシュ再構築を保証するVolume-SDSなど、いくつかの技術を開発しました。多様な形状プロキシを用いたインタラクティブ生成と編集に関する広範な実験により、本手法が3Dアセット生成タスクにおいて優れた制御性と柔軟性を実現することを示します。
我々は、英語と中国語の両方に対して細粒度の理解を備えたテキスト画像変換拡散モデル「Hunyuan-DiT」を発表する。Hunyuan-DiTを構築するにあたり、Transformerの構造、テキストエンコーダ、位置エンコーディングを慎重に設計した。また、モデルの反復的な最適化のためにデータを更新・評価するための完全なデータパイプラインを一から構築した。細粒度の言語理解を実現するため、マルチモーダル大規模言語モデルを訓練し、画像のキャプションを洗練させた。最終的に、Hunyuan-DiTはユーザーとのマルチターン・マルチモーダル対話を可能とし、文脈に応じて画像を生成・修正することができる。50人以上の専門家による包括的な人間評価プロトコルを通じて、Hunyuan-DiTは他のオープンソースモデルと比較して中国語から画像を生成するタスクにおいて新たな最先端を確立した。コードと事前学習済みモデルはgithub.com/Tencent/HunyuanDiTで公開されている。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルのアラインメントにおける標準的なフレームワークである。しかし、オフラインアラインメントアルゴリズムの人気の高まりは、RLHFにおけるオンラインサンプリングの必要性に疑問を投げかけている。報酬の過剰最適化の文脈において、我々はまず、オンラインメソッドがオフラインメソッドに対して明確な優位性を持つことを示す一連の実験から始める。これにより、パフォーマンスの差異の原因を探るため、慎重に設計された実験的アブレーションを実施する。我々は、オフラインデータのカバレッジやデータ品質といった仮説だけでは、このパフォーマンスの差を説得力を持って説明できないことを実証的に示す。また、オフラインアルゴリズムはポリシーをペアワイズ分類に優れるように訓練するが、生成タスクでは劣る一方で、オンラインアルゴリズムで訓練されたポリシーは生成タスクに優れるがペアワイズ分類では劣ることを発見する。これは、識別能力と生成能力の間に独特の相互作用が存在し、それがサンプリングプロセスに大きく影響を受けていることを示唆している。最後に、このパフォーマンスの差異は、コントラスティブおよび非コントラスティブな損失関数の両方で持続し、単にポリシーネットワークをスケールアップするだけでは解決されないことを観察する。全体として、本研究はAIアラインメントにおけるオンラインサンプリングの重要な役割を明らかにし、オフラインアラインメントアルゴリズムの特定の根本的な課題を示唆している。
大規模言語モデル(LLMs)は、自然言語の指示に対する意味理解を必要とするタスクにおいて驚異的な能力を示しています。最近では、多くの研究がこの能力を音声とテキストのマルチモーダル入力の認識にまで拡張していますが、その能力は自動音声認識や翻訳などの特定のファインチューニングされたタスクに限定されることが多いです。そこで我々は、事前学習された音声とテキストの基盤モデルを少数の学習可能なパラメータを介して組み合わせ、訓練中に事前学習モデルを凍結したままに保つ、堅牢なマルチタスク訓練とカリキュラム学習のフレームワークであるSpeechVerseを開発しました。このモデルは、音声基盤モデルから抽出された連続的な潜在表現を使用して指示ファインチューニングを行い、自然言語の指示を用いた多様な音声処理タスクにおいて最適なゼロショット性能を達成します。我々は、複数のデータセットとタスクにわたって従来のベースラインとモデル性能を比較する広範なベンチマークを行いました。さらに、ドメイン外のデータセット、新しいプロンプト、未見のタスクに対するテストを通じて、モデルの一般化された指示追従能力を評価しました。我々の実験結果は、マルチタスクのSpeechVerseモデルが11のタスクのうち9つにおいて従来のタスク固有のベースラインよりも優れていることを明らかにしています。
既存のテキストから画像を生成するモデルは、複雑なテキストプロンプトに従うことに苦労しており、より良い制御性のための追加の基盤となる入力が必要とされています。本研究では、シーンを視覚的プリミティブ(高密度なブロブ表現として表される)に分解することを提案します。これらのブロブ表現は、シーンの詳細な情報を含みながらも、モジュール化され、人間が解釈しやすく、構築が容易です。ブロブ表現に基づいて、BlobGENと呼ばれるブロブに基づいたテキストから画像を生成する拡散モデルを開発し、構成的な生成を実現します。特に、ブロブ表現と視覚的特徴の融合を解きほぐすために、新しいマスク付きクロスアテンションモジュールを導入します。大規模言語モデル(LLM)の構成的能力を活用するために、テキストプロンプトからブロブ表現を生成する新しいインコンテキスト学習アプローチを導入します。私たちの広範な実験により、BlobGENがMS-COCOにおいて優れたゼロショット生成品質とレイアウトガイド付き制御性を達成することが示されました。LLMによって拡張された場合、私たちの手法は構成的画像生成ベンチマークにおいて優れた数値的および空間的正確性を示します。プロジェクトページ: https://blobgen-2d.github.io。
現在のビデオ理解のためのアーキテクチャは、主に3D畳み込みブロックや時間モデリングのための追加操作を伴う2D畳み込みに基づいて構築されています。しかし、これらの手法はすべて時間軸をビデオシーケンスの別次元として扱っており、そのため大規模な計算とメモリ予算を必要とし、モバイルデバイスでの使用が制限されています。本論文では、ビデオシーケンスの時間軸をチャネル次元に圧縮し、モバイルビデオ理解のための軽量なビデオ認識ネットワークであるSqueezeTimeを提案します。提案ネットワークの時間モデリング能力を強化するために、シーケンスの時間的ダイナミクスを捉えるためのChannel-Time Learning (CTL) ブロックを設計しました。このモジュールは2つの補完的なブランチを持ち、一方のブランチは時間的重要性の学習を、もう一方のブランチは時間的位置復元能力を備えており、時間間のオブジェクトモデリング能力を強化します。提案するSqueezeTimeは非常に軽量で高速であり、モバイルビデオ理解において高い精度を達成します。Kinetics400、Kinetics600、HMDB51、AVA2.1、THUMOS14などの様々なビデオ認識および行動検出ベンチマークでの広範な実験により、我々のモデルの優位性が実証されています。例えば、SqueezeTimeはKinetics400において、従来の手法よりも+1.2%の精度向上と+80%のGPUスループット向上を達成しました。コードはhttps://github.com/xinghaochen/SqueezeTimeおよびhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTimeで公開されています。
音声指示に従い関連するテキスト応答を生成できる統合型音声・大規模言語モデル(SLM)が最近注目を集めている。しかし、これらのモデルの安全性と堅牢性は依然として不明な点が多い。本研究では、指示追従型音声言語モデルが敵対的攻撃やジェイルブレイクに対して持つ潜在的な脆弱性を調査する。具体的には、人間の介入なしに、ホワイトボックスおよびブラックボックスの攻撃設定でSLMをジェイルブレイクする敵対的サンプルを生成するアルゴリズムを設計する。さらに、そのようなジェイルブレイク攻撃を防ぐための対策を提案する。音声指示付きの対話データで訓練された我々のモデルは、音声質問応答タスクにおいて最先端の性能を達成し、安全性と有用性の両方の指標で80%以上のスコアを記録した。安全性のガードレールが設けられているにもかかわらず、ジェイルブレイクに関する実験では、SLMが敵対的摂動や転移攻撃に対して脆弱であることが示され、12の異なる有害カテゴリーにわたる慎重に設計された有害な質問のデータセットで評価した場合、平均攻撃成功率はそれぞれ90%と10%であった。しかし、我々が提案する対策により、攻撃成功率が大幅に低下することが実証された。