AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

スケーリング則を超えて：連想メモリを用いたTransformerの性能理解
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

May 14, 2024

Xueyan Niu, Bo Bai, Lei Deng, Wei Han

330

Transformerモデルのサイズを増大させても、必ずしも性能が向上するわけではない。この現象は、経験的なスケーリング則では説明できない。さらに、モデルが訓練サンプルを記憶するにつれて、汎化能力が向上するという現象が観察される。本論文では、Transformerベースの言語モデルの記憶プロセスと性能ダイナミクスを解明する理論的フレームワークを提示する。我々は、Hopfieldネットワークを用いてTransformerの振る舞いを連想記憶としてモデル化し、各Transformerブロックが近似的な最近傍探索を効果的に実行するように定式化する。これに基づいて、現代の連続Hopfieldネットワークと類似したエネルギー関数を設計し、Attentionメカニズムに対する洞察に富む説明を提供する。Majorization-minimization手法を用いて、Transformerの階層的アーキテクチャを捉えたグローバルなエネルギー関数を構築する。特定の条件下では、達成可能な最小の交差エントロピー損失が約1に等しい定数によって下から制限されることを示す。我々の理論的結果を検証するため、GPT-2を用いて様々なデータサイズで実験を行い、また200万トークンのデータセットでVanilla Transformerを訓練する実験を実施する。

Coin3D: プロキシ誘導型条件付けによる制御可能でインタラクティブな3Dアセット生成
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning

May 13, 2024

Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui

260

人間として、私たちは自由意志に基づきながらも容易に制御可能なメディアコンテンツの創造を目指しています。生成技術の目覚ましい発展により、現在では2D拡散法を活用して、ラフスケッチや指定された人間のポーズに基づいて画像を合成したり、マスクを用いたインペインティングで局所領域を段階的に編集・再生成することが容易に可能となっています。しかし、3Dモデリングタスクにおいて同様のワークフローは、3D生成における制御性と効率性の欠如により、まだ実現されていません。本論文では、Coin3Dと名付けた、制御可能でインタラクティブな3Dアセットモデリングフレームワークを提案します。Coin3Dは、ユーザーが基本的な形状から組み立てた粗いジオメトリプロキシを用いて3D生成を制御することを可能にし、シームレスな局所パーツ編集をサポートするとともに、数秒以内に応答性の高い3Dオブジェクトプレビューを提供するインタラクティブ生成ワークフローを導入します。これを実現するため、拡散モデルに体積的な粗形状制御を適用する3Dアダプター、精密なパーツ編集のためのプロキシ境界編集戦略、応答性の高いプレビューをサポートするプログレッシブボリュームキャッシュ、一貫したメッシュ再構築を保証するVolume-SDSなど、いくつかの技術を開発しました。多様な形状プロキシを用いたインタラクティブ生成と編集に関する広範な実験により、本手法が3Dアセット生成タスクにおいて優れた制御性と柔軟性を実現することを示します。

Hunyuan-DiT: 細粒度な中国語理解を備えた強力なマルチレゾリューション拡散Transformer
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024

Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu

252

我々は、英語と中国語の両方に対して細粒度の理解を備えたテキスト画像変換拡散モデル「Hunyuan-DiT」を発表する。Hunyuan-DiTを構築するにあたり、Transformerの構造、テキストエンコーダ、位置エンコーディングを慎重に設計した。また、モデルの反復的な最適化のためにデータを更新・評価するための完全なデータパイプラインを一から構築した。細粒度の言語理解を実現するため、マルチモーダル大規模言語モデルを訓練し、画像のキャプションを洗練させた。最終的に、Hunyuan-DiTはユーザーとのマルチターン・マルチモーダル対話を可能とし、文脈に応じて画像を生成・修正することができる。50人以上の専門家による包括的な人間評価プロトコルを通じて、Hunyuan-DiTは他のオープンソースモデルと比較して中国語から画像を生成するタスクにおいて新たな最先端を確立した。コードと事前学習済みモデルはgithub.com/Tencent/HunyuanDiTで公開されている。

オンラインアラインメントとオフラインアラインメントアルゴリズム間の性能差の理解
Understanding the performance gap between online and offline alignment algorithms

May 14, 2024

Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney

200

人間のフィードバックからの強化学習（RLHF）は、大規模言語モデルのアラインメントにおける標準的なフレームワークである。しかし、オフラインアラインメントアルゴリズムの人気の高まりは、RLHFにおけるオンラインサンプリングの必要性に疑問を投げかけている。報酬の過剰最適化の文脈において、我々はまず、オンラインメソッドがオフラインメソッドに対して明確な優位性を持つことを示す一連の実験から始める。これにより、パフォーマンスの差異の原因を探るため、慎重に設計された実験的アブレーションを実施する。我々は、オフラインデータのカバレッジやデータ品質といった仮説だけでは、このパフォーマンスの差を説得力を持って説明できないことを実証的に示す。また、オフラインアルゴリズムはポリシーをペアワイズ分類に優れるように訓練するが、生成タスクでは劣る一方で、オンラインアルゴリズムで訓練されたポリシーは生成タスクに優れるがペアワイズ分類では劣ることを発見する。これは、識別能力と生成能力の間に独特の相互作用が存在し、それがサンプリングプロセスに大きく影響を受けていることを示唆している。最後に、このパフォーマンスの差異は、コントラスティブおよび非コントラスティブな損失関数の両方で持続し、単にポリシーネットワークをスケールアップするだけでは解決されないことを観察する。全体として、本研究はAIアラインメントにおけるオンラインサンプリングの重要な役割を明らかにし、オフラインアラインメントアルゴリズムの特定の根本的な課題を示唆している。

SpeechVerse: 大規模汎用音声言語モデル
SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024

Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

200

大規模言語モデル（LLMs）は、自然言語の指示に対する意味理解を必要とするタスクにおいて驚異的な能力を示しています。最近では、多くの研究がこの能力を音声とテキストのマルチモーダル入力の認識にまで拡張していますが、その能力は自動音声認識や翻訳などの特定のファインチューニングされたタスクに限定されることが多いです。そこで我々は、事前学習された音声とテキストの基盤モデルを少数の学習可能なパラメータを介して組み合わせ、訓練中に事前学習モデルを凍結したままに保つ、堅牢なマルチタスク訓練とカリキュラム学習のフレームワークであるSpeechVerseを開発しました。このモデルは、音声基盤モデルから抽出された連続的な潜在表現を使用して指示ファインチューニングを行い、自然言語の指示を用いた多様な音声処理タスクにおいて最適なゼロショット性能を達成します。我々は、複数のデータセットとタスクにわたって従来のベースラインとモデル性能を比較する広範なベンチマークを行いました。さらに、ドメイン外のデータセット、新しいプロンプト、未見のタスクに対するテストを通じて、モデルの一般化された指示追従能力を評価しました。我々の実験結果は、マルチタスクのSpeechVerseモデルが11のタスクのうち9つにおいて従来のタスク固有のベースラインよりも優れていることを明らかにしています。

密なブロブ表現を用いた構成的テキスト画像生成
Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024

Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat

181

既存のテキストから画像を生成するモデルは、複雑なテキストプロンプトに従うことに苦労しており、より良い制御性のための追加の基盤となる入力が必要とされています。本研究では、シーンを視覚的プリミティブ（高密度なブロブ表現として表される）に分解することを提案します。これらのブロブ表現は、シーンの詳細な情報を含みながらも、モジュール化され、人間が解釈しやすく、構築が容易です。ブロブ表現に基づいて、BlobGENと呼ばれるブロブに基づいたテキストから画像を生成する拡散モデルを開発し、構成的な生成を実現します。特に、ブロブ表現と視覚的特徴の融合を解きほぐすために、新しいマスク付きクロスアテンションモジュールを導入します。大規模言語モデル（LLM）の構成的能力を活用するために、テキストプロンプトからブロブ表現を生成する新しいインコンテキスト学習アプローチを導入します。私たちの広範な実験により、BlobGENがMS-COCOにおいて優れたゼロショット生成品質とレイアウトガイド付き制御性を達成することが示されました。LLMによって拡張された場合、私たちの手法は構成的画像生成ベンチマークにおいて優れた数値的および空間的正確性を示します。プロジェクトページ: https://blobgen-2d.github.io。

時間を無駄にしない：モバイル動画のためのチャネルへの時間圧縮理解
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14, 2024

Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang

160

現在のビデオ理解のためのアーキテクチャは、主に3D畳み込みブロックや時間モデリングのための追加操作を伴う2D畳み込みに基づいて構築されています。しかし、これらの手法はすべて時間軸をビデオシーケンスの別次元として扱っており、そのため大規模な計算とメモリ予算を必要とし、モバイルデバイスでの使用が制限されています。本論文では、ビデオシーケンスの時間軸をチャネル次元に圧縮し、モバイルビデオ理解のための軽量なビデオ認識ネットワークであるSqueezeTimeを提案します。提案ネットワークの時間モデリング能力を強化するために、シーケンスの時間的ダイナミクスを捉えるためのChannel-Time Learning (CTL) ブロックを設計しました。このモジュールは2つの補完的なブランチを持ち、一方のブランチは時間的重要性の学習を、もう一方のブランチは時間的位置復元能力を備えており、時間間のオブジェクトモデリング能力を強化します。提案するSqueezeTimeは非常に軽量で高速であり、モバイルビデオ理解において高い精度を達成します。Kinetics400、Kinetics600、HMDB51、AVA2.1、THUMOS14などの様々なビデオ認識および行動検出ベンチマークでの広範な実験により、我々のモデルの優位性が実証されています。例えば、SqueezeTimeはKinetics400において、従来の手法よりも+1.2%の精度向上と+80%のGPUスループット向上を達成しました。コードはhttps://github.com/xinghaochen/SqueezeTimeおよびhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTimeで公開されています。

SpeechGuard: マルチモーダル大規模言語モデルの敵対的頑健性の探求
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14, 2024

Raghuveer Peri, Sai Muralidhar Jayanthi, Srikanth Ronanki, Anshu Bhatia, Karel Mundnich, Saket Dingliwal, Nilaksh Das, Zejiang Hou, Goeric Huybrechts, Srikanth Vishnubhotla, Daniel Garcia-Romero, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

130

音声指示に従い関連するテキスト応答を生成できる統合型音声・大規模言語モデル（SLM）が最近注目を集めている。しかし、これらのモデルの安全性と堅牢性は依然として不明な点が多い。本研究では、指示追従型音声言語モデルが敵対的攻撃やジェイルブレイクに対して持つ潜在的な脆弱性を調査する。具体的には、人間の介入なしに、ホワイトボックスおよびブラックボックスの攻撃設定でSLMをジェイルブレイクする敵対的サンプルを生成するアルゴリズムを設計する。さらに、そのようなジェイルブレイク攻撃を防ぐための対策を提案する。音声指示付きの対話データで訓練された我々のモデルは、音声質問応答タスクにおいて最先端の性能を達成し、安全性と有用性の両方の指標で80％以上のスコアを記録した。安全性のガードレールが設けられているにもかかわらず、ジェイルブレイクに関する実験では、SLMが敵対的摂動や転移攻撃に対して脆弱であることが示され、12の異なる有害カテゴリーにわたる慎重に設計された有害な質問のデータセットで評価した場合、平均攻撃成功率はそれぞれ90％と10％であった。しかし、我々が提案する対策により、攻撃成功率が大幅に低下することが実証された。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

スケーリング則を超えて：連想メモリを用いたTransformerの性能理解
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

May 14, 2024

Xueyan Niu, Bo Bai, Lei Deng, Wei Han

330

Coin3D: プロキシ誘導型条件付けによる制御可能でインタラクティブな3Dアセット生成
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning

May 13, 2024

Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui

260

Hunyuan-DiT: 細粒度な中国語理解を備えた強力なマルチレゾリューション拡散Transformer
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024

252

オンラインアラインメントとオフラインアラインメントアルゴリズム間の性能差の理解
Understanding the performance gap between online and offline alignment algorithms

May 14, 2024

Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney

200

SpeechVerse: 大規模汎用音声言語モデル
SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024

200

密なブロブ表現を用いた構成的テキスト画像生成
Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024

Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat

181

時間を無駄にしない：モバイル動画のためのチャネルへの時間圧縮理解
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14, 2024

Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang

160

SpeechGuard: マルチモーダル大規模言語モデルの敵対的頑健性の探求
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14, 2024

130