翻訳付きの日次キュレーションされたAI研究論文
AudioPaLMを紹介します。これは音声理解と生成のための大規模言語モデルです。AudioPaLMは、テキストベースの言語モデルPaLM-2 [Anil et al., 2023]と音声ベースの言語モデルAudioLM [Borsos et al., 2022]を統合し、テキストと音声を処理・生成できるマルチモーダルアーキテクチャを実現しています。このモデルは、音声認識や音声間翻訳などのアプリケーションに適用可能です。AudioPaLMは、AudioLMから話者識別やイントネーションなどのパラ言語情報を保持する能力を継承し、PaLM-2のようなテキスト大規模言語モデルにのみ存在する言語知識も備えています。テキストのみの大規模言語モデルの重みでAudioPaLMを初期化することで、音声処理が改善され、事前学習で使用された大量のテキストデータが音声タスクに活用されることを実証しました。その結果、このモデルは既存の音声翻訳システムを大幅に上回り、訓練で見られなかった入力/ターゲット言語の組み合わせに対してもゼロショット音声テキスト翻訳を実行できる能力を持っています。また、AudioPaLMは、短い音声プロンプトに基づいて声を言語間で転送するなど、音声言語モデルの特徴も示しています。当手法の例はhttps://google-research.github.io/seanet/audiopalm/examplesで公開しています。
最近提案されたSegment Anything Model(SAM)は、多くのコンピュータビジョンタスクに大きな影響を与えています。これは、画像セグメンテーション、画像キャプション、画像編集などの多くの高レベルタスクの基盤ステップとなりつつあります。しかし、その膨大な計算コストが、産業シナリオでの広範な応用を妨げています。この計算コストは主に、高解像度入力におけるTransformerアーキテクチャに起因しています。本論文では、同等の性能を維持しつつ、この基盤タスクを高速化する代替手法を提案します。タスクをセグメント生成とプロンプティングとして再定式化することで、通常のCNN検出器にインスタンスセグメンテーションブランチを追加するだけで、このタスクを十分に達成できることがわかりました。具体的には、このタスクを既に研究されているインスタンスセグメンテーションタスクに変換し、SAMの作者が公開したSA-1Bデータセットの1/50のみを使用して既存のインスタンスセグメンテーション手法を直接学習させます。提案手法により、SAM手法と同等の性能を50倍の実行速度で達成しました。その有効性を示す十分な実験結果を提供します。コードとデモはhttps://github.com/CASIA-IVA-Lab/FastSAMで公開予定です。
言語はどのようにして下流の思考を形成するのか?特に、人間はどのように言語から意味を構築するのか、そして言語的意味の理論を活用して、より人間らしい思考をする機械をどのように構築できるのか?本論文では、言語に基づく思考のための計算論的フレームワークとして、合理的意味構築(rational meaning construction)を提案する。これは、言語のニューラルモデルと合理的推論のための確率モデルを組み合わせたものである。我々は、言語的意味を、自然言語から確率的思考言語(Probabilistic Language of Thought, PLoT)への文脈依存的なマッピングとして捉える。PLoTは、確率的で生成的な世界モデリングのための汎用の記号的基盤である。我々のアーキテクチャは、これまで結びつかなかった2つの強力な計算ツールを統合する。まず、柔軟な常識推論のための表現力豊かな表現として、確率的プログラムを用いて思考をモデル化する。次に、大規模言語モデル(LLMs)を用いて意味構築をモデル化する。LLMsは、自然言語の発話から確率的プログラミング言語のコード表現への広範な翻訳をサポートする。我々は、認知科学の4つの主要領域(確率的推論、論理的・関係的推論、視覚的・物理的推論、エージェントとその計画に関する社会的推論)をカバーする例を通じて、このフレームワークの動作を説明する。それぞれの領域において、LLMsが文脈に応じた翻訳を生成し、語用論的に適切な言語的意味を捉えることができることを示す。また、生成されたプログラムを用いたベイズ推論が、一貫性のある堅牢な常識推論をサポートすることを示す。さらに、我々のフレームワークを拡張し、認知的に動機づけられた記号的モジュールを統合することで、言語からの統一された常識思考インターフェースを提供する。最後に、言語が世界モデル自体の構築をどのように駆動するかを探る。
活性化、重み、勾配を4ビットに量子化することは、ニューラルネットワークの学習を加速する上で有望な手法です。しかし、既存の4ビット学習手法は、現代のハードウェアではサポートされていないカスタム数値フォーマットを必要とします。本研究では、すべての行列乗算をINT4演算で実装したトランスフォーマーの学習手法を提案します。超低精度のINT4での学習は困難を伴います。これを実現するために、我々はトランスフォーマーの活性化と勾配の特定の構造を注意深く分析し、それらに特化した量子化器を提案します。順伝播では、外れ値の問題を特定し、ハダマード量子化器を提案して外れ値を抑制します。逆伝播では、勾配の構造的スパース性を活用し、ビット分割とレバレッジスコアサンプリング技術を提案して勾配を正確に量子化します。我々のアルゴリズムは、自然言語理解、機械翻訳、画像分類など幅広いタスクで競争力のある精度を達成します。従来の4ビット学習手法とは異なり、我々のアルゴリズムは現在の世代のGPUで実装可能です。プロトタイプの線形演算子実装は、FP16の対応する実装に比べて最大2.2倍高速であり、学習を最大35.1%高速化します。
大規模言語モデル(LLM)をネットワーク内の確率的言語層として捉え、各層における学習可能なパラメータを自然言語プロンプトと見なします。我々はこのような層を2つ積み重ね、1つの層の出力を次の層に入力します。この積層アーキテクチャをDeep Language Network(DLN)と呼びます。まず、1層の言語ネットワーク(DLN-1)におけるプロンプト最適化を効果的に行う方法を示します。次に、2つのプロンプトを学習する必要がある2層DLN(DLN-2)の訓練方法を示します。第1層の出力を周辺化する潜在変数と見なし、共同プロンプト訓練のための変分推論アルゴリズムを考案します。DLN-2は単層よりも高い性能を達成し、ネットワーク内の各LLMがより小さく能力が低い場合でも、few-shot GPT-4に匹敵する場合があります。DLNのコードはオープンソースです:https://github.com/microsoft/deep-language-networks。
Transformerモデルはここ数年、様々な領域で広く採用されており、特に大規模言語モデルはAI分野を大きく進展させてきた。その規模ゆえに、これらのネットワークの能力は飛躍的に向上したが、その代償として必要な計算量も大幅に増加した。量子化は、ニューラルネットワークの計算時間とメモリ消費を削減する最も効果的な方法の一つである。しかし、多くの研究が示すように、現代のTransformerモデルは活性化関数において強い外れ値を学習する傾向があり、量子化を困難にしている。許容可能な性能を維持するためには、これらの外れ値の存在により、活性化関数をより高いビット幅で使用するか、異なる数値フォーマットを採用するか、追加のファインチューニングを行うか、あるいは他の回避策を講じる必要がある。我々は、強い外れ値が、特定の注意ヘッドの振る舞い、特に「無操作(no-op)」または残差の部分的な更新を学習しようとする振る舞いに関連していることを示す。無更新のために注意行列で必要な正確なゼロを達成するため、ソフトマックスへの入力は訓練中にますます大きくなり、ネットワークの他の部分で外れ値を引き起こす。これらの観察に基づき、我々は注意メカニズムに2つのシンプルな(独立した)修正を提案する - クリップドソフトマックスとゲート付きアテンションである。我々の方法を用いて事前学習されたモデルは、浮動小数点タスクの性能を維持し、時には向上させながら、有意に小さな外れ値を学習することを実証的に示す。これにより、Transformerを追加の手間なしに活性化関数の完全なINT8量子化に成功した。我々は、言語モデル(BERT、OPT)とビジョントランスフォーマーの両方で、これらの方法の有効性を実証している。
数十億の画像-テキストペアで事前学習されたテキスト-to-画像拡散モデルは、最近、スコア蒸留を用いてランダムに初期化されたNeural Radiance Fields(NeRF)を最適化することで、テキスト-to-3Dコンテンツ生成を可能にしました。しかし、生成された3Dモデルには2つの制限があります:(a) 色の飽和やJanus問題などの品質上の懸念、(b) テキストガイド付き画像合成と比較して極端に低い多様性です。本論文では、NeRF最適化プロセスとスコア蒸留における均一なタイムステップサンプリングの間の矛盾が、これらの制限の主な原因であることを示します。この矛盾を解決するために、単調非増加関数を用いてタイムステップサンプリングを優先することを提案します。これにより、NeRF最適化が拡散モデルのサンプリングプロセスと整合します。大規模な実験により、このシンプルな再設計が、より高品質で多様性のあるテキスト-to-3Dコンテンツ生成を大幅に改善することを示します。
大規模なテキストから画像への拡散モデルの最近の進展により、画像編集における多くの応用が可能となってきました。しかし、これらの手法のいずれも、既存の単一画像のレイアウトを編集することはできませんでした。このギャップを埋めるため、我々は単一画像のレイアウトを編集しつつその視覚的特性を保持する初めてのフレームワークを提案します。これにより、単一画像上での連続的な編集が可能となります。我々のアプローチは、2つの主要なモジュールによって実現されます。まず、画像内の複数のオブジェクトの特性を保持するために、異なるオブジェクトの概念を分離し、それらを「マスク付きテキスト逆変換」と呼ばれる新規手法を用いて別々のテキストトークンに埋め込みます。次に、事前学習済みの拡散モデルに対してレイアウト制御を行うためのトレーニング不要の最適化手法を提案します。これにより、学習済みの概念を用いて画像を再生成し、ユーザー指定のレイアウトに合わせることが可能となります。既存画像のレイアウトを編集する初めてのフレームワークとして、我々の手法が有効であり、このタスクをサポートするために修正された他のベースラインを上回ることを実証します。我々のコードは、受理後、自由に公開されます。
Polisは、機械知能を活用して審議プロセスを拡張するプラットフォームです。本論文では、Polisのエンゲージメントを促進、モデレート、および結果を要約するという課題に対して大規模言語モデル(LLM)を適用する際の機会とリスクを探ります。特に、AnthropicのClaudeを用いたパイロット実験を通じて、LLMが人間の知能を補完し、Polisの会話をより効率的に運営するのに役立つことを実証します。特に、要約能力が、公衆が集団的な意味形成の演習を行うための新たな方法を可能にし、非常に有望であることを明らかにします。また、LLMのコンテキスト制限が、これらの結果の洞察と品質に大きな影響を与えることも注目に値します。 しかし、これらの機会にはリスクも伴います。本論文では、これらのリスクのいくつか、それらを特徴づけ緩和するための原則と技術、およびLLMを採用する可能性のある他の審議的または政治的なシステムへの影響について議論します。最後に、LLMを用いてPolisのようなツールを拡張するための今後の研究の方向性をいくつか提示して結論とします。
Equivariant Transformerの一種であるEquiformerは、3D原子系の領域にTransformerを適用する有効性を実証してきました。しかし、これらのモデルは計算複雑性のため、依然として低次の等変表現に限定されています。本論文では、これらのアーキテクチャがより高次の表現にスケールできるかどうかを調査します。Equiformerを出発点として、まずSO(3)畳み込みをeSCN畳み込みに置き換え、高次テンソルを効率的に組み込む方法を提案します。さらに、高次の表現の力をより活用するために、3つのアーキテクチャ改善――注意再正規化、分離可能なS^2活性化、分離可能なレイヤ正規化――を提案します。これらを統合したEquiformerV2は、大規模OC20データセットにおいて、力の予測で最大12%、エネルギーの予測で4%の精度向上を達成し、速度と精度のトレードオフを改善し、吸着エネルギー計算に必要なDFT計算を2倍削減することで、従来の最先端手法を上回る性能を示しました。