翻訳付きの日次キュレーションされたAI研究論文
事前学習済み音声認識モデルのサイズが大きくなるにつれ、これらの大規模モデルを低遅延またはリソース制約のある環境で実行することが困難になっています。本研究では、擬似ラベリングを活用して大規模なオープンソースデータセットを構築し、Whisperモデルをより小型のバージョンであるDistil-Whisperに蒸留しました。単純な単語誤り率(WER)ヒューリスティックを使用して、トレーニング用に最高品質の擬似ラベルのみを選択しています。蒸留されたモデルは5.8倍高速で、パラメータ数が51%少なく、ゼロショット転移設定における分布外テストデータでのWERは1%以内の性能を維持しています。Distil-Whisperは、Whisperモデルの困難な音響条件に対する頑健性を維持しつつ、長時間音声での幻覚エラーが発生しにくくなっています。Distil-Whisperは、Whisperと組み合わせて推測的デコードを行うように設計されており、元のモデルと同じ出力を数学的に保証しながら2倍の高速化を実現します。この分野のさらなる研究を促進するため、トレーニングコード、推論コード、およびモデルを公開しています。
LLaVA-Interactiveは、マルチモーダルな人間とAIのインタラクションのための研究プロトタイプです。このシステムは、マルチモーダルなユーザー入力を取り込み、マルチモーダルな応答を生成することで、人間のユーザーと多段階の対話を行うことができます。重要な点として、LLaVA-Interactiveは言語プロンプトを超えており、視覚プロンプトを活用してインタラクションにおける人間の意図を調整することが可能です。LLaVA-Interactiveの開発は非常にコスト効率が良く、追加のモデルトレーニングなしに、既存のAIモデルの3つのマルチモーダルスキルを組み合わせています:LLaVAの視覚チャット、SEEMの画像セグメンテーション、そしてGLIGENの画像生成と編集です。多様なアプリケーションシナリオが提示されており、LLaVA-Interactiveの可能性を示し、マルチモーダルインタラクティブシステムの将来の研究を刺激することを目的としています。
44.1kHzステレオ音声の音楽制作において、サンプリング時ガイダンスを用いた拡散モデルからの条件付き生成が、様々な現実的なタスクにどのように活用できるかを実証します。私たちが検討するシナリオには、音楽音声の継続、インペインティング、再生、異なる音楽トラック間のスムーズなトランジションの作成、既存の音声クリップへの所望のスタイル特性の転送が含まれます。これを実現するために、再構成損失と分類損失、またはその両方の任意の組み合わせをサポートするシンプルなフレームワークにおいて、サンプリング時にガイダンスを適用します。このアプローチにより、生成された音声がその周囲のコンテキストに一致するか、または適切な事前学習済み分類器または埋め込みモデルに対して指定されたクラス分布または潜在表現に適合することが保証されます。
テキストを強力なクロスモーダルインターフェースとして示す。画像と言語を接続するインターフェース表現として深層埋め込みに依存するのではなく、我々のアプローチでは画像をテキストとして表現し、自然言語に内在する解釈可能性と柔軟性を享受する。デコーディングに事前学習済みのテキストから画像への拡散モデルを使用するオートエンコーダを採用する。エンコーダは入力画像をテキストに変換するように訓練され、そのテキストは固定されたテキストから画像への拡散デコーダに供給され、元の入力を再構築する。このプロセスを我々はDe-Diffusionと呼ぶ。実験により、De-Diffusionテキストが画像を表現する精度と包括性が検証され、市販のテキストから画像へのツールやLLMが多様なマルチモーダルタスクに容易に取り込めることが示された。例えば、単一のDe-Diffusionモデルは、異なるテキストから画像へのツールに対して転移可能なプロンプトを提供するように一般化でき、また、大規模言語モデルに少数の例でプロンプトを与えるだけで、オープンエンドの視覚言語タスクにおいて新たな最先端を達成する。
近年の生成AIの波は、前例のない世界的な注目を集めており、超人的なレベルの人工知能に対する期待と懸念が高まっています。現在のモデルは、専門家の能力を凌駕するような出力をわずか数秒で生成することができます。一方で、これらのモデルは、非専門家であっても犯さないような基本的な理解の誤りを示すことがあります。これは一見矛盾する現象を提示しています:超人的な能力と、人間ならばまず犯さないような誤りの持続性を、どのように調和させればよいのでしょうか?本研究では、この緊張関係は、現代の生成モデルにおける知能の構成が、人間の知能とは異なる方向に進化していることを反映していると仮定します。具体的には、「生成AIのパラドックス仮説」を提案し、検証します:生成モデルは、専門家のような出力を直接再現するように訓練されることで、その理解能力に依存しない(したがってそれを超える)生成能力を獲得するという仮説です。これは、基本的な理解が専門レベルの出力能力に先行する人間とは対照的です。この仮説を検証するため、言語と画像の両モダリティにおいて、生成モデルの生成能力と理解能力を分析する制御実験を行いました。その結果、モデルは生成において人間を上回るものの、理解能力の測定では一貫して人間に及ばず、生成と理解の性能の相関が弱く、敵対的入力に対する脆弱性が高いことが示されました。これらの発見は、モデルの生成能力が理解能力に依存しない可能性を示唆しており、人間の知能との類推によって人工知能を解釈することに注意を喚起するものです。
ピクセルベースの言語モデルは、テキストを画像としてレンダリングして処理するため、あらゆる文字体系を扱うことが可能であり、オープンな語彙の言語モデリングにおいて有望なアプローチとなっています。しかし、最近の手法では、ほぼ同等の入力パッチを大量に生成するテキストレンダラーを使用しており、入力表現の冗長性により、下流タスクにおいて最適でない可能性があります。本論文では、PIXELモデル(Rust et al., 2023)におけるテキストレンダリングの4つのアプローチを調査し、シンプルな文字バイグラムレンダリングが、トークンレベルや多言語タスクの性能を損なうことなく、文レベルのタスクで改善された性能をもたらすことを明らかにしました。この新しいレンダリング戦略により、元の86Mパラメータモデルと同等の性能を発揮する、わずか22Mパラメータのよりコンパクトなモデルの訓練も可能となりました。我々の分析によると、文字バイグラムレンダリングは一貫して優れたモデルをもたらしますが、パッチ頻度の偏りによって駆動される異方性のパッチ埋め込み空間を形成し、画像パッチベースと言語モデルベースのトークン化の間の関連性を浮き彫りにしています。
大規模言語モデルは、人間の要求を満たすコード生成において良好な性能を示しています。しかし、自然言語で表現される人間の要求は曖昧で不完全であり、多義的である場合があり、これにより大規模言語モデルが人間の要求を誤解し、ミスを犯すことがあります。さらに悪いことに、人間のユーザーが要求を洗練することが困難です。人間のユーザーが要求を洗練し、大規模言語モデルのコード生成性能を向上させるために、我々はChatCoderを提案します。これは、大規模言語モデルとチャットすることで要求を洗練する方法です。我々は、大規模言語モデルが人間のユーザーを導き、要求の表現を以前よりも正確で曖昧さがなく、完全なものにするチャットスキームを設計しました。実験の結果、ChatCoderは既存の大規模言語モデルの性能を大幅に向上させることが示されました。さらに、ChatCoderは、洗練ベースの方法や人間の応答を介してファインチューニングされたLLMよりも優位性を持っています。
大規模言語モデル(LLMs)は、様々な下流タスクにおいて印象的な性能を発揮しています。これらのモデルを訓練する際、より多くのトークンを処理しつつ、比較的小さなモデルサイズで大規模な訓練を行う傾向が高まっています。Zero Redundancy Optimizer(ZeRO)は、従来の訓練環境では効果的ですが、この新たなパラダイムに直面した際にスケーリングの課題に直面します。これに対処するため、我々は新しいLLM訓練フレームワークAMSPを提案します。AMSPは、パラメータ(P)、勾配(G)、オプティマイザ状態(OS)を含むモデル状態を細かく分割します。具体的には、AMSPは(1)統一された分割空間を構築し、P、G、OSに対して独立した分割戦略を可能にします;(2)スケールを考慮したパーティショナーを組み込み、最適な分割戦略を自律的に探索します;(3)異なる分割戦略から生じるデータ配置の不一致を効果的に管理するための専用の通信オプティマイザを設計します。我々の評価では、AMSPは1024 GPUにおいて最大90.3%のスケーリング効率を達成しています。
視覚言語モデル(VLMs)は、人間が世界を理解する方法を模倣して収集された膨大な量のデータで訓練されています。しかし、視覚的錯覚として知られるように、人間の現実の知覚は必ずしも物理的世界に忠実ではありません。これにより、重要な疑問が生じます:VLMsは人間と同様の錯覚を持つのか、それとも現実を忠実に表現するように学習するのか?この疑問を探るため、私たちは5種類の視覚的錯覚を含むデータセットを構築し、最先端のVLMsにおける視覚的錯覚を検証するための4つのタスクを策定しました。その結果、全体的な整合性は低いものの、より大規模なモデルほど人間の知覚に近く、視覚的錯覚に対してより脆弱であることが明らかになりました。私たちのデータセットと初期の知見は、人間と機械における視覚的錯覚の理解を促進し、共有する視覚世界を認識し伝達する上で人間と機械をより良く整合させるための将来の計算モデルへの足がかりを提供します。コードとデータはhttps://github.com/vl-illusion/datasetで公開されています。