翻訳付きの日次キュレーションされたAI研究論文
ノイズ除去拡散確率モデル(DDPM)は音声合成において有望な性能を示している。しかし、高品質なサンプルを生成するためには多数の反復ステップが必要であり、これが推論速度を制限している。サンプル品質を維持しながらサンプリング速度を向上させることは困難な課題となっている。本論文では、「Co」nsistency「Mo」delに基づく「Speech」合成手法、CoMoSpeechを提案する。この手法は、単一の拡散サンプリングステップで音声合成を行いながら、高い音質を実現する。一貫性制約を適用することで、設計の優れた拡散ベースの教師モデルから一貫性モデルを蒸留し、最終的にCoMoSpeechにおいて優れた性能を発揮する。実験結果によると、単一のサンプリングステップで音声を生成するCoMoSpeechは、単一のNVIDIA A100 GPU上でリアルタイムの150倍以上の推論速度を達成し、FastSpeech2に匹敵する性能を示し、拡散サンプリングベースの音声合成を真に実用的なものとしている。同時に、テキスト読み上げと歌唱音声合成における客観的および主観的評価では、提案された教師モデルが最高の音質を実現し、1ステップサンプリングベースのCoMoSpeechが他の従来の多ステップ拡散モデルベースラインと同等またはそれ以上の音質で最高の推論速度を達成している。音声サンプルはhttps://comospeech.github.io/で公開されている。
本論文では、Region-aware Open-vocabulary Vision Transformers (RO-ViT)を提案する。これは、画像レベルの事前学習とオープン語彙物体検出のギャップを埋めるための、対照的な画像-テキスト事前学習手法である。事前学習段階において、我々は、画像全体の位置埋め込みを使用する代わりに、位置埋め込みの領域をランダムにクロップしてリサイズすることを提案する。これにより、検出のファインチューニング段階での領域レベルの位置埋め込みの使用により適した形となる。さらに、対照学習における一般的なソフトマックス交差エントロピー損失を、情報量が多く難しいサンプルをより良く学習するために、フォーカル損失に置き換える。最後に、最近の新規物体提案の進展を活用して、オープン語彙検出のファインチューニングを改善する。我々の完全なモデルを、LVISおよびCOCOのオープン語彙検出ベンチマークとゼロショット転移で評価する。RO-ViTは、LVISにおいて32.1 AP_rという最先端の結果を達成し、既存の最良の手法を+5.8ポイント上回るとともに、競争力のあるゼロショット転移検出も実現する。驚くべきことに、RO-ViTは画像レベルの表現も改善し、COCOおよびFlickrの画像-テキスト検索ベンチマークにおいて、12の指標のうち9つで最先端を達成し、より大規模なモデルを持つ競合手法を上回る。
多様な言語領域タスクを解決できる汎用言語モデルは、事前学習と指示チューニングのパイプラインによって推進されてきました。しかし、視覚入力を追加することで生じるタスク間の差異が大きくなるため、汎用視覚言語モデルの構築は困難です。視覚言語事前学習は広く研究されていますが、視覚言語指示チューニングは比較的未開拓の領域です。本論文では、事前学習済みのBLIP-2モデルに基づいて、視覚言語指示チューニングに関する体系的かつ包括的な研究を行います。26の公開データセットを収集し、指示チューニング形式に変換し、保持内指示チューニングと保持外ゼロショット評価の2つのクラスターに分類します。さらに、指示に応じた有益な特徴を抽出するための重要な手法である指示認識視覚特徴抽出を導入します。結果として得られたInstructBLIPモデルは、13の保持外データセットすべてにおいて、BLIP-2やより大規模なFlamingoを大幅に上回る最先端のゼロショット性能を達成します。また、個々の下流タスクでファインチューニングした場合も最先端の性能を発揮します(例:ScienceQA IMGで90.7%の精度)。さらに、InstructBLIPが同時期のマルチモーダルモデルよりも優れていることを定性的に示します。すべてのInstructBLIPモデルは、https://github.com/salesforce/LAVIS/tree/main/projects/instructblip でオープンソース化されています。
事前学習済みのテキストから画像への拡散モデルに内包された事前知識を活用し、ブラインド超解像(SR)を行う新たなアプローチを提案する。具体的には、時間を考慮したエンコーダを採用することで、事前学習済みの合成モデルを変更することなく有望な復元結果を達成し、生成的な事前知識を保持しつつ学習コストを最小化する。拡散モデルに内在する確率性による忠実度の低下を補うため、推論プロセス中にスカラー値を調整するだけで品質と忠実度のバランスを取れる制御可能な特徴ラッピングモジュールを導入する。さらに、事前学習済み拡散モデルの固定サイズ制約を克服するため、任意の解像度に適応可能な漸進的集約サンプリング戦略を開発する。合成および実世界のベンチマークを用いた本手法の包括的評価により、現在の最先端手法に対する優位性が実証された。
ビジョントランスフォーマーはその高いモデル能力により大きな成功を収めています。しかし、その優れた性能は重い計算コストを伴い、リアルタイムアプリケーションには不向きです。本論文では、EfficientViTと名付けた高速ビジョントランスフォーマーのファミリーを提案します。既存のトランスフォーマーモデルの速度は、メモリ効率の悪い操作、特にMHSAにおけるテンソルのリシェイプや要素ごとの関数によって制限されていることがわかりました。そこで、効率的なFFN層の間に単一のメモリバウンドMHSAを使用するサンドイッチレイアウトの新しいビルディングブロックを設計し、メモリ効率を向上させながらチャネル間の通信を強化します。さらに、アテンションマップがヘッド間で高い類似性を持つため、計算の冗長性が生じていることを発見しました。これに対処するため、異なる分割された全特徴量をアテンションヘッドに供給するカスケードグループアテンションモジュールを提案し、計算コストを削減するとともにアテンションの多様性を向上させます。包括的な実験により、EfficientViTが既存の効率的なモデルを上回り、速度と精度の良いトレードオフを実現することが示されました。例えば、EfficientViT-M5はMobileNetV3-Largeを精度で1.9%上回りながら、Nvidia V100 GPUとIntel Xeon CPUでそれぞれ40.4%と45.2%高いスループットを達成しました。最近の効率的なモデルであるMobileViT-XXSと比較すると、EfficientViT-M2は1.8%優れた精度を達成し、GPU/CPUで5.8倍/3.7倍高速に動作し、ONNX形式に変換した場合7.4倍高速でした。コードとモデルはhttps://github.com/microsoft/Cream/tree/main/EfficientViTで公開されています。
CLIPは、画像とテキストを結びつける最初の基盤モデルとして、コンピュータビジョン分野における多くの最近のブレークスルーを可能にしてきました。しかし、その関連するトレーニングコストは非常に高く、広範な探求に大きな障壁となっています。本論文では、CLIPのトレーニングにおいて逆スケーリング則が存在するという驚くべき発見を提示します。この法則によれば、使用する画像/テキストエンコーダが大きいほど、トレーニングに適用できる画像/テキストトークンのシーケンス長は短くなります。さらに、画像/テキストトークンの長さを削減する戦略が、このスケーリング則の質を決定する上で重要な役割を果たすことを示します。 この発見の結果として、学術的なリソースを使用してもCLIPのトレーニングに成功することができました。例えば、A100 8-GPUサーバー上で、私たちのCLIPモデルは、約2日で63.2%、約3日で67.8%、約4日で69.3%のゼロショットTop-1 ImageNet精度を達成しました。CLIPに関連する計算障壁を低減することで、特に学術界からのこの分野におけるさらなる研究を促進することを期待しています。私たちのコードはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。
大規模言語モデル(LLM)は、並列データなしで学習した場合でも、多言語ニューラル機械翻訳(MNMT)において驚くほど優れた性能を示しています。しかし、学習データの量が膨大であるにもかかわらず、特に低リソース言語において、稀な単語の翻訳に苦戦しています。さらに悪いことに、低リソース言語におけるLLMの文脈内学習のための関連デモンストレーションを取得することは通常非現実的であり、これがLLMの翻訳における実用的な使用を制限しています。この問題をどのように緩和すべきでしょうか?この目的のために、我々は新しい手法CoDを提案します。CoDは、入力単語のサブセットに対して多言語辞書の連鎖を用いてLLMに事前知識を付与し、LLMの翻訳能力を引き出します。大規模な実験により、ChatGPTにCoDを適用することで、MNMTにおいて最大13倍のChrF++スコアの向上(FLORES-200の完全開発テストセットにおけるキリル文字表記のセルビア語への英語翻訳で3.08から42.63)が得られることが示されました。さらに、多言語辞書の連鎖の重要性、および低リソース言語におけるCoDのfew-shotデモンストレーションに対する優位性を実証しました。
キャプションが画像を正しく説明しているかどうかを判断する能力は、視覚と言語の理解において重要な要素です。しかし、最先端のモデルはしばしば細部の正確さを誤解し、生成されたキャプションにおける物体の幻覚(hallucination)や、構成論的推論の不十分さといったエラーを引き起こします。本研究では、キャプションの正確性を評価するためのシンプルでありながら驚くほど効果的な方法として、トークンレベルの信頼度(Token-Level Confidence, TLC)を探求します。具体的には、画像キャプショニング用に視覚言語モデルをファインチューニングし、画像と提案されたキャプションをモデルに入力し、代数的または学習済みのトークン信頼度を単語やシーケンスにわたって集約することで、画像とキャプションの一貫性を推定します。事前学習済みモデルのシーケンスレベルスコアと比較して、代数的信頼度測定を用いたTLCは、SVO-Probesにおける動詞理解の精度で10%の相対的向上を達成し、Winogroundにおける構成論的推論の画像およびグループスコアにおいて、それぞれ37%および9%の相対的改善で従来の最先端を上回りました。学習データが利用可能な場合、学習済みの信頼度推定器はさらなる性能向上を提供し、MS COCO Captionsにおける物体幻覚率を元のモデルに対して相対的に30%削減し、新たな最先端を確立しました。
大規模言語モデル(LLM)は印象的な多言語能力を示しますが、その性能は言語によって大きく異なります。本研究では、LLMの多言語能力を体系的に向上させるためのシンプルかつ効果的な手法、クロスリンガル思考プロンプティング(XLT)を提案します。具体的には、XLTは、クロスリンガルかつ論理的な推論能力を刺激し、言語を超えたタスク性能を向上させる汎用的なテンプレートプロンプトです。推論、理解、生成タスクに関連する7つの典型的なベンチマークにおいて、高リソース言語と低リソース言語の両方をカバーする包括的な評価を実施しました。実験結果は、XLTがさまざまな多言語タスクの性能を著しく向上させるだけでなく、各タスクにおける平均性能と最良性能のギャップを大幅に縮小することを示しています。特に、XLTは算術推論とオープンドメイン質問応答タスクにおいて、平均で10ポイント以上の改善をもたらします。
ビデオの視覚的コンテンツに調和する高品質な音楽を生成することは、困難な課題です。既存の視覚条件付き音楽生成システムの多くは、生のオーディオ波形ではなく、MIDIファイルなどの記号的な音楽データを生成します。記号的な音楽データの利用可能性が限られているため、これらの手法では、特定の楽器や特定のタイプの視覚入力に対してのみ音楽を生成することができます。本論文では、多様なビデオ入力タイプの視覚的意味論にうまく整合する高品質な音楽オーディオを生成できる新しいアプローチ「V2Meow」を提案します。具体的には、提案する音楽生成システムは、野生のミュージックビデオから収集されたO(100K)の音楽オーディオクリップとビデオフレームのペアで訓練された多段階の自己回帰モデルであり、並列の記号的音楽データは使用しません。V2Meowは、任意の無音ビデオクリップから抽出された事前訓練済みの視覚的特徴に基づいて、高忠実度の音楽オーディオ波形を合成することができ、ビデオフレームの条件付けに加えて、テキストプロンプトを介して生成例の音楽スタイルを高レベルで制御することも可能です。定性的および定量的な評価を通じて、我々のモデルが視覚-オーディオ対応とオーディオ品質の両方において、既存のいくつかの音楽生成システムを凌駕することを示します。
生涯学習(Lifelong Learning, LL)は、NLPモデルが新しいタスクを継続的に学習するための重要な能力です。アーキテクチャベースのアプローチは、LLモデルの効果的な実装として報告されています。しかし、以前のアプローチをドメインインクリメンタルなLLシナリオに拡張することは容易ではありません。なぜなら、それらはテストフェーズでタスク識別子へのアクセスを必要とするか、未見のタスクからのサンプルを処理できないためです。本論文では、Dianaを提案します。Dianaは、プロンプト拡張言語モデルを用いて一連のタスクを学習する動的アーキテクチャベースの生涯学習モデルです。Dianaでは、異なる粒度の知識を捉えるために、階層的に組織化された4種類のプロンプトが使用されます。具体的には、タスクレベルのプロンプトをタスク固有の知識を捉えるために割り当て、高いLL性能を維持し、インスタンスレベルのプロンプトを入力サンプル間で共有される知識を学習するために割り当て、モデルの汎化性能を向上させます。さらに、未見のタスクを明示的にモデル化するために別個のプロンプトを割り当て、タスク間の知識共有を促進するために一連のプロンプトキーベクトルを導入します。大規模な実験により、Dianaが特に未見のタスクの処理において、最先端のLLモデルを凌駕することが実証されています。コードとデータはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/dianaで公開しています。
大規模言語モデル(LLMs)は、ゼロショットまたは少数ショットの方法で新しいタスクに汎化する際に卓越した能力を示している。しかし、LLMsがユーザーの過去の行動に基づいてその嗜好をどの程度理解できるかは、未だに発展途上であり、明確でない研究課題である。伝統的に、協調フィルタリング(CF)はこれらのタスクにおいて最も効果的な手法であり、主に大量の評価データに依存している。一方、LLMsは通常、映画や製品などの各アイテムに関する網羅的な世界知識を保持しながら、はるかに少ないデータを要求する。本論文では、ユーザーの過去の評価に基づいて候補アイテムに対する評価を予測するという古典的なタスクにおいて、CFとLLMsの両方を徹底的に検証する。250Mから540Bのパラメータを持つさまざまなサイズのLLMsを調査し、ゼロショット、少数ショット、およびファインチューニングのシナリオでの性能を評価する。LLMsと強力なCF手法を比較するための包括的な分析を行い、ゼロショットのLLMsがユーザーインタラクションデータにアクセスできる従来の推薦モデルに遅れをとることを明らかにし、ユーザーインタラクションデータの重要性を示す。しかし、ファインチューニングを通じて、LLMsはわずかなトレーニングデータで同等またはそれ以上の性能を達成し、データ効率性を通じてその潜在能力を実証する。
本論文では、物理ベースのヒューマノイドコントローラを提案し、ノイズの多い入力(例:ビデオからの姿勢推定や言語から生成されたもの)や予期せぬ転倒といった状況下でも、高精度な動作模倣とフォールトトレラントな振る舞いを実現する。本コントローラは、外部の安定化力を一切使用せずに1万個のモーションクリップを学習するスケーラビリティを有し、失敗状態からの自然な回復を学習する。参照モーションが与えられると、本コントローラはリセットを必要とせずにシミュレーションアバターを永続的に制御できる。その中核となるのは、プログレッシブ・マルチプリカティブ制御ポリシー(PMCP)であり、新しいネットワーク容量を動的に割り当てて、より難しいモーションシーケンスを学習する。PMCPにより、大規模なモーションデータベースからの学習や、失敗状態回復などの新たなタスクの追加を、破滅的な忘却を伴わずに効率的にスケールアップできる。本コントローラの有効性を、ビデオベースの姿勢推定器や言語ベースのモーションジェネレータから得られたノイズの多い姿勢を模倣し、リアルタイムのマルチパーソンアバター使用ケースにおいて実証する。
ChatGPTのような大規模言語モデルは、最近、自然言語理解と生成において印象的な能力を示し、翻訳、エッセイ執筆、雑談など様々な応用を可能にしています。しかし、詐欺やサービス拒否攻撃などの悪意ある目的に悪用される懸念もあります。そのため、会話の相手がボットか人間かを検出する方法を開発することが極めて重要です。本論文では、FLAIR(Finding Large language model Authenticity via a single Inquiry and Response)というフレームワークを提案し、オンラインで会話ボットを検出します。具体的には、人間のユーザーとボットを効果的に区別できる単一の質問シナリオを対象とします。質問は、人間には簡単だがボットには難しいもの(例:カウント、置換、位置特定、ノイズフィルタリング、ASCIIアート)と、ボットには簡単だが人間には難しいもの(例:記憶と計算)の2つのカテゴリに分けられます。我々のアプローチは、これらの質問の有効性における異なる強みを示し、オンラインサービスプロバイダーが悪意のある活動から身を守り、実際のユーザーにサービスを提供するための新たな方法を提供します。データセットはhttps://github.com/hongwang600/FLAIRで公開しており、コミュニティからの貢献を歓迎し、このような検出データセットを充実させていきます。
テキスト埋め込みは、文類似性、テキストクラスタリング、意味検索など、いくつかのNLPアプリケーションにおいて有用な特徴量です。本論文では、8ビットのSiamese-BLOOM上にコントラスティブ目的関数を適用した低ランク適応(LoRA)を提案します。BLOOMは、意味的に有意義な単語埋め込みを生成するために最適化された多言語大規模言語モデルです。本手法の革新点は3つあります。第一に、BLOOMの重みを8ビット値にキャストします。第二に、スケーラブルなアダプタ(LoRA)と8ビットAdamオプティマイザを用いて、文類似性分類のためにBLOOMをファインチューニングします。第三に、多言語ラベル付きデータの不足を緩和するため、コントラスティブ目的関数を適用したSiameseアーキテクチャをBLOOMモデルに適用します。実験結果から、LACoS-BLOOMから学習された埋め込みの品質は、モデルパラメータ数と未ラベル訓練データ量に比例することが示されました。パラメータ効率的なファインチューニング設計により、32GBメモリを搭載した単一GPUマシン上で、71億パラメータのBLOOMをエンドツーエンドで実行可能です。従来のソリューションであるSentence-BERTと比較して、英語および多言語STSタスクにおいて大幅な改善を達成しました。