翻訳付きの日次キュレーションされたAI研究論文
Recognize Anything Model(RAM)を紹介します。これは画像タグ付けのための強力な基盤モデルです。RAMは、一般的なカテゴリを高精度で認識することができます。RAMは、手動のアノテーションではなく、大規模な画像-テキストペアを活用してトレーニングを行う、画像タグ付けの新しいパラダイムを導入します。RAMの開発は、以下の4つの主要なステップで構成されています。まず、自動テキスト意味解析を通じて、大規模なアノテーションフリーの画像タグを取得します。次に、キャプションとタグ付けのタスクを統合し、元のテキストと解析されたタグをそれぞれ教師信号として使用して、自動アノテーションのための予備モデルをトレーニングします。第三に、データエンジンを使用して追加のアノテーションを生成し、誤ったアノテーションをクリーニングします。最後に、処理されたデータでモデルを再トレーニングし、より小規模だが高品質なデータセットを使用してファインチューニングを行います。RAMのタグ付け能力を多数のベンチマークで評価し、印象的なゼロショット性能を観察しました。これはCLIPやBLIPを大幅に上回るものです。驚くべきことに、RAMは完全に教師ありの手法さえも凌駕し、Google APIと競争力のある性能を示しています。RAMをhttps://recognize-anything.github.io/で公開し、コンピュータビジョンにおける大規模モデルの進展を促進します。
命令チューニングは、ChatGPTなどの大規模言語モデル(LLM)を大幅に進化させ、多様なタスクにおいて人間の指示に沿うことを可能にしました。しかし、オープンな視覚言語モデル(VLM)の進展は、高品質な命令データセットの不足により制限されてきました。この課題に取り組み、視覚言語分野の研究を促進するため、私たちはマルチモーダル・多言語命令チューニング(M^3IT)データセットを導入しました。このデータセットは、VLMが人間の指示に最適化されるように設計されています。M^3ITデータセットは、40の精選されたデータセットから構成され、240万のインスタンスと400の手書きタスク命令を含み、視覚からテキストへの構造に再フォーマットされています。主要なタスクは高度な翻訳システムを用いて80言語に翻訳され、より広範なアクセシビリティを確保しています。M^3ITは、タスクのカバレッジ、命令の数、インスタンスの規模において、従来のデータセットを凌駕しています。さらに、私たちはM^3ITデータセットでトレーニングされたVLMモデル「Ying-VLM」を開発し、世界知識を必要とする複雑な質問に答える能力、未見のビデオタスクへの汎化能力、そして中国語での未見の命令を理解する能力を示しました。さらなる研究を促進するため、データセットとトレーニング済みモデルの両方をオープンソースとして公開しています。
私たちは、低リソース環境におけるテキストから話すアバター生成という新たなタスクに着目しています。このタスクでは、数分間の音声付き話者ビデオを学習データとして与え、任意のテキストを入力として、そのテキストに対応する高品質な話者ポートレートビデオを生成することを目指します。このタスクはデジタルヒューマン産業において広範な応用が期待されていますが、以下の2つの課題により技術的に実現されていませんでした。(1) 従来のマルチスピーカー音声合成システムでは、ドメイン外の音声から音色を模倣することが困難である。(2) 限られた学習データで、高精細かつリップシンクロされた話すアバターをレンダリングすることが難しい。本論文では、Adaptive Text-to-Talking Avatar (Ada-TTA)を提案します。この手法は、(1) テキスト内容、音色、プロソディを適切に分離する汎用的なゼロショットマルチスピーカー音声合成モデルを設計し、(2) ニューラルレンダリングの最新技術を取り入れて、現実的な音声駆動型の話す顔ビデオ生成を実現します。これらの設計により、私たちの手法は前述の2つの課題を克服し、アイデンティティを保持した音声と現実的な話者ビデオの生成を達成します。実験結果は、私たちの手法が現実的でアイデンティティを保持し、音声と視覚が同期した話すアバタービデオを合成できることを示しています。
画像間の対応関係を見つけることは、コンピュータビジョンにおける基本的な問題です。本論文では、画像拡散モデルにおいて、明示的な教師なしで対応関係が自然に現れることを示します。私たちは、拡散ネットワークからこの暗黙的な知識を画像特徴量として抽出するシンプルな戦略、すなわちDIffusion FeaTures(DIFT)を提案し、それを用いて実画像間の対応関係を確立します。タスク固有のデータやアノテーションに対する追加のファインチューニングや教師なし学習なしで、DIFTはセマンティック、幾何学的、および時間的な対応関係の識別において、弱教師あり手法や競合する既存の特徴量を上回る性能を発揮します。特にセマンティック対応に関しては、Stable Diffusionから得られたDIFTは、難しいSPair-71kベンチマークにおいて、DINOとOpenCLIPをそれぞれ19ポイントと14ポイントの精度で上回ります。さらに、18のカテゴリのうち9つで最先端の教師あり手法を上回り、全体の性能でも同等の結果を達成します。プロジェクトページ: https://diffusionfeatures.github.io
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためのテキストデータを生成するために使用できます。しかし、LLMを用いて高品質なデータセットを作成することは困難です。本研究では、LLMベースのテキストデータ生成において、多様性と正確性を高めるための人間とAIの協力を探ります。まず、テキスト生成の多様化を図る2つのアプローチを検討します:1)ロジット抑制(logit suppression)は、既に頻繁に生成された言語の生成を最小化し、2)温度サンプリング(temperature sampling)は、トークンサンプリングの確率を平坦化します。これらの多様化アプローチはデータの多様性を向上させることがわかりましたが、しばしばデータの正確性(つまり、テキストとラベルが対象ドメインに適していること)を犠牲にすることがわかりました。この問題に対処するために、2つの人間の介入を検討しました:1)ラベル置換(LR)は、不適切なラベルを修正し、2)範囲外フィルタリング(OOSF)は、ユーザーの関心領域外であるか、考慮されたラベルが適用されないインスタンスを削除します。オラクルスタディを通じて、LRが多様化されたデータセットでトレーニングされたモデルの絶対的な正確性を14.4%向上させることがわかりました。さらに、LR介入を用いて生成されたデータでトレーニングされた一部のモデルは、LLMベースの少数ショット分類を上回る性能を示しました。一方、OOSFはモデルの正確性を向上させる効果がなく、人間をループに組み込んだテキストデータ生成の今後の研究の必要性が示唆されました。
言語モデルは、複雑なタスクにおいて段階的に推論を行うことで、より高い精度を達成することが多い。しかし、その推論は不適切であったり、一貫性がなかったり、望ましくない事前仮定に依存していたりすることがある。これらの問題に対処するため、我々は状態と増分的制約を用いて生成をガイドする「ガイド」と呼ばれるツールのクラスを導入する。ガイドはモデルによって呼び出され、モデル自身の生成をツールが提供する有効なステートメントの集合に制約することができる。逆に、モデルの選択がガイドの状態を変化させることもある。我々は、論理推論のための一般的なシステムをガイドとして使用する方法を示し、これをLogicGuideと呼ぶ。自然言語で与えられた推論問題に対して、モデルはLogicGuideのためにその仮定を形式化し、その推論ステップが健全であることを保証することができる。PrOntoQAおよびProofWriter推論データセットを用いた実験では、LogicGuideはGPT-3、GPT-3.5 Turbo、LLaMAの性能を大幅に向上させた(精度向上は最大35%)。また、LogicGuideはコンテンツ効果を劇的に低減する。コンテンツ効果とは、人間と言語モデルの両方が悩まされてきた、事前仮定と現在の仮定の干渉のことである。最後に、LLaMA 13Bを自身の推論からブートストラップする方法を探り、LogicGuideが重要であることを明らかにした。認証された自己生成推論のみを学習することで、LLaMAは自己改善が可能となり、自身の幻覚から学習することを回避できる。
テキストのみのコーパスを用いたドメイン適応は、エンドツーエンド(E2E)音声認識において課題となっています。TTS(Text-to-Speech)を通じてテキストから音声を合成する方法はリソースを消費します。本論文では、Conformer Transducerを用いた統一音声-テキスト表現(USTR-CT)を学習し、テキストのみのコーパスを用いた高速なドメイン適応を可能にする手法を提案します。従来のテキストグラム手法とは異なり、本手法ではテキスト表現を学習するための追加のテキストエンコーダを導入し、推論時にはこれを除去するため、オンライン展開に変更を加える必要がありません。適応効率を向上させるため、シングルステップおよびマルチステップの適応手法も検討しています。LibriSpeechからSPGISpeechへの適応実験では、提案手法がターゲットドメインにおいて単語誤り率(WER)を相対的に44%削減し、TTS手法やテキストグラム手法よりも優れた結果を示しました。また、提案手法は内部言語モデル推定(ILME)と組み合わせることで、さらに性能を向上させることができることも示されています。
事前学習済み言語モデル(LM)は、エンティティに関する世界知識を容易に記憶するものの、2つ以上の事実を組み合わせて質問応答タスクにおけるマルチホップ推論を実行するのは苦手である。本研究では、構造化された知識グラフ上でのランダムウォークに依存することで、この制限を改善する技術を提案する。具体的には、ソフトプロンプトを使用して、LMがエンコードした知識を連鎖させるよう導き、マルチホップ質問を答えに至るランダムウォーク経路にマッピングすることを学習させる。2つのT5 LMに本手法を適用した結果、2ホップ推論を必要とする質問への回答において、標準的なチューニング手法を大幅に上回る改善が見られた。
本論文では、ナレーション付きハウツービデオにおける手順的活動のステップをローカライズする手法を提案する。大規模なラベル付きデータの不足に対処するため、多様な手順的タスクの指示記事を含む言語知識ベース(wikiHow)からステップ記述を取得する。手動の監視を一切行わずに、我々のモデルはフレーム、ナレーション、ステップ記述という3つのモダリティをマッチングすることで、ハウツービデオにおける手順記事のステップを時間的にグラウンディングすることを学習する。具体的には、我々の手法は2つの異なる経路からの情報を融合してステップをビデオにアライメントする:i) ステップ記述とフレームの直接的なアライメント、ii) ステップとナレーションの対応関係とナレーションとビデオの対応関係を組み合わせた間接的なアライメント。特に、我々のアプローチは順序情報を活用して記事内の全てのステップを一度にグローバルに時間的にグラウンディングし、反復的に洗練され厳格にフィルタリングされたステップ擬似ラベルを用いて訓練される。モデルを検証するため、HowTo100Mの124時間のサブセットを手動でアノテーションし、wikiHow記事から取得したステップを含む新しい評価ベンチマーク——HT-Step——を導入する。このベンチマークでの実験およびCrossTaskでのゼロショット評価により、我々のマルチモダリティアライメントが複数のベースラインや先行研究を大幅に上回ることを示す。最後に、ナレーションとビデオをマッチングする内部モジュールが、HTM-Alignナレーションビデオアライメントベンチマークにおいて、最新技術を大きく上回る性能を発揮することを示す。