翻訳付きの日次キュレーションされたAI研究論文
GPT-4oの卓越したマルチモーダル能力とインタラクティブな体験は、実用アプリケーションにおけるその必要性を強調するものの、オープンソースモデルは両方の領域で優れた性能を発揮することは稀である。本論文では、初のオープンソースマルチモーダル大規模言語モデル(MLLM)であるVITAを紹介する。VITAは、ビデオ、画像、テキスト、音声のモダリティを同時に処理・分析する能力を持ち、さらに高度なマルチモーダルインタラクティブ体験を提供する。Mixtral 8x7Bを言語基盤として出発点とし、中国語語彙の拡張とバイリンガル指示チューニングを行った。さらに、マルチモーダルアラインメントと指示チューニングの二段階マルチタスク学習を通じて、言語モデルに視覚および音声能力を付与した。VITAは、多言語、視覚、音声理解の強固な基盤能力を示し、単一モーダルおよびマルチモーダルのベンチマークにおいて高い性能を発揮することが証明されている。基盤能力を超えて、自然なマルチモーダル人間-コンピュータインタラクション体験の向上に大きな進展を遂げた。我々の知る限り、MLLMにおいて非覚醒インタラクションと音声割り込みを活用した初の試みである。VITAは、オープンソースコミュニティがマルチモーダル理解とインタラクションのシームレスな統合を探求するための第一歩である。VITAがクローズドソースの競合モデルに近づくためにはまだ多くの作業が必要であるが、その先駆者としての役割が今後の研究の礎となることを期待する。プロジェクトページ: https://vita-home.github.io。
スパースオートエンコーダ(SAE)は、ニューラルネットワークの潜在表現を一見解釈可能な特徴にスパース分解するための教師なし学習手法である。その潜在的可能性に対する最近の注目にもかかわらず、産業界以外での研究応用は、包括的なSAEスイートを訓練するための高コストによって制限されている。本研究では、Gemma 2 2Bおよび9Bの全層とサブ層、ならびにGemma 2 27Bベースモデルの選択された層に対して訓練されたJumpReLU SAEのオープンスイートであるGemma Scopeを紹介する。主にGemma 2事前学習モデルに対してSAEを訓練するが、比較のために命令チューニングされたGemma 2 9Bに対して訓練されたSAEも公開する。各SAEの品質を標準的な指標で評価し、その結果を公開する。これらのSAEの重みを公開することで、コミュニティにとってより野心的な安全性と解釈可能性の研究を容易にすることを目指す。重みとチュートリアルはhttps://huggingface.co/google/gemma-scopeで、インタラクティブデモはhttps://www.neuronpedia.org/gemma-scopeで確認できる。
マルチモーダル大規模言語モデル(MLLMs)は、さまざまな単一画像タスクにおける指示実行において顕著な能力を発揮してきた。しかしながら、長い画像シーケンスのモデリングにおいては依然として重要な課題が残されている。本研究では、検索された画像-テキスト知識、交互に配置された画像-テキスト、および長時間の動画を含むシナリオにおいて、長い画像シーケンスの理解能力を強化する汎用的なマルチモーダル大規模言語モデル、mPLUG-Owl3を紹介する。具体的には、視覚と言語を共通の言語誘導型意味空間に効率的に統合するための新しいハイパーアテンションブロックを提案し、これにより拡張された複数画像シナリオの処理を容易にする。広範な実験結果は、mPLUG-Owl3が単一画像、複数画像、および動画ベンチマークにおいて、同規模のモデルの中で最先端の性能を達成することを示唆している。さらに、モデルが注意を維持する能力を評価するために、Distractor Resistanceという挑戦的な長い視覚シーケンス評価を提案する。最後に、提案されたアーキテクチャにより、mPLUG-Owl3は超長い視覚シーケンス入力において優れた性能を発揮する。mPLUG-Owl3が、より効率的で強力なマルチモーダル大規模言語モデルの開発に貢献することを期待する。
視覚言語モデル(VLM)のトレーニング手法を拡張し改善するために、多大な研究努力が払われてきました。しかし、ベンチマークの数が増え続ける中、研究者は各プロトコルを実装するという重い負担を負い、非自明な計算コストを負担し、これらのベンチマークがどのように進歩の有意義な軸に変換されるかを理解する必要があります。VLMの進歩を体系的に評価するために、我々はUniBenchを紹介します:これは、物体認識から空間認識、計数など、幅広く慎重に分類された能力にわたる50以上のVLMベンチマークを統一実装したものです。我々は、最大12.8Bサンプルのスケールでトレーニングされた、ほぼ60の公開されている視覚言語モデルを評価することで、UniBenchの有用性を示します。トレーニングデータやモデルサイズをスケールアップすることで多くの視覚言語モデルの能力が向上する一方で、推論や関係性にはほとんど効果がないことがわかりました。驚くべきことに、今日の最高のVLMでも、MNISTのような単純な数字認識や計数タスクに苦戦しており、これははるかに単純なネットワークでも解決できるものです。スケールが及ばない場合、データ品質や特定の学習目標のようなより正確な介入がより有望であることがわかりました。実践者向けには、特定のアプリケーションに適したVLMを選択するためのガイダンスも提供します。最後に、50以上のベンチマークと59のモデルにわたる比較を含む、実行が容易なUniBenchコードベースを公開し、単一のGPUで5分で実行できる、代表的なベンチマークの蒸留セットも提供します。
近年の大規模言語モデル(LLMs)の進展により、ツールを活用したLLMsが現実世界の課題を解決するための研究が活発化しており、ツール使用能力の包括的な評価が求められています。従来の研究は、ステートレスなウェブサービス(RESTful API)に基づく単一ターンのユーザープロンプト、またはオフポリシーの対話軌跡に焦点を当てていましたが、ToolSandboxは、ステートフルなツール実行、ツール間の暗黙的な状態依存関係、オンポリシーの会話評価をサポートする組み込みユーザーシミュレータ、および任意の軌跡における中間および最終的なマイルストーンに対する動的な評価戦略を包含しています。我々は、オープンソースモデルとプロプライエタリモデルとの間に大きな性能差があることを示し、ToolSandboxで定義された「状態依存性」「正規化」「情報不足」といった複雑なタスクが、最も優れたSOTA LLMsにとっても挑戦的であることを明らかにし、ツール使用LLMsの能力に関する新たな知見を提供します。ToolSandboxの評価フレームワークは、https://github.com/apple/ToolSandbox で公開されています。
顔画像の超解像技術は有望な進展を見せているものの、ビデオ顔超解像は比較的未開拓の領域である。既存の手法は、一般的なビデオ超解像ネットワークを顔データセットに適用するか、確立された顔画像超解像モデルを個々のビデオフレームに独立して適用するかのいずれかである。これらのパラダイムは、顔の詳細を再構築するか、時間的な一貫性を維持するかのいずれかに課題を抱えている。これらの問題に対処するため、我々はKalman-inspired Feature Propagation (KEEP)と呼ばれる新しいフレームワークを提案する。このフレームワークは、時間の経過とともに安定した顔の事前情報を維持するように設計されている。カルマンフィルタリングの原理により、我々の手法は以前に復元されたフレームからの情報を利用して、現在のフレームの復元プロセスを導き、調整する再帰的な能力を提供する。大規模な実験により、我々の手法がビデオフレーム全体で一貫して顔の詳細を捉える効果を実証している。コードとビデオデモはhttps://jnjaby.github.io/projects/KEEPで公開されている。
テキストインバージョンは、拡散モデルをパーソナライズし、新しい主題やスタイルをモデルに教えるための一般的な手法として残っている。我々は、UNetの代替手段を用いたテキストインバージョンが十分に検討されていないことに注目し、ビジョントランスフォーマーを用いたテキストインバージョンの実験を行った。また、UNetとその独特なレイヤーを明示的に使用せずにテキストインバージョンを最適化する戦略を模索し、ボーナストークンを追加して直交性を強化した。その結果、ボーナストークンの使用はソース画像への忠実度を向上させ、ビジョントランスフォーマーの使用はプロンプトへの忠実度を向上させることがわかった。コードはhttps://github.com/jamesBaker361/tex_inv_plusで公開されている。
本論文では、Moore ThreadsのLLMベースの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルであるMooERを紹介する。オープンソースおよび独自収集の音声データを含む5000時間の疑似ラベル付きデータセットをトレーニングに使用した。その結果、数十万時間のラベル付き音声データでトレーニングされた他のオープンソースモデルと同等の性能を達成した。一方、Covost2 Zh2enテストセットで実施した実験では、本モデルが他のオープンソースのSpeech LLMを上回る性能を示し、BLEUスコア25.2を達成した。本論文の主な貢献は以下の通りである。第一に、本論文は、追加の手動アノテーションや選択を必要とせず、少量の疑似ラベル付きデータを使用して、音声関連タスク(ASRおよびASTを含む)におけるエンコーダとLLMのトレーニング戦略を提示する。第二に、我々はASRおよびASTモデルを公開し、近い将来にトレーニングコードと戦略をオープンソース化する予定である。さらに、8whスケールのトレーニングデータでトレーニングされたモデルを後日公開する計画である。
音声変換は、元の話者の音声を対象話者に似せるように変更しつつ、元の音声内容を保持することを目的としています。近年、音声変換において顕著な進展が見られるものの、多言語音声変換(単一言語および異言語間のシナリオを含む)はまだ十分に研究されていません。これには主に2つの課題があります:1)言語間でのプロソディーや発音習慣の大きな変動性、2)同一話者による多言語ペアデータの希少性です。本論文では、MulliVCという新しい音声変換システムを提案します。このシステムは、音色のみを変換し、元の内容とソース言語のプロソディーを保持し、多言語ペアデータを必要としません。具体的には、MulliVCの各トレーニングステップは3つのサブステップで構成されます:ステップ1では、単一言語音声データを用いてモデルをトレーニングします。その後、ステップ2と3では、バックトランスレーションに着想を得て、同一話者による多言語データがない状況で、音色とその他の情報(内容、プロソディー、その他の言語関連情報)を分離するための循環プロセスを構築します。客観的および主観的な結果の両方から、MulliVCが単一言語および異言語間の両方のコンテキストにおいて他の手法を大幅に上回ることが示されており、システムの有効性と循環一貫性を伴う3ステップアプローチの実現可能性が実証されています。音声サンプルはデモページ(mullivc.github.io)で確認できます。
ニューラルネットワーク言語モデル(LMs)は、複雑な言語知識を捉えることに成功していることが示されている。しかし、その言語習得の理解への有用性については依然として議論が続いている。本研究では、LMsを模擬学習者として用い、人間を対象とした新たな実験仮説を導出するケーススタディを提示することで、この議論に貢献する。本パラダイムを適用して、与格構文を横断する一般化(CDG)を研究する。具体的には、新規動詞が与格構文(例:彼女は私にボールをピルクした/彼女はボールを私にピルクした)を横断して生産的に一般化する能力を、児童向け発話で訓練されたLMsを用いて検討する。この習得は、多数の文脈的特徴が関与することが知られている。特に、「訓練曝露のどのような特性が、新規動詞の(モデル化されていない)代替構文への一般化を促進するのか?」という問いを立てる。これを明らかにするため、新規与格動詞が出現する曝露文脈を、主題と受け手の特性に基づいて体系的に変化させ、その後、LMsが未モデル化の与格構文で新規動詞を使用する様子を分析する。その結果、LMsは児童のCDGの既知のパターンを再現することが確認され、新たな仮説を探求する前提条件が満たされた。続くシミュレーションでは、新規動詞の曝露文脈の特徴がLMsのCDGに及ぼす微妙な役割が明らかになった。CDGは、曝露文脈の最初の動詞後引数が代名詞的で、定冠詞が付き、短く、曝露与格の典型的な有生性期待に適合する場合に促進されることがわかった。これらのパターンは、与格における調和的な配列の特徴であり、談話の顕著性スケールで上位にランクされる特徴を持つ引数が他に先行する傾向がある。これにより、CDGは、曝露文脈の特徴、特にその最初の動詞後引数が調和的に配列されている限りにおいて促進されるという新たな仮説が導かれる。最後に、この仮説を児童で検証するための今後の実験を提案する。