翻訳付きの日次キュレーションされたAI研究論文
生成AIの革命は最近、動画分野にも拡大しています。しかしながら、現在の最先端の動画モデルは、視覚的な品質や生成コンテンツに対するユーザーコントロールの面で、まだ画像モデルに遅れを取っています。本研究では、テキストから画像を生成する拡散モデルの力を活用して、テキスト駆動型の動画編集を行うフレームワークを提案します。具体的には、ソース動画とターゲットのテキストプロンプトが与えられた場合、本手法はターゲットテキストに従いながら、入力動画の空間的レイアウトと動きを保持する高品質な動画を生成します。本手法は、編集された動画の一貫性は、拡散特徴空間における一貫性を強制することで得られるという重要な観察に基づいています。これを実現するために、モデル内で容易に利用可能なフレーム間の対応関係に基づいて、拡散特徴を明示的に伝播させます。したがって、本フレームワークは、追加のトレーニングやファインチューニングを必要とせず、既存のテキストから画像を編集する手法と組み合わせて使用することができます。我々は、様々な実世界の動画に対して最先端の編集結果を示します。ウェブページ: https://diffusion-tokenflow.github.io/
マルチモーダル学習は、複数のモダリティからの情報を処理し関連付けることができるモデルを構築することを目指しています。この分野における長年の進展にもかかわらず、自然言語、2D画像、3D点群、音声、動画、時系列データ、表形式データなど、さまざまなモダリティを処理するための統一ネットワークを設計することは、それらの間に存在する本質的なギャップのため、依然として困難な課題です。本研究では、ペア付けされたマルチモーダル学習データを必要とせず、凍結されたエンコーダを活用してマルチモーダル知覚を実現するフレームワーク「Meta-Transformer」を提案します。Meta-Transformerでは、さまざまなモダリティからの生の入力データが共有トークン空間にマッピングされ、その後、凍結されたパラメータを持つエンコーダが入力データの高レベルな意味的特徴を抽出します。統一データトークナイザ、モダリティ共有エンコーダ、下流タスク向けのタスク固有ヘッドという3つの主要コンポーネントで構成されるMeta-Transformerは、ペア付けされていないデータを用いて12のモダリティにわたる統一学習を実現する初のフレームワークです。さまざまなベンチマークでの実験により、Meta-Transformerが基本的な知覚(テキスト、画像、点群、音声、動画)、実用的な応用(X線、赤外線、ハイパースペクトル、IMU)、およびデータマイニング(グラフ、表形式、時系列)を含む幅広いタスクを処理できることが明らかになりました。Meta-Transformerは、トランスフォーマーを用いた統一マルチモーダル知能の開発に向けた有望な未来を示しています。コードはhttps://github.com/invictus717/MetaTransformerで公開予定です。
人間の脳活動から体験を再構築するプロセスは、脳が世界をどのように解釈し表現するかを探る独自の視点を提供します。本論文では、機能的磁気共鳴画像法(fMRI)を用いて捕捉された脳活動から音楽を再構築する手法を紹介します。私たちのアプローチでは、fMRIデータから導出された埋め込み情報を条件として、音楽検索またはMusicLM音楽生成モデルを使用します。生成された音楽は、被験者が体験した音楽刺激と、ジャンル、楽器編成、ムードといった意味的特性において類似しています。私たちは、voxel単位の符号化モデリング分析を通じて、MusicLMの異なるコンポーネントと脳活動の関係を調査します。さらに、純粋にテキストベースの音楽刺激の記述から導出された情報をどの脳領域が表現しているかについても議論します。再構築された音楽のサンプルを含む補足資料を、https://google-research.github.io/seanet/brain2music で提供しています。
大規模言語モデル(LLM)の評価は、人間の価値観に沿うためには複数のスキルの組み合わせが必要であり、指示によって必要なスキルセットが異なるため、困難を伴います。最近の研究では、LLMの性能を以下の2つの方法で評価しています。(1) 複数の独立したベンチマークでの自動評価、(2) 人間または機械による評価で、応答に対して総合的なスコアを付与する方法です。しかし、どちらの設定も粗い粒度の評価であり、インスタンスごとに必要なスキルの組み合わせを考慮していないため、LLMの真の能力を解釈する上で限界があります。本論文では、FLASK(Fine-grained Language Model Evaluation based on Alignment SKill Sets)を紹介します。FLASKは、モデルベースおよび人間ベースの評価の両方に使用できる細粒度の評価プロトコルであり、粗いレベルのスコアリングをインスタンスごとのスキルセットレベルに分解します。具体的には、LLMがオープンエンドのユーザー指示に従うために必要な12の細粒度スキルを定義し、各インスタンスにスキルセットを割り当てた評価セットを構築します。さらに、各インスタンスのターゲットドメインと難易度レベルを注釈することで、FLASKはスキル、ドメイン、難易度に応じたモデルの性能を包括的に分析するホリスティックな視点を提供します。FLASKを使用して、複数のオープンソースおよびプロプライエタリなLLMを比較し、モデルベースと人間ベースの評価の間に高い相関性があることを観察しました。FLASKにより、開発者はモデルの性能をより正確に測定し、特定のスキルにおいてLLMが熟達する要因を分析することで、どのように改善できるかを理解できます。実務者にとっては、FLASKを使用して、さまざまなLLMの包括的な比較を通じて、特定の状況に適したモデルを推薦することが可能です。評価データとコード実装はhttps://github.com/kaistAI/FLASKで公開しています。
大規模なウェブデータセットは、CLIPやFlamingoのような大規模視覚言語モデルの成功において重要な役割を果たしています。しかし、生のウェブデータはノイズが多く、既存のノイズ低減のためのフィルタリング手法は、データの多様性を犠牲にすることがしばしばあります。本研究では、ノイズの主要な原因の一つとしてキャプションの品質に焦点を当て、記述的なテキストが欠けているウェブスクレイピングされたデータポイントに対して、生成されたキャプションがその有用性をどのように高めるかを検討します。生のキャプションと生成されたキャプションの異なる混合戦略を探索することで、1億2800万の画像-テキストペアの候補プールにおいて、DataCompベンチマークで提案された最良のフィルタリング手法をImageNetで2%、38のタスク全体で平均4%上回りました。また、FlickrとMS-COCOの検索においても、最良のアプローチは2倍の性能を発揮しました。次に、合成キャプションがテキスト監視の有効なソースとなる理由を分析します。異なる画像キャプションモデルを実験することで、標準的な画像キャプションベンチマーク(例:NoCaps CIDEr)でのモデルの性能が、マルチモーダルトレーニング用に生成されるキャプションの有用性の信頼できる指標ではないことも示します。最後に、DataCompの大規模(12億8千万の画像-テキストペア)で生成されたキャプションを使用した実験から、合成テキストの限界と、トレーニングデータ量の増加に伴う画像キュレーションの重要性についての洞察を得ました。
自己教師あり学習は、NLP、ビジョン、生物学など、さまざまなコンピューティング領域において革命的なパラダイムシフトをもたらしました。最近のアプローチでは、膨大な量のラベルなしデータでトランスフォーマーモデルを事前学習し、下流タスクを効率的に解決するための出発点として活用しています。強化学習の分野では、研究者たちは最近、これらのアプローチを適応させ、エキスパート軌跡で事前学習されたモデルを開発し、ロボティクスから推薦システムまで幅広いタスクに対応できるようにしました。しかし、既存の手法の多くは、特定の下流アプリケーションに特化した複雑な事前学習目的に依存しています。本論文では、Pretrained Action-State Transformer Agents(PASTA)と呼ぶモデルについて包括的な調査を行います。私たちの研究では、統一された方法論を使用し、行動クローニング、オフラインRL、センサー障害に対するロバスト性、ダイナミクス変化への適応など、広範な一般的な下流タスクをカバーしています。私たちの目標は、さまざまな設計選択を体系的に比較し、堅牢なモデルを構築するための貴重な洞察を実践者に提供することです。本研究の主なハイライトには、アクションと状態コンポーネントレベルでのトークン化、次のトークン予測のような基本的な事前学習目的の使用、多様なドメインにわたるモデルの同時学習、およびパラメータ効率的なファインチューニング(PEFT)の適用が含まれます。私たちの研究で開発されたモデルは1000万パラメータ未満であり、PEFTの適用により、下流適応時に1万パラメータ未満のファインチューニングが可能となり、広範なコミュニティがこれらのモデルを使用し、私たちの実験を再現できるようになります。この研究が、第一原理に基づいた設計選択を用いてRL軌跡を表現するトランスフォーマーの使用と、堅牢なポリシー学習への貢献をさらに促進することを願っています。
大規模言語モデル(LLMs)の最近の進展は、多くの数学的ベンチマークにおいて顕著な進歩を示しています。しかし、これらのベンチマークのほとんどは、中学校や高校の科目に基づいた問題しか含まず、選択式の問題に限定され、基本的な算術演算の範囲に留まっています。これらの問題に対処するため、本論文では、複雑な科学的問題解決に必要な推論能力を体系的に検証することを目的とした広範なベンチマークスイート「SciBench」を紹介します。SciBenchは、数学、化学、物理学の教科書から抽出された大学レベルの科学的問題を特徴とするオープンセットと、コンピュータサイエンスおよび数学の学部レベルの試験問題から構成されるクローズドセットの2つの慎重に選ばれたデータセットを含んでいます。これら2つのデータセットに基づいて、代表的なLLMsを様々なプロンプト戦略を用いて詳細にベンチマーク調査を行いました。その結果、現在のLLMsは満足のいく性能を発揮しておらず、全体のスコアはわずか35.80%でした。さらに、詳細なユーザースタディを通じて、LLMsが犯したエラーを10の問題解決能力に分類しました。分析によると、単一のプロンプト戦略が他を大きく上回ることはなく、特定の問題解決スキルで改善を示す戦略が他のスキルで低下を招くことが明らかになりました。SciBenchがLLMsの推論能力のさらなる発展を促進し、最終的に科学的研究と発見に貢献することを期待しています。
マルチビュー自己教師あり学習(MVSSL)の成功の背後にあるメカニズムは、まだ完全には理解されていません。コントラスティブなMVSSL手法は、相互情報量(MI)の下限であるInfoNCEの観点から研究されてきました。しかし、他のMVSSL手法とMIの関係は依然として不明確です。本研究では、エントロピーと再構成項(ER)からなるMIの異なる下限を考察し、主要なMVSSLファミリーをこの観点から分析します。このER下限を通じて、DeepClusterやSwAVなどのクラスタリングベースの手法がMIを最大化することを示します。また、BYOLやDINOなどの蒸留ベースのアプローチのメカニズムを再解釈し、それらが明示的に再構成項を最大化し、暗黙的に安定したエントロピーを促進することを示し、これを実験的に確認します。一般的なMVSSL手法の目的関数をこのER下限に置き換えることで、競争力のある性能を達成しつつ、より小さなバッチサイズやより小さな指数移動平均(EMA)係数でのトレーニングを安定化できることを示します。 Githubリポジトリ: https://github.com/apple/ml-entropy-reconstruction.
命令チューニングされたモデルは、様々な自然言語処理タスクで顕著な成功を収めているが、その命令追従能力を正確に評価することは依然として課題である。既存のベンチマークは主に、モデルが学習中に学んだ内容とよく一致する一般的な命令に焦点を当てている。しかし、これらの命令に対する熟練度は、必ずしも命令追従能力の強さを意味するものではない。本論文では、verbalizer manipulationと呼ばれる新しい命令追従評価プロトコルを提案する。これは、モデルにタスクラベルを、モデルの事前知識と異なる程度に一致する言葉で表現するよう指示するもので、高度に一致するverbalizer(例えば、肯定的な感情に対して「positive」を出力する)から、最小限に一致するverbalizer(例えば、肯定的な感情に対して「negative」を出力する)までを採用する。Verbalizer manipulationは、任意の分類ベンチマークにシームレスに統合でき、モデルが事前知識に依存する度合いや、それを上書きして正確に命令を追従する能力を検証することができる。我々は、4つの主要なモデルファミリーを9つのデータセットで包括的に評価し、それぞれに対して12セットのverbalizerを採用した。その結果、異なるファミリーや規模のモデル間で、命令追従能力は、より自然でないverbalizerに対するパフォーマンスによって大きく区別されることが観察された。最も強力なGPT-4モデルでさえ、最も挑戦的なverbalizerではランダムな推測を上回る性能を発揮することが難しく、命令追従能力を向上させるための継続的な進歩の必要性が強調された。