翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの発展は、研究者の間でその内在的な推論能力と問題解決能力を理解することに対する広範な関心を呼び起こしました。これらの能力を解明するための研究が多く行われているにもかかわらず、これらのモデルの道徳的発達と判断に関する理解には依然として大きな隔たりが存在します。現在のアプローチでは、これらのモデルの倫理的推論能力を分類タスクとして評価する際に、過度の単純化により多くの不正確さが生じています。本研究では、人間の心理学とAIという二つの異なる分野を結びつけることで心理学的な接点を構築しました。私たちは、心理測定評価ツールである「Defining Issues Test」を活用し、道徳的一貫性とコールバーグの道徳的発達段階に基づいてモデルの倫理的推論能力を評価する効果的なフレームワークを提案しました。
近年のテキストからビデオ(T2V)生成手法は大きな進歩を遂げているが、これらの研究の多くは、単一の背景を持つ単一のイベントの短いビデオクリップ(つまり、単一シーンのビデオ)の生成に焦点を当てている。一方、最近の大規模言語モデル(LLM)は、画像生成モデルなどの下流の視覚モジュールを制御するためのレイアウトやプログラムを生成する能力を示している。これにより、重要な疑問が浮かび上がる:これらのLLMに埋め込まれた知識を活用して、時間的に一貫した長いビデオを生成することは可能か?本論文では、LLMの知識を活用したビデオコンテンツの計画とグラウンディングされたビデオ生成のための新しいフレームワーク、VideoDirectorGPTを提案する。具体的には、単一のテキストプロンプトが与えられた場合、まずビデオプランナーLLM(GPT-4)にそれを「ビデオプラン」に拡張するよう依頼する。これには、シーンの説明、それぞれのレイアウトを持つエンティティ、各シーンの背景、およびエンティティと背景の一貫性グループの生成が含まれる。次に、このビデオプランナーの出力に基づいて、ビデオジェネレータであるLayout2Vidは、空間レイアウトを明示的に制御し、シーン間でエンティティ/背景の時間的一貫性を維持することができる。これは、画像レベルのアノテーションのみでトレーニングされているにもかかわらず実現される。実験結果は、VideoDirectorGPTフレームワークが、単一シーンおよび複数シーンのビデオ生成におけるレイアウトと動きの制御を大幅に改善し、シーン間で視覚的一貫性を持つ複数シーンのビデオを生成できることを示している。また、オープンドメインの単一シーンT2V生成において、SOTAと競争力のある性能を達成している。さらに、本フレームワークは、レイアウトガイダンスの強度を動的に制御することができ、ユーザー提供の画像を使用してビデオを生成することもできる。本フレームワークが、LLMの計画能力を一貫した長いビデオ生成に統合するための将来の研究にインスピレーションを与えることを期待している。
大規模マルチモーダルモデル(LMM)は複数のモダリティにまたがって構築されており、2つのモダリティ間の不整合は「幻覚」を引き起こし、文脈内のマルチモーダル情報に基づかないテキスト出力を生成する可能性があります。このマルチモーダル不整合問題に対処するため、テキスト領域で用いられる人間のフィードバックからの強化学習(RLHF)を視覚と言語の整合タスクに適用します。ここでは、人間のアノテーターが2つの応答を比較し、より幻覚的なものを特定し、視覚言語モデルはシミュレートされた人間の報酬を最大化するように訓練されます。我々は、Factually Augmented RLHFと呼ばれる新しい整合アルゴリズムを提案します。このアルゴリズムは、画像キャプションや正解の多肢選択肢などの追加の事実情報で報酬モデルを拡張し、RLHFにおける報酬ハッキング現象を軽減し、さらに性能を向上させます。また、GPT-4が生成したトレーニングデータ(視覚指示チューニング用)を、以前から利用可能だった人間が書いた画像テキストペアで強化し、モデルの汎用能力を向上させます。提案手法を現実世界のシナリオで評価するため、幻覚を特に罰する新しい評価ベンチマークMMHAL-BENCHを開発しました。RLHFで訓練された最初のLMMとして、我々のアプローチはLLaVA-Benchデータセットで顕著な改善を達成し、テキストのみのGPT-4の94%の性能レベル(以前の最良の手法は87%レベルしか達成できなかった)に到達し、MMHAL-BENCHでは他のベースラインよりも60%の改善を実現しました。我々は、コード、モデル、データをhttps://llava-rlhf.github.ioで公開しています。
既存のマルチモーダルモデルの多くは、複数画像を含む多ラウンド対話における画像とテキストの交互入力を適切に処理する能力の欠如に阻まれ、トレーニングのリソース配分やデータアクセシビリティに大きな制約を抱えています。これにより、さまざまなインタラクション領域における適応性とスケーラビリティが影響を受けています。この課題に対処するため、我々はDeepSpeed-VisualChatフレームワークを提案します。このフレームワークは、大規模言語モデル(LLMs)を最適化し、特に大規模視覚と言語モデルが交互入力を処理する能力を向上させることに焦点を当てています。我々のフレームワークは、(1) 多ラウンドおよび複数画像対話のオープンソースサポート、(2) 革新的なマルチモーダル因果的注意メカニズムの導入、(3) 既存データセットに対するデータブレンディング技術の活用により、多ラウンド・複数画像会話におけるシームレスなインタラクションを保証する点で特筆されます。既存のフレームワークと比較して、DeepSpeed-VisualChatは70Bパラメータの言語モデルサイズまで優れたスケーラビリティを示し、マルチモーダル言語モデルにおける重要な進歩を表し、将来の探求のための堅固な基盤を築いています。
大規模なTransformerベースのモデルを訓練したチームは、小規模での訓練では現れなかった訓練の不安定性が大規模で現れると報告しています。このような不安定性の原因は科学的に興味深いものですが、それらを再現するために必要なリソースの量が調査を困難にしています。本研究では、小規模で訓練の安定性と不安定性を再現し、研究する方法を探ります。まず、先行研究で説明されている訓練不安定性の2つの原因に焦点を当てます:アテンション層におけるロジットの増大(Dehghani et al., 2023)と、出力ロジットが対数確率から乖離すること(Chowdhery et al., 2022)。学習率と損失の関係をスケール間で測定することで、これらの不安定性は高学習率で訓練する場合に小規模モデルでも現れ、大規模で用いられた緩和策がこの領域でも同様に有効であることを示します。これにより、他の既知のオプティマイザやモデルの介入が最終的な損失の学習率変化に対する感度にどの程度影響を与えるかを調査することを促します。この目的のために、ウォームアップ、重み減衰、muParam(Yang et al., 2022)などの方法を研究し、学習率の変動幅が数桁にわたっても同様の損失を達成する小規模モデルを訓練するために技術を組み合わせます。最後に、探索を締めくくるために、モデルの活性化と勾配ノルムのスケーリング挙動を調べることで、不安定性が現れる前に予測できる2つのケースを研究します。
大規模言語モデル(LLM)は、フィードバックに基づいて出力を反復的に洗練・修正することで、さまざまなタスクにおける精度を向上させることができます。しかし、これらの修正が誤りを導入する場合があり、その際は以前の結果に戻す方が良いことが観察されています。さらに、修正は通常均質的であり、初期の回答を生成したのと同じ推論方法を使用するため、誤りを正せない可能性があります。この領域の探求を可能にするため、我々はSCREWSという、修正を伴う推論のためのモジュール型フレームワークを提案します。SCREWSは、サンプリング、条件付き再サンプリング、選択の3つの主要モジュールで構成され、各モジュールはタスクごとに手動で選択可能なサブモジュールを含んでいます。SCREWSは、既存の複数のアプローチを共通のフレームワークの下に統合するだけでなく、改善された推論チェーンを特定するためのいくつかの新しい戦略を明らかにします。我々は、最先端のLLM(ChatGPTとGPT-4)を用いて、多様な推論タスク(算数の文章題、マルチホップ質問応答、コードデバッグ)に対してこのフレームワークを評価し、それぞれに有用な新しい推論戦略を発見しました。異質な修正戦略が重要であること、また、元の候補と修正された候補の間での選択が重要であることが明らかになりました。
大規模言語モデル(LLM)の言語モデリングと創発能力における最近の進展により、これらは自然言語生成の品質を評価するための参照不要な評価ツールとして有望であり、人間による評価の有能な代替手段となっています。しかし、クローズドソースであることやホストおよびチューニングに高い計算リソースを要することから、既存のLLMベースの評価ツールを人間の判断にさらに適合させるための実践が不足しています。本研究では、AutoCalibrateを提案します。これは、LLMベースの評価ツールを自動的に較正し、人間の選好に合わせるための多段階の勾配不要なアプローチです。人間の選好を明示的にモデル化する代わりに、まずそれらを人間のラベルセットに暗黙的に包含します。次に、言語モデル自体が、少数の例を用いたインコンテキスト学習を活用して、初期の評価基準セットを作成します。この基準セットをさらに較正するために、最良のパフォーマンスを示すものを選択し、自己改良を通じて再作成します。複数のテキスト品質評価データセットでの実験により、較正を通じて専門家の評価との相関が大幅に向上することが示されました。また、包括的な定性分析を通じて、効果的な評価基準の本質に関する洞察と観察が得られました。
長い動画を章に分割することで、ユーザーは興味のある情報に素早くナビゲートできるようになります。この重要なトピックは、公開されたデータセットの不足により十分に研究されてきませんでした。この問題を解決するため、私たちは817Kのユーザーが章分けした動画を含む合計7Mの章からなるVidChapters-7Mデータセットを提示します。VidChapters-7Mは、ユーザーが注釈を付けた章をスクレイピングすることで、追加の手動注釈なしにオンライン動画から自動的かつスケーラブルに作成されています。このデータに基づいて、以下の3つのタスクを紹介します。まず、動画章生成タスクは、動画を時間的に分割し、各セグメントの章タイトルを生成するものです。この問題をさらに分析するため、このタスクの2つのバリエーションも定義します。1つは、正解の境界が与えられた場合の動画章生成で、注釈付きの動画セグメントが与えられた場合に章タイトルを生成するものです。もう1つは、動画章グラウンディングで、注釈付きの章タイトルが与えられた場合にその章を時間的に特定するものです。これら3つのタスクに対して、シンプルなベースラインと最先端のビデオ言語モデルをベンチマークします。また、VidChapters-7Mでの事前学習が、ゼロショット設定とファインチューニング設定の両方で、高密度動画キャプショニングタスクにうまく転移し、YouCook2とViTTベンチマークでの最先端の性能を大幅に向上させることも示します。最後に、私たちの実験は、下流タスクの性能が事前学習データセットのサイズに応じてうまくスケールすることを明らかにしています。私たちのデータセット、コード、モデルはhttps://antoyang.github.io/vidchapters.htmlで公開されています。