翻訳付きの日次キュレーションされたAI研究論文
GPT-4のようなプロプライエタリな言語モデル(LM)は、さまざまなLMからの応答品質を評価するためによく使用されます。しかし、透明性、制御性、そしてコスト面での懸念から、評価に特化したオープンソースLMの開発が強く求められています。一方、既存のオープンな評価用LMには重大な欠点があります:1)人間が付与するスコアと大きく乖離したスコアを出すこと、2)直接評価とペアワイズランキングという最も一般的な評価形式の両方を柔軟に実行できないことです。さらに、カスタム評価基準に基づいて評価する能力がなく、有用性や無害性といった一般的な属性に焦点を当てています。これらの問題を解決するため、我々はPrometheus 2を紹介します。これは前身モデルよりも強力な評価用LMであり、人間やGPT-4の判断に非常に近い評価を行います。さらに、ユーザー定義の評価基準と組み合わせた直接評価とペアワイズランキングの両方の形式を処理可能です。4つの直接評価ベンチマークと4つのペアワイズランキングベンチマークにおいて、Prometheus 2はテストされたすべてのオープン評価用LMの中で、人間やプロプライエタリなLMの評価者との最高の相関と一致を示しました。我々のモデル、コード、データはすべてhttps://github.com/prometheus-eval/prometheus-evalで公開されています。
Low Rank Adaptation (LoRA) は、大規模言語モデル (LLM) のパラメータ効率的なファインチューニング (PEFT) 手法として最も広く採用されている方法の一つとなっています。LoRA は、学習可能なパラメータ数とメモリ使用量を削減しながら、フルファインチューニングと同等の性能を達成します。本研究では、LoRA でファインチューニングされた LLM を実世界のアプリケーションでトレーニングおよび提供する際の実現可能性を評価することを目的としています。まず、10 のベースモデルと 31 のタスクに対して、合計 310 のモデルを量子化された低ランクアダプターでファインチューニングした場合の品質を測定します。その結果、4-bit LoRA でファインチューニングされたモデルは、ベースモデルを平均 34 ポイント、GPT-4 を平均 10 ポイント上回ることがわかりました。次に、ファインチューニングに最も効果的なベースモデルを調査し、タスクの複雑さに関するヒューリスティックがファインチューニングの結果を予測する際の相関性と予測能力を評価します。最後に、複数の LoRA ファインチューニングモデルを単一の GPU 上で共有ベースモデルの重みと動的アダプターローディングを使用して展開するためのオープンソースの Multi-LoRA 推論サーバーである LoRAX のレイテンシと並行処理能力を評価します。LoRAX は、LoRA Land を支える技術であり、LoRA Land は単一の NVIDIA A100 GPU(80GB メモリ)上で 25 の LoRA ファインチューニングされた Mistral-7B LLM をホストするウェブアプリケーションです。LoRA Land は、単一の汎用 LLM ではなく、複数の専門化された LLM を採用することの品質とコスト効率の高さを強調しています。
GPT-4やChatGPTなどのチャットボットは現在、数百万人のユーザーにサービスを提供しています。しかし、その広範な使用にもかかわらず、実際にこれらのツールがどのように使用されているかを示す公開データセットは不足しています。このギャップを埋めるため、私たちはオンラインユーザーにChatGPTの無料アクセスを提供し、その代わりにチャットの記録とリクエストヘッダーを匿名で収集するための同意を得ました。これにより、100万件のユーザーとChatGPTの会話からなるWildChatコーパスを構築しました。このコーパスは250万以上のインタラクションツーンで構成されています。WildChatを他の人気のあるユーザーとチャットボットのインタラクションデータセットと比較すると、私たちのデータセットは最も多様なユーザープロンプトを提供し、最も多くの言語を含み、研究者が研究するための潜在的に有害な使用例の最も豊富なバリエーションを提示しています。タイムスタンプ付きのチャット記録に加えて、州、国、ハッシュ化されたIPアドレス、リクエストヘッダーなどの人口統計データをデータセットに追加しました。この拡張により、異なる地理的領域や時間的次元にわたるユーザーの行動をより詳細に分析することが可能になります。最後に、広範な使用例を捕捉しているため、指示追従モデルのファインチューニングにおけるデータセットの潜在的な有用性を実証しました。WildChatは、AI2 ImpACTライセンスの下でhttps://wildchat.allen.aiで公開されています。
近年の拡散モデルに基づく生成モデルにおいて、特に被写体や複雑なディテールを含む一連の生成画像間で一貫性を維持することは、大きな課題となっています。本論文では、生成画像間の一貫性を大幅に向上させ、既存の事前学習済み拡散モデルをゼロショットで拡張する新しいセルフアテンション計算手法「Consistent Self-Attention」を提案します。さらに、長尺動画生成への適用を可能にするため、セマンティック空間における時間的モーションプレディクションモジュール「Semantic Motion Predictor」を新たに導入します。このモジュールは、2つの画像間のモーション条件をセマンティック空間で推定するように訓練され、生成された画像シーケンスを滑らかな遷移と一貫した被写体を持つ動画に変換します。特に長尺動画生成において、潜在空間のみに基づくモジュールよりも大幅に安定した結果を実現します。これら2つの新規コンポーネントを統合した我々のフレームワーク「StoryDiffusion」は、テキストベースのストーリーを、多様な内容を含む一貫性のある画像や動画で表現することができます。提案するStoryDiffusionは、画像と動画を用いた視覚的ストーリー生成における先駆的な探求を包含しており、アーキテクチャ変更の観点からさらなる研究を刺激することを期待しています。コードはhttps://github.com/HVision-NKU/StoryDiffusionで公開されています。
大規模言語モデル(LLM)を人間の価値観や嗜好に適合させることは、それらを有用かつ安全にするために不可欠です。しかし、特に数百億から数千億のパラメータを含む最大規模で最も有能なLLMに対して、適合を実行する効率的なツールを構築することは困難です。私たちは、数百のGPUを使用したトレーニングに効率的にスケールできるモデル適合のためのツールキット、NeMo-Alignerを作成しました。NeMo-Alignerは、人間のフィードバックからの強化学習(RLHF)、直接嗜好最適化(DPO)、SteerLM、自己対戦微調整(SPIN)といった主要なモデル適合パラダイムのための高度に最適化されスケーラブルな実装を提供します。さらに、私たちのツールキットは、ほとんどの適合技術をパラメータ効率的微調整(PEFT)設定で実行することをサポートしています。NeMo-Alignerは拡張性を考慮して設計されており、最小限の労力で他の適合技術をサポートすることが可能です。このツールキットはApache 2.0ライセンスでオープンソース化されており、コミュニティの貢献をhttps://github.com/NVIDIA/NeMo-Alignerで歓迎しています。
アライメントは、事前学習済みの大規模言語モデル(LLM)を微調整し、自然言語の指示に従わせて有用なAIアシスタントとして機能させるための標準的な手順です。しかし、従来のアライメントプロセスではLLMの事実の正確性が向上せず、むしろ虚偽の事実(すなわち、幻覚)の生成が増えることが観察されています。本論文では、アライメントプロセスをより事実に基づいたものにする方法を探るため、まず、教師あり微調整(SFT)と強化学習(RL)の両方のステップで幻覚を引き起こす要因を特定します。特に、LLMに新しい知識や馴染みのないテキストを学習させることが幻覚を助長することを発見しました。これは、SFTがLLMにとって新規である可能性のある人間によるラベル付きデータを学習するため、事実性を損なう原因となります。さらに、標準的なRLで使用される報酬関数も幻覚を助長する可能性があります。なぜなら、それはLLMに多様な指示に対してより有用な応答を提供するよう導き、しばしばより長く詳細な応答を好むためです。これらの観察に基づき、我々は事実性を意識したアライメントを提案します。これは、事実性を意識したSFTと、直接選好最適化を通じた事実性を意識したRLで構成されます。実験結果は、提案された事実性を意識したアライメントが、指示に従う能力を維持しながら、LLMにより事実に基づいた応答を出力させることを示しています。
アートの再解釈とは、参照作品のバリエーションを作成し、明確な芸術的スタイルを示すペアとなる作品を制作する実践です。本研究では、そのような画像ペアを用いて生成モデルをカスタマイズし、示されたスタイルの違いを捉えることができるかどうかを検討します。我々は、単一の画像ペアからスタイルの違いを学習し、その獲得したスタイルを生成プロセスに適用する新しいカスタマイズ手法「Pair Customization」を提案します。既存の手法が画像の集合から単一の概念を模倣するのに対し、本手法はペアとなった画像間のスタイルの違いを捉えます。これにより、例示された特定の画像内容に過剰適合することなく、スタイルの変化を適用することが可能になります。この新しいタスクに対処するため、我々はスタイルとコンテンツを異なるLoRA重み空間に明示的に分離する共同最適化手法を採用します。これらのスタイルとコンテンツの重みを最適化し、スタイルとコンテンツの画像を再現すると同時に、それらの直交性を促進します。推論時には、学習した重みに基づく新しいスタイルガイダンスを介して拡散プロセスを修正します。定性的および定量的な実験の結果、本手法が画像内容に過剰適合することなく効果的にスタイルを学習できることが示され、単一の画像ペアからそのようなスタイルの違いをモデル化する可能性が浮き彫りになりました。
オーディオディスクリプション(AD)の開発は、映像コンテンツをよりアクセシブルで包括的なものにする上で重要な一歩となっています。従来、ADの制作には相当な熟練労働が必要とされ、既存の自動化手法においても、マルチモーダル入力を統合し、キャプション形式からAD形式へ出力を調整するために大規模なトレーニングが依然として必要でした。本論文では、GPT-4V(ision)の強力なマルチモーダル能力と指示追従能力を活用した自動AD生成パイプラインを紹介します。特に、私たちの手法は追加のトレーニングを必要とせず、既存のコンポーネントを利用します。これにより、確立された自然言語AD制作基準に準拠し、トラッキングベースのキャラクター認識モジュールのおかげでフレーム間で文脈的に一貫したキャラクター情報を維持するADを生成します。MADデータセットでの詳細な分析により、私たちのアプローチは自動AD制作において学習ベースの手法と同等の性能を達成し、CIDErスコア20.5で裏付けられています。