翻訳付きの日次キュレーションされたAI研究論文
GPT-4のような専有言語モデルは、様々な言語モデルの応答品質を評価するためによく用いられています。しかし、透明性、制御性、コスト効率といった懸念から、評価に特化したオープンソース言語モデルの開発が強く求められています。一方、既存のオープンソース評価モデルには重大な欠点があります:1)人間が付与するスコアと大きく乖離した評価を下す、2)評価の二大形式である直接評価とペアワイズ比較の両方を柔軟に実行できない点です。さらに、有用性や無害性といった一般的属性に焦点を当てるだけで、カスタム評価基準に基づく評価能力を備えていません。これらの課題を解決するため、我々は前身モデルを上回る性能を持つ評価言語モデルPrometheus 2を提案します。本モデルは人間とGPT-4の判断を忠実に再現し、ユーザー定義の評価基準と組み合わせた直接評価とペアワイズ比較の両方の形式を処理可能です。4つの直接評価ベンチマークと4つのペアワイズ比較ベンチマークにおいて、Prometheus 2は全てのオープンソース評価モデルの中で、人間および専有言語モデル評価者との最高の相関性と一致率を示しました。当モデル、コード、データは全てhttps://github.com/prometheus-eval/prometheus-eval で公開しています。
Low Rank Adaptation (LoRA) は、大規模言語モデル (LLM) のパラメータ効率型ファインチューニング (PEFT) 手法として最も広く採用されている方法の1つとして登場しました。LoRAは、フルファインチューニングと同等の性能を達成しながら、学習可能なパラメータ数とメモリ使用量を削減します。本研究では、LoRAでファインチューニングされたLLMを実世界のアプリケーションで学習およびサービス提供することの実現可能性を評価することを目的としています。まず、量子化された低ランクアダプタでファインチューニングされたLLMの品質を、10のベースモデルと31のタスク、合計310モデルにわたって測定します。その結果、4ビットLoRAファインチューニングモデルは、ベースモデルを平均34ポイント、GPT-4を平均10ポイント上回る性能を示すことがわかりました。次に、ファインチューニングに最も効果的なベースモデルを調査し、タスク複雑性のヒューリスティックがファインチューニング結果を予測するための相関能力および予測能力を評価します。最後に、LoRAXのレイテンシと並行処理能力を評価します。LoRAXはオープンソースのマルチLoRA推論サーバーであり、共有ベースモデル重みと動的アダプタ読み込みを用いて、単一GPU上で複数のLoRAファインチューニングモデルのデプロイを可能にします。LoRAXはLoRA Landを支える技術であり、これは25のLoRAファインチューニングされたMistral-7B LLMを、メモリ80GBの単一のNVIDIA A100 GPU上でホストするウェブアプリケーションです。LoRA Landは、単一の汎用LLMを使用するよりも、複数の専門特化したLLMを採用することの品質とコスト効率の高さを実証しています。
GPT-4やChatGPTなどのチャットボットは現在、数百万人のユーザーにサービスを提供しています。しかし、その広範な利用にもかかわらず、実際のユーザー集団によるこれらのツールの使用方法を示す公開データセットは依然として不足しています。この隔たりを埋めるため、私たちはオンラインユーザーにChatGPTの無料アクセスを提供し、その代償としてユーザーからの肯定的かつ合意に基づくオプトインにより、チャット記録とリクエストヘッダーを匿名収集する許可を得ました。これにより、100万件のユーザーとChatGPTの対話からなるWildChatコーパスを構築しました。このデータセットは250万以上のインタラクションターンを含みます。WildChatを他の一般的なユーザー対チャットボット対話データセットと比較すると、当データセットが最も多様なユーザープロンプトを提供し、最多の言語数を包含し、研究者が調査するための潜在的有害使用ケースの最も豊かなバリエーションを提示することがわかります。 タイムスタンプ付きチャット記録に加えて、当データセットには州・国・ハッシュ化IPアドレスといった人口統計データとリクエストヘッダーを付加しています。この拡張により、異なる地理的領域や時間軸にわたるユーザー行動のより詳細な分析が可能となります。最後に、広範な使用ケースを捕捉しているため、指示追従モデルのファインチューニングにおける当データセットの潜在的有用性を実証します。WildChatはhttps://wildchat.allen.ai でAI2 ImpACTライセンスの下で公開されています。
近年の拡散モデルに基づく生成モデルにおいて、一連の生成画像間で内容の一貫性を維持すること、特に被写体や複雑な詳細を含む場合には、大きな課題となっています。本論文では、新たなセルフアテンション計算手法「Consistent Self-Attention」を提案します。この手法は、生成画像間の一貫性を大幅に向上させ、広く利用されている事前学習済み拡散ベースのテキスト画像生成モデルをゼロショット方式で強化します。 長尺の動画生成へ本手法を拡張するため、さらに新しい意味空間における時間的モーション予測モジュール「Semantic Motion Predictor」を導入します。このモジュールは、2枚の入力画像間のモーション条件を意味空間で推定するように訓練されており、生成された一連の画像を、滑らかな遷移と一貫した被写体を持つ動画に変換します。特に長尺動画生成において、潜在空間のみに基づくモジュールよりも大幅に安定した結果を得られます。 これら二つの新規コンポーネントを統合した我々のフレームワーク「StoryDiffusion」は、テキストベースのストーリーを、多様な内容を含む一貫性のある画像や動画で表現することが可能です。提案するStoryDiffusionは、画像と動画による視覚的ストーリー生成における先駆的な探求を含んでおり、アーキテクチャ変更の観点からさらなる研究を促進することを期待します。コードはhttps://github.com/HVision-NKU/StoryDiffusion で公開しています。
大規模言語モデル(LLM)を人間の価値観や選好に適合させることは、モデルを有用かつ安全にするために不可欠です。しかし、特に数百億から数千億のパラメータを含む大規模で高性能なLLMの場合、適合化を行う効率的なツールの構築は困難な課題となります。本研究では、数百GPUを用いた学習に効率的にスケール可能なモデル適合化ツールキット「NeMo-Aligner」を開発しました。NeMo-Alignerは、人間フィードバック強化学習(RLHF)、直接選好最適化(DPO)、SteerLM、自己対戦ファインチューニング(SPIN)といった主要なモデル適合化パラダイムの、高度に最適化されスケーラブルな実装を提供します。さらに、本ツールキットは大半の適合化技術をパラメータ効率型ファインチューニング(PEFT)設定で実行することをサポートしています。NeMo-Alignerは拡張性を重視して設計されており、最小限の労力で他の適合化技術のサポートを追加可能です。Apache 2.0ライセンスの下でオープンソース化されており、https://github.com/NVIDIA/NeMo-Aligner にてコミュニティの貢献を歓迎します。
アライメントは、事前学習済み大規模言語モデル(LLM)を自然言語指示に従う有用なAIアシスタントとして調整する標準的な手順である。しかし我々は、従来のアライメント手法ではLLMの事実正確性が向上せず、むしろ虚偽の事実(すなわち幻覚)の生成が増加する傾向にあることを観察した。本論文では、アライメントの二段階(教師ありファインチューニング: SFT と強化学習: RL)において幻覚生成を引き起こす要因を特定し、LLMアライメントプロセスをより事実に基づいたものにする方法を検討する。特に、新しい知識やLLMにとって不慣れなテキストでの学習が幻覚を促進することを発見した。これはSFTにおいて、LLMにとって未経験の可能性がある人間によるラベル付きデータで学習を行うため、事実性が低下する原因となる。さらに、標準的なRLで使用される報酬関数も、多様な指示に対してより詳細で長い回答を好む傾向があるため、幻覚を助長し得る。これらの観察に基づき、我々は事実性を考慮したアライメント手法を提案する。これは、直接選好最適化による事実性考慮型SFTと事実性考慮型RLで構成される。実験結果から、提案手法が指示追従能力を維持しつつ、より事実に基づいた回答を出力するようにLLMを導くことが示された。
音声解説(AD)の開発は、映像コンテンツのアクセシビリティと包括性を高める上で画期的な一歩となってきました。従来、ADの制作には相当量の熟練労働力が必要とされ、既存の自動化手法においても、マルチモーダル入力を統合し、キャプション形式からAD形式へ出力を調整するために大規模な学習が依然として必要とされています。本論文では、GPT-4V(ision)の強力なマルチモーダル能力と指示追従能力を活用した自動AD生成パイプラインを提案します。特筆すべきは、当手法が既存の構成要素を利用するため追加の学習を必要とせず、確立された自然言語AD制作基準に準拠するだけでなく、追跡型人物認識モジュールによりフレーム間で文脈的に一貫した人物情報を維持するADを生成できる点です。MADデータセットを用いた詳細な分析により、本手法が自動AD制作において学習ベースの手法と同等の性能(CIDErスコア20.5)を達成することが実証されました。
芸術的再解釈とは、参照作品に基づいたバリエーションを作成し、明確な芸術的スタイルを示す対をなす作品を生み出す実践である。本研究では、このような画像ペアを用いて、示されたスタイルの差異を捉えるために生成モデルをカスタマイズできるかどうかを問う。我々は「Pair Customization」という新しいカスタマイズ手法を提案する。これは単一の画像ペアからスタイル的差異を学習し、獲得したスタイルを生成プロセスに適用するものである。画像コレクションから単一の概念を模倣するように学習する既存手法とは異なり、本手法は対をなす画像間のスタイル的差異を捉える。これにより、事例における特定の画像内容への過剰適合を避けつつ、スタイル的変化を適用することが可能となる。この新たな課題に対処するため、スタイルとコンテンツを異なるLoRA重み空間に明示的に分離する共同最適化手法を採用する。これらのスタイル重みとコンテンツ重みを最適化し、スタイル画像とコンテンツ画像を再現すると同時に、それらの直交性を促進する。推論時には、学習された重みに基づく新しいスタイルガイダンスによって拡散プロセスを修正する。定性的・定量的な実験の両方において、本手法が画像内容への過剰適合を回避しつつ効果的にスタイルを学習できることを示し、単一の画像ペアからこのようなスタイル的差異をモデル化する可能性を浮き彫りにする。