翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は近年、さまざまなタスクにおいて前例のない性能を達成するために大きな進歩を遂げてきました。しかし、商業的な関心から、GPT、Gemini、Claudeなどの最も競争力のあるモデルは、トレーニングの詳細を開示することなく、独自のインターフェースの背後に閉ざされています。最近では、多くの機関がLLaMA-3などの強力なLLMsをオープンソース化し、既存のクローズドソースLLMsに匹敵する性能を実現しています。しかし、提供されるのはモデルの重みだけで、中間チェックポイント、事前学習コーパス、トレーニングコードなどの詳細のほとんどは非公開のままです。LLMsの透明性を向上させるために、研究コミュニティは真にオープンなLLMs(例:Pythia、Amber、OLMo)をオープンソース化することを目指しており、事前学習コーパスやトレーニングコードなどの詳細が提供されています。これらのモデルは、これらの大規模モデルの強み、弱み、バイアス、リスクを含む科学的な研究を大きく進展させました。しかし、既存の真にオープンなLLMsは、推論、知識、コーディングタスクにおいて、同規模の最先端LLMsに比べてまだ劣っていることが観察されます。この目的のために、私たちはMAP-Neoをオープンソース化しました。これは、4.5Tの高品質トークンからスクラッチでトレーニングされた、7Bパラメータの高度な能力と透明性を備えたバイリンガル言語モデルです。私たちのMAP-Neoは、既存の最先端LLMsと同等の性能を発揮する、初の完全オープンソースのバイリンガルLLMです。さらに、MAP-Neoを再現するためのすべての詳細をオープンソース化しており、クリーンな事前学習コーパス、データクリーニングパイプライン、チェックポイント、最適化されたトレーニング/評価フレームワークが提供されています。最後に、私たちのMAP-Neoがオープン研究コミュニティを強化し、LLMsのさらなる改善を促進するためのより多くのイノベーションと創造性を刺激することを願っています。
人間のフィードバックからの強化学習(RLHF)を介した選好最適化は、大規模言語モデル(LLM)を人間の意図に沿わせることに大きな成功を収めてきました。固定データセットを用いたオフラインアライメントとは異なり、モデルの生成に対して人間やAIからオンラインでフィードバックを収集するプロセスは、通常、より優れた報酬モデルとより良くアライメントされたLLMを反復的に生み出します。しかし、グローバルに正確な報酬モデルを達成するためには、自然言語の広大な空間をカバーする多様な応答を生成するための体系的な探索が必要です。標準的な報酬最大化LLMからのランダムサンプリングだけでは、この要件を満たすには不十分です。この問題に対処するため、我々は、分布外領域を積極的に探索するために、潜在的に高報酬な応答に対して楽観的にバイアスをかけた二段階目的関数を提案します。再パラメータ化された報酬関数を用いて内側の問題を解くことで、別個の報酬モデル(RM)を必要とせず、単純な目的関数でLLMを反復的に更新する「自己探索型言語モデル(SELM)」というアルゴリズムを導出します。直接選好最適化(DPO)と比較して、SELMの目的関数は、未見の外挿を無差別に偏重することを減らし、探索効率を向上させます。我々の実験結果は、Zephyr-7B-SFTおよびLlama-3-8B-Instructモデルに対してファインチューニングを行った場合、SELMがMT-BenchやAlpacaEval 2.0などの指示追従ベンチマーク、および様々な設定における標準的な学術ベンチマークにおいて、性能を大幅に向上させることを示しています。コードとモデルはhttps://github.com/shenao-zhang/SELMで公開されています。
拡散ベースのテキストからビデオ(T2V)生成モデルは大きな成功を収めているものの、反復的なサンプリングプロセスの遅い速度が依然として課題となっています。この課題に対処するため、高速な推論を可能にする一貫性モデルが提案されていますが、サンプル品質の低下という代償を伴います。本研究では、ビデオ一貫性モデル(VCM)の品質ボトルネックを打破し、高速かつ高品質なビデオ生成を実現することを目指します。我々は、事前学習済みのT2Vモデルの一貫性蒸留(CD)プロセスに、微分可能な報酬モデルの混合からのフィードバックを統合したT2V-Turboを提案します。特に、CD損失の計算に自然に伴う単一ステップ生成に関連する報酬を直接最適化することで、反復サンプリングプロセスを通じた勾配の逆伝播に伴うメモリ制約を効果的に回避します。注目すべきは、我々のT2V-Turboによる4ステップ生成が、VBenchにおいて最高の総合スコアを達成し、Gen-2やPikaを凌駕したことです。さらに、人間による評価を実施し、T2V-Turboの4ステップ生成が、教師モデルの50ステップDDIMサンプルよりも好まれることを確認しました。これは、ビデオ生成品質を向上させながら、10倍以上の高速化を実現したことを示しています。
本論文では、大規模言語モデル(LLM)が高次の心の理論(Theory of Mind, ToM)をどの程度発達させているかを検証する。ToMとは、人間が複数の精神的・感情的な状態を再帰的に推論する能力のことである(例:私は、あなたが彼女が知っていると信じていると思う)。本論文は、先行研究を基に、手書きのテストスイート「Multi-Order Theory of Mind Q&A」を導入し、それを用いて5つのLLMの性能を新たに収集した成人のベンチマークと比較する。その結果、GPT-4とFlan-PaLMはToMタスク全体で成人レベルまたはそれに近い性能を達成し、GPT-4は6次推論において成人の性能を上回ることがわかった。我々の結果は、ToM能力の実現にはモデルサイズとファインチューニングの相互作用があり、最高性能のLLMはToMの一般化された能力を発達させていることを示唆している。高次のToMが多様な協力的・競争的人間行動において果たす役割を考えると、これらの発見はユーザー向けLLMアプリケーションにとって重要な意味を持つ。
The dominant framework for alignment of large language models (LLM), whether through reinforcement learning from human feedback or direct preference optimisation, is to learn from preference data. This involves building datasets where each element is a quadruplet composed of a prompt, two independent responses (completions of the prompt) and a human preference between the two independent responses, yielding a preferred and a dis-preferred response. Such data is typically scarce and expensive to collect. On the other hand, single-trajectory datasets where each element is a triplet composed of a prompt, a response and a human feedback is naturally more abundant. The canonical element of such datasets is for instance an LLM's response to a user's prompt followed by a user's feedback such as a thumbs-up/down. Consequently, in this work, we propose DRO, or Direct Reward Optimisation, as a framework and associated algorithms that do not require pairwise preferences. DRO uses a simple mean-squared objective that can be implemented in various ways. We validate our findings empirically, using T5 encoder-decoder language models, and show DRO's performance over selected baselines such as Kahneman-Tversky Optimization (KTO). Thus, we confirm that DRO is a simple and empirically compelling method for single-trajectory policy optimisation.
大規模言語モデル(LLM)は、しばしば幻覚を起こし、生成内容の出典を提示する能力に欠けることがあります。kNN-LMのような半パラメトリック言語モデルは、非パラメトリックなデータストア内での最近傍マッチングを用いて、与えられたプロンプトに対するLMの出力を改善することで、これらの制限にアプローチします。しかし、これらのモデルは推論速度が遅く、非流暢なテキストを生成することが多いです。本論文では、Nearest Neighbor Speculative Decoding(NEST)を紹介します。これは、現実世界の任意の長さのテキストスパンをLMの生成に組み込み、その出典を提示できる新しい半パラメトリック言語モデリング手法です。NESTは、各推論ステップでトークンレベルの検索を行い、半パラメトリックな混合分布を計算し、コーパス内で有望なスパン継続を特定します。その後、検索されたスパンのプレフィックスを受け入れるか、新しいトークンを生成する近似推測デコーディング手順を使用します。NESTは、様々な知識集約型タスクにおいて、ベースLMの生成品質と出典提示率を大幅に向上させ、従来のkNN-LM手法を凌駕し、コンテキスト内検索拡張と競争力のある性能を発揮します。さらに、NESTは生成速度を大幅に改善し、Llama-2-Chat 70Bに適用した場合、推論時間で1.8倍の高速化を達成します。
本論文では、Transformerアーキテクチャの力を活用して高性能な結果を実現するビデオ生成の先進的手法であるEasyAnimateを紹介します。我々は、2D画像合成用に設計されたDiTフレームワークを拡張し、モーションモジュールブロックを組み込むことで、3Dビデオ生成の複雑さに対応しました。このモジュールは時間的ダイナミクスを捉えるために使用され、一貫したフレームとシームレスなモーション遷移を保証します。モーションモジュールは、さまざまなDiTベースラインメソッドに適応可能で、異なるスタイルのビデオを生成することができます。また、トレーニングと推論の両フェーズで異なるフレームレートと解像度のビデオを生成することができ、画像とビデオの両方に適しています。さらに、時間軸を凝縮する新しいアプローチであるスライスVAEを導入し、長時間のビデオ生成を容易にします。現在、EasyAnimateは144フレームのビデオを生成する能力を示しています。我々は、データ前処理、VAEトレーニング、DiTモデルのトレーニング(ベースラインモデルとLoRAモデルの両方)、およびエンドツーエンドのビデオ推論を含む、DiTに基づくビデオ制作の包括的なエコシステムを提供します。コードはhttps://github.com/aigc-apps/EasyAnimateで公開されています。我々は、この手法の性能を向上させるために継続的に取り組んでいます。
複数の生成基盤モデル、特に異なるモダリティで学習されたモデルを統合し、その部分の総和を超える何かを実現することは、大きな課題を伴います。主な障壁として、アラインメントされたデータ(異なるモダリティで異なる表現を持つが、類似した意味を含む概念)の可用性、およびクロスドメイン生成タスクにおいて単一モダリティ表現を効果的に活用しつつ、元の単一モダリティ能力を損なわないことが挙げられます。 我々は、これらの課題に対処するため、独立して事前学習された単一モダリティデコーダをクロスアテンションを用いて柔軟に組み合わせるマルチタワーデコーダアーキテクチャ「Zipper」を提案します。音声とテキストのモダリティを融合する実験において、提案されたアーキテクチャが、アラインメントされたテキスト-音声データが限られたシナリオでも非常に競争力のある性能を発揮することを示します。また、対応するモダリティタワー(例:テキスト)を凍結することで、単一モダリティ(例:テキストからテキストへの生成)の生成性能を選択的に維持するモデルの柔軟性も実証します。自動音声認識(ASR)のような出力モダリティがテキストであるクロスモーダルタスクでは、テキストバックボーンを凍結しても性能の低下がほとんどないことを示します。テキストから音声生成(TTS)のような出力モダリティが音声であるクロスモーダルタスクでは、事前学習された音声バックボーンを使用することでベースラインを上回る性能を達成することを示します。
高精細なデジタル版の人間の頭部を作成することは、仮想コンポーネントを日常生活にさらに統合するプロセスにおける重要なステップです。このようなアバターの構築は、フォトリアリズムとリアルタイムレンダリング性能に対する高い要求のため、挑戦的な研究課題です。本研究では、マルチビュービデオ記録から高精細で制御可能なアバターを作成するデータ駆動型アプローチとして、Neural Parametric Gaussian Avatars(NPGA)を提案します。私たちの手法は、非常に効率的なレンダリングとポイントクラウドのトポロジー的柔軟性を継承するために、3D Gaussian Splattingを基盤としています。従来の研究とは対照的に、私たちはアバターのダイナミクスを、メッシュベースの3DMMではなく、ニューラルパラメトリックヘッドモデル(NPHM)の豊かな表情空間に基づいて条件付けます。この目的のために、基盤となるNPHMの逆変形場を、ラスタライゼーションベースのレンダリングと互換性のある順変形に蒸留します。残りの微細な表情依存の詳細は、マルチビュービデオから学習されます。アバターの表現能力を向上させるために、動的挙動を制御するプリミティブごとの潜在特徴を使用して、正準ガウスポイントクラウドを拡張します。この増加した動的表現力を正則化するために、潜在特徴と予測されたダイナミクスに対するラプラシアン項を提案します。私たちの手法を公開データセットNeRSembleで評価し、NPGAが自己再現タスクにおいて従来の最先端アバターを2.6 PSNRで大幅に上回ることを示します。さらに、実世界の単眼ビデオからの正確なアニメーション能力を実証します。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の好みに合わせる上で大きな可能性を示しています。好みデータの可用性に応じて、オンラインおよびオフラインのRLHFが活発に研究されています。重要な課題は、好みデータがどのように収集されたかにかかわらず、RLHFのために好みデータから学習された報酬関数に不確実性推定を組み込む方法を理解することです。不確実性下での楽観主義または悲観主義の原則は標準的な強化学習(RL)では確立されていますが、大規模言語モデルに適した実用的かつ理論的に裏付けられた形式はまだ利用できません。これは、任意のポリシーパラメータ化の下では、信頼区間を構築する標準的な手法が扱いにくくなるためです。 本論文では、オンラインおよびオフラインRLHFに対する統一的なアプローチとして、価値誘導型選好最適化(VPO)を提案します。VPOは、報酬関数の最尤推定を対応する価値関数で正則化し、楽観主義または悲観主義の選択を示す符号で調整します。VPOはまた、暗黙的な報酬モデリングを通じて直接ポリシーを最適化するため、直接選好最適化と同様のシンプルなRLHFパイプラインを共有します。VPOの理論的保証は、オンラインおよびオフラインの設定で提供され、標準RLの対応するレートと一致します。さらに、テキスト要約と対話に関する実験により、VPOの実用性と有効性が検証されています。
音響コンテンツは、ビデオゲーム、音楽、映画などのマルチメディア作品において不可欠な要素です。近年の高品質な拡散ベースの音響生成モデルは、クリエイターにとって貴重なツールとなり得ます。しかし、これらのモデルは高品質な音を生成する一方で、推論速度が遅いという課題を抱えています。この欠点は、クリエイターが試行錯誤を重ねて音を調整し、自身の芸術的意図に合わせる際に負担となります。この問題を解決するため、我々はSound Consistency Trajectory Models (SoundCTM)を提案します。本モデルは、高品質な1ステップ音響生成と、マルチステップ生成による優れた音質との間を柔軟に移行することを可能にします。これにより、クリエイターは最初に1ステップサンプルで音を制御し、その後マルチステップ生成で調整することができます。CTMは基本的に柔軟な1ステップおよびマルチステップ生成を実現しますが、その優れた性能は、追加の事前学習済み特徴抽出器と敵対的損失に大きく依存しており、これらは学習コストが高く、他の領域では常に利用可能とは限りません。そこで、我々はCTMの学習フレームワークを再構築し、教師ネットワークを活用した蒸留損失のための新たな特徴距離を導入します。さらに、分類器不要ガイド付き軌道を蒸留する際に、条件付きと無条件の学生モデルを同時に学習し、推論時にこれらのモデル間を補間します。また、SoundCTMの柔軟なサンプリング能力を活用した、学習不要の制御可能なフレームワークを提案します。SoundCTMは、追加の既存ネットワークを使用せずに、有望な1ステップおよびマルチステップのリアルタイム音響生成を実現します。さらに、SoundCTMが学習不要の方法で制御可能な音響生成を可能にする能力を示します。
既存の拡散ベースのテキストから3D生成手法は、主に視覚的にリアルな形状や外観の生成に焦点を当てており、下流タスクに必要な物理的制約をしばしば無視しています。生成されたモデルは、物理ベースのシミュレーションや3Dプリント時にバランスを維持できないことが頻繁にあります。このバランスは、インタラクティブゲーム、エンボディードAI、ロボティクスといった分野で、ユーザーのデザイン意図を満たすために重要であり、安定したモデルが信頼性のあるインタラクションに必要とされます。さらに、安定したモデルは、ホームデコレーション用のフィギュアなどの3Dプリントされたオブジェクトが、追加のサポートを必要とせずに自立できることを保証します。このギャップを埋めるため、我々はAtlas3Dを導入します。これは、既存のスコア蒸留サンプリング(SDS)ベースのテキストから3Dツールを強化する、自動的で実装が容易な手法です。Atlas3Dは、重力、接触、摩擦の物理法則に従った自立可能な3Dモデルの生成を保証します。我々のアプローチは、新しい微分可能なシミュレーションベースの損失関数と物理的にインスパイアされた正則化を組み合わせ、既存のフレームワークのリファインメントまたは後処理モジュールとして機能します。我々は、広範な生成タスクを通じてAtlas3Dの有効性を検証し、シミュレーションおよび実世界環境で得られた3Dモデルを検証します。