翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、長い文脈の処理において著しい進歩を達成していますが、依然として長い文脈の推論には苦労しています。既存のアプローチは、通常、人間の専門家やGPT-4のような高度なモデルからの注釈に依存する合成データを使用してLLMsを微調整することに関与しており、これによりさらなる進歩が制限されています。この問題に対処するために、私たちはLLMsが長い文脈の推論において自己改善する可能性を調査し、この目的に特化したアプローチである「\ours」を提案します。このアプローチは直感的です:各質問に対して複数の出力をサンプリングし、それらを最小ベイズリスクでスコア付けし、その後、これらの出力に基づいて教師付き微調整または選好最適化を適用します。いくつかの主要なLLMsでの包括的な実験は、\oursの有効性を示し、Llama-3.1-8B-Instructにおいて4.2ポイントの絶対的な改善を達成しています。さらに、\oursは、人間の専門家や高度なモデルによって生成されたデータに依存する従来のアプローチと比較して、優れたパフォーマンスを達成しています。この研究がLLMsの持続的な進歩に不可欠な長い文脈のシナリオにおける自己改善技術の新たな展開を切り開くことが期待されます。
ビデオ生成は、視覚データを活用して現実世界の環境を再現するための有望なツールとして台頭しており、人間の視点に焦点を当てたエゴセントリックなビデオ生成は、仮想現実、拡張現実、およびゲーム分野の応用を向上させるための大きな潜在能力を持っています。しかし、エゴセントリックなビデオの生成は、エゴセントリックな視点の動的な性質、複雑なアクションの多様性、および遭遇する複雑なシーンの多様性により、重大な課題を抱えています。既存のデータセットはこれらの課題に効果的に対処するために不十分です。このギャップを埋めるために、エゴセントリックなビデオ生成に特化した初の高品質データセットであるEgoVid-5Mを提案します。EgoVid-5Mには、500万のエゴセントリックなビデオクリップが含まれており、微細な運動制御や高レベルのテキスト記述を含む詳細なアクション注釈で充実しています。データセットの整合性と利用可能性を確保するために、エゴセントリックな状況下でのフレームの一貫性、アクションの一貫性、および運動の滑らかさを維持するように設計された洗練されたデータクリーニングパイプラインを実装しています。さらに、アクションの記述と運動制御信号によって同時に駆動されるエゴセントリックなビデオを生成することができるEgoDreamerを紹介しています。EgoVid-5Mデータセット、関連するアクション注釈、およびすべてのデータクリーニングメタデータは、エゴセントリックなビデオ生成の研究の進展のために公開されます。
大規模言語モデル(LLMs)を人間の好みと整合させることは、依然として重要な課題です。強化学習からの人間フィードバック(RLHF)や直接的な好み最適化(DPO)などの事後トレーニング技術は、注目すべき成功を収めていますが、しばしば計算効率の低下やトレーニングの不安定さをもたらします。本論文では、安定性を確保しながら整合プロセスを簡素化することを目的とした、特徴レベル制約付き好み最適化(FPO)という新しい手法を提案します。FPOは、事前にトレーニングされた疎なオートエンコーダ(SAEs)を活用し、特徴レベルの制約を導入することで、効率的で疎な整合を可能にします。我々の手法は、トレーニングが十分に行われた疎なオートエンコーダで活性化された疎な特徴を使用することにより効率性を享受し、特徴レベルのオフライン参照を使用することで連続KLダイバージェンスの品質を確保します。ベンチマークデータセット上の実験結果は、FPOが、最先端のベースラインと比較して、計算コストがはるかに低い状態で勝率を5.08%絶対改善し、効率的かつコントロール可能なLLMの整合のための有望な解決策であることを示しています。
CamemBERTなどのフランス語言語モデルは、自然言語処理(NLP)タスクに広く採用されており、CamemBERTなどのモデルは月間400万以上のダウンロードがある。しかし、これらのモデルは、時系列概念のドリフトによる課題に直面しており、古いトレーニングデータが性能の低下につながる、特に新しいトピックや用語に遭遇した場合に顕著である。この問題は、現在の言語トレンドを反映した更新されたモデルの必要性を強調している。本論文では、これらの課題に対処するために設計されたCamemBERTベースモデルの2つの新バージョン、CamemBERTav2とCamemBERTv2を紹介する。CamemBERTav2はDeBERTaV3アーキテクチャに基づいており、より良い文脈理解のために置換トークン検出(RTD)目的を使用している。一方、CamemBERTv2はRoBERTaに基づいており、マスク言語モデリング(MLM)目的を使用している。両モデルは、より大規模でより新しいデータセットでトレーニングされており、より長いコンテキスト長とフランス語のトークナイザのトークン化性能を向上させる更新されたトークナイザを使用している。これらのモデルの性能を一般領域のNLPタスクや医療分野のタスクなどの特定領域のアプリケーションで評価し、さまざまなユースケースでの汎用性と効果を示す。結果は、これらの更新されたモデルが先行モデルを大幅に上回ることを示し、現代のNLPシステムにとって価値のあるツールとなっている。すべての新モデルおよび中間チェックポイントは、Huggingfaceで公開されている。
ステアリングベクトルは、大規模言語モデルの振る舞いを制御する有望なアプローチです。しかし、その基本的なメカニズムは依然として理解が不十分です。疎なオートエンコーダ(SAE)はステアリングベクトルを解釈するための潜在的な手法を提供するかもしれませんが、最近の研究結果によると、SAEによって再構築されたベクトルはしばしば元のベクトルのステアリング特性を欠いています。本論文では、ステアリングベクトルに直接SAEを適用することが誤解を招く分解をもたらす理由を調査し、次の2つの理由を特定しました:(1)SAEが設計された入力分布の外にステアリングベクトルがあること、および(2)ステアリングベクトルが特徴方向に意味のある負の射影を持つこと、これはSAEが収容するように設計されていないことです。これらの制限は、ステアリングベクトルを解釈するためにSAEを直接使用することを妨げています。
音楽生成は特にオーディオ生成の分野で大きく進歩しています。しかし、長期構造化されたかつ表現豊かな象徴的音楽を生成することは依然として重要な課題です。本論文では、この問題に取り組むために、効果的なセグメンテーションとマルチスケールアテンションメカニズムを活用することで設計された革新的なアーキテクチャであるPerceiverS(Segmentation and Scale)を提案します。我々のアプローチは、長期構造的な依存関係と短期的な表現的な詳細を同時に学習することによって、象徴的音楽生成を向上させます。マルチスケール設定でのクロスアテンションとセルフアテンションを組み合わせることで、PerceiverSは長距離の音楽的構造を捉えつつ、演奏の微妙なニュアンスを保持します。Maestroなどのデータセットで評価された提案モデルは、構造的な一貫性と表現的な変化を兼ね備えた、一貫性のある多様な音楽を生成することで改善を示しています。プロジェクトのデモや生成された音楽サンプルは、以下のリンクからアクセスできます:https://perceivers.github.io。
既存のテキストからビデオ(T2V)モデルは、十分に際立ったまたは複雑なアクションを生成するのにしばしば苦労しています。主な制限は、テキストプロンプトが複雑な動きの詳細を正確に伝えることができないことにあります。この問題に対処するために、私たちは長時間のビデオを正確で流れるようなアクションを生成するために設計された革新的なフレームワーク、MVideoを提案します。MVideoは、追加のモーション条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服し、意図されたアクションのより明確で正確な表現を提供します。GroundingDINOやSAM2などの基本的なビジョンモデルを活用することで、MVideoは自動的にマスクシーケンスを生成し、効率性と堅牢性の両方を向上させます。私たちの結果は、トレーニング後、MVideoが効果的にテキストプロンプトをモーション条件と整合させ、両方の基準を同時に満たすビデオを生成することを示しています。この二重制御メカニズムにより、テキストプロンプトまたはモーション条件のどちらかを独立して、または両方を同時に変更することで、よりダイナミックなビデオ生成が可能となります。さらに、MVideoはモーション条件の編集と組み合わせをサポートし、より複雑なアクションを持つビデオの生成を容易にします。したがって、MVideoはT2Vモーション生成を前進させ、現在のビデオ拡散モデルにおけるアクション描写の向上のための強力な基準を設定します。私たちのプロジェクトページは、https://mvideo-v1.github.io/ でご覧いただけます。