翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は通常、数十億のトークンで事前学習されますが、新しいデータが利用可能になると、そのプロセスを最初からやり直すことが一般的です。より効率的な解決策は、これらのモデルを継続的に事前学習することであり、再学習と比較して大幅な計算リソースを節約できます。しかし、新しいデータによって引き起こされる分布シフトは、通常、以前のデータでの性能低下や新しいデータへの適応不良を招きます。本研究では、学習率(LR)の再ウォーミング、LRの再減衰、および以前のデータのリプレイを組み合わせたシンプルでスケーラブルな方法が、すべての利用可能なデータでゼロから再学習した場合の性能と同等であることを、最終的な損失と言語モデル(LM)評価ベンチマークを用いて示します。具体的には、405Mパラメータのモデルスケールで、一般的に使用される2つのLLM事前学習データセット間の弱いが現実的な分布シフト(英語→英語)と、より強い分布シフト(英語→ドイツ語)について、大規模なデータセット(数千億トークン)を用いてこれを示します。大規模実験のために弱いが現実的なシフトを選択し、10BパラメータのLLMにおいても、我々の継続学習戦略が再学習ベースラインと同等であることを確認しました。我々の結果は、LLMがシンプルでスケーラブルな継続学習戦略を通じて成功裏に更新できることを示しており、再学習ベースラインと同等の性能を、計算リソースの一部のみで達成できることを実証しています。最後に、先行研究にインスパイアされ、LR再ウォーミングによって引き起こされる忘却を回避し、固定されたトークンバジェットに縛られない、コサイン学習率スケジュールの代替案を提案します。
本論文では、Geminiモデルの作成に用いられた研究と技術を基に構築された、軽量で最先端のオープンモデル群であるGemmaを紹介する。Gemmaモデルは、言語理解、推論、安全性に関する学術的ベンチマークにおいて強力な性能を示す。我々は2つのサイズのモデル(20億パラメータと70億パラメータ)をリリースし、事前学習済みおよびファインチューニング済みのチェックポイントを提供する。Gemmaは、18のテキストベースタスクのうち11において、同規模のオープンモデルを上回る性能を発揮し、モデルの安全性と責任性に関する包括的な評価を提示するとともに、モデル開発の詳細な説明を提供する。大規模言語モデル(LLM)の責任あるリリースは、最先端モデルの安全性向上と、次世代のLLMイノベーションを可能にするために極めて重要であると我々は考えている。
我々はVLOGGERを提案する。これは、単一の人物画像から音声駆動で人間の動画を生成する手法であり、最近の生成拡散モデルの成功を基盤としている。本手法は、1)確率的人間-3Dモーション拡散モデルと、2)空間的・時間的制御を備えたテキスト-画像モデルを拡張する新しい拡散ベースのアーキテクチャから構成される。これにより、人間の顔や身体の高レベル表現を通じて容易に制御可能な、可変長の高品質動画生成が可能となる。従来の研究とは異なり、本手法は人物ごとの学習を必要とせず、顔検出や切り抜きに依存せず、顔や唇だけでなく完全な画像を生成し、コミュニケーションする人間を正確に合成するために重要な幅広いシナリオ(例えば、胴体が可視であることや多様な被写体のアイデンティティ)を考慮する。また、MENTORという新しい多様なデータセットをキュレーションした。これは3Dポーズと表情のアノテーションを備え、従来のものよりも1桁大きい(800,000のアイデンティティ)規模で、動的なジェスチャーを含み、主要な技術的貢献の学習とアブレーションに使用した。 VLOGGERは、画像品質、アイデンティティ保存、時間的一貫性を考慮した3つの公開ベンチマークにおいて、最先端の手法を上回る性能を示し、上半身のジェスチャーも生成する。我々は、多様性指標に関してVLOGGERの性能を分析し、アーキテクチャの選択とMENTORの使用が、大規模で公平かつ偏りのないモデルの学習に有益であることを示す。最後に、ビデオ編集とパーソナライゼーションにおける応用例を示す。
人間は、模倣と社会的相互作用を通じて社会的スキルを学習する。この社会的学習プロセスは、既存の言語エージェント構築に関する研究において十分に検討されていない。このギャップに動機づけられ、我々は対話型学習手法「SOTOPIA-pi」を提案し、言語エージェントの社会的知性を向上させる。この手法は、大規模言語モデル(LLM)の評価に基づいてフィルタリングされた社会的相互作用データに対して、行動クローニングと自己強化学習を活用する。我々のトレーニング手法により、7BのLLMが専門モデル(GPT-4ベースのエージェント)の社会的目標達成能力に到達しつつ、言語エージェントの安全性を向上させ、MMLUベンチマークにおける一般的なQA能力を維持できることを示す。また、このトレーニングパラダイムは、LLMベースの社会的知性評価におけるいくつかの困難を明らかにする:LLMベースの評価者は、社会的相互作用に特化してトレーニングされた言語エージェントの能力を過大評価する傾向がある。
基盤モデルは強力な技術であり、その公開方法は直接的に社会的影響を形作る。本ポジションペーパーでは、広く利用可能なモデルウェイト(例:Llama 2、Stable Diffusion XL)を持つオープン基盤モデルに焦点を当てる。我々は、オープン基盤モデルが持つ5つの特徴的な特性(例:高いカスタマイズ性、監視の不十分さ)を特定し、それらがもたらす利点とリスクを明らかにする。オープン基盤モデルは、イノベーション、競争、意思決定権力の分散、透明性といった領域において、いくつかの注意点を伴いながらも、重要な利点を提供する。誤用リスクを理解するために、我々はその限界的リスクを分析するためのリスク評価フレームワークを設計した。いくつかの誤用ベクトル(例:サイバー攻撃、生物兵器)において、既存の技術と比較したオープン基盤モデルの限界的リスクを効果的に特徴付けるための現在の研究は不十分であることがわかった。このフレームワークは、限界的リスクが低い場合の理由を説明し、過去の研究が異なる前提に基づいてフレームワークの異なる部分に焦点を当てていたことを明らかにすることで、誤用リスクに関する意見の相違を解消し、より建設的な議論の進め方を提示する。全体として、我々の研究は、オープン基盤モデルの理論的利点とリスクを実証的に検証するために必要な研究を概説することで、その社会的影響をより根拠に基づいて評価するための支援を提供する。
データ不足と高度なモーション合成の課題に直面する中で、人間とシーンとのインタラクション(HSI)モデリングにおいて、TRUMANSデータセットと新たなHSIモーション合成手法を提案する。TRUMANSは、現在利用可能な最も包括的なモーションキャプチャHSIデータセットであり、100の屋内シーンにおける15時間以上の人間のインタラクションを網羅している。このデータセットは、全身の人間の動きと物体の部分レベルのダイナミクスを詳細に捉え、接触のリアリズムに焦点を当てている。さらに、物理環境を正確な仮想モデルに変換し、人間と物体の外観と動きに広範な拡張を適用することで、インタラクションの忠実性を維持しながらデータセットを拡張している。TRUMANSを活用し、シーンの文脈と意図した行動の両方を考慮して、任意の長さのHSIシーケンスを効率的に生成する拡散ベースの自己回帰モデルを考案した。実験では、提案手法がPROX、Replica、ScanNet、ScanNet++などの3Dシーンデータセットにおいて顕著なゼロショット汎化性能を示し、定量実験と人間による評価によって、元のモーションキャプチャシーケンスに極めて近い動きを生成することが確認された。
スケーリング則は言語モデルの開発において有用な指針であるが、現在のスケーリング研究と、言語モデルが実際にどのように訓練され評価されるかとの間には依然としてギャップが存在する。例えば、スケーリングは通常、計算最適な訓練体制(すなわち「Chinchilla最適」体制)で研究されるが、実際には、推論コストを削減するためにモデルが過剰訓練されることが多い。さらに、スケーリング則は主に次のトークン予測における損失を予測するが、最終的にはモデルは下流タスクの性能に基づいて比較される。本論文では、これらの両方の欠点に対処する。そのために、0.011Bから6.9Bのパラメータを持つ104のモデルを、3つのデータ分布に対して様々なトークン数で訓練したテストベッドを作成する。まず、過剰訓練体制におけるスケーリングを調査する。モデルのパラメータ数と訓練トークン数の比率の両方で外挿するスケーリング則を適合させる。これにより、1.4Bパラメータ、900Bトークンの実行(すなわち32倍の過剰訓練)と6.9Bパラメータ、138Bトークンの実行の検証損失を、計算量が300分の1の実験から予測することが可能となる。次に、言語モデルのパープレキシティを下流タスクの性能に関連付けるためのべき乗則を導出する。この法則を用いて、前述の2つのモデルの下流タスクにおける平均トップ1エラーを、計算量が20分の1の実験を用いて予測する。我々の実験はhttps://github.com/mlfoundations/scalingで公開されている。
近年の画像から動画への生成技術の進展にもかかわらず、より優れた制御性と局所的なアニメーションはあまり研究されていない。既存の画像から動画への手法の多くは局所的な認識がなく、シーン全体を動かす傾向がある。しかし、人間のアーティストは異なるオブジェクトや領域の動きを制御する必要があるかもしれない。さらに、現在のI2V手法では、ユーザーは目標の動きを記述するだけでなく、フレーム内容の冗長な詳細な記述も提供する必要がある。これらの2つの問題が、現在のI2Vツールの実用的な利用を妨げている。本論文では、Follow-Your-Clickと名付けた実用的なフレームワークを提案し、ユーザーの簡単なクリック(何を動かすかを指定)と短い動きのプロンプト(どのように動かすかを指定)で画像アニメーションを実現する。技術的には、初フレームマスキング戦略を提案し、動画生成の品質を大幅に向上させ、短い動きのプロンプトデータセットを備えた動き拡張モジュールを提案して、モデルの短いプロンプト追従能力を向上させる。さらに、動きの速度を制御するために、フローベースの動きの大きさ制御を提案し、目標の動きの速度をより正確に制御する。我々のフレームワークは、以前の手法よりもシンプルで正確なユーザー制御と優れた生成性能を有する。7つのベースライン(商用ツールと研究手法を含む)と8つのメトリクスを用いた広範な実験により、我々のアプローチの優位性が示された。プロジェクトページ: https://follow-your-click.github.io/
暗黙的ニューラル表現(INRs)は最近、画像表現と圧縮において大きな成功を収め、十分なGPUリソースが利用可能な場合、10-1000 FPSの高速レンダリング速度と高い視覚品質を提供しています。しかし、この要件はしばしばメモリが限られたローエンドデバイスでの使用を妨げています。これに対応して、我々は2Dガウシアンスプラッティングによる画像表現と圧縮の画期的なパラダイム、GaussianImageを提案します。まず、画像を表現するために2Dガウシアンを導入し、各ガウシアンは位置、共分散、色を含む8つのパラメータを持ちます。その後、累積加算に基づく新しいレンダリングアルゴリズムを公開します。注目すべきは、我々の方法がGPUメモリ使用量を最低3倍削減し、フィッティング時間を5倍高速化するだけでなく、表現性能においてINRs(例:WIRE、I-NGP)に匹敵し、パラメータサイズに関係なく1500-2000 FPSの高速レンダリング速度を実現することです。さらに、既存のベクトル量子化技術を統合して画像コーデックを構築します。実験結果は、我々のコーデックがCOINやCOIN++などの圧縮ベースのINRsと同等のレート歪み性能を達成し、約1000 FPSのデコード速度を促進することを示しています。加えて、予備的な概念実証では、部分的なビットバックコーディングを使用する場合、我々のコーデックがCOINとCOIN++を性能で上回ることが示されています。