翻訳付きの日次キュレーションされたAI研究論文
我々はSELF-DISCOVERを紹介する。これは、複雑な推論問題に取り組むために、LLMがタスク固有の推論構造を自己発見するための汎用フレームワークである。従来のプロンプト手法では困難な問題に対処するため、このフレームワークの中核となるのは、LLMが批判的思考や段階的思考といった複数の基本的な推論モジュールを選択し、それらを明示的な推論構造として組み立てる自己発見プロセスである。SELF-DISCOVERは、BigBench-Hard、グラウンデッドエージェント推論、MATHといった挑戦的な推論ベンチマークにおいて、GPT-4とPaLM 2の性能をChain of Thought (CoT)と比べて最大32%向上させた。さらに、SELF-DISCOVERはCoT-Self-Consistencyのような推論集約型の手法を20%以上上回りながら、推論計算量を10~40分の1に削減する。最後に、自己発見された推論構造が、PaLM 2-LからGPT-4、GPT-4からLlama2といったモデルファミリー間で普遍的に適用可能であり、人間の推論パターンと共通点を持つことを示す。
事前学習済みの大規模言語モデル(LLM)は、優れた汎用言語処理能力を発揮する一方で、メモリと計算リソースに多大な要求を伴います。強力な圧縮技術として、二値化はモデルの重みをわずか1ビットまで極端に削減し、高価な計算とメモリ要件を低減します。しかし、既存の量子化技術は、超低ビット幅下でのLLMの性能維持に十分ではありません。この課題に対応するため、我々は事前学習済みLLMに特化した画期的な1ビットの学習後量子化スキームであるBiLLMを提案します。BiLLMは、LLMの重み分布に基づいて、まず重要な重みを識別し構造的に選択し、効果的な二値残差近似戦略を通じて圧縮損失を最小化します。さらに、非重要重みのベル型分布を考慮し、それらを正確にグループ化して二値化するための最適分割探索を提案します。BiLLMは、様々なLLMファミリーと評価指標において、わずか1.08ビットの重みで初めて高精度な推論(例:LLaMA2-70Bで8.41のパープレキシティ)を達成し、SOTAのLLM量子化手法を大幅に上回ります。さらに、BiLLMは、70億の重みを持つLLMの二値化プロセスを単一のGPU上で0.5時間以内に完了させ、満足のいく時間効率を実証します。
状態空間モデル(SSMs)、例えばMamba(Gu & Dao, 2034)は、言語モデリングにおいてTransformerネットワークの代替として提案されており、ゲーティング、畳み込み、および入力依存のトークン選択を組み込むことで、マルチヘッドアテンションの二次コストを軽減しています。SSMsは競争力のある性能を示すものの、現代の言語モデルが持つ顕著な特性である文脈内学習(ICL)能力、つまりパラメータ最適化なしでタスクを実行する能力については、Transformerと比較して未解明の部分が多く残されています。本研究では、Mambaを中心としたSSMsのICL性能を、さまざまなタスクにおいてTransformerモデルと比較評価します。その結果、SSMsは標準的な回帰ICLタスクではTransformerと同等の性能を示す一方、スパースパリティ学習などのタスクではTransformerを上回る性能を発揮することがわかりました。しかし、非標準的な検索機能を必要とするタスクではSSMsは劣ることが判明しました。これらの制約を克服するため、Mambaとアテンションブロックを組み合わせたハイブリッドモデル「\variant」を提案し、個々のモデルが苦手とするタスクにおいても優れた性能を発揮することを示しました。我々の知見は、ハイブリッドアーキテクチャが言語モデルのICL能力を向上させるための有望な道筋を提供することを示唆しています。
コントラスティブ言語-画像事前学習(CLIP)のスケールアップは、視覚モデルとマルチモーダルモデルの両方を強化する上で極めて重要です。本論文では、180億パラメータを有するこれまでで最大かつ最も強力なオープンソースCLIPモデルであるEVA-CLIP-18Bを紹介します。わずか60億の訓練サンプルで学習したEVA-CLIP-18Bは、広く認知されている27の画像分類ベンチマークにおいて平均80.7%のゼロショットTop-1精度を達成し、先行モデルであるEVA-CLIP(50億パラメータ)や他のオープンソースCLIPモデルを大幅に上回りました。注目すべきは、LAION-2BとCOYO-700Mからなる20億の画像-テキストペアという一定の訓練データセットを維持しながらも、EVA-CLIPのモデルサイズスケーリングに伴って一貫した性能向上が観察された点です。このデータセットは公開されており、他の最先端CLIPモデルで使用されている社内データセット(例:DFN-5B、WebLI-10B)よりもはるかに小規模です。EVA-CLIP-18Bは、EVAスタイルの弱い視覚モデルから強い視覚モデルへのスケーリングの可能性を示しています。我々はモデルの重みを公開することで、視覚およびマルチモーダル基盤モデルに関する今後の研究を促進することを期待しています。
画像から動画(I2V)生成は、初期フレーム(およびテキストプロンプト)を使用して動画シーケンスを作成することを目的としています。I2V生成における大きな課題は、動画全体を通じて視覚的一貫性を維持することです。既存の手法では、最初のフレームから被写体、背景、スタイルの整合性を保つことや、動画の物語内で流動的かつ論理的な進行を確保することがしばしば困難です。これらの問題を緩和するため、我々はConsistI2Vを提案します。これは、視覚的一貫性を強化するための拡散ベースの手法です。具体的には、(1) 最初のフレームに対する時空間的注意機構を導入して空間的および運動的一貫性を維持し、(2) 最初のフレームの低周波帯からノイズを初期化してレイアウトの一貫性を向上させます。これら2つのアプローチにより、ConsistI2Vは高度に一貫性のある動画を生成することが可能です。また、提案手法を拡張して、自己回帰的な長尺動画生成やカメラモーション制御における一貫性向上の可能性を示します。我々の手法の有効性を検証するため、I2V生成のための包括的な評価ベンチマークであるI2V-Benchを提案します。自動評価および人間による評価結果は、ConsistI2Vが既存の手法を上回る優位性を示しています。
スケーリング則は、大規模言語モデル(LLM)の設計を導く重要な洞察を提供します。既存の研究は主に、事前学習(上流)の損失に関するスケーリング則の研究に焦点を当ててきました。しかし、LLMが教師なしデータセットで事前学習され、その後下流タスクでファインチューニングされる転移学習の設定では、下流の性能も重要です。本研究では、機械翻訳タスクのためにLLMをファインチューニングする転移学習の設定におけるスケーリング挙動を調査します。具体的には、事前学習データの選択とそのサイズが、下流の性能(翻訳品質)にどのように影響するかを、下流のクロスエントロピーとBLEUスコアという2つの指標を用いて評価します。実験結果から、ファインチューニングデータセットのサイズと、事前学習データと下流データの分布の整合性が、スケーリング挙動に大きく影響することが示されました。十分な整合性がある場合、下流のクロスエントロピーとBLEUスコアは、より多くの事前学習データとともに単調に改善します。そのような場合、対数則を用いて下流のBLEUスコアを高い精度で予測できることを示します。しかし、中程度の不整合がある場合、BLEUスコアが変動したり、事前学習データが増えるにつれて悪化する一方で、下流のクロスエントロピーは単調に改善するケースもあります。これらの観察結果を分析することで、適切な事前学習データを選択するための新たな実践的な知見を提供します。
我々は、人間のフィードバックからファインチューニングされた初の音楽生成システムであるMusicRLを提案する。テキストから音楽を生成するモデルの評価は特に主観的であり、音楽性の概念やキャプションに込められた特定の意図はユーザー依存である(例えば、「アップビートなワークアウト音楽」というキャプションは、レトロなギターソロやテクノポップのビートにマッピングされる可能性がある)。これにより、このようなモデルの教師あり学習が困難になるだけでなく、デプロイ後のファインチューニングにおいて継続的な人間のフィードバックを統合する必要性が高まる。MusicRLは、離散オーディオトークンの事前学習済み自己回帰型MusicLM(Agostinelli et al., 2023)モデルを、シーケンスレベルの報酬を最大化するために強化学習でファインチューニングしたものである。我々は、選ばれた評価者の助けを借りて、テキストの忠実度とオーディオ品質に関連する報酬関数を設計し、それらを使用してMusicLMをMusicRL-Rにファインチューニングする。MusicLMをユーザーにデプロイし、30万件のペアワイズ選好を含む大規模なデータセットを収集する。人間のフィードバックからの強化学習(RLHF)を使用して、大規模な人間のフィードバックを組み込んだ初のテキストから音楽を生成するモデルであるMusicRL-Uを訓練する。人間による評価では、MusicRL-RとMusicRL-Uの両方がベースラインよりも好まれることが示されている。最終的に、MusicRL-RUは両方のアプローチを組み合わせ、人間の評価者によると最良のモデルとなる。アブレーション研究は、人間の選好に影響を与える音楽的属性に光を当て、テキストの忠実度と品質がその一部しか占めていないことを示している。これは、音楽鑑賞における主観性の普遍性を強調し、音楽生成モデルのファインチューニングにおける人間のリスナーのさらなる関与を求めるものである。
私たちは、MobileVLMを大幅に改善したビジョン言語モデルファミリーであるMobileVLM V2を紹介します。これは、新しいアーキテクチャ設計の緻密な調整、モバイルVLM向けに改良されたトレーニングスキーム、そして豊富で高品質なデータセットのキュレーションが、VLMの性能を大幅に向上させることができることを証明しています。具体的には、MobileVLM V2 1.7Bは、3Bスケールのより大きなVLMと比較して、標準的なVLMベンチマークで同等またはそれ以上の性能を達成しています。特に、私たちの3Bモデルは、7B+スケールの多様なVLMを凌駕しています。私たちのモデルは、https://github.com/Meituan-AutoML/MobileVLM で公開されます。
大規模言語モデルの最近の進歩は、その並外れた超人級の能力に注目を集め、研究者たちがこれらの能力を評価・最適化する方法、いわゆる「スーパーアライメント」を探求するきっかけとなりました。この文脈において、本論文は視覚基盤モデルの領域に深く入り込み、「弱いモデルから強いモデルへの一般化」という概念に焦点を当てています。これは、弱いモデルを使用して強いモデルを監督し、後者の能力を前者の限界を超えて向上させることを目指すものです。我々は、弱いモデルから強いモデルへの監督のための新規で適応的に調整可能な損失関数を導入します。我々の包括的な実験は、Few-shot学習、転移学習、ノイジーラベル学習、一般的な知識蒸縮設定など、さまざまなシナリオに及びます。結果は驚くべきもので、我々のアプローチは、強いモデルから強いモデルへの一般化によって設定された性能ベンチマークを上回るだけでなく、データセット全体を使用して強いモデルをファインチューニングした結果をも凌駕しました。この説得力のある証拠は、弱いモデルから強いモデルへの一般化が視覚基盤モデルの性能を大幅に向上させる能力を持つという重要な可能性を強調しています。コードはhttps://github.com/ggjy/vision_weak_to_strongで公開されています。
CodeComposeは、大規模言語モデル(LLM)を活用したAI支援型コード作成ツールであり、Meta社内の数万人の開発者に対してインラインでの提案を提供しています。本論文では、このプロダクトを単一行の提案から複数行の提案へとスケールアップする過程を紹介します。この進化には、開発者にとっての提案の使いやすさを向上させるために、いくつかの独自の課題を克服する必要がありました。 まず、複数行の提案が「違和感」を引き起こす可能性について議論します。LLMの提案が開発者の既存のコードを常に移動させるため、これが生産性や満足度の低下を招く可能性があります。 次に、複数行の提案は生成に大幅に時間がかかるため、ユーザーが感じる待ち時間を短縮するためのいくつかの革新的な投資について紹介します。これらのモデルホスティングの最適化により、複数行提案の待ち時間が2.5倍速くなりました。 最後に、数万人のエンジニアを対象に実験を行い、複数行の提案がユーザーエクスペリエンスにどのような影響を与えるかを理解し、これを単一行の提案と比較します。実験結果から、(i) 複数行の提案が表示される提案の16%しか占めていないにもかかわらず、受け入れられた総文字数の42%を占めること、(ii) 複数行の提案により、ユーザーのキーストローク節約率が9%から17%にほぼ倍増することが明らかになりました。複数行のCodeComposeはMeta社の全エンジニアに展開され、複数行の提案をオプトアウトしたエンジニアは1%未満です。
顔のモーションキャプチャと分析において、主流のソリューションは一般的に視覚的な手がかりに基づいており、プライバシーを保護できず、オクルージョンに弱いという課題があります。慣性計測ユニット(IMU)は潜在的な解決策として機能しますが、主に全身のモーションキャプチャに採用されています。本論文では、このギャップを埋めるためにIMUSICを提案します。これは、従来の視覚的ソリューションとは大きく異なる、純粋なIMU信号を使用した顔の表情キャプチャの新しいアプローチです。IMUSICの鍵となる設計は三部構成です。まず、顔のキャプチャに適したマイクロIMUを設計し、解剖学に基づいたIMU配置スキームを伴わせます。次に、多様な表情とパフォーマンスに対する豊富なIMU/視覚信号のペアを提供する新しいIMU-ARKitデータセットを提供します。このユニークなマルチモダリティは、IMUベースの顔の行動分析などの将来の方向性に大きな可能性をもたらします。さらに、IMU-ARKitを活用して、純粋なIMU信号から顔のブレンドシェイプパラメータを正確に予測する強力なベースラインアプローチを導入します。具体的には、この新しいトラッキングタスクのために、2段階のトレーニング戦略を備えたTransformer拡散モデルをカスタマイズします。IMUSICフレームワークにより、視覚的手法が失敗するシナリオでも正確な顔のキャプチャを実行し、同時にユーザーのプライバシーを保護することが可能になります。IMU構成と技術的コンポーネントの両方について広範な実験を行い、IMUSICアプローチの有効性を検証します。特に、IMUSICは、プライバシー保護を伴う顔のキャプチャ、オクルージョンに対するハイブリッドキャプチャ、視覚的な手がかりでは見えない微細な顔の動きの検出など、さまざまな潜在的な新しいアプリケーションを可能にします。私たちは、コミュニティにおける顔のキャプチャと分析の可能性をさらに豊かにするために、データセットと実装を公開する予定です。
安定した材料の生成を目的として、大規模言語モデルのファインチューニングを提案します。非正統的ではありますが、テキストエンコードされた原子データを用いて大規模言語モデルをファインチューニングする手法は、実装が簡単でありながら信頼性が高く、サンプリングされた構造の約90%が原子位置と電荷に関する物理的制約を満たします。学習されたMLポテンシャルとゴールドスタンダードであるDFT計算の両方を用いたエネルギー計算(エネルギーアバブハル計算)により、最も強力なモデル(ファインチューニングされたLLaMA-2 70B)が、競合する拡散モデルであるCDVAEと比較して、約2倍の割合(49%対28%)でメタ安定と予測される材料を生成できることを示します。テキストプロンプティングの本質的な柔軟性により、我々のモデルは、安定した材料の無条件生成、部分構造のインフィリング、およびテキスト条件付き生成を同時に実行することが可能です。最後に、結晶構造の重要な対称性を捉える言語モデルの能力がモデル規模とともに向上することを示し、事前学習されたLLMのバイアスが原子データに驚くほど適していることを示唆します。
視覚言語モデル(VLMs)は、視覚的指示と回答を整合させるための広範なトレーニングにより、その汎用性を広く実証してきました。しかし、この決定的な整合は、モデルが重要な視覚的推論を無視することを引き起こし、さらに細心の視覚的問題での失敗や不正確な応答を招く結果となっています。本論文では、Chain of Manipulationsというメカニズムを提案します。これは、VLMsが一連の操作を通じて問題を解決することを可能にするもので、各操作は視覚的入力に対する操作を指し、事前のトレーニングを通じて獲得された内在的な能力(例:グラウンディング)や、人間のような行動(例:ズームイン)の模倣から行われます。このメカニズムは、VLMsが証拠に基づいた視覚的推論を用いて正確な応答を生成することを促し、ユーザーが解釈可能なパスでエラーの原因を追跡することを可能にします。そこで我々は、この推論メカニズムを備えたメモリベースの互換性のあるアーキテクチャを持つ汎用17B VLMであるCogCoMをトレーニングしました。実験結果は、我々のモデルが3つのカテゴリーにわたる8つのベンチマークで最先端の性能を達成し、限られたトレーニングステップとデータで迅速に競争力のある性能を獲得することを示しています。コードとデータはhttps://github.com/THUDM/CogCoMで公開されています。
私たちは、ビュー合成のためのマルチビュー条件付き拡散モデルであるEscherNetを紹介します。EscherNetは、暗黙的で生成的な3D表現を、特殊化されたカメラ位置エンコーディングと組み合わせて学習し、任意の数の参照ビューとターゲットビューの間でカメラ変換を精密かつ連続的に制御することを可能にします。EscherNetは、ビュー合成において卓越した汎用性、柔軟性、スケーラビリティを提供します。単一のコンシューマーグレードGPU上で、3つの参照ビューから3つのターゲットビューという固定数の学習にもかかわらず、100以上の一貫したターゲットビューを同時に生成することができます。その結果、EscherNetはゼロショットの新規ビュー合成に対応するだけでなく、単一および複数画像の3D再構成を自然に統合し、これらの多様なタスクを単一の結束したフレームワークに組み合わせます。私たちの広範な実験は、EscherNetが、各問題に特化して設計された手法と比較しても、複数のベンチマークで最先端の性能を達成することを示しています。この驚くべき汎用性は、3Dビジョンのためのスケーラブルなニューラルアーキテクチャを設計するための新しい方向性を切り開きます。プロジェクトページ: https://kxhit.github.io/EscherNet。
我々は、複数ステップの将来状態と報酬を同時に予測可能な条件付き拡散モデルであるDiffusion World Model (DWM)を提案する。従来の1ステップ動的モデルとは異なり、DWMは単一のフォワードパスで長期的な予測を可能とし、再帰的なクエリを不要とする。我々はDWMをモデルベースの価値推定に統合し、DWMからサンプリングされた将来軌跡を用いて短期リターンをシミュレートする。オフライン強化学習の文脈では、DWMは生成モデリングを通じた保守的な価値正則化と見なすことができる。あるいは、合成データを用いたオフラインQ学習を可能にするデータソースと見なすこともできる。D4RLデータセットでの実験により、DWMの長期的シミュレーションに対する堅牢性が確認された。絶対性能において、DWMは1ステップ動的モデルを44%の性能向上で大幅に上回り、最先端の性能を達成した。