翻訳付きの日次キュレーションされたAI研究論文
最近の研究では、線形表現仮説が提唱されている。これは、言語モデルが活性化空間における概念(「特徴量」)の一次元表現を操作することで計算を実行するという仮説である。これに対して、我々は言語モデルの表現の中には本質的に多次元なものがあるかどうかを探求する。まず、独立したまたは共起しない低次元特徴量に分解可能かどうかに基づいて、還元不可能な多次元特徴量の厳密な定義を開発する。これらの定義に動機付けられ、GPT-2とMistral 7Bにおいて多次元特徴量を自動的に発見するためのスケーラブルな方法を、スパースオートエンコーダを用いて設計する。これらの自動発見された特徴量には、驚くほど解釈可能な例が含まれており、例えば曜日や月を表す円形の特徴量などがある。我々は、これらの正確な円形特徴量が、曜日や月に関するモジュラー演算を含む計算問題を解決するために使用されるタスクを特定する。最後に、Mistral 7BとLlama 3 8Bにおける介入実験を通じて、これらの円形特徴量が実際にこれらのタスクにおける計算の基本単位であることを示す証拠を提供し、これらのタスクの隠れ状態を解釈可能な成分に分解することで、さらに円形表現を見つける。
Leanのような証明アシスタントは、数学的証明の検証に革命をもたらし、高い精度と信頼性を確保しています。大規模言語モデル(LLM)は数学的推論において有望ですが、形式的定理証明における進展は、訓練データの不足によって妨げられています。この問題を解決するため、高校および大学レベルの数学競技問題から派生したLean 4の証明データを大規模に生成するアプローチを提案します。このアプローチでは、自然言語の問題を形式的な命題に変換し、低品質な命題をフィルタリングし、証明を生成して合成データを作成します。この合成データセット(800万の形式的命題とその証明を含む)でDeepSeekMath 7Bモデルをファインチューニングした結果、Lean 4 miniF2Fテストにおいて、64サンプルで46.3%、累積で52%の全証明生成精度を達成し、ベースラインのGPT-4(64サンプルで23.0%)や木探索強化学習手法(41.0%)を上回りました。さらに、Lean 4 Formalized International Mathematical Olympiad(FIMO)ベンチマークでは、148問中5問の証明に成功し、GPT-4は1問も証明できませんでした。これらの結果は、大規模な合成データを活用してLLMの定理証明能力を向上させる可能性を示しています。今後の研究を促進するため、合成データセットとモデルを公開する予定です。
拡散モデルを用いたビデオ生成と編集において大きな進展が見られるものの、正確で局所的なビデオ編集を実現することは依然として大きな課題です。さらに、既存のビデオ編集手法の多くは視覚的な内容の変更に主眼を置いており、モーション編集に特化した研究は限られています。本論文では、既存の手法とは一線を画す新しい試みとして、ビデオをリメイクする「ReVideo」を提案します。ReVideoは、内容とモーションの両方を指定することで、特定の領域における精密なビデオ編集を可能にします。内容編集は最初のフレームを変更することで実現し、軌道ベースのモーション制御は直感的なユーザーインタラクションを提供します。ReVideoは、内容とモーション制御の結合とトレーニングの不均衡という新しい課題に取り組みます。これを解決するために、これら2つの側面を粗から細へと段階的に分離する3段階のトレーニング戦略を開発しました。さらに、様々なサンプリングステップと空間位置にわたって内容とモーション制御を統合するための時空間適応型融合モジュールを提案します。広範な実験により、ReVideoがいくつかの正確なビデオ編集アプリケーションにおいて有望な性能を示すことが実証されました。具体的には、(1) モーションを一定に保ちながらビデオの内容を局所的に変更する、(2) 内容を変更せずに新しいモーション軌道をカスタマイズする、(3) 内容とモーション軌道の両方を変更する、といったアプリケーションです。また、本手法は特定のトレーニングなしにこれらのアプリケーションを複数領域の編集にシームレスに拡張できるため、その柔軟性と堅牢性が示されています。
マルチモーダル大規模言語モデル(MLLM)において、視覚エンコーダの潜在能力を十分に活用しているだろうか?最近のMLLMのマルチモーダル理解における優れた性能は、学界と産業界の双方から広く注目を集めている。現在のMLLMの激しい競争において、焦点は主に言語側に置かれているようだ。より大規模で高品質な指示データセットの台頭や、より大規模なLLMの参入が目撃されている。しかし、MLLMが利用する視覚信号にはほとんど注意が向けられておらず、凍結された視覚エンコーダによって抽出された最終的な高レベル特徴であると想定されることが多い。本論文では、Dense Connectorを紹介する。これは、多層の視覚特徴を活用することで既存のMLLMを大幅に強化する、シンプルで効果的、かつプラグアンドプレイ可能な視覚言語コネクタであり、追加の計算コストを最小限に抑えている。さらに、画像のみで訓練された我々のモデルは、ビデオ理解においても驚くべきゼロショット能力を示している。様々な視覚エンコーダ、画像解像度、訓練データセットの規模、LLMのサイズ(2.7B->70B)、およびMLLMの多様なアーキテクチャ(例:LLaVAやMini-Gemini)にわたる実験結果は、我々のアプローチの汎用性と拡張性を検証し、19の画像およびビデオベンチマークにおいて最先端の性能を達成している。この研究が、将来のMLLM開発において貴重な経験を提供し、基本的なモジュールとして役立つことを願っている。
潜在拡散モデル(LDMs)の進展は高解像度画像生成に革命をもたらしましたが、これらのシステムの中核をなすオートエンコーダの設計空間は未だ十分に探索されていません。本論文では、2次元離散ウェーブレット変換を活用し、標準的な変分オートエンコーダ(VAEs)と比較してスケーラビリティと計算効率を向上させつつ、出力品質を損なわないLiteVAEというオートエンコーダのファミリーを紹介します。また、LiteVAEの訓練方法論とデコーダアーキテクチャを調査し、訓練ダイナミクスと再構成品質を改善するいくつかの拡張を提案します。我々のベースLiteVAEモデルは、エンコーダのパラメータ数を6分の1に削減しつつ、現在のLDMsで確立されたVAEsと同等の品質を達成し、より高速な訓練と低いGPUメモリ要件を実現します。一方、より大規模なモデルは、評価されたすべての指標(rFID、LPIPS、PSNR、SSIM)において、同等の複雑さを持つVAEsを上回る性能を示しました。
大規模言語モデル(LLM)の推論を加速することは、人工知能における重要な課題である。本論文では、分散型推測推論(Distributed Speculative Inference, DSI)を紹介する。これは、推測推論(Speculative Inference, SI)[leviathan2023fast, chen2023accelerating, miao2023specinfer]や従来の自己回帰型推論(非SI)よりも理論的に高速な、新たな分散推論アルゴリズムである。他のSIアルゴリズムと同様に、DSIは凍結されたLLM上で動作し、学習やアーキテクチャの変更を必要とせず、目標分布を保持する。 これまでのSIに関する研究では、非SIと比較して経験的な高速化が実証されているが、高速かつ正確なドラフターLLMが必要とされる。実際には、市販のLLMには十分に高速かつ正確なドラフターが存在しないことが多い。我々は、ドラフターが遅いか精度が低い場合にSIが非SIよりも遅くなるというギャップを示す。このギャップを埋めるため、我々はDSIが任意のドラフターにおいてSIおよび非SIよりも高速であることを証明する。複数のターゲットおよびドラフターのインスタンスを調整することで、DSIはSIよりも高速であるだけでなく、SIでは加速できないLLMもサポートする。 シミュレーション結果から、現実的な設定において市販のLLMの高速化が確認された:DSIはSIよりも1.29~1.92倍高速である。
拡散モデルは画像生成において大きな成功を収めており、そのバックボーンはU-NetからVision Transformersへと進化してきました。しかし、Transformersの計算コストはトークン数の二乗に比例するため、高解像度画像を扱う際に大きな課題となっています。本研究では、State Space Models (SSM) に基づくシーケンスモデルであるMambaの効率性と、拡散モデルの表現力を組み合わせたDiffusion Mamba (DiM)を提案し、効率的な高解像度画像合成を実現します。Mambaが2D信号に一般化できないという課題に対処するため、多方向スキャン、各行および各列の終端に学習可能なパディングトークンを追加、軽量な局所特徴強化など、いくつかのアーキテクチャ設計を行いました。我々のDiMアーキテクチャは、高解像度画像に対する推論時の効率性を実現しています。さらに、DiMを用いた高解像度画像生成の訓練効率をさらに向上させるため、低解像度画像(256×256)でDiMを事前訓練し、その後高解像度画像(512×512)で微調整する「弱から強へ」の訓練戦略を検討しました。また、追加の微調整なしに、より高解像度の画像(例:1024×1024や1536×1536)を生成できるよう、訓練不要なアップサンプリング戦略も探求しました。実験により、我々のDiMの有効性と効率性が実証されています。
第二階のトレーニング手法は勾配降下法よりも収束特性が優れているが、計算コストの高さから大規模トレーニングでは実用化されていない。これはデジタルコンピュータによるハードウェア制約と見なすことができる。本論文では、適切なハードウェアを利用することで、第二階手法である自然勾配降下法(NGD)が第一階手法と同程度の計算複雑性で反復計算可能であることを示す。我々は、特定のパラメータ領域においてNGDと等価でありながら、過度に高コストな線形システムの解法を回避する新しいハイブリッドデジタル-アナログアルゴリズムを提案する。本アルゴリズムは、平衡状態にあるアナログシステムの熱力学的性質を利用するため、アナログ熱力学的コンピュータを必要とする。トレーニングはハイブリッドデジタル-アナログループで行われ、勾配とフィッシャー情報行列(または他の正定値曲率行列)が一定時間間隔で計算されながら、アナログダイナミクスが進行する。我々は、分類タスクと言語モデルのファインチューニングタスクにおいて、このアプローチが最先端のデジタル第一階および第二階トレーニング手法を上回ることを数値的に実証する。
最近のアプローチでは、拡散モデルを効率的なワンステップ生成器に蒸留することが有望視されています。その中でも、Distribution Matching Distillation (DMD) は、教師モデルのサンプリング軌跡との一対一対応を強制することなく、分布レベルで教師モデルと一致するワンステップ生成器を生成します。しかし、DMD は安定した訓練を確保するために、教師モデルが決定論的サンプラーを用いて多数のステップで生成したノイズ-画像ペアの大規模なセットを使用して計算される追加の回帰損失を必要とします。これは大規模なテキストから画像への合成においてコストがかかり、学生モデルの品質を教師モデルの元のサンプリング経路に過度に結びつけることになります。本論文では、この制限を解消し、DMD の訓練を改善する一連の技術である DMD2 を紹介します。まず、回帰損失と高コストなデータセット構築の必要性を排除します。その結果生じる不安定性は、偽の批評家が生成サンプルの分布を正確に推定していないことに起因することを示し、これを解決するために二つの時間スケールの更新ルールを提案します。次に、GAN 損失を蒸留プロセスに統合し、生成サンプルと実画像を識別します。これにより、学生モデルを実データで訓練することが可能になり、教師モデルからの不完全な実スコア推定を緩和し、品質を向上させます。最後に、訓練手順を変更して多段階サンプリングを可能にします。この設定における訓練-推論時の入力不一致問題を特定し、訓練時に推論時の生成器サンプルをシミュレートすることで対処します。これらの改善を組み合わせることで、ワンステップ画像生成において新たなベンチマークを設定し、ImageNet-64x64 で FID スコア 1.28、ゼロショット COCO 2014 で 8.35 を達成し、推論コストを 500 分の 1 に削減しながら元の教師モデルを上回りました。さらに、SDXL を蒸留することでメガピクセル画像を生成できることを示し、数ステップ手法の中でも卓越した視覚的品質を実証しました。
近年、現実的な生成結果と幅広いパーソナライズドアプリケーションにより、拡散モデルに基づく生成モデルは視覚および音声生成の分野で大きな注目を集めています。テキストから画像や音声を生成する技術の著しい進歩に比べ、音声から視覚や視覚から音声を生成する研究は比較的遅れています。最近の音声-視覚生成手法は、巨大な大規模言語モデルや合成可能な拡散モデルに頼ることが一般的です。本論文では、音声-視覚生成のための別の巨大モデルを設計する代わりに、マルチモーダル生成において十分に検討されていないシンプルで軽量な生成トランスフォーマーが、画像から音声を生成するタスクで優れた結果を達成できることを示します。このトランスフォーマーは、離散的な音声および視覚のVector-Quantized GAN空間で動作し、マスクノイズ除去の方法で訓練されます。訓練後、追加の訓練や修正なしで、分類器不要のガイダンスをそのまま適用することで、より良い性能を達成できます。トランスフォーマーモデルはモダリティ対称であるため、音声から画像を生成するタスクや共同生成にも直接適用可能です。実験では、本手法が最近の画像から音声を生成する手法を凌駕することを示します。生成された音声サンプルは以下のリンクで確認できます: https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
マルチモーダル大規模言語モデル(MLLMs)は、人工汎用知能(AGI)の探求において重要な役割を果たすと広く認識されています。MLLMsの核心は、異なるモダリティ間のアラインメントを実現する能力にあります。この目標を達成するため、現在のMLLMsは通常、事前学習フェーズと指示チューニングフェーズという2段階のトレーニングパラダイムに従います。しかし、これらのモデルにおけるアラインメント能力のモデリングには欠点があります。まず、事前学習フェーズでは、モデルは通常、すべての画像-テキストペアが均一にアラインメントされていると仮定しますが、実際には異なる画像-テキストペア間のアラインメントの程度は一貫していません。次に、現在使用されているチューニング用の指示にはさまざまなタスクが含まれており、異なるタスクの指示は通常、異なるレベルのアラインメント能力を必要としますが、従来のMLLMsはこれらの差異化されたアラインメントニーズを見落としています。これらの問題に対処するため、我々は新しいマルチモーダル大規模言語モデルAlignGPTを提案します。事前学習段階では、すべての画像-テキストペアを均等に扱うのではなく、異なる画像-テキストペアに異なるレベルのアラインメント能力を割り当てます。その後、指示チューニングフェーズでは、これらの異なるレベルのアラインメント能力を適応的に組み合わせて、異なる指示の動的なアラインメントニーズを満たします。大規模な実験結果は、我々のモデルが12のベンチマークで競争力のある性能を達成することを示しています。
ユーザー提供の参照画像から同一性を保持した画像を生成するために拡散モデルをカスタマイズすることは、興味深い新たな課題である。従来の主流なアプローチでは、同一性を保持するために広範なドメイン固有の画像での学習が必要であり、異なるユースケースでの柔軟性に欠けていた。この問題に対処するため、我々は既存の分類器を用いて拡散モデルを誘導する学習不要の技術である分類器ガイダンスを活用し、パーソナライズされた画像生成を実現する。本研究では、最近の修正フロー(rectified flow)フレームワークに基づき、特別な分類器を必要とする従来の分類器ガイダンスの主要な制約が、単純な不動点解法によって解決可能であることを示す。これにより、既存の画像識別器を用いた柔軟なパーソナライゼーションが可能となる。さらに、その解法手順は参照フローの軌跡に固定された場合に安定であり、収束が保証される。導出された手法は、異なる既存の画像識別器を用いた修正フローに実装され、人間の顔、被写体、および特定のオブジェクトに対して優れたパーソナライゼーション結果を提供する。コードはhttps://github.com/feifeiobama/RectifIDで公開されている。
我々は、ビデオ生成タスクにおいて3Dカメラモーションを条件付け信号として含むマルチモーダルトランスフォーマーを拡張する。生成ビデオモデルはますます強力になってきており、そのようなモデルの出力を制御する方法に研究の焦点が当てられている。我々は、生成ビデオの過程における3次元カメラ運動のエンコーディングを条件付けとして生成ビデオ手法に仮想3Dカメラ制御を追加することを提案する。結果は、(1)単一フレームとカメラ信号からビデオ生成中にカメラを成功裏に制御できること、(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことを実証している。
本研究では、ファインチューニングを行わずに画像生成モデルを異なるデータセットに適応させるタスクを調査する。そのために、条件付け画像のセマンティクスに基づいて画像を生成可能な、画像条件付き拡散モデル「Semantica」を提案する。Semanticaは、ウェブスケールの画像ペアのみで学習され、ウェブページからランダムに選ばれた画像を条件付け入力として受け取り、同じウェブページから選ばれた別のランダムな画像をモデル化する。実験結果は、事前学習済み画像エンコーダの表現力と、高品質な画像生成を実現するためのセマンティクスベースのデータフィルタリングの必要性を明らかにする。一度学習されると、Semanticaは、単にそのデータセットの画像を入力として使用することで、新しい画像を適応的に生成することができる。我々は、ImageNet、LSUN Churches、LSUN Bedroom、およびSUN397におけるSemanticaの転移特性を調査する。
ニューラルラジアンスフィールド(NeRF)は、通常、視点の変化に伴って外観が急速に変化する高度に鏡面反射する物体の再構築とレンダリングに苦戦する。最近の研究では、NeRFが遠方の環境照明の詳細な鏡面反射外観をレンダリングする能力が向上しているが、近接する内容の一貫した反射を合成することはできない。さらに、これらの技術は、放射輝度をモデル化するために大規模で計算コストの高いニューラルネットワークに依存しており、最適化とレンダリング速度を大幅に制限している。我々は、これらの問題をレイトレーシングに基づくアプローチで解決する:各カメラレイに沿った点での視点依存の放射輝度を高価なニューラルネットワークに問い合わせる代わりに、我々のモデルはこれらの点から反射レイを投射し、NeRF表現を通じてトレースし、小さな低コストのネットワークを使用して色にデコードされる特徴ベクトルをレンダリングする。我々のモデルが、光沢のある物体を含むシーンの視点合成において従来の手法を上回ること、そして現実世界のシーンでフォトリアルな鏡面反射外観と反射を合成できる唯一の既存のNeRF手法であることを実証し、最適化時間が現在の最先端の視点合成モデルと同等であることを示す。
鏡面反射を持つ物体、例えば光沢のある金属や艶やかな塗料の新規視点合成は、依然として重要な課題である。光沢感だけでなく、環境内の他の物体の反射を含むグローバルイルミネーション効果も、シーンを忠実に再現するための重要な要素である。本論文では、鏡面反射物体のレンダリングのためのニューラルラジアンスフィールド(NeRF)の視点依存外観符号化であるNeural Directional Encoding(NDE)を提案する。NDEは、特徴グリッドベースの空間符号化の概念を角度領域に転換し、高周波角度信号のモデリング能力を大幅に向上させる。従来の角度入力のみの符号化関数を使用する手法とは対照的に、我々は空間的特徴をコーントレースして空間的に変化する方向符号化を取得し、難しい相互反射効果に対処する。合成データセットと実データセットの両方での広範な実験により、NDEを組み込んだNeRFモデルが、(1) 鏡面反射物体の視点合成において最先端の性能を上回り、(2) 小さなネットワークで動作し、高速(リアルタイム)推論を可能にすることが示された。プロジェクトのウェブページとソースコードは以下で公開されている:https://lwwu2.github.io/nde/
本論文では、低予算かつ高精度な双方向テレプレゼンスシステム「Tele-Aloha」を提案する。本システムは、ピアツーピア通信シナリオを対象としており、従来のシステムと比較して、わずか4台のスパースRGBカメラ、1台のコンシューマー向けGPU、および1台の自動立体ディスプレイを使用して、高解像度(2048x2048)、リアルタイム(30 fps)、低遅延(150ms未満)、かつ堅牢な遠隔通信を実現する。Tele-Alohaの中核として、上半身向けの効率的な新規視点合成アルゴリズムを提案する。まず、堅牢な幾何学的手がかりを得るために、カスケード型視差推定器を設計する。さらに、ガウススプラッティングを用いたニューラルラスタライザを導入し、潜在特徴をターゲットビューに投影し、低解像度にデコードする。加えて、高品質なキャプチャデータを活用し、重み付きブレンディングメカニズムを用いてデコードされた画像を2Kの最終解像度に精緻化する。世界最先端の自動立体ディスプレイと低遅延の虹彩追跡を活用することで、ユーザーはヘッドマウントディスプレイデバイスを装着することなく、強力な立体感を体験できる。全体として、本テレプレゼンスシステムは、実生活実験において共在感を実証し、次世代のコミュニケーションを鼓舞するものである。