翻訳付きの日次キュレーションされたAI研究論文
一貫性モデル(CM)は最近、拡散モデルの生成速度を大幅に加速させることに成功しました。しかし、潜在空間における高解像度のテキスト条件付き画像生成(通称LCM)への応用は、まだ満足のいくものではありません。本論文では、現在のLCM設計における3つの主要な欠陥を特定します。これらの制限の背後にある理由を調査し、設計空間を一般化し、特定されたすべての制限に対処する段階的一貫性モデル(PCM)を提案します。評価の結果、PCMは1〜16ステップの生成設定においてLCMを大幅に上回ることが示されました。PCMは多段階の精緻化を特に念頭に置いて設計されていますが、1ステップ生成においても、従来の最先端の1ステップ専用手法と同等かそれ以上の結果を達成します。さらに、PCMの方法論は汎用性が高く、ビデオ生成にも適用可能であり、これにより最先端の少ステップテキスト・トゥ・ビデオ生成器を訓練することができました。詳細はhttps://g-u-n.github.io/projects/pcm/をご覧ください。
ディープニューラルネットワーク(DNN)がサイズと複雑さを増すにつれ、単一のアクセラレータのメモリ容量を超えることが多くなり、モデルパラメータを複数のアクセラレータに分散する必要が生じています。パイプライン並列処理は、大規模なDNNを訓練するための一般的な分散戦略です。しかし、現在のパイプライン並列処理の実装は、MLフレームワークが提供する自動微分ツールによって意図せずボトルネックが生じています。本論文では、2段階バックプロパゲーション(2BP)を紹介します。逆伝播ステップを2つの別々の段階に分割することで、アイドル計算時間を削減できます。様々なモデルアーキテクチャとパイプラインスケジュールで2BPをテストし、全てのケースでスループットの向上を達成しました。2BPを使用することで、4つのGPUで70億パラメータのLLaMa風トランスフォーマーを訓練する際に、従来の方法と比較して1.70倍のスループット向上を実現しました。
テキストから音楽を編集する最近の進展、すなわちテキストクエリを用いて音楽を変更する(例えば、スタイルを変えたり楽器の構成要素を調整したりする)技術は、AIを活用した音楽制作において独自の課題と機会を提供しています。この分野における従来のアプローチは、特定の編集モデルをゼロから訓練する必要性に制約されており、これはリソース集約的で非効率的です。また、他の研究では大規模言語モデルを使用して編集された音楽を予測していますが、不正確な音声再構成が生じる問題があります。これらの長所を組み合わせ、制約を解決するために、我々はInstruct-MusicGenを提案します。これは、事前訓練されたMusicGenモデルを微調整し、ステムの追加、削除、分離などの編集指示を効率的に追従する新しいアプローチです。我々のアプローチでは、オリジナルのMusicGenアーキテクチャを修正し、テキスト融合モジュールと音声融合モジュールを組み込むことで、モデルが指示テキストと音声入力を同時に処理し、望ましい編集された音楽を生成できるようにします。注目すべきは、Instruct-MusicGenがオリジナルのMusicGenモデルに対してわずか8%の新しいパラメータを導入し、5,000ステップの訓練のみで、既存のベースラインを全てのタスクにおいて上回る性能を達成し、特定のタスク向けに訓練されたモデルと同等の性能を示す点です。この進展は、テキストから音楽を編集する効率を向上させるだけでなく、動的な音楽制作環境における音楽言語モデルの適用範囲を広げるものです。
Yuan 2.0-M32は、Yuan-2.0 2Bと同様の基本アーキテクチャを採用し、32のエキスパートのうち2つがアクティブとなるMixture-of-Experts(MoE)アーキテクチャを使用しています。新たに提案されたルーターネットワーク「Attention Router」を採用し、エキスパートの選択をより効率的に行うことで、従来のルーターネットワークを使用したモデルと比較して3.8%の精度向上を実現しています。Yuan 2.0-M32は、2000Bトークンを用いてゼロから学習され、学習時の計算コストは同じパラメータ規模の密なモデルのわずか9.25%です。Yuan 2.0-M32は、総パラメータ数40Bのうちアクティブなパラメータが3.7B、トークンあたりの順方向計算量が7.4 GFlopsと、Llama3-70Bの1/19でありながら、コーディング、数学、およびさまざまな専門分野で競争力のある能力を発揮します。特に、MATHおよびARC-Challengeベンチマークでは、それぞれ55.89と95.8の精度を達成し、Llama3-70Bを上回りました。Yuan 2.0-M32のモデルとソースコードはGitHubで公開されています。
現代の大規模言語モデル(LLM)は、自然言語処理、複雑な推論、感情分析などのタスクを解決する能力が非常に高く、その結果、広く採用されています。しかし、これらの能力は非常に高いメモリと計算コストを伴い、ほとんどのハードウェアプラットフォームでのLLMの使用を妨げています。この問題を緩和するため、我々はLLaMA2-7Bを基にしたワンショットNASを用いて、パレート最適なネットワークアーキテクチャを見つける効果的な方法を提案します。具体的には、LLaMA2-7Bを一度だけファインチューニングし、その後、遺伝的アルゴリズムに基づく探索を適用して、より小さく計算コストの低いネットワークアーキテクチャを見つけます。特定の標準ベンチマークタスクにおいて、事前学習済みのLLaMA2-7Bネットワークが不必要に大きく複雑であることを示します。さらに、特定のタスクにおいて、モデルサイズを1.5倍削減し、スループットを1.3倍向上させ、精度の低下をほとんどなくすことを実証します。我々の方法は、より小さく高性能なネットワークアーキテクチャを見つけるだけでなく、特定のプルーニングやスパース化技術よりも効果的かつ効率的にこれを達成します。最後に、量子化が我々の方法と補完的であり、見つけたネットワークのサイズと複雑さを量子化を用いてさらに削減できることを示します。我々の研究は、より安価で入手しやすいハードウェアプラットフォームで使用できるLLMを自動的に作成する方法を提供すると考えています。
ビデオ入力から4Dシーンを再構築することは、重要でありながらも困難な課題です。従来の手法では、通常、マルチビュービデオ入力、既知のカメラパラメータ、または静的なシーンといった仮定に依存していますが、これらは一般的に実世界のシナリオでは存在しません。本論文では、これらの制約をすべて緩和し、AnyV4Dと呼ぶ非常に野心的でありながら実用的な課題に取り組みます。具体的には、単一のモノクロームビデオのみが利用可能であり、カメラパラメータも入力として与えられない状況を想定し、動的な4D世界とカメラポーズを同時に復元することを目指します。この目的のために、GFlowという新しいフレームワークを導入します。GFlowは、2Dの事前情報(深度とオプティカルフロー)のみを利用して、ビデオ(3D)を4Dの明示的な表現に変換し、空間と時間を通じてガウススプラッティングの流れを実現します。GFlowはまずシーンを静止部分と移動部分にクラスタリングし、その後、2Dの事前情報とシーンのクラスタリングに基づいてカメラポーズと3Dガウスポイントの動きを逐次最適化するプロセスを適用し、隣接するポイント間の忠実性とフレーム間の滑らかな動きを確保します。動的なシーンは常に新しいコンテンツを導入するため、新しい視覚コンテンツを統合するためのピクセル単位の密度化戦略も提案します。さらに、GFlowは単なる4D再構築の枠組みを超え、事前のトレーニングを必要とせずにフレーム間の任意のポイントを追跡し、教師なしで移動するオブジェクトをシーンからセグメント化することも可能にします。加えて、各フレームのカメラポーズをGFlowから導出することができ、カメラポーズを変更することでビデオシーンの新しい視点をレンダリングすることができます。明示的な表現を採用することで、シーンレベルまたはオブジェクトレベルの編集を容易に行うことができ、その汎用性と強力さを強調します。プロジェクトのウェブサイトはこちらです: https://littlepure2333.github.io/GFlow
大規模言語モデル(LLM)は、最近多くの言語処理タスクに対処するための強力なツールとして登場しました。しかし、これらのモデルのトレーニングやファインチューニングは、依然として計算量とメモリ使用量が非常に大きいという課題があります。本論文では、勾配降下法を用いた効果的なモデル収束に必要な重要なコンポーネントを特定し、その特性を明らかにします。その過程で、誤差逆伝播法を実装するために使用される中間活性化が、性能の低下を招くことなく過度に圧縮可能であることを発見しました。この結果に基づき、LLMのファインチューニングと事前学習の両方において、コスト効率が高くメモリ効率の良いアルゴリズムを提案します。提案アルゴリズムは、フォワードパス中にトークンを小さなサブトークンに分割し、それらを固定された1次元部分空間に射影するというシンプルな手法です。その後、バックワードパス中にこれらの特徴を大まかに再構築し、更新ルールを実装します。本アルゴリズムの有効性を、VTAB-1kファインチューニングベンチマークにおいて、多くの最先端のPEFT手法と補完的であることを確認しました。さらに、LLaMAのファインチューニングにおいてQLoRAを上回り、大規模なC4データセットにおいて他のメモリ効率の良い事前学習手法と競合する性能を示しました。
シーン画像編集は、エンターテインメント、写真、広告デザインにおいて重要な役割を果たします。既存の手法は、2Dの個別オブジェクトまたは3Dのグローバルシーン編集のいずれかにのみ焦点を当てています。これにより、異なる粒度レベルで3Dレベルでシーンを効果的に制御および操作するための統一されたアプローチが欠如しています。本研究では、言語誘導型の分離ガウススプラッティングを活用した新しい統一シーン編集フレームワークである3DitSceneを提案します。これにより、2Dから3Dへのシームレスな編集が可能となり、シーン構成と個別オブジェクトの精密な制御が実現します。まず、生成事前分布と最適化技術を通じて洗練された3Dガウシアンを組み込みます。次に、CLIPからの言語特徴を3Dジオメトリに導入し、オブジェクトの分離を行います。分離されたガウシアンを用いることで、3DitSceneはグローバルレベルと個別レベルの両方での操作を可能にし、創造的な表現を革新し、シーンとオブジェクトに対する制御を強化します。実験結果は、3DitSceneのシーン画像編集における有効性と汎用性を実証しています。コードとオンラインデモはプロジェクトホームページ(https://zqh0253.github.io/3DitScene/)でご覧いただけます。