翻訳付きの日次キュレーションされたAI研究論文
自己回帰モデルは視覚生成において強力な手法として登場していますが、その逐次的なトークンごとの予測プロセスにより推論速度が遅いという課題があります。本論文では、自己回帰型視覚生成を並列化するためのシンプルかつ効果的なアプローチを提案します。このアプローチにより、生成効率を向上させつつ、自己回帰モデリングの利点を保持します。私たちの主要な洞察は、並列生成が視覚トークンの依存関係に依存するという点です。つまり、依存関係が弱いトークンは並列で生成できますが、強く依存する隣接トークンは一緒に生成するのが難しく、独立したサンプリングが不整合を引き起こす可能性があります。この観察に基づき、弱い依存関係を持つ遠隔トークンを並列で生成し、強く依存する局所トークンについては逐次生成を維持する並列生成戦略を開発します。このアプローチは、標準の自己回帰モデルにシームレスに統合でき、アーキテクチャやトークナイザーを変更する必要がありません。ImageNetとUCF-101での実験結果は、当社の手法が画像およびビデオ生成タスクの両方で、同等の品質を維持しつつ、3.6倍の高速化を達成し、品質の低下を最小限に抑えて最大9.5倍の高速化を実現することを示しています。この研究が効率的な視覚生成と統一された自己回帰モデリングにおける将来の研究にインスピレーションを与えることを願っています。プロジェクトページ: https://epiphqny.github.io/PAR-project.
大規模言語モデル(LLM)の多段階推論能力を向上させるために、オフライン強化学習(RL)を活用することは、これらを複雑なタスクに迅速に適応させるために不可欠です。直接的な選好最適化(DPO)は、LLMを人間の選好と整合させる点で有望であることが示されていますが、多段階推論タスクには適していません。なぜなら、(1)DPOはペアの選好データに依存しており、多段階推論タスクでは利用可能でないため、(2)すべてのトークンを均一に扱うため、多段階推論タスクにおける信用割り当てに効果的でなく、しばしば希薄な報酬が付随します。本研究では、LLMの多段階推論を向上させるためのオフラインRL手法であるOREO(Offline Reasoning Optimization)を提案します。従来の最大エントロピー強化学習の洞察に基づいて構築され、ソフトベルマン方程式の最適化によってポリシーモデルと価値関数を共に学習します。ペアのデータを収集する必要を軽減し、より良い信用割り当てを可能にすることを原理的に示しています。経験的には、OREOは数学的推論タスク(GSM8K、MATH)や具現化エージェント制御(ALFWorld)を含む多段階推論のベンチマークで既存のオフライン学習手法を凌駕しています。この手法は、追加のリソースが利用可能な場合には、マルチイテレーションフレームワークに拡張できます。さらに、学習された価値関数は、テスト時にパフォーマンスをさらに向上させるために、ツリー探索を自由にガイドするのに活用できます。
拡散トランスフォーマー(DiT)は画像生成において主要なアーキテクチャとなっています。しかし、トークン間の関係をモデリングするための注意機構の二次の複雑さは、高解像度の画像を生成する際に著しい遅延をもたらします。この問題に対処するため、本論文では、事前学習されたDiTの複雑さを線形にする線形注意機構を目指します。既存の効率的な注意機構に関する包括的な要約から探索を開始し、事前学習されたDiTを線形化するための成功の鍵となる4つの要素、つまり局所性、形式の一貫性、高ランクの注意マップ、および特徴の整合性を特定します。これらの知見に基づき、クエリトークンの周囲の局所ウィンドウに特徴の相互作用を制限することで線形の複雑さを実現する、畳み込みに似たローカルな注意戦略であるCLEARを紹介します。実験結果は、事前学習されたDiTから学習モデルに知識を効果的に転移させるために、わずか10,000の自己生成サンプルで10,000回のイテレーションで注意層を微調整することで、線形の複雑さを持つ学習モデルを実現し、教師モデルと比較可能な結果を得ることができることを示しています。同時に、注意の計算を99.5%削減し、8K解像度の画像を生成する際の生成を6.3倍高速化します。さらに、蒸留された注意層の有利な特性について調査し、ゼロショットの汎用性、さまざまなモデルやプラグインに対する改善されたサポート、およびマルチGPU並列推論向けの向上したサポートなどを検討します。モデルとコードはこちらで入手できます:https://github.com/Huage001/CLEAR。
Key-Value(KV)キャッシュは、長いコンテキスト生成のLLMsにおいてボトルネックとなっています。この領域での数々の取り組みにもかかわらず、デコーディングフェーズの最適化は一般的に無視されています。しかしながら、我々はそのような最適化が重要であると考えており、特に次の2つの観察に基づく長い出力生成タスクにおいては重要です:(i)プリフィルフェーズ中の過剰な圧縮は、特定の完全なコンテキストが推論タスクの理解を損ないます;(ii)長い出力を伴う推論タスクにおいて、ヘビーヒッターの逸脱が発生します。そのため、SCOPEというシンプルかつ効率的なフレームワークが導入されました。このフレームワークは、プリフィルとデコーディングフェーズそれぞれでKVキャッシュの最適化を別々に行います。具体的には、プリフィルフェーズ中のKVキャッシュは重要な情報を維持するために保持され、デコーディングフェーズではスライディングに基づく新しい戦略が提案され、重要なヘビーヒッターを選択します。メモリ使用量とメモリ転送は、適応的および不連続な戦略を使用してさらに最適化されます。LongGenBenchでの包括的な実験により、SCOPEの効果と汎化性、および他のプリフィル専用KV圧縮方法へのプラグインとしての互換性が示されました。
我々は、新しいマルチモーダル共同トレーニングフレームワークMMAudioを用いて、ビデオとオプショナルなテキスト条件から高品質かつ同期したオーディオを合成することを提案します。単一モダリティのトレーニングとは異なり、(限られた)ビデオデータに依存するMMAudioは、より大規模で利用可能なテキストオーディオデータと共に共同でトレーニングされ、意味的に整合した高品質なオーディオサンプルを生成するために学習します。さらに、フレームレベルでビデオ条件をオーディオの潜在変数に整列させる条件付き同期モジュールにより、オーディオビジュアルの同期を向上させます。フロー一致目的でトレーニングされたMMAudioは、オーディオ品質、意味的整合性、オーディオビジュアル同期の観点で、公開モデルの中で新たなビデオからオーディオへの最先端技術を達成し、推論時間が短く(8秒のクリップを生成するのに1.23秒)、パラメータ数がわずか157Mであるという特徴があります。MMAudioはまた、テキストからオーディオへの生成において驚くほど競争力のあるパフォーマンスを達成し、共同トレーニングが単一モダリティのパフォーマンスを妨げないことを示しています。コードとデモは以下で入手可能です:https://hkchengrex.github.io/MMAudio
マルチモーダル大規模言語モデル(MLLMs)は、非常に詳細なキャプションを生成するのに優れていますが、しばしば幻覚を生じます。我々の分析によると、既存の幻覚検出手法は詳細なキャプションに苦労しています。これは、シーケンスの長さが増すにつれて、MLLMsが生成されたテキストに依存する割合が高まっていることに起因すると考えられます。この問題に対処するために、我々は、与えられたキャプションを修正するためにLLM-MLLMの協力を活用するマルチエージェントアプローチを提案します。さらに、詳細なキャプションの体系的な分析を促進する評価フレームワークとベンチマークデータセットを導入します。我々の実験は、提案された評価方法が既存の指標よりも人間の事実判断とよりよく一致し、MLLMの事実性を向上させる既存のアプローチがハイパー詳細な画像キャプションタスクで短所があることを示しています。一方、提案された手法は、GPT-4Vによって生成されたキャプションをさらに向上させることで、キャプションの事実的な正確さを著しく向上させます。最後に、MLLMの性能がVQAベンチマークでどのようになるかは、詳細な画像キャプションを生成する能力とは相関しない可能性があることを示すことで、VQA中心のベンチマークの限界を強調します。
量子化は、LLMをより小さなサイズに圧縮するための最も効果的な手法の1つとなっています。しかしながら、既存の量子化ソリューションは、非常に重要な精度の低下またはシステムの非効率性のいずれかの制限を示しています。本論文では、一般的な量子化原則が精度、メモリ消費、およびシステム効率の三角形に与える影響について包括的な分析を行います。私たちは、異なる出力特徴がモデル内で異なる重要性を持つという洞察に基づき、出力特徴間の混合精度量子化の新しい最適化空間を探求するMixLLMを提案します。MixLLMは、各単一層内ではなく、グローバルビューで高い重要性を持つ出力特徴を特定し、最も必要とする出力特徴により大きなビット幅を割り当てることで、良好な精度と低メモリ消費を実現します。我々は、高い精度とシステム効率をもたらすアルゴリズム-システム共同設計の量子化構成の最適なポイントを提示します。システムの課題に対処するために、int8 Tensor Coreを簡単に利用するための2段階の量子化解除を設計し、量子化解除のオーバーヘッドを大幅に削減するための高速データ型変換を行い、メモリアクセス、量子化解除、およびMatMulを最適に重ね合わせるソフトウェアパイプラインを提示します。広範な実験では、SOTAのPPL増加がLlama 3.1 70Bにおいて約0.5から0.2未満に削減され、平均MMLU-Proは3つの人気モデルのSOTAより0.93改善されます。MixLLMは、卓越した精度に加えて、最先端のシステム効率も実現しています。
ビデオモデリング用の革新的なブロックを提案します。それは、時間-空間-チャネルの要素分解を活用し、各次元に専用のブロックを持っています。ゲート付き線形再帰ユニット(LRU)は時間にわたる情報の混合を行い、セルフアテンション層は空間にわたる混合を行い、MLPはチャネルにわたる混合を行います。この結果として得られるTRecViTアーキテクチャは、スパースおよび密なタスクにおいて優れたパフォーマンスを発揮し、教師ありまたは自己教師ありの訓練を受けます。特筆すべきは、当モデルが因果関係を持ち、大規模ビデオデータセット(SSv2、Kinetics400)において、パラメータが3倍少なく、メモリフットプリントが12倍小さく、FLOPs数が5倍少ないにもかかわらず、純粋なアテンションモデルViViT-Lを上回るか同等の性能を発揮する点です。コードとチェックポイントは、https://github.com/google-deepmind/trecvit でオンラインで公開されます。
3Dスーパーレゾリューションは、低解像度(LR)のマルチビュー画像から高忠実度の3Dモデルを再構築することを目指しています。初期の研究は、LR画像を高解像度画像にアップサンプリングするための単一画像スーパーレゾリューション(SISR)モデルに主に焦点を当てていました。しかし、これらの手法は各画像に独立して操作するため、視点の一貫性が欠けることがしばしばあります。これらの不一致を緩和するためにさまざまな事後処理技術が広く研究されてきましたが、これらの問題を完全に解決するには至っていません。本論文では、ビデオスーパーレゾリューション(VSR)モデルを活用することで、3Dスーパーレゾリューションの包括的な研究を行います。VSRモデルを利用することで、より高い空間的一貫性が確保され、周囲の空間情報を参照することができ、より正確で詳細な再構築が可能となります。私たちの調査結果は、VSRモデルが、正確な空間的整列を欠いたシーケンスでも非常に優れた性能を発揮できることを示しています。この観察から、微調整やLR画像上で訓練された3Dモデルから「滑らかな」軌道を生成することなしに、LR画像を整列させるための簡単で実用的なアプローチを提案します。実験結果は、驚くほどシンプルなアルゴリズムが、NeRF-syntheticやMipNeRF-360などの標準ベンチマークデータセットにおいて、3Dスーパーレゾリューションタスクの最先端の結果を達成できることを示しています。プロジェクトページ: https://ko-lani.github.io/Sequence-Matters
本研究では、Multi-LLM要約フレームワークを提案し、中央集権型と分散型を含む2つの異なるMulti-LLM戦略を調査しました。当社のMulti-LLM要約フレームワークは、会話の各ラウンドで重要な2つの基本的なステップ、生成と評価、を持っています。これらのステップは、当社のMulti-LLM分散型要約か中央集権型要約かによって異なります。当社のMulti-LLM分散型戦略と中央集権型戦略の両方において、異なるk個のLLMがテキストの多様な要約を生成します。ただし、評価時には、当社のMulti-LLM中央集権型要約手法は単一のLLMを活用して要約を評価し、最適な要約を選択しますが、分散型Multi-LLM要約ではk個のLLMが使用されます。全体として、当社のMulti-LLM要約手法は、単一のLLMのみを活用するベースラインを最大3倍上回る結果を示しました。これらの結果は、要約のためのMulti-LLM手法の効果を示しています。
単一の画像から高精細でアニメーション可能な3Dフルボディアバターを作成することは、人間の多様な外見やポーズ、高品質なトレーニングデータの限られた入手可能性により、困難な課題です。迅速かつ高品質な人間の再構築を実現するために、この研究はデータセット、モデル、表現の観点から課題を再考します。まず、100Kの多様で写実的な人間画像セットである大規模な人間中心の生成データセット、HuGe100Kを紹介します。各セットには、特定の人間のポーズで生成された24ビューのフレームが含まれており、ポーズを制御可能な画像からマルチビューモデルを使用して生成されています。次に、HuGe100K内のビュー、ポーズ、外見の多様性を活用し、与えられた人間の画像から一様な空間内で3D人間のガウス表現を予測するためのスケーラブルなフィードフォワードトランスフォーマーモデルを開発します。このモデルは、人間のポーズ、体形、衣服のジオメトリ、テクスチャを分離するようにトレーニングされています。推定されたガウス関数は、事後処理なしでアニメーション化できます。提案されたデータセットと手法の効果を検証する包括的な実験を実施します。当該モデルは、単一のGPUを使用して、単一の入力画像から1Kの解像度で瞬時に写実的な人間を効率的に再構築する能力を示しています。さらに、さまざまなアプリケーションや形状、テクスチャの編集タスクをシームレスにサポートしています。
本論文では、オランダ語向けに特別に設計された小規模言語モデル(SLM)ファミリーであるFietjeを紹介します。このモデルは、英語中心の27億パラメータのPhi 2モデルに基づいています。Fietjeはリリース時により大きな言語モデルと競合する結果を示しました。この研究の中心的な重点は透明性と再現性であり、Fietjeは完全にオープンソースであり、モデルの重み、データセット、トレーニング、評価コードがすべて一般にアクセス可能です。 本論文では、Fietjeや他の多くのモデルの性能について議論し、推論、感情分析、世界知識、言語的受容性、単語の意味の曖昧さ解消などの幅広いベンチマーク評価スイートでの評価結果について取り上げます。評価結果は、最近の小規模モデルが、オランダ語向けに微調整された古い大きなモデルを上回る急速な進歩を示しています。この傾向は、オランダ語処理の未来が楽しみであり、コンパクトなLLM(大規模言語モデル)でさえますます能力が向上していることを示唆しています。 さらに、LLMをオランダ語に適応させるための現在進行中および将来の取り組みは、これらのモデルをさらに向上させ、適用範囲と利用可能性を拡大することが期待されています。Fietjeは、オランダ語を使用するユーザーに対する言語技術の利用可能性を向上させる過程での中間段階に過ぎません。
複数言語にわたる安全な大規模言語モデル(LLM)の構築は、安全なアクセスと言語の多様性の両方を確保する上で重要です。このため、私たちはM-ALERTを導入します。これは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語でLLMの安全性を評価する多言語ベンチマークです。M-ALERTには、各言語あたり15,000の高品質プロンプトが含まれ、詳細なALERTタクソノミーに従って合計75,000のプロンプトがあります。10の最先端LLMに関する私たちの包括的な実験は、言語固有の安全性分析の重要性を浮き彫りにし、モデルがしばしば言語やカテゴリにわたって安全性において著しい不一致を示すことを明らかにしました。例えば、Llama3.2はイタリア語のcrime_taxカテゴリで高い不安全性を示す一方、他の言語では安全です。同様の違いはすべてのモデルで見られます。一方、substance_cannabisやcrime_propagandaなどの特定のカテゴリは、モデルや言語を問わず一貫して安全でない応答を引き起こします。これらの調査結果は、多様なユーザーコミュニティにおける安全で責任ある使用を確保するために、LLMにおける堅牢な多言語安全性の実践の必要性を強調しています。