翻訳付きの日次キュレーションされたAI研究論文
Transformerベースの言語モデルは、入力シーケンス全体にFLOPsを均一に分散させます。本研究では、Transformerが代わりに、シーケンス内の特定の位置にFLOPs(または計算リソース)を動的に割り当てることを学習し、モデルの深さにわたって異なる層でシーケンスに沿った割り当てを最適化できることを示します。私たちの手法では、特定の層でセルフアテンションとMLP計算に参加できるトークン数(k)を制限することで、総計算量の予算を強制します。処理されるトークンは、ネットワークがトップkルーティングメカニズムを使用して決定します。kは事前に定義されるため、このシンプルな手順は、他の条件付き計算技術とは異なり、既知のテンソルサイズを持つ静的な計算グラフを使用します。しかし、k個のトークンの識別情報は流動的であるため、この手法は時間とモデルの深さの次元にわたってFLOPsを不均一に消費することができます。したがって、計算量の総計は完全に予測可能ですが、トークンレベルでは動的かつ文脈依存です。この方法で訓練されたモデルは、計算リソースを動的に割り当てることを学習するだけでなく、効率的にそれを行います。これらのモデルは、同等のFLOPsと訓練時間でベースライン性能を達成しつつ、フォワードパスごとのFLOPsはわずかで、訓練後のサンプリング中にステップする速度が最大50%向上する可能性があります。
本論文では、Visual AutoRegressive modeling (VAR) を提案する。これは、従来のラスタースキャン方式の「次トークン予測」から脱却し、画像に対する自己回帰学習を「次スケール予測」または「次解像度予測」という粗から細への生成パラダイムとして再定義する新しいアプローチである。このシンプルで直感的な手法により、自己回帰型(AR)トランスフォーマーは視覚的分布を高速に学習し、優れた汎化性能を発揮する。VARは、ARモデルが初めて拡散トランスフォーマーを画像生成において凌駕することを可能にした。ImageNet 256x256ベンチマークにおいて、VARはARベースラインを大幅に改善し、Frechet Inception Distance (FID) を18.65から1.80へ、Inception Score (IS) を80.4から356.4へ向上させ、推論速度も約20倍高速化した。また、VARがDiffusion Transformer (DiT) を画像品質、推論速度、データ効率、スケーラビリティの複数の次元で上回ることが実験的に確認された。VARモデルのスケールアップは、LLMで観察されるものと同様の明確なべき乗則を示し、線形相関係数が-0.998に近いことがその確かな証拠となっている。VARはさらに、画像のインペインティング、アウトペインティング、編集といった下流タスクにおいてゼロショット汎化能力を発揮する。これらの結果は、VARがLLMの2つの重要な特性、すなわちスケーリング則とゼロショットタスク汎化を初期段階で模倣していることを示唆している。我々は、視覚生成と統一学習のためのAR/VARモデルの探求を促進するため、全てのモデルとコードを公開した。
アルゴリズム的推論とは、問題の背後にある複雑なパターンを理解し、それを解決に向けた一連の推論ステップに分解する能力を指します。このようなアルゴリズム的推論の性質は、大規模言語モデル(LLM)にとって課題となります。LLMは他の推論タスクでは有望な性能を示しているものの、アルゴリズム的推論においては困難を伴います。この文脈において、最近の研究では、プログラミング言語(例えばPython)を使用して、与えられた問題インスタンス/質問を解決するために必要なロジックを表現するアプローチ(例えば、Program-of-Thought)が提案されています。これは、プログラミング言語の厳密で正確な構文に着想を得たものです。しかし、単一の推論呼び出しの中で、正しいロジックを表現する実行可能なコードをその場で作成することは容易ではありません。また、特定のインスタンスのために生成されたコードは、同じタスクからの他のインスタンスであっても、同じロジックを必要とする場合であっても、再利用することができません。本論文では、Think-and-Executeという新しいフレームワークを提案します。このフレームワークは、言語モデルの推論プロセスを2つのステップに分解します。(1) Thinkステップでは、与えられたタスクを解決するためにすべてのインスタンスで共有されるタスクレベルのロジックを発見し、そのロジックを疑似コードで表現します。(2) Executeステップでは、生成された疑似コードを各インスタンスにさらに適合させ、コードの実行をシミュレートします。7つのアルゴリズム的推論タスクにおける広範な実験を通じて、Think-and-Executeの有効性を実証します。我々のアプローチは、インスタンス固有の推論を行ういくつかの強力なベースライン(例えば、CoTやPoT)と比較して、LMの推論をより改善し、タスクレベルのロジックを発見することの有用性を示唆しています。また、自然言語と比較して、疑似コードがLMの推論をより良く導くことができることを示します。これは、LMが自然言語の指示に従うように訓練されているにもかかわらず、です。
大規模言語モデル(LLM)は人間の言語を優れたレベルで習得しているが、数学的問題解決を必要とする実世界のアプリケーションでは依然として苦戦している。LLMの数学的能力を向上させるための多くの戦略やデータセットが開発されているものの、展開されたLLMシステムにおいて言語能力と数学的能力の両方を維持し向上させることは依然として課題である。本研究では、LLMのアラインメントにおけるフィードバック学習段階での課題に対処するため、Self-Critiqueパイプラインをカスタマイズした。まず、LLM自体から汎用的なMath-Critiqueモデルを訓練し、フィードバック信号を提供する。次に、LLM自身の生成に対して拒絶的ファインチューニングと直接選好最適化を順次適用してデータ収集を行う。ChatGLM3-32Bを基盤として、学術的なデータセットと新たに作成した難易度の高いデータセットMathUserEvalの両方で一連の実験を実施した。結果は、本パイプラインがLLMの数学的問題解決能力を大幅に向上させると同時に言語能力も向上させ、2倍の規模のLLMを凌駕することを示している。関連技術は、オンラインサービスLLMであるChatGLM\url{https://chatglm.cn}に展開されている。関連する評価データセットとスクリプトはhttps://github.com/THUDM/ChatGLM-Mathで公開されている。
チューニング不要の拡散モデルは、画像のパーソナライゼーションとカスタマイズの分野で大きな可能性を示しています。しかし、この顕著な進歩にもかかわらず、現在のモデルはスタイル一貫性のある画像生成において、いくつかの複雑な課題に直面しています。第一に、スタイルという概念は本質的に未決定であり、色、素材、雰囲気、デザイン、構造など、多様な要素を含んでいます。第二に、逆変換ベースの手法はスタイルの劣化を招きやすく、細部のディテールが失われることが頻繁にあります。最後に、アダプターベースのアプローチでは、スタイルの強度とテキストの制御性のバランスを取るために、各参照画像に対して入念な重み調整が必要となることが多いです。本論文では、まずいくつかの興味深いが頻繁に見落とされている観察を検討します。その後、これらの課題に対処するために設計されたInstantStyleフレームワークを紹介します。このフレームワークは、以下の2つの主要な戦略を実装しています:1) 同じ空間内の特徴量は互いに加算または減算できるという前提に基づき、参照画像からスタイルとコンテンツを特徴空間で分離するシンプルなメカニズム。2) 参照画像の特徴量をスタイル固有のブロックにのみ注入することで、スタイルの漏洩を防ぎ、パラメータが多くなりがちな設計で必要となる煩雑な重み調整を回避します。我々の研究は、スタイルの強度とテキスト要素の制御性の最適なバランスを実現し、優れた視覚的スタイライゼーション結果を示しています。コードはhttps://github.com/InstantStyle/InstantStyleで公開予定です。
大規模なモデルとデータサイズのスケーリングは、LLM(大規模言語モデル)の進化において非常に成功を収めてきました。しかし、拡散モデルに基づくテキストから画像(T2I)生成モデルのスケーリング則は十分に探究されていません。また、コストを削減しながら性能を向上させるためにモデルを効率的にスケーリングする方法も明らかではありません。異なるトレーニング設定と高額なトレーニングコストにより、公平なモデル比較は極めて困難です。本研究では、拡散モデルに基づくT2Iモデルのスケーリング特性を実証的に調査するため、デノイジングバックボーンとトレーニングセットのスケーリングに関する広範かつ厳密なアブレーション実験を行いました。これには、0.4Bから4BパラメータのスケーリングされたUNetおよびTransformerバリアントを、最大600M枚の画像データセットでトレーニングすることが含まれます。モデルスケーリングに関しては、クロスアテンションの位置と量が既存のUNet設計の性能を左右することがわかりました。また、チャネル数を増やすよりも、Transformerブロックを増やすことがテキストと画像のアラインメントを改善するためのパラメータ効率が高いことが明らかになりました。その後、SDXLのUNetよりも45%小さく、28%高速な効率的なUNetバリアントを特定しました。データスケーリングの側面では、トレーニングセットの品質と多様性が、単純なデータセットサイズよりも重要であることを示しました。キャプションの密度と多様性を増やすことで、テキストと画像のアラインメント性能と学習効率が向上します。最後に、モデルサイズ、計算量、データセットサイズのスケールに応じてテキストと画像のアラインメント性能を予測するスケーリング関数を提供します。
本研究では、テキスト条件付き拡散モデルにおける推論時のクロスアテンションの役割を探求する。クロスアテンションの出力は、数回の推論ステップ後に固定点に収束することがわかった。これにより、収束の時点が自然と推論プロセス全体を2つの段階に分ける:初期の意味計画段階では、モデルはクロスアテンションに依存してテキスト指向の視覚的意味を計画し、その後の忠実度向上段階では、モデルは事前に計画された意味から画像を生成しようとする。驚くべきことに、忠実度向上段階でテキスト条件を無視することは、計算複雑性を低減するだけでなく、モデルの性能も維持する。これにより、クロスアテンションの出力が収束したらそれをキャッシュし、残りの推論ステップ中に固定するという、TGATEと呼ばれるシンプルでトレーニング不要な効率的生成手法が得られる。MS-COCO検証セットでの実証研究により、その有効性が確認された。TGATEのソースコードはhttps://github.com/HaozheLiu-ST/T-GATEで公開されている。
本論文は、周波数分解による高忠実度で転移可能なNeRF編集を実現する。最近のNeRF編集パイプラインは、2Dのスタイル化結果を3Dシーンに適用するが、ぼやけた結果に悩まされ、2D編集間の不整合により詳細な構造を捉えることに失敗している。我々の重要な洞察は、編集後の画像の低周波成分が高周波部分と比較して多視点整合性が高いことである。さらに、外観スタイルは主に低周波成分に現れ、内容の詳細は特に高周波部分に存在する。これにより、低周波成分に対して編集を行うことで、高忠実度の編集シーンが得られる。加えて、編集は低周波特徴空間で行われるため、安定した強度制御と新規シーン転移が可能となる。フォトリアルなデータセットで実施した包括的な実験により、高忠実度で転移可能なNeRF編集の優れた性能が実証された。プロジェクトページはhttps://aigc3d.github.io/freditorにある。