翻訳付きの日次キュレーションされたAI研究論文
テキストから画像を生成する拡散モデルは、ここ数年で驚異的な進化を遂げ、テキストプロンプトから高品質で多様な画像を合成することが可能になりました。しかし、最も先進的なモデルでさえ、プロンプト内のすべての指示を正確に追従することに苦戦することが少なくありません。これらのモデルの大多数は、(画像、キャプション)ペアで構成されるデータセットで学習されており、画像はウェブから取得され、キャプションはHTMLの代替テキストであることが多いです。代表的な例として、Stable Diffusionや他のモデルで使用されるLAIONデータセットが挙げられます。本研究では、これらのキャプションがしばしば低品質であることを観察し、これがテキストプロンプト内の微妙な意味をモデルが理解する能力に大きな影響を与えていると主張します。専門的な自動キャプションモデルを使用してコーパスを再ラベルし、再キャプションされたデータセットでテキストから画像を生成するモデルを学習させることで、モデルが全体的に大幅に改善されることを示します。まず、画像の全体的な品質において、例えばFIDが14.84(ベースラインは17.87)であり、人間による評価では忠実な画像生成が64.3%向上しました。次に、意味的整合性において、例えば意味的オブジェクト精度が84.34(ベースラインは78.90)、カウント整合性エラーが1.32(ベースラインは1.44)、位置整合性が62.42(ベースラインは57.60)となりました。コーパスを再ラベルする様々な方法を分析し、RECAPと呼ぶこの技術が、学習と推論の不一致を減少させ、モデルに各サンプルあたりの情報量を増やし、サンプル効率を向上させ、キャプションと画像の関係をより良く理解させることを示す証拠を提供します。
クリエイティブ・コモンズ(CC)ライセンスの画像データセットを構築し、それを用いてStable Diffusion 2(SD2)と質的に競合するオープンな拡散モデル群をトレーニングしました。この取り組みでは2つの課題がありました:(1) 高解像度のCC画像には、テキストから画像を生成するモデルをトレーニングするために必要なキャプションが欠けていること、(2) CC画像が比較的少ないことです。これらの課題に対処するため、直感的な転移学習技術を用いて、厳選されたCC画像とペアになる高品質な合成キャプションを生成しました。さらに、既存のSD2モデルのトレーニングに必要なLAION-2Bデータのわずか3%で同等の品質を達成する、データ効率と計算効率に優れたトレーニングレシピを開発しました。これらの結果は、高品質なモデルをトレーニングするために十分な数のCC画像(約7000万枚)があることを示しています。また、このトレーニングレシピでは、トレーニング速度を約3倍向上させるさまざまな最適化を実装し、迅速なモデル反復を可能にしました。このレシピを活用して、CommonCanvasファミリーと名付けた複数の高品質なテキストから画像を生成するモデルをトレーニングしました。最大のモデルは、LAIONよりも大幅に小規模なCCデータセットでトレーニングされ、合成キャプションを使用しているにもかかわらず、人間による評価においてSD2と同等の性能を達成しました。モデル、データ、コードは以下で公開しています: https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md
本論文では、高精細で一貫性のある3Dオブジェクトを生成する階層的3Dコンテンツ生成手法「DreamCraft3D」を提案します。本手法では、2D参照画像を活用してジオメトリの彫刻とテクスチャの強化の各段階をガイドすることで、既存研究が直面する一貫性の問題に取り組みます。一貫性のあるレンダリングを実現するジオメトリを彫刻するために、視点依存の拡散モデルを用いたスコア蒸留サンプリングを実施します。この3D事前分布と複数の学習戦略により、ジオメトリの一貫性を優先しますが、テクスチャの忠実度は犠牲になります。そこで、テクスチャを特に強化するために「ブートストラップ型スコア蒸留」を提案します。シーンの拡張レンダリングに対してパーソナライズされた拡散モデル「Dreambooth」を学習させ、最適化中のシーンに関する3D知識を付与します。この3Dを意識した拡散事前分布からのスコア蒸留は、シーンに対して視点一貫性のあるガイダンスを提供します。特に、拡散事前分布と3Dシーン表現を交互に最適化することで、相互に強化される改善を実現します:最適化された3Dシーンはシーン固有の拡散モデルの学習を助け、そのモデルは3D最適化に対してますます視点一貫性のあるガイダンスを提供します。これにより、最適化はブートストラップされ、テクスチャの大幅な強化が実現されます。階層的生成全体にわたって調整された3D事前分布を用いることで、DreamCraft3Dはフォトリアルなレンダリングを伴う一貫性のある3Dオブジェクトを生成し、3Dコンテンツ生成の最先端を進化させます。コードはhttps://github.com/deepseek-ai/DreamCraft3Dで公開されています。
Mixture-of-Experts (MoE) アーキテクチャは、大規模言語モデル (LLMs) の高い推論コストに対する一般的な解決策を提供し、スパースルーティングを通じてより高速で正確なモデルを実現しますが、その代償として膨大なパラメータ数を必要とします。例えば、SwitchTransformer-c2048 モデルは 1.6 兆のパラメータを持ち、効率的に実行するためには 3.2TB のアクセラレータメモリを必要とします。これは実用的な展開を困難かつ高価なものにしています。本論文では、このメモリ問題に対する解決策として、QMoE と呼ばれる新しい圧縮および実行フレームワークを提案します。具体的には、QMoE は、カスタム形式で設計された GPU デコードカーネルと連携し、効率的なエンドツーエンドの圧縮推論を可能にするスケーラブルなアルゴリズムで構成されており、非圧縮実行と比較してわずかなランタイムオーバーヘッドで、兆単位のパラメータを持つ MoE を 1 パラメータあたり 1 ビット未満に正確に圧縮します。具体的には、QMoE は 1.6 兆パラメータの SwitchTransformer-c2048 モデルを、わずかな精度損失で 160GB 未満 (20 倍の圧縮、1 パラメータあたり 0.8 ビット) に圧縮し、単一の GPU で 1 日未満で完了します。これにより、初めて、4 台の NVIDIA A6000 または 8 台の NVIDIA 3090 GPU を搭載した単一のサーバーなどの手頃な市販ハードウェア上で、理想的な非圧縮推論と比較して 5% 未満のランタイムオーバーヘッドで、兆単位のパラメータモデルを実行することが可能になります。ソースコードと圧縮モデルは github.com/IST-DASLab/qmoe で公開されています。
本論文では、GPT-4Vのさまざまな能力を評価します。これには、視覚理解、言語理解、視覚パズル解決、および深度、熱、ビデオ、オーディオなどの他のモダリティの理解が含まれます。GPT-4Vの性能を推定するために、656のテストインスタンスを手動で構築し、GPT-4Vの結果を慎重に評価しました。私たちの調査結果のハイライトは以下の通りです:(1)GPT-4Vは英語の視覚中心のベンチマークで印象的な性能を示しますが、画像内の簡単な中国語テキストを認識できません;(2)GPT-4Vは、性別、人種、年齢などの敏感な特性に関連する質問に答える際に、一貫しない拒否行動を示します;(3)GPT-4Vは、一般的な言語理解ベンチマークや視覚的常識知識評価ベンチマークを含む言語理解タスクにおいて、GPT-4(API)よりも悪い結果を出します;(4)Few-shotプロンプティングは、GPT-4Vの視覚理解と言語理解の両方の性能を向上させることができます;(5)GPT-4Vは、2つの類似した画像の微妙な違いを見つけることや、簡単な数学パズルを解決することに苦労します;(6)GPT-4Vは、ビデオや熱などの画像に類似したモダリティのタスクで非自明な性能を示します。私たちの実験結果は、GPT-4Vの能力と限界を明らかにし、本論文がGPT-4Vの応用と研究にいくつかの洞察を提供することを期待しています。
本研究では、単一視点画像から高精細なテクスチャ付きメッシュを効率的に生成する新規手法「Wonder3D」を提案する。最近のScore Distillation Sampling(SDS)に基づく手法は、2D拡散事前分布から3D形状を復元する可能性を示しているが、形状ごとの時間のかかる最適化や一貫性のない形状生成に悩まされることが多い。一方、高速なネットワーク推論によって直接3D情報を生成する手法もあるが、その結果は品質が低く、幾何学的な詳細が欠けていることが多い。画像から3Dへの変換タスクにおいて、品質、一貫性、効率を包括的に改善するため、我々はマルチビューの法線マップと対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。一貫性を確保するために、ビュー間およびモダリティ間の情報交換を促進するマルチビュークロスドメインアテンション機構を採用する。最後に、マルチビュー2D表現から高品質な表面を抽出する幾何学的に意識した法線融合アルゴリズムを導入する。広範な評価を通じて、本手法が従来手法と比較して高品質な再構成結果、堅牢な汎化性能、そして合理的な効率性を達成することを実証する。
多くの研究者は、ConvNetsが小規模または中規模のデータセットでは良好な性能を発揮するが、ウェブスケールのデータセットにアクセスできる場合、Vision Transformersに匹敵しないと考えています。私たちはこの考えに挑戦するため、大規模なラベル付き画像データセットであるJFT-4Bで事前学習された高性能なConvNetアーキテクチャを評価しました。0.4kから110k TPU-v4コア計算時間の事前学習計算予算を考慮し、NFNetモデルファミリーから深さと幅を増やした一連のネットワークを学習しました。保持された損失と計算予算の間にlog-logスケーリング則が観察されました。ImageNetでファインチューニングした後、NFNetsは同等の計算予算を持つVision Transformersの報告された性能に匹敵しました。私たちの最も強力なファインチューニングモデルは、Top-1精度90.4%を達成しました。
我々は、大規模言語モデル(LLM)の重みと活性化を4ビット浮動小数点値にポストトレーニング方式で量子化する手法「LLM-FP4」を提案する。既存のポストトレーニング量子化(PTQ)手法は主に整数ベースであり、8ビット以下のビット幅では性能が低下する。整数量子化と比較して、浮動小数点(FP)量子化はより柔軟であり、ロングテール分布やベル型分布をより適切に扱うことができ、多くのハードウェアプラットフォームでデフォルトの選択肢となっている。FP量子化の特徴の一つは、その性能が指数ビットとクリッピング範囲の選択に大きく依存することである。この点に関して、我々は最適な量子化パラメータを探索することで強力なFP-PTQベースラインを構築した。さらに、活性化分布において高いチャネル間分散と低いチャネル内分散のパターンを観察し、これが活性化量子化の難易度を高めていることを認識した。このパターンは、LLM、BERT、Vision Transformerなど、多様なタスク向けに設計されたトランスフォーマーモデル全体で一貫している。これに対処するため、我々はチャネルごとの活性化量子化を提案し、これらの追加のスケーリングファクターを重みの指数バイアスとして再パラメータ化できることを示した。これにより、無視できる程度のコストで実現可能である。我々の手法は、初めてLLaMA-13Bの重みと活性化を4ビットに量子化し、常識的ゼロショット推論タスクで平均スコア63.1を達成した。これは完全精度モデルよりもわずか5.8低いだけで、従来の最先端手法を12.7ポイント上回る大幅な性能向上を実現した。コードは以下で公開されている: https://github.com/nbasyl/LLM-FP4。
大規模言語モデル(LLM)は広く展開されているものの、その訓練に使用されたデータはほとんど公開されていない。このデータの規模は数兆トークンに及ぶため、著作権で保護された素材、個人を特定可能な情報、広く報告されている参照ベンチマークのテストデータなど、潜在的に問題のあるテキストが含まれていることはほぼ確実である。しかし、現時点では、これらの種類のデータがどの程度含まれているかを知る手段はない。本論文では、事前学習データ検出問題を研究する:与えられたテキストと、事前学習データを知らないブラックボックスアクセス可能なLLMを前提として、そのモデルが提供されたテキストで訓練されたかどうかを判断できるか?この研究を促進するため、モデル訓練の前後に作成されたデータを使用して真実検出をサポートする動的ベンチマークWIKIMIAを導入する。また、新しい検出手法Min-K% Probを提案する。これは、未見の例にはLLMの下で確率が低い外れ値の単語がいくつか含まれる可能性が高く、既見の例にはそのような低確率の単語が含まれる可能性が低いという単純な仮説に基づいている。Min-K% Probは、事前学習コーパスに関する知識や追加の訓練を必要とせずに適用可能であり、事前学習データに類似したデータで参照モデルを訓練する必要がある従来の検出手法とは異なる。さらに、我々の実験では、Min-K% ProbがWIKIMIAにおいて従来の手法よりも7.4%の改善を達成することを示している。Min-K% Probを、著作権で保護された書籍の検出と、汚染された下流例の検出という2つの現実世界のシナリオに適用し、一貫して効果的な解決策であることを確認した。
Transformerベースの大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて画期的な進歩を遂げています。しかし、その優れた能力はTransformerの事前設定されたコンテキストウィンドウ内に制限されています。位置埋め込み(PE)スケーリング手法は、コンテキストウィンドウを特定の長さに拡張する点では有効ですが、外挿能力に顕著な制限があるか、コンテキストウィンドウ内での性能を一部犠牲にしています。長さ外挿手法は、理論的にはトレーニングシーケンス長を超えてコンテキストウィンドウを拡張できるものの、実際の長文コンテキストアプリケーションではしばしば性能が低下します。これらの課題に対処するため、我々はLLM向けのContinuous Length EXtrapolation(CLEX)を提案します。我々はPEスケーリング手法を一般化し、長さスケーリング係数に関する常微分方程式によって連続的なダイナミクスをモデル化することで、特定の長さに設計された現在のPEスケーリング手法の制約を克服します。さらに、ダイナミクスをトレーニングシーケンス長を超える所望のコンテキスト長に拡張することで、CLEXは実用的なタスクにおいて優れた性能を発揮する長さ外挿を可能にします。我々は、CLEXがRotary Position Embeddingを備えたLLM(LLaMAやGPT-NeoXなど)にシームレスに組み込まれ、トレーニングおよび推論の遅延にほとんど影響を与えないことを示します。実験結果から、CLEXはコンテキストウィンドウをトレーニング長の4倍以上またはほぼ8倍に効果的に拡張し、性能の劣化なしに実現できることが明らかになりました。さらに、実用的なLongBenchベンチマークで評価したところ、4k長でトレーニングされた我々のモデルは、32kまでのコンテキスト長でトレーニングされた最先端のオープンソースモデルと競争力のある性能を示しました。
大規模な基盤モデルを最新のデータに保つことは、本質的にコストがかかる。絶え間ない再訓練の莫大なコストを回避するため、これらのモデルを継続的に訓練することが不可欠である。この問題は、大規模な継続学習のベンチマークやベースラインが存在しないことによってさらに悪化している。我々は、視覚言語モデルの訓練のための初のウェブスケールの時間継続型(TiC)ベンチマークを導入する:TiC-DataCompt、TiC-YFCC、およびTiC-RedCapsで、9年間(2014年~2022年)にわたる12.7B以上のタイムスタンプ付き画像テキストペアをカバーする。まず、これらのベンチマークを使用して、既存モデルの時間的堅牢性を測定するための様々な動的評価を策定する。OpenAIのCLIP(2020年までのデータで訓練)が、OpenCLIPリポジトリのより最近に訓練されたモデルと比較して、2021年~2022年の我々のキュレートした検索タスクで約8%のゼロショット精度を失うことを示す。次に、時間連続データ上でモデルを効率的に訓練する方法を研究する。最後のチェックポイントから訓練を継続し、古いデータをリプレイする単純なリハーサルベースのアプローチが、ゼロから再訓練する標準的な手法と比較して、計算量を2.5倍削減することを実証する。
TD-MPCは、学習された暗黙的(デコーダーフリー)な世界モデルの潜在空間において局所的な軌道最適化を行うモデルベース強化学習(RL)アルゴリズムです。本研究では、TD-MPCアルゴリズムを改良したTD-MPC2を提案します。TD-MPC2は、4つの多様なタスク領域にまたがる104のオンラインRLタスクにおいてベースラインを大幅に上回り、単一のハイパーパラメータセットで一貫して強力な結果を達成することを実証します。さらに、エージェントの能力がモデルサイズとデータサイズに比例して向上することを示し、3億1700万パラメータの単一エージェントを複数のタスク領域、実装形態、およびアクション空間にわたる80のタスクを実行するように訓練することに成功しました。最後に、大規模TD-MPC2エージェントに関連する教訓、機会、およびリスクについて考察します。動画、モデル、データ、コードなどはhttps://nicklashansen.github.io/td-mpc2でご覧いただけます。
モバイルデバイスにおけるリアルタイムの新視点画像合成は、計算能力とストレージの制約から実現が困難です。NeRFやその派生手法のようなボリュメトリックレンダリング手法は、計算コストが高いためモバイルデバイスには適していません。一方、最近のニューラルライトフィールド表現の進展により、モバイルデバイスでのリアルタイムな視点合成が可能になりつつあります。ニューラルライトフィールド手法は、光線表現からピクセル色への直接的なマッピングを学習します。現在の光線表現の選択肢は、層別化された光線サンプリングまたはPl\"{u}cker座標であり、古典的なライトスラブ(二平面)表現は見過ごされています。この表現は、ライトフィールドビュー間の補間において好まれる表現です。本研究では、ライトスラブ表現がニューラルライトフィールドを学習するための効率的な表現であることを明らかにしました。さらに重要なことに、これは低次元の光線表現であり、4D光線空間を特徴グリッドを用いて学習することが可能です。これにより、学習とレンダリングの速度が大幅に向上します。主に正面ビュー向けに設計されていますが、ライトスラブ表現は分割統治法を用いることで非正面シーンにも拡張可能であることを示します。本手法は、従来のライトフィールド手法と比較して優れたレンダリング品質を提供し、レンダリング品質と速度のトレードオフを大幅に改善します。