翻訳付きの日次キュレーションされたAI研究論文
我々は、物体記述(例:バウンディングボックス)を認識し、テキストを視覚世界にグラウンディングする新たな能力を備えたマルチモーダル大規模言語モデル(MLLM)であるKosmos-2を紹介する。具体的には、参照表現をMarkdownのリンクとして表現し、すなわち「[テキストスパン](バウンディングボックス)」とし、物体記述を位置トークンのシーケンスとして表す。マルチモーダルコーパスと共に、グラウンディングされた画像-テキストペアの大規模データ(GrITと呼ぶ)を構築し、モデルを訓練する。既存のMLLMの能力(例:一般的なモダリティの認識、指示の追従、コンテキスト内学習の実行)に加えて、Kosmos-2はグラウンディング能力を下流アプリケーションに統合する。我々はKosmos-2を幅広いタスクで評価し、これには(i)参照表現理解やフレーズグラウンディングなどのマルチモーダルグラウンディング、(ii)参照表現生成などのマルチモーダル参照、(iii)知覚-言語タスク、(iv)言語理解と生成が含まれる。この研究は、エンボディメントAIの開発の基盤を築き、言語、マルチモーダル知覚、行動、世界モデリングの大いなる収束に光を当てるものであり、人工汎用知能に向けた重要な一歩である。データ、デモ、および事前訓練済みモデルはhttps://aka.ms/kosmos-2で利用可能である。
事前学習された大規模言語モデルの進展が進む中で、言語とモーションなどの他のマルチモーダルデータを統合したモデルを構築する探求は、依然として困難であり、これまで手つかずの領域となっています。幸いなことに、人間のモーションは人間の言語と類似した意味的結合を示し、しばしばボディランゲージの一形態として認識されます。言語データと大規模なモーションモデルを融合させることで、モーション関連タスクの性能を向上させることが可能なモーション言語事前学習が実現可能となります。この洞察に基づき、私たちはMotionGPTを提案します。これは、複数のモーション関連タスクを処理するための統合的で汎用的、かつユーザーフレンドリーなモーション言語モデルです。具体的には、人間のモーションに対して離散ベクトル量子化を適用し、3Dモーションをモーショントークンに変換します。これは、単語トークンの生成プロセスと類似しています。この「モーション語彙」を基盤として、モーションとテキストの両方に対して言語モデリングを統一的に行い、人間のモーションを特定の言語として扱います。さらに、プロンプト学習にインスパイアされ、MotionGPTをモーション言語データの混合で事前学習し、プロンプトベースの質問応答タスクでファインチューニングします。広範な実験により、MotionGPTがテキスト駆動モーション生成、モーションキャプショニング、モーション予測、モーション中間生成を含む複数のモーションタスクにおいて、最先端の性能を達成することが実証されています。
精密で制御可能な画像編集は、重要な注目を集めている挑戦的な課題である。最近、DragGANはインタラクティブなポイントベースの画像編集フレームワークを可能にし、ピクセルレベルの精度で印象的な編集結果を達成している。しかし、この手法は生成敵対ネットワーク(GAN)に基づいているため、その汎用性は事前学習済みGANモデルの能力によって制限されている。本研究では、このような編集フレームワークを拡散モデルに拡張し、DragDiffusionを提案する。大規模な事前学習済み拡散モデルを活用することで、実世界のシナリオにおけるインタラクティブなポイントベース編集の適用性を大幅に向上させる。既存の拡散ベースの画像編集手法の多くがテキスト埋め込みに基づいて動作するのに対し、DragDiffusionは拡散潜在を最適化することで、精密な空間制御を実現する。拡散モデルは反復的に画像を生成するが、単一のステップで拡散潜在を最適化するだけで一貫した結果を生成できることを実証的に示し、DragDiffusionが高品質な編集を効率的に完了できることを明らかにする。多様な挑戦的なケース(例:複数オブジェクト、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる広範な実験を通じて、DragDiffusionの汎用性と一般性を実証する。
Segment Anything Model(SAM)は、プロンプト誘導型の視覚基盤モデルであり、対象物を背景から切り抜くことを目的としています。Metaの研究チームがSAプロジェクトを公開して以来、SAMはその驚異的なゼロショット転移性能と、画像編集のような高度な視覚アプリケーションにおける細かい制御を可能にする他のモデルとの高い互換性により、大きな注目を集めています。このようなユースケースの多くは、モバイルアプリのようなリソース制約のあるエッジデバイスで実行される必要があります。本研究では、重い画像エンコーダを軽量なものに置き換えることで、SAMをモバイルフレンドリーにすることを目指しています。元のSAM論文のように新しいSAMをナイーブにトレーニングする方法では、特にトレーニングリソースが限られている場合、満足のいく性能が得られません。この問題は、画像エンコーダとマスクデコーダの結合最適化が主な原因であることがわかり、これに動機づけられて、我々は分離蒸留を提案します。具体的には、元のSAMの画像エンコーダViT-Hから軽量な画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持つようにします。トレーニングは1日以内に単一のGPUで完了し、結果として得られる軽量なSAMはMobileSAMと名付けられ、元のSAMと同等の性能を維持しながら60倍以上小さくなります。推論速度に関しては、MobileSAMは1画像あたり約10msで実行されます:画像エンコーダで8ms、マスクデコーダで2msです。優れた性能と高い汎用性を備えた我々のMobileSAMは、同時期に発表されたFastSAMよりも7倍小さく、4倍高速であり、モバイルアプリケーションにより適しています。MobileSAMプロジェクトのコードはhttps://github.com/ChaoningZhang/MobileSAMで提供されています。
大規模言語モデル(LLMs)は、最近の目覚ましい成果にもかかわらず、特に対話システムやストーリー作成などの長文生成を伴うアプリケーションにおいて、展開コストが非常に高くなることが顕著です。多くの場合、モデルパラメータに加えて、KVキャッシュと呼ばれる大量の一時的な状態情報がGPUメモリに保存され、シーケンス長とバッチサイズに比例して増加します。本論文では、KVキャッシュのメモリ使用量を大幅に削減する新しいアプローチを紹介します。このアプローチは、アテンションスコアを計算する際に、トークンのごく一部が大部分の価値を提供するという注目すべき観察に基づいています。これらのトークンをHeavy Hitters(H_2)と呼びます。詳細な調査を通じて、(i) H_2の出現は自然であり、テキスト内でのトークンの頻繁な共起と強く相関していること、(ii) それらを除去すると性能が大幅に低下することを明らかにしました。これらの知見に基づき、最近のトークンとH_2トークンのバランスを動的に維持するKVキャッシュの削除ポリシーであるHeavy Hitter Oracle(H_2O)を提案します。KVキャッシュの削除を動的な劣モジュラ問題として定式化し、(穏やかな仮定の下で)新しい削除アルゴリズムの理論的保証を証明しました。これは今後の研究を導くのに役立つ可能性があります。OPT、LLaMA、GPT-NeoXを用いて、幅広いタスクでアルゴリズムの精度を検証しました。20%のHeavy Hittersを用いたH_2Oの実装は、OPT-6.7BとOPT-30Bにおいて、DeepSpeed Zero-Inference、Hugging Face Accelerate、FlexGenという3つの主要な推論システムに対して、それぞれ最大29倍、29倍、3倍のスループット向上をもたらしました。同じバッチサイズで、H2Oは最大1.9倍のレイテンシ削減を実現しました。コードはhttps://github.com/FMInference/H2Oで公開されています。
現在、高性能な大規模言語モデル(LLM)を事前学習するためのトレンドは、主にモデルとデータセットの規模の拡大に焦点を当てています。しかし、事前学習データの質は強力なLLMを訓練する上で重要な要素でありながら、まだ十分に特徴付けられていない曖昧な概念です。そこで、我々は最近提案されたTask2Vec多様性係数を使用して、データ品質の形式的な側面を理解し、単なる規模を超えた分析を行います。具体的には、公開されている事前学習データセットの多様性係数を測定し、それらの形式的な多様性が理論的な下限と上限と比較して高いことを示します。さらに、多様性係数の信頼性を高めるために、解釈可能性の実験を行い、この係数が多様性の直感的な特性(例えば、潜在的な概念の数が増えると係数が増加するなど)と一致することを確認します。我々は、多様性係数が信頼できるものであり、公開されているLLMデータセットにおいて高い値を示すことを結論付け、この係数がLLMのための有用な多様なデータセットを構築するために使用できると推測します。
実践的および理論的な機械学習における中心的な概念の一つが、弱学習器(weak learner)です。これは、任意のデータ分布において、わずかな差であってもランダムな性能を上回る分類器を指します。このような弱学習器は、ブースティング(boosting)のような標準的な機械学習手法の実践的な基盤を形成しています。本研究では、プロンプトベースの大規模言語モデル(LLM)が、この弱学習器として効果的に機能し得ることを示します。具体的には、表形式データに適用されたブースティングアルゴリズムにおいて、LLMを弱学習器として使用する方法を説明します。興味のある分布に従って適切にサンプリングされた表形式データのテキスト記述を提供することで、LLMは分類のテンプレートとして機能するサンプルの要約を生成し、このタスクにおいて弱学習器としての目的を達成できることを示します。これらのモデルをブースティング手法に組み込むことで、一部の設定では、LLM内の知識を活用して従来のツリーベースのブースティングを上回る性能を発揮できることを示します。このモデルは、特にデータポイントが少ないタスクにおいて、少数ショット学習(few-shot learning)や、場合によってはより複雑なファインチューニング手法さえも上回る性能を示します。これらの結果は、プロンプトベースのLLMが単独で少数ショット学習器として機能するだけでなく、より大規模な機械学習パイプラインの構成要素としても機能し得る可能性を示しています。
多様なデータセットで訓練された大規模なTransformerモデルは、文脈内学習において驚くべき能力を示し、明示的に訓練されていないタスクにおいても高いFew-shot性能を達成しています。本論文では、Transformerの意思決定問題における文脈内学習能力、すなわちバンディットやマルコフ決定過程における強化学習(RL)について研究します。これを行うために、我々はDecision-Pretrained Transformer(DPT)を導入し、その特性を調査します。DPTは、Transformerがクエリ状態と文脈内の相互作用データセットを基に最適な行動を予測するという、多様なタスクにわたる教師付き事前学習手法です。この手順は単純ながら、いくつかの驚くべき能力を持つモデルを生み出します。事前学習されたTransformerは、明示的に訓練されていないにもかかわらず、オンラインでの探索とオフラインでの保守性を示し、幅広いRL問題を文脈内で解決できることがわかりました。また、このモデルは事前学習分布を超えて新しいタスクに一般化し、未知の構造に対して自動的に意思決定戦略を適応させます。理論的には、DPTがベイズ事後サンプリングの効率的な実装と見なせることを示し、これは証明可能なサンプル効率の良いRLアルゴリズムです。さらに、この関連性を活用して、DPTによって生成される文脈内アルゴリズムの後悔に関する保証を提供し、事前学習データを生成するために使用されたアルゴリズムよりも速く学習できることを証明します。これらの結果は、Transformerに強力な文脈内意思決定能力を備えさせるための有望でシンプルな道筋を示唆しています。
大規模なデータセットは、現代の深層学習において不可欠です。支持者たちは、これらの手法を理解するためにはデータセットの透明性(例えば、「データセットのキュレーション、動機、構成、収集プロセスなど」)が必要だと主張しています。しかし、アノテーターに提供された詳細な定義や視覚的カテゴリーの例を公開することを提案する人はほとんどいませんでした。これらの情報は、各データセットに存在するアノテーションの構造を理解するために極めて重要です。これらのラベルは公開データセットの核心をなすものでありながら、それらを生成するために使用された指示を含むデータセットはほとんどありません。我々は、公開されているラベリング指示が欠如している問題に対処するために、新しいタスクである「ラベリング指示生成」を提案します。ラベリング指示生成では、適切にアノテーションされたデータセットを基に、1) データセット内の各カテゴリーを視覚的に代表する一連の例を生成し、2) 各例に対応するテキストラベルを提供します。我々は、このタスクを解決するためにモデルのトレーニングを必要としないフレームワークを導入し、大規模な事前学習済み視覚と言語モデルを活用した新たな高速検索システムを含めます。このフレームワークは、最終的なラベリング指示セットを生成し、その品質を評価するのに役立つ人間のアノテーターの代理として機能します。我々のフレームワークは、データセットのカテゴリーを多様な視覚的およびテキスト表現で生成します。最適化された指示セットは、NuImagesでは7.06 mAP、COCOでは12.9 mAPで、最も強力なベースラインを上回りました。
汎用事前学習モデル(「基盤モデル」)は、実践者がゼロから学習するために必要なデータセットよりも大幅に小さいデータセットで、個々の機械学習問題に対する汎用的なソリューションを生み出すことを可能にしました。このようなモデルは通常、弱い教師信号を用いて大規模で多様なデータセットで訓練され、個々の下流アプリケーションで利用可能なデータよりもはるかに多くの訓練データを消費します。本論文では、ビジョンベースのロボットナビゲーションに汎用事前学習モデルの成功をもたらすことを目指す基盤モデルであるVisual Navigation Transformer(ViNT)を紹介します。ViNTは、任意のナビゲーションデータセットで使用可能な一般的な目標到達目的で訓練され、柔軟なTransformerベースのアーキテクチャを採用してナビゲーションのアフォーダンスを学習し、さまざまな下流ナビゲーションタスクへの効率的な適応を可能にします。ViNTは、さまざまなロボットプラットフォームからの数百時間に及ぶロボットナビゲーションを含む既存のナビゲーションデータセットで訓練され、単一のデータセットで訓練された専門モデルを上回るポジティブ転移を示します。ViNTは、拡散ベースのサブゴール提案を追加することで新規環境の探索が可能であり、長距離ヒューリスティクスを備えることでキロメートルスケールのナビゲーション問題を解決できます。また、ViNTは、プロンプトチューニングにインスパイアされた技術を用いて新しいタスク仕様に適応可能です。ここでは、ゴールエンコーダを、ゴールトークンの同じ空間に埋め込まれた別のタスクモダリティ(例えば、GPSウェイポイントやルーティングコマンド)のエンコーディングに置き換えます。この柔軟性とさまざまな下流問題領域に対応する能力により、ViNTはモバイルロボティクスのための効果的な基盤モデルとして確立されます。動画、コード、およびモデルチェックポイントについては、プロジェクトページhttps://visualnav-transformer.github.ioをご覧ください。
マルチモーダルタスクにおける有望な進展にもかかわらず、現在の大規模マルチモーダルモデル(LMM)は、関連する画像や人間の指示に対して一貫性のない記述を生成する傾向があります。本論文では、この問題に対処するため、大規模で多様な視覚的指示チューニングデータセットであるLarge-scale Robust Visual (LRV)-Instructionを初めて導入します。私たちのデータセットは、GPT4によって生成された12万の視覚的指示から構成され、16の視覚と言語タスクをカバーし、オープンエンドの指示と回答を含んでいます。既存の研究が主に肯定的な指示サンプルに焦点を当てているのに対し、LRV-Instructionは、より堅牢な視覚的指示チューニングのために、肯定的な指示と否定的な指示の両方を含むように設計されています。私たちの否定的な指示は、2つの意味レベルで設計されています:(i) 存在しない要素の操作と (ii) 存在する要素の操作。LMMによって生成される幻覚を効率的に測定するために、人間による正解データを必要とせず、多様な指示形式に適応できる新しい評価手法であるGPT4-Assisted Visual Instruction Evaluation (GAVIE)を提案します。私たちは、LMMの幻覚を調査するための包括的な実験を実施しました。その結果、既存のLMMは、特に存在する要素の操作指示に対して、私たちの否定的な指示を提示された際に顕著な幻覚を示すことが明らかになりました。さらに、MiniGPT4をLRV-Instructionでファインチューニングすることで、最先端の手法と比較して少ないトレーニングデータで公開データセットの性能を向上させながら、幻覚を軽減することに成功しました。また、トレーニングデータにおける肯定的なインスタンスと否定的なインスタンスのバランスの取れた比率が、より堅牢なモデルにつながることも観察されました。私たちのプロジェクトリンクはhttps://fuxiaoliu.github.io/LRV/で利用可能です。
人間は柔軟な道具の使用を通じて、複雑で長期的な軟体物操作タスクに優れている。例えば、パン作りでは生地を切るための包丁や、平らにするための麺棒が必要となる。人間の認知能力の特徴とされる道具の使用は、自律ロボットにおいては、道具と物体の相互作用を理解する難しさから、まだ限定的である。ここでは、弾塑性物体を様々な道具で認識、モデル化、操作する知的ロボットシステム「RoboCook」を開発した。RoboCookは点群シーン表現を使用し、グラフニューラルネットワーク(GNN)を用いて道具と物体の相互作用をモデル化し、道具分類と自己教師ありポリシー学習を組み合わせて操作計画を立案する。各道具につきわずか20分間の実世界相互作用データから、汎用ロボットアームが餃子作りやアルファベット文字クッキー作りといった複雑で長期的な軟体物操作タスクを学習できることを実証した。広範な評価により、RoboCookが最先端のアプローチを大幅に上回り、深刻な外部擾乱に対する頑健性を示し、異なる材料への適応性を発揮することが明らかとなった。
Denoising Diffusion Probabilistic Models(DDPMs)は、大量のデータで学習した場合に、高い品質と顕著な多様性を備えた画像を合成できることが証明されています。典型的な拡散モデルや、テキストから画像を生成する現代の大規模条件付き生成モデルは、極めて限られたデータでファインチューニングを行うと過学習に陥りやすいという課題があります。既存の研究では、少数の画像を含む参照セットを使用した被写体駆動型生成が探求されてきました。しかし、DDPMを基盤としたドメイン駆動型生成、つまりターゲットドメインの共通特徴を学習しつつ多様性を維持することを目指す研究はほとんどありません。本論文では、大規模なソースデータセットで事前学習されたDDPMを、限られたデータを使用してターゲットドメインに適応させるための新しいアプローチ「DomainStudio」を提案します。このアプローチは、ソースドメインが提供する被写体の多様性を維持しつつ、ターゲットドメインにおいて高品質で多様な適応サンプルを生成することを目的としています。適応サンプル間の相対的な距離を維持することで、生成の多様性を大幅に向上させることを提案します。さらに、高周波の詳細をより良く学習するために、高周波詳細の学習を強化します。本アプローチは、無条件および条件付きの拡散モデルの両方と互換性があります。本研究は、拡散モデルを用いた無条件のFew-shot画像生成を初めて実現し、現在の最先端のGANベースのアプローチよりも優れた品質と多様性を達成しました。さらに、条件付き生成における過学習を大幅に軽減し、高品質なドメイン駆動型生成を実現することで、現代の大規模テキストから画像モデルの適用可能なシナリオをさらに拡大しました。
大規模なテキストから画像への拡散モデルは、生成画像モデリングの最先端を大幅に進化させ、画像生成プロセスを直感的かつ強力に制御するユーザーインターフェースを実現しました。しかし、特定のオブジェクトを特定の位置に配置するといった空間的な制約をテキストで表現することは煩雑であり、現在のテキストベースの画像生成モデルはそのような指示を正確に追従することができません。本論文では、画像キャンバス上のセグメントに関連付けられたテキストからの画像生成を考察します。これは、直感的な自然言語インターフェースと生成コンテンツに対する精密な空間制御を組み合わせたものです。我々はZestGuideを提案します。これは、事前学習済みのテキストから画像への拡散モデルに組み込むことができるゼロショットセグメンテーションガイダンスアプローチであり、追加の学習を必要としません。この手法は、クロスアテンションレイヤーから抽出可能な暗黙的なセグメンテーションマップを活用し、それらを使用して生成を入力マスクと整合させます。実験結果は、高品質な画像と入力セグメンテーションとの正確な整合性を組み合わせており、対応するセグメンテーションを持つ画像での学習を必要とする手法を含む先行研究を量的・質的に改善しています。ゼロショットセグメンテーション条件付き画像生成の従来の最先端手法であるPaint with Wordsと比較して、COCOデータセットにおいて同様のFIDスコアで5から10 mIoUポイントの改善を達成しました。
微分方程式を解くことを含む生成プロセス、例えば拡散モデルでは、速度と品質のバランスを取ることが頻繁に必要とされます。ODEベースのサンプラーは高速ですが性能が頭打ちになる一方で、SDEベースのサンプラーはサンプリング時間が増加する代わりに高いサンプル品質を提供します。この違いはサンプリング誤差に起因すると考えられます。ODEサンプラーは離散化誤差が小さい一方で、SDEの確率性は蓄積された誤差を縮小します。これらの知見に基づいて、離散化誤差と縮小のバランスをより良く取るために、Restartと呼ばれる新しいサンプリングアルゴリズムを提案します。このサンプリング手法は、追加のフォワードステップで大きなノイズを加えることと、厳密にバックワードODEに従うことを交互に行います。実験的に、Restartサンプラーは従来のSDEおよびODEサンプラーを速度と精度の両方で上回ります。Restartは従来の最良のSDE結果を凌駕するだけでなく、CIFAR-10 / ImageNet 64×64においてサンプリング速度を10倍/2倍加速します。さらに、同等のサンプリング時間内でODEサンプラーよりも大幅に優れたサンプル品質を達成します。さらに、Restartは、LAION 512×512で事前学習された大規模テキスト画像Stable Diffusionモデルにおいて、テキスト画像の整合性/視覚品質と多様性のバランスを従来のサンプラーよりも良く取ります。コードはhttps://github.com/Newbeeer/diffusion_restart_samplingで利用可能です。
Transformerモデルは、言語タスクでの成功に続き、コンピュータビジョンにおいても大きな可能性を示しています。Swin Transformerはその一つで、畳み込みベースのアーキテクチャを精度の面で上回り、Vision Transformer(ViT)やその派生モデルと比較して効率性を向上させています。ViTとその派生モデルは入力サイズに対して二次の計算量を要しますが、Swin Transformerはシフトウィンドウを特徴としており、自己注意機構の計算を非重複のローカルウィンドウに限定しつつ、ウィンドウ間の接続を可能にします。しかし、シフトウィンドウはメモリコピー操作を導入し、これが実行時間の大部分を占めます。この問題を緩和するため、我々はSwin-Freeを提案します。Swin-Freeでは、シフトウィンドウの代わりに、ステージごとにサイズが変化するウィンドウを適用し、ローカルウィンドウ間の接続を実現します。このシンプルな設計変更により、Swin-Freeは推論時にSwin Transformerよりも高速に動作し、かつ精度も向上します。さらに、Swin-Freeのいくつかの派生モデルも提案し、これらは対応するSwin Transformerモデルよりも高速です。
3Dオブジェクト操作において、明示的な3D表現を構築する手法は、カメラ画像のみに依存する手法よりも優れた性能を発揮します。しかし、ボクセルのような明示的な3D表現を使用することは、大きな計算コストを伴い、スケーラビリティに悪影響を及ぼします。本研究では、スケーラブルかつ高精度な3D操作のためのマルチビュートランスフォーマーであるRVTを提案します。RVTの主な特徴は、ビュー間で情報を集約するアテンションメカニズムと、ロボット作業空間周辺の仮想ビューからカメラ入力を再レンダリングすることです。シミュレーションでは、単一のRVTモデルが18のRLBenchタスクと249のタスクバリエーションにおいて良好に機能し、既存の最先端手法(PerAct)よりも26%高い相対的成功率を達成しました。また、同じ性能を達成するためにPerActよりも36倍高速に学習し、PerActの2.3倍の推論速度を実現しました。さらに、RVTは、各タスクあたりわずか数回(sim10)のデモンストレーションで、現実世界での多様な操作タスクを実行できます。視覚的な結果、コード、および学習済みモデルはhttps://robotic-view-transformer.github.io/で提供されています。
確率的予測は、将来の天候に関する不確実性下での意思決定において極めて重要である。現在主流のアプローチは、数値天気予報における不確実性を表現・定量化するためにアンサンブル予測を使用することである。しかし、アンサンブルを生成するには計算コストがかかる。本論文では、生成AIの最近の進展を活用して大規模にアンサンブル予測を生成することを提案する。我々のアプローチでは、5メンバーのアンサンブルであるGEFS再予測データセットからデータ駆動型の確率的拡散モデルを学習する。このモデルは、運用中のGEFS予測システムの少数のメンバーを条件として、現実的な天気予測を効率的に生成するためにサンプリングできる。生成されたアンサンブルは、ERA5再解析データに対して評価した場合、31メンバーのGEFSアンサンブルと同等の予測性能を示し、大規模な物理ベースのアンサンブルの統計特性をよく模倣する。また、同じ方法論を生成的な後処理のための拡散モデルの開発にも適用する。このモデルは、再解析データを学習時のラベルとして活用することで、エミュレートされた予測システムに存在するバイアスを直接修正することを学習する。この生成的な後処理モデルから得られるアンサンブルは、特に極端現象の分類において、より高い信頼性と精度を示す。一般的に、これらのアンサンブルはGEFS運用アンサンブルよりも信頼性が高く、極端な天候の確率をより正確に予測する。我々のモデルは、これらの結果をGEFS運用システムの計算コストの1/10未満で達成する。