翻訳付きの日次キュレーションされたAI研究論文
ChatGPTのようなモデルは、要約やコーディングから翻訳まで、人工知能のさまざまな応用分野において革命をもたらし、人間の性能に匹敵するかそれを上回る成果を上げています。しかし、現在の状況では、特に数十億パラメータ規模でのトレーニングにおいて、これらの強力なモデルに対するアクセス可能で効率的かつコスト効果の高いエンドツーエンドのRLHF(人間のフィードバックを用いた強化学習)トレーニングパイプラインが不足しています。本論文では、DeepSpeed-Chatという新しいシステムを紹介します。このシステムはRLHFトレーニングを民主化し、AIコミュニティにとってアクセス可能なものとします。DeepSpeed-Chatは、以下の3つの主要な機能を提供します:ChatGPTのようなモデルに対する使いやすいトレーニングおよび推論体験、InstructGPTのトレーニングパイプラインを再現するDeepSpeed-RLHFパイプライン、そしてトレーニングと推論のためのさまざまな最適化を統合した堅牢なDeepSpeed-RLHFシステムです。このシステムは、比類のない効率性とスケーラビリティを実現し、数百億パラメータのモデルを記録的な時間で、かつ従来のコストの一部でトレーニングすることを可能にします。この開発により、DeepSpeed-Chatは、リソースが限られたデータサイエンティストでも高度なRLHFトレーニングに広くアクセスできる道を開き、AI分野におけるイノベーションとさらなる発展を促進します。
スパースなエキスパート混合アーキテクチャ(MoE)は、トレーニングや推論コストを大幅に増加させることなくモデルの容量を拡張します。しかし、MoEにはいくつかの課題があります:トレーニングの不安定性、トークンのドロップ、エキスパート数のスケーリングの困難さ、または効果的なファインチューニングの欠如などです。本研究では、これらの課題に対処しつつ、MoEの利点を維持する完全微分可能なスパースTransformerであるSoft MoEを提案します。Soft MoEは、すべての入力トークンの異なる重み付けされた組み合わせを各エキスパートに渡すことで、暗黙的なソフト割り当てを行います。他のMoE研究と同様に、Soft MoEのエキスパートは(組み合わされた)トークンのサブセットのみを処理し、低い推論コストでより大きなモデル容量を実現します。視覚認識の文脈において、Soft MoEは標準的なTransformer(ViT)や人気のあるMoEの変種(Tokens ChoiceやExperts Choice)を大きく上回ります。例えば、Soft MoE-Base/16は、ViT-Huge/14と同等の性能を達成するために、推論コストを10.5倍低く(ウォールクロック時間を5.7倍短く)必要とします。Soft MoEはまた、スケーラビリティにも優れています:16のMoE層に128のエキスパートを持つSoft MoE Huge/14は、ViT Huge/14よりも40倍以上のパラメータを持ちながら、推論時間コストはわずか2%増加し、大幅に優れた性能を発揮します。
言語誘導型の画像操作が著しい進歩を遂げている一方で、人間の意図を忠実に反映した操作プロセスを指示する方法に関する課題は依然として残されている。自然言語を用いて操作タスクを正確かつ包括的に記述することは労力を要し、時には不可能でさえある。これは主に、言語表現に内在する不確実性と曖昧性によるものである。外部のクロスモーダルな言語情報に頼らずに画像操作を実現することは可能だろうか?もしこの可能性が存在するならば、内在するモダリティ間のギャップは容易に解消されるだろう。本論文では、より正確な画像編集のための視覚的指示を学習する新しい操作手法「ImageBrush」を提案する。我々のキーアイデアは、変換画像のペアを視覚的指示として用いることであり、これにより人間の意図を正確に捉えるだけでなく、実世界のシナリオでのアクセシビリティも向上する。視覚的指示を捉えることは特に困難である。なぜなら、視覚的なデモンストレーションから潜在的な意図を抽出し、その操作を新しい画像に適用する必要があるからだ。この課題に対処するため、我々は視覚的指示学習を拡散ベースのインペインティング問題として定式化し、生成の反復プロセスを通じて文脈情報を十分に活用する。視覚的指示の背後にある人間の意図を解明するためのモデルの能力を強化するために、視覚的プロンプトエンコーダを慎重に設計した。大規模な実験により、我々の手法がデモンストレーションに含まれる変換に従った魅力的な操作結果を生成することが示された。さらに、我々のモデルは、ポーズ転送、画像変換、ビデオインペインティングといった様々な下流タスクにおいて、堅牢な汎化能力を示している。
私たちのアプローチは、Embeddings for Language/Image-aligned X-Rays(ELIXR)と名付け、言語と画像を整合させた画像エンコーダを固定された大規模言語モデル(LLM)であるPaLM 2に組み合わせることで、幅広いタスクを実行します。この軽量なアダプタアーキテクチャは、MIMIC-CXRデータセットの自由記述放射線レポートと対応する画像を用いて訓練されます。ELIXRは、ゼロショット胸部X線(CXR)分類(13の所見における平均AUC 0.850)、データ効率的なCXR分類(5つの所見(無気肺、心拡大、浸潤影、胸水、肺水腫)における1%(約2,200枚)および10%(約22,000枚)の訓練データでの平均AUC 0.893および0.898)、および意味的検索(19のクエリにおける正規化割引累積ゲイン(NDCG)0.76、うち12のクエリで完全な検索を達成)において、最先端の性能を達成しました。教師ありコントラスティブ学習(SupCon)を含む既存のデータ効率的な手法と比較して、ELIXRは同様の性能を達成するために2桁少ないデータを必要としました。ELIXRはまた、CXRの視覚言語タスクにおいても有望な結果を示し、視覚的質問応答タスクで58.7%、レポート品質保証タスクで62.5%の全体精度を達成しました。これらの結果は、ELIXRがCXR AIにおいて堅牢で汎用的なアプローチであることを示唆しています。
DETRベースのアプローチがCOCOの検出およびセグメンテーションベンチマークで新記録を樹立したことを受け、多くの最近の研究では、バックボーンを凍結したままTransformerを自己教師あり方式で事前学習することで、DETRベースのアプローチをさらに改善する方法に注目が集まっています。一部の研究では、精度の大幅な向上が既に報告されています。本論文では、それらの実験手法を詳細に検証し、H-Deformable-DETRのような最新の最先端技術においてもそれらのアプローチが有効かどうかを確認します。COCO物体検出タスクにおいて、事前学習データセットの選択、位置特定、および分類ターゲット生成スキームの影響を徹底的に調査します。残念ながら、DETRegのような従来の代表的な自己教師ありアプローチは、完全なデータ体制において強力なDETRベースのアプローチの性能を向上させることができませんでした。さらにその理由を分析し、より正確なボックス予測器とObjects365ベンチマークを単純に組み合わせることで、追跡実験において結果を大幅に改善できることを発見しました。私たちのアプローチの有効性を、COCO valセットでAP=59.3%という強力な物体検出結果を達成することで実証し、H-Deformable-DETR + Swin-Lを+1.4%上回りました。最後に、最新の画像からテキストへのキャプションモデル(LLaVA)とテキストから画像への生成モデル(SDXL)を組み合わせて、一連の合成事前学習データセットを生成します。注目すべきは、これらの合成データセットで事前学習を行うことで、物体検出性能が顕著に向上することです。今後の展望として、合成事前学習データセットの拡大を通じて、さらなる大きな利点が期待されます。
CLIPは基盤的な視覚言語モデルとして、多様な視覚概念と自然言語記述を理解する能力から、ゼロショット画像分類において広く使用されています。しかし、CLIPの前例のない人間に似た理解能力を最大限に活用し、より優れたゼロショット分類を実現する方法は依然として未解決の問題です。本論文は、人間の視覚知覚プロセスに着想を得ています。現代の神経科学の観点では、物体を分類する際に、人間はまずクラスに依存しない属性(例えば背景や向き)を推論し、これによって前景物体を背景から分離し、その後この情報に基づいて判断を下すとされています。これに着想を得て、我々は、CLIPに文脈的属性を提供することでゼロショット分類が改善され、誤った特徴への依存が軽減されることを観察しました。また、CLIP自体が画像から属性を合理的に推論できることも確認しました。これらの観察に基づき、我々はPerceptionCLIPというトレーニング不要の2段階ゼロショット分類手法を提案します。この手法では、与えられた画像に対してまず文脈的属性(例えば背景)を推論し、その後それらを条件として物体分類を行います。実験結果から、PerceptionCLIPはより優れた一般化能力、グループロバスト性、および解釈可能性を実現することが示されました。例えば、ViT-L/14を用いたPerceptionCLIPは、Waterbirdsデータセットにおいて最悪グループ精度を16.5%、CelebAにおいて3.5%向上させました。