翻訳付きの日次キュレーションされたAI研究論文
セルフアテンションベースのビジョントランスフォーマー(ViT)は、コンピュータビジョン分野において非常に競争力のあるアーキテクチャとして登場しました。畳み込みニューラルネットワーク(CNN)とは異なり、ViTはグローバルな情報共有が可能です。ViTの様々な構造が開発されるにつれ、多くの視覚タスクにおいてViTの利点がますます顕著になっています。しかし、セルフアテンションの二次的な計算複雑性により、ViTは計算集約的であり、局所性や並進等価性といった帰納的バイアスの欠如から、視覚的特徴を効果的に学習するためにはCNNと比較して大きなモデルサイズが必要となります。本論文では、CNNとViTの利点を活用した軽量で効率的なビジョントランスフォーマーモデルであるDualToken-ViTを提案します。DualToken-ViTは、畳み込みベースの構造から得られる局所情報を持つトークンと、セルフアテンションベースの構造から得られるグローバル情報を持つトークンを効果的に融合させ、効率的なアテンション構造を実現します。さらに、全ステージを通じて位置情報を意識したグローバルトークンを使用し、グローバル情報を豊かにすることで、DualToken-ViTの効果をさらに強化します。位置情報を意識したグローバルトークンは画像の位置情報も含むため、視覚タスクにおいてより優れた性能を発揮します。画像分類、物体検出、セマンティックセグメンテーションのタスクにおいて、DualToken-ViTの有効性を実証するために広範な実験を行いました。ImageNet-1Kデータセットにおいて、異なるスケールのモデルはそれぞれ0.5Gと1.0GのFLOPsで75.4%と79.4%の精度を達成し、1.0G FLOPsのモデルはグローバルトークンを使用したLightViT-Tを0.7%上回りました。
本論文では、大語彙インスタンスセグメンテーションのためのシンプルかつ効果的な拡散モデルベースのデータ拡張手法「MosaicFusion」を提案します。本手法はトレーニング不要であり、ラベル監視にも依存しません。既存のテキスト-to-画像拡散モデルを有用なデータセット生成器として活用するために、2つの重要な設計を採用しています。第一に、画像キャンバスを複数の領域に分割し、異なるテキストプロンプトを条件として単一の拡散プロセスを実行することで、複数のインスタンスを同時に生成します。第二に、オブジェクトプロンプトに関連するクロスアテンションマップを層間および拡散タイムステップにわたって集約し、単純なしきい値処理とエッジ認識型のリファインメント処理を行うことで、対応するインスタンスマスクを取得します。特別な工夫を加えることなく、MosaicFusionは希少カテゴリや新規カテゴリの両方に対して大量の合成ラベル付きデータを生成できます。挑戦的なLVISロングテールおよびオープン語彙ベンチマークでの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能、特に希少カテゴリや新規カテゴリにおいて大幅に向上させられることを示しています。コードはhttps://github.com/Jiahao000/MosaicFusionで公開予定です。
ニューラルネットワークのプルーニングは、性能の低下を最小限に抑えながら多言語自動音声認識(ASR)モデルを圧縮する効果的な方法を提供します。しかし、各言語に対して複数回のプルーニングと再トレーニングを実行する必要があります。本研究では、効率的に多言語ASRモデルをプルーニングするための適応的マスキングアプローチを2つのシナリオで提案します。それぞれ、疎な単言語モデルまたは疎な多言語モデル(Dynamic ASR Pathwaysと命名)を生成します。本アプローチは、固定されたサブネットワーク構造に関する早期の決定を避け、サブネットワークを動的に適応させます。疎な単言語モデルをターゲットとする場合、本アプローチが既存のプルーニング手法を上回ることを示します。さらに、Dynamic ASR Pathwaysが、異なるサブネットワーク初期化から適応することで、単一の多言語モデルのより優れたサブネットワーク(パスウェイ)を共同で発見およびトレーニングし、言語固有のプルーニングの必要性を低減することを示します。
インターネットデータを用いた事前学習は、多くの現代の機械学習システムにおいて広範な汎化能力を実現するための重要な要素であることが証明されています。では、ロボットの強化学習(RL)において、このような能力を実現するためには何が必要でしょうか?ロボットの経験データセットから学習するオフラインRL手法は、事前データをロボット学習パイプラインに活用する一つの方法を提供します。しかし、これらの手法は、ロボティクスで利用可能な最大の事前データセットであるビデオデータ(例えばEgo4D)との間に「タイプミスマッチ」が生じます。なぜなら、ビデオデータは観測のみの経験を提供し、RL手法に必要な行動や報酬のアノテーションが含まれていないからです。本論文では、大規模な人間のビデオデータセットをロボットのオフラインRLに活用するシステムを開発します。このシステムは、時間的差分学習を通じて価値関数を学習することに完全に基づいています。ビデオデータセット上での価値学習が、ビデオデータから学習する他のアプローチよりも、下流のロボットオフラインRLに適した表現を学習することを示します。私たちのシステム「V-PTR」は、ビデオデータを用いた事前学習の利点と、多様なロボットデータを用いて訓練するロボットオフラインRLアプローチの利点を組み合わせることで、より優れた性能を持ち、堅牢に動作し、広く汎化する操作タスクの価値関数とポリシーを実現します。実機WidowXロボットを用いたいくつかの操作タスクにおいて、私たちのフレームワークは従来の手法を大幅に上回るポリシーを生成します。ビデオと追加の詳細は、https://dibyaghosh.com/vptr/ でご覧いただけます。