翻訳付きの日次キュレーションされたAI研究論文
オンラインドメイン適応の目的は、セマンティックセグメンテーションにおいて、展開中に発生する予測不可能なドメイン変化(例えば突発的な気象現象)に対処することです。しかし、力任せの適応手法に伴う高い計算コストのため、このパラダイムは実世界のアプリケーションでは実現不可能でした。本論文では、リアルタイムドメイン適応のためのハードウェア対応型モジュラー最小コストトレーニングフレームワーク「HAMLET」を提案します。我々のアプローチは、ハードウェア対応型バックプロパゲーション調整エージェント(HAMT)と、モデルがいつどのように適応するかを能動的に制御する専用ドメインシフト検出器(LT)を含んでいます。これらの進歩により、我々のアプローチは、単一のコンシューマー向けGPU上で29FPS以上の速度でセマンティックセグメンテーションを実行しながら同時に適応を行うことが可能です。OnDAおよびSHIFTベンチマークにおける実験結果を通じて、本フレームワークの精度と速度の良好なトレードオフが実証されています。
本研究では、姿勢付きRGB画像を入力とする屋内3D検出のための新規手法NeRF-Detを提案する。既存の屋内3D検出手法はシーン幾何学のモデリングに苦慮しているが、本手法ではNeRFをエンドツーエンドで活用し、3D幾何学を明示的に推定することで3D検出性能を向上させる。具体的には、NeRFのシーンごとの最適化に伴う大幅な遅延を回避するため、十分な幾何学事前情報を導入してNeRF-MLPの汎化性能を強化する。さらに、検出ブランチとNeRFブランチを共有MLPを通じて巧妙に接続し、NeRFの検出への効率的な適応を可能にするとともに、3D検出のための幾何学を考慮したボリューム表現を実現する。本手法は、ScanNetおよびARKITScenesベンチマークにおいて、それぞれ3.9 mAPおよび3.1 mAPで最先端の性能を上回る。NeRF-Detの動作原理を明らかにするため、詳細な分析を提供する。本手法の共同学習設計により、NeRF-Detはシーンごとの最適化を必要とせず、未見のシーンに対する物体検出、ビュー合成、深度推定タスクにおいて優れた汎化性能を発揮する。コードはhttps://github.com/facebookresearch/NeRF-Detで公開されている。
MiDaS v3.1をリリースし、単眼深度推定のための多様な新しいモデルを提供します。このリリースは、コンピュータビジョンにおけるトランスフォーマーの成功と、現在利用可能な多種多様な事前学習済みビジョントランスフォーマーに触発されています。最も有望なビジョントランスフォーマーを画像エンコーダーとして使用することが、MiDaSアーキテクチャの深度推定品質と実行時間にどのような影響を与えるかを探求します。また、画像分類タスクにおいてビジョントランスフォーマーと同等の品質を達成する最近の畳み込みアプローチも調査対象としています。前回のリリースであるMiDaS v3.0では、標準的なビジョントランスフォーマーViTのみを活用していましたが、MiDaS v3.1では、BEiT、Swin、SwinV2、Next-ViT、LeViTに基づく追加モデルを提供します。これらのモデルは、性能と実行時間の異なるトレードオフを提供します。最良のモデルは深度推定品質を28%向上させ、効率的なモデルは高フレームレートを必要とする下流タスクを可能にします。また、新しいバックボーンを統合するための一般的なプロセスについても説明します。この研究をまとめた動画はhttps://youtu.be/UjaeNNFf9sEで、コードはhttps://github.com/isl-org/MiDaSで公開されています。
バッチサイズ間でのトレーニングダイナミクスを維持することは、実用的な機械学習において重要なツールです。なぜなら、バッチサイズと実時間のトレードオフを可能にするからです。このトレードオフは通常、スケーリングルールによって実現されます。例えば、確率的勾配降下法(SGD)では、学習率をバッチサイズに比例して線形にスケーリングすべきです。実用的な機械学習におけるもう一つの重要なツールは、モデルの指数移動平均(EMA)です。これは勾配情報を受け取らないモデルのコピーであり、代わりに一定のモーメンタムでターゲットモデルに追従します。このモデルEMAは、教師あり学習のロバスト性と汎化性能を向上させ、擬似ラベリングを安定化し、自己教師あり学習(SSL)の学習信号を提供することができます。これまでの研究では、モデルEMAを最適化とは別に扱ってきたため、バッチサイズ間で異なるトレーニングダイナミクスが生じ、モデルの性能が低下していました。本研究では、モデルEMAが存在する場合の最適化のためのスケーリングルールを提供し、その有効性をさまざまなアーキテクチャ、オプティマイザ、データモダリティにわたって実証します。また、モデルEMAがターゲットモデルの最適化に寄与する場合にもこのルールが有効であることを示し、小規模および大規模なバッチサイズでEMAベースの擬似ラベリングおよびSSL手法をトレーニングできるようにします。SSLに関しては、BYOLのトレーニングをバッチサイズ24,576まで性能を犠牲にすることなく可能にし、最適な場合では実時間を6倍短縮します。
サンプルを小さな増分で合成する拡散プロセスの漸進的な性質は、Denoising Diffusion Probabilistic Models(DDPM)の重要な要素であり、画像合成において前例のない品質を実現し、最近ではモーションドメインでも探求されています。本研究では、この漸進的な拡散の概念(拡散時間軸に沿って動作する)をモーションシーケンスの時間軸に適応させることを提案します。私たちの重要なアイデアは、DDPMフレームワークを拡張して時間的に変化するノイズ除去をサポートし、それによって2つの軸を絡み合わせることです。特別な定式化を用いて、私たちは次第にノイズが増加するポーズのセットを含むモーションバッファを反復的にノイズ除去し、任意の長さのフレームストリームを自己回帰的に生成します。静止した拡散時間軸を使用して、各拡散ステップでモーションの時間軸のみを増分し、フレームワークが新しいクリーンフレームを生成してバッファの先頭から削除し、その後新たに描画されたノイズベクトルを末尾に追加します。この新しいメカニズムは、キャラクターアニメーションやその他のドメインへの応用が可能な、長期的なモーション合成のための新しいフレームワークへの道を開きます。