Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby
292
マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年の目標となってきた。現在のアプローチでは、視覚エンコーダを大規模言語モデル(LLM)に接続し、マルチモーダルトレーニングを継続するなど、個別に事前学習されたコンポーネントを統合する方法が取られている。このようなアプローチは顕著なサンプル効率を示すが、こうした後期融合アーキテクチャが本質的に優れているかどうかは未解決の問題である。本研究では、すべてのモダリティを一から学習するネイティブマルチモーダルモデル(NMM)のアーキテクチャ設計を再検討し、457の異なるアーキテクチャとトレーニング混合を持つモデルを対象とした大規模なスケーリング則の研究を実施した。調査の結果、後期融合アーキテクチャが早期融合アーキテクチャ(画像エンコーダに依存しない)に対して本質的な優位性を持たないことが明らかになった。むしろ、早期融合は低いパラメータ数でより強い性能を示し、トレーニング効率が高く、デプロイも容易である。早期融合アーキテクチャの優れた性能に触発され、Mixture of Experts(MoE)を組み込むことで、モダリティ固有の重みを学習するモデルが可能となり、性能が大幅に向上することを示す。
Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
52
ビデオ内の任意の点を追跡するTracking Any Point (TAP)は、ロボティクス、ビデオ編集、3D再構築など多くの応用が示されている難しいコンピュータビジョンの課題です。既存のTAP手法は、複雑な追跡固有の帰納的バイアスやヒューリスティックに大きく依存しており、その汎用性とスケーリングの可能性を制限しています。これらの課題に対処するため、我々はTAPNextを提案します。これはTAPを逐次的なマスクトークンデコーディングとして捉える新しいアプローチです。我々のモデルは因果的であり、純粋にオンライン方式で追跡を行い、追跡固有の帰納的バイアスを除去します。これにより、TAPNextは最小限の遅延で動作し、多くの既存の最先端トラッカーで必要とされる時間的なウィンドウ処理を不要にします。そのシンプルさにもかかわらず、TAPNextはオンラインおよびオフライントラッカーの両方において、新たな最先端の追跡性能を達成します。最後に、広く使われている多くの追跡ヒューリスティックが、TAPNextにおいてエンドツーエンドのトレーニングを通じて自然に現れることを示す証拠を提示します。