VLM3 : Les modèles vision-langage sont des apprenants 3D natifs

Résumé

Les modèles de langage visuel (VLM) permettent à un modèle unifié de résoudre diverses tâches de vision par l’intermédiaire de prompts. Ils ont montré des performances prometteuses en compréhension sémantique. Cependant, la compréhension 3D repose encore largement sur des modèles experts de vision dotés de conceptions complexes spécifiques aux tâches. L’argument clé que ce travail souhaite avancer est que les VLM sont des apprenants 3D natifs. Notre étude approfondie à grande échelle montre que 1) l’unification de la distance focale, 2) la référence de pixels basée sur le texte et 3) le mélange et la mise à l’échelle des données sont tout ce dont on a besoin pour un apprentissage 3D efficace. Les changements d’architecture de modèle, les grands modèles, les augmentations de données lourdes et les fonctions de perte complexes, y compris la formulation par régression, qui constituent pourtant le fondement de nombreux modèles experts de vision, ne sont en réalité pas des conditions nécessaires. En conséquence, nous proposons VLM3, une méthode évolutive à la conception la plus simple, qui permet aux VLM standards de maîtriser diverses tâches 3D. VLM3 non seulement améliore nettement la précision d’estimation de profondeur des VLM (0,84 → 0,9), mais permet également diverses tâches 3D telles que la correspondance de pixels, l’estimation de pose de caméra et la compréhension 3D au niveau des objets, atteignant la précision des modèles experts de vision tout en conservant des architectures standard et un entraînement basé sur le texte. Nous pensons que VLM3 ouvre un nouveau paradigme pour un apprentissage 3D simple et évolutif.

English

Vision Language Models (VLMs) enable a unified model to solve various vision tasks through prompting. They have shown promising performance in semantic understanding. However, 3D understanding still largely relies on expert vision models with complex task-specific designs. The key argument this work wants to make is that VLMs are native 3D learners. Our in-depth large scale study shows that 1) focal length unification, 2) text-based pixel reference and 3) data mixture and scaling, are all you need for effective 3D learning. Model architecture changes, large models, heavy data augmentations, and complex losses including the regression formulation, many of which form the foundation of expert vision models, are actually not necessary conditions. As a result, we propose VLM3, a scalable method with the simplest design that enables standard VLMs to master diverse 3D tasks. VLM3 not only advances the VLM depth estimation accuracy by a large margin (0.84 -> 0.9), but also enables diverse 3D tasks such as pixel correspondence, camera pose estimation and object-level 3D understanding, matching expert vision model accuracy while maintaining standard architectures and text-based training. We believe VLM3 opens up a new paradigm for simple and scalable 3D learning.