VLM3: Visie-taalmodellen zijn inherente 3D-leerders

Samenvatting

Visie-Taalmodellen (VTM's) maken het mogelijk om met één uniform model verschillende visietaken op te lossen via prompting. Ze laten veelbelovende prestaties zien op het gebied van semantisch begrip. Echter, 3D-begrip is nog grotendeels afhankelijk van gespecialiseerde visiemodellen met complexe taakspecifieke ontwerpen. Het kernargument dat dit werk wil maken, is dat VTM's van nature 3D-leerders zijn. Ons diepgaande grootschalige onderzoek toont aan dat 1) uniformering van de brandpuntsafstand, 2) tekstgebaseerde pixelreferentie en 3) datamenging en -schaling alles zijn wat nodig is voor effectief 3D-leren. Veranderingen in modelarchitectuur, grote modellen, zware data-augmentaties en complexe verliesfuncties inclusief de regressieformulering – waarvan vele de basis vormen van gespecialiseerde visiemodellen – zijn feitelijk geen noodzakelijke voorwaarden. Als gevolg hiervan stellen we VLM3 voor, een schaalbare methode met het eenvoudigste ontwerp die standaard VTM's in staat stelt diverse 3D-taken te beheersen. VLM3 verbetert niet alleen de diepteschattingsnauwkeurigheid van VTM's aanzienlijk (0,84 -> 0,9), maar maakt ook diverse 3D-taken mogelijk zoals pixelcorrespondentie, cameraschatteringsschatting en objectgebaseerd 3D-begrip, waarbij de nauwkeurigheid van gespecialiseerde visiemodellen wordt geëvenaard terwijl de standaardarchitecturen en tekstgebaseerde training behouden blijven. Wij geloven dat VLM3 een nieuw paradigma opent voor eenvoudig en schaalbaar 3D-leren.

English

Vision Language Models (VLMs) enable a unified model to solve various vision tasks through prompting. They have shown promising performance in semantic understanding. However, 3D understanding still largely relies on expert vision models with complex task-specific designs. The key argument this work wants to make is that VLMs are native 3D learners. Our in-depth large scale study shows that 1) focal length unification, 2) text-based pixel reference and 3) data mixture and scaling, are all you need for effective 3D learning. Model architecture changes, large models, heavy data augmentations, and complex losses including the regression formulation, many of which form the foundation of expert vision models, are actually not necessary conditions. As a result, we propose VLM3, a scalable method with the simplest design that enables standard VLMs to master diverse 3D tasks. VLM3 not only advances the VLM depth estimation accuracy by a large margin (0.84 -> 0.9), but also enables diverse 3D tasks such as pixel correspondence, camera pose estimation and object-level 3D understanding, matching expert vision model accuracy while maintaining standard architectures and text-based training. We believe VLM3 opens up a new paradigm for simple and scalable 3D learning.