VLM3: Los Modelos de Lenguaje Visual Son Aprendices 3D Nativos

Resumen

Los Modelos de Lenguaje Visual (VLMs) permiten que un modelo unificado resuelva diversas tareas visuales mediante indicaciones. Han demostrado un rendimiento prometedor en comprensión semántica. Sin embargo, la comprensión 3D aún depende en gran medida de modelos visuales expertos con diseños complejos específicos para cada tarea. El argumento clave que este trabajo quiere plantear es que los VLMs son aprendices nativos de 3D. Nuestro estudio exhaustivo a gran escala muestra que 1) la unificación de la distancia focal, 2) la referencia de píxeles basada en texto y 3) la mezcla y el escalado de datos, son todo lo necesario para un aprendizaje 3D efectivo. Los cambios en la arquitectura del modelo, los modelos grandes, las aumentaciones de datos intensivas y las pérdidas complejas, incluida la formulación de regresión —muchos de los cuales constituyen la base de los modelos visuales expertos—, no son condiciones necesarias en realidad. Como resultado, proponemos VLM3, un método escalable con el diseño más simple que permite que los VLMs estándar dominen diversas tareas 3D. VLM3 no solo mejora significativamente la precisión de la estimación de profundidad de los VLMs (de 0,84 a 0,9), sino que también habilita diversas tareas 3D como la correspondencia de píxeles, la estimación de la pose de la cámara y la comprensión 3D a nivel de objeto, igualando la precisión de los modelos visuales expertos mientras mantiene arquitecturas estándar y entrenamiento basado en texto. Creemos que VLM3 abre un nuevo paradigma para el aprendizaje 3D simple y escalable.

English

Vision Language Models (VLMs) enable a unified model to solve various vision tasks through prompting. They have shown promising performance in semantic understanding. However, 3D understanding still largely relies on expert vision models with complex task-specific designs. The key argument this work wants to make is that VLMs are native 3D learners. Our in-depth large scale study shows that 1) focal length unification, 2) text-based pixel reference and 3) data mixture and scaling, are all you need for effective 3D learning. Model architecture changes, large models, heavy data augmentations, and complex losses including the regression formulation, many of which form the foundation of expert vision models, are actually not necessary conditions. As a result, we propose VLM3, a scalable method with the simplest design that enables standard VLMs to master diverse 3D tasks. VLM3 not only advances the VLM depth estimation accuracy by a large margin (0.84 -> 0.9), but also enables diverse 3D tasks such as pixel correspondence, camera pose estimation and object-level 3D understanding, matching expert vision model accuracy while maintaining standard architectures and text-based training. We believe VLM3 opens up a new paradigm for simple and scalable 3D learning.