CanViT: Hacia Modelos Fundacionales de Visión Activa
CanViT: Toward Active-Vision Foundation Models
March 23, 2026
Autores: Yohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna
cs.AI
Resumen
La visión activa por computadora promete una percepción eficiente y biológicamente plausible mediante vistazos secuenciales y localizados, pero carece de arquitecturas escalables de propósito general y pipelines de preentrenamiento. Como resultado, los Modelos Fundacionales de Visión Activa (AVFM) han permanecido inexplorados. Presentamos CanViT, el primer AVFM independiente de la tarea y de la política de adquisición. CanViT utiliza RoPE relativo a la escena para vincular un backbone Vision Transformer retinotópico y un espacio latente de trabajo de ámbito escénico espaciotópico, el *canvas*. La interacción eficiente con esta memoria de trabajo de alta capacidad se sustenta en Canvas Attention, un novedoso mecanismo de atención cruzada asimétrico. Desacoplamos el pensamiento (nivel del backbone) y la memoria (nivel del canvas), eliminando la autoatención y las capas totalmente conectadas en el canvas para lograr inferencia secuencial de baja latencia y escalabilidad a escenas grandes. Proponemos un esquema de preentrenamiento de visión activa sin etiquetas, la destilación latente densa pasiva-a-activa independiente de la política: reconstruir *embeddings* DINOv3 de toda la escena a partir de secuencias de vistazos de baja resolución con ubicaciones, niveles de zoom y longitudes aleatorizadas. Preentrenamos CanViT-B desde una inicialización aleatoria en 13.2 millones de escenas de ImageNet-21k —un orden de magnitud más que los modelos activos anteriores— y 1000 millones de vistazos aleatorios, en 166 horas en una sola H100. En segmentación ADE20K, un CanViT-B congelado alcanza un 38.5% de mIoU en un solo vistazo de baja resolución, superando el 27.6% del mejor modelo activo con 19.5 veces menos FLOPs de inferencia y sin ajuste fino, así como a su profesor DINOv3 equiparado en FLOPs o entrada. Dados vistazos adicionales, CanViT-B alcanza un 45.9% de mIoU en ADE20K. En clasificación de ImageNet-1k, CanViT-B alcanza un 81.2% de precisión top-1 con sondas de profesor congeladas. CanViT generaliza a secuencias más largas, escenas más grandes y nuevas políticas. Nuestro trabajo cierra la amplia brecha entre la visión pasiva y activa en segmentación semántica y demuestra el potencial de los AVFM como un nuevo eje de investigación.
English
Active computer vision promises efficient, biologically plausible perception through sequential, localized glimpses, but lacks scalable general-purpose architectures and pretraining pipelines. As a result, Active-Vision Foundation Models (AVFMs) have remained unexplored. We introduce CanViT, the first task- and policy-agnostic AVFM. CanViT uses scene-relative RoPE to bind a retinotopic Vision Transformer backbone and a spatiotopic scene-wide latent workspace, the canvas. Efficient interaction with this high-capacity working memory is supported by Canvas Attention, a novel asymmetric cross-attention mechanism. We decouple thinking (backbone-level) and memory (canvas-level), eliminating canvas-side self-attention and fully-connected layers to achieve low-latency sequential inference and scalability to large scenes. We propose a label-free active vision pretraining scheme, policy-agnostic passive-to-active dense latent distillation: reconstructing scene-wide DINOv3 embeddings from sequences of low-resolution glimpses with randomized locations, zoom levels, and lengths. We pretrain CanViT-B from a random initialization on 13.2 million ImageNet-21k scenes -- an order of magnitude more than previous active models -- and 1 billion random glimpses, in 166 hours on a single H100. On ADE20K segmentation, a frozen CanViT-B achieves 38.5% mIoU in a single low-resolution glimpse, outperforming the best active model's 27.6% with 19.5x fewer inference FLOPs and no fine-tuning, as well as its FLOP- or input-matched DINOv3 teacher. Given additional glimpses, CanViT-B reaches 45.9% ADE20K mIoU. On ImageNet-1k classification, CanViT-B reaches 81.2% top-1 accuracy with frozen teacher probes. CanViT generalizes to longer rollouts, larger scenes, and new policies. Our work closes the wide gap between passive and active vision on semantic segmentation and demonstrates the potential of AVFMs as a new research axis.