ChatPaper.aiChatPaper

CanViT: Auf dem Weg zu aktiven Seh-Foundation-Modellen

CanViT: Toward Active-Vision Foundation Models

March 23, 2026
Autoren: Yohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna
cs.AI

Zusammenfassung

Aktives Computer Vision verspricht effiziente, biologisch plausible Wahrnehmung durch sequenzielle, lokalisierte Blicke, verfügt jedoch über keine skalierbaren allgemeinen Architekturen und Vortrainings-Pipelines. Infolgedessen sind Active-Vision Foundation Models (AVFMs) bislang unerforscht geblieben. Wir stellen CanViT vor, das erste aufgaben- und politik-agnostische AVFM. CanViT nutzt szenen-relatives RoPE, um ein retinotopisches Vision-Transformer-Backbone mit einem spatiotopischen, szenenweiten latenten Arbeitsbereich, der Canvas, zu verbinden. Eine effiziente Interaktion mit diesem Arbeitsgedächtnis hoher Kapazität wird durch Canvas Attention ermöglicht, einen neuartigen asymmetrischen Cross-Attention-Mechanismus. Wir entkoppeln Denken (Backbone-Ebene) und Gedächtnis (Canvas-Ebene), eliminieren Self-Attention und vollständig verbundene Schichten auf der Canvas-Seite, um sequenzielle Inferenz mit niedriger Latenz und Skalierbarkeit auf große Szenen zu erreichen. Wir schlagen ein vortrainingsschema ohne Labels für aktives Sehen vor, die politik-agnostische passive-zu-aktive dichte latente Destillation: die Rekonstruktion szenenweiter DINOv3-Embeddings aus Sequenzen von niedrigauflösenden Blicken mit randomisierten Positionen, Zoomstufen und Längen. Wir trainieren CanViT-B aus einer zufälligen Initialisierung auf 13,2 Millionen ImageNet-21k-Szenen vortrainiert – eine Größenordnung mehr als bei früheren aktiven Modellen – und 1 Milliarde zufälliger Blicke, in 166 Stunden auf einer einzelnen H100. Bei der ADE20K-Segmentierung erreicht ein eingefrorenes CanViT-B 38,5 % mIoU in einem einzigen niedrigauflösenden Blick, übertrifft damit das beste aktive Modell (27,6 %) mit 19,5-mal weniger Inferenz-FLOPs und ohne Feinabstimmung, sowie seinen FLOP- oder input-angepassten DINOv3-Lehrer. Mit zusätzlichen Blicken erreicht CanViT-B 45,9 % ADE20K-mIoU. Bei der ImageNet-1k-Klassifikation erreicht CanViT-B 81,2 % Top-1-Genauigkeit mit eingefrorenen Lehrer-Probes. CanViT verallgemeinert auf längere Rollouts, größere Szenen und neue Policies. Unsere Arbeit schließt die große Lücke zwischen passivem und aktivem Sehen bei der semantischen Segmentierung und demonstriert das Potenzial von AVFMs als neue Forschungsrichtung.
English
Active computer vision promises efficient, biologically plausible perception through sequential, localized glimpses, but lacks scalable general-purpose architectures and pretraining pipelines. As a result, Active-Vision Foundation Models (AVFMs) have remained unexplored. We introduce CanViT, the first task- and policy-agnostic AVFM. CanViT uses scene-relative RoPE to bind a retinotopic Vision Transformer backbone and a spatiotopic scene-wide latent workspace, the canvas. Efficient interaction with this high-capacity working memory is supported by Canvas Attention, a novel asymmetric cross-attention mechanism. We decouple thinking (backbone-level) and memory (canvas-level), eliminating canvas-side self-attention and fully-connected layers to achieve low-latency sequential inference and scalability to large scenes. We propose a label-free active vision pretraining scheme, policy-agnostic passive-to-active dense latent distillation: reconstructing scene-wide DINOv3 embeddings from sequences of low-resolution glimpses with randomized locations, zoom levels, and lengths. We pretrain CanViT-B from a random initialization on 13.2 million ImageNet-21k scenes -- an order of magnitude more than previous active models -- and 1 billion random glimpses, in 166 hours on a single H100. On ADE20K segmentation, a frozen CanViT-B achieves 38.5% mIoU in a single low-resolution glimpse, outperforming the best active model's 27.6% with 19.5x fewer inference FLOPs and no fine-tuning, as well as its FLOP- or input-matched DINOv3 teacher. Given additional glimpses, CanViT-B reaches 45.9% ADE20K mIoU. On ImageNet-1k classification, CanViT-B reaches 81.2% top-1 accuracy with frozen teacher probes. CanViT generalizes to longer rollouts, larger scenes, and new policies. Our work closes the wide gap between passive and active vision on semantic segmentation and demonstrates the potential of AVFMs as a new research axis.
PDF71March 26, 2026