CanViT: Rumo a Modelos Fundamentais de Visão Ativa

Resumo

A visão computacional ativa promete uma percepção eficiente e biologicamente plausível através de vislumbres sequenciais e localizados, mas carece de arquiteturas de propósito geral escaláveis e pipelines de pré-treinamento. Como resultado, os Modelos de Fundação de Visão Ativa (AVFMs) permaneceram inexplorados. Apresentamos o CanViT, o primeiro AVFM agnóstico a tarefas e políticas. O CanViT usa RoPE relativo à cena para vincular um *backbone* Vision Transformer retinotópico e um espaço latente de escopo global da cena (*workspace*), a tela. A interação eficiente com esta memória de trabalho de alta capacidade é suportada pela Canvas Attention, um novo mecanismo de atenção cruzada assimétrica. Desacoplamos o pensamento (nível do *backbone*) da memória (nível da tela), eliminando a auto-atenção e as camadas totalmente conectadas no lado da tela para alcançar inferência sequencial de baixa latência e escalabilidade para cenas grandes. Propomos um esquema de pré-treinamento de visão ativa sem rótulos, a destilação latente densa passiva-para-ativa agnóstica a políticas: reconstruir *embeddings* DINOv3 de escopo global a partir de sequências de vislumbres de baixa resolução com localizações, níveis de zoom e comprimentos aleatórios. Pré-treinamos o CanViT-B a partir de uma inicialização aleatória em 13,2 milhões de cenas do ImageNet-21k — uma ordem de grandeza a mais do que os modelos ativos anteriores — e 1 bilhão de vislumbres aleatórios, em 166 horas em um único H100. Na segmentação ADE20K, um CanViT-B congelado alcança 38,5% de mIoU em um único vislumbre de baixa resolução, superando os 27,6% do melhor modelo ativo com 19,5x menos FLOPs de inferência e sem *fine-tuning*, bem como o seu professor DINOv3 com FLOPs ou entrada equivalentes. Com vislumbres adicionais, o CanViT-B atinge 45,9% de mIoU no ADE20K. Na classificação do ImageNet-1k, o CanViT-B atinge 81,2% de precisão *top-1* com sondas do professor congeladas. O CanViT generaliza para *rollouts* mais longos, cenas maiores e novas políticas. O nosso trabalho fecha a grande lacuna entre a visão passiva e ativa na segmentação semântica e demonstra o potencial dos AVFMs como um novo eixo de pesquisa.

English

Active computer vision promises efficient, biologically plausible perception through sequential, localized glimpses, but lacks scalable general-purpose architectures and pretraining pipelines. As a result, Active-Vision Foundation Models (AVFMs) have remained unexplored. We introduce CanViT, the first task- and policy-agnostic AVFM. CanViT uses scene-relative RoPE to bind a retinotopic Vision Transformer backbone and a spatiotopic scene-wide latent workspace, the canvas. Efficient interaction with this high-capacity working memory is supported by Canvas Attention, a novel asymmetric cross-attention mechanism. We decouple thinking (backbone-level) and memory (canvas-level), eliminating canvas-side self-attention and fully-connected layers to achieve low-latency sequential inference and scalability to large scenes. We propose a label-free active vision pretraining scheme, policy-agnostic passive-to-active dense latent distillation: reconstructing scene-wide DINOv3 embeddings from sequences of low-resolution glimpses with randomized locations, zoom levels, and lengths. We pretrain CanViT-B from a random initialization on 13.2 million ImageNet-21k scenes -- an order of magnitude more than previous active models -- and 1 billion random glimpses, in 166 hours on a single H100. On ADE20K segmentation, a frozen CanViT-B achieves 38.5% mIoU in a single low-resolution glimpse, outperforming the best active model's 27.6% with 19.5x fewer inference FLOPs and no fine-tuning, as well as its FLOP- or input-matched DINOv3 teacher. Given additional glimpses, CanViT-B reaches 45.9% ADE20K mIoU. On ImageNet-1k classification, CanViT-B reaches 81.2% top-1 accuracy with frozen teacher probes. CanViT generalizes to longer rollouts, larger scenes, and new policies. Our work closes the wide gap between passive and active vision on semantic segmentation and demonstrates the potential of AVFMs as a new research axis.

CanViT: Rumo a Modelos Fundamentais de Visão Ativa

CanViT: Toward Active-Vision Foundation Models

Resumo

Support