Pensando com a Câmera: Um Modelo Multimodal Unificado para Compreensão e Geração Centrada na Câmera
Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
October 9, 2025
Autores: Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy
cs.AI
Resumo
A compreensão e geração centradas em câmera são dois pilares fundamentais da inteligência espacial, mas geralmente são estudadas de forma isolada. Apresentamos o Puffin, um modelo multimodal unificado centrado em câmera que amplia a consciência espacial ao longo da dimensão da câmera. O Puffin integra regressão de linguagem e geração baseada em difusão para interpretar e criar cenas a partir de pontos de vista arbitrários. Para preencher a lacuna de modalidade entre câmeras e visão-linguagem, introduzimos um novo paradigma que trata a câmera como linguagem, permitindo pensar com a câmera. Isso orienta o modelo a alinhar pistas visuais espacialmente fundamentadas com terminologia fotográfica, enquanto raciocina sobre o contexto geométrico. O Puffin é treinado no Puffin-4M, um conjunto de dados em larga escala com 4 milhões de triplas visão-linguagem-câmera. Incorporamos tanto parâmetros globais da câmera quanto mapas de câmera em nível de pixel, resultando em geração espacial flexível e confiável. Experimentos demonstram o desempenho superior do Puffin em relação a modelos especializados para geração e compreensão centradas em câmera. Com ajuste por instrução, o Puffin generaliza para diversas tarefas de visão cruzada, como imaginação espacial, exploração do mundo e orientação fotográfica. Disponibilizaremos o código, modelos, pipeline de dados e benchmark para avançar a pesquisa em inteligência espacial multimodal.
English
Camera-centric understanding and generation are two cornerstones of spatial
intelligence, yet they are typically studied in isolation. We present Puffin, a
unified camera-centric multimodal model that extends spatial awareness along
the camera dimension. Puffin integrates language regression and diffusion-based
generation to interpret and create scenes from arbitrary viewpoints. To bridge
the modality gap between cameras and vision-language, we introduce a novel
paradigm that treats camera as language, enabling thinking with camera. This
guides the model to align spatially grounded visual cues with photographic
terminology while reasoning across geometric context. Puffin is trained on
Puffin-4M, a large-scale dataset of 4 million vision-language-camera triplets.
We incorporate both global camera parameters and pixel-wise camera maps,
yielding flexible and reliable spatial generation. Experiments demonstrate
Puffin superior performance over specialized models for camera-centric
generation and understanding. With instruction tuning, Puffin generalizes to
diverse cross-view tasks such as spatial imagination, world exploration, and
photography guidance. We will release the code, models, dataset pipeline, and
benchmark to advance multimodal spatial intelligence research.