Penser avec la caméra : un modèle multimodal unifié pour la compréhension et la génération centrées sur la caméra
Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
October 9, 2025
papers.authors: Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy
cs.AI
papers.abstract
La compréhension et la génération centrées sur la caméra sont deux pierres angulaires de l'intelligence spatiale, mais elles sont généralement étudiées de manière isolée. Nous présentons Puffin, un modèle multimodal unifié centré sur la caméra qui étend la conscience spatiale le long de la dimension caméra. Puffin intègre la régression linguistique et la génération basée sur la diffusion pour interpréter et créer des scènes à partir de points de vue arbitraires. Pour combler l'écart de modalité entre les caméras et la vision-langage, nous introduisons un nouveau paradigme qui traite la caméra comme un langage, permettant de penser avec la caméra. Cela guide le modèle à aligner les indices visuels spatialement ancrés avec la terminologie photographique tout en raisonnant dans un contexte géométrique. Puffin est entraîné sur Puffin-4M, un ensemble de données à grande échelle de 4 millions de triplets vision-langage-caméra. Nous incorporons à la fois des paramètres globaux de la caméra et des cartes caméra au niveau des pixels, permettant une génération spatiale flexible et fiable. Les expériences démontrent la performance supérieure de Puffin par rapport aux modèles spécialisés pour la génération et la compréhension centrées sur la caméra. Avec un réglage par instruction, Puffin se généralise à diverses tâches inter-vues telles que l'imagination spatiale, l'exploration du monde et le guidage photographique. Nous publierons le code, les modèles, le pipeline de données et le benchmark pour faire progresser la recherche en intelligence spatiale multimodale.
English
Camera-centric understanding and generation are two cornerstones of spatial
intelligence, yet they are typically studied in isolation. We present Puffin, a
unified camera-centric multimodal model that extends spatial awareness along
the camera dimension. Puffin integrates language regression and diffusion-based
generation to interpret and create scenes from arbitrary viewpoints. To bridge
the modality gap between cameras and vision-language, we introduce a novel
paradigm that treats camera as language, enabling thinking with camera. This
guides the model to align spatially grounded visual cues with photographic
terminology while reasoning across geometric context. Puffin is trained on
Puffin-4M, a large-scale dataset of 4 million vision-language-camera triplets.
We incorporate both global camera parameters and pixel-wise camera maps,
yielding flexible and reliable spatial generation. Experiments demonstrate
Puffin superior performance over specialized models for camera-centric
generation and understanding. With instruction tuning, Puffin generalizes to
diverse cross-view tasks such as spatial imagination, world exploration, and
photography guidance. We will release the code, models, dataset pipeline, and
benchmark to advance multimodal spatial intelligence research.