Penser avec la caméra : un modèle multimodal unifié pour la compréhension et la génération centrées sur la caméra

papers.abstract

La compréhension et la génération centrées sur la caméra sont deux pierres angulaires de l'intelligence spatiale, mais elles sont généralement étudiées de manière isolée. Nous présentons Puffin, un modèle multimodal unifié centré sur la caméra qui étend la conscience spatiale le long de la dimension caméra. Puffin intègre la régression linguistique et la génération basée sur la diffusion pour interpréter et créer des scènes à partir de points de vue arbitraires. Pour combler l'écart de modalité entre les caméras et la vision-langage, nous introduisons un nouveau paradigme qui traite la caméra comme un langage, permettant de penser avec la caméra. Cela guide le modèle à aligner les indices visuels spatialement ancrés avec la terminologie photographique tout en raisonnant dans un contexte géométrique. Puffin est entraîné sur Puffin-4M, un ensemble de données à grande échelle de 4 millions de triplets vision-langage-caméra. Nous incorporons à la fois des paramètres globaux de la caméra et des cartes caméra au niveau des pixels, permettant une génération spatiale flexible et fiable. Les expériences démontrent la performance supérieure de Puffin par rapport aux modèles spécialisés pour la génération et la compréhension centrées sur la caméra. Avec un réglage par instruction, Puffin se généralise à diverses tâches inter-vues telles que l'imagination spatiale, l'exploration du monde et le guidage photographique. Nous publierons le code, les modèles, le pipeline de données et le benchmark pour faire progresser la recherche en intelligence spatiale multimodale.

English

Camera-centric understanding and generation are two cornerstones of spatial intelligence, yet they are typically studied in isolation. We present Puffin, a unified camera-centric multimodal model that extends spatial awareness along the camera dimension. Puffin integrates language regression and diffusion-based generation to interpret and create scenes from arbitrary viewpoints. To bridge the modality gap between cameras and vision-language, we introduce a novel paradigm that treats camera as language, enabling thinking with camera. This guides the model to align spatially grounded visual cues with photographic terminology while reasoning across geometric context. Puffin is trained on Puffin-4M, a large-scale dataset of 4 million vision-language-camera triplets. We incorporate both global camera parameters and pixel-wise camera maps, yielding flexible and reliable spatial generation. Experiments demonstrate Puffin superior performance over specialized models for camera-centric generation and understanding. With instruction tuning, Puffin generalizes to diverse cross-view tasks such as spatial imagination, world exploration, and photography guidance. We will release the code, models, dataset pipeline, and benchmark to advance multimodal spatial intelligence research.

Penser avec la caméra : un modèle multimodal unifié pour la compréhension et la génération centrées sur la caméra

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

papers.abstract

Support