ChatPaper.aiChatPaper

Denken met Camera: Een Geïntegreerd Multimodaal Model voor Camera-Gecentreerd Begrip en Generatie

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

October 9, 2025
Auteurs: Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy
cs.AI

Samenvatting

Camera-gericht begrip en generatie zijn twee hoekstenen van ruimtelijke intelligentie, maar worden doorgaans afzonderlijk bestudeerd. Wij presenteren Puffin, een verenigd camera-gericht multimodaal model dat het ruimtelijk bewustzijn uitbreidt langs de camera-dimensie. Puffin integreert taalregressie en diffusie-gebaseerde generatie om scènes te interpreteren en te creëren vanuit willekeurige gezichtspunten. Om de kloof tussen camera's en visueel-taalmodellen te overbruggen, introduceren we een nieuw paradigma dat de camera als taal behandelt, waardoor het mogelijk wordt om met de camera te denken. Dit leidt het model om ruimtelijk verankerde visuele aanwijzingen af te stemmen op fotografische terminologie, terwijl het redeneert over geometrische context. Puffin is getraind op Puffin-4M, een grootschalige dataset van 4 miljoen visueel-taal-camera-triplets. We integreren zowel globale cameraparameters als pixelgewijze camerakaarten, wat resulteert in flexibele en betrouwbare ruimtelijke generatie. Experimenten tonen aan dat Puffin superieure prestaties levert ten opzichte van gespecialiseerde modellen voor camera-gerichte generatie en begrip. Met instructieafstemming generaliseert Puffin naar diverse kruisview-taken zoals ruimtelijke verbeelding, wereldverkenning en fotografische begeleiding. We zullen de code, modellen, datasetpijplijn en benchmark vrijgeven om onderzoek naar multimodale ruimtelijke intelligentie vooruit te helpen.
English
Camera-centric understanding and generation are two cornerstones of spatial intelligence, yet they are typically studied in isolation. We present Puffin, a unified camera-centric multimodal model that extends spatial awareness along the camera dimension. Puffin integrates language regression and diffusion-based generation to interpret and create scenes from arbitrary viewpoints. To bridge the modality gap between cameras and vision-language, we introduce a novel paradigm that treats camera as language, enabling thinking with camera. This guides the model to align spatially grounded visual cues with photographic terminology while reasoning across geometric context. Puffin is trained on Puffin-4M, a large-scale dataset of 4 million vision-language-camera triplets. We incorporate both global camera parameters and pixel-wise camera maps, yielding flexible and reliable spatial generation. Experiments demonstrate Puffin superior performance over specialized models for camera-centric generation and understanding. With instruction tuning, Puffin generalizes to diverse cross-view tasks such as spatial imagination, world exploration, and photography guidance. We will release the code, models, dataset pipeline, and benchmark to advance multimodal spatial intelligence research.
PDF1163October 13, 2025