GPS comme signal de contrôle pour la génération d'images.
GPS as a Control Signal for Image Generation
January 21, 2025
Auteurs: Chao Feng, Ziyang Chen, Aleksander Holynski, Alexei A. Efros, Andrew Owens
cs.AI
Résumé
Nous montrons que les balises GPS contenues dans les métadonnées des photos fournissent un signal de contrôle utile pour la génération d'images. Nous entraînons des modèles de GPS vers image et les utilisons pour des tâches nécessitant une compréhension fine de la variation des images à l'intérieur d'une ville. En particulier, nous entraînons un modèle de diffusion pour générer des images conditionnées à la fois par le GPS et le texte. Le modèle appris génère des images qui capturent l'apparence distinctive des différents quartiers, parcs et monuments. Nous extrayons également des modèles 3D à partir de modèles de GPS vers image 2D grâce à un échantillonnage de distillation de score, en utilisant le conditionnement GPS pour contraindre l'apparence de la reconstruction depuis chaque point de vue. Nos évaluations suggèrent que nos modèles conditionnés par GPS apprennent avec succès à générer des images variant en fonction de l'emplacement, et que le conditionnement GPS améliore la structure 3D estimée.
English
We show that the GPS tags contained in photo metadata provide a useful
control signal for image generation. We train GPS-to-image models and use them
for tasks that require a fine-grained understanding of how images vary within a
city. In particular, we train a diffusion model to generate images conditioned
on both GPS and text. The learned model generates images that capture the
distinctive appearance of different neighborhoods, parks, and landmarks. We
also extract 3D models from 2D GPS-to-image models through score distillation
sampling, using GPS conditioning to constrain the appearance of the
reconstruction from each viewpoint. Our evaluations suggest that our
GPS-conditioned models successfully learn to generate images that vary based on
location, and that GPS conditioning improves estimated 3D structure.Summary
AI-Generated Summary