PhotoFlow : Missions de photographie virtuelle 3D agentiques

Résumé

La photographie virtuelle demande à un agent d'entrer dans une scène 3D préparée sans pose de caméra pré-sélectionnée ni image de référence, d'inférer une prise de vue appropriée à partir des informations de la scène et d'une intention langagière, de choisir des paramètres de caméra exécutables, et d'effectuer le rendu de la photographie finale. Les progrès récents des modèles vision-langage rendent ce type d'agent spatial de plus en plus plausible, mais la tâche met en évidence deux capacités qui restent difficiles à évaluer ensemble : la compréhension spatiale 3D complexe et le jugement esthétique abstrait. Nous introduisons PhotoFlow, un agent Directeur-Examinateur-Réfléchisseur pour la recherche de caméra en boucle fermée. Le Directeur construit un plan photographique souple et propose diverses caméras candidates ; l'Examinateur combine des vérifications de règles, une critique visuelle et une sélection par paire du candidat en place ; et le Réfléchisseur convertit les échecs en mémoire de région, suppression de zones mortes et relocation à haute exploration. Nous introduisons également VPhotoBench, un benchmark de 47 scènes Blender sous licence ouverte et 141 missions de photographie conditionnées par le langage, couvrant le placement du sujet, la composition relationnelle et l'atmosphère/style. Lors d'expériences sur des données de validation, PhotoFlow obtient le meilleur composite de qualité-alignement externe et le meilleur taux de réussite parmi la prédiction en un coup, la réflexion en chaîne unique, la sélection par banque d'ancres et la recherche aléatoire sous un budget de rendu de six tours. À notre connaissance, il s'agit du premier travail à faire de la photographie virtuelle conditionnée par le langage dans des scènes Blender arbitraires une tâche d'agent exécutable, et nos résultats montrent qu'un agent spatial centré sur un LLM peut déjà produire des photographies de qualité dans un cadre conçu pour défier à la fois le raisonnement 3D et le choix esthétique.

English

Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.