PhotoFlow: Agentische 3D Virtuele Fotografie Missies

Samenvatting

Virtuele fotografie vraagt een agent om een voorbereide 3D-scène te betreden zonder vooraf geselecteerde camerapositie of referentiebeeld, een geschikte opname af te leiden uit scène-informatie en een taalintentie, uitvoerbare cameraparameters te kiezen en de uiteindelijke foto te renderen. Recente vooruitgang in visie-taalmodelen maakt dit soort ruimtelijke agent steeds plausibeler, maar de taak legt de nadruk op twee vaardigheden die moeilijk samen te evalueren zijn: complex ruimtelijk 3D-begrip en abstract esthetisch oordeel. Wij introduceren PhotoFlow, een Director-Reviewer-Reflector-agent voor gesloten-lus camerazoeken. De Director bouwt een zachte fotografische blauwdruk en stelt diverse kandidaatcamera's voor; de Reviewer combineert regelcontroles, visuele kritiek en paarsgewijze selectie van de huidige beste; en de Reflector zet mislukkingen om in regiongeheugen, onderdrukking van dode zones en verplaatsing met hoge exploratie. We introduceren tevens VPhotoBench, een benchmark van 47 open-source Blender-scènes en 141 taalgestuurde fotografiemissies, variërend van plaatsing van onderwerpen, relationele compositie tot sfeer/stijl. In uitgesloten experimenten behaalt PhotoFlow de sterkste externe kwaliteitsafstemmingscomposiet en het hoogste succespercentage onder eenmalige voorspelling, enkelketenreflectie, ankerbankselectie en willekeurig zoeken met een renderingsbudget van zes rondes. Voor zover wij weten is dit het eerste werk dat taalgestuurde virtuele fotografie in willekeurige Blender-scènes tot een uitvoerbare agenttaak maakt, en onze resultaten tonen aan dat een LLM-gecentreerde ruimtelijke agent reeds sterke foto's kan produceren in een setting die zowel 3D-redenering als esthetische keuzes uitdaagt.

English

Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.