PhotoFlow: Agentische 3D-Virtualfotografie-Missionen

Zusammenfassung

Virtuelle Fotografie fordert einen Agenten auf, eine vorbereitete 3D-Szene ohne vorgewählte Kameraposition oder Referenzbild zu betreten, eine geeignete Aufnahme aus Szeneninformationen und einer sprachlichen Absicht abzuleiten, ausführbare Kameraparameter zu wählen und das endgültige Foto zu rendern. Jüngste Fortschritte bei Vision-Language-Modellen machen diese Art von räumlichem Agenten zunehmend plausibel, doch die Aufgabe stellt zwei Fähigkeiten auf die Probe, die nach wie vor schwer gemeinsam zu bewerten sind: komplexes räumliches Verständnis in 3D und abstraktes ästhetisches Urteilsvermögen. Wir stellen PhotoFlow vor, einen Director-Reviewer-Reflector-Agenten für die Kamerasuche mit geschlossenem Regelkreis. Der Director erstellt eine weiche fotografische Blaupause und schlägt vielfältige Kamerakandidaten vor; der Reviewer kombiniert Regelprüfungen, visuelle Kritik und paarweise Auswahl des aktuellen Besten; und der Reflector wandelt Misserfolge in Bereichsspeicher, Totzonenunterdrückung und hoch-explorative Neupositionierung um. Wir führen außerdem VPhotoBench ein, einen Benchmark mit 47 lizenzfreien Blender-Szenen und 141 sprachgesteuerten Fotografieaufgaben, die Subjektplatzierung, relationale Komposition und Atmosphäre/Stil abdecken. In separaten Experimenten erzielt PhotoFlow bei einem Rendering-Budget von sechs Runden den stärksten externen Qualitäts-Ausrichtungs-Verbund und die höchste Erfolgsrate im Vergleich zu Einzelbildvorhersage, Einzelkettenreflexion, Ankerbank-Auswahl und zufälliger Suche. Unseres Wissens nach ist dies die erste Arbeit, die sprachgesteuerte virtuelle Fotografie in beliebigen Blender-Szenen als ausführbare Agentenaufgabe etabliert, und unsere Ergebnisse zeigen, dass ein LLM-zentrierter räumlicher Agent bereits in einem Umfeld, das sowohl 3D-Schlussfolgerung als auch ästhetische Wahl herausfordert, überzeugende Fotos erzeugen kann.

English

Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.