PhotoFlow: Misiones Agénticas de Fotografía Virtual en 3D

Resumen

La fotografía virtual requiere que un agente ingrese a una escena 3D preparada sin una pose de cámara predefinida ni una imagen de referencia, infiera una toma adecuada a partir de la información de la escena y una intención lingüística, elija parámetros de cámara ejecutables y renderice la fotografía final. Los recientes avances en modelos de visión-lenguaje hacen que este tipo de agente espacial sea cada vez más viable, pero la tarea exige dos capacidades que siguen siendo difíciles de evaluar conjuntamente: la comprensión espacial 3D compleja y el juicio estético abstracto. Presentamos PhotoFlow, un agente Director-Revisor-Reflector para la búsqueda de cámara en lazo cerrado. El Director construye un modelo fotográfico flexible y propone diversas cámaras candidatas; el Revisor combina verificaciones de reglas, crítica visual y selección por pares del candidato actual; y el Reflector convierte los fallos en memoria de regiones, supresión de zonas muertas y reubicación de alta exploración. También presentamos VPhotoBench, un punto de referencia compuesto por 47 escenas Blender de código abierto y 141 misiones fotográficas condicionadas por lenguaje que abarcan ubicación del sujeto, composición relacional y atmósfera/estilo. En experimentos con datos no vistos, PhotoFlow logra el compuesto más sólido de alineación de calidad externa y la tasa de éxito más alta entre la predicción de un solo disparo, la reflexión de cadena única, la selección mediante banco de anclas y la búsqueda aleatoria bajo un presupuesto de renderizado de seis rondas. Hasta donde sabemos, este es el primer trabajo que convierte la fotografía virtual condicionada por lenguaje en escenas Blender arbitrarias en una tarea de agente ejecutable, y nuestros resultados muestran que un agente espacial centrado en LLM ya puede producir fotografías sólidas en un entorno diseñado para desafiar tanto el razonamiento 3D como la elección estética.

English

Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.