PhotoFlow: Missões Agênticas de Fotografia Virtual 3D

Resumo

A fotografia virtual exige que um agente entre em uma cena 3D preparada, sem pose de câmera pré-selecionada ou imagem de referência, infira um enquadramento adequado a partir das informações da cena e de uma intenção linguística, escolha parâmetros de câmera executáveis e renderize a fotografia final. O progresso recente em modelos visão-linguagem torna esse tipo de agente espacial cada vez mais plausível, mas a tarefa demanda duas capacidades que permanecem difíceis de avaliar em conjunto: compreensão espacial 3D complexa e julgamento estético abstrato. Apresentamos o PhotoFlow, um agente Diretor-Revisor-Refletor para busca de câmera em malha fechada. O Diretor constrói um blueprint fotográfico suave e propõe diversas câmeras candidatas; o Revisor combina verificações de regras, crítica visual e seleção pareada de candidatos; e o Refletor converte falhas em memória de região, supressão de zonas mortas e realocação de alta exploração. Também introduzimos o VPhotoBench, um benchmark composto por 47 cenas Blender com licença aberta e 141 missões fotográficas condicionadas por linguagem, abrangendo posicionamento de assunto, composição relacional e atmosfera/estilo. Em experimentos de validação, o PhotoFlow alcança o melhor composto de alinhamento de qualidade externa e taxa de sucesso entre previsão única, reflexão em cadeia única, seleção de banco de âncoras e busca aleatória, dentro de um orçamento de renderização de seis rodadas. Até onde sabemos, este é o primeiro trabalho a tornar a fotografia virtual condicionada por linguagem em cenas Blender arbitrárias uma tarefa executável de agente, e nossos resultados mostram que um agente espacial centrado em LLM já pode produzir fotografias robustas em um ambiente projetado para desafiar tanto o raciocínio 3D quanto a escolha estética.

English

Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.