PhotoFlow: Агентные 3D-виртуальные фотомиссии

Аннотация

Виртуальная фотография предполагает, что агент входит в подготовленную 3D-сцену без заранее выбранного положения камеры или эталонного изображения, выводит подходящий кадр на основе информации о сцене и языкового намерения, выбирает исполнимые параметры камеры и рендерит итоговую фотографию. Недавние успехи моделей зрения и языка делают такого рода пространственного агента всё более реалистичным, однако задача требует двух способностей, которые по-прежнему трудно оценивать совместно: сложного трёхмерного пространственного понимания и абстрактного эстетического суждения. Мы представляем PhotoFlow — агента «Директор–Рецензент–Рефлектор» для замкнутого поиска камеры. Директор строит мягкий фотографический план и предлагает разнообразные кандидатные камеры; Рецензент объединяет проверки правил, визуальную критику и попарный выбор текущего решения; Рефлектор преобразует неудачи в память регионов, подавление мёртвых зон и перемещение с высоким исследованием. Мы также представляем VPhotoBench — эталонный набор из 47 сцен Blender с открытой лицензией и 141 языково-обусловленной фотографической миссии, охватывающей размещение объекта, реляционную композицию и атмосферу/стиль. В экспериментах на отложенных данных PhotoFlow достигает наилучшего внешнего композитного показателя качества-согласованности и успешности среди одношагового предсказания, одноцепочного отражения, выбора из банка опорных точек и случайного поиска при бюджете визуализации в шесть раундов. Насколько нам известно, это первая работа, превращающая языково-обусловленную виртуальную фотографию в произвольных сценах Blender в исполняемую задачу для агента, и наши результаты показывают, что пространственный агент на основе большой языковой модели уже способен создавать сильные фотографии в условиях, созданных для проверки как трёхмерного рассуждения, так и эстетического выбора.

English

Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.