SmartPhotoCrafter: Единая система анализа, генерации и оптимизации для автоматического редактирования фотографических изображений
SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing
April 21, 2026
Авторы: Ying Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang
cs.AI
Аннотация
Традиционное редактирование фотографических изображений обычно требует от пользователей достаточного эстетического понимания для формулирования соответствующих инструкций по корректировке качества изображения и параметров камеры. Однако эта парадигма основана на явном указании пользователем эстетических предпочтений, что зачастую бывает неоднозначным, неполным или недоступным для неопытных пользователей. В данной работе мы предлагаем SmartPhotoCrafter — автоматический метод редактирования фотографических изображений, который формулирует процесс редактирования как тесно связанный процесс «рассуждение-генерация». Предложенная модель сначала выполняет анализ качества изображения и выявляет недостатки с помощью модуля Image Critic, а затем модуль Photographic Artist реализует целевые правки для повышения привлекательности изображения, устраняя необходимость в явных инструкциях от пользователя. Используется многоэтапный конвейер обучения: (i) Предварительное обучение основы для формирования базового эстетического понимания и навыков редактирования, (ii) Адаптация с контролем множественных правок, направляемых рассуждением, для включения богатой семантической информации, и (iii) Согласованное обучение с подкреплением по схеме «рассуждение-генерация» для совместной оптимизации рассуждений и генерации. В процессе обучения SmartPhotoCrafter уделяет особое внимание фотореалистичной генерации изображений, одновременно поддерживая задачи как восстановления, так и ретуширования изображений с последовательным соблюдением семантики, связанной с цветом и тоном. Мы также создали специализированный для каждого этапа набор данных, который постепенно формирует навыки рассуждения, контролируемой генерации, эффективного межмодульного взаимодействия и, в конечном счете, высококачественного фотографического улучшения. Эксперименты демонстрируют, что SmartPhotoCrafter превосходит существующие генеративные модели в задаче автоматического фотографического улучшения, достигая фотореалистичных результатов и проявляя более высокую чувствительность к тональным аспектам при выполнении инструкций по ретуши. Страница проекта: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
English
Traditional photographic image editing typically requires users to possess sufficient aesthetic understanding to provide appropriate instructions for adjusting image quality and camera parameters. However, this paradigm relies on explicit human instruction of aesthetic intent, which is often ambiguous, incomplete, or inaccessible to non-expert users. In this work, we propose SmartPhotoCrafter, an automatic photographic image editing method which formulates image editing as a tightly coupled reasoning-to-generation process. The proposed model first performs image quality comprehension and identifies deficiencies by the Image Critic module, and then the Photographic Artist module realizes targeted edits to enhance image appeal, eliminating the need for explicit human instructions. A multi-stage training pipeline is adopted: (i) Foundation pretraining to establish basic aesthetic understanding and editing capabilities, (ii) Adaptation with reasoning-guided multi-edit supervision to incorporate rich semantic guidance, and (iii) Coordinated reasoning-to generation reinforcement learning to jointly optimize reasoning and generation. During training, SmartPhotoCrafter emphasizes photo-realistic image generation, while supporting both image restoration and retouching tasks with consistent adherence to color- and tone-related semantics. We also construct a stage-specific dataset, which progressively builds reasoning and controllable generation, effective cross-module collaboration, and ultimately high-quality photographic enhancement. Experiments demonstrate that SmartPhotoCrafter outperforms existing generative models on the task of automatic photographic enhancement, achieving photo-realistic results while exhibiting higher tonal sensitivity to retouching instructions. Project page: https://github.com/vivoCameraResearch/SmartPhotoCrafter.