ChatPaper.aiChatPaper

SmartPhotoCrafter: Razonamiento, Generación y Optimización Unificados para la Edición Automática de Imágenes Fotográficas

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

April 21, 2026
Autores: Ying Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang
cs.AI

Resumen

La edición tradicional de imágenes fotográficas normalmente requiere que los usuarios posean suficiente comprensión estética para proporcionar instrucciones adecuadas para ajustar la calidad de la imagen y los parámetros de la cámara. Sin embargo, este paradigma depende de la instrucción humana explícita de la intención estética, que a menudo es ambigua, incompleta o inaccesible para usuarios no expertos. En este trabajo, proponemos SmartPhotoCrafter, un método automático de edición de imágenes fotográficas que formula la edición como un proceso estrechamente acoplado de razonamiento a generación. El modelo propuesto primero realiza una comprensión de la calidad de la imagen e identifica deficiencias mediante el módulo Crítico de Imagen, y luego el módulo Artista Fotográfico realiza ediciones específicas para mejorar el atractivo de la imagen, eliminando la necesidad de instrucciones humanas explícitas. Se adopta una canalización de entrenamiento multietapa: (i) Preentrenamiento base para establecer una comprensión estética básica y capacidades de edición, (ii) Adaptación con supervisión de múltiples ediciones guiada por razonamiento para incorporar una guía semántica rica, y (iii) Aprendizaje por refuerzo coordinado de razonamiento a generación para optimizar conjuntamente el razonamiento y la generación. Durante el entrenamiento, SmartPhotoCrafter enfatiza la generación de imágenes fotorrealistas, mientras admite tanto tareas de restauración como de retoque de imágenes con una adherencia constante a la semántica relacionada con el color y el tono. También construimos un conjunto de datos específico por etapas, que construye progresivamente el razonamiento y la generación controlable, una colaboración cruzada efectiva entre módulos y, en última instancia, una mejora fotográfica de alta calidad. Los experimentos demuestran que SmartPhotoCrafter supera a los modelos generativos existentes en la tarea de mejora fotográfica automática, logrando resultados fotorrealistas mientras exhibe una mayor sensibilidad tonal a las instrucciones de retoque. Página del proyecto: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
English
Traditional photographic image editing typically requires users to possess sufficient aesthetic understanding to provide appropriate instructions for adjusting image quality and camera parameters. However, this paradigm relies on explicit human instruction of aesthetic intent, which is often ambiguous, incomplete, or inaccessible to non-expert users. In this work, we propose SmartPhotoCrafter, an automatic photographic image editing method which formulates image editing as a tightly coupled reasoning-to-generation process. The proposed model first performs image quality comprehension and identifies deficiencies by the Image Critic module, and then the Photographic Artist module realizes targeted edits to enhance image appeal, eliminating the need for explicit human instructions. A multi-stage training pipeline is adopted: (i) Foundation pretraining to establish basic aesthetic understanding and editing capabilities, (ii) Adaptation with reasoning-guided multi-edit supervision to incorporate rich semantic guidance, and (iii) Coordinated reasoning-to generation reinforcement learning to jointly optimize reasoning and generation. During training, SmartPhotoCrafter emphasizes photo-realistic image generation, while supporting both image restoration and retouching tasks with consistent adherence to color- and tone-related semantics. We also construct a stage-specific dataset, which progressively builds reasoning and controllable generation, effective cross-module collaboration, and ultimately high-quality photographic enhancement. Experiments demonstrate that SmartPhotoCrafter outperforms existing generative models on the task of automatic photographic enhancement, achieving photo-realistic results while exhibiting higher tonal sensitivity to retouching instructions. Project page: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
PDF50April 23, 2026