SmartPhotoCrafter : Raisonnement, Génération et Optimisation Unifiés pour l'Édition Automatique d'Images Photographiques
SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing
April 21, 2026
Auteurs: Ying Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang
cs.AI
Résumé
L'édition traditionnelle d'images photographiques nécessite généralement que les utilisateurs possèdent une compréhension esthétique suffisante pour fournir des instructions appropriées afin d'ajuster la qualité d'image et les paramètres de l'appareil. Cependant, ce paradigme repose sur l'expression explicite de l'intention esthétique par l'humain, qui est souvent ambiguë, incomplète ou inaccessible aux utilisateurs non experts. Dans ce travail, nous proposons SmartPhotoCrafter, une méthode d'édition automatique d'images photographiques qui formule l'édition d'image comme un processus raisonnement-génération étroitement couplé. Le modèle proposé effectue d'abord une compréhension de la qualité de l'image et identifie les défauts grâce au module Image Critic, puis le module Photographic Artist réalise des modifications ciblées pour améliorer l'attrait de l'image, éliminant ainsi le besoin d'instructions humaines explicites. Une pipeline d'entraînement multi-étapes est adoptée : (i) Pré-entraînement de base pour établir une compréhension esthétique fondamentale et des capacités d'édition, (ii) Adaptation avec supervision multi-modifications guidée par le raisonnement pour incorporer un guidage sémantique riche, et (iii) Apprentissage par renforcement coordonné raisonnement-vers-génération pour optimiser conjointement le raisonnement et la génération. Pendant l'entraînement, SmartPhotoCrafter met l'accent sur la génération d'images photoréalistes, tout en prenant en charge les tâches de restauration et de retouche d'images avec une adhérence constante aux sémantiques liées à la couleur et aux tons. Nous construisons également un jeu de données spécifique par étape, qui développe progressivement le raisonnement et la génération contrôlable, une collaboration inter-modules efficace, et finalement une amélioration photographique de haute qualité. Les expériences démontrent que SmartPhotoCrafter surpasse les modèles génératifs existants sur la tâche d'amélioration photographique automatique, produisant des résultats photoréalistes tout en faisant preuve d'une sensibilité tonale plus élevée aux instructions de retouche. Page du projet : https://github.com/vivoCameraResearch/SmartPhotoCrafter.
English
Traditional photographic image editing typically requires users to possess sufficient aesthetic understanding to provide appropriate instructions for adjusting image quality and camera parameters. However, this paradigm relies on explicit human instruction of aesthetic intent, which is often ambiguous, incomplete, or inaccessible to non-expert users. In this work, we propose SmartPhotoCrafter, an automatic photographic image editing method which formulates image editing as a tightly coupled reasoning-to-generation process. The proposed model first performs image quality comprehension and identifies deficiencies by the Image Critic module, and then the Photographic Artist module realizes targeted edits to enhance image appeal, eliminating the need for explicit human instructions. A multi-stage training pipeline is adopted: (i) Foundation pretraining to establish basic aesthetic understanding and editing capabilities, (ii) Adaptation with reasoning-guided multi-edit supervision to incorporate rich semantic guidance, and (iii) Coordinated reasoning-to generation reinforcement learning to jointly optimize reasoning and generation. During training, SmartPhotoCrafter emphasizes photo-realistic image generation, while supporting both image restoration and retouching tasks with consistent adherence to color- and tone-related semantics. We also construct a stage-specific dataset, which progressively builds reasoning and controllable generation, effective cross-module collaboration, and ultimately high-quality photographic enhancement. Experiments demonstrate that SmartPhotoCrafter outperforms existing generative models on the task of automatic photographic enhancement, achieving photo-realistic results while exhibiting higher tonal sensitivity to retouching instructions. Project page: https://github.com/vivoCameraResearch/SmartPhotoCrafter.