ChatPaper.aiChatPaper

SmartPhotoCrafter: Raciocínio, Geração e Otimização Unificados para Edição Automática de Imagens Fotográficas

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

April 21, 2026
Autores: Ying Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang
cs.AI

Resumo

A edição tradicional de imagens fotográficas normalmente exige que os usuários possuam compreensão estética suficiente para fornecer instruções adequadas para ajustar a qualidade da imagem e os parâmetros da câmara. No entanto, este paradigma depende da instrução humana explícita da intenção estética, que é frequentemente ambígua, incompleta ou inacessível a utilizadores não especializados. Neste trabalho, propomos o SmartPhotoCrafter, um método automático de edição de imagens fotográficas que formula a edição como um processo fortemente acoplado de raciocínio-para-geração. O modelo proposto executa primeiro a compreensão da qualidade da imagem e identifica deficiências através do módulo Crítico de Imagem (Image Critic), e depois o módulo Artista Fotográfico (Photographic Artist) realiza edições direcionadas para melhorar o apelo da imagem, eliminando a necessidade de instruções humanas explícitas. É adotado um pipeline de treino multiestágio: (i) Pré-treinamento de base para estabelecer compreensão estética básica e capacidades de edição, (ii) Adaptação com supervisão de múltiplas edições guiadas por raciocínio para incorporar orientação semântica rica, e (iii) Aprendizagem por reforço coordenada de raciocínio-para-geração para otimizar conjuntamente o raciocínio e a geração. Durante o treino, o SmartPhotoCrafter enfatiza a geração de imagens foto-realistas, suportando simultaneamente tarefas de restauração e retoque de imagem com aderência consistente à semântica relacionada com cor e tom. Também construímos um conjunto de dados específico por estágio, que constrói progressivamente o raciocínio e a geração controlável, uma colaboração eficaz entre módulos e, por fim, um aprimoramento fotográfico de alta qualidade. Experiências demonstram que o SmartPhotoCrafter supera os modelos generativos existentes na tarefa de aprimoramento fotográfico automático, alcançando resultados foto-realistas enquanto exibe maior sensibilidade tonal às instruções de retoque. Página do projeto: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
English
Traditional photographic image editing typically requires users to possess sufficient aesthetic understanding to provide appropriate instructions for adjusting image quality and camera parameters. However, this paradigm relies on explicit human instruction of aesthetic intent, which is often ambiguous, incomplete, or inaccessible to non-expert users. In this work, we propose SmartPhotoCrafter, an automatic photographic image editing method which formulates image editing as a tightly coupled reasoning-to-generation process. The proposed model first performs image quality comprehension and identifies deficiencies by the Image Critic module, and then the Photographic Artist module realizes targeted edits to enhance image appeal, eliminating the need for explicit human instructions. A multi-stage training pipeline is adopted: (i) Foundation pretraining to establish basic aesthetic understanding and editing capabilities, (ii) Adaptation with reasoning-guided multi-edit supervision to incorporate rich semantic guidance, and (iii) Coordinated reasoning-to generation reinforcement learning to jointly optimize reasoning and generation. During training, SmartPhotoCrafter emphasizes photo-realistic image generation, while supporting both image restoration and retouching tasks with consistent adherence to color- and tone-related semantics. We also construct a stage-specific dataset, which progressively builds reasoning and controllable generation, effective cross-module collaboration, and ultimately high-quality photographic enhancement. Experiments demonstrate that SmartPhotoCrafter outperforms existing generative models on the task of automatic photographic enhancement, achieving photo-realistic results while exhibiting higher tonal sensitivity to retouching instructions. Project page: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
PDF50April 23, 2026