ChatPaper.aiChatPaper

SmartPhotoCrafter: 자동 사진 편집을 위한 통합 추론, 생성 및 최적화

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

April 21, 2026
저자: Ying Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang
cs.AI

초록

기존의 사진 이미지 편집 방식은 일반적으로 사용자가 이미지 품질과 카메라 매개변수 조정을 위한 적절한 지시를 내리기 위해 충분한 미적 이해를 갖출 것을 요구합니다. 그러나 이러한 패러다임은 미적 의도의 명시적 인간 지시에 의존하는데, 이는 종종 모호하거나 불완전하거나 비전문가 사용자에게는 접근하기 어렵습니다. 본 연구에서는 이미지 편집을 강력하게 결합된 추론-생성 과정으로 공식화하는 자동 사진 이미지 편집 방법인 SmartPhotoCrafter를 제안합니다. 제안 모델은 먼저 Image Critic 모듈을 통해 이미지 품질을 이해하고 결함을 식별한 다음, Photographic Artist 모듈이 이미지 매력을 향상시키기 위한 표적 편집을 수행하여 명시적 인간 지시의 필요성을 제거합니다. 다단계 학습 파이프라인을 채택하였습니다: (i) 기본 미적 이해와 편집 능력을 확립하기 위한 기초 사전 학습, (ii) 풍부한 의미론적 지도를 통합하기 위한 추론 기반 다중 편집 지도 학습, (iii) 추론과 생성을 공동 최적화하기 위한 조정된 추론-생성 강화 학습. 학습 과정에서 SmartPhotoCrafter는 사실적인 이미지 생성을 중시하면서도 색조 및 톤 관련 의미론을 일관되게 준수하며 이미지 복원 및 리터칭 작업을 모두 지원합니다. 또한 단계별 데이터셋을 구축하여 추론과 제어 가능한 생성, 효과적인 모듈 간 협업, 그리고 궁극적으로 고품질의 사진 향상을 점진적으로 구현합니다. 실험 결과, SmartPhotoCrafter는 자동 사진 향상 작업에서 기존 생성 모델을 능가하며 사실적인 결과를 달성함과 동시에 리터칭 지침에 대한 더 높은 톤 민감도를 보여줍니다. 프로젝트 페이지: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
English
Traditional photographic image editing typically requires users to possess sufficient aesthetic understanding to provide appropriate instructions for adjusting image quality and camera parameters. However, this paradigm relies on explicit human instruction of aesthetic intent, which is often ambiguous, incomplete, or inaccessible to non-expert users. In this work, we propose SmartPhotoCrafter, an automatic photographic image editing method which formulates image editing as a tightly coupled reasoning-to-generation process. The proposed model first performs image quality comprehension and identifies deficiencies by the Image Critic module, and then the Photographic Artist module realizes targeted edits to enhance image appeal, eliminating the need for explicit human instructions. A multi-stage training pipeline is adopted: (i) Foundation pretraining to establish basic aesthetic understanding and editing capabilities, (ii) Adaptation with reasoning-guided multi-edit supervision to incorporate rich semantic guidance, and (iii) Coordinated reasoning-to generation reinforcement learning to jointly optimize reasoning and generation. During training, SmartPhotoCrafter emphasizes photo-realistic image generation, while supporting both image restoration and retouching tasks with consistent adherence to color- and tone-related semantics. We also construct a stage-specific dataset, which progressively builds reasoning and controllable generation, effective cross-module collaboration, and ultimately high-quality photographic enhancement. Experiments demonstrate that SmartPhotoCrafter outperforms existing generative models on the task of automatic photographic enhancement, achieving photo-realistic results while exhibiting higher tonal sensitivity to retouching instructions. Project page: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
PDF50April 23, 2026