ChatPaper.aiChatPaper

SmartPhotoCrafter: Vereinheitlichtes Schließen, Erzeugen und Optimieren für die automatische Bearbeitung fotografischer Bilder

SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

April 21, 2026
Autoren: Ying Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang
cs.AI

Zusammenfassung

Traditionelle Bearbeitung fotografischer Bilder erfordert in der Regel, dass Nutzer über ausreichend ästhetisches Verständnis verfügen, um geeignete Anweisungen zur Anpassung der Bildqualität und Kameraparameter zu geben. Dieses Paradigma setzt jedoch explizite menschliche Anweisungen zur ästhetischen Gestaltung voraus, die für nicht-experimentierte Nutzer oft unklar, unvollständig oder schwer zugänglich sind. In dieser Arbeit stellen wir SmartPhotoCrafter vor, eine automatische Methode zur Bearbeitung fotografischer Bilder, die Bildbearbeitung als einen stark gekoppelten Reasoning-to-Generation-Prozess formuliert. Das vorgeschlagene Modell führt zunächst eine Bildqualitätsanalyse durch und identifiziert Mängel mittels des Image-Critic-Moduls. Anschließend realisiert das Photographic-Artist-Modul zielgerichtete Bearbeitungen zur Steigerung der Bildattraktivität, wodurch explizite menschliche Anweisungen entbehrlich werden. Ein mehrstufiger Trainingsansatz kommt zur Anwendung: (i) Foundation-Pretraining zum Aufbau grundlegenden ästhetischen Verständnisses und Bearbeitungsfähigkeiten, (ii) Adaption mit reasoning-gesteuerter Multi-Edit-Supervision zur Integration semantischer Guidance, und (iii) koordinierte Reasoning-to-Generation-Verstärkungslernverfahren zur gemeinsamen Optimierung von Reasoning und Generierung. Während des Trainings legt SmartPhotoCrafter Wert auf fotorealistische Bildgenerierung und unterstützt zugleich sowohl Bildrestaurierungs- als auch Bildretuscheaufgaben unter konsequenter Beachtung farb- und tonwertbezogener Semantik. Zudem erstellen wir einen stufenspezifischen Datensatz, der schrittweise Reasoning und kontrollierbare Generierung, effektive modulübergreifende Zusammenarbeit und letztlich hochwertige fotografische Verbesserungen ermöglicht. Experimente zeigen, dass SmartPhotoCrafter bestehende generative Modelle bei der Aufgabe der automatischen fotografischen Verbesserung übertrifft und fotorealistische Ergebnisse erzielt, wobei es eine höhere tonale Sensitivität gegenüber Retusche-Anweisungen aufweist. Projektseite: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
English
Traditional photographic image editing typically requires users to possess sufficient aesthetic understanding to provide appropriate instructions for adjusting image quality and camera parameters. However, this paradigm relies on explicit human instruction of aesthetic intent, which is often ambiguous, incomplete, or inaccessible to non-expert users. In this work, we propose SmartPhotoCrafter, an automatic photographic image editing method which formulates image editing as a tightly coupled reasoning-to-generation process. The proposed model first performs image quality comprehension and identifies deficiencies by the Image Critic module, and then the Photographic Artist module realizes targeted edits to enhance image appeal, eliminating the need for explicit human instructions. A multi-stage training pipeline is adopted: (i) Foundation pretraining to establish basic aesthetic understanding and editing capabilities, (ii) Adaptation with reasoning-guided multi-edit supervision to incorporate rich semantic guidance, and (iii) Coordinated reasoning-to generation reinforcement learning to jointly optimize reasoning and generation. During training, SmartPhotoCrafter emphasizes photo-realistic image generation, while supporting both image restoration and retouching tasks with consistent adherence to color- and tone-related semantics. We also construct a stage-specific dataset, which progressively builds reasoning and controllable generation, effective cross-module collaboration, and ultimately high-quality photographic enhancement. Experiments demonstrate that SmartPhotoCrafter outperforms existing generative models on the task of automatic photographic enhancement, achieving photo-realistic results while exhibiting higher tonal sensitivity to retouching instructions. Project page: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
PDF50April 23, 2026