ChatPaper.aiChatPaper

JarvisArt: Befreiung der menschlichen künstlerischen Kreativität durch einen intelligenten Foto-Retusche-Agenten

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

June 21, 2025
Autoren: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI

Zusammenfassung

Die Fotoretusche ist zu einem integralen Bestandteil des zeitgenössischen visuellen Storytellings geworden und ermöglicht es Nutzern, Ästhetik einzufangen und Kreativität auszudrücken. Während professionelle Werkzeuge wie Adobe Lightroom leistungsstarke Funktionen bieten, erfordern sie beträchtliche Expertise und manuellen Aufwand. Im Gegensatz dazu bieten bestehende KI-basierte Lösungen zwar Automatisierung, leiden jedoch oft unter begrenzter Anpassungsfähigkeit und schlechter Generalisierung, wodurch sie vielfältige und personalisierte Bearbeitungsbedürfnisse nicht erfüllen können. Um diese Lücke zu schließen, stellen wir JarvisArt vor, einen multi-modalen Large Language Model (MLLM)-gesteuerten Agenten, der die Absichten der Nutzer versteht, den Denkprozess professioneller Künstler nachahmt und intelligent über 200 Retusche-Werkzeuge innerhalb von Lightroom koordiniert. JarvisArt durchläuft einen zweistufigen Trainingsprozess: eine anfängliche Chain-of-Thought-supervised Feinabstimmung, um grundlegende Denk- und Werkzeugnutzungskompetenzen zu etablieren, gefolgt von Group Relative Policy Optimization for Retouching (GRPO-R), um seine Entscheidungsfindung und Werkzeugbeherrschung weiter zu verbessern. Wir schlagen außerdem das Agent-to-Lightroom-Protokoll vor, um eine nahtlose Integration mit Lightroom zu ermöglichen. Zur Bewertung der Leistung entwickeln wir MMArt-Bench, einen neuartigen Benchmark, der auf realen Nutzerbearbeitungen basiert. JarvisArt zeigt benutzerfreundliche Interaktion, überlegene Generalisierung und fein abgestimmte Kontrolle über sowohl globale als auch lokale Anpassungen und ebnet so einen neuen Weg für intelligente Fotoretusche. Bemerkenswerterweise übertrifft es GPT-4o mit einer 60%igen Verbesserung der durchschnittlichen Pixel-Level-Metriken auf MMArt-Bench in Bezug auf Inhaltsgenauigkeit, bei gleichzeitig vergleichbaren Fähigkeiten zur Befolgung von Anweisungen. Projektseite: https://jarvisart.vercel.app/.
English
Photo retouching has become integral to contemporary visual storytelling, enabling users to capture aesthetics and express creativity. While professional tools such as Adobe Lightroom offer powerful capabilities, they demand substantial expertise and manual effort. In contrast, existing AI-based solutions provide automation but often suffer from limited adjustability and poor generalization, failing to meet diverse and personalized editing needs. To bridge this gap, we introduce JarvisArt, a multi-modal large language model (MLLM)-driven agent that understands user intent, mimics the reasoning process of professional artists, and intelligently coordinates over 200 retouching tools within Lightroom. JarvisArt undergoes a two-stage training process: an initial Chain-of-Thought supervised fine-tuning to establish basic reasoning and tool-use skills, followed by Group Relative Policy Optimization for Retouching (GRPO-R) to further enhance its decision-making and tool proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate seamless integration with Lightroom. To evaluate performance, we develop MMArt-Bench, a novel benchmark constructed from real-world user edits. JarvisArt demonstrates user-friendly interaction, superior generalization, and fine-grained control over both global and local adjustments, paving a new avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a 60% improvement in average pixel-level metrics on MMArt-Bench for content fidelity, while maintaining comparable instruction-following capabilities. Project Page: https://jarvisart.vercel.app/.
PDF172June 25, 2025