ChatPaper.aiChatPaper

JarvisArt: Bevrijding van Menselijke Artistieke Creativiteit via een Intelligente Foto Retoucheeragent

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

June 21, 2025
Auteurs: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI

Samenvatting

Fotoretoucheren is een integraal onderdeel geworden van hedendaags visueel verhalen vertellen, waardoor gebruikers esthetiek kunnen vastleggen en creativiteit kunnen uiten. Hoewel professionele tools zoals Adobe Lightroom krachtige mogelijkheden bieden, vereisen ze aanzienlijke expertise en handmatige inspanning. Bestaande AI-gebaseerde oplossingen bieden daarentegen automatisering, maar lijden vaak onder beperkte aanpasbaarheid en slechte generalisatie, waardoor ze niet voldoen aan diverse en gepersonaliseerde bewerkingsbehoeften. Om deze kloof te overbruggen, introduceren we JarvisArt, een multi-modale large language model (MLLM)-gestuurde agent die gebruikersintentie begrijpt, het redeneerproces van professionele artiesten nabootst en intelligent meer dan 200 retoucheertools binnen Lightroom coördineert. JarvisArt ondergaat een tweefasig trainingsproces: een initiële Chain-of-Thought supervised fine-tuning om basisredenering en toolgebruikvaardigheden te ontwikkelen, gevolgd door Group Relative Policy Optimization for Retouching (GRPO-R) om de besluitvorming en toolvaardigheid verder te verbeteren. We stellen ook het Agent-to-Lightroom Protocol voor om naadloze integratie met Lightroom te vergemakkelijken. Om de prestaties te evalueren, ontwikkelen we MMArt-Bench, een nieuwe benchmark gebaseerd op real-world gebruikersbewerkingen. JarvisArt toont gebruiksvriendelijke interactie, superieure generalisatie en fijnmazige controle over zowel globale als lokale aanpassingen, wat een nieuwe weg opent voor intelligente fotoretouche. Opmerkelijk is dat het GPT-4o overtreft met een verbetering van 60% in gemiddelde pixelgebaseerde metrieken op MMArt-Bench voor inhoudstrouw, terwijl het vergelijkbare instructievolgcapaciteiten behoudt. Projectpagina: https://jarvisart.vercel.app/.
English
Photo retouching has become integral to contemporary visual storytelling, enabling users to capture aesthetics and express creativity. While professional tools such as Adobe Lightroom offer powerful capabilities, they demand substantial expertise and manual effort. In contrast, existing AI-based solutions provide automation but often suffer from limited adjustability and poor generalization, failing to meet diverse and personalized editing needs. To bridge this gap, we introduce JarvisArt, a multi-modal large language model (MLLM)-driven agent that understands user intent, mimics the reasoning process of professional artists, and intelligently coordinates over 200 retouching tools within Lightroom. JarvisArt undergoes a two-stage training process: an initial Chain-of-Thought supervised fine-tuning to establish basic reasoning and tool-use skills, followed by Group Relative Policy Optimization for Retouching (GRPO-R) to further enhance its decision-making and tool proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate seamless integration with Lightroom. To evaluate performance, we develop MMArt-Bench, a novel benchmark constructed from real-world user edits. JarvisArt demonstrates user-friendly interaction, superior generalization, and fine-grained control over both global and local adjustments, paving a new avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a 60% improvement in average pixel-level metrics on MMArt-Bench for content fidelity, while maintaining comparable instruction-following capabilities. Project Page: https://jarvisart.vercel.app/.
PDF613June 25, 2025