JarvisArt : Libérer la créativité artistique humaine grâce à un agent intelligent de retouche photo
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
June 21, 2025
Auteurs: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI
Résumé
La retouche photo est devenue un élément essentiel de la narration visuelle contemporaine, permettant aux utilisateurs de capturer des esthétiques et d'exprimer leur créativité. Bien que des outils professionnels comme Adobe Lightroom offrent des fonctionnalités puissantes, ils nécessitent une expertise considérable et un effort manuel important. En revanche, les solutions existantes basées sur l'IA proposent une automatisation, mais souffrent souvent d'une ajustabilité limitée et d'une mauvaise généralisation, ne répondant pas aux besoins diversifiés et personnalisés en matière d'édition. Pour combler cette lacune, nous présentons JarvisArt, un agent piloté par un modèle de langage multimodal (MLLM) qui comprend l'intention de l'utilisateur, imite le processus de raisonnement des artistes professionnels et coordonne intelligemment plus de 200 outils de retouche au sein de Lightroom. JarvisArt suit un processus d'entraînement en deux étapes : un fine-tuning supervisé initial basé sur la chaîne de pensée (Chain-of-Thought) pour établir des compétences de base en raisonnement et en utilisation d'outils, suivi d'une optimisation de politique relative par groupe pour la retouche (GRPO-R) afin d'améliorer davantage sa prise de décision et sa maîtrise des outils. Nous proposons également le protocole Agent-to-Lightroom pour faciliter une intégration transparente avec Lightroom. Pour évaluer les performances, nous développons MMArt-Bench, un nouveau benchmark construit à partir de modifications réelles effectuées par des utilisateurs. JarvisArt démontre une interaction conviviale, une généralisation supérieure et un contrôle précis des ajustements globaux et locaux, ouvrant ainsi une nouvelle voie pour la retouche photo intelligente. Il surpasse notamment GPT-4o avec une amélioration de 60 % des métriques moyennes au niveau des pixels sur MMArt-Bench pour la fidélité du contenu, tout en maintenant des capacités comparables de suivi des instructions. Page du projet : https://jarvisart.vercel.app/.
English
Photo retouching has become integral to contemporary visual storytelling,
enabling users to capture aesthetics and express creativity. While professional
tools such as Adobe Lightroom offer powerful capabilities, they demand
substantial expertise and manual effort. In contrast, existing AI-based
solutions provide automation but often suffer from limited adjustability and
poor generalization, failing to meet diverse and personalized editing needs. To
bridge this gap, we introduce JarvisArt, a multi-modal large language model
(MLLM)-driven agent that understands user intent, mimics the reasoning process
of professional artists, and intelligently coordinates over 200 retouching
tools within Lightroom. JarvisArt undergoes a two-stage training process: an
initial Chain-of-Thought supervised fine-tuning to establish basic reasoning
and tool-use skills, followed by Group Relative Policy Optimization for
Retouching (GRPO-R) to further enhance its decision-making and tool
proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate
seamless integration with Lightroom. To evaluate performance, we develop
MMArt-Bench, a novel benchmark constructed from real-world user edits.
JarvisArt demonstrates user-friendly interaction, superior generalization, and
fine-grained control over both global and local adjustments, paving a new
avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a
60% improvement in average pixel-level metrics on MMArt-Bench for content
fidelity, while maintaining comparable instruction-following capabilities.
Project Page: https://jarvisart.vercel.app/.