JarvisArt: Liberare la Creatività Artistica Umana attraverso un Agente Intelligente di Ritocco Fotografico
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
June 21, 2025
Autori: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI
Abstract
Il fotoritocco è diventato parte integrante della narrazione visiva contemporanea, consentendo agli utenti di catturare l'estetica ed esprimere la creatività. Mentre strumenti professionali come Adobe Lightroom offrono funzionalità potenti, richiedono una competenza significativa e uno sforzo manuale considerevole. Al contrario, le soluzioni esistenti basate sull'intelligenza artificiale forniscono automazione, ma spesso soffrono di una limitata adattabilità e di una scarsa generalizzazione, non riuscendo a soddisfare esigenze di editing diversificate e personalizzate. Per colmare questa lacuna, introduciamo JarvisArt, un agente guidato da un modello linguistico multimodale di grandi dimensioni (MLLM) che comprende l'intento dell'utente, imita il processo di ragionamento degli artisti professionisti e coordina in modo intelligente oltre 200 strumenti di fotoritocco all'interno di Lightroom. JarvisArt segue un processo di addestramento in due fasi: un iniziale fine-tuning supervisionato a catena di pensiero (Chain-of-Thought) per stabilire le competenze di base nel ragionamento e nell'uso degli strumenti, seguito dall'ottimizzazione relativa di gruppo delle politiche per il fotoritocco (GRPO-R) per migliorare ulteriormente il processo decisionale e la padronanza degli strumenti. Proponiamo inoltre il Protocollo Agente-to-Lightroom per facilitare l'integrazione senza soluzione di continuità con Lightroom. Per valutare le prestazioni, sviluppiamo MMArt-Bench, un nuovo benchmark costruito a partire da modifiche reali degli utenti. JarvisArt dimostra un'interazione user-friendly, una superiore generalizzazione e un controllo fine sia sugli aggiustamenti globali che su quelli locali, aprendo una nuova strada per il fotoritocco intelligente. In particolare, supera GPT-4o con un miglioramento del 60% nelle metriche medie a livello di pixel su MMArt-Bench per la fedeltà del contenuto, mantenendo al contempo capacità di seguire le istruzioni comparabili. Pagina del progetto: https://jarvisart.vercel.app/.
English
Photo retouching has become integral to contemporary visual storytelling,
enabling users to capture aesthetics and express creativity. While professional
tools such as Adobe Lightroom offer powerful capabilities, they demand
substantial expertise and manual effort. In contrast, existing AI-based
solutions provide automation but often suffer from limited adjustability and
poor generalization, failing to meet diverse and personalized editing needs. To
bridge this gap, we introduce JarvisArt, a multi-modal large language model
(MLLM)-driven agent that understands user intent, mimics the reasoning process
of professional artists, and intelligently coordinates over 200 retouching
tools within Lightroom. JarvisArt undergoes a two-stage training process: an
initial Chain-of-Thought supervised fine-tuning to establish basic reasoning
and tool-use skills, followed by Group Relative Policy Optimization for
Retouching (GRPO-R) to further enhance its decision-making and tool
proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate
seamless integration with Lightroom. To evaluate performance, we develop
MMArt-Bench, a novel benchmark constructed from real-world user edits.
JarvisArt demonstrates user-friendly interaction, superior generalization, and
fine-grained control over both global and local adjustments, paving a new
avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a
60% improvement in average pixel-level metrics on MMArt-Bench for content
fidelity, while maintaining comparable instruction-following capabilities.
Project Page: https://jarvisart.vercel.app/.