ChatPaper.aiChatPaper

JarvisArt: Liberando a Criatividade Artística Humana por meio de um Agente Inteligente de Retoque Fotográfico

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

June 21, 2025
Autores: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI

Resumo

A edição de fotos tornou-se parte integrante da narrativa visual contemporânea, permitindo que os usuários capturem estéticas e expressem criatividade. Embora ferramentas profissionais como o Adobe Lightroom ofereçam recursos poderosos, elas exigem expertise substancial e esforço manual. Em contraste, as soluções existentes baseadas em IA fornecem automação, mas frequentemente sofrem com ajustabilidade limitada e generalização precária, falhando em atender às diversas e personalizadas necessidades de edição. Para preencher essa lacuna, apresentamos o JarvisArt, um agente impulsionado por um modelo de linguagem multimodal (MLLM) que compreende a intenção do usuário, imita o processo de raciocínio de artistas profissionais e coordena inteligentemente mais de 200 ferramentas de edição dentro do Lightroom. O JarvisArt passa por um processo de treinamento em duas etapas: um ajuste fino supervisionado inicial com Chain-of-Thought para estabelecer habilidades básicas de raciocínio e uso de ferramentas, seguido pela Otimização de Política Relativa em Grupo para Edição (GRPO-R) para aprimorar ainda mais sua tomada de decisão e proficiência com as ferramentas. Também propomos o Protocolo Agente-para-Lightroom para facilitar a integração perfeita com o Lightroom. Para avaliar o desempenho, desenvolvemos o MMArt-Bench, um novo benchmark construído a partir de edições reais de usuários. O JarvisArt demonstra interação amigável, superior generalização e controle refinado sobre ajustes globais e locais, abrindo um novo caminho para a edição inteligente de fotos. Notavelmente, ele supera o GPT-4o com uma melhoria de 60% nas métricas médias de nível de pixel no MMArt-Bench para fidelidade de conteúdo, mantendo capacidades comparáveis de seguir instruções. Página do Projeto: https://jarvisart.vercel.app/.
English
Photo retouching has become integral to contemporary visual storytelling, enabling users to capture aesthetics and express creativity. While professional tools such as Adobe Lightroom offer powerful capabilities, they demand substantial expertise and manual effort. In contrast, existing AI-based solutions provide automation but often suffer from limited adjustability and poor generalization, failing to meet diverse and personalized editing needs. To bridge this gap, we introduce JarvisArt, a multi-modal large language model (MLLM)-driven agent that understands user intent, mimics the reasoning process of professional artists, and intelligently coordinates over 200 retouching tools within Lightroom. JarvisArt undergoes a two-stage training process: an initial Chain-of-Thought supervised fine-tuning to establish basic reasoning and tool-use skills, followed by Group Relative Policy Optimization for Retouching (GRPO-R) to further enhance its decision-making and tool proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate seamless integration with Lightroom. To evaluate performance, we develop MMArt-Bench, a novel benchmark constructed from real-world user edits. JarvisArt demonstrates user-friendly interaction, superior generalization, and fine-grained control over both global and local adjustments, paving a new avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a 60% improvement in average pixel-level metrics on MMArt-Bench for content fidelity, while maintaining comparable instruction-following capabilities. Project Page: https://jarvisart.vercel.app/.
PDF613June 25, 2025