ChatPaper.aiChatPaper

JarvisArt: Liberando la Creatividad Artística Humana mediante un Agente Inteligente de Retoque Fotográfico

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

June 21, 2025
Autores: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI

Resumen

El retoque fotográfico se ha convertido en un elemento integral de la narrativa visual contemporánea, permitiendo a los usuarios capturar estéticas y expresar creatividad. Si bien herramientas profesionales como Adobe Lightroom ofrecen capacidades potentes, requieren un conocimiento sustancial y un esfuerzo manual considerable. En contraste, las soluciones existentes basadas en inteligencia artificial proporcionan automatización, pero a menudo presentan una ajustabilidad limitada y una generalización deficiente, lo que no satisface las diversas y personalizadas necesidades de edición. Para cerrar esta brecha, presentamos JarvisArt, un agente impulsado por un modelo de lenguaje multimodal (MLLM) que comprende la intención del usuario, imita el proceso de razonamiento de artistas profesionales y coordina inteligentemente más de 200 herramientas de retoque dentro de Lightroom. JarvisArt se somete a un proceso de entrenamiento en dos etapas: un ajuste fino supervisado inicial mediante Chain-of-Thought para establecer habilidades básicas de razonamiento y uso de herramientas, seguido de una Optimización de Política Relativa de Grupo para Retoque (GRPO-R) para mejorar aún más su toma de decisiones y competencia en el uso de herramientas. También proponemos el Protocolo Agente-a-Lightroom para facilitar una integración fluida con Lightroom. Para evaluar el rendimiento, desarrollamos MMArt-Bench, un nuevo punto de referencia construido a partir de ediciones reales de usuarios. JarvisArt demuestra una interacción amigable con el usuario, una generalización superior y un control detallado sobre ajustes tanto globales como locales, abriendo un nuevo camino para el retoque fotográfico inteligente. Cabe destacar que supera a GPT-4o con una mejora del 60% en métricas promedio a nivel de píxel en MMArt-Bench para la fidelidad del contenido, manteniendo capacidades comparables de seguimiento de instrucciones. Página del proyecto: https://jarvisart.vercel.app/.
English
Photo retouching has become integral to contemporary visual storytelling, enabling users to capture aesthetics and express creativity. While professional tools such as Adobe Lightroom offer powerful capabilities, they demand substantial expertise and manual effort. In contrast, existing AI-based solutions provide automation but often suffer from limited adjustability and poor generalization, failing to meet diverse and personalized editing needs. To bridge this gap, we introduce JarvisArt, a multi-modal large language model (MLLM)-driven agent that understands user intent, mimics the reasoning process of professional artists, and intelligently coordinates over 200 retouching tools within Lightroom. JarvisArt undergoes a two-stage training process: an initial Chain-of-Thought supervised fine-tuning to establish basic reasoning and tool-use skills, followed by Group Relative Policy Optimization for Retouching (GRPO-R) to further enhance its decision-making and tool proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate seamless integration with Lightroom. To evaluate performance, we develop MMArt-Bench, a novel benchmark constructed from real-world user edits. JarvisArt demonstrates user-friendly interaction, superior generalization, and fine-grained control over both global and local adjustments, paving a new avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a 60% improvement in average pixel-level metrics on MMArt-Bench for content fidelity, while maintaining comparable instruction-following capabilities. Project Page: https://jarvisart.vercel.app/.
PDF172June 25, 2025