ChatPaper.aiChatPaper

JarvisArt: Освобождение человеческого художественного творчества с помощью интеллектуального агента для ретуши фотографий

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

June 21, 2025
Авторы: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI

Аннотация

Ретушь фотографий стала неотъемлемой частью современного визуального повествования, позволяя пользователям передавать эстетику и выражать творческие идеи. Хотя профессиональные инструменты, такие как Adobe Lightroom, предлагают мощные возможности, они требуют значительного опыта и ручной работы. В то же время существующие решения на основе ИИ обеспечивают автоматизацию, но часто страдают от ограниченной настраиваемости и слабой обобщаемости, не удовлетворяя разнообразные и персонализированные потребности в редактировании. Чтобы устранить этот разрыв, мы представляем JarvisArt — агента, управляемого мультимодальной крупной языковой моделью (MLLM), который понимает намерения пользователя, имитирует процесс рассуждения профессиональных художников и интеллектуально координирует более 200 инструментов ретуши в Lightroom. JarvisArt проходит двухэтапный процесс обучения: начальную тонкую настройку с использованием Chain-of-Thought для формирования базовых навыков рассуждения и использования инструментов, за которой следует Group Relative Policy Optimization for Retouching (GRPO-R) для дальнейшего улучшения принятия решений и владения инструментами. Мы также предлагаем протокол Agent-to-Lightroom для обеспечения бесшовной интеграции с Lightroom. Для оценки производительности мы разработали MMArt-Bench — новый бенчмарк, созданный на основе реальных пользовательских правок. JarvisArt демонстрирует удобство взаимодействия, превосходную обобщаемость и детальный контроль как над глобальными, так и над локальными корректировками, открывая новые горизонты для интеллектуальной ретуши фотографий. Примечательно, что он превосходит GPT-4o с улучшением на 60% по средним пиксельным метрикам на MMArt-Bench для точности передачи содержания, сохраняя при этом сопоставимые способности следовать инструкциям. Страница проекта: https://jarvisart.vercel.app/.
English
Photo retouching has become integral to contemporary visual storytelling, enabling users to capture aesthetics and express creativity. While professional tools such as Adobe Lightroom offer powerful capabilities, they demand substantial expertise and manual effort. In contrast, existing AI-based solutions provide automation but often suffer from limited adjustability and poor generalization, failing to meet diverse and personalized editing needs. To bridge this gap, we introduce JarvisArt, a multi-modal large language model (MLLM)-driven agent that understands user intent, mimics the reasoning process of professional artists, and intelligently coordinates over 200 retouching tools within Lightroom. JarvisArt undergoes a two-stage training process: an initial Chain-of-Thought supervised fine-tuning to establish basic reasoning and tool-use skills, followed by Group Relative Policy Optimization for Retouching (GRPO-R) to further enhance its decision-making and tool proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate seamless integration with Lightroom. To evaluate performance, we develop MMArt-Bench, a novel benchmark constructed from real-world user edits. JarvisArt demonstrates user-friendly interaction, superior generalization, and fine-grained control over both global and local adjustments, paving a new avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a 60% improvement in average pixel-level metrics on MMArt-Bench for content fidelity, while maintaining comparable instruction-following capabilities. Project Page: https://jarvisart.vercel.app/.
PDF172June 25, 2025