ChatPaper.aiChatPaper

JarvisArt:インテリジェントな写真補正エージェントによる人間の芸術的創造性の解放

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

June 21, 2025
著者: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI

要旨

写真レタッチは、現代のビジュアルストーリーテリングにおいて不可欠な要素となり、ユーザーが美的感覚を捉え、創造性を表現することを可能にしている。Adobe Lightroomのようなプロフェッショナルツールは強力な機能を提供するが、それらは相当な専門知識と手作業を要求する。一方、既存のAIベースのソリューションは自動化を提供するが、調整の自由度が限られ、汎化性能が低いため、多様で個別化された編集ニーズを満たすことができない。このギャップを埋めるため、我々はJarvisArtを紹介する。これは、ユーザーの意図を理解し、プロフェッショナルアーティストの推論プロセスを模倣し、Lightroom内の200以上のレタッチツールをインテリジェントに調整するマルチモーダル大規模言語モデル(MLLM)駆動のエージェントである。JarvisArtは二段階のトレーニングプロセスを経る:最初にChain-of-Thoughtによる教師ありファインチューニングを行い、基本的な推論とツール使用スキルを確立し、その後、Group Relative Policy Optimization for Retouching(GRPO-R)を実施して意思決定とツールの熟練度をさらに向上させる。また、Lightroomとのシームレスな統合を促進するため、Agent-to-Lightroom Protocolを提案する。性能を評価するために、実世界のユーザー編集から構築された新しいベンチマークであるMMArt-Benchを開発した。JarvisArtは、ユーザーフレンドリーなインタラクション、優れた汎化性能、グローバルおよびローカルな調整に対するきめ細かい制御を実証し、インテリジェントな写真レタッチの新たな道を切り開く。特に、MMArt-Benchにおけるコンテンツの忠実度において、平均ピクセルレベルメトリクスで60%の改善を示し、GPT-4oを上回りながら、同等の指示追従能力を維持している。プロジェクトページ: https://jarvisart.vercel.app/。
English
Photo retouching has become integral to contemporary visual storytelling, enabling users to capture aesthetics and express creativity. While professional tools such as Adobe Lightroom offer powerful capabilities, they demand substantial expertise and manual effort. In contrast, existing AI-based solutions provide automation but often suffer from limited adjustability and poor generalization, failing to meet diverse and personalized editing needs. To bridge this gap, we introduce JarvisArt, a multi-modal large language model (MLLM)-driven agent that understands user intent, mimics the reasoning process of professional artists, and intelligently coordinates over 200 retouching tools within Lightroom. JarvisArt undergoes a two-stage training process: an initial Chain-of-Thought supervised fine-tuning to establish basic reasoning and tool-use skills, followed by Group Relative Policy Optimization for Retouching (GRPO-R) to further enhance its decision-making and tool proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate seamless integration with Lightroom. To evaluate performance, we develop MMArt-Bench, a novel benchmark constructed from real-world user edits. JarvisArt demonstrates user-friendly interaction, superior generalization, and fine-grained control over both global and local adjustments, paving a new avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a 60% improvement in average pixel-level metrics on MMArt-Bench for content fidelity, while maintaining comparable instruction-following capabilities. Project Page: https://jarvisart.vercel.app/.
PDF172June 25, 2025