JarvisArt:インテリジェントな写真補正エージェントによる人間の芸術的創造性の解放
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
June 21, 2025
著者: Yunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan
cs.AI
要旨
写真レタッチは、現代のビジュアルストーリーテリングにおいて不可欠な要素となり、ユーザーが美的感覚を捉え、創造性を表現することを可能にしている。Adobe Lightroomのようなプロフェッショナルツールは強力な機能を提供するが、それらは相当な専門知識と手作業を要求する。一方、既存のAIベースのソリューションは自動化を提供するが、調整の自由度が限られ、汎化性能が低いため、多様で個別化された編集ニーズを満たすことができない。このギャップを埋めるため、我々はJarvisArtを紹介する。これは、ユーザーの意図を理解し、プロフェッショナルアーティストの推論プロセスを模倣し、Lightroom内の200以上のレタッチツールをインテリジェントに調整するマルチモーダル大規模言語モデル(MLLM)駆動のエージェントである。JarvisArtは二段階のトレーニングプロセスを経る:最初にChain-of-Thoughtによる教師ありファインチューニングを行い、基本的な推論とツール使用スキルを確立し、その後、Group Relative Policy Optimization for Retouching(GRPO-R)を実施して意思決定とツールの熟練度をさらに向上させる。また、Lightroomとのシームレスな統合を促進するため、Agent-to-Lightroom Protocolを提案する。性能を評価するために、実世界のユーザー編集から構築された新しいベンチマークであるMMArt-Benchを開発した。JarvisArtは、ユーザーフレンドリーなインタラクション、優れた汎化性能、グローバルおよびローカルな調整に対するきめ細かい制御を実証し、インテリジェントな写真レタッチの新たな道を切り開く。特に、MMArt-Benchにおけるコンテンツの忠実度において、平均ピクセルレベルメトリクスで60%の改善を示し、GPT-4oを上回りながら、同等の指示追従能力を維持している。プロジェクトページ: https://jarvisart.vercel.app/。
English
Photo retouching has become integral to contemporary visual storytelling,
enabling users to capture aesthetics and express creativity. While professional
tools such as Adobe Lightroom offer powerful capabilities, they demand
substantial expertise and manual effort. In contrast, existing AI-based
solutions provide automation but often suffer from limited adjustability and
poor generalization, failing to meet diverse and personalized editing needs. To
bridge this gap, we introduce JarvisArt, a multi-modal large language model
(MLLM)-driven agent that understands user intent, mimics the reasoning process
of professional artists, and intelligently coordinates over 200 retouching
tools within Lightroom. JarvisArt undergoes a two-stage training process: an
initial Chain-of-Thought supervised fine-tuning to establish basic reasoning
and tool-use skills, followed by Group Relative Policy Optimization for
Retouching (GRPO-R) to further enhance its decision-making and tool
proficiency. We also propose the Agent-to-Lightroom Protocol to facilitate
seamless integration with Lightroom. To evaluate performance, we develop
MMArt-Bench, a novel benchmark constructed from real-world user edits.
JarvisArt demonstrates user-friendly interaction, superior generalization, and
fine-grained control over both global and local adjustments, paving a new
avenue for intelligent photo retouching. Notably, it outperforms GPT-4o with a
60% improvement in average pixel-level metrics on MMArt-Bench for content
fidelity, while maintaining comparable instruction-following capabilities.
Project Page: https://jarvisart.vercel.app/.