オフライン強化学習による画像スタイリングのための推論を伴うエージェント的計画
Agentic Planning with Reasoning for Image Styling via Offline RL
March 7, 2026
著者: Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee
cs.AI
要旨
直接的なプロンプトベースの編集は、複雑な変換においてしばしば失敗します。それは、曖昧で主観的なプロンプトが、画像のどの部分を変更すべきかという微妙な理解を必要とするためです。我々の核心的な直感は、直接的なプロンプトではなく、構成的な画像編集ツールを活用することが、明示的な推論を伴う構造化されたエージェントレベルの計画から利益を得られ、より良い結果につながるというものです。この構造化された計画フレームワークは、品質評価された軌跡に対する効率的なオフライン強化学習による事後学習を可能にし、性能を向上させます。本論文では、連鎖的思考推論による構造化された計画を通じてこの問題に取り組む、ツールベースのエージェント的強化学習事後学習フレームワークを提案します。我々の主な貢献は以下の通りです:(1) 直交的な原始変換の構成的ライブラリ、構造化されたコンテキスト表現、明示的なステップごとの推論を組み合わせることで、複雑なスタイリングを解釈可能なツール列に分解する、ツールベースのエージェント的計画手法。(2) 既存のデータセットには存在しない、推論連鎖、計画、品質スコアを含む3つの大規模データセット(各シミュレーション10,000軌跡)を生成する合成データ生成パイプライン。データセットとコードはHuggingFaceリポジトリで公開しています。(3) 推論機能を持つ計画器を学習するためのオフライン強化学習手法(我々の核心的なアルゴリズム的貢献)。これは視覚的品質と指示追従性においてEdit-Onlyベースラインを一貫して改善します。(4) 40億パラメータおよび80億パラメータのQwen3-VLモデルを用いた包括的評価により、我々の手法が大部分の構成的タスクにおいて他のベースラインを上回ることを示し、人間による評価で検証しました。
English
Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.