오프라인 강화학습을 통한 이미지 스타일링을 위한 추론 기반 에이전트 계획
Agentic Planning with Reasoning for Image Styling via Offline RL
March 7, 2026
저자: Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee
cs.AI
초록
직접적인 프롬프트 기반 편집은 복잡한 변환 작업에서 종종 실패하는데, 이는 모호하고 주관적인 프롬프트가 이미지에서 변경되어야 할 부분에 대한 미묘한 이해를 요구하기 때문입니다. 우리의 핵심 직관은 직접적인 프롬프팅보다 구성적 이미지 편집 도구를 활용하는 것이 명시적 추론을 수반하는 구조화된 에이전트 수준의 계획을 통해 더 나은 결과를 얻을 수 있다는 것입니다. 이 구조화된 계획 프레임워크는 품질 점수가 부여된 궤적에 대한 효율적인 오프라인 강화학습 사후 훈련을 가능하게 하여 성능을 향상시킵니다. 우리는 사고 연쇄 추론을 통한 구조화된 계획으로 이 문제를 해결하는 도구 기반 에이전트 강화학습 사후 훈련 프레임워크를 제시합니다. 우리의 주요 기여점은 다음과 같습니다: (1) 직교적인 기본 변환들의 구성적 라이브러리, 구조화된 컨텍스트 표현, 단계별 명시적 추론을 결합하여 복잡한 스타일링을 해석 가능한 도구 시퀀스로 분해하는 도구 기반 에이전트 계획 방법론. (2) 기존 데이터셋에서 이러한 지도 신호를 제공하지 않아 추론 체인, 계획, 품질 점수를 포함하는 3가지 대규모 데이터셋(각각 10K 궤적 시뮬레이션)을 생성하는 합성 데이터 생성 파이프라인. 우리의 데이터셋과 코드는 HuggingFace 저장소에서 공개되었습니다. (3) 추론 능력을 갖춘 계획자를 학습하기 위한 오프라인 강화학습 훈련 방법으로, 우리의 핵심 알고리즘 기여점이며 시각적 품질과 지시문 준수 측면에서 Edit-Only 기준선을 꾸준히 개선합니다. (4) 4B 및 8B 매개변수 Qwen3-VL 모델을 대상으로 한 포괄적 평가를 통해 우리 방법이 대부분의 구성 작업에서 다른 기준선들을 능가함을 보여주며, 인간 평가를 통해 검증되었습니다.
English
Direct prompt-based editing often fails on complex transformations because vague and subjective prompts often require nuanced understanding of what should be changed in the image. Our core intuition is that leveraging compositional image editing tools rather than direct prompting profits from structured agent-level planning with explicit reasoning, leading to better results. This structured planning framework enables efficient offline RL post-training on quality-scored trajectories to improve performance. We present a tool-based agentic RL post-training framework that addresses this through structured planning with chain-of-thought reasoning. Our key contributions include: (1) A tool-based agentic planning methodology that combines a compositional library of orthogonal primitive transformations, structured context representation, and explicit per-step reasoning to decompose complex styling into interpretable tool sequences. (2) A synthetic data generation pipeline producing three large-scale datasets (each sim10K trajectories) with reasoning chains, plans, and quality scores, as no existing datasets provide such supervision. Our datasets and code are publicly available at the HuggingFace repository. (3) Offline RL training methods for learning planners with reasoning as our core algorithmic contributions, which consistently improve over the Edit-Only baseline in visual quality and instruction following. (4) Comprehensive evaluation across 4B and 8B parameter Qwen3-VL models showing that our methods outperform other baselines in the majority of compositional tasks, validated by human evaluations.