ChatPaper.aiChatPaper

OmniRefiner:強化学習に基づく局所的拡散リファインメント

OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

November 25, 2025
著者: Yaoli Liu, Ziheng Ouyang, Shengtao Lou, Yiren Song
cs.AI

要旨

参照画像誘導型画像生成は急速に進歩しているが、現行の拡散モデルは、生成画像を参照画像を用いて精緻化する際に、微細な視覚的詳細を保持するのに依然として苦戦している。この制約は、VAEベースの潜在空間圧縮が本質的に微妙なテクスチャ情報を捨象するため、識別情報や属性特有の手がかりが失われることに起因する。さらに、既存手法に基づいて局所的な詳細を増幅する後編集アプローチは、照明、テクスチャ、形状において元画像との不整合を生じさせることが多い。この問題に対処するため、我々はピクセルレベルの一貫性を高めるために、参照駆動型補正を連続する2段階で実行する詳細認識リファインメントフレームワーク「」を提案する。まず、単一画像拡散エディタを、下絵画像と参照画像を同時に入力するようにファインチューニングして適応させ、構造的忠実性を維持しつつ大域的に首尾一貫した精緻化を可能にする。次に、強化学習を適用して局所的な編集能力をさらに強化し、詳細の正確性と意味的一貫性を明示的に最適化する。大規模な実験により、「」が参照画像との整合性と微細な詳細の保持を大幅に改善し、困難な参照誘導型復元ベンチマークにおいて、オープンソースモデルおよび商用モデルを凌駕する忠実で視覚的に一貫した編集結果を生成することが実証された。
English
Reference-guided image generation has progressed rapidly, yet current diffusion models still struggle to preserve fine-grained visual details when refining a generated image using a reference. This limitation arises because VAE-based latent compression inherently discards subtle texture information, causing identity- and attribute-specific cues to vanish. Moreover, post-editing approaches that amplify local details based on existing methods often produce results inconsistent with the original image in terms of lighting, texture, or shape. To address this, we introduce , a detail-aware refinement framework that performs two consecutive stages of reference-driven correction to enhance pixel-level consistency. We first adapt a single-image diffusion editor by fine-tuning it to jointly ingest the draft image and the reference image, enabling globally coherent refinement while maintaining structural fidelity. We then apply reinforcement learning to further strengthen localized editing capability, explicitly optimizing for detail accuracy and semantic consistency. Extensive experiments demonstrate that significantly improves reference alignment and fine-grained detail preservation, producing faithful and visually coherent edits that surpass both open-source and commercial models on challenging reference-guided restoration benchmarks.
PDF21December 2, 2025