ChatPaper.aiChatPaper

NormGuard: フローマッチング強化学習における報酬保存ノルム制約

NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

June 26, 2026
著者: Tianlin Pan, Lianyu Pang, Cheng Da, Huan Yang, Changqian Yu, Kun Gai, Wenhan Luo
cs.AI

要旨

強化学習(RL)による事後学習は、フローベース生成器の報酬アライメントを改善するが、しばしば知覚品質を報酬代理では捉えられない形で劣化させる。我々はこのドリフトの単純な構造的特徴を特定した。すなわち、三つの事後学習手法(NFT、AWM、DPO)にわたり、RL微調整により各ステップの速度ノルム|v_θ|が基準と比べて5~15%増大するというものである。このノルム膨張の一種は、分類器フリーガイダンス(CFG)において研究されており、推論時に速度を基準ノルムに再スケーリングすることで生じるアーティファクトを軽減できる。しかし、この推論時補正はRLにはそのまま適用できない。v_θを|v_{ref}|に合わせて再スケーリングしても、報酬は改善されず品質劣化も修正されない。なぜなら、膨張はモデルの重みに共適応しているからである。さらに、随伴感度解析により、速度の大きさの再スケーリングはバッチレベルで一貫した一次の報酬信号を持たず、ノルム膨張の抑制が報酬を一貫して保持する成分を除去する可能性は低いことが示される。推論時の再正規化が失敗し、ノルム抑制に報酬コストが伴わないことから、訓練時の介入が適切な戦略となる。これらの知見は、|v_θ|が|v_{ref}|を超えた場合のみ活性化し、任意の速度局所的な基底損失と加法的に合成されるヒンジペナルティである\methodnameを動機づける。二つの基底モデル、三つの事後学習手法、二つの報酬代理にわたり、\methodnameは報酬を維持しつつ、MLLMが評価する画像品質とフォレンジックリアリズムを一貫して改善し、その効果は少ステップ推論で増幅され、早期停止では説明できない。
English
Reinforcement learning (RL) post-training improves the reward alignment of flow-based generators, but often degrades perceptual quality in ways that are not captured by the reward proxy. We identify a simple structural signature of this drift: across three post-training methods (NFT, AWM, DPO), RL fine-tuning inflates the per-step velocity norm |v_θ| by 5% to 15% relative to the reference. A form of norm inflation has been studied in classifier-free guidance (CFG), where rescaling the velocity back to a reference norm at inference time can mitigate the resulting artifacts. However, this inference-time correction does not transfer cleanly to RL: rescaling v_θ to match |v_{ref}| at inference time neither improves reward nor fixes the quality degradation, because the inflation is co-adapted into the model weights. Furthermore, an adjoint sensitivity analysis shows that velocity magnitude rescaling carries no coherent first-order reward signal at the batch level, indicating that suppressing norm inflation is unlikely to remove a consistently reward-carrying component. Since inference-time renormalization fails while norm suppression carries no reward cost, training-time intervention is the appropriate strategy. Together, these findings motivate \methodname, a hinge penalty that activates only when |v_θ| exceeds |v_{ref}| and composes additively with any velocity-local base loss. Across two base models, three post-training methods, and two reward proxies, \methodname consistently improves MLLM-judged image quality and forensic realism while preserving reward, with gains that amplify under few-step inference and are not explained by early stopping.