Stable-Layers: Fijnafstemming van modellen voor beeldlaagdecompositie met VLM-gescoord versterkend leren
Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning
May 28, 2026
Auteurs: Ciara Rowles, Reshinth Adithyan, Nikhil Pinnaparaju, Vikram Voleti, Mark Boss
cs.AI
Samenvatting
We presenteren Stable-Layers, een reinforcement learning-raamwerk dat de noodzaak van gepaarde supervisie elimineert door een voorgetraind laagdecompositiemodel te finetunen met alleen feedback van een visie-taalmodel (VLM). Uitgaande van Qwen-Image-Layered passen we Flow-GRPO toe met LoRA-adaptatie, waarbij we per afbeelding meerdere kandidaatdecomposities bemonsteren, deze beoordelen met een VLM en het beleid optimaliseren op basis van groepsrelatieve voordelen. De voornaamste uitdaging ligt in het ontwerpen van een betrouwbaar beloningssignaal: VLM's die samples geïsoleerd beoordelen, hebben de neiging hun oordelen in een smalle bandbreedte samen te persen, waardoor GRPO weinig variantie binnen de groep heeft om van te leren. We lossen dit op met een tweefasige evaluatiepijplijn die gestructureerde per-sample scoring over vijf bewerkingsgerichte criteria combineert met een roostergebaseerde kalibratiestap waarin de VLM alle kandidaten naast elkaar opnieuw beoordeelt. Stable-Layers produceert decomposities met sterkere laagscheiding, minder lege of artefactrijke lagen en een lagere reconstructiefout per laag op de Crello-dataset in vergelijking met het basismodel.
English
We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision by fine-tuning a pretrained layer decomposition model using only feedback from a vision-language model (VLM). Starting from Qwen-Image-Layered, we apply Flow-GRPO with LoRA adaptation, sampling multiple candidate decompositions per image, scoring them with a VLM, and optimising the policy from group-relative advantages. The key challenge lies in designing a reliable reward signal: VLMs scoring samples in isolation tend to compress their judgements into a narrow band, leaving GRPO with little within-group variance to learn from. We address this with a two-stage evaluation pipeline that pairs structured per-sample scoring across five edit-centric criteria with a grid-based calibration step in which the VLM re-scores all candidates side-by-side. Stable-Layers produces decompositions with stronger layer separation, fewer blank or artifact-heavy layers, and lower per-layer reconstruction error on the Crello dataset compared to the base model.