Stable-Layers: Ajuste Fino de Modelos de Decomposição de Camadas de Imagem com Aprendizagem por Reforço Pontuada por VLM

Resumo

Apresentamos o Stable-Layers, um quadro de aprendizado por reforço que elimina a necessidade de supervisão pareada ao ajustar um modelo de decomposição de camadas pré-treinado utilizando apenas o feedback de um modelo de linguagem-visão (VLM). Partindo do Qwen-Image-Layered, aplicamos o Flow-GRPO com adaptação LoRA, amostrando múltiplas decomposições candidatas por imagem, pontuando-as com um VLM e otimizando a política a partir de vantagens relativas ao grupo. O principal desafio reside em projetar um sinal de recompensa confiável: VLMs que pontuam amostras isoladamente tendem a comprimir seus julgamentos em uma faixa estreita, deixando o GRPO com pouca variância intragrupo para aprender. Abordamos isso com um pipeline de avaliação em duas etapas que combina pontuação estruturada por amostra em cinco critérios centrados em edição com uma etapa de calibração baseada em grade, na qual o VLM reavalia todos os candidatos lado a lado. O Stable-Layers produz decomposições com separação de camadas mais forte, menos camadas vazias ou com artefatos e menor erro de reconstrução por camada no conjunto de dados Crello em comparação com o modelo base.

English

We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision by fine-tuning a pretrained layer decomposition model using only feedback from a vision-language model (VLM). Starting from Qwen-Image-Layered, we apply Flow-GRPO with LoRA adaptation, sampling multiple candidate decompositions per image, scoring them with a VLM, and optimising the policy from group-relative advantages. The key challenge lies in designing a reliable reward signal: VLMs scoring samples in isolation tend to compress their judgements into a narrow band, leaving GRPO with little within-group variance to learn from. We address this with a two-stage evaluation pipeline that pairs structured per-sample scoring across five edit-centric criteria with a grid-based calibration step in which the VLM re-scores all candidates side-by-side. Stable-Layers produces decompositions with stronger layer separation, fewer blank or artifact-heavy layers, and lower per-layer reconstruction error on the Crello dataset compared to the base model.