ROICtrl: Aumentando o Controle da Instância para Geração Visual
ROICtrl: Boosting Instance Control for Visual Generation
November 27, 2024
Autores: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Resumo
A linguagem natural frequentemente enfrenta dificuldades para associar com precisão informações de posição e atributo com múltiplas instâncias, o que limita os modelos de geração visual baseados em texto atuais a composições mais simples, apresentando apenas algumas instâncias dominantes. Para lidar com essa limitação, este trabalho aprimora os modelos de difusão ao introduzir o controle de instância regional, onde cada instância é regida por uma caixa delimitadora combinada com uma legenda de forma livre. Métodos anteriores nessa área geralmente dependem de codificação de posição implícita ou máscaras de atenção explícitas para separar regiões de interesse (ROIs), resultando em injeção de coordenadas imprecisas ou grande sobrecarga computacional. Inspirados pelo ROI-Align na detecção de objetos, introduzimos uma operação complementar chamada ROI-Unpool. Juntas, ROI-Align e ROI-Unpool permitem manipulação explícita, eficiente e precisa de ROIs em mapas de características de alta resolução para geração visual. Baseando-se no ROI-Unpool, propomos o ROICtrl, um adaptador para modelos de difusão pré-treinados que possibilita um controle preciso de instâncias regionais. O ROICtrl é compatível com modelos de difusão ajustados pela comunidade, bem como com complementos baseados em espaço existentes (por exemplo, ControlNet, T2I-Adapter) e complementos baseados em incorporação (por exemplo, IP-Adapter, ED-LoRA), ampliando suas aplicações para geração multi-instances. Experimentos mostram que o ROICtrl alcança desempenho superior no controle de instância regional, ao mesmo tempo em que reduz significativamente os custos computacionais.
English
Natural language often struggles to accurately associate positional and
attribute information with multiple instances, which limits current text-based
visual generation models to simpler compositions featuring only a few dominant
instances. To address this limitation, this work enhances diffusion models by
introducing regional instance control, where each instance is governed by a
bounding box paired with a free-form caption. Previous methods in this area
typically rely on implicit position encoding or explicit attention masks to
separate regions of interest (ROIs), resulting in either inaccurate coordinate
injection or large computational overhead. Inspired by ROI-Align in object
detection, we introduce a complementary operation called ROI-Unpool. Together,
ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI
manipulation on high-resolution feature maps for visual generation. Building on
ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that
enables precise regional instance control. ROICtrl is compatible with
community-finetuned diffusion models, as well as with existing spatial-based
add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg,
IP-Adapter, ED-LoRA), extending their applications to multi-instance
generation. Experiments show that ROICtrl achieves superior performance in
regional instance control while significantly reducing computational costs.Summary
AI-Generated Summary