ROICtrl: Aumentando o Controle da Instância para Geração Visual

Resumo

A linguagem natural frequentemente enfrenta dificuldades para associar com precisão informações de posição e atributo com múltiplas instâncias, o que limita os modelos de geração visual baseados em texto atuais a composições mais simples, apresentando apenas algumas instâncias dominantes. Para lidar com essa limitação, este trabalho aprimora os modelos de difusão ao introduzir o controle de instância regional, onde cada instância é regida por uma caixa delimitadora combinada com uma legenda de forma livre. Métodos anteriores nessa área geralmente dependem de codificação de posição implícita ou máscaras de atenção explícitas para separar regiões de interesse (ROIs), resultando em injeção de coordenadas imprecisas ou grande sobrecarga computacional. Inspirados pelo ROI-Align na detecção de objetos, introduzimos uma operação complementar chamada ROI-Unpool. Juntas, ROI-Align e ROI-Unpool permitem manipulação explícita, eficiente e precisa de ROIs em mapas de características de alta resolução para geração visual. Baseando-se no ROI-Unpool, propomos o ROICtrl, um adaptador para modelos de difusão pré-treinados que possibilita um controle preciso de instâncias regionais. O ROICtrl é compatível com modelos de difusão ajustados pela comunidade, bem como com complementos baseados em espaço existentes (por exemplo, ControlNet, T2I-Adapter) e complementos baseados em incorporação (por exemplo, IP-Adapter, ED-LoRA), ampliando suas aplicações para geração multi-instances. Experimentos mostram que o ROICtrl alcança desempenho superior no controle de instância regional, ao mesmo tempo em que reduz significativamente os custos computacionais.

English

Natural language often struggles to accurately associate positional and attribute information with multiple instances, which limits current text-based visual generation models to simpler compositions featuring only a few dominant instances. To address this limitation, this work enhances diffusion models by introducing regional instance control, where each instance is governed by a bounding box paired with a free-form caption. Previous methods in this area typically rely on implicit position encoding or explicit attention masks to separate regions of interest (ROIs), resulting in either inaccurate coordinate injection or large computational overhead. Inspired by ROI-Align in object detection, we introduce a complementary operation called ROI-Unpool. Together, ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI manipulation on high-resolution feature maps for visual generation. Building on ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that enables precise regional instance control. ROICtrl is compatible with community-finetuned diffusion models, as well as with existing spatial-based add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg, IP-Adapter, ED-LoRA), extending their applications to multi-instance generation. Experiments show that ROICtrl achieves superior performance in regional instance control while significantly reducing computational costs.

ROICtrl: Aumentando o Controle da Instância para Geração Visual

ROICtrl: Boosting Instance Control for Visual Generation

Resumo

Support