ROICtrl: Aumentando o Controle da Instância para Geração VisualROICtrl: Boosting Instance Control for Visual Generation
A linguagem natural frequentemente enfrenta dificuldades para associar com precisão informações de posição e atributo com múltiplas instâncias, o que limita os modelos de geração visual baseados em texto atuais a composições mais simples, apresentando apenas algumas instâncias dominantes. Para lidar com essa limitação, este trabalho aprimora os modelos de difusão ao introduzir o controle de instância regional, onde cada instância é regida por uma caixa delimitadora combinada com uma legenda de forma livre. Métodos anteriores nessa área geralmente dependem de codificação de posição implícita ou máscaras de atenção explícitas para separar regiões de interesse (ROIs), resultando em injeção de coordenadas imprecisas ou grande sobrecarga computacional. Inspirados pelo ROI-Align na detecção de objetos, introduzimos uma operação complementar chamada ROI-Unpool. Juntas, ROI-Align e ROI-Unpool permitem manipulação explícita, eficiente e precisa de ROIs em mapas de características de alta resolução para geração visual. Baseando-se no ROI-Unpool, propomos o ROICtrl, um adaptador para modelos de difusão pré-treinados que possibilita um controle preciso de instâncias regionais. O ROICtrl é compatível com modelos de difusão ajustados pela comunidade, bem como com complementos baseados em espaço existentes (por exemplo, ControlNet, T2I-Adapter) e complementos baseados em incorporação (por exemplo, IP-Adapter, ED-LoRA), ampliando suas aplicações para geração multi-instances. Experimentos mostram que o ROICtrl alcança desempenho superior no controle de instância regional, ao mesmo tempo em que reduz significativamente os custos computacionais.