ChatPaper.aiChatPaper

ROICtrl: Mejora del Control de Instancias para la Generación Visual

ROICtrl: Boosting Instance Control for Visual Generation

November 27, 2024
Autores: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI

Resumen

El lenguaje natural a menudo tiene dificultades para asociar con precisión información posicional y atributiva con múltiples instancias, lo que limita a los modelos de generación visual basados en texto actuales a composiciones más simples que solo presentan unas pocas instancias dominantes. Para abordar esta limitación, este trabajo mejora los modelos de difusión al introducir control de instancias regionales, donde cada instancia está gobernada por un cuadro delimitador emparejado con una descripción de forma libre. Los métodos previos en esta área suelen depender de codificaciones de posición implícitas o máscaras de atención explícitas para separar regiones de interés (ROIs), lo que resulta en inyecciones de coordenadas inexactas o una gran carga computacional. Inspirados por ROI-Align en detección de objetos, introducimos una operación complementaria llamada ROI-Unpool. Juntas, ROI-Align y ROI-Unpool permiten una manipulación explícita, eficiente y precisa de ROIs en mapas de características de alta resolución para generación visual. Basándonos en ROI-Unpool, proponemos ROICtrl, un adaptador para modelos de difusión preentrenados que permite un control preciso de instancias regionales. ROICtrl es compatible con modelos de difusión ajustados por la comunidad, así como con complementos basados en espaciales existentes (por ejemplo, ControlNet, T2I-Adapter) y complementos basados en incrustaciones (por ejemplo, IP-Adapter, ED-LoRA), ampliando sus aplicaciones a generación multi-instancia. Los experimentos muestran que ROICtrl logra un rendimiento superior en el control de instancias regionales mientras reduce significativamente los costos computacionales.
English
Natural language often struggles to accurately associate positional and attribute information with multiple instances, which limits current text-based visual generation models to simpler compositions featuring only a few dominant instances. To address this limitation, this work enhances diffusion models by introducing regional instance control, where each instance is governed by a bounding box paired with a free-form caption. Previous methods in this area typically rely on implicit position encoding or explicit attention masks to separate regions of interest (ROIs), resulting in either inaccurate coordinate injection or large computational overhead. Inspired by ROI-Align in object detection, we introduce a complementary operation called ROI-Unpool. Together, ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI manipulation on high-resolution feature maps for visual generation. Building on ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that enables precise regional instance control. ROICtrl is compatible with community-finetuned diffusion models, as well as with existing spatial-based add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg, IP-Adapter, ED-LoRA), extending their applications to multi-instance generation. Experiments show that ROICtrl achieves superior performance in regional instance control while significantly reducing computational costs.

Summary

AI-Generated Summary

PDF712November 28, 2024