ROICtrl: Mejora del Control de Instancias para la Generación VisualROICtrl: Boosting Instance Control for Visual Generation
El lenguaje natural a menudo tiene dificultades para asociar con precisión información posicional y atributiva con múltiples instancias, lo que limita a los modelos de generación visual basados en texto actuales a composiciones más simples que solo presentan unas pocas instancias dominantes. Para abordar esta limitación, este trabajo mejora los modelos de difusión al introducir control de instancias regionales, donde cada instancia está gobernada por un cuadro delimitador emparejado con una descripción de forma libre. Los métodos previos en esta área suelen depender de codificaciones de posición implícitas o máscaras de atención explícitas para separar regiones de interés (ROIs), lo que resulta en inyecciones de coordenadas inexactas o una gran carga computacional. Inspirados por ROI-Align en detección de objetos, introducimos una operación complementaria llamada ROI-Unpool. Juntas, ROI-Align y ROI-Unpool permiten una manipulación explícita, eficiente y precisa de ROIs en mapas de características de alta resolución para generación visual. Basándonos en ROI-Unpool, proponemos ROICtrl, un adaptador para modelos de difusión preentrenados que permite un control preciso de instancias regionales. ROICtrl es compatible con modelos de difusión ajustados por la comunidad, así como con complementos basados en espaciales existentes (por ejemplo, ControlNet, T2I-Adapter) y complementos basados en incrustaciones (por ejemplo, IP-Adapter, ED-LoRA), ampliando sus aplicaciones a generación multi-instancia. Los experimentos muestran que ROICtrl logra un rendimiento superior en el control de instancias regionales mientras reduce significativamente los costos computacionales.