BBQ-to-Image: Control Numérico de Cajas Delimitadoras y Color en Modelos de Gran Escala para Generación de Imágenes a partir de Texto
BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models
February 24, 2026
Autores: Eliran Kachlon, Alexander Visheratin, Nimrod Sarid, Tal Hacham, Eyal Gutflaish, Saar Huberman, Hezi Zisman, David Ruppin, Ron Mokady
cs.AI
Resumen
Los modelos de texto a imagen han avanzado rápidamente en realismo y controlabilidad, con enfoques recientes que aprovegan descripciones largas y detalladas para respaldar una generación de grano fino. Sin embargo, persiste una brecha paramétrica fundamental: los modelos existentes dependen del lenguaje descriptivo, mientras que los flujos de trabajo profesionales requieren un control numérico preciso sobre la ubicación, el tamaño y el color de los objetos. En este trabajo, presentamos BBQ, un modelo de texto a imagen a gran escala que se condiciona directamente sobre cuadros delimitadores numéricos y tripletes RGB dentro de un marco unificado de texto estructurado. Obtenemos un control espacial y cromático preciso mediante el entrenamiento con descripciones enriquecidas con anotaciones paramétricas, sin modificaciones arquitectónicas u optimización en el momento de la inferencia. Esto también permite interfaces de usuario intuitivas, como el arrastre de objetos y selectores de color, que reemplazan las indicaciones iterativas ambiguas con controles precisos y familiares. En evaluaciones exhaustivas, BBQ logra una fuerte alineación con los cuadros delimitadores y mejora la fidelidad del color RGB respecto a los mejores baselines actuales. En términos más amplios, nuestros resultados respaldan un nuevo paradigma en el que la intención del usuario se traduce a un lenguaje estructurado intermedio, consumido por un transformador basado en flujos que actúa como un renderizador y acomoda naturalmente los parámetros numéricos.
English
Text-to-image models have rapidly advanced in realism and controllability, with recent approaches leveraging long, detailed captions to support fine-grained generation. However, a fundamental parametric gap remains: existing models rely on descriptive language, whereas professional workflows require precise numeric control over object location, size, and color. In this work, we introduce BBQ, a large-scale text-to-image model that directly conditions on numeric bounding boxes and RGB triplets within a unified structured-text framework. We obtain precise spatial and chromatic control by training on captions enriched with parametric annotations, without architectural modifications or inference-time optimization. This also enables intuitive user interfaces such as object dragging and color pickers, replacing ambiguous iterative prompting with precise, familiar controls. Across comprehensive evaluations, BBQ achieves strong box alignment and improves RGB color fidelity over state-of-the-art baselines. More broadly, our results support a new paradigm in which user intent is translated into an intermediate structured language, consumed by a flow-based transformer acting as a renderer and naturally accommodating numeric parameters.