BBQ-to-Image : Contrôle numérique par boîtes englobantes et couleurs dans les modèles de génération d'images à grande échelle

Résumé

Les modèles texte-image ont rapidement progressé en réalisme et en contrôlabilité, les approches récentes exploitant de longues descriptions détaillées pour permettre une génération fine. Cependant, un fossé paramétrique fondamental persiste : les modèles existants s'appuient sur un langage descriptif, tandis que les workflows professionnels nécessitent un contrôle numérique précis de la position, de la taille et de la couleur des objets. Dans ce travail, nous présentons BBQ, un modèle texte-image à grande échelle qui se conditionne directement sur des boîtes englobantes numériques et des triplets RVB dans un cadre de texte structuré unifié. Nous obtenons un contrôle spatial et chromatique précis en entraînant le modèle sur des légendes enrichies d'annotations paramétriques, sans modification architecturale ni optimisation à l'inférence. Cela permet également des interfaces utilisateur intuitives telles que le glisser-déposer d'objets et des sélecteurs de couleur, remplaçant un promptage itératif ambigu par des contrôles précis et familiers. Lors d'évaluations exhaustives, BBQ atteint un fort alignement des boîtes et améliore la fidélité des couleurs RVB par rapport aux meilleures méthodes de référence. Plus largement, nos résultats soutiennent un nouveau paradigme dans lequel l'intention de l'utilisateur est traduite en un langage structuré intermédiaire, consommé par un transformer à flux agissant comme un moteur de rendu et accommodant naturellement les paramètres numériques.

English

Text-to-image models have rapidly advanced in realism and controllability, with recent approaches leveraging long, detailed captions to support fine-grained generation. However, a fundamental parametric gap remains: existing models rely on descriptive language, whereas professional workflows require precise numeric control over object location, size, and color. In this work, we introduce BBQ, a large-scale text-to-image model that directly conditions on numeric bounding boxes and RGB triplets within a unified structured-text framework. We obtain precise spatial and chromatic control by training on captions enriched with parametric annotations, without architectural modifications or inference-time optimization. This also enables intuitive user interfaces such as object dragging and color pickers, replacing ambiguous iterative prompting with precise, familiar controls. Across comprehensive evaluations, BBQ achieves strong box alignment and improves RGB color fidelity over state-of-the-art baselines. More broadly, our results support a new paradigm in which user intent is translated into an intermediate structured language, consumed by a flow-based transformer acting as a renderer and naturally accommodating numeric parameters.

BBQ-to-Image : Contrôle numérique par boîtes englobantes et couleurs dans les modèles de génération d'images à grande échelle

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Résumé

Support