BBQ-naar-Beeld: Numerieke Begrenzingskaders en Kleurcontrole in Grootschalige Tekst-naar-Beeld Modellen

Samenvatting

Tekst-naar-beeldmodellen hebben een snelle vooruitgang geboekt in realisme en bestuurbaarheid, waarbij recente methoden gebruikmaken van lange, gedetailleerde bijschriften om fijnmazige generatie te ondersteunen. Er blijft echter een fundamentele parametrische kloof bestaan: bestaande modellen steunen op beschrijvende taal, terwijl professionele workflows nauwkeurige numerieke controle vereisen over objectlocatie, grootte en kleur. In dit werk introduceren wij BBQ, een grootschalig tekst-naar-beeldmodel dat rechtstreeks conditioneert op numerieke begrenzingskaders en RGB-triplets binnen een uniform gestructureerd tekstraamwerk. Wij verkrijgen precieze ruimtelijke en chromatische controle door training op bijschriften verrijkt met parametrische annotaties, zonder architecturale wijzigingen of optimalisatie tijdens inferentie. Dit maakt ook intuïtieve gebruikersinterfaces mogelijk, zoals objectslepen en kleurkiezers, waarbij dubbelzinnige iteratieve prompting wordt vervangen door precieze, vertrouwde bediening. In uitgebreide evaluaties behaalt BBQ sterke boksuitlijning en verbetert het de RGB-kleurgetrouwheid ten opzichte van state-of-the-art referentiemodellen. In bredere zin ondersteunen onze resultaten een nieuw paradigma waarin gebruikersintentie wordt vertaald naar een intermediaire gestructureerde taal, verwerkt door een op stromen gebaseerde transformer die fungeert als renderer en natuurlijk numerieke parameters incorporeert.

English

Text-to-image models have rapidly advanced in realism and controllability, with recent approaches leveraging long, detailed captions to support fine-grained generation. However, a fundamental parametric gap remains: existing models rely on descriptive language, whereas professional workflows require precise numeric control over object location, size, and color. In this work, we introduce BBQ, a large-scale text-to-image model that directly conditions on numeric bounding boxes and RGB triplets within a unified structured-text framework. We obtain precise spatial and chromatic control by training on captions enriched with parametric annotations, without architectural modifications or inference-time optimization. This also enables intuitive user interfaces such as object dragging and color pickers, replacing ambiguous iterative prompting with precise, familiar controls. Across comprehensive evaluations, BBQ achieves strong box alignment and improves RGB color fidelity over state-of-the-art baselines. More broadly, our results support a new paradigm in which user intent is translated into an intermediate structured language, consumed by a flow-based transformer acting as a renderer and naturally accommodating numeric parameters.

BBQ-naar-Beeld: Numerieke Begrenzingskaders en Kleurcontrole in Grootschalige Tekst-naar-Beeld Modellen

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Samenvatting

Support