BBQ-to-Image: 대규모 텍스트-이미지 모델에서의 수치적 바운딩 박스 및 색상 제어
BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models
February 24, 2026
저자: Eliran Kachlon, Alexander Visheratin, Nimrod Sarid, Tal Hacham, Eyal Gutflaish, Saar Huberman, Hezi Zisman, David Ruppin, Ron Mokady
cs.AI
초록
텍스트-이미지 모델은 사실성과 제어 가능성 측면에서 빠르게 발전해 왔으며, 최근 접근법은 정교한 생성을 지원하기 위해 길고 상세한 캡션을 활용하고 있습니다. 그러나 근본적인 매개변수 간극이 존재합니다: 기존 모델은 설명적 언어에 의존하는 반면, 전문 작업 흐름에서는 객체 위치, 크기, 색상에 대한 정확한 수치적 제어가 필요합니다. 본 연구에서는 통합된 구조적 텍스트 프레임워크 내에서 수치적 바운딩 박스와 RGB 삼중항을 직접 조건으로 하는 대규모 텍스트-이미지 모델인 BBQ를 소개합니다. 우리는 아키텍처 수정이나 추론 시간 최적화 없이 매개변수 주석이 강화된 캡션으로 학습함으로써 정확한 공간 및 색채 제어를 달성합니다. 이는 객체 드래깅 및 컬러 피커와 같은 직관적인 사용자 인터페이스를 가능하게 하여, 모호한 반복적 프롬프팅을 정확하고 친숙한 제어 방식으로 대체합니다. 포괄적 평가를 통해 BBQ는 강력한 박스 정렬 성능을 보였으며 최첨단 기준선 대비 RGB 색상 정확도를 향상시켰습니다. 더 넓은 의미에서, 우리의 결과는 사용자 의도가 중간 구조적 언어로 변환되고, 렌더러 역할을 하는 흐름 기반 트랜스포머에 의해 소비되며 수치 매개변수를 자연스럽게 수용하는 새로운 패러다임을 지지합니다.
English
Text-to-image models have rapidly advanced in realism and controllability, with recent approaches leveraging long, detailed captions to support fine-grained generation. However, a fundamental parametric gap remains: existing models rely on descriptive language, whereas professional workflows require precise numeric control over object location, size, and color. In this work, we introduce BBQ, a large-scale text-to-image model that directly conditions on numeric bounding boxes and RGB triplets within a unified structured-text framework. We obtain precise spatial and chromatic control by training on captions enriched with parametric annotations, without architectural modifications or inference-time optimization. This also enables intuitive user interfaces such as object dragging and color pickers, replacing ambiguous iterative prompting with precise, familiar controls. Across comprehensive evaluations, BBQ achieves strong box alignment and improves RGB color fidelity over state-of-the-art baselines. More broadly, our results support a new paradigm in which user intent is translated into an intermediate structured language, consumed by a flow-based transformer acting as a renderer and naturally accommodating numeric parameters.