Думать штрихами, а не пикселями: процессно-ориентированная генерация изображений через чередующееся рассуждение

Аннотация

Люди создают изображения постепенно: они планируют общую композицию, намечают черновой эскиз, проверяют и уточняют детали, и, что наиболее важно, каждый этап основывается на текущем визуальном состоянии. Однако могут ли унифицированные мультимодальные модели, обученные на чередующихся текстово-визуальных данных, также представить цепочку промежуточных состояний? В данной статье мы представляем процессно-ориентированную генерацию изображений — многошаговую парадигму, которая разбивает синтез на чередующуюся траекторию рассуждений, состоящую из мыслей и действий. В отличие от одношаговой генерации, наш подход разворачивается в несколько итераций, каждая из которых включает 4 стадии: текстовое планирование, визуальное эскизирование, текстовое осмысление и визуальное уточнение. Текстовые рассуждения явно задают, как должно эволюционировать визуальное состояние, а сгенерированное промежуточное изображение, в свою очередь, ограничивает и обосновывает следующий цикл текстовых рассуждений. Ключевая проблема процессно-ориентированной генерации проистекает из неоднозначности промежуточных состояний: как модели могут оценивать каждое частично завершённое изображение? Мы решаем эту проблему с помощью плотного пошагового контроля, который поддерживает два взаимодополняющих ограничения: для визуальных промежуточных состояний мы обеспечиваем пространственную и семантическую согласованность; для текстовых промежуточных состояний мы сохраняем предыдущие визуальные знания, позволяя модели выявлять и исправлять элементы, нарушающие условия исходного запроса. Это делает процесс генерации явным, интерпретируемым и непосредственно контролируемым. Для проверки предложенного метода мы проводим эксперименты на различных бенчмарках генерации изображений по текстовому описанию.

English

Humans paint images incrementally: they plan a global layout, sketch a coarse draft, inspect, and refine details, and most importantly, each step is grounded in the evolving visual states. However, can unified multimodal models trained on text-image interleaved datasets also imagine the chain of intermediate states? In this paper, we introduce process-driven image generation, a multi-step paradigm that decomposes synthesis into an interleaved reasoning trajectory of thoughts and actions. Rather than generating images in a single step, our approach unfolds across multiple iterations, each consisting of 4 stages: textual planning, visual drafting, textual reflection, and visual refinement. The textual reasoning explicitly conditions how the visual state should evolve, while the generated visual intermediate in turn constrains and grounds the next round of textual reasoning. A core challenge of process-driven generation stems from the ambiguity of intermediate states: how can models evaluate each partially-complete image? We address this through dense, step-wise supervision that maintains two complementary constraints: for the visual intermediate states, we enforce the spatial and semantic consistency; for the textual intermediate states, we preserve the prior visual knowledge while enabling the model to identify and correct prompt-violating elements. This makes the generation process explicit, interpretable, and directly supervisable. To validate proposed method, we conduct experiments under various text-to-image generation benchmarks.

Думать штрихами, а не пикселями: процессно-ориентированная генерация изображений через чередующееся рассуждение

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

Аннотация

Support