Gerando uma Imagem a Partir de 1.000 Palavras: Aprimorando a Conversão de Texto em Imagem com Legendas Estruturadas

Resumo

Os modelos de texto-para-imagem evoluíram rapidamente de ferramentas criativas casuais para sistemas de nível profissional, alcançando níveis sem precedentes de qualidade de imagem e realismo. No entanto, a maioria dos modelos é treinada para mapear instruções curtas em imagens detalhadas, criando uma lacuna entre a entrada textual esparsa e as saídas visuais ricas. Essa incompatibilidade reduz a controlabilidade, pois os modelos frequentemente preenchem detalhes ausentes de forma arbitrária, tendendo para as preferências médias dos usuários e limitando a precisão para uso profissional. Nós abordamos esta limitação treinando o primeiro modelo de código aberto de texto-para-imagem com legendas estruturadas longas, onde cada amostra de treinamento é anotada com o mesmo conjunto de atributos refinados. Este projeto maximiza a cobertura expressiva e permite controle desacoplado sobre fatores visuais. Para processar legendas longas com eficiência, propomos o DimFusion, um mecanismo de fusão que integra *tokens* intermediários de um LLM leve sem aumentar o comprimento dos *tokens*. Também introduzimos o protocolo de avaliação Reconstrução com Texto como Gargalo (TaBR). Ao avaliar o quão bem imagens reais podem ser reconstruídas através de um ciclo de legendagem-geração, o TaBR mede diretamente a controlabilidade e a expressividade, mesmo para legendas muito longas onde os métodos de avaliação existentes falham. Por fim, demonstramos nossas contribuições treinando o modelo de larga escala FIBO, alcançando o estado da arte no alinhamento a instruções entre modelos de código aberto. Os pesos do modelo estão publicamente disponíveis em https://huggingface.co/briaai/FIBO.

English

Text-to-image models have rapidly evolved from casual creative tools to professional-grade systems, achieving unprecedented levels of image quality and realism. Yet, most models are trained to map short prompts into detailed images, creating a gap between sparse textual input and rich visual outputs. This mismatch reduces controllability, as models often fill in missing details arbitrarily, biasing toward average user preferences and limiting precision for professional use. We address this limitation by training the first open-source text-to-image model on long structured captions, where every training sample is annotated with the same set of fine-grained attributes. This design maximizes expressive coverage and enables disentangled control over visual factors. To process long captions efficiently, we propose DimFusion, a fusion mechanism that integrates intermediate tokens from a lightweight LLM without increasing token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR) evaluation protocol. By assessing how well real images can be reconstructed through a captioning-generation loop, TaBR directly measures controllability and expressiveness, even for very long captions where existing evaluation methods fail. Finally, we demonstrate our contributions by training the large-scale model FIBO, achieving state-of-the-art prompt alignment among open-source models. Model weights are publicly available at https://huggingface.co/briaai/FIBO

Gerando uma Imagem a Partir de 1.000 Palavras: Aprimorando a Conversão de Texto em Imagem com Legendas Estruturadas

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

Resumo

Support