Lente: Repensando a Eficiência de Treinamento para Modelos Fundamentais de Texto para Imagem

Resumo

Apresentamos o Lens, um modelo T2I de 3,8 bilhões de parâmetros que atinge desempenho competitivo com, e em vários casos superior a, modelos de última geração com mais de 6 bilhões de parâmetros em diversos benchmarks, ao mesmo tempo que requer significativamente menos carga computacional de treinamento. Por exemplo, o Lens requer apenas cerca de 19,3% da carga computacional de treinamento utilizada pelo Z-Image. A eficiência de treinamento do Lens decorre de duas estratégias principais além de seu tamanho compacto. Primeiro, maximizamos a densidade de informações dos dados por lote de treinamento ao (i) treinar no Lens-800M, um conjunto de dados de 800 milhões de pares imagem-texto com legendas densas, cujas legendas são geradas pelo GPT-4.1 e contêm em média aproximadamente 109 palavras, fornecendo supervisão semântica mais rica do que legendas curtas convencionais, e (ii) construir cada lote a partir de imagens com múltiplas resoluções e diversas proporções de aspecto, ampliando assim a cobertura visual efetiva de cada etapa de otimização. Em segundo lugar, melhoramos a velocidade de convergência por meio de escolhas arquiteturais cuidadosas, incluindo a adoção de um VAE semântico que fornece melhores representações latentes e o emprego de um codificador de linguagem robusto que acelera a otimização enquanto possibilita generalização multilíngue a partir de dados de treinamento exclusivamente em inglês. Após o pré-treinamento, aplicamos RL com prompts baseados em taxonomia (Lens-RL-8K) e rubricas de recompensa estruturadas para suprimir artefatos e melhorar a qualidade visual, um módulo de raciocínio com busca de prompt do sistema livre de treinamento para alinhar melhor as solicitações do usuário com o modelo, e aceleração baseada em destilação para inferência em 4 passos. Por meio de treinamento eficiente e otimização sistemática, o Lens generaliza para proporções de aspecto arbitrárias de 1:2 a 2:1 e resoluções de até 1440², além de suportar prompts em vários idiomas comuns. Graças ao seu tamanho compacto, o Lens gera uma imagem de 1024² em 3,15 segundos em uma única GPU NVIDIA H100, enquanto sua versão turbo destilada realiza geração em 4 passos em 0,84 segundos.

English

We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly less training compute. For example, Lens requires only about 19.3% of the training compute used by Z-Image. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by (i) training on Lens-800M, a dataset of 800M densely captioned image-text pairs whose captions are generated by GPT-4.1 and contain approximately 109 words on average, providing richer semantic supervision than conventional short captions, and (ii) constructing each batch from images with multiple resolutions and diverse aspect ratios, thereby enlarging the effective visual coverage of each optimization step. Second, we improve convergence speed through careful architectural choices, including adopting a semantic VAE that provides better latent representations and employing a strong language encoder that accelerates optimization while enabling multilingual generalization from English-only training data. After pre-training, we apply RL with taxonomy-driven prompts (Lens-RL-8K) and structured reward rubrics to suppress artifacts and improve visual quality, a reasoner module with training-free system prompt search to better align user requests with the model, and distillation-based acceleration for 4-step inference. Through efficient training and systematic optimization, Lens generalizes to arbitrary aspect ratios from 1:2 to 2:1 and resolutions up to 1440^2, and supports prompts in several commonly used languages. Thanks to its compact size, Lens generates a 1024^2 image in 3.15 seconds on a single NVIDIA H100 GPU, while its distilled turbo version performs 4-step generation in 0.84 seconds.