Lens: Repensando la eficiencia del entrenamiento para modelos fundacionales de texto a imagen

Resumen

Presentamos Lens, un modelo T2I de 3.8 mil millones de parámetros que alcanza un rendimiento competitivo con, y en varios casos superior a, los modelos de vanguardia de más de 6 mil millones de parámetros en diversos puntos de referencia, al tiempo que requiere significativamente menos cómputo de entrenamiento. Por ejemplo, Lens requiere solo aproximadamente el 19.3% del cómputo de entrenamiento utilizado por Z-Image. La eficiencia de entrenamiento de Lens se deriva de dos estrategias clave más allá de su tamaño compacto. En primer lugar, maximizamos la densidad de información de los datos por lote de entrenamiento mediante (i) el entrenamiento en Lens-800M, un conjunto de datos de 800 millones de pares imagen-texto con subtítulos densos, cuyas leyendas son generadas por GPT-4.1 y contienen un promedio de aproximadamente 109 palabras, proporcionando una supervisión semántica más rica que los subtítulos cortos convencionales, y (ii) la construcción de cada lote a partir de imágenes con múltiples resoluciones y diversas relaciones de aspecto, ampliando así la cobertura visual efectiva de cada paso de optimización. En segundo lugar, mejoramos la velocidad de convergencia mediante cuidadosas elecciones arquitectónicas, incluyendo la adopción de un VAE semántico que proporciona mejores representaciones latentes y el empleo de un codificador de lenguaje potente que acelera la optimización al tiempo que permite la generalización multilingüe a partir de datos de entrenamiento exclusivamente en inglés. Tras el preentrenamiento, aplicamos aprendizaje por refuerzo con indicaciones taxonómicas (Lens-RL-8K) y rúbricas de recompensa estructuradas para suprimir artefactos y mejorar la calidad visual, un módulo razonador con búsqueda de indicaciones del sistema sin entrenamiento para alinear mejor las solicitudes del usuario con el modelo, y una aceleración basada en destilación para la inferencia en 4 pasos. Mediante un entrenamiento eficiente y una optimización sistemática, Lens se generaliza a relaciones de aspecto arbitrarias desde 1:2 hasta 2:1 y resoluciones de hasta 1440^2, y admite indicaciones en varios idiomas de uso común. Gracias a su tamaño compacto, Lens genera una imagen de 1024^2 en 3.15 segundos en una única GPU NVIDIA H100, mientras que su versión turbo destilada realiza la generación en 4 pasos en 0.84 segundos.

English

We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly less training compute. For example, Lens requires only about 19.3% of the training compute used by Z-Image. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by (i) training on Lens-800M, a dataset of 800M densely captioned image-text pairs whose captions are generated by GPT-4.1 and contain approximately 109 words on average, providing richer semantic supervision than conventional short captions, and (ii) constructing each batch from images with multiple resolutions and diverse aspect ratios, thereby enlarging the effective visual coverage of each optimization step. Second, we improve convergence speed through careful architectural choices, including adopting a semantic VAE that provides better latent representations and employing a strong language encoder that accelerates optimization while enabling multilingual generalization from English-only training data. After pre-training, we apply RL with taxonomy-driven prompts (Lens-RL-8K) and structured reward rubrics to suppress artifacts and improve visual quality, a reasoner module with training-free system prompt search to better align user requests with the model, and distillation-based acceleration for 4-step inference. Through efficient training and systematic optimization, Lens generalizes to arbitrary aspect ratios from 1:2 to 2:1 and resolutions up to 1440^2, and supports prompts in several commonly used languages. Thanks to its compact size, Lens generates a 1024^2 image in 3.15 seconds on a single NVIDIA H100 GPU, while its distilled turbo version performs 4-step generation in 0.84 seconds.