Lens: Переосмысление эффективности обучения базовых моделей преобразования текста в изображение

Аннотация

Мы представляем Lens — модель T2I с 3,8 млрд параметров, которая достигает производительности, конкурентоспособной, а в ряде случаев и превосходящей современные модели с более чем 6 млрд параметров по различным бенчмаркам, при этом требуя значительно меньших вычислительных затрат на обучение. Например, Lens требует лишь около 19,3% вычислительных ресурсов обучения, используемых Z-Image. Эффективность обучения Lens обусловлена двумя ключевыми стратегиями, помимо компактного размера модели. Во-первых, мы максимизируем информационную плотность данных в каждом обучающем батче за счет (i) обучения на Lens-800M — наборе данных из 800 млн пар изображение-текст с плотными подписями, сгенерированными GPT-4.1 и содержащими в среднем около 109 слов, что обеспечивает более богатый семантический надзор по сравнению с обычными короткими подписями, и (ii) формирования каждого батча из изображений с различными разрешениями и разнообразными соотношениями сторон, тем самым расширяя эффективное визуальное покрытие каждого шага оптимизации. Во-вторых, мы улучшаем скорость сходимости за счет тщательного выбора архитектуры, включая применение семантического VAE, обеспечивающего более качественные латентные представления, и использование мощного языкового энкодера, который ускоряет оптимизацию и позволяет обобщать на несколько языков на основе только англоязычных обучающих данных. После предварительного обучения мы применяем RL с таксономически управляемыми промптами (Lens-RL-8K) и структурированными рубриками вознаграждения для подавления артефактов и улучшения визуального качества, модуль рассуждения (reasoner) с поиском системного промпта без обучения для лучшего согласования запросов пользователя с моделью, а также ускорение на основе дистилляции для 4-шагового инференса. Благодаря эффективному обучению и систематической оптимизации Lens обобщается на произвольные соотношения сторон от 1:2 до 2:1 и разрешения до 1440×1440, а также поддерживает промпты на нескольких распространенных языках. Благодаря компактному размеру Lens генерирует изображение размером 1024×1024 за 3,15 секунды на одном GPU NVIDIA H100, а его дистиллированная турбо-версия выполняет 4-шаговую генерацию за 0,84 секунды.

English

We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly less training compute. For example, Lens requires only about 19.3% of the training compute used by Z-Image. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by (i) training on Lens-800M, a dataset of 800M densely captioned image-text pairs whose captions are generated by GPT-4.1 and contain approximately 109 words on average, providing richer semantic supervision than conventional short captions, and (ii) constructing each batch from images with multiple resolutions and diverse aspect ratios, thereby enlarging the effective visual coverage of each optimization step. Second, we improve convergence speed through careful architectural choices, including adopting a semantic VAE that provides better latent representations and employing a strong language encoder that accelerates optimization while enabling multilingual generalization from English-only training data. After pre-training, we apply RL with taxonomy-driven prompts (Lens-RL-8K) and structured reward rubrics to suppress artifacts and improve visual quality, a reasoner module with training-free system prompt search to better align user requests with the model, and distillation-based acceleration for 4-step inference. Through efficient training and systematic optimization, Lens generalizes to arbitrary aspect ratios from 1:2 to 2:1 and resolutions up to 1440^2, and supports prompts in several commonly used languages. Thanks to its compact size, Lens generates a 1024^2 image in 3.15 seconds on a single NVIDIA H100 GPU, while its distilled turbo version performs 4-step generation in 0.84 seconds.