ChatPaper.aiChatPaper

Lens: Heroverweging van trainingsefficiëntie voor fundamentele tekst-naar-beeldmodellen

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

May 20, 2026
Auteurs: Dong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen
cs.AI

Samenvatting

We introduceren Lens, een 3,8 miljard parameter T2I-model dat concurrerende prestaties levert, en in verschillende gevallen de nieuwste modellen met meer dan 6 miljard parameters overtreft op diverse benchmarks, terwijl het aanzienlijk minder rekenkracht vereist voor training. Lens heeft bijvoorbeeld slechts ongeveer 19,3% van de trainingsrekenkracht nodig die Z-Image gebruikt. De trainingsefficiëntie van Lens komt voort uit twee belangrijke strategieën naast de compacte modelgrootte. Ten eerste maximaliseren we de informatiedichtheid van gegevens per trainingsbatch door (i) te trainen op Lens-800M, een dataset van 800 miljoen dicht beschreven afbeelding-tekstparen waarvan de bijschriften zijn gegenereerd door GPT-4.1 en gemiddeld ongeveer 109 woorden bevatten, wat rijkere semantische supervisie biedt dan conventionele korte bijschriften, en (ii) elke batch samen te stellen uit afbeeldingen met meerdere resoluties en diverse beeldverhoudingen, waardoor de effectieve visuele dekking van elke optimalisatiestap wordt vergroot. Ten tweede verbeteren we de convergentiesnelheid door zorgvuldige architectuurkeuzes, waaronder het gebruik van een semantische VAE die betere latente representaties biedt en het gebruik van een sterke taalencoder die optimalisatie versnelt terwijl meertalige generalisatie mogelijk wordt gemaakt op basis van alleen Engelstalige trainingsgegevens. Na pre-training passen we RL toe met taxonomiegestuurde prompts (Lens-RL-8K) en gestructureerde beloningsrubrieken om artefacten te onderdrukken en visuele kwaliteit te verbeteren, een redeneermodule met trainingsvrije systeempromptzoekopdracht om gebruikersverzoeken beter af te stemmen op het model, en op distillatie gebaseerde versnelling voor 4-staps inferentie. Door efficiënte training en systematische optimalisatie generaliseert Lens naar willekeurige beeldverhoudingen van 1:2 tot 2:1 en resoluties tot 1440^2, en ondersteunt het prompts in verschillende veelgebruikte talen. Dankzij de compacte grootte genereert Lens een 1024^2 afbeelding in 3,15 seconden op een enkele NVIDIA H100 GPU, terwijl de gedistilleerde turboversie 4-staps generatie uitvoert in 0,84 seconden.
English
We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly less training compute. For example, Lens requires only about 19.3% of the training compute used by Z-Image. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by (i) training on Lens-800M, a dataset of 800M densely captioned image-text pairs whose captions are generated by GPT-4.1 and contain approximately 109 words on average, providing richer semantic supervision than conventional short captions, and (ii) constructing each batch from images with multiple resolutions and diverse aspect ratios, thereby enlarging the effective visual coverage of each optimization step. Second, we improve convergence speed through careful architectural choices, including adopting a semantic VAE that provides better latent representations and employing a strong language encoder that accelerates optimization while enabling multilingual generalization from English-only training data. After pre-training, we apply RL with taxonomy-driven prompts (Lens-RL-8K) and structured reward rubrics to suppress artifacts and improve visual quality, a reasoner module with training-free system prompt search to better align user requests with the model, and distillation-based acceleration for 4-step inference. Through efficient training and systematic optimization, Lens generalizes to arbitrary aspect ratios from 1:2 to 2:1 and resolutions up to 1440^2, and supports prompts in several commonly used languages. Thanks to its compact size, Lens generates a 1024^2 image in 3.15 seconds on a single NVIDIA H100 GPU, while its distilled turbo version performs 4-step generation in 0.84 seconds.