Lens : Repenser l'efficacité d'entraînement pour les modèles fondateurs texte-image
Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models
May 20, 2026
Auteurs: Dong Chen, Fangyun Wei, Ziyu Wan, Dongdong Chen, Jiawei Zhang, Jinjing Zhao, Sirui Zhang, Yang Yue, Zhiyang Liang, Baining Guo, Chong Luo, Jianmin Bao, Ji Li, Lei Shi, Qinhong Yang, Xiuyu Wu, Xuelu Feng, Yan Lu, Yanchen Dong, Yitong Wang, Yunuo Chen
cs.AI
Résumé
Nous présentons Lens, un modèle T2I de 3,8 milliards de paramètres dont les performances sont compétitives, et dans plusieurs cas supérieures, à celles de modèles de pointe de plus de 6 milliards de paramètres sur divers benchmarks, tout en nécessitant un coût d’entraînement nettement inférieur. Par exemple, Lens ne requiert qu’environ 19,3 % du coût d’entraînement de Z-Image. L’efficacité d’entraînement de Lens découle de deux stratégies clés au-delà de sa taille compacte. Premièrement, nous maximisons la densité d’information des données par lot d’entraînement en (i) entraînant sur Lens-800M, un jeu de données de 800 millions de paires image-texte densément légendées, dont les légendes sont générées par GPT-4.1 et contiennent en moyenne environ 109 mots, offrant ainsi une supervision sémantique plus riche que les légendes courtes conventionnelles, et (ii) en construisant chaque lot à partir d’images de multiples résolutions et de rapports d’aspect divers, élargissant ainsi la couverture visuelle effective de chaque étape d’optimisation. Deuxièmement, nous accélérons la vitesse de convergence grâce à des choix architecturaux soignés, notamment l’adoption d’un VAE sémantique offrant de meilleures représentations latentes et l’emploi d’un encodeur de langage puissant qui accélère l’optimisation tout en permettant une généralisation multilingue à partir de données d’entraînement exclusivement en anglais. Après le pré-entraînement, nous appliquons du RL avec des invites guidées par une taxonomie (Lens-RL-8K) et des rubriques de récompense structurées pour supprimer les artefacts et améliorer la qualité visuelle, un module raisonneur avec recherche d’invite sans entraînement pour mieux aligner les requêtes utilisateur avec le modèle, et une accélération par distillation pour l’inférence en 4 étapes. Grâce à un entraînement efficace et une optimisation systématique, Lens généralise à des rapports d’aspect arbitraires allant de 1:2 à 2:1 et des résolutions jusqu’à 1440², et prend en charge les invites dans plusieurs langues courantes. De par sa taille compacte, Lens génère une image de 1024² en 3,15 secondes sur un seul GPU NVIDIA H100, tandis que sa version turbo distillée effectue une génération en 4 étapes en 0,84 seconde.
English
We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly less training compute. For example, Lens requires only about 19.3% of the training compute used by Z-Image. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by (i) training on Lens-800M, a dataset of 800M densely captioned image-text pairs whose captions are generated by GPT-4.1 and contain approximately 109 words on average, providing richer semantic supervision than conventional short captions, and (ii) constructing each batch from images with multiple resolutions and diverse aspect ratios, thereby enlarging the effective visual coverage of each optimization step. Second, we improve convergence speed through careful architectural choices, including adopting a semantic VAE that provides better latent representations and employing a strong language encoder that accelerates optimization while enabling multilingual generalization from English-only training data. After pre-training, we apply RL with taxonomy-driven prompts (Lens-RL-8K) and structured reward rubrics to suppress artifacts and improve visual quality, a reasoner module with training-free system prompt search to better align user requests with the model, and distillation-based acceleration for 4-step inference. Through efficient training and systematic optimization, Lens generalizes to arbitrary aspect ratios from 1:2 to 2:1 and resolutions up to 1440^2, and supports prompts in several commonly used languages. Thanks to its compact size, Lens generates a 1024^2 image in 3.15 seconds on a single NVIDIA H100 GPU, while its distilled turbo version performs 4-step generation in 0.84 seconds.