Linse: Überdenken der Trainingseffizienz für grundlegende Text-zu-Bild-Modelle

Zusammenfassung

Wir stellen Lens vor, ein T2I-Modell mit 3,8 Milliarden Parametern, das in verschiedenen Benchmarks eine mit modernsten Modellen mit mehr als 6 Milliarden Parametern konkurrenzfähige und in mehreren Fällen überlegene Leistung erzielt und dabei wesentlich weniger Trainingsaufwand benötigt. Beispielsweise erfordert Lens nur etwa 19,3 % des Trainingsaufwands, der für Z-Image verwendet wird. Die Trainingseffizienz von Lens beruht über seine kompakte Modellgröße hinaus auf zwei Schlüsselstrategien. Erstens maximieren wir die Informationsdichte der Daten pro Trainingsbatch, indem wir (i) auf Lens-800M trainieren, einem Datensatz von 800 Millionen dicht beschrifteten Bild-Text-Paaren, deren Bildunterschriften von GPT-4.1 generiert wurden und im Durchschnitt etwa 109 Wörter enthalten, was eine reichhaltigere semantische Überwachung als herkömmliche kurze Bildunterschriften bietet, und (ii) jeden Batch aus Bildern mit mehreren Auflösungen und unterschiedlichen Seitenverhältnissen zusammensetzen, wodurch die effektive visuelle Abdeckung jedes Optimierungsschritts vergrößert wird. Zweitens verbessern wir die Konvergenzgeschwindigkeit durch sorgfältige architektonische Entscheidungen, einschließlich der Übernahme eines semantischen VAE, der bessere latente Repräsentationen liefert, und der Verwendung eines starken Sprach-Encoders, der die Optimierung beschleunigt und gleichzeitig mehrsprachige Generalisierung aus rein englischen Trainingsdaten ermöglicht. Nach dem Vortraining wenden wir RL mit taxonomiegesteuerten Prompts (Lens-RL-8K) und strukturierten Belohnungskriterien an, um Artefakte zu unterdrücken und die visuelle Qualität zu verbessern, ein Reasoner-Modul mit trainingsfreier System-Prompt-Suche, um Benutzeranfragen besser mit dem Modell abzugleichen, sowie destillationsbasierte Beschleunigung für die 4-Schritt-Inferenz. Durch effizientes Training und systematische Optimierung verallgemeinert Lens auf beliebige Seitenverhältnisse von 1:2 bis 2:1 und Auflösungen bis zu 1440^2 und unterstützt Prompts in mehreren häufig verwendeten Sprachen. Dank seiner kompakten Größe erzeugt Lens ein 1024^2-Bild in 3,15 Sekunden auf einer einzelnen NVIDIA H100 GPU, während seine destillierte Turbo-Version eine 4-Schritt-Generierung in 0,84 Sekunden durchführt.

English

We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with more than 6B parameters across various benchmarks, while requiring significantly less training compute. For example, Lens requires only about 19.3% of the training compute used by Z-Image. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by (i) training on Lens-800M, a dataset of 800M densely captioned image-text pairs whose captions are generated by GPT-4.1 and contain approximately 109 words on average, providing richer semantic supervision than conventional short captions, and (ii) constructing each batch from images with multiple resolutions and diverse aspect ratios, thereby enlarging the effective visual coverage of each optimization step. Second, we improve convergence speed through careful architectural choices, including adopting a semantic VAE that provides better latent representations and employing a strong language encoder that accelerates optimization while enabling multilingual generalization from English-only training data. After pre-training, we apply RL with taxonomy-driven prompts (Lens-RL-8K) and structured reward rubrics to suppress artifacts and improve visual quality, a reasoner module with training-free system prompt search to better align user requests with the model, and distillation-based acceleration for 4-step inference. Through efficient training and systematic optimization, Lens generalizes to arbitrary aspect ratios from 1:2 to 2:1 and resolutions up to 1440^2, and supports prompts in several commonly used languages. Thanks to its compact size, Lens generates a 1024^2 image in 3.15 seconds on a single NVIDIA H100 GPU, while its distilled turbo version performs 4-step generation in 0.84 seconds.