IDEAL: Tiefgehende Ausrichtung ermöglicht einen diskreten Repräsentations-Autoencoder

Zusammenfassung

Aufbauend auf vortrainierten visuellen Basismodellen (VFMs) sind Repräsentations-Autoencoder (RAEs) in jüngster Zeit als vielversprechender Ansatz zur Konstruktion semantisch reichhaltiger latenter Räume für die Bilderzeugung hervorgetreten. Ihre Rekonstruktionsqualität bleibt jedoch oft suboptimal, vor allem weil tiefe VFM-Repräsentationen nicht ausreichend feine visuelle Details bewahren. Diese Einschränkung wird nach einer Diskretisierung noch gravierender, da fehlende Information auf niedriger Ebene nur schwer wiederhergestellt werden kann. Tatsächlich beobachten wir, dass flache VFM-Merkmale erheblich reichere lokale Erscheinungs- und Strukturdetails erhalten, die die hochgradige Semantik ergänzen, die von den in bestehenden RAEs verwendeten tiefen Merkmalen getragen wird. Motiviert durch diese komplementäre Eigenschaft schlagen wir Ideal vor, ein Framework zur tiefgehenden Ausrichtung (In-depth Alignment) für die diskrete Repräsentations-Autocodierung. Durch die gemeinsame Ausrichtung quantisierter Tokens sowohl auf flache als auch auf tiefe VFM-Merkmale ermöglicht Ideal, dass die resultierenden diskreten visuellen Tokens sowohl visuelle Wiedergabetreue als auch reichhaltige Semantik bewahren. Umfangreiche Experimente zeigen, dass Ideal eine überlegene Rekonstruktionsleistung erzielt, mit einem rFID von 0,61 auf ImageNet und einer Verbesserung um 0,28 gegenüber der bisher besten Methode. Bei der Verwendung für die autoregressive Bilderzeugung erzielt Ideal zudem einen gFID von 1,89 und etabliert damit einen neuen Stand der Technik für die autoregressive Bilderzeugung.

English

Built on pretrained vision foundation models (VFMs), representation autoencoders (RAEs) have recently emerged as a promising approach for constructing semantically rich latent spaces for image generation. However, their reconstruction quality often remains suboptimal, largely because deep VFM representations do not preserve sufficient fine-grained visual detail. This limitation becomes even more severe after discretization, where missing low-level information is difficult to recover. In fact, we observe that shallow VFM features retain considerably richer local appearance and structural detail, which complements the high-level semantics carried by deep features used in existing RAEs. Motivated by this complementary property, we propose Ideal, an In-depth Alignment framework for discrete representation autoencoding. By jointly aligning quantized tokens with both shallow and deep VFM features, Ideal enables the resulting discrete visual tokens to preserve both visual fidelity and rich semantics. Extensive experiments demonstrate that Ideal yields superior reconstruction performance, achieving 0.61 rFID on ImageNet and outperforming the previous best method by 0.28. When used for autoregressive image generation, Ideal further produces a gFID of 1.89, establishing a new state of the art for autoregressive image generation.