Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusiemodellen hebben moeite om te schalen buiten hun trainingsresoluties, aangezien directe hoogwaardige sampling traag en kostbaar is, terwijl post-hoc beeld-superresolutie (ISR) artefacten introduceert en extra latentie veroorzaakt door te opereren na het decoderen. Wij presenteren de Latent Upscaler Adapter (LUA), een lichtgewicht module die superresolutie direct uitvoert op de latente code van de generator vóór de laatste VAE-decoderingstap. LUA integreert als een drop-in component, vereist geen aanpassingen aan het basismodel of extra diffusiefasen, en maakt hoogwaardige synthese mogelijk via een enkele feed-forward pass in de latente ruimte. Een gedeelde Swin-stijl backbone met schaalspecifieke pixel-shuffle heads ondersteunt 2x en 4x factoren en blijft compatibel met beeldruimte SR-baselines, waarbij vergelijkbare perceptuele kwaliteit wordt bereikt met bijna 3x lagere decodering- en upscalingtijd (slechts +0,42 s toevoegend voor 1024 px generatie vanuit 512 px, vergeleken met 1,87 s voor pixelruimte SR met dezelfde SwinIR-architectuur). Bovendien toont LUA sterke generalisatie over de latente ruimtes van verschillende VAEs, waardoor het eenvoudig te implementeren is zonder hertraining vanaf nul voor elke nieuwe decoder. Uitgebreide experimenten tonen aan dat LUA de kwaliteit van native hoogwaardige generatie nauwkeurig benadert, terwijl het een praktische en efficiënte weg biedt naar schaalbare, hoogwaardige beeld synthese in moderne diffusiepijplijnen.