Moebius: Leichtgewichtiges Bildinpainting-Framework mit 0,2 Milliarden Parametern und 10-Milliarden-Niveau-Leistung

Zusammenfassung

Während 10B-große industrielle Foundation-Modelle die Grenzen der Bildinpaintierung verschoben haben, behindern ihre prohibitiv hohen Rechenkosten den praktischen Einsatz erheblich. Die Konstruktion eines hochoptimierten, aufgabenspezifischen Spezialisten bietet eine vielversprechende Lösung; allerdings löst eine extreme strukturelle Kompression unweigerlich einen schwerwiegenden Repräsentationsengpass aus. Um dies zu überwinden, schlagen wir Moebius vor, ein hochgradig effizientes, leichtgewichtiges Inpaintierungs-Framework. Wir rekonstruieren systematisch das Diffusions-Backbone durch die Einführung des Local-λ Mix Interaction (LλMI)-Blocks. Dieser besteht aus Local-λ- und Interactive-λ-Modulen, die räumliche Kontexte und globale semantische Prioritäten elegant in lineare Matrizen fester Größe zusammenfassen, komplexe latente Interaktionen bewahren und gleichzeitig die Parameter drastisch reduzieren. Um das volle Repräsentationsvermögen dieser hochkompakten Architektur auszuschöpfen, kombinieren wir sie synergetisch mit einer adaptiven Multi-Granularitäts-Destillationsstrategie. Diese Strategie arbeitet streng innerhalb des latenten Raums, um teure Pixelraum-Dekodierungen zu vermeiden, und balanciert dynamisch mehrere gradientenbasierte Verlustfunktionen, um eine hochgenaue Angleichung zu erreichen. Umfangreiche Experimente mit natürlichen und Porträt-Benchmarks zeigen, dass diese optimale Synergie es Moebius ermöglicht, die Generierungsqualität des 10B-großen industriellen Generalisten FLUX.1-Fill-Dev zu erreichen oder sogar zu übertreffen. Bemerkenswerterweise erreicht Moebius dies mit weniger als 2 % der Parameter (0,22B vs. 11,9B) bei einer mehr als 15-fachen Beschleunigung der gesamten Inferenzzeit und setzt damit einen neuen Effizienzstandard für hochgetreue Inpaintierung. Projektseite unter https://hustvl.github.io/Moebius.

English

While 10B-level industrial foundation models have pushed the boundaries of image inpainting, their prohibitive computational costs severely hinder practical deployment. Constructing a highly optimized task-specific specialist offers a promising solution; however, extreme structural compression inevitably triggers a severe representation bottleneck. To conquer this, we propose Moebius, a highly efficient lightweight inpainting framework. We systematically reconstruct the diffusion backbone by introducing the Local-λ Mix Interaction (LλMI) block. Comprising Local-λ and Interactive-λ modules, it elegantly summarizes spatial contexts and global semantic priors into fixed-size linear matrices, preserving complex latent interactions while drastically shedding parameters. Furthermore, to unlock the full representational capacity of this highly compact architecture, we synergistically pair it with an adaptive multi-granularity distillation strategy. Operating strictly within the latent space to avoid expensive pixel-space decoding, this strategy dynamically balances multiple gradient-based losses to achieve high-fidelity alignment. Extensive experiments across natural and portrait benchmarks demonstrate that this optimal synergy enables Moebius to rival or even surpass the generation quality of the 10B-level industrial generalist FLUX.1-Fill-Dev. Remarkably, Moebius achieves this using less than 2\% of the parameters (0.22B vs. 11.9B) while delivering a >15times acceleration in total inference time, setting a new efficiency standard for high-fidelity inpainting. Project page at https://hustvl.github.io/Moebius.