Moebius : un framework léger de comblement d'image de 0,2B avec des performances de niveau 10B

Résumé

Alors que les modèles fondamentaux de niveau 10B ont repoussé les limites de l'inpainting d'images, leurs coûts de calcul prohibitifs entravent sérieusement leur déploiement pratique. Construire un spécialiste de tâche hautement optimisé et spécialisé offre une solution prometteuse ; cependant, une compression structurelle extrême déclenche inévitablement un grave goulot d'étranglement représentationnel. Pour relever ce défi, nous proposons Moebius, un cadre d'inpainting léger et hautement efficace. Nous reconstruisons systématiquement le backbone de diffusion en introduisant le bloc Local-λ Mix Interaction (LλMI). Composé des modules Local-λ et Interactive-λ, il résume élégamment les contextes spatiaux et les priorités sémantiques globales en matrices linéaires de taille fixe, préservant les interactions latentes complexes tout en réduisant drastiquement les paramètres. De plus, pour libérer toute la capacité représentationnelle de cette architecture très compacte, nous l'associons de manière synergique à une stratégie de distillation adaptative multi-granularité. Opérant strictement dans l'espace latent pour éviter un décodage coûteux dans l'espace pixel, cette stratégie équilibre dynamiquement plusieurs pertes basées sur le gradient pour atteindre un alignement haute-fidélité. Des expériences approfondies sur des benchmarks naturels et de portraits démontrent que cette synergie optimale permet à Moebius de rivaliser, voire de surpasser la qualité de génération du généraliste industriel de niveau 10B FLUX.1-Fill-Dev. Remarquablement, Moebius y parvient en utilisant moins de 2 % des paramètres (0,22B contre 11,9B) tout en offrant une accélération >15 fois du temps d'inférence total, établissant une nouvelle norme d'efficacité pour l'inpainting haute-fidélité. Page du projet : https://hustvl.github.io/Moebius.

English

While 10B-level industrial foundation models have pushed the boundaries of image inpainting, their prohibitive computational costs severely hinder practical deployment. Constructing a highly optimized task-specific specialist offers a promising solution; however, extreme structural compression inevitably triggers a severe representation bottleneck. To conquer this, we propose Moebius, a highly efficient lightweight inpainting framework. We systematically reconstruct the diffusion backbone by introducing the Local-λ Mix Interaction (LλMI) block. Comprising Local-λ and Interactive-λ modules, it elegantly summarizes spatial contexts and global semantic priors into fixed-size linear matrices, preserving complex latent interactions while drastically shedding parameters. Furthermore, to unlock the full representational capacity of this highly compact architecture, we synergistically pair it with an adaptive multi-granularity distillation strategy. Operating strictly within the latent space to avoid expensive pixel-space decoding, this strategy dynamically balances multiple gradient-based losses to achieve high-fidelity alignment. Extensive experiments across natural and portrait benchmarks demonstrate that this optimal synergy enables Moebius to rival or even surpass the generation quality of the 10B-level industrial generalist FLUX.1-Fill-Dev. Remarkably, Moebius achieves this using less than 2\% of the parameters (0.22B vs. 11.9B) while delivering a >15times acceleration in total inference time, setting a new efficiency standard for high-fidelity inpainting. Project page at https://hustvl.github.io/Moebius.