Moebius: Marco ligero de restauración de imágenes de 0.2B con rendimiento de nivel 10B

Resumen

Mientras que los modelos fundacionales a nivel de 10B han ampliado los límites del inpainting de imágenes, sus prohibitivos costos computacionales dificultan gravemente su implementación práctica. Construir un especialista altamente optimizado para una tarea específica ofrece una solución prometedora; sin embargo, la compresión estructural extrema desencadena inevitablemente un severo cuello de botella de representación. Para superar esto, proponemos Moebius, un marco ligero de inpainting de alta eficiencia. Reconstruimos sistemáticamente la columna vertebral de difusión introduciendo el bloque de Interacción Mixta Local-λ (LλMI). Compuesto por los módulos Local-λ e Interactive-λ, este bloque resume elegantemente los contextos espaciales y las prioridades semánticas globales en matrices lineales de tamaño fijo, preservando interacciones latentes complejas mientras reduce drásticamente los parámetros. Además, para liberar toda la capacidad representacional de esta arquitectura altamente compacta, la combinamos sinérgicamente con una estrategia adaptativa de destilación multi-granularidad. Operando estrictamente dentro del espacio latente para evitar la costosa decodificación en espacio de píxeles, esta estrategia equilibra dinámicamente múltiples pérdidas basadas en gradientes para lograr una alineación de alta fidelidad. Experimentos exhaustivos en puntos de referencia naturales y de retratos demuestran que esta sinergia óptima permite a Moebius igualar o incluso superar la calidad de generación del generalista industrial de nivel 10B FLUX.1-Fill-Dev. Notablemente, Moebius logra esto utilizando menos del 2% de los parámetros (0.22B frente a 11.9B) mientras ofrece una aceleración de >15 veces en el tiempo total de inferencia, estableciendo un nuevo estándar de eficiencia para inpainting de alta fidelidad. Página del proyecto en https://hustvl.github.io/Moebius.

English

While 10B-level industrial foundation models have pushed the boundaries of image inpainting, their prohibitive computational costs severely hinder practical deployment. Constructing a highly optimized task-specific specialist offers a promising solution; however, extreme structural compression inevitably triggers a severe representation bottleneck. To conquer this, we propose Moebius, a highly efficient lightweight inpainting framework. We systematically reconstruct the diffusion backbone by introducing the Local-λ Mix Interaction (LλMI) block. Comprising Local-λ and Interactive-λ modules, it elegantly summarizes spatial contexts and global semantic priors into fixed-size linear matrices, preserving complex latent interactions while drastically shedding parameters. Furthermore, to unlock the full representational capacity of this highly compact architecture, we synergistically pair it with an adaptive multi-granularity distillation strategy. Operating strictly within the latent space to avoid expensive pixel-space decoding, this strategy dynamically balances multiple gradient-based losses to achieve high-fidelity alignment. Extensive experiments across natural and portrait benchmarks demonstrate that this optimal synergy enables Moebius to rival or even surpass the generation quality of the 10B-level industrial generalist FLUX.1-Fill-Dev. Remarkably, Moebius achieves this using less than 2\% of the parameters (0.22B vs. 11.9B) while delivering a >15times acceleration in total inference time, setting a new efficiency standard for high-fidelity inpainting. Project page at https://hustvl.github.io/Moebius.