Moebius: 0.2B 경량 이미지 인페인팅 프레임워크, 10B급 성능

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

June 17, 2026
저자: Kangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI

초록

10B 수준의 산업용 기반 모델이 이미지 인페인팅의 새로운 지평을 열었지만, 이들의 엄청난 계산 비용은 실제 배포를 심각하게 저해합니다. 고도로 최적화된 작업 특화 전문가를 구축하는 것은 유망한 해결책이지만, 극단적인 구조 압축은 필연적으로 심각한 표현 병목 현상을 유발합니다. 이를 극복하기 위해, 우리는 고효율 경량 인페인팅 프레임워크인 Moebius를 제안합니다. 우리는 Local-λ 혼합 상호작용(LλMI) 블록을 도입하여 확산 백본을 체계적으로 재구성합니다. Local-λ 및 Interactive-λ 모듈로 구성된 이 블록은 공간적 맥락과 전역 의미 사전 정보를 고정 크기의 선형 행렬로 우아하게 요약하여, 매개변수를 대폭 줄이면서도 복잡한 잠재 상호작용을 보존합니다. 또한, 이 고도로 컴팩트한 아키텍처의 완전한 표현 능력을 활용하기 위해, 적응형 다중 세분화 증류 전략을 상승적으로 결합합니다. 이 전략은 값비싼 픽셀 공간 디코딩을 피하고 잠재 공간 내에서 엄격하게 작동하며, 여러 그래디언트 기반 손실을 동적으로 균형 조정하여 고충실도 정렬을 달성합니다. 자연 및 인물 벤치마크에 걸친 광범위한 실험을 통해, 이러한 최적의 시너지 덕분에 Moebius가 10B 수준의 산업용 범용 모델인 FLUX.1-Fill-Dev의 생성 품질에 필적하거나 능가할 수 있음을 입증합니다. 놀랍게도, Moebius는 매개변수의 2% 미만(0.22B 대 11.9B)을 사용하면서 전체 추론 시간에서 15배 이상의 가속을 달성하여 고충실도 인페인팅의 새로운 효율성 기준을 제시합니다. 프로젝트 페이지: https://hustvl.github.io/Moebius.
English
While 10B-level industrial foundation models have pushed the boundaries of image inpainting, their prohibitive computational costs severely hinder practical deployment. Constructing a highly optimized task-specific specialist offers a promising solution; however, extreme structural compression inevitably triggers a severe representation bottleneck. To conquer this, we propose Moebius, a highly efficient lightweight inpainting framework. We systematically reconstruct the diffusion backbone by introducing the Local-λ Mix Interaction (LλMI) block. Comprising Local-λ and Interactive-λ modules, it elegantly summarizes spatial contexts and global semantic priors into fixed-size linear matrices, preserving complex latent interactions while drastically shedding parameters. Furthermore, to unlock the full representational capacity of this highly compact architecture, we synergistically pair it with an adaptive multi-granularity distillation strategy. Operating strictly within the latent space to avoid expensive pixel-space decoding, this strategy dynamically balances multiple gradient-based losses to achieve high-fidelity alignment. Extensive experiments across natural and portrait benchmarks demonstrate that this optimal synergy enables Moebius to rival or even surpass the generation quality of the 10B-level industrial generalist FLUX.1-Fill-Dev. Remarkably, Moebius achieves this using less than 2\% of the parameters (0.22B vs. 11.9B) while delivering a >15times acceleration in total inference time, setting a new efficiency standard for high-fidelity inpainting. Project page at https://hustvl.github.io/Moebius.
PDF1174June 22, 2026