Moebius: 0,2B-параметровый легковесный фреймворк для инпейнтинга изображений с производительностью уровня 10B

Аннотация

Хотя промышленные базовые модели уровня 10B продвинули границы возможностей восстановления изображений, их непомерные вычислительные затраты серьезно затрудняют практическое развертывание. Создание узкоспециализированного, высокооптимизированного решателя конкретных задач является многообещающим решением; однако экстремальное структурное сжатие неизбежно вызывает серьезное узкое место представления. Для преодоления этого мы предлагаем Moebius — высокоэффективный легковесный фреймворк для восстановления изображений. Мы систематически реконструируем диаффузионный бэкбон, вводя блок Local-λ Mix Interaction (LλMI). Состоящий из модулей Local-λ и Interactive-λ, он элегантно обобщает пространственные контексты и глобальные семантические априорные знания в линейные матрицы фиксированного размера, сохраняя сложные скрытые взаимодействия при радикальном сокращении параметров. Кроме того, чтобы раскрыть полную репрезентативную мощность этой высококомпактной архитектуры, мы синергетически объединяем ее с адаптивной стратегией дистилляции с несколькими гранулярностями. Действуя строго в скрытом пространстве во избежание дорогостоящего декодирования в пространстве пикселей, эта стратегия динамически балансирует несколько градиентных потерь для достижения высокоточного выравнивания. Обширные эксперименты на наборах данных естественных и портретных изображений показывают, что эта оптимальная синергия позволяет Moebius конкурировать или даже превосходить по качеству генерации промышленный генералист FLUX.1-Fill-Dev уровня 10B. Примечательно, что Moebius достигает этого, используя менее 2% параметров (0,22B против 11,9B), обеспечивая при этом ускорение общего времени вывода более чем в 15 раз, устанавливая новый стандарт эффективности для высокоточного восстановления изображений. Страница проекта: https://hustvl.github.io/Moebius.

English

While 10B-level industrial foundation models have pushed the boundaries of image inpainting, their prohibitive computational costs severely hinder practical deployment. Constructing a highly optimized task-specific specialist offers a promising solution; however, extreme structural compression inevitably triggers a severe representation bottleneck. To conquer this, we propose Moebius, a highly efficient lightweight inpainting framework. We systematically reconstruct the diffusion backbone by introducing the Local-λ Mix Interaction (LλMI) block. Comprising Local-λ and Interactive-λ modules, it elegantly summarizes spatial contexts and global semantic priors into fixed-size linear matrices, preserving complex latent interactions while drastically shedding parameters. Furthermore, to unlock the full representational capacity of this highly compact architecture, we synergistically pair it with an adaptive multi-granularity distillation strategy. Operating strictly within the latent space to avoid expensive pixel-space decoding, this strategy dynamically balances multiple gradient-based losses to achieve high-fidelity alignment. Extensive experiments across natural and portrait benchmarks demonstrate that this optimal synergy enables Moebius to rival or even surpass the generation quality of the 10B-level industrial generalist FLUX.1-Fill-Dev. Remarkably, Moebius achieves this using less than 2\% of the parameters (0.22B vs. 11.9B) while delivering a >15times acceleration in total inference time, setting a new efficiency standard for high-fidelity inpainting. Project page at https://hustvl.github.io/Moebius.