RDTF: Ресурсоэффективная двухмасочная обучающая структура для генерации многофреймовых анимированных стикеров
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
March 22, 2025
Авторы: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI
Аннотация
В последнее время был достигнут значительный прогресс в технологии генерации видео, что привлекло широкое внимание исследователей. Для применения этой технологии в задачах, требующих ограниченных ресурсов, исследователи обычно дообучают предварительно обученные модели с использованием методов эффективной настройки параметров, таких как Adapter или Lora. Хотя эти методы позволяют переносить знания из исходной области в целевую, меньшее количество обучаемых параметров приводит к слабой способности к адаптации, а знания из исходной области могут вызвать отклонение процесса вывода от целевой области. В данной статье мы утверждаем, что в условиях ограниченных ресурсов обучение меньшей модели генерации видео с нуля с использованием всего лишь миллионов образцов может превзойти эффективную настройку параметров на более крупных моделях в прикладных задачах: ключ заключается в эффективном использовании данных и стратегии обучения. В качестве примера рассмотрим генерацию анимированных стикеров (ASG). Сначала мы создаем дискретную сеть генерации кадров для стикеров с низкой частотой кадров, гарантируя, что ее параметры соответствуют требованиям обучения модели в условиях ограниченных ресурсов. Для обеспечения данных для моделей, обучаемых с нуля, мы предлагаем стратегию использования данных на основе двойной маски, которая повышает доступность и расширяет разнообразие ограниченных данных. Для облегчения сходимости в условиях двойной маски мы предлагаем метод адаптивного обучения по сложности, который разлагает энтропию образца на статическую и адаптивную составляющие, чтобы получать образцы от простых к сложным. Эксперименты показывают, что наш ресурсоэффективный фреймворк обучения с двойной маской количественно и качественно превосходит методы эффективной настройки параметров, такие как I2V-Adapter и SimDA, подтверждая жизнеспособность нашего подхода в прикладных задачах при ограниченных ресурсах. Код будет доступен.
English
Recently, great progress has been made in video generation technology,
attracting the widespread attention of scholars. To apply this technology to
downstream applications under resource-constrained conditions, researchers
usually fine-tune the pre-trained models based on parameter-efficient tuning
methods such as Adapter or Lora. Although these methods can transfer the
knowledge from the source domain to the target domain, fewer training
parameters lead to poor fitting ability, and the knowledge from the source
domain may lead to the inference process deviating from the target domain. In
this paper, we argue that under constrained resources, training a smaller video
generation model from scratch using only million-level samples can outperform
parameter-efficient tuning on larger models in downstream applications: the
core lies in the effective utilization of data and curriculum strategy. Take
animated sticker generation (ASG) as a case study, we first construct a
discrete frame generation network for stickers with low frame rates, ensuring
that its parameters meet the requirements of model training under constrained
resources. In order to provide data support for models trained from scratch, we
come up with a dual-mask based data utilization strategy, which manages to
improve the availability and expand the diversity of limited data. To
facilitate convergence under dual-mask situation, we propose a
difficulty-adaptive curriculum learning method, which decomposes the sample
entropy into static and adaptive components so as to obtain samples from easy
to difficult. The experiment demonstrates that our resource-efficient dual-mask
training framework is quantitatively and qualitatively superior to
efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the
feasibility of our method on downstream tasks under constrained resources. Code
will be available.Summary
AI-Generated Summary