RDTF: Resource-efficiënt Dual-mask Trainingsraamwerk voor Multi-frame Geanimeerde Sticker Generatie
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
March 22, 2025
Auteurs: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI
Samenvatting
Onlangs is er grote vooruitgang geboekt in videogeneratietechnologie, wat de brede aandacht van wetenschappers heeft getrokken. Om deze technologie toe te passen in downstream-toepassingen onder omstandigheden met beperkte middelen, passen onderzoekers meestal vooraf getrainde modellen aan op basis van parameter-efficiënte afstemmingsmethoden zoals Adapter of Lora. Hoewel deze methoden kennis kunnen overbrengen van het brondomein naar het doeldomein, leiden minder trainingsparameters tot een slechte aanpassingscapaciteit, en kan de kennis uit het brondomein ervoor zorgen dat het inferentieproces afwijkt van het doeldomein. In dit artikel stellen we dat, onder beperkte middelen, het trainen van een kleiner videogeneratiemodel vanaf nul met slechts miljoenen samples beter presteert dan parameter-efficiënte afstemming op grotere modellen in downstream-toepassingen: de kern ligt in het effectieve gebruik van data en een curriculumstrategie. Neem als voorbeeld de generatie van geanimeerde stickers (ASG), we construeren eerst een discreet framegeneratienetwerk voor stickers met een lage framerate, waarbij we ervoor zorgen dat de parameters voldoen aan de eisen van modeltraining onder beperkte middelen. Om data-ondersteuning te bieden voor modellen die vanaf nul worden getraind, ontwikkelen we een op dubbele maskers gebaseerde data-utilisatiestrategie, die de beschikbaarheid verbetert en de diversiteit van beperkte data vergroot. Om convergentie te bevorderen onder de dubbele masker-situatie, stellen we een moeilijkheidsadaptieve curriculumleermethode voor, die de steekproefentropie ontleedt in statische en adaptieve componenten om zo steekproeven van makkelijk naar moeilijk te verkrijgen. Het experiment toont aan dat ons resource-efficiënte dubbele masker-trainingsframework kwantitatief en kwalitatief superieur is aan parameter-efficiënte afstemmingsmethoden zoals I2V-Adapter en SimDA, wat de haalbaarheid van onze methode op downstream-taken onder beperkte middelen bevestigt. Code zal beschikbaar worden gesteld.
English
Recently, great progress has been made in video generation technology,
attracting the widespread attention of scholars. To apply this technology to
downstream applications under resource-constrained conditions, researchers
usually fine-tune the pre-trained models based on parameter-efficient tuning
methods such as Adapter or Lora. Although these methods can transfer the
knowledge from the source domain to the target domain, fewer training
parameters lead to poor fitting ability, and the knowledge from the source
domain may lead to the inference process deviating from the target domain. In
this paper, we argue that under constrained resources, training a smaller video
generation model from scratch using only million-level samples can outperform
parameter-efficient tuning on larger models in downstream applications: the
core lies in the effective utilization of data and curriculum strategy. Take
animated sticker generation (ASG) as a case study, we first construct a
discrete frame generation network for stickers with low frame rates, ensuring
that its parameters meet the requirements of model training under constrained
resources. In order to provide data support for models trained from scratch, we
come up with a dual-mask based data utilization strategy, which manages to
improve the availability and expand the diversity of limited data. To
facilitate convergence under dual-mask situation, we propose a
difficulty-adaptive curriculum learning method, which decomposes the sample
entropy into static and adaptive components so as to obtain samples from easy
to difficult. The experiment demonstrates that our resource-efficient dual-mask
training framework is quantitatively and qualitatively superior to
efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the
feasibility of our method on downstream tasks under constrained resources. Code
will be available.Summary
AI-Generated Summary