RDTF : Cadre d'Entraînement à Double Masque Économe en Ressources pour la Génération d'Autocollants Animés Multi-images
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
March 22, 2025
Auteurs: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI
Résumé
Récemment, des progrès significatifs ont été réalisés dans la technologie de génération vidéo, attirant l'attention généralisée des chercheurs. Pour appliquer cette technologie à des applications en aval dans des conditions de ressources limitées, les chercheurs procèdent généralement à un ajustement fin des modèles pré-entraînés en utilisant des méthodes d'optimisation paramétrique efficaces telles qu'Adapter ou Lora. Bien que ces méthodes permettent de transférer les connaissances du domaine source au domaine cible, un nombre réduit de paramètres d'entraînement entraîne une faible capacité d'ajustement, et les connaissances du domaine source peuvent conduire à un processus d'inférence qui s'écarte du domaine cible. Dans cet article, nous soutenons que, dans des conditions de ressources limitées, l'entraînement d'un modèle de génération vidéo plus petit à partir de zéro en utilisant seulement des échantillons de l'ordre du million peut surpasser l'optimisation paramétrique efficace sur des modèles plus grands dans les applications en aval : la clé réside dans l'utilisation efficace des données et une stratégie d'apprentissage progressif. Prenons comme étude de cas la génération d'autocollants animés (ASG), nous construisons d'abord un réseau de génération d'images discrètes pour des autocollants à faible taux de rafraîchissement, en veillant à ce que ses paramètres répondent aux exigences de l'entraînement du modèle dans des conditions de ressources limitées. Afin de fournir un support de données pour les modèles entraînés à partir de zéro, nous proposons une stratégie d'utilisation des données basée sur un double masque, qui parvient à améliorer la disponibilité et à élargir la diversité des données limitées. Pour faciliter la convergence dans une situation de double masque, nous proposons une méthode d'apprentissage progressif adaptative à la difficulté, qui décompose l'entropie des échantillons en composantes statiques et adaptatives afin d'obtenir des échantillons allant du plus simple au plus complexe. L'expérience démontre que notre cadre d'entraînement à double masque économe en ressources est quantitativement et qualitativement supérieur aux méthodes d'optimisation paramétrique efficaces telles qu'I2V-Adapter et SimDA, vérifiant ainsi la faisabilité de notre méthode pour les tâches en aval dans des conditions de ressources limitées. Le code sera disponible.
English
Recently, great progress has been made in video generation technology,
attracting the widespread attention of scholars. To apply this technology to
downstream applications under resource-constrained conditions, researchers
usually fine-tune the pre-trained models based on parameter-efficient tuning
methods such as Adapter or Lora. Although these methods can transfer the
knowledge from the source domain to the target domain, fewer training
parameters lead to poor fitting ability, and the knowledge from the source
domain may lead to the inference process deviating from the target domain. In
this paper, we argue that under constrained resources, training a smaller video
generation model from scratch using only million-level samples can outperform
parameter-efficient tuning on larger models in downstream applications: the
core lies in the effective utilization of data and curriculum strategy. Take
animated sticker generation (ASG) as a case study, we first construct a
discrete frame generation network for stickers with low frame rates, ensuring
that its parameters meet the requirements of model training under constrained
resources. In order to provide data support for models trained from scratch, we
come up with a dual-mask based data utilization strategy, which manages to
improve the availability and expand the diversity of limited data. To
facilitate convergence under dual-mask situation, we propose a
difficulty-adaptive curriculum learning method, which decomposes the sample
entropy into static and adaptive components so as to obtain samples from easy
to difficult. The experiment demonstrates that our resource-efficient dual-mask
training framework is quantitatively and qualitatively superior to
efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the
feasibility of our method on downstream tasks under constrained resources. Code
will be available.Summary
AI-Generated Summary