ChatPaper.aiChatPaper

RDTF: Marco de Entrenamiento de Doble Máscara Eficiente en Recursos para la Generación de Pegatinas Animadas de Múltiples Fotogramas

RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation

March 22, 2025
Autores: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI

Resumen

Recientemente, se han logrado grandes avances en la tecnología de generación de videos, atrayendo la atención generalizada de los académicos. Para aplicar esta tecnología a aplicaciones posteriores en condiciones de recursos limitados, los investigadores suelen ajustar finamente los modelos preentrenados basándose en métodos de ajuste eficiente en parámetros, como Adapter o Lora. Aunque estos métodos pueden transferir el conocimiento del dominio fuente al dominio objetivo, un menor número de parámetros de entrenamiento conduce a una capacidad de ajuste deficiente, y el conocimiento del dominio fuente puede hacer que el proceso de inferencia se desvíe del dominio objetivo. En este artículo, argumentamos que, bajo recursos limitados, entrenar un modelo más pequeño de generación de videos desde cero utilizando solo muestras de nivel millonario puede superar el ajuste eficiente en parámetros en modelos más grandes en aplicaciones posteriores: el núcleo radica en la utilización efectiva de los datos y la estrategia curricular. Tomando la generación de pegatinas animadas (ASG) como un estudio de caso, primero construimos una red de generación de fotogramas discretos para pegatinas con bajas tasas de fotogramas, asegurando que sus parámetros cumplan con los requisitos del entrenamiento del modelo bajo recursos limitados. Para proporcionar soporte de datos a los modelos entrenados desde cero, proponemos una estrategia de utilización de datos basada en doble máscara, que logra mejorar la disponibilidad y ampliar la diversidad de los datos limitados. Para facilitar la convergencia en la situación de doble máscara, proponemos un método de aprendizaje curricular adaptativo a la dificultad, que descompone la entropía de la muestra en componentes estáticos y adaptativos para obtener muestras de fácil a difícil. El experimento demuestra que nuestro marco de entrenamiento eficiente en recursos con doble máscara es cuantitativa y cualitativamente superior a los métodos de ajuste eficiente en parámetros como I2V-Adapter y SimDA, verificando la viabilidad de nuestro método en tareas posteriores bajo recursos limitados. El código estará disponible.
English
Recently, great progress has been made in video generation technology, attracting the widespread attention of scholars. To apply this technology to downstream applications under resource-constrained conditions, researchers usually fine-tune the pre-trained models based on parameter-efficient tuning methods such as Adapter or Lora. Although these methods can transfer the knowledge from the source domain to the target domain, fewer training parameters lead to poor fitting ability, and the knowledge from the source domain may lead to the inference process deviating from the target domain. In this paper, we argue that under constrained resources, training a smaller video generation model from scratch using only million-level samples can outperform parameter-efficient tuning on larger models in downstream applications: the core lies in the effective utilization of data and curriculum strategy. Take animated sticker generation (ASG) as a case study, we first construct a discrete frame generation network for stickers with low frame rates, ensuring that its parameters meet the requirements of model training under constrained resources. In order to provide data support for models trained from scratch, we come up with a dual-mask based data utilization strategy, which manages to improve the availability and expand the diversity of limited data. To facilitate convergence under dual-mask situation, we propose a difficulty-adaptive curriculum learning method, which decomposes the sample entropy into static and adaptive components so as to obtain samples from easy to difficult. The experiment demonstrates that our resource-efficient dual-mask training framework is quantitatively and qualitatively superior to efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the feasibility of our method on downstream tasks under constrained resources. Code will be available.

Summary

AI-Generated Summary

PDF32March 25, 2025