RDTF: Estrutura de Treinamento de Dupla Máscara Eficiente em Recursos para Geração de Adesivos Animados com Múltiplos Quadros
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
March 22, 2025
Autores: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI
Resumo
Recentemente, grandes avanços foram alcançados na tecnologia de geração de vídeos, atraindo a atenção generalizada de estudiosos. Para aplicar essa tecnologia em aplicações downstream sob condições de recursos limitados, os pesquisadores geralmente ajustam os modelos pré-treinados com base em métodos de ajuste eficiente de parâmetros, como Adapter ou Lora. Embora esses métodos possam transferir o conhecimento do domínio de origem para o domínio de destino, um número menor de parâmetros de treinamento leva a uma capacidade de ajuste deficiente, e o conhecimento do domínio de origem pode fazer com que o processo de inferência se desvie do domínio de destino. Neste artigo, argumentamos que, sob recursos limitados, treinar um modelo menor de geração de vídeos do zero, utilizando apenas amostras em escala de milhões, pode superar o ajuste eficiente de parâmetros em modelos maiores em aplicações downstream: o segredo está na utilização eficaz dos dados e na estratégia de currículo. Tomando a geração de adesivos animados (ASG) como estudo de caso, primeiro construímos uma rede de geração de quadros discretos para adesivos com baixa taxa de quadros, garantindo que seus parâmetros atendam aos requisitos de treinamento do modelo sob recursos limitados. Para fornecer suporte de dados para modelos treinados do zero, propomos uma estratégia de utilização de dados baseada em dupla máscara, que consegue melhorar a disponibilidade e expandir a diversidade dos dados limitados. Para facilitar a convergência sob a situação de dupla máscara, propomos um método de aprendizado de currículo adaptativo à dificuldade, que decompõe a entropia da amostra em componentes estáticos e adaptativos, de modo a obter amostras do fácil para o difícil. O experimento demonstra que nossa estrutura de treinamento de dupla máscara eficiente em recursos é quantitativa e qualitativamente superior a métodos de ajuste eficiente de parâmetros, como I2V-Adapter e SimDA, verificando a viabilidade de nosso método em tarefas downstream sob recursos limitados. O código estará disponível.
English
Recently, great progress has been made in video generation technology,
attracting the widespread attention of scholars. To apply this technology to
downstream applications under resource-constrained conditions, researchers
usually fine-tune the pre-trained models based on parameter-efficient tuning
methods such as Adapter or Lora. Although these methods can transfer the
knowledge from the source domain to the target domain, fewer training
parameters lead to poor fitting ability, and the knowledge from the source
domain may lead to the inference process deviating from the target domain. In
this paper, we argue that under constrained resources, training a smaller video
generation model from scratch using only million-level samples can outperform
parameter-efficient tuning on larger models in downstream applications: the
core lies in the effective utilization of data and curriculum strategy. Take
animated sticker generation (ASG) as a case study, we first construct a
discrete frame generation network for stickers with low frame rates, ensuring
that its parameters meet the requirements of model training under constrained
resources. In order to provide data support for models trained from scratch, we
come up with a dual-mask based data utilization strategy, which manages to
improve the availability and expand the diversity of limited data. To
facilitate convergence under dual-mask situation, we propose a
difficulty-adaptive curriculum learning method, which decomposes the sample
entropy into static and adaptive components so as to obtain samples from easy
to difficult. The experiment demonstrates that our resource-efficient dual-mask
training framework is quantitatively and qualitatively superior to
efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the
feasibility of our method on downstream tasks under constrained resources. Code
will be available.Summary
AI-Generated Summary