RDTF: Estrutura de Treinamento de Dupla Máscara Eficiente em Recursos para Geração de Adesivos Animados com Múltiplos Quadros

Resumo

Recentemente, grandes avanços foram alcançados na tecnologia de geração de vídeos, atraindo a atenção generalizada de estudiosos. Para aplicar essa tecnologia em aplicações downstream sob condições de recursos limitados, os pesquisadores geralmente ajustam os modelos pré-treinados com base em métodos de ajuste eficiente de parâmetros, como Adapter ou Lora. Embora esses métodos possam transferir o conhecimento do domínio de origem para o domínio de destino, um número menor de parâmetros de treinamento leva a uma capacidade de ajuste deficiente, e o conhecimento do domínio de origem pode fazer com que o processo de inferência se desvie do domínio de destino. Neste artigo, argumentamos que, sob recursos limitados, treinar um modelo menor de geração de vídeos do zero, utilizando apenas amostras em escala de milhões, pode superar o ajuste eficiente de parâmetros em modelos maiores em aplicações downstream: o segredo está na utilização eficaz dos dados e na estratégia de currículo. Tomando a geração de adesivos animados (ASG) como estudo de caso, primeiro construímos uma rede de geração de quadros discretos para adesivos com baixa taxa de quadros, garantindo que seus parâmetros atendam aos requisitos de treinamento do modelo sob recursos limitados. Para fornecer suporte de dados para modelos treinados do zero, propomos uma estratégia de utilização de dados baseada em dupla máscara, que consegue melhorar a disponibilidade e expandir a diversidade dos dados limitados. Para facilitar a convergência sob a situação de dupla máscara, propomos um método de aprendizado de currículo adaptativo à dificuldade, que decompõe a entropia da amostra em componentes estáticos e adaptativos, de modo a obter amostras do fácil para o difícil. O experimento demonstra que nossa estrutura de treinamento de dupla máscara eficiente em recursos é quantitativa e qualitativamente superior a métodos de ajuste eficiente de parâmetros, como I2V-Adapter e SimDA, verificando a viabilidade de nosso método em tarefas downstream sob recursos limitados. O código estará disponível.

English

Recently, great progress has been made in video generation technology, attracting the widespread attention of scholars. To apply this technology to downstream applications under resource-constrained conditions, researchers usually fine-tune the pre-trained models based on parameter-efficient tuning methods such as Adapter or Lora. Although these methods can transfer the knowledge from the source domain to the target domain, fewer training parameters lead to poor fitting ability, and the knowledge from the source domain may lead to the inference process deviating from the target domain. In this paper, we argue that under constrained resources, training a smaller video generation model from scratch using only million-level samples can outperform parameter-efficient tuning on larger models in downstream applications: the core lies in the effective utilization of data and curriculum strategy. Take animated sticker generation (ASG) as a case study, we first construct a discrete frame generation network for stickers with low frame rates, ensuring that its parameters meet the requirements of model training under constrained resources. In order to provide data support for models trained from scratch, we come up with a dual-mask based data utilization strategy, which manages to improve the availability and expand the diversity of limited data. To facilitate convergence under dual-mask situation, we propose a difficulty-adaptive curriculum learning method, which decomposes the sample entropy into static and adaptive components so as to obtain samples from easy to difficult. The experiment demonstrates that our resource-efficient dual-mask training framework is quantitatively and qualitatively superior to efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the feasibility of our method on downstream tasks under constrained resources. Code will be available.

RDTF: Estrutura de Treinamento de Dupla Máscara Eficiente em Recursos para Geração de Adesivos Animados com Múltiplos Quadros

RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation

Resumo

Support