RDTF:マルチフレームアニメーションステッカー生成のためのリソース効率型デュアルマスク学習フレームワーク
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation
March 22, 2025
著者: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang
cs.AI
要旨
近年、ビデオ生成技術において大きな進展が見られ、研究者の幅広い注目を集めています。この技術をリソースが制約された条件下での下流アプリケーションに適用するため、研究者たちは通常、AdapterやLoraなどのパラメータ効率の良いチューニング手法に基づいて事前学習済みモデルをファインチューニングします。これらの手法はソースドメインからターゲットドメインへの知識転移を可能にしますが、訓練パラメータが少ないためフィッティング能力が低く、ソースドメインからの知識が推論プロセスをターゲットドメインから逸脱させる可能性があります。本論文では、制約されたリソース下において、数百万レベルのサンプルのみを使用してゼロからより小さなビデオ生成モデルを訓練することが、より大きなモデルに対するパラメータ効率の良いチューニングを下流アプリケーションで上回ることを主張します:その核心はデータとカリキュラム戦略の効果的な活用にあります。アニメーションステッカー生成(ASG)をケーススタディとして、まず低フレームレートのステッカー用の離散フレーム生成ネットワークを構築し、そのパラメータが制約されたリソース下でのモデル訓練の要件を満たすことを保証します。ゼロから訓練されたモデルのためのデータサポートを提供するために、デュアルマスクに基づくデータ活用戦略を考案し、限られたデータの可用性を向上させ、多様性を拡大します。デュアルマスク状況下での収束を促進するために、難易度適応型カリキュラム学習手法を提案し、サンプルのエントロピーを静的および適応的コンポーネントに分解することで、容易なものから難しいものへとサンプルを取得します。実験により、リソース効率の良いデュアルマスク訓練フレームワークがI2V-AdapterやSimDAなどの効率的なパラメータチューニング手法を量的・質的に上回り、制約されたリソース下での下流タスクにおける本手法の実現可能性を検証しました。コードは公開予定です。
English
Recently, great progress has been made in video generation technology,
attracting the widespread attention of scholars. To apply this technology to
downstream applications under resource-constrained conditions, researchers
usually fine-tune the pre-trained models based on parameter-efficient tuning
methods such as Adapter or Lora. Although these methods can transfer the
knowledge from the source domain to the target domain, fewer training
parameters lead to poor fitting ability, and the knowledge from the source
domain may lead to the inference process deviating from the target domain. In
this paper, we argue that under constrained resources, training a smaller video
generation model from scratch using only million-level samples can outperform
parameter-efficient tuning on larger models in downstream applications: the
core lies in the effective utilization of data and curriculum strategy. Take
animated sticker generation (ASG) as a case study, we first construct a
discrete frame generation network for stickers with low frame rates, ensuring
that its parameters meet the requirements of model training under constrained
resources. In order to provide data support for models trained from scratch, we
come up with a dual-mask based data utilization strategy, which manages to
improve the availability and expand the diversity of limited data. To
facilitate convergence under dual-mask situation, we propose a
difficulty-adaptive curriculum learning method, which decomposes the sample
entropy into static and adaptive components so as to obtain samples from easy
to difficult. The experiment demonstrates that our resource-efficient dual-mask
training framework is quantitatively and qualitatively superior to
efficient-parameter tuning methods such as I2V-Adapter and SimDA, verifying the
feasibility of our method on downstream tasks under constrained resources. Code
will be available.Summary
AI-Generated Summary