ChatPaper.aiChatPaper

テスト時進化的探索による画像・動画生成のスケーリング

Scaling Image and Video Generation via Test-Time Evolutionary Search

May 23, 2025
著者: Haoran He, Jiajun Liang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Ling Pan
cs.AI

要旨

モデルの事前学習における計算(データとパラメータ)のスケーリングの限界費用が大幅に増加し続ける中、推論時に追加の計算リソースを割り当てることで生成モデルの性能を向上させる手法として、テストタイムスケーリング(TTS)が注目を集めています。TTSは複数の言語タスクで大きな成功を収めていますが、画像やビデオ生成モデル(拡散ベースまたはフローベースのモデル)のテストタイムスケーリングの挙動に関する理解はまだ不十分です。最近の研究では、視覚タスクにおける推論時戦略の探求が始まっていますが、これらのアプローチには重大な制約があります。具体的には、タスク固有の領域に限定されている、スケーラビリティが低い、または報酬の過剰最適化によりサンプルの多様性が犠牲になるといった問題です。本論文では、進化的探索(EvoSearch)という新しい、汎用的で効率的なTTS手法を提案します。EvoSearchは、追加の学習やモデルの拡張を必要とせず、拡散モデルとフローモデルの両方における画像およびビデオ生成のスケーラビリティを効果的に向上させます。EvoSearchは、拡散モデルとフローモデルのテストタイムスケーリングを進化的探索問題として再定式化し、生物進化の原理を活用してノイズ除去の軌跡を効率的に探索・改善します。確率微分方程式によるノイズ除去プロセスに特化して設計された選択と変異のメカニズムを組み込むことで、EvoSearchは集団の多様性を保ちながら、より高品質な子孫を反復的に生成します。画像およびビデオ生成タスクにおける拡散モデルとフローモデルの両方のアーキテクチャを対象とした広範な評価を通じて、我々の手法が既存のアプローチを一貫して上回り、より高い多様性を達成し、未見の評価指標に対しても強い汎化性能を示すことを実証しました。プロジェクトはウェブサイトhttps://tinnerhrhe.github.io/evosearchで公開されています。
English
As the marginal cost of scaling computation (data and parameters) during model pre-training continues to increase substantially, test-time scaling (TTS) has emerged as a promising direction for improving generative model performance by allocating additional computation at inference time. While TTS has demonstrated significant success across multiple language tasks, there remains a notable gap in understanding the test-time scaling behaviors of image and video generative models (diffusion-based or flow-based models). Although recent works have initiated exploration into inference-time strategies for vision tasks, these approaches face critical limitations: being constrained to task-specific domains, exhibiting poor scalability, or falling into reward over-optimization that sacrifices sample diversity. In this paper, we propose Evolutionary Search (EvoSearch), a novel, generalist, and efficient TTS method that effectively enhances the scalability of both image and video generation across diffusion and flow models, without requiring additional training or model expansion. EvoSearch reformulates test-time scaling for diffusion and flow models as an evolutionary search problem, leveraging principles from biological evolution to efficiently explore and refine the denoising trajectory. By incorporating carefully designed selection and mutation mechanisms tailored to the stochastic differential equation denoising process, EvoSearch iteratively generates higher-quality offspring while preserving population diversity. Through extensive evaluation across both diffusion and flow architectures for image and video generation tasks, we demonstrate that our method consistently outperforms existing approaches, achieves higher diversity, and shows strong generalizability to unseen evaluation metrics. Our project is available at the website https://tinnerhrhe.github.io/evosearch.

Summary

AI-Generated Summary

PDF382May 26, 2025