EffectMaker : Unification du raisonnement et de la génération pour la création d'effets visuels personnalisés

Résumé

Les effets visuels (VFX) sont essentiels pour renforcer l'expressivité et la créativité des contenus vidéo, mais la production d'effets de haute qualité nécessite généralement des connaissances expertes et des chaînes de production coûteuses. Les systèmes AIGC existants rencontrent des défis significatifs dans la génération de VFX en raison de la rareté des données spécifiques aux effets et de la difficulté inhérente à modéliser des effets surnaturels ou stylisés. De plus, ces approches nécessitent souvent un ajustement fin par effet, ce qui limite considérablement leur évolutivité et leur généralisation à de nouveaux VFX. Dans ce travail, nous présentons EffectMaker, un cadre unifié de raisonnement-génération qui permet la personnalisation de VFX basée sur une référence. EffectMaker utilise un modèle de langage multimodal pour interpréter la sémantique de haut niveau des effets et raisonner sur la manière dont ils devraient s'adapter à un sujet cible, tandis qu'un transformeur de diffusion exploite l'apprentissage en contexte pour capturer des indices visuels fins à partir de vidéos de référence. Ces deux composants forment un mécanisme de guidage double voie sémantique-visuelle qui permet une synthèse précise, contrôlable et cohérente avec l'effet, sans ajustement fin par effet. Par ailleurs, nous avons constitué EffectData, le plus grand ensemble de données synthétiques de haute qualité contenant 130 000 vidéos couvrant 3 000 catégories de VFX, pour améliorer la généralisation et l'évolutivité. Les expériences montrent qu'EffectMaker atteint une qualité visuelle et une cohérence des effets supérieures aux meilleures méthodes de référence, offrant un paradigme évolutif et flexible pour la génération personnalisée de VFX. Page du projet : https://effectmaker.github.io

English

Visual effects (VFX) are essential for enhancing the expressiveness and creativity of video content, yet producing high-quality effects typically requires expert knowledge and costly production pipelines. Existing AIGC systems face significant challenges in VFX generation due to the scarcity of effect-specific data and the inherent difficulty of modeling supernatural or stylized effects. Moreover, these approaches often require per-effect fine-tuning, which severely limits their scalability and generalization to novel VFX. In this work, we present EffectMaker, a unified reasoning-generation framework that enables reference-based VFX customization. EffectMaker employs a multimodal large language model to interpret high-level effect semantics and reason about how they should adapt to a target subject, while a diffusion transformer leverages in-context learning to capture fine-grained visual cues from reference videos. These two components form a semantic-visual dual-path guidance mechanism that enables accurate, controllable, and effect-consistent synthesis without per-effect fine-tuning. Furthermore, we construct EffectData, the largest high-quality synthetic dataset containing 130k videos across 3k VFX categories, to improve generalization and scalability. Experiments show that EffectMaker achieves superior visual quality and effect consistency over state-of-the-art baselines, offering a scalable and flexible paradigm for customized VFX generation. Project page: https://effectmaker.github.io

EffectMaker : Unification du raisonnement et de la génération pour la création d'effets visuels personnalisés

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

Résumé

Support