EffectMaker: Vereinheitlichung von logischem Schließen und Generierung für die maßgeschneiderte Erstellung visueller Effekte

Zusammenfassung

Visuelle Effekte (VFX) sind entscheidend, um die Ausdruckskraft und Kreativität von Videoinhalten zu steigern, doch die Produktion hochwertiger Effekte erfordert typischerweise Expertenwissen und kostspielige Produktionspipelines. Bestehende AIGC-Systeme stehen bei der VFX-Generierung vor erheblichen Herausforderungen aufgrund der Knappheit effektspezifischer Daten und der inhärenten Schwierigkeit, übernatürliche oder stilisierte Effekte zu modellieren. Darüber hinaus erfordern diese Ansätze oft ein Effekt-spezifisches Fine-Tuning, was ihre Skalierbarkeit und Generalisierbarkeit auf neue VFX stark einschränkt. In dieser Arbeit präsentieren wir EffectMaker, ein einheitliches Reasoning-Generierung-Framework, das referenzbasierte VFX-Anpassung ermöglicht. EffectMaker nutzt ein multimodales Großsprachenmodell, um hochlevelige Effektsemantik zu interpretieren und abzuleiten, wie diese an ein Zielsubjekt angepasst werden sollten, während ein Diffusion Transformer mittels In-Context-Learning feingranulare visuelle Hinweise aus Referenzvideos erfasst. Diese beiden Komponenten bilden einen semantisch-visuellen Zwei-Wege-Leitmechanismus, der eine präzise, steuerbare und effektkonsistente Synthese ohne Effekt-spezifisches Fine-Tuning ermöglicht. Zudem erstellen wir EffectData, den größten hochwertigen synthetischen Datensatz mit 130.000 Videos aus 3.000 VFX-Kategorien, um Generalisierung und Skalierbarkeit zu verbessern. Experimente zeigen, dass EffectMaker state-of-the-art Baseline-Methoden in visueller Qualität und Effektkonsistenz übertrifft und ein skalierbares, flexibles Paradigma für maßgeschneiderte VFX-Generierung bietet. Projektseite: https://effectmaker.github.io

English

Visual effects (VFX) are essential for enhancing the expressiveness and creativity of video content, yet producing high-quality effects typically requires expert knowledge and costly production pipelines. Existing AIGC systems face significant challenges in VFX generation due to the scarcity of effect-specific data and the inherent difficulty of modeling supernatural or stylized effects. Moreover, these approaches often require per-effect fine-tuning, which severely limits their scalability and generalization to novel VFX. In this work, we present EffectMaker, a unified reasoning-generation framework that enables reference-based VFX customization. EffectMaker employs a multimodal large language model to interpret high-level effect semantics and reason about how they should adapt to a target subject, while a diffusion transformer leverages in-context learning to capture fine-grained visual cues from reference videos. These two components form a semantic-visual dual-path guidance mechanism that enables accurate, controllable, and effect-consistent synthesis without per-effect fine-tuning. Furthermore, we construct EffectData, the largest high-quality synthetic dataset containing 130k videos across 3k VFX categories, to improve generalization and scalability. Experiments show that EffectMaker achieves superior visual quality and effect consistency over state-of-the-art baselines, offering a scalable and flexible paradigm for customized VFX generation. Project page: https://effectmaker.github.io

EffectMaker: Vereinheitlichung von logischem Schließen und Generierung für die maßgeschneiderte Erstellung visueller Effekte

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

Zusammenfassung

Support