ChatPaper.aiChatPaper

Loomis Painter: Rekonstruktion des Malprozesses

Loomis Painter: Reconstructing the Painting Process

November 21, 2025
papers.authors: Markus Pobitzer, Chang Liu, Chenyi Zhuang, Teng Long, Bin Ren, Nicu Sebe
cs.AI

papers.abstract

Schritt-für-Schritt-Maltutorials sind entscheidend für das Erlernen künstlerischer Techniken, doch bestehende Videoressourcen (z.B. YouTube) mangelt es an Interaktivität und Personalisierung. Während neuere generative Modelle die künstlerische Bildsynthese vorangetrieben haben, leiden sie unter mangelnder Generalisierbarkeit über verschiedene Medien hinweg und zeigen oft zeitliche oder strukturelle Inkonsistenzen, was die authentische Nachbildung menschlicher kreativer Arbeitsabläufe behindert. Um dies zu lösen, schlagen wir ein einheitliches Framework zur Erzeugung von Malprozessen über mehrere Medien hinweg vor, mit einem semantikgesteuerten Stilsteuerungsmechanismus, der mehrere Medien in den Konditionalraum von Diffusionsmodellen einbettet und cross-mediale Stilaugmentierung nutzt. Dies ermöglicht konsistente Texturentwicklung und Prozessübertragung zwischen Stilen. Eine Reverse-Painting-Trainingsstrategie gewährleistet zudem eine flüssige, menschenähnliche Generierung. Wir erstellen auch einen umfangreichen Datensatz realer Malprozesse und evaluieren cross-mediale Konsistenz, zeitliche Kohärenz und Finalbild-Treue, mit starken Ergebnissen bei LPIPS-, DINO- und CLIP-Metriken. Schließlich modelliert unsere Perceptual Distance Profile (PDP)-Kurve die kreative Abfolge – Komposition, Farbflächensetzung und Detailverfeinerung – quantitativ und spiegelt so den menschlichen künstlerischen Fortschritt wider.
English
Step-by-step painting tutorials are vital for learning artistic techniques, but existing video resources (e.g., YouTube) lack interactivity and personalization. While recent generative models have advanced artistic image synthesis, they struggle to generalize across media and often show temporal or structural inconsistencies, hindering faithful reproduction of human creative workflows. To address this, we propose a unified framework for multi-media painting process generation with a semantics-driven style control mechanism that embeds multiple media into a diffusion models conditional space and uses cross-medium style augmentation. This enables consistent texture evolution and process transfer across styles. A reverse-painting training strategy further ensures smooth, human-aligned generation. We also build a large-scale dataset of real painting processes and evaluate cross-media consistency, temporal coherence, and final-image fidelity, achieving strong results on LPIPS, DINO, and CLIP metrics. Finally, our Perceptual Distance Profile (PDP) curve quantitatively models the creative sequence, i.e., composition, color blocking, and detail refinement, mirroring human artistic progression.
PDF152December 1, 2025