ChatPaper.aiChatPaper

Loomis Painter: Reconstructie van het Schilderproces

Loomis Painter: Reconstructing the Painting Process

November 21, 2025
Auteurs: Markus Pobitzer, Chang Liu, Chenyi Zhuang, Teng Long, Bin Ren, Nicu Sebe
cs.AI

Samenvatting

Stapsgewijze schildertutorials zijn essentieel voor het aanleren van artistieke technieken, maar bestaande videobronnen (bijv. YouTube) missen interactiviteit en personalisatie. Hoewel recente generatieve modellen vooruitgang hebben geboekt in artistieke beeld synthese, hebben zij moeite met generaliseren over verschillende media en vertonen zij vaak temporele of structurele inconsistenties, wat een getrouwe weergave van menselijke creatieve workflows belemmert. Om dit aan te pakken, stellen wij een uniform raamwerk voor voor het genereren van multimediale schilderprocessen met een semantiek-gestuurd stijlcontrolemechanisme. Dit mechanisme incorporeert meerdere media in de conditionele ruimte van diffusiemodellen en gebruikt stijlaugmentatie tussen media. Hierdoor worden consistente textuurevolutie en procesoverdracht tussen stijlen mogelijk gemaakt. Een omgekeerd-schilder trainingsstrategie zorgt verder voor een vloeiende, op menselijk handelen afgestemde generatie. Wij hebben ook een grootschalige dataset van echte schilderprocessen samengesteld en evalueren consistentie tussen media, temporele coherentie en beeldtrouw, waarbij sterke resultaten worden behaald op LPIPS-, DINO- en CLIP-metrieken. Ten slotte modelleert onze Perceptuele Afstandsprofiel (PDP)-curve kwantitatief de creatieve sequentie – compositie, kleurvlakken en detailverfijning – wat de artistieke voortgang van de mens weerspiegelt.
English
Step-by-step painting tutorials are vital for learning artistic techniques, but existing video resources (e.g., YouTube) lack interactivity and personalization. While recent generative models have advanced artistic image synthesis, they struggle to generalize across media and often show temporal or structural inconsistencies, hindering faithful reproduction of human creative workflows. To address this, we propose a unified framework for multi-media painting process generation with a semantics-driven style control mechanism that embeds multiple media into a diffusion models conditional space and uses cross-medium style augmentation. This enables consistent texture evolution and process transfer across styles. A reverse-painting training strategy further ensures smooth, human-aligned generation. We also build a large-scale dataset of real painting processes and evaluate cross-media consistency, temporal coherence, and final-image fidelity, achieving strong results on LPIPS, DINO, and CLIP metrics. Finally, our Perceptual Distance Profile (PDP) curve quantitatively models the creative sequence, i.e., composition, color blocking, and detail refinement, mirroring human artistic progression.
PDF152December 1, 2025