Лумис: Реконструкция процесса живописи
Loomis Painter: Reconstructing the Painting Process
November 21, 2025
Авторы: Markus Pobitzer, Chang Liu, Chenyi Zhuang, Teng Long, Bin Ren, Nicu Sebe
cs.AI
Аннотация
Пошаговые руководства по рисованию крайне важны для освоения художественных техник, однако существующие видеоматериалы (например, на YouTube) лишены интерактивности и персонализации. Хотя современные генеративные модели достигли прогресса в синтезе художественных изображений, они плохо обобщаются для разных материалов и часто демонстрируют временные или структурные inconsistencies, что препятствует точному воспроизведению творческого процесса человека. Для решения этой проблемы мы предлагаем унифицированную framework для генерации процесса рисования в различных средах с семантически управляемым механизмом стилевого контроля, который встраивает множественные материалы в условное пространство diffusion-моделей и использует кросс-медийную стилевую аугментацию. Это обеспечивает согласованную эволюцию текстуры и перенос процесса между стилями. Стратегия обучения с обратным рисованием дополнительно гарантирует плавную генерацию, соответствующую человеческому подходу. Мы также создали масштабный dataset реальных процессов рисования и провели оценку кросс-медийской согласованности, временной когерентности и fidelity финального изображения, достигнув высоких результатов по метрикам LPIPS, DINO и CLIP. Наконец, наша кривая Perceptual Distance Profile (PDP) количественно моделирует творческую последовательность — композицию, цветовые пятна и детализацию, — отражая прогрессию человеческого художественного процесса.
English
Step-by-step painting tutorials are vital for learning artistic techniques, but existing video resources (e.g., YouTube) lack interactivity and personalization. While recent generative models have advanced artistic image synthesis, they struggle to generalize across media and often show temporal or structural inconsistencies, hindering faithful reproduction of human creative workflows. To address this, we propose a unified framework for multi-media painting process generation with a semantics-driven style control mechanism that embeds multiple media into a diffusion models conditional space and uses cross-medium style augmentation. This enables consistent texture evolution and process transfer across styles. A reverse-painting training strategy further ensures smooth, human-aligned generation. We also build a large-scale dataset of real painting processes and evaluate cross-media consistency, temporal coherence, and final-image fidelity, achieving strong results on LPIPS, DINO, and CLIP metrics. Finally, our Perceptual Distance Profile (PDP) curve quantitatively models the creative sequence, i.e., composition, color blocking, and detail refinement, mirroring human artistic progression.