FASH-iCNN: Обеспечение проверяемости редакторской моды через мультимодальное зондирование сверточной нейронной сети

Аннотация

Системы искусственного интеллекта в сфере моды регулярно кодируют эстетическую логику конкретных домов моды, редакторов и исторических периодов, не раскрывая её. Мы представляем FASH-iCNN, мультимодальную систему, обученную на 87 547 изображениях с показов Vogue от 15 домов моды за период с 1991 по 2024 год, которая делает эту культурную логику доступной для анализа. Получив фотографию предмета одежды, система определяет, какой дом моды его создал, к какой эпохе он принадлежит и какую цветовую традицию отражает. Модель, работающая только с изображением одежды, идентифицирует дом моды с точностью 78,2% (top-1) для 14 домов, десятилетие — с точностью 88,6% (top-1), а конкретный год — с точностью 58,3% (top-1) за 34 года со средней ошибкой всего 2,2 года. Исследование визуальных каналов, несущих этот сигнал, выявляет чёткое различие: удаление цвета снижает точность идентификации дома моды лишь на 10,6 п.п., тогда как удаление текстуры снижает её на 37,6 п.п., что подтверждает текстуру и яркость в качестве основных носителей редакционной идентичности. FASH-iCNN рассматривает редакционную культуру как сигнал, а не как фоновый шум, определяя, какие дома моды, эпохи и цветовые традиции повлияли на каждый результат, чтобы пользователи могли видеть не только прогноз системы, но и то, какие дома моды, редакторы и исторические моменты закодированы в этом прогнозе.

English

Fashion AI systems routinely encode the aesthetic logic of specific houses, editors, and historical moments without disclosing it. We present FASH-iCNN, a multimodal system trained on 87,547 Vogue runway images across 15 fashion houses spanning 1991-2024 that makes this cultural logic inspectable. Given a photograph of a garment, the system recovers which house produced it, which era it belongs to, and which color tradition it reflects. A clothing-only model identifies the fashion house at 78.2% top-1 across 14 houses, the decade at 88.6% top-1, and the specific year at 58.3% top-1 across 34 years with a mean error of just 2.2 years. Probing which visual channels carry this signal reveals a sharp dissociation: removing color costs only 10.6pp of house identity accuracy, while removing texture costs 37.6pp, establishing texture and luminance as the primary carriers of editorial identity. FASH-iCNN treats editorial culture as the signal rather than background noise, identifying which houses, eras, and color traditions shaped each output so that users can see not just what the system predicts but which houses, editors, and historical moments are encoded in that prediction.

FASH-iCNN: Обеспечение проверяемости редакторской моды через мультимодальное зондирование сверточной нейронной сети

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Аннотация

Support