FASH-iCNN: Tornando a Identidade Editorial da Moda Inspecionável por Meio de Sondagem Multimodal com CNN

Resumo

Os sistemas de IA de moda codificam rotineiramente a lógica estética de casas específicas, editores e momentos históricos sem a devida divulgação. Apresentamos o FASH-iCNN, um sistema multimodal treinado em 87.547 imagens de desfiles da Vogue de 15 casas de moda entre 1991-2024, que torna esta lógica cultural inspecionável. Dada uma fotografia de uma peça de vestuário, o sistema recupera qual casa a produziu, a que época pertence e qual tradição cromática reflete. Um modelo baseado apenas na peça de roupa identifica a casa de moda com 78,2% de acurácia top-1 em 14 casas, a década com 88,6% top-1 e o ano específico com 58,3% top-1 em 34 anos, com um erro médio de apenas 2,2 anos. A investigação sobre quais canais visuais carregam este sinal revela uma dissociação acentuada: remover a cor custa apenas 10,6 pontos percentuais (pp) na precisão da identidade da casa, enquanto remover a textura custa 37,6 pp, estabelecendo a textura e a luminância como os principais portadores da identidade editorial. O FASH-iCNN trata a cultura editorial como o sinal, e não como ruído de fundo, identificando quais casas, épocas e tradições cromáticas moldaram cada resultado, para que os usuários possam ver não apenas o que o sistema prevê, mas quais casas, editores e momentos históricos estão codificados nessa previsão.

English

Fashion AI systems routinely encode the aesthetic logic of specific houses, editors, and historical moments without disclosing it. We present FASH-iCNN, a multimodal system trained on 87,547 Vogue runway images across 15 fashion houses spanning 1991-2024 that makes this cultural logic inspectable. Given a photograph of a garment, the system recovers which house produced it, which era it belongs to, and which color tradition it reflects. A clothing-only model identifies the fashion house at 78.2% top-1 across 14 houses, the decade at 88.6% top-1, and the specific year at 58.3% top-1 across 34 years with a mean error of just 2.2 years. Probing which visual channels carry this signal reveals a sharp dissociation: removing color costs only 10.6pp of house identity accuracy, while removing texture costs 37.6pp, establishing texture and luminance as the primary carriers of editorial identity. FASH-iCNN treats editorial culture as the signal rather than background noise, identifying which houses, eras, and color traditions shaped each output so that users can see not just what the system predicts but which houses, editors, and historical moments are encoded in that prediction.

FASH-iCNN: Tornando a Identidade Editorial da Moda Inspecionável por Meio de Sondagem Multimodal com CNN

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Resumo

Support