FASH-iCNN: Rendere ispezionabile l'identità editoriale della moda attraverso il probing multimodale di CNN

Abstract

I sistemi di intelligenza artificiale per la moda codificano abitualmente la logica estetica di case specifiche, editori e momenti storici senza renderla nota. Presentiamo FASH-iCNN, un sistema multimodale addestrato su 87.547 immagini di sfilate di Vogue relative a 15 case di moda dal 1991 al 2024, che rende questa logica culturale ispezionabile. Data una fotografia di un capo d'abbigliamento, il sistema identifica quale casa lo ha prodotto, a quale epoca appartiene e quale tradizione cromatica riflette. Un modello basato esclusivamente sugli abiti identifica la casa di moda con una precisione top-1 del 78,2% su 14 case, il decennio con l'88,6% top-1 e l'anno specifico con il 58,3% top-1 su 34 anni, con un errore medio di soli 2,2 anni. L'analisi di quali canali visivi veicolino questo segnale rivela una netta dissociazione: rimuovere il colore costa solo 10,6 punti percentuali di accuratezza nell'identità della casa, mentre rimuovere la tessitura ne costa 37,6, stabilendo che tessitura e luminanza sono i principali vettori dell'identità editoriale. FASH-iCNN tratta la cultura editoriale come segnale piuttosto che come rumore di fondo, identificando quali case, epoche e tradizioni cromatiche hanno plasmato ogni output, consentendo agli utenti di vedere non solo cosa il sistema predice, ma anche quali case, editori e momenti storici sono codificati in quella previsione.

English

Fashion AI systems routinely encode the aesthetic logic of specific houses, editors, and historical moments without disclosing it. We present FASH-iCNN, a multimodal system trained on 87,547 Vogue runway images across 15 fashion houses spanning 1991-2024 that makes this cultural logic inspectable. Given a photograph of a garment, the system recovers which house produced it, which era it belongs to, and which color tradition it reflects. A clothing-only model identifies the fashion house at 78.2% top-1 across 14 houses, the decade at 88.6% top-1, and the specific year at 58.3% top-1 across 34 years with a mean error of just 2.2 years. Probing which visual channels carry this signal reveals a sharp dissociation: removing color costs only 10.6pp of house identity accuracy, while removing texture costs 37.6pp, establishing texture and luminance as the primary carriers of editorial identity. FASH-iCNN treats editorial culture as the signal rather than background noise, identifying which houses, eras, and color traditions shaped each output so that users can see not just what the system predicts but which houses, editors, and historical moments are encoded in that prediction.

FASH-iCNN: Rendere ispezionabile l'identità editoriale della moda attraverso il probing multimodale di CNN

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Abstract

Support