FASH-iCNN : Rendre l'identité éditoriale de la mode inspectable par sondage multimodal de CNN

Résumé

Les systèmes d'IA de la mode encodent systématiquement la logique esthétique de maisons spécifiques, de rédacteurs en chef et de moments historiques sans la divulguer. Nous présentons FASH-iCNN, un système multimodal entraîné sur 87 547 images de défilés Vogue couvrant 15 maisons de couture entre 1991 et 2024, qui rend cette logique culturelle inspectable. À partir d'une photographie d'un vêtement, le système identifie la maison qui l'a produit, l'époque à laquelle il appartient et la tradition chromatique qu'il reflète. Un modèle utilisant uniquement les vêtements identifie la maison de mode avec une précision top-1 de 78,2 % sur 14 maisons, la décennie avec 88,6 % top-1, et l'année spécifique avec 58,3 % top-1 sur 34 années, avec une erreur moyenne de seulement 2,2 ans. L'analyse des canaux visuels porteurs de ce signal révèle une dissociation nette : supprimer la couleur ne réduit la précision d'identification de la maison que de 10,6 points de pourcentage, tandis que supprimer la texture en coûte 37,6 pp, établissant la texture et la luminance comme les principaux vecteurs de l'identité éditoriale. FASH-iCNN traite la culture éditoriale comme un signal plutôt que comme un bruit de fond, identifiant quelles maisons, époques et traditions chromatiques ont influencé chaque résultat, permettant aux utilisateurs de voir non seulement ce que le système prédit, mais aussi quelles maisons, rédacteurs en chef et moments historiques sont encodés dans cette prédiction.

English

Fashion AI systems routinely encode the aesthetic logic of specific houses, editors, and historical moments without disclosing it. We present FASH-iCNN, a multimodal system trained on 87,547 Vogue runway images across 15 fashion houses spanning 1991-2024 that makes this cultural logic inspectable. Given a photograph of a garment, the system recovers which house produced it, which era it belongs to, and which color tradition it reflects. A clothing-only model identifies the fashion house at 78.2% top-1 across 14 houses, the decade at 88.6% top-1, and the specific year at 58.3% top-1 across 34 years with a mean error of just 2.2 years. Probing which visual channels carry this signal reveals a sharp dissociation: removing color costs only 10.6pp of house identity accuracy, while removing texture costs 37.6pp, establishing texture and luminance as the primary carriers of editorial identity. FASH-iCNN treats editorial culture as the signal rather than background noise, identifying which houses, eras, and color traditions shaped each output so that users can see not just what the system predicts but which houses, editors, and historical moments are encoded in that prediction.

FASH-iCNN : Rendre l'identité éditoriale de la mode inspectable par sondage multimodal de CNN

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Résumé

Support