FASH-iCNN: Haciendo Inspeccionable la Identidad de la Moda Editorial Mediante Sondeo Multimodal con CNN

Resumen

Los sistemas de IA de moda codifican rutinariamente la lógica estética de casas de moda específicas, editores y momentos históricos sin revelarla. Presentamos FASH-iCNN, un sistema multimodal entrenado con 87.547 imágenes de pasarela de Vogue de 15 casas de moda entre 1991 y 2024 que hace esta lógica cultural inspeccionable. Dada una fotografía de una prenda, el sistema identifica qué casa la produjo, a qué época pertenece y qué tradición cromática refleja. Un modelo que utiliza solo la prenda identifica la casa de moda con un 78,2% de precisión top-1 en 14 casas, la década con un 88,6% top-1 y el año específico con un 58,3% top-1 en 34 años, con un error medio de solo 2,2 años. Al investigar qué canales visuales portan esta señal, se revela una clara disociación: eliminar el color solo reduce la precisión de identidad de la casa en 10,6 puntos porcentuales, mientras que eliminar la textura la reduce en 37,6 pp, estableciendo la textura y la luminancia como los principales portadores de la identidad editorial. FASH-iCNN trata la cultura editorial como la señal y no como ruido de fondo, identificando qué casas, épocas y tradiciones cromáticas dieron forma a cada resultado para que los usuarios puedan ver no solo qué predice el sistema, sino también qué casas, editores y momentos históricos están codificados en esa predicción.

English

Fashion AI systems routinely encode the aesthetic logic of specific houses, editors, and historical moments without disclosing it. We present FASH-iCNN, a multimodal system trained on 87,547 Vogue runway images across 15 fashion houses spanning 1991-2024 that makes this cultural logic inspectable. Given a photograph of a garment, the system recovers which house produced it, which era it belongs to, and which color tradition it reflects. A clothing-only model identifies the fashion house at 78.2% top-1 across 14 houses, the decade at 88.6% top-1, and the specific year at 58.3% top-1 across 34 years with a mean error of just 2.2 years. Probing which visual channels carry this signal reveals a sharp dissociation: removing color costs only 10.6pp of house identity accuracy, while removing texture costs 37.6pp, establishing texture and luminance as the primary carriers of editorial identity. FASH-iCNN treats editorial culture as the signal rather than background noise, identifying which houses, eras, and color traditions shaped each output so that users can see not just what the system predicts but which houses, editors, and historical moments are encoded in that prediction.

FASH-iCNN: Haciendo Inspeccionable la Identidad de la Moda Editorial Mediante Sondeo Multimodal con CNN

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Resumen

Support