ChatPaper.aiChatPaper

FASH-iCNN: 멀티모달 CNN 프로빙을 통해 편집 패션 아이덴티티를 검사 가능하게 만들기

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

April 29, 2026
저자: Morayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt
cs.AI

초록

패션 AI 시스템은 특정 브랜드, 편집자, 역사적 순간의 미학적 논리를 공개하지 않은 채 일상적으로 인코딩합니다. 우리는 이러한 문화적 논리를 검사 가능하게 만드는 FASH-iCNN을 제안합니다. 이 멀티모달 시스템은 1991년부터 2024년까지 15개 패션 하우스의 87,547개 Vogue 런웨이 이미지로 학습되었습니다. 의류 사진이 입력되면 시스템은 해당 의류를 생산한 브랜드, 속한 시대, 반영하는 컬러 전통을 복원합니다. 의류 이미지만 사용한 모델은 14개 브랜드에 대해 78.2%의 Top-1 정확도로 브랜드를, 88.6%의 Top-1 정확도로 시대(10년 단위)를, 34년에 걸쳐 평균 오차가 2.2년에 불과한 58.3%의 Top-1 정확도로 특정 연도를 식별합니다. 어떤 시각적 채널이 이 신호를 전달하는지 분석한 결과 급격한 분리가 확인되었습니다: 색상을 제거하면 브랜드 정체성 정확도가 10.6%p만 하락한 반면, 텍스처를 제거하면 37.6%p가 하락하여 텍스처와 명도가 편집적 정체성의 주요 전달체임을 입증했습니다. FASH-iCNN은 편집 문화를 배경 노이즈가 아닌 신호로 취급하여 각 출력 결과를 형성한 브랜드, 시대, 컬러 전통을 식별함으로써 사용자가 시스템이 예측한 내용뿐만 아니라 해당 예측에 인코딩된 브랜드, 편집자, 역사적 순간을 확인할 수 있게 합니다.
English
Fashion AI systems routinely encode the aesthetic logic of specific houses, editors, and historical moments without disclosing it. We present FASH-iCNN, a multimodal system trained on 87,547 Vogue runway images across 15 fashion houses spanning 1991-2024 that makes this cultural logic inspectable. Given a photograph of a garment, the system recovers which house produced it, which era it belongs to, and which color tradition it reflects. A clothing-only model identifies the fashion house at 78.2% top-1 across 14 houses, the decade at 88.6% top-1, and the specific year at 58.3% top-1 across 34 years with a mean error of just 2.2 years. Probing which visual channels carry this signal reveals a sharp dissociation: removing color costs only 10.6pp of house identity accuracy, while removing texture costs 37.6pp, establishing texture and luminance as the primary carriers of editorial identity. FASH-iCNN treats editorial culture as the signal rather than background noise, identifying which houses, eras, and color traditions shaped each output so that users can see not just what the system predicts but which houses, editors, and historical moments are encoded in that prediction.
PDF11May 1, 2026