대규모 전자상거래 이해를 위한 시각-언어 모델 적응
Adapting Vision-Language Models for E-commerce Understanding at Scale
February 12, 2026
저자: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI
초록
전자상거래 상품 이해는 본질적으로 텍스트, 이미지, 구조화된 속성으로부터 강력한 다중모달 이해 능력을 요구합니다. 범용 비전-언어 모델(VLM)은 일반화 가능한 다중모달 잠재 표현 모델링을 가능하게 하지만, 일반적인 성능을 저하시키지 않으면서 전자상거래 데이터의 속성 중심적, 다중 이미지, 노이즈 특성에 이를 적용하기 위한 문서화되고 잘 알려진 전략은 부재합니다. 본 연구에서는 대규모 실험 연구를 통해 범용 VLM의 표적 적응(Targeted Adaptation)이 전자상거래 성능을 크게 향상시키면서도 광범위한 다중모달 능력을 보존할 수 있음을 보여줍니다. 나아가, 심층 상품 이해, 엄격한 지시 따르기, 동적 속성 추출을 포괄하는 새로운 종합 평가 체계를 제안합니다.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.