ChatPaper.aiChatPaper

Adaptation des modèles vision-langage pour la compréhension du e-commerce à grande échelle

Adapting Vision-Language Models for E-commerce Understanding at Scale

February 12, 2026
papers.authors: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI

papers.abstract

La compréhension des produits en commerce électronique exige naturellement une forte capacité d'analyse multimodale intégrant texte, images et attributs structurés. Les modèles vision-langage (VLM) généralistes permettent une modélisation latente multimodale généralisable, mais aucune stratégie documentée et éprouvée n'existe pour les adapter aux spécificités des données e-commerce - centrées sur les attributs, multi-images et bruitées - sans sacrifier les performances générales. Dans cette étude, nous démontrons par une expérimentation à grande échelle comment l'adaptation ciblée de VLM généralistes améliore substantiellement les performances e-commerce tout en préservant leurs capacités multimodales étendues. Par ailleurs, nous proposons une nouvelle suite d'évaluation exhaustive couvrant la compréhension approfondie des produits, le suivi strict d'instructions et l'extraction dynamique d'attributs.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.
PDF93February 14, 2026