Aanpassing van visie-taalmodellen voor e-commercebegrip op grote schaal
Adapting Vision-Language Models for E-commerce Understanding at Scale
February 12, 2026
Auteurs: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI
Samenvatting
Het begrijpen van e-commerceproducten vereist van nature een sterke multimodale verwerking van tekst, afbeeldingen en gestructureerde attributen. Algemene Vision-Language Models (VLM's) maken generaliseerbare multimodale latente modellering mogelijk, maar er bestaat geen gedocumenteerde, breed erkende strategie om ze aan te passen aan de attribuutgerichte, multi-image en rumoerige aard van e-commercegegevens zonder algemene prestaties op te offeren. In dit werk tonen we via een grootschalige experimentele studie aan hoe gerichte aanpassing van algemene VLM's de e-commerceprestaties aanzienlijk kan verbeteren met behoud van brede multimodale capaciteiten. Bovendien introduceren we een nieuwe uitgebreide evaluatieset die diepgaand productbegrip, strikte instructievolging en dynamische attribuutextractie omvat.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.