Adattamento di Modelli Visione-Linguaggio per la Comprensione dell'E-Commerce su Larga Scala
Adapting Vision-Language Models for E-commerce Understanding at Scale
February 12, 2026
Autori: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI
Abstract
La comprensione dei prodotti nell'e-commerce richiede per sua natura una forte capacità di comprensione multimodale da testo, immagini e attributi strutturati. I modelli visione-linguaggio (VLM) generici consentono una modellizzazione latente multimodale generalizzabile, ma non esiste una strategia documentata e consolidata per adattarli alla natura centrata sugli attributi, multi-immagine e rumorosa dei dati e-commerce, senza sacrificare le prestazioni generali. In questo lavoro, dimostriamo attraverso uno studio sperimentale su larga scala come un adattamento mirato dei VLM generici possa migliorare sostanzialmente le prestazioni nell'e-commerce preservando al contempo ampie capacità multimodali. Inoltre, proponiamo una nuova suite di valutazione estensiva che copre la comprensione approfondita del prodotto, il rigoroso rispetto delle istruzioni e l'estrazione dinamica degli attributi.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.