Adattamento di Modelli Visione-Linguaggio per la Comprensione dell'E-Commerce su Larga Scala

Abstract

La comprensione dei prodotti nell'e-commerce richiede per sua natura una forte capacità di comprensione multimodale da testo, immagini e attributi strutturati. I modelli visione-linguaggio (VLM) generici consentono una modellizzazione latente multimodale generalizzabile, ma non esiste una strategia documentata e consolidata per adattarli alla natura centrata sugli attributi, multi-immagine e rumorosa dei dati e-commerce, senza sacrificare le prestazioni generali. In questo lavoro, dimostriamo attraverso uno studio sperimentale su larga scala come un adattamento mirato dei VLM generici possa migliorare sostanzialmente le prestazioni nell'e-commerce preservando al contempo ampie capacità multimodali. Inoltre, proponiamo una nuova suite di valutazione estensiva che copre la comprensione approfondita del prodotto, il rigoroso rispetto delle istruzioni e l'estrazione dinamica degli attributi.

English

E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.

Adattamento di Modelli Visione-Linguaggio per la Comprensione dell'E-Commerce su Larga Scala

Adapting Vision-Language Models for E-commerce Understanding at Scale

Abstract

Support