Aanpassing van visie-taalmodellen voor e-commercebegrip op grote schaal

Samenvatting

Het begrijpen van e-commerceproducten vereist van nature een sterke multimodale verwerking van tekst, afbeeldingen en gestructureerde attributen. Algemene Vision-Language Models (VLM's) maken generaliseerbare multimodale latente modellering mogelijk, maar er bestaat geen gedocumenteerde, breed erkende strategie om ze aan te passen aan de attribuutgerichte, multi-image en rumoerige aard van e-commercegegevens zonder algemene prestaties op te offeren. In dit werk tonen we via een grootschalige experimentele studie aan hoe gerichte aanpassing van algemene VLM's de e-commerceprestaties aanzienlijk kan verbeteren met behoud van brede multimodale capaciteiten. Bovendien introduceren we een nieuwe uitgebreide evaluatieset die diepgaand productbegrip, strikte instructievolging en dynamische attribuutextractie omvat.

English

E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.

Aanpassing van visie-taalmodellen voor e-commercebegrip op grote schaal

Adapting Vision-Language Models for E-commerce Understanding at Scale

Samenvatting

Support