ChatPaper.aiChatPaper

Anpassung von Vision-Sprache-Modellen für das Verständnis von E-Commerce im großen Maßstab

Adapting Vision-Language Models for E-commerce Understanding at Scale

February 12, 2026
papers.authors: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI

papers.abstract

Das Verständnis von E-Commerce-Produkten erfordert von Natur aus ein starkes multimodales Verständnis aus Text, Bildern und strukturierten Attributen. Allgemeine Vision-Language-Modelle (VLMs) ermöglichen eine generalisierbare multimodale latente Modellierung, jedoch gibt es keine dokumentierte, bekannte Strategie, um sie an die attributzentrierte, multi-bildliche und verrauschte Natur von E-Commerce-Daten anzupassen, ohne die allgemeine Leistungsfähigkeit zu beeinträchtigen. In dieser Arbeit zeigen wir durch eine groß angelegte experimentelle Studie, wie eine gezielte Anpassung allgemeiner VLMs die E-Commerce-Leistung erheblich verbessern kann, während breite multimodale Fähigkeiten erhalten bleiben. Darüber hinaus schlagen wir eine neuartige, umfangreiche Evaluierungssuite vor, die tiefgehendes Produktverständnis, strikte Befolgung von Anweisungen und dynamische Attributextraktion abdeckt.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.
PDF93February 14, 2026