ChatPaper.aiChatPaper

Adaptación de Modelos de Visión y Lenguaje para la Comprensión del Comercio Electrónico a Gran Escala

Adapting Vision-Language Models for E-commerce Understanding at Scale

February 12, 2026
Autores: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI

Resumen

La comprensión de productos en el comercio electrónico requiere intrínsecamente una sólida capacidad multimodal que abarque texto, imágenes y atributos estructurados. Los Modelos de Visión y Lenguaje (VLM) de propósito general permiten el modelado latente multimodal generalizable; sin embargo, no existe una estrategia documentada y ampliamente conocida para adaptarlos a la naturaleza centrada en atributos, multi-imagen y ruidosa de los datos de comercio electrónico, sin sacrificar el rendimiento general. En este trabajo, demostramos mediante un estudio experimental a gran escala cómo la adaptación dirigida de los VLM generales puede mejorar sustancialmente el rendimiento en comercio electrónico, preservando al mismo tiempo sus amplias capacidades multimodales. Además, proponemos una novedosa suite de evaluación exhaustiva que cubre la comprensión profunda de productos, el seguimiento estricto de instrucciones y la extracción dinámica de atributos.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.
PDF93February 14, 2026