Adaptação de Modelos Visão-Linguagem para Compreensão de E-commerce em Escala
Adapting Vision-Language Models for E-commerce Understanding at Scale
February 12, 2026
Autores: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI
Resumo
A compreensão de produtos no comércio eletrónico exige, por natureza, uma forte capacidade de compreensão multimodal a partir de texto, imagens e atributos estruturados. Os Modelos de Visão e Linguagem (VLMs) de propósito geral permitem uma modelação latente multimodal generalizável, no entanto, não existe uma estratégia documentada e conhecida para os adaptar à natureza centrada em atributos, multi-imagem e ruidosa dos dados de e-commerce, sem sacrificar o desempenho geral. Neste trabalho, demonstramos através de um estudo experimental em larga escala como a adaptação direcionada de VLMs gerais pode melhorar substancialmente o desempenho no domínio do e-commerce, preservando ao mesmo tempo capacidades multimodais abrangentes. Adicionalmente, propomos um novo e extenso conjunto de avaliação que abrange a compreensão profunda de produtos, o seguimento estrito de instruções e a extração dinâmica de atributos.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.