ChatPaper.aiChatPaper

Адаптация моделей «зрение–язык» для масштабируемого понимания электронной коммерции

Adapting Vision-Language Models for E-commerce Understanding at Scale

February 12, 2026
Авторы: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI

Аннотация

Требования к пониманию товаров в электронной коммерции по своей природе предполагают сильное мультимодальное восприятие, объединяющее текст, изображения и структурированные атрибуты. Универсальные визуально-языковые модели (VLM) обеспечивают обобщающее латентное мультимодальное моделирование, однако на сегодня не существует задокументированной и общепризнанной стратегии их адаптации к атрибутно-ориентированной, мультиизобразительной и зашумленной природе данных электронной коммерции без ущерба для общей производительности. В данной работе мы на основе масштабного экспериментального исследования демонстрируем, как целевая адаптация общих VLM позволяет существенно повысить эффективность в сфере электронной коммерции, сохраняя при этом широкие мультимодальные возможности. Кроме того, мы предлагаем новую комплексную систему оценки, охватывающую глубокое понимание товаров, строгое следование инструкциям и динамическое извлечение атрибутов.
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.
PDF93February 14, 2026