ChatPaper.aiChatPaper

大規模Eコマース理解のための視覚言語モデルの適応

Adapting Vision-Language Models for E-commerce Understanding at Scale

February 12, 2026
著者: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi
cs.AI

要旨

ECサイトにおける商品理解には、本質的に、テキスト・画像・構造化属性からの強力なマルチモーダル理解が求められる。汎用視覚言語モデル(VLM)は汎用的なマルチモーダル潜在モデリングを可能にするが、汎用性能を犠牲にすることなく、ECデータの属性中心・複数画像・ノイズの多い性質に適応させる、文書化され確立された戦略は存在しない。本研究では、大規模な実験的検証を通じて、汎用VLMを対象領域に特化して適応させることで、広範なマルチモーダル能力を維持しつつECタスクの性能を大幅に向上できることを示す。さらに、深い商品理解、厳密な指示追従、動的属性抽出を網羅する新たな包括的評価手法を提案する。
English
E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.
PDF93February 14, 2026