ChatPaper.aiChatPaper

大規模言語モデルと極端マルチラベル分類の融合:スケーリングとマルチモーダルフレームワーク

Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

November 17, 2025
著者: Diego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel
cs.AI

要旨

Foundation models(基盤モデル)は多数の領域で人工知能に革命をもたらしたが、極端マルチラベル分類(XMC)におけるその変革的潜在能力は、依然として十分に活用されていない。XMCにおけるクエリは、極めて大規模なラベル空間から関連するラベルと結びつけられ、効率性と性能のバランスを取ることが極めて重要である。このため、近年の多くのアプローチでは、小規模なエンコーダのみのTransformerアーキテクチャから学習した埋め込み間の最大内積探索として、効率的にXMCを定式化している。本論文では、XMCにおける二つの重要な側面、すなわち、より大規模なデコーダのみのモデルを効果的に利用する方法と、計算効率を維持しながら視覚情報を活用する方法に取り組む。これら両方がXMCにおいて個別に重要な役割を果たし、組み合わせることで性能向上が図れることを実証する。数十億パラメータ規模のデコーダでも、計算オーバーヘッドを管理可能に保ちながら、大幅な改善をもたらすことを示す。さらに、我々のVision-enhanced eXtreme Multi-label Learningフレームワーク(ViXML)は、画像ごとに単一の埋め込みをプーリングすることで、基盤となる視覚モデルを効率的に統合する。これにより、計算量の増加を抑えつつ、マルチモーダル能力を解放する。特筆すべきは、小規模なエンコーダを用いたViXMLが、ほとんどの場合でテキストのみのデコーダを上回り、「一枚の画像が数十億のパラメータに値する」ことを示している。最後に、視覚的メタデータを活用するため、既存のテキストのみのデータセットを拡張し、将来のベンチマークに利用可能にする。4つの公開テキストのみデータセットとそれに対応する画像拡張版における総合的な実験により、我々の提案の有効性が検証され、最大のデータセットではP@1において従来の最先端技術を最大+8.21%上回った。ViXMLのコードはhttps://github.com/DiegoOrtego/vixml で利用可能である。
English
Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.
PDF383December 1, 2025