ChatPaper.aiChatPaper

Les grands modèles de langage rencontrent la classification multi-étiquettes extrême : Cadre d'extensibilité et multimodal

Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

November 17, 2025
papers.authors: Diego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel
cs.AI

papers.abstract

Les modèles de fondation ont révolutionné l'intelligence artificielle dans de nombreux domaines, mais leur potentiel transformateur reste largement inexploité dans la classification multi-étiquettes extrême (XMC). Dans le cadre XMC, les requêtes sont associées à des étiquettes pertinentes issues d'espaces d'étiquettes extrêmement vastes, où il est crucial de trouver un équilibre entre efficacité et performance. Par conséquent, de nombreuses approches récentes formulent efficacement le problème XMC comme une recherche du produit scalaire maximum entre des embeddings appris à partir de petites architectures de transformeurs encodeurs uniquement. Dans cet article, nous abordons deux aspects importants du XMC : comment exploiter efficacement des modèles décodeurs uniquement plus grands, et comment tirer parti des informations visuelles tout en maintenant l'efficacité computationnelle. Nous démontrons que ces deux aspects jouent un rôle critique séparément dans le XMC et peuvent être combinés pour améliorer les performances. Nous montrons qu'un décodeur de quelques milliards de paramètres peut apporter des améliorations substantielles tout en gardant la surcharge computationnelle gérable. De plus, notre cadre d'apprentissage multi-étiquettes extrême enrichi par la vision (ViXML) intègre efficacement des modèles de fondation visuels en agrégeant un seul embedding par image. Cela limite l'augmentation computationnelle tout en débloquant des capacités multimodales. Fait remarquable, ViXML avec de petits encodeurs surpasse le décodeur basé uniquement sur le texte dans la plupart des cas, montrant qu'une image vaut des milliards de paramètres. Enfin, nous présentons une extension de jeux de données textuels existants pour exploiter les métadonnées visuelles et les mettons à disposition pour des évaluations futures. Des expériences complètes sur quatre jeux de données publics textuels et leurs versions enrichies d'images valident l'efficacité de nos propositions, dépassant l'état de l'art précédent jusqu'à +8,21 % en P@1 sur le plus grand jeu de données. Le code de ViXML est disponible à l'adresse https://github.com/DiegoOrtego/vixml.
English
Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.
PDF383December 1, 2025