ChatPaper.aiChatPaper

Los Modelos de Lenguaje a Gran Escala Encuentran la Clasificación Multietiqueta Extrema: Escalabilidad y Marco Multimodal

Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

November 17, 2025
Autores: Diego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel
cs.AI

Resumen

Los modelos fundacionales han revolucionado la inteligencia artificial en numerosos dominios, aunque su potencial transformador permanece en gran medida sin explotar en la Clasificación Multietiqueta Extrema (XMC). En XMC, las consultas se asocian con etiquetas relevantes de espacios de etiquetas extremadamente grandes, donde es fundamental lograr un equilibrio entre eficiencia y rendimiento. Por ello, muchos enfoques recientes plantean eficientemente XMC como una búsqueda de máximo producto interno entre incrustaciones aprendidas de pequeñas arquitecturas transformadoras de solo codificador. En este artículo, abordamos dos aspectos importantes en XMC: cómo aprovechar efectivamente modelos más grandes de solo decodificador, y cómo explotar información visual manteniendo la eficiencia computacional. Demostramos que ambos desempeñan un papel crítico en XMC por separado y pueden combinarse para mejorar el rendimiento. Mostramos que un decodificador de algunos miles de millones de parámetros puede ofrecer mejoras sustanciales manteniendo manejable la sobrecarga computacional. Además, nuestro marco de Aprendizaje Multietiqueta Extremo Mejorado por Visión (ViXML) integra eficientemente modelos fundacionales de visión mediante la agrupación de una única incrustación por imagen. Esto limita el crecimiento computacional mientras desbloquea capacidades multimodales. Notablemente, ViXML con pequeños codificadores supera al decodificador de solo texto en la mayoría de los casos, demostrando que una imagen vale miles de millones de parámetros. Finalmente, presentamos una extensión de conjuntos de datos existentes de solo texto para explotar metadatos visuales y los ponemos a disposición para futuras evaluaciones comparativas. Experimentos exhaustivos en cuatro conjuntos de datos públicos de solo texto y sus correspondientes versiones mejoradas con imágenes validan la efectividad de nuestras propuestas, superando el estado del arte anterior hasta en +8.21\% en P@1 en el conjunto de datos más grande. El código de ViXML está disponible en https://github.com/DiegoOrtego/vixml.
English
Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.
PDF383December 1, 2025