Крупные языковые модели и экстремальная многоклассовая классификация: масштабирование и мультимодальный подход
Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
November 17, 2025
Авторы: Diego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel
cs.AI
Аннотация
Фундаментальные модели произвели революцию в области искусственного интеллекта в многочисленных доменах, однако их преобразующий потенциал в значительной степени остается нераскрытым в задаче экстремальной многометочной классификации (Extreme Multi-label Classification, XMC). В XMC запросы ассоциируются с релевантными метками из чрезвычайно больших пространств меток, где критически важно соблюдать баланс между эффективностью и производительностью. Поэтому многие современные подходы эффективно формулируют задачу XMC как поиск максимального скалярного произведения между эмбеддингами, полученными с помощью небольших трансформерных архитектур, использующих только кодировщик. В данной статье мы рассматриваем два важных аспекта в XMC: как эффективно использовать более крупные модели, основанные только на декодере, и как задействовать визуальную информацию, сохраняя вычислительную эффективность. Мы демонстрируем, что оба аспекта по отдельности играют критическую роль в XMC и могут быть объединены для повышения производительности. Мы показываем, что декодер размером в несколько миллиардов параметров может обеспечить существенное улучшение, сохраняя при этом управляемые вычислительные затраты. Кроме того, наша система Vision-enhanced eXtreme Multi-label Learning (ViXML) эффективно интегрирует фундаментальные модели компьютерного зрения путем агрегации признаков изображения в один эмбеддинг. Это ограничивает рост вычислительной сложности, одновременно открывая возможности для мультимодального подхода. Примечательно, что ViXML с небольшими кодировщиками в большинстве случаев превосходит текстовые модели, использующие только декодер, что демонстрирует, что одно изображение эквивалентно миллиардам параметров. Наконец, мы представляем расширение существующих текстовых наборов данных для использования визуальных метаданных и делаем их доступными для будущего сравнительного анализа. Всесторонние эксперименты на четырех публичных текстовых наборах данных и их соответствующих версиях, дополненных изображениями, подтверждают эффективность наших предложений, превосходя предыдущие state-of-the-art методы на величину до +8,21% по метрике P@1 на самом крупном наборе данных. Код ViXML доступен по адресу https://github.com/DiegoOrtego/vixml.
English
Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.