Grandi Modelli Linguistici Incontrano la Classificazione Multi-etichetta Estrema: Scalabilità e Framework Multi-modale

Abstract

I modelli foundation hanno rivoluzionato l'intelligenza artificiale in numerosi domini, ma il loro potenziale trasformativo rimane in gran parte inespresso nella Classificazione Multi-Etichetta Estrema (XMC). In XMC, le query sono associate a etichette rilevanti provenienti da spazi di etichette estremamente ampi, dove è fondamentale bilanciare efficienza e prestazioni. Pertanto, molti approcci recenti formulano efficientemente l'XMC come un problema di ricerca del prodotto interno massimo tra embedding appresi da piccole architetture transformer di tipo encoder-only. In questo articolo, affrontiamo due aspetti importanti nell'XMC: come sfruttare efficacemente modelli più grandi di tipo decoder-only e come utilizzare le informazioni visive mantenendo l'efficienza computazionale. Dimostriamo che entrambi svolgono un ruolo critico separatamente e possono essere combinati per migliorare le prestazioni. Mostriamo che un decoder di dimensioni di pochi miliardi di parametri può fornire miglioramenti sostanziali mantenendo gestibile il sovraccarico computazionale. Inoltre, la nostra framework Vision-enhanced eXtreme Multi-label Learning (ViXML) integra efficientemente modelli foundation visivi aggregando un singolo embedding per immagine. Ciò limita la crescita computazionale sbloccando al contempo capacità multimodali. Notevolmente, ViXML con encoder piccoli supera i decoder basati solo sul testo nella maggior parte dei casi, dimostrando che un'immagine vale miliardi di parametri. Infine, presentiamo un'estensione di dataset esistenti basati solo su testo per sfruttare i metadati visivi e li rendiamo disponibili per futuri benchmark. Esperimenti completi su quattro dataset pubblici solo testo e le loro corrispondenti versioni potenziate con immagini convalidano l'efficacia delle nostre proposte, superando lo stato dell'arte precedente fino a +8,21% in P@1 sul dataset più grande. Il codice di ViXML è disponibile all'indirizzo https://github.com/DiegoOrtego/vixml.

English

Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.

Grandi Modelli Linguistici Incontrano la Classificazione Multi-etichetta Estrema: Scalabilità e Framework Multi-modale

Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

Abstract

Support