Grootschalige Taalmodellen Ontmoeten Extreme Multi-label Classificatie: Schaalvergroting en een Multimodaal Raamwerk

Samenvatting

Foundationmodellen hebben een revolutie teweeggebracht in kunstmatige intelligentie binnen talloze domeinen, maar hun transformerende potentieel blijft grotendeels onbenut bij Extreme Multi-label Classification (XMC). Bij XMC worden queries geassocieerd met relevante labels uit extreem grote labelruimten, waarbij het cruciaal is een balans te vinden tussen efficiëntie en prestaties. Daarom benaderen veel recente methoden XMC efficiënt als een zoektocht naar het maximum inproduct tussen embeddings die zijn geleerd met kleine encoder-only transformer-architecturen. In dit artikel behandelen we twee belangrijke aspecten van XMC: hoe grotere decoder-only modellen effectief kunnen worden benut, en hoe visuele informatie kan worden gebruikt met behoud van computationele efficiëntie. Wij tonen aan dat beide afzonderlijk een cruciale rol spelen bij XMC en gecombineerd kunnen worden voor betere prestaties. Wij laten zien dat een decoder van enkele miljarden parameters aanzienlijke verbeteringen kan opleveren met een beheersbare computationele overhead. Verder integreert ons Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiënt foundation vision-modellen door één enkele embedding per afbeelding samen te voegen. Dit beperkt de computationele groei terwijl multimodale mogelijkheden worden ontsloten. Opmerkelijk is dat ViXML met kleine encoders in de meeste gevallen beter presteert dan tekst-only decoders, wat aantoont dat één afbeelding miljarden parameters waard is. Ten slotte presenteren wij een uitbreiding van bestaande tekst-only datasets om visuele metadata te benutten en stellen deze beschikbaar voor toekomstige benchmarking. Uitgebreide experimenten met vier openbare tekst-only datasets en hun bijbehorende beeldverbeterde versies valideren de effectiviteit van onze voorstellen, met verbeteringen tot +8,21% in P@1 op de grootste dataset ten opzichte van de vorige state-of-the-art. De code van ViXML is beschikbaar op https://github.com/DiegoOrtego/vixml.

English

Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.

Grootschalige Taalmodellen Ontmoeten Extreme Multi-label Classificatie: Schaalvergroting en een Multimodaal Raamwerk

Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

Samenvatting

Support