ChatPaper.aiChatPaper

Große Sprachmodelle treffen auf extreme Multi-Label-Klassifikation: Skalierung und multimodale Frameworks

Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

November 17, 2025
papers.authors: Diego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel
cs.AI

papers.abstract

Foundation Models haben die künstliche Intelligenz in zahlreichen Domänen revolutioniert, doch ihr transformatives Potenzial bleibt im Bereich der Extreme Multi-label Classification (XMC) weitgehend ungenutzt. Bei XMC werden Anfragen mit relevanten Labels aus extrem großen Labelräumen verknüpft, wobei eine Balance zwischen Effizienz und Performance entscheidend ist. Daher modellieren viele aktuelle Ansätze XMC effizient als Maximum Inner Product Search zwischen Embeddings, die mit kleinen, encoder-basierten Transformer-Architekturen gelernt wurden. In diesem Beitrag behandeln wir zwei wichtige Aspekte von XMC: wie größere decoder-basierte Modelle effektiv genutzt werden können und wie visuelle Informationen bei gleichzeitiger Wahrung der Recheneffizienz erschlossen werden können. Wir zeigen, dass beide separat eine kritische Rolle in XMC spielen und kombiniert werden können, um die Leistung zu steigern. Wir demonstrieren, dass ein Decoder im Milliarden-Parameter-Bereich signifikante Verbesserungen erbringen kann, während der Rechenaufwand überschaubar bleibt. Darüber hinaus integriert unser Vision-enhanced eXtreme Multi-label Learning Framework (ViXML) Foundation Vision Models effizient durch das Pooling eines einzigen Embeddings pro Bild. Dies begrenzt den Rechenaufwand, eröffnet aber multimodale Fähigkeiten. Bemerkenswerterweise übertrifft ViXML mit kleinen Encodern in den meisten Fällen textbasierte Decoder, was zeigt, dass ein Bild Milliarden von Parametern wert ist. Abschließend präsentieren wir eine Erweiterung bestehender textbasierter Datensätze zur Nutzung visueller Metadaten und stellen diese für zukünftige Benchmarks zur Verfügung. Umfassende Experimente mit vier öffentlichen textbasierten Datensätzen und ihren entsprechenden bilderweiterten Versionen validieren die Wirksamkeit unserer Vorschläge, wobei auf dem größten Datensatz eine Steigerung von bis zu +8,21 % in P@1 gegenüber dem vorherigen State-of-the-Art erzielt wird. Der Code von ViXML ist unter https://github.com/DiegoOrtego/vixml verfügbar.
English
Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.
PDF383December 1, 2025