대규모 언어 모델과 극다중 레이블 분류의 만남: 확장성 및 다중 모달 프레임워크
Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
November 17, 2025
저자: Diego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel
cs.AI
초록
파운데이션 모델은 다양한 분야에서 인공지능을 혁신적으로 발전시켰으나, 극다중라벨분류(XMC) 영역에서는 그 잠재력이 아직 충분히 활용되지 않고 있습니다. XMC에서의 질의는 극도로 큰 라벨 공간에서 관련 라벨들과 연관되며, 효율성과 성능 간의 균형을 맞추는 것이 매우 중요합니다. 이에 따라 최근 많은 접근법들은 소규모의 인코더 전용 트랜스포머 구조에서 학습된 임베딩 간의 최대 내적 탐색으로 XMC를 효율적으로 구성하고 있습니다. 본 논문에서는 XMC의 두 가지 중요한 측면, 즉 더 큰 디코더 전용 모델의 효과적 활용 방법과 계산 효율성을 유지하면서 시각 정보를 활용하는 방법을 다룹니다. 우리는 이 두 요소가 각각 XMC에서 중요한 역할을 하며 성능 향상을 위해 결합될 수 있음을 입증합니다. 수십억 개의 매개변수를 가진 디코더라도 계산 오버헤드를 관리 가능한 수준으로 유지하면서 상당한 성능 향상을 제공할 수 있음을 보여줍니다. 더 나아가, 우리가 제안하는 시각 정보 강화 극다중라벨 학습 프레임워크(ViXML)는 이미지당 단일 임베딩을 풀링하여 파운데이션 비전 모델을 효율적으로 통합합니다. 이는 계산 비용의 증가를 제한하면서 다중 모드 능력을 확보합니다. 주목할 만하게도, 소규모 인코더를 사용하는 ViXML은 대부분의 경우 텍스트 전용 디코더를 능가하며, 이는 하나의 이미지가 수십억 개의 매개변수에 버금가는 가치가 있음을 시사합니다. 마지막으로, 우리는 기존 텍스트 전용 데이터셋을 시각 메타데이터를 활용하도록 확장한 버전을 공개하여 향후 벤치마킹에 활용할 수 있도록 합니다. 4개의 공개 텍스트 전용 데이터셋과 해당 이미지 강화 버전에 대한 포괄적인 실험을 통해 우리의 제안이 효과적임을 입증하며, 가장 큰 데이터셋에서 P@1 기준 최대 +8.21%까지 기존 최첨단 기술을 능가함을 확인합니다. ViXML의 코드는 https://github.com/DiegoOrtego/vixml에서 이용 가능합니다.
English
Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.