ChatPaper.aiChatPaper

LimRank : Moins, c'est plus pour le reranking d'informations intensif en raisonnement

LimRank: Less is More for Reasoning-Intensive Information Reranking

October 27, 2025
papers.authors: Tingyu Song, Yilun Zhao, Siyue Zhang, Chen Zhao, Arman Cohan
cs.AI

papers.abstract

Les approches existantes reposent généralement sur un ajustement à grande échelle pour adapter les LLM aux tâches de reranking d'information, ce qui est coûteux en calcul. Dans ce travail, nous démontrons que les LLM modernes peuvent être efficacement adaptés en utilisant uniquement une supervision minimale et de haute qualité. Pour y parvenir, nous concevons LIMRANK-SYNTHESIZER, un pipeline réutilisable et open-source pour générer des exemples de reranking diversifiés, complexes et réalistes. En utilisant ces données synthétiques, nous affinons notre modèle de reranking, LIMRANK. Nous évaluons LIMRANK sur deux benchmarks exigeants, à savoir BRIGHT pour la recherche nécessitant un raisonnement poussé et FollowIR pour la recherche suivant des instructions. Nos expériences démontrent que LIMRANK atteint des performances compétitives, tout en étant entraîné sur moins de 5 % des données typiquement utilisées dans les travaux antérieurs. Des études d'ablation supplémentaires démontrent l'efficacité de LIMRANK-SYNTHESIZER et les fortes capacités de généralisation de LIMRANK sur diverses tâches en aval, incluant la recherche de littérature scientifique et la génération augmentée par la récupération d'information pour la résolution de problèmes nécessitant des connaissances approfondies.
English
Existing approaches typically rely on large-scale fine-tuning to adapt LLMs for information reranking tasks, which is computationally expensive. In this work, we demonstrate that modern LLMs can be effectively adapted using only minimal, high-quality supervision. To enable this, we design LIMRANK-SYNTHESIZER, a reusable and open-source pipeline for generating diverse, challenging, and realistic reranking examples. Using this synthetic data, we fine-tune our reranker model, LIMRANK. We evaluate LIMRANK on two challenging benchmarks, i.e., BRIGHT for reasoning-intensive retrieval and FollowIR for instruction-following retrieval. Our experiments demonstrate that LIMRANK achieves competitive performance, while being trained on less than 5% of the data typically used in prior work. Further ablation studies demonstrate the effectiveness of LIMRANK-SYNTHESIZER and the strong generalization capabilities of LIMRANK across downstream tasks, including scientific literature search and retrieval-augmented generation for knowledge-intensive problem solving.
PDF81December 31, 2025