Apprentissage Automatique Amélioré par la Récupération : Synthèse et Perspectives

papers.abstract

Dans le domaine de la modélisation du langage, les modèles enrichis de composants de recherche d'information se sont imposés comme une solution prometteuse pour relever plusieurs défis rencontrés dans le traitement du langage naturel (NLP), notamment l'ancrage des connaissances, l'interprétabilité et l'évolutivité. Bien que l'accent soit principalement mis sur le NLP, nous postulons que le paradigme de l'amélioration par recherche d'information peut être étendu à un spectre plus large de l'apprentissage automatique (ML), tel que la vision par ordinateur, la prédiction de séries temporelles et la biologie computationnelle. Par conséquent, ce travail introduit un cadre formel de ce paradigme, l'Apprentissage Automatique Amélioré par Recherche d'Information (REML), en synthétisant la littérature dans divers domaines du ML avec des notations cohérentes qui font défaut dans la littérature actuelle. De plus, nous avons constaté que si de nombreuses études utilisent des composants de recherche pour enrichir leurs modèles, il existe un manque d'intégration avec les recherches fondamentales en Recherche d'Information (IR). Nous comblons ce fossé entre les recherches séminales en IR et les études contemporaines en REML en examinant chaque composant qui constitue le cadre REML. En fin de compte, l'objectif de ce travail est de fournir aux chercheurs de diverses disciplines un cadre complet et formellement structuré pour les modèles améliorés par recherche d'information, favorisant ainsi des recherches interdisciplinaires futures.

English

In the field of language modeling, models augmented with retrieval components have emerged as a promising solution to address several challenges faced in the natural language processing (NLP) field, including knowledge grounding, interpretability, and scalability. Despite the primary focus on NLP, we posit that the paradigm of retrieval-enhancement can be extended to a broader spectrum of machine learning (ML) such as computer vision, time series prediction, and computational biology. Therefore, this work introduces a formal framework of this paradigm, Retrieval-Enhanced Machine Learning (REML), by synthesizing the literature in various domains in ML with consistent notations which is missing from the current literature. Also, we found that while a number of studies employ retrieval components to augment their models, there is a lack of integration with foundational Information Retrieval (IR) research. We bridge this gap between the seminal IR research and contemporary REML studies by investigating each component that comprises the REML framework. Ultimately, the goal of this work is to equip researchers across various disciplines with a comprehensive, formally structured framework of retrieval-enhanced models, thereby fostering interdisciplinary future research.

Apprentissage Automatique Amélioré par la Récupération : Synthèse et Perspectives

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

papers.abstract

Support