ChatPaper.aiChatPaper

Apprendimento Automatico Potenziato dal Recupero: Sintesi e Opportunità

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

July 17, 2024
Autori: To Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani
cs.AI

Abstract

Nel campo della modellazione del linguaggio, i modelli potenziati con componenti di recupero sono emersi come una soluzione promettente per affrontare diverse sfide nel campo dell'elaborazione del linguaggio naturale (NLP), tra cui il grounding della conoscenza, l'interpretabilità e la scalabilità. Nonostante l'attenzione primaria sia rivolta al NLP, ipotizziamo che il paradigma del potenziamento tramite recupero possa essere esteso a uno spettro più ampio di apprendimento automatico (ML), come la visione artificiale, la previsione di serie temporali e la biologia computazionale. Pertanto, questo lavoro introduce un framework formale di questo paradigma, il Machine Learning Potenziato dal Recupero (REML), sintetizzando la letteratura in vari domini del ML con notazioni coerenti, attualmente assenti nella letteratura esistente. Inoltre, abbiamo riscontrato che, sebbene numerosi studi utilizzino componenti di recupero per potenziare i loro modelli, manca un'integrazione con la ricerca fondamentale nel campo del Recupero delle Informazioni (IR). Colmiamo questo divario tra la ricerca seminale in IR e gli studi contemporanei su REML analizzando ciascun componente che costituisce il framework REML. L'obiettivo finale di questo lavoro è fornire ai ricercatori di varie discipline un framework completo e formalmente strutturato per i modelli potenziati dal recupero, favorendo così future ricerche interdisciplinari.
English
In the field of language modeling, models augmented with retrieval components have emerged as a promising solution to address several challenges faced in the natural language processing (NLP) field, including knowledge grounding, interpretability, and scalability. Despite the primary focus on NLP, we posit that the paradigm of retrieval-enhancement can be extended to a broader spectrum of machine learning (ML) such as computer vision, time series prediction, and computational biology. Therefore, this work introduces a formal framework of this paradigm, Retrieval-Enhanced Machine Learning (REML), by synthesizing the literature in various domains in ML with consistent notations which is missing from the current literature. Also, we found that while a number of studies employ retrieval components to augment their models, there is a lack of integration with foundational Information Retrieval (IR) research. We bridge this gap between the seminal IR research and contemporary REML studies by investigating each component that comprises the REML framework. Ultimately, the goal of this work is to equip researchers across various disciplines with a comprehensive, formally structured framework of retrieval-enhanced models, thereby fostering interdisciplinary future research.
PDF62November 28, 2024