Aprendizaje Automático Mejorado por Recuperación: Síntesis y Oportunidades

Resumen

En el campo del modelado del lenguaje, han surgido modelos mejorados con componentes de recuperación como una solución prometedora para abordar varios desafíos enfrentados en el campo del procesamiento del lenguaje natural (PLN), incluyendo la fundamentación del conocimiento, la interpretabilidad y la escalabilidad. A pesar del enfoque principal en el PLN, sostenemos que el paradigma de mejora mediante recuperación puede extenderse a un espectro más amplio de aprendizaje automático (AA) como la visión por computadora, la predicción de series temporales y la biología computacional. Por lo tanto, este trabajo introduce un marco formal de este paradigma, Aprendizaje Automático Mejorado por Recuperación (REML, por sus siglas en inglés), mediante la síntesis de la literatura en varios dominios en AA con notaciones consistentes que faltan en la literatura actual. Además, encontramos que si bien varios estudios emplean componentes de recuperación para mejorar sus modelos, hay una falta de integración con la investigación fundamental en Recuperación de Información (IR, por sus siglas en inglés). Nosotros cerramos esta brecha entre la investigación seminal en IR y los estudios contemporáneos de REML investigando cada componente que conforma el marco de REML. En última instancia, el objetivo de este trabajo es equipar a los investigadores de diversas disciplinas con un marco integral y formal de modelos mejorados por recuperación, fomentando así la investigación interdisciplinaria futura.

English

In the field of language modeling, models augmented with retrieval components have emerged as a promising solution to address several challenges faced in the natural language processing (NLP) field, including knowledge grounding, interpretability, and scalability. Despite the primary focus on NLP, we posit that the paradigm of retrieval-enhancement can be extended to a broader spectrum of machine learning (ML) such as computer vision, time series prediction, and computational biology. Therefore, this work introduces a formal framework of this paradigm, Retrieval-Enhanced Machine Learning (REML), by synthesizing the literature in various domains in ML with consistent notations which is missing from the current literature. Also, we found that while a number of studies employ retrieval components to augment their models, there is a lack of integration with foundational Information Retrieval (IR) research. We bridge this gap between the seminal IR research and contemporary REML studies by investigating each component that comprises the REML framework. Ultimately, the goal of this work is to equip researchers across various disciplines with a comprehensive, formally structured framework of retrieval-enhanced models, thereby fostering interdisciplinary future research.

Aprendizaje Automático Mejorado por Recuperación: Síntesis y Oportunidades

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

Resumen

Support