Машинное обучение с улучшенным поиском: синтез и возможности
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities
July 17, 2024
Авторы: To Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani
cs.AI
Аннотация
В области языкового моделирования модели, дополненные компонентами извлечения, выделяются как многообещающее решение для решения нескольких вызовов, стоящих перед обработкой естественного языка (NLP), включая закрепление знаний, интерпретируемость и масштабируемость. Несмотря на основное внимание на NLP, мы предполагаем, что парадигму усиления извлечения можно расширить на более широкий спектр машинного обучения (ML), таких как компьютерное зрение, прогнозирование временных рядов и вычислительная биология. Поэтому данная работа представляет формальную концепцию этой парадигмы, Усиленное извлечение в машинном обучении (REML), синтезируя литературу в различных областях в ML с согласованными обозначениями, которых не хватает в текущей литературе. Также мы обнаружили, что, хотя ряд исследований используют компоненты извлечения для усиления своих моделей, имеется недостаток интеграции с фундаментальными исследованиями по информационному поиску (IR). Мы сокращаем этот разрыв между классическими исследованиями по IR и современными исследованиями REML, исследуя каждый компонент, входящий в структуру REML. В конечном итоге цель данной работы - оснастить исследователей в различных областях с обширной, формально структурированной концепцией моделей с усилением извлечения, тем самым способствуя междисциплинарным будущим исследованиям.
English
In the field of language modeling, models augmented with retrieval components
have emerged as a promising solution to address several challenges faced in the
natural language processing (NLP) field, including knowledge grounding,
interpretability, and scalability. Despite the primary focus on NLP, we posit
that the paradigm of retrieval-enhancement can be extended to a broader
spectrum of machine learning (ML) such as computer vision, time series
prediction, and computational biology. Therefore, this work introduces a formal
framework of this paradigm, Retrieval-Enhanced Machine Learning (REML), by
synthesizing the literature in various domains in ML with consistent notations
which is missing from the current literature. Also, we found that while a
number of studies employ retrieval components to augment their models, there is
a lack of integration with foundational Information Retrieval (IR) research. We
bridge this gap between the seminal IR research and contemporary REML studies
by investigating each component that comprises the REML framework. Ultimately,
the goal of this work is to equip researchers across various disciplines with a
comprehensive, formally structured framework of retrieval-enhanced models,
thereby fostering interdisciplinary future research.Summary
AI-Generated Summary