ChatPaper.aiChatPaper

Машинное обучение с улучшенным поиском: синтез и возможности

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

July 17, 2024
Авторы: To Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani
cs.AI

Аннотация

В области языкового моделирования модели, дополненные компонентами извлечения, выделяются как многообещающее решение для решения нескольких вызовов, стоящих перед обработкой естественного языка (NLP), включая закрепление знаний, интерпретируемость и масштабируемость. Несмотря на основное внимание на NLP, мы предполагаем, что парадигму усиления извлечения можно расширить на более широкий спектр машинного обучения (ML), таких как компьютерное зрение, прогнозирование временных рядов и вычислительная биология. Поэтому данная работа представляет формальную концепцию этой парадигмы, Усиленное извлечение в машинном обучении (REML), синтезируя литературу в различных областях в ML с согласованными обозначениями, которых не хватает в текущей литературе. Также мы обнаружили, что, хотя ряд исследований используют компоненты извлечения для усиления своих моделей, имеется недостаток интеграции с фундаментальными исследованиями по информационному поиску (IR). Мы сокращаем этот разрыв между классическими исследованиями по IR и современными исследованиями REML, исследуя каждый компонент, входящий в структуру REML. В конечном итоге цель данной работы - оснастить исследователей в различных областях с обширной, формально структурированной концепцией моделей с усилением извлечения, тем самым способствуя междисциплинарным будущим исследованиям.
English
In the field of language modeling, models augmented with retrieval components have emerged as a promising solution to address several challenges faced in the natural language processing (NLP) field, including knowledge grounding, interpretability, and scalability. Despite the primary focus on NLP, we posit that the paradigm of retrieval-enhancement can be extended to a broader spectrum of machine learning (ML) such as computer vision, time series prediction, and computational biology. Therefore, this work introduces a formal framework of this paradigm, Retrieval-Enhanced Machine Learning (REML), by synthesizing the literature in various domains in ML with consistent notations which is missing from the current literature. Also, we found that while a number of studies employ retrieval components to augment their models, there is a lack of integration with foundational Information Retrieval (IR) research. We bridge this gap between the seminal IR research and contemporary REML studies by investigating each component that comprises the REML framework. Ultimately, the goal of this work is to equip researchers across various disciplines with a comprehensive, formally structured framework of retrieval-enhanced models, thereby fostering interdisciplinary future research.

Summary

AI-Generated Summary

PDF62November 28, 2024