ChatPaper.aiChatPaper

検索拡張型機械学習:統合と機会

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

July 17, 2024
著者: To Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani
cs.AI

要旨

言語モデリングの分野において、検索コンポーネントを組み込んだモデルは、自然言語処理(NLP)分野が直面する知識の基盤付け、解釈可能性、スケーラビリティといった課題に対処する有望な解決策として登場してきた。NLPが主な焦点であるにもかかわらず、我々は検索強化のパラダイムが、コンピュータビジョン、時系列予測、計算生物学など、より広範な機械学習(ML)の領域に拡張可能であると提唱する。そこで、本研究では、このパラダイムを「検索強化型機械学習(Retrieval-Enhanced Machine Learning: REML)」として形式化したフレームワークを導入し、MLの様々な分野の文献を一貫した記法で統合することで、現行の文献に欠けている部分を補う。また、多くの研究がモデルを強化するために検索コンポーネントを採用しているものの、基礎的な情報検索(IR)研究との統合が不足していることを発見した。我々は、REMLフレームワークを構成する各コンポーネントを調査することで、先駆的なIR研究と現代のREML研究の間のギャップを埋める。最終的に、本研究の目的は、様々な分野の研究者に、検索強化モデルの包括的で形式的に構造化されたフレームワークを提供し、学際的な将来研究を促進することである。
English
In the field of language modeling, models augmented with retrieval components have emerged as a promising solution to address several challenges faced in the natural language processing (NLP) field, including knowledge grounding, interpretability, and scalability. Despite the primary focus on NLP, we posit that the paradigm of retrieval-enhancement can be extended to a broader spectrum of machine learning (ML) such as computer vision, time series prediction, and computational biology. Therefore, this work introduces a formal framework of this paradigm, Retrieval-Enhanced Machine Learning (REML), by synthesizing the literature in various domains in ML with consistent notations which is missing from the current literature. Also, we found that while a number of studies employ retrieval components to augment their models, there is a lack of integration with foundational Information Retrieval (IR) research. We bridge this gap between the seminal IR research and contemporary REML studies by investigating each component that comprises the REML framework. Ultimately, the goal of this work is to equip researchers across various disciplines with a comprehensive, formally structured framework of retrieval-enhanced models, thereby fostering interdisciplinary future research.

Summary

AI-Generated Summary

PDF62November 28, 2024