ChatPaper.aiChatPaper

RetrieveGPT: プロンプトと数理モデルの統合によるコード混合情報検索の強化

RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

November 7, 2024
著者: Aniket Deroy, Subhankar Maity
cs.AI

要旨

コードミキシングは、複数の言語からの語彙的および文法的要素を一つの文に統合する言語現象であり、特に多言語社会で広く見られる。インドでは、ソーシャルメディアのユーザーがローマ字を用いたコードミキシング会話を頻繁に行っており、特に移住者コミュニティがオンライングループを形成して関連する地域情報を共有する場面で顕著である。本論文は、ローマ字転写されたベンガル語と英語が混在したコードミキシング会話から関連情報を抽出する際の課題に焦点を当てる。この課題に対処するため、コードミキシング会話から最も関連性の高い回答を自動的に識別するメカニズムを開発する新たなアプローチを提案する。我々は、Facebookからのクエリとドキュメント、およびクエリ関連性ファイル(QRels)を含むデータセットを用いて実験を行った。その結果、複雑なコードミキシングデジタル会話から適切な情報を抽出する本アプローチの有効性が示され、多言語および非公式テキスト環境における自然言語処理の分野に貢献するものである。我々は、GPT-3.5 Turboをプロンプティングに使用し、関連ドキュメントの連続性を利用して、クエリに対応する関連ドキュメントを検出する数学モデルを構築した。
English
Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.
PDF173December 4, 2025