RetrieveGPT: Объединение промтов и математических моделей для улучшенного поиска информации в кодово-смешанных данных
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval
November 7, 2024
Авторы: Aniket Deroy, Subhankar Maity
cs.AI
Аннотация
Кодовое смешение — интеграция лексических и грамматических элементов из нескольких языков в пределах одного предложения — представляет собой широко распространенное лингвистическое явление, особенно характерное для многоязычных обществ. В Индии пользователи социальных сетей часто прибегают к кодовому смешению с использованием латинской графики, в особенности в сообществах мигрантов, которые создают онлайн-группы для обмена соответствующей местной информацией. Данная статья посвящена проблемам извлечения релевантной информации из разговоров с кодовым смешением, в частности на основе романизированного бенгальского языка, смешанного с английским. В исследовании предлагается новый подход к решению этих задач путем разработки механизма автоматической идентификации наиболее релевантных ответов в таких диалогах. Эксперименты проводились на наборе данных, включающем запросы и документы из Facebook, а также файлы оценки релевантности запросов (QRels). Результаты демонстрируют эффективность нашего подхода к извлечению целевой информации из сложных цифровых бесед с кодовым смешением, что вносит вклад в развитие обработки естественного языка в условиях многоязычия и неформальных текстовых сред. Мы используем GPT-3.5 Turbo через промптинг, а также учитываем последовательный характер релевантных документов для построения математической модели, которая помогает выявлять документы, соответствующие запросу.
English
Code-mixing, the integration of lexical and grammatical elements from
multiple languages within a single sentence, is a widespread linguistic
phenomenon, particularly prevalent in multilingual societies. In India, social
media users frequently engage in code-mixed conversations using the Roman
script, especially among migrant communities who form online groups to share
relevant local information. This paper focuses on the challenges of extracting
relevant information from code-mixed conversations, specifically within Roman
transliterated Bengali mixed with English. This study presents a novel approach
to address these challenges by developing a mechanism to automatically identify
the most relevant answers from code-mixed conversations. We have experimented
with a dataset comprising of queries and documents from Facebook, and Query
Relevance files (QRels) to aid in this task. Our results demonstrate the
effectiveness of our approach in extracting pertinent information from complex,
code-mixed digital conversations, contributing to the broader field of natural
language processing in multilingual and informal text environments. We use
GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant
documents to frame a mathematical model which helps to detect relevant
documents corresponding to a query.