RetrieveGPT: Combinación de Prompts y Modelos Matemáticos para la Recuperación de Información Mejorada en Código Mixto
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval
November 7, 2024
Autores: Aniket Deroy, Subhankar Maity
cs.AI
Resumen
La mezcla de códigos, la integración de elementos léxicos y gramatales de múltiples idiomas dentro de una sola oración, es un fenómeno lingüístico generalizado, particularmente prevalente en sociedades multilingües. En India, los usuarios de redes sociales participan frecuentemente en conversaciones con mezcla de códigos utilizando el alfabeto romano, especialmente entre comunidades de migrantes que forman grupos en línea para compartir información local relevante. Este artículo se centra en los desafíos de extraer información relevante de conversaciones con mezcla de códigos, específicamente dentro del bengalí transliterado al romano mezclado con inglés. Este estudio presenta un enfoque novedoso para abordar estos desafíos mediante el desarrollo de un mecanismo para identificar automáticamente las respuestas más relevantes de conversaciones con mezcla de códigos. Hemos experimentado con un conjunto de datos que comprende consultas y documentos de Facebook, y archivos de Relevancia de Consultas (QRels) para ayudar en esta tarea. Nuestros resultados demuestran la efectividad de nuestro enfoque para extraer información pertinente de conversaciones digitales complejas con mezcla de códigos, contribuyendo al campo más amplio del procesamiento del lenguaje natural en entornos de texto multilingües e informales. Utilizamos GPT-3.5 Turbo mediante *prompting*, junto con la naturaleza secuencial de los documentos relevantes, para formular un modelo matemático que ayuda a detectar documentos relevantes correspondientes a una consulta.
English
Code-mixing, the integration of lexical and grammatical elements from
multiple languages within a single sentence, is a widespread linguistic
phenomenon, particularly prevalent in multilingual societies. In India, social
media users frequently engage in code-mixed conversations using the Roman
script, especially among migrant communities who form online groups to share
relevant local information. This paper focuses on the challenges of extracting
relevant information from code-mixed conversations, specifically within Roman
transliterated Bengali mixed with English. This study presents a novel approach
to address these challenges by developing a mechanism to automatically identify
the most relevant answers from code-mixed conversations. We have experimented
with a dataset comprising of queries and documents from Facebook, and Query
Relevance files (QRels) to aid in this task. Our results demonstrate the
effectiveness of our approach in extracting pertinent information from complex,
code-mixed digital conversations, contributing to the broader field of natural
language processing in multilingual and informal text environments. We use
GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant
documents to frame a mathematical model which helps to detect relevant
documents corresponding to a query.