RetrieveGPT: Combinación de Prompts y Modelos Matemáticos para la Recuperación de Información Mejorada en Código Mixto

Resumen

La mezcla de códigos, la integración de elementos léxicos y gramatales de múltiples idiomas dentro de una sola oración, es un fenómeno lingüístico generalizado, particularmente prevalente en sociedades multilingües. En India, los usuarios de redes sociales participan frecuentemente en conversaciones con mezcla de códigos utilizando el alfabeto romano, especialmente entre comunidades de migrantes que forman grupos en línea para compartir información local relevante. Este artículo se centra en los desafíos de extraer información relevante de conversaciones con mezcla de códigos, específicamente dentro del bengalí transliterado al romano mezclado con inglés. Este estudio presenta un enfoque novedoso para abordar estos desafíos mediante el desarrollo de un mecanismo para identificar automáticamente las respuestas más relevantes de conversaciones con mezcla de códigos. Hemos experimentado con un conjunto de datos que comprende consultas y documentos de Facebook, y archivos de Relevancia de Consultas (QRels) para ayudar en esta tarea. Nuestros resultados demuestran la efectividad de nuestro enfoque para extraer información pertinente de conversaciones digitales complejas con mezcla de códigos, contribuyendo al campo más amplio del procesamiento del lenguaje natural en entornos de texto multilingües e informales. Utilizamos GPT-3.5 Turbo mediante *prompting*, junto con la naturaleza secuencial de los documentos relevantes, para formular un modelo matemático que ayuda a detectar documentos relevantes correspondientes a una consulta.

English

Code-mixing, the integration of lexical and grammatical elements from multiple languages within a single sentence, is a widespread linguistic phenomenon, particularly prevalent in multilingual societies. In India, social media users frequently engage in code-mixed conversations using the Roman script, especially among migrant communities who form online groups to share relevant local information. This paper focuses on the challenges of extracting relevant information from code-mixed conversations, specifically within Roman transliterated Bengali mixed with English. This study presents a novel approach to address these challenges by developing a mechanism to automatically identify the most relevant answers from code-mixed conversations. We have experimented with a dataset comprising of queries and documents from Facebook, and Query Relevance files (QRels) to aid in this task. Our results demonstrate the effectiveness of our approach in extracting pertinent information from complex, code-mixed digital conversations, contributing to the broader field of natural language processing in multilingual and informal text environments. We use GPT-3.5 Turbo via prompting alongwith using the sequential nature of relevant documents to frame a mathematical model which helps to detect relevant documents corresponding to a query.