ChatPaper.aiChatPaper

Modelos Pequeños, Gran Impacto: Adaptación Eficiente Basada en Corpus y Grafos de Modelos de Lenguaje Multilingües Pequeños para Idiomas de Recursos Limitados

Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

February 14, 2025
Autores: Daniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
cs.AI

Resumen

Los idiomas de bajos recursos (LRLs, por sus siglas en inglés) enfrentan desafíos significativos en el procesamiento del lenguaje natural (PLN) debido a la limitación de datos. Aunque los modelos de lenguaje grandes (LLMs) más avanzados actualmente aún tienen dificultades con los LRLs, los modelos multilingües más pequeños (mLMs), como mBERT y XLM-R, ofrecen mayor promesa debido a que su capacidad se ajusta mejor a los tamaños reducidos de datos de entrenamiento. Este estudio investiga sistemáticamente métodos eficientes en parámetros basados en adaptadores para adaptar mLMs a LRLs, evaluando tres arquitecturas: Cuello de Botella Secuencial, Cuello de Botella Invertible y Adaptación de Bajo Rango. Utilizando texto no estructurado de GlotCC y conocimiento estructurado de ConceptNet, demostramos que pequeños conjuntos de datos de adaptación (por ejemplo, hasta 1 GB de texto libre o unos pocos MB de datos de grafos de conocimiento) generan mejoras en tareas intrínsecas (modelado de lenguaje enmascarado) y extrínsecas (clasificación de temas, análisis de sentimientos y reconocimiento de entidades nombradas). Encontramos que los adaptadores de Cuello de Botella Secuencial sobresalen en el modelado de lenguaje, mientras que los adaptadores de Cuello de Botella Invertible superan ligeramente a otros métodos en tareas posteriores debido a una mejor alineación de incrustaciones y un mayor número de parámetros. Los métodos basados en adaptadores igualan o superan el ajuste fino completo mientras utilizan muchos menos parámetros, y los mLMs más pequeños resultan más efectivos para LRLs que los LLMs masivos como LLaMA-3, GPT-4 y modelos destilados basados en DeepSeek-R1. Aunque la adaptación mejora el rendimiento, el tamaño de los datos de preentrenamiento sigue siendo el factor dominante, especialmente para idiomas con una amplia cobertura de preentrenamiento.
English
Low-resource languages (LRLs) face significant challenges in natural language processing (NLP) due to limited data. While current state-of-the-art large language models (LLMs) still struggle with LRLs, smaller multilingual models (mLMs) such as mBERT and XLM-R offer greater promise due to a better fit of their capacity to low training data sizes. This study systematically investigates parameter-efficient adapter-based methods for adapting mLMs to LRLs, evaluating three architectures: Sequential Bottleneck, Invertible Bottleneck, and Low-Rank Adaptation. Using unstructured text from GlotCC and structured knowledge from ConceptNet, we show that small adaptation datasets (e.g., up to 1 GB of free-text or a few MB of knowledge graph data) yield gains in intrinsic (masked language modeling) and extrinsic tasks (topic classification, sentiment analysis, and named entity recognition). We find that Sequential Bottleneck adapters excel in language modeling, while Invertible Bottleneck adapters slightly outperform other methods on downstream tasks due to better embedding alignment and larger parameter counts. Adapter-based methods match or outperform full fine-tuning while using far fewer parameters, and smaller mLMs prove more effective for LRLs than massive LLMs like LLaMA-3, GPT-4, and DeepSeek-R1-based distilled models. While adaptation improves performance, pre-training data size remains the dominant factor, especially for languages with extensive pre-training coverage.
PDF92February 17, 2025