Artículos de investigación en IA seleccionados diariamente con traducciones
Describimos el desarrollo y las capacidades de Meltemi 7B, el primer Modelo de Lenguaje Grande abierto para el idioma griego. Meltemi 7B tiene 7 mil millones de parámetros y está entrenado en un corpus griego de 40 mil millones de tokens. Para el desarrollo de Meltemi 7B, adaptamos Mistral, mediante un preentrenamiento continuo en el Corpus griego. Meltemi 7B contiene información actualizada hasta septiembre de 2023. Además, hemos traducido y curado un corpus de instrucciones en griego, que se ha utilizado para el ajuste de instrucciones de un modelo de chat, llamado Meltemi 7B Instruct. Se ha prestado especial atención a la alineación y eliminación de contenido tóxico para Meltemi 7B Instruct. Los modelos desarrollados se evalúan en un amplio conjunto de corpora de evaluación recopilados, y se presentan ejemplos de estímulos y respuestas. Tanto Meltemi 7B como Meltemi 7B Instruct están disponibles en https://huggingface.co/ilsp bajo la licencia Apache 2.0.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han revolucionado el campo del procesamiento de lenguaje natural, logrando un rendimiento sin precedentes en una variedad de aplicaciones al aprovechar tamaños de modelo aumentados y longitudes de secuencia extendidas. Sin embargo, el aumento asociado en costos computacionales y de memoria plantea desafíos significativos, especialmente en la gestión de secuencias largas debido a la complejidad cuadrática del mecanismo de atención del transformador. Este artículo se centra en el escenario de contexto largo, abordando las ineficiencias en el consumo de memoria caché KV durante la inferencia. A diferencia de enfoques existentes que optimizan la memoria en función de las longitudes de secuencia, descubrimos que la dimensión del canal de la caché KV muestra una redundancia significativa, caracterizada por una distribución desequilibrada de magnitudes y una estructura de bajo rango en los pesos de atención. Basándonos en estas observaciones, proponemos ThinK, un novedoso método de poda de caché KV dependiente de la consulta diseñado para minimizar la pérdida de peso de atención al podar selectivamente los canales menos significativos. Nuestro enfoque no solo mantiene o mejora la precisión del modelo, sino que también logra una reducción en los costos de memoria de más del 20% en comparación con los métodos convencionales de evicción de caché KV. Evaluaciones exhaustivas en los modelos LLaMA3 y Mistral en diversos conjuntos de datos de secuencias largas confirman la eficacia de ThinK, estableciendo un nuevo precedente para la implementación eficiente de LLM sin comprometer el rendimiento. También esbozamos el potencial de extender nuestro método a la poda de caché de valor, demostrando la versatilidad y amplia aplicabilidad de ThinK en la reducción tanto de la memoria como de la carga computacional.
Las metodologías de pre-entrenamiento a gran escala para modelos de lenguaje químico representan un avance en quimioinformática. Estos métodos sobresalen en tareas como la predicción de propiedades y la generación de moléculas al aprender representaciones contextualizadas de tokens de entrada a través de aprendizaje auto-supervisado en grandes corpora no etiquetados. Típicamente, esto implica pre-entrenamiento en datos no etiquetados seguido de ajuste fino en tareas específicas, reduciendo la dependencia en conjuntos de datos anotados y ampliando la comprensión de la representación del lenguaje químico. Este artículo introduce modelos de base química codificador-decodificador pre-entrenados a gran escala en un conjunto de datos curado de 91 millones de muestras SMILES obtenidas de PubChem, equivalente a 4 mil millones de tokens moleculares. El modelo de base propuesto soporta diferentes tareas complejas, incluyendo la predicción de propiedades cuánticas, y ofrece flexibilidad con dos variantes principales (289M y 8veces289M). Nuestros experimentos en múltiples conjuntos de datos de referencia validan la capacidad del modelo propuesto para proporcionar resultados de vanguardia en diferentes tareas. También proporcionamos una evaluación preliminar de la composicionalidad del espacio de incrustación como requisito previo para las tareas de razonamiento. Demostramos que el espacio latente producido es separable en comparación con el estado del arte con capacidades de aprendizaje con pocas muestras.
A medida que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se integran cada vez más en flujos de trabajo operativos (LLM-Ops), surge una necesidad apremiante de contar con salvaguardias efectivas para garantizar interacciones seguras y alineadas, incluida la capacidad de detectar contenido potencialmente inseguro o inapropiado en varios idiomas. Sin embargo, los clasificadores seguros para el trabajo existentes se centran principalmente en texto en inglés. Para abordar esta brecha en el idioma malayo, presentamos un novedoso clasificador de texto seguro para el trabajo diseñado específicamente para contenido en idioma malayo. Al curar y anotar un conjunto de datos sin precedentes de texto en malayo que abarca múltiples categorías de contenido, entrenamos un modelo de clasificación capaz de identificar material potencialmente inseguro utilizando técnicas de procesamiento de lenguaje natural de vanguardia. Este trabajo representa un paso importante para permitir interacciones más seguras y filtrado de contenido para mitigar posibles riesgos y garantizar la implementación responsable de los LLMs. Para maximizar la accesibilidad y fomentar una mayor investigación para mejorar la alineación en LLM-Ops en el contexto malayo, el modelo se ha publicado de forma gratuita en https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
Presentamos Agentes Aumentados por Difusión (DAAG, por sus siglas en inglés), un marco novedoso que aprovecha modelos de lenguaje grandes, modelos de visión y modelos de difusión para mejorar la eficiencia de muestra y el aprendizaje por transferencia en el aprendizaje por refuerzo para agentes incorporados. DAAG reconsidera retrospectivamente la experiencia pasada del agente utilizando modelos de difusión para transformar videos de manera temporal y geométricamente coherente para alinearse con instrucciones objetivo con una técnica que llamamos Aumento de Experiencia con Perspectiva. Un modelo de lenguaje grande orquesta este proceso autónomo sin requerir supervisión humana, lo que lo hace adecuado para escenarios de aprendizaje continuo. El marco reduce la cantidad de datos etiquetados con recompensa necesarios para 1) ajustar finamente un modelo de lenguaje visual que actúa como detector de recompensa, y 2) entrenar agentes de RL en nuevas tareas. Demostramos las ganancias de eficiencia de muestra de DAAG en entornos de robótica simulados que involucran manipulación y navegación. Nuestros resultados muestran que DAAG mejora el aprendizaje de detectores de recompensa, la transferencia de experiencias pasadas y la adquisición de nuevas tareas, habilidades clave para desarrollar agentes eficientes de aprendizaje continuo. El material suplementario y visualizaciones están disponibles en nuestro sitio web https://sites.google.com/view/diffusion-augmented-agents/
Presentamos Knesset-DictaBERT, un modelo de lenguaje hebreo grande ajustado en el Corpus del Knesset, que comprende los procedimientos parlamentarios israelíes. El modelo se basa en la arquitectura de DictaBERT y muestra mejoras significativas en la comprensión del lenguaje parlamentario según la tarea de MLM. Proporcionamos una evaluación detallada del rendimiento del modelo, mostrando mejoras en la perplejidad y la precisión en comparación con el modelo base de DictaBERT.
Este documento presenta un enfoque innovador para el matting de imágenes que redefine la tarea tradicional basada en regresión como un desafío de modelado generativo. Nuestro método aprovecha las capacidades de los modelos de difusión latente, enriquecidos con un extenso conocimiento pre-entrenado, para regularizar el proceso de matting. Presentamos innovaciones arquitectónicas novedosas que potencian a nuestro modelo para producir máscaras con una resolución y detalle superiores. El método propuesto es versátil y puede realizar tanto matting de imágenes sin guía como basado en guía, adaptándose a una variedad de señales adicionales. Nuestra evaluación exhaustiva en tres conjuntos de datos de referencia demuestra el rendimiento superior de nuestro enfoque, tanto cuantitativa como cualitativamente. Los resultados no solo reflejan la efectividad robusta de nuestro método, sino que también resaltan su capacidad para generar máscaras visualmente atractivas que se acercan a una calidad fotorrealista. La página del proyecto para este documento está disponible en https://lightchaserx.github.io/matting-by-generation/
Los métodos existentes de subtitulado de música se limitan a generar descripciones globales concisas de clips de música cortos, lo que no logra capturar las características musicales detalladas y los cambios musicales conscientes del tiempo. Para abordar estas limitaciones, proponemos FUTGA, un modelo equipado con capacidades de comprensión musical detallada a través del aprendizaje de la generación de aumentos con composiciones temporales. Aprovechamos conjuntos de datos de subtitulado de música existentes y grandes modelos de lenguaje (LLMs) para sintetizar subtítulos de música detallados con descripciones estructurales y límites temporales para canciones completas. Potenciado por el conjunto de datos sintético propuesto, FUTGA es capaz de identificar los cambios temporales de la música en puntos de transición clave y sus funciones musicales, así como generar descripciones detalladas para cada segmento musical. Además, presentamos un conjunto de datos de subtitulado de música completo generado por FUTGA, como la ampliación de los conjuntos de datos MusicCaps y Song Describer. Evaluamos los subtítulos generados automáticamente en varias tareas secundarias, incluida la generación y recuperación de música. Los experimentos demuestran la calidad de los subtítulos generados y el mejor rendimiento en varias tareas secundarias logrado por el enfoque propuesto de subtitulado de música. Nuestro código y conjuntos de datos se pueden encontrar en https://huggingface.co/JoshuaW1997/FUTGA.
La Recuperación de Información Neural ha avanzado rápidamente en idiomas de alto recurso, pero el progreso en idiomas de recursos limitados como el japonés se ha visto obstaculizado por la escasez de datos, entre otros desafíos. En consecuencia, los modelos multilingües han dominado la recuperación en japonés, a pesar de sus ineficiencias computacionales y su incapacidad para capturar matices lingüísticos. Si bien modelos recientes monolingües multi-vector como JaColBERT han reducido esta brecha, aún están rezagados respecto a los métodos multilingües en evaluaciones a gran escala. Este trabajo aborda los métodos de entrenamiento subóptimos de recuperadores multi-vector en entornos de recursos limitados, centrándose en el japonés. Evaluamos sistemáticamente y mejoramos aspectos clave de la inferencia y la configuración de entrenamiento de JaColBERT, y más ampliamente, de los modelos multi-vector. Mejoramos aún más el rendimiento a través de un paso de fusión de puntos de control novedoso, demostrando que es una forma efectiva de combinar los beneficios del ajuste fino con las capacidades de generalización del punto de control original. Basándonos en nuestro análisis, presentamos una nueva receta de entrenamiento, lo que resulta en el modelo JaColBERTv2.5. JaColBERTv2.5, con solo 110 millones de parámetros y entrenado en menos de 15 horas en 4 GPUs A100, supera significativamente a todos los métodos existentes en todos los benchmarks comunes, alcanzando una puntuación promedio de 0.754, significativamente por encima del mejor anterior de 0.720. Para apoyar la investigación futura, ponemos a disposición del público nuestros modelos finales, puntos de control intermedios y todos los datos utilizados.
HAL (Hyper Articles en Ligne) es el repositorio de publicaciones nacional de Francia, utilizado por la mayoría de las organizaciones de educación superior e investigación para su política de ciencia abierta. Como una biblioteca digital, es un rico repositorio de documentos académicos, pero su potencial para la investigación avanzada ha sido subutilizado. Presentamos HALvest, un conjunto de datos único que conecta las redes de citas con el texto completo de los documentos presentados en HAL. Creamos nuestro conjunto de datos filtrando HAL para publicaciones académicas, lo que resulta en aproximadamente 700,000 documentos, abarcando 34 idiomas en 13 dominios identificados, adecuados para el entrenamiento de modelos de lenguaje y generando aproximadamente 16.5 mil millones de tokens (con 8 mil millones en francés y 7 mil millones en inglés, los idiomas más representados). Transformamos los metadatos de cada documento en una red de citas, produciendo un grafo heterogéneo dirigido. Este grafo incluye autores identificados de manera única en HAL, así como todos los documentos presentados abiertos y sus citas. Proporcionamos una línea base para la atribución de autoría utilizando el conjunto de datos, implementamos una variedad de modelos de vanguardia en aprendizaje de representación de grafos para predicción de enlaces, y discutimos la utilidad de la estructura de nuestro grafo de conocimiento generado.