Artículos de investigación en IA seleccionados diariamente con traducciones
Los factores clave detrás del desarrollo de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con capacidades de aprendizaje impresionantes son sus tamaños colosales y los extensos conjuntos de datos de entrenamiento. Junto con los avances en el procesamiento del lenguaje natural, los LLMs se han hecho frecuentemente accesibles al público para fomentar una investigación más profunda y aplicaciones prácticas. Sin embargo, cuando se trata de los conjuntos de datos de entrenamiento para estos LLMs, especialmente los modelos más recientes y avanzados, a menudo no se divulgan por completo. La creación de datos de entrenamiento para LLMs de alto rendimiento implica una limpieza y deduplicación extensas para garantizar el nivel de calidad necesario. La falta de transparencia en los datos de entrenamiento ha obstaculizado la investigación sobre la atribución y el abordaje de problemas como las alucinaciones y los sesgos en los LLMs, dificultando los esfuerzos de replicación y los avances adicionales en la comunidad. Estos desafíos se vuelven aún más pronunciados en escenarios de aprendizaje multilingüe, donde los conjuntos de datos de texto multilingüe disponibles a menudo están recopilados y limpiados de manera inadecuada. En consecuencia, existe una falta de conjuntos de datos de código abierto y listos para usar que permitan entrenar eficazmente LLMs en múltiples idiomas. Para superar este problema, presentamos CulturaX, un conjunto de datos multilingüe sustancial con 6.3 billones de tokens en 167 idiomas, diseñado específicamente para el desarrollo de LLMs. Nuestro conjunto de datos se somete a una limpieza y deduplicación meticulosas a través de un riguroso pipeline de múltiples etapas para lograr la mejor calidad en el entrenamiento de modelos, incluyendo identificación de idiomas, filtrado basado en URLs, limpieza basada en métricas, refinamiento de documentos y deduplicación de datos. CulturaX se ha publicado completamente al público en HuggingFace para facilitar la investigación y los avances en LLMs multilingües: https://huggingface.co/datasets/uonlp/CulturaX.
Exploramos cómo el preentrenamiento continuo en corpus específicos de dominio influye en los modelos de lenguaje grandes, revelando que el entrenamiento en los corpus sin procesar dota al modelo de conocimiento del dominio, pero perjudica drásticamente su capacidad de respuesta mediante indicaciones (prompting) para tareas de preguntas y respuestas. Inspirándonos en el aprendizaje humano a través de la comprensión lectora—donde la práctica después de la lectura mejora la capacidad de responder preguntas basadas en el conocimiento adquirido—proponemos un método simple para transformar corpus sin procesar en textos de comprensión lectora. Cada texto original se enriquece con una serie de tareas relacionadas con su contenido. Nuestro método, altamente escalable y aplicable a cualquier corpus de preentrenamiento, mejora consistentemente el rendimiento en diversas tareas en tres dominios diferentes: biomedicina, finanzas y derecho. Destacablemente, nuestro modelo de lenguaje de 7B logra un rendimiento competitivo con modelos específicos de dominio de escalas mucho mayores, como BloombergGPT-50B. Además, demostramos que los textos de comprensión lectora específicos de dominio pueden mejorar el rendimiento del modelo incluso en benchmarks generales, mostrando el potencial para desarrollar un modelo general en aún más dominios. Nuestro modelo, código y datos estarán disponibles en https://github.com/microsoft/LMOps.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan problemas en la tarea de respuesta a preguntas sobre documentos (QA, por sus siglas en inglés) cuando el documento no cabe en el limitado contexto que puede manejar un LLM. Para superar este problema, la mayoría de los trabajos existentes se centran en recuperar el contexto relevante del documento, representándolo como texto plano. Sin embargo, documentos como PDFs, páginas web y presentaciones tienen una estructura natural compuesta por diferentes páginas, tablas, secciones, entre otros elementos. Representar estos documentos estructurados como texto plano no se alinea con el modelo mental que tienen los usuarios sobre estos documentos, los cuales poseen una estructura rica. Cuando un sistema necesita consultar el documento para obtener contexto, esta incongruencia se hace evidente, y preguntas aparentemente triviales pueden confundir al sistema de QA. Para cerrar esta brecha fundamental en el manejo de documentos estructurados, proponemos un enfoque llamado PDFTriage que permite a los modelos recuperar el contexto basándose tanto en la estructura como en el contenido. Nuestros experimentos demuestran la efectividad de los modelos potenciados con PDFTriage en varias clases de preguntas donde los LLMs mejorados con recuperación de contexto existentes fallan. Para facilitar más investigaciones sobre este problema fundamental, publicamos nuestro conjunto de datos de referencia, que incluye más de 900 preguntas generadas por humanos sobre 80 documentos estructurados, abarcando 10 categorías diferentes de tipos de preguntas para QA sobre documentos.
Este artículo presenta una encuesta exhaustiva de la taxonomía y evolución de los modelos fundacionales multimodales que demuestran capacidades de visión y visión-lenguaje, centrándose en la transición de modelos especializados a asistentes de propósito general. El panorama de investigación abarca cinco temas principales, categorizados en dos clases. (i) Comenzamos con una revisión de áreas de investigación bien establecidas: modelos fundacionales multimodales preentrenados para propósitos específicos, incluyendo dos temas — métodos de aprendizaje de backbones de visión para comprensión visual y generación de texto a imagen. (ii) Luego, presentamos avances recientes en áreas de investigación exploratorias y abiertas: modelos fundacionales multimodales que buscan desempeñar el papel de asistentes de propósito general, incluyendo tres temas — modelos de visión unificados inspirados en modelos de lenguaje grandes (LLMs), entrenamiento de extremo a extremo de LLMs multimodales, y encadenamiento de herramientas multimodales con LLMs. El público objetivo de este artículo son investigadores, estudiantes de posgrado y profesionales en las comunidades de visión por computadora y multimodalidad visión-lenguaje que desean aprender los fundamentos y avances recientes en modelos fundacionales multimodales.
Demostramos que el Decodificado Contrastivo —un método simple, computacionalmente ligero y que no requiere entrenamiento, propuesto por Li et al. en 2022— logra mejoras significativas inmediatas sobre el decodificado voraz en una variedad de tareas de razonamiento. Originalmente mostrado para mejorar la calidad percibida en la generación de texto de largo formato, el Decodificado Contrastivo busca cadenas que maximicen una diferencia ponderada en la probabilidad entre modelos fuertes y débiles. Mostramos que el Decodificado Contrastivo permite que LLaMA-65B supere a LLaMA 2, GPT-3.5 y PaLM 2-L en el benchmark de razonamiento de sentido común HellaSwag, y que supere a LLaMA 2, GPT-3.5 y PaLM-540B en el benchmark de razonamiento matemático GSM8K, además de mejoras en una colección de otras tareas. El análisis sugiere que el Decodificado Contrastivo mejora sobre los métodos existentes al prevenir ciertos errores de razonamiento abstracto, así como al evitar modos más simples, como copiar secciones de la entrada durante el razonamiento en cadena. En general, el Decodificado Contrastivo supera al muestreo por núcleo en la generación de texto de largo formato y al decodificado voraz en tareas de razonamiento, convirtiéndolo en un método de propósito general potente para generar texto a partir de modelos de lenguaje.
El rápido avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha revolucionado el procesamiento del lenguaje natural (NLP). Si bien estos modelos sobresalen en la comprensión y generación de texto similar al humano, su implementación generalizada puede resultar prohibitivamente costosa. SortedNet es una técnica de entrenamiento reciente que permite la inferencia dinámica en redes neuronales profundas. Aprovecha la modularidad de la red para crear submodelos con cargas computacionales variables, organizándolos de manera anidada según sus características de computación/precisión. Extendemos SortedNet a tareas generativas de NLP, haciendo que los modelos de lenguaje de gran escala sean dinámicos sin necesidad de preentrenamiento y simplemente reemplazando el ajuste fino supervisado estándar (SFT) con el ajuste fino ordenado (SoFT) a los mismos costos. Nuestro enfoque mejora la eficiencia del modelo, eliminando la necesidad de múltiples modelos para diversos escenarios durante la inferencia. Demostramos que, utilizando este enfoque, podemos desbloquear el potencial de las capas intermedias de los transformadores para generar la salida objetivo. Nuestros submodelos siguen siendo componentes integrales del modelo original, minimizando los requisitos de almacenamiento y los costos de transición entre diferentes presupuestos de computación/latencia. Al aplicar este enfoque en LLaMa 2 13B para ajustarlo en el conjunto de datos Stanford Alpaca y compararlo con el ajuste normal y la salida temprana mediante el benchmark PandaLM, mostramos que el ajuste fino ordenado puede ofrecer modelos dos veces más rápidos que el modelo original mientras mantiene o supera su rendimiento.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en una variedad de tareas de procesamiento de lenguaje natural basándose en solo unos pocos ejemplos de instrucciones en lenguaje natural, reduciendo así la necesidad de un extenso diseño de características. Sin embargo, la mayoría de los LLMs más potentes son de código cerrado o tienen capacidades limitadas para idiomas distintos al inglés. En este informe técnico, presentamos Baichuan 2, una serie de modelos de lenguaje multilingüe de gran escala que contienen 7 mil millones y 13 mil millones de parámetros, entrenados desde cero con 2.6 billones de tokens. Baichuan 2 iguala o supera a otros modelos de código abierto de tamaño similar en benchmarks públicos como MMLU, CMMLU, GSM8K y HumanEval. Además, Baichuan 2 destaca en dominios verticales como la medicina y el derecho. Publicaremos todos los puntos de control de los modelos de preentrenamiento para beneficiar a la comunidad de investigación y facilitar una mejor comprensión de la dinámica de entrenamiento de Baichuan 2.
El ajuste mediante instrucciones visuales ha mostrado recientemente avances alentadores con modelos multimodales grandes (LMM) de código abierto como LLaVA y MiniGPT-4. Sin embargo, la mayoría de los estudios existentes sobre LMM de código abierto se realizan utilizando modelos con 13 mil millones de parámetros o menos. En este artículo presentamos un estudio empírico sobre la escalabilidad de LLaVA hasta 33 mil millones y 65/70 mil millones de parámetros, y compartimos nuestros hallazgos en exploraciones sobre resolución de imágenes, mezcla de datos y métodos de entrenamiento eficientes en parámetros como LoRA/QLoRA. Estos se evalúan por su impacto en las capacidades multimodales y lingüísticas al completar tareas del mundo real en entornos diversos. Descubrimos que escalar los LMM mejora consistentemente el rendimiento del modelo y las capacidades lingüísticas, y que el rendimiento del ajuste mediante LoRA/QLoRA en LMM es comparable al del ajuste fino completo del modelo. Además, el estudio destaca la importancia de resoluciones de imagen más altas y la mezcla de datos multimodales-lingüísticos para mejorar el rendimiento de los LMM, y que el ajuste mediante instrucciones visuales puede, en ocasiones, mejorar la capacidad puramente lingüística de los LMM. Esperamos que este estudio haga que la investigación de vanguardia en LMM a mayor escala sea más accesible, ayudando así a establecer líneas base más sólidas para futuras investigaciones. El código y los puntos de control se harán públicos.
La generación de diseños gráficos, un campo de investigación en crecimiento, desempeña un papel significativo en la participación del usuario y la percepción de la información. Los métodos existentes tratan principalmente la generación de diseños como una tarea de optimización numérica, centrándose en aspectos cuantitativos mientras pasan por alto la información semántica del diseño, como la relación entre cada elemento del mismo. En este artículo, proponemos LayoutNUWA, el primer modelo que aborda la generación de diseños como una tarea de generación de código para mejorar la información semántica y aprovechar el conocimiento oculto sobre diseños de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Más concretamente, desarrollamos un enfoque de Ajuste por Instrucción de Código (CIT, por sus siglas en inglés) que consta de tres módulos interconectados: 1) el módulo de Inicialización de Código (CI) cuantifica las condiciones numéricas y las inicializa como código HTML con máscaras colocadas estratégicamente; 2) el módulo de Completado de Código (CC) utiliza el conocimiento de formato de los LLMs para rellenar las porciones enmascaradas dentro del código HTML; 3) el módulo de Renderizado de Código (CR) transforma el código completado en el diseño final, asegurando un procedimiento de generación de diseños altamente interpretable y transparente que mapea directamente el código a un diseño visualizado. Logramos un rendimiento significativo de vanguardia (incluso mejoras superiores al 50%) en múltiples conjuntos de datos, demostrando las fuertes capacidades de LayoutNUWA. Nuestro código está disponible en https://github.com/ProjectNUWA/LayoutNUWA.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) tienen la capacidad de realizar planificación compleja en sistemas multiagente y pueden coordinar a estos agentes para completar tareas sofisticadas que requieren una colaboración extensa. Sin embargo, a pesar de la introducción de numerosos marcos de trabajo para juegos, la comunidad carece de puntos de referencia suficientes para construir una infraestructura general de colaboración multiagente que abarque tanto la colaboración entre LLMs como entre humanos y NPCs. En este trabajo, proponemos una infraestructura novedosa, MindAgent, para evaluar las capacidades emergentes de planificación y coordinación en interacciones de juegos. En particular, nuestra infraestructura aprovecha marcos de juego existentes para: i) requerir la comprensión del coordinador en un sistema multiagente, ii) colaborar con jugadores humanos mediante instrucciones adecuadas sin ajuste fino, y iii) establecer un aprendizaje en contexto con pocos ejemplos y retroalimentación. Además, presentamos CUISINEWORLD, un nuevo escenario de juego y un punto de referencia relacionado que evalúa la eficiencia de la colaboración multiagente y supervisa a múltiples agentes jugando simultáneamente. Realizamos evaluaciones exhaustivas con una nueva métrica automática, CoS, para calcular la eficiencia de la colaboración. Finalmente, nuestra infraestructura puede implementarse en escenarios de juego del mundo real en una versión personalizada de realidad virtual de CUISINEWORLD y adaptarse al dominio más amplio de Minecraft. Esperamos que nuestros hallazgos sobre los LLMs y la nueva infraestructura para la planificación y coordinación de propósito general puedan ayudar a esclarecer cómo estas habilidades pueden adquirirse mediante el aprendizaje a partir de grandes corpus de lenguaje.
A medida que avanza rápidamente el desarrollo de aplicaciones prácticas basadas en modelos de lenguaje de gran escala (LLM), la importancia de extrapolar el rendimiento ha crecido exponencialmente en el ámbito de la investigación. En nuestro estudio, identificamos un comportamiento anómalo en los modelos Transformer que había pasado desapercibido anteriormente, lo que generó un caos en torno a los tokens más cercanos que contenían la información más relevante. Hemos denominado a este descubrimiento la "dolencia de los Transformers". Para abordar este problema en su raíz, introdujimos una nueva estructura de autoatención llamada Atención con Restricción Colineal (CoCA, por sus siglas en inglés). Esta estructura puede integrarse sin problemas con métodos existentes de extrapolación, interpolación y otras estrategias de optimización diseñadas para modelos Transformer tradicionales. Hemos logrado un excelente rendimiento en extrapolación, incluso para longitudes de secuencia de 16 a 24 veces mayores durante la inferencia, sin necesidad de ajustar nuestro modelo. Además, hemos mejorado la eficiencia computacional y espacial de CoCA para garantizar su practicidad. Planeamos liberar el código fuente de CoCA en breve. Mientras tanto, hemos incluido nuestro código en el apéndice para facilitar la reproducción de los experimentos.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural, sin embargo, alinear estos modelos con los valores y preferencias humanas mediante el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) sigue siendo un desafío significativo. Este desafío se caracteriza por diversas inestabilidades, como el hackeo de recompensas y el olvido catastrófico. En este informe técnico, proponemos dos innovaciones para estabilizar el entrenamiento de RLHF: 1) el Modelo de Ventaja, que modela directamente la puntuación de ventaja, es decir, la recompensa adicional en comparación con las recompensas esperadas, y regula las distribuciones de puntuación entre tareas para prevenir el hackeo de recompensas. 2) la Revisión Selectiva, que mitiga el olvido catastrófico seleccionando estratégicamente datos para el entrenamiento de Optimización de Políticas Proximales (PPO, por sus siglas en inglés) y la revisión de conocimientos. Nuestro análisis experimental en conjuntos de datos públicos y propietarios revela que los métodos propuestos no solo aumentan la estabilidad en el entrenamiento de RLHF, sino que también logran puntuaciones de recompensa y tasas de victoria más altas.
A pesar del poder de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como GPT-4, estos aún enfrentan dificultades en tareas que requieren la generación de salidas complejas y estructuradas. En este estudio, evaluamos la capacidad de los LLMs actuales para generar datos estructurados complejos y proponemos un enfoque de ajuste fino consciente de la estructura como solución para mejorar esta habilidad. Para realizar una evaluación exhaustiva, proponemos Struc-Bench, que incluye cinco LLMs representativos (es decir, GPT-NeoX 20B, GPT-3.5, GPT-4 y Vicuna) y los evaluamos en nuestros conjuntos de datos cuidadosamente construidos que abarcan texto sin formato, HTML y tablas en LaTeX. Basándonos en nuestro análisis del rendimiento actual de los modelos, identificamos errores comunes de formato específicos y áreas de mejora potencial. Para abordar los requisitos de formato complejos, utilizamos FormatCoT (Cadena de Pensamiento) para generar instrucciones de formato a partir de salidas objetivo. Nuestros experimentos muestran que nuestro método de ajuste fino consciente de la estructura, cuando se aplica a LLaMA-7B, mejora significativamente la adherencia a las restricciones del lenguaje natural, superando a otros LLMs evaluados. Con base en estos resultados, presentamos un mapa de capacidades de los modelos desde seis dimensiones (es decir, cobertura, formato, razonamiento, comprensión, pragmática y alucinación). Este mapa resalta las debilidades de los LLMs en el manejo de salidas estructuradas complejas y sugiere direcciones prometedoras para trabajos futuros. Nuestro código y modelos se pueden encontrar en https://github.com/gersteinlab/Struc-Bench.
Los modelos de lenguaje de gran escala con capacidades de seguimiento de instrucciones han revolucionado el campo de la inteligencia artificial. Estos modelos muestran una excepcional capacidad de generalización para abordar diversas tareas del mundo real a través de sus interfaces de lenguaje natural. Sin embargo, su rendimiento depende en gran medida de datos ejemplares de alta calidad, que a menudo son difíciles de obtener. Este desafío se ve aún más agravado cuando se trata del seguimiento de instrucciones multimodales. Presentamos TextBind, un marco casi libre de anotaciones para potenciar modelos de lenguaje más grandes con capacidades de seguimiento de instrucciones multimodales intercaladas en múltiples turnos. Nuestro enfoque requiere únicamente pares de imágenes y descripciones, y genera conversaciones multimodales de instrucción-respuesta en múltiples turnos a partir de un modelo de lenguaje. Publicamos nuestro conjunto de datos, modelo y demostración para fomentar futuras investigaciones en el área del seguimiento de instrucciones multimodales.
Shampoo es un algoritmo de optimización en línea y estocástico que pertenece a la familia de métodos AdaGrad para el entrenamiento de redes neuronales. Construye un precondicionador de bloques diagonales donde cada bloque consiste en una aproximación gruesa mediante el producto de Kronecker al AdaGrad de matriz completa para cada parámetro de la red neuronal. En este trabajo, proporcionamos una descripción completa del algoritmo, así como las optimizaciones de rendimiento que nuestra implementación aprovecha para entrenar redes profundas a gran escala en PyTorch. Nuestra implementación permite un entrenamiento distribuido y paralelo de datos en múltiples GPU de manera rápida, distribuyendo la memoria y el cálculo asociados con los bloques de cada parámetro mediante la estructura de datos DTensor de PyTorch y realizando una primitiva AllGather en las direcciones de búsqueda calculadas en cada iteración. Esta mejora significativa en el rendimiento nos permite lograr, como máximo, una reducción del 10% en el tiempo de reloj por paso en comparación con los métodos de gradiente adaptativo basados en escalado diagonal estándar. Validamos nuestra implementación realizando un estudio de ablación en el entrenamiento de ResNet50 en ImageNet, demostrando la superioridad de Shampoo sobre las recetas de entrenamiento estándar con un ajuste mínimo de hiperparámetros.
El problema tradicional de seguimiento del estado del diálogo (DST, por sus siglas en inglés) tiene como objetivo rastrear las preferencias e intenciones del usuario en conversaciones entre usuarios y agentes. Aunque es suficiente para sistemas de diálogo orientados a tareas que soportan aplicaciones de dominio específico, el surgimiento de sistemas de chat basados en modelos de lenguaje de gran escala (LLM) ha introducido muchas complejidades del mundo real en diálogos de dominio abierto. Estas complejidades se manifiestan en forma de una mayor interacción contextual, sesiones de diálogo extendidas que abarcan una amplia variedad de temas y cambios contextuales más frecuentes. Para manejar estas complejidades derivadas de la evolución de los sistemas de chat basados en LLM, proponemos la segmentación conjunta del diálogo y el seguimiento del estado por segmento en sistemas de diálogo de dominio abierto. Asumiendo un entorno de cero disparos apropiado para un verdadero sistema de diálogo de dominio abierto, proponemos S3-DST, una técnica de indicación estructurada que aprovecha la Recolección Pre-Analítica, un mecanismo de fundamentación novedoso que diseñamos para mejorar el seguimiento de contextos largos. Para demostrar la eficacia de nuestro enfoque propuesto en la segmentación conjunta y el seguimiento del estado, evaluamos S3-DST en un conjunto de datos de diálogo de dominio abierto anonimizado y propietario, así como en conjuntos de datos públicos de DST y segmentación. En todos los conjuntos de datos y configuraciones, S3-DST supera consistentemente al estado del arte, demostrando su potencia y robustez para la próxima generación de sistemas de chat basados en LLM.
En la generación de música basada en modelado de lenguaje, una forma de onda generada se representa mediante una secuencia de pilas jerárquicas de tokens que pueden decodificarse de manera autorregresiva o en paralelo, dependiendo de los patrones del codebook. En particular, aplanar los codebooks representa la estrategia de decodificación de mayor calidad, aunque es notoriamente lenta. Con este fin, proponemos una novedosa estrategia de decodificación de tipo "apilar y retrasar" para mejorar la decodificación de patrones planos, donde la velocidad de generación es cuatro veces más rápida en comparación con la decodificación plana convencional. Esto acerca el tiempo de inferencia al de la estrategia de decodificación con retraso y permite una inferencia más rápida en GPU para tamaños de lote pequeños. Con el mismo presupuesto de eficiencia de inferencia que el patrón de retraso, demostramos que el enfoque propuesto tiene un mejor desempeño en evaluaciones objetivas, casi cerrando la brecha con el patrón plano en términos de calidad. Los resultados se corroboran con evaluaciones subjetivas que muestran que las muestras generadas por el nuevo modelo son ligeramente más preferidas que las generadas por el modelo competidor, dados los mismos indicadores de texto.
La adaptación del modelo es crucial para manejar la discrepancia entre los datos de entrenamiento proxy y los datos reales de los usuarios. Para realizar esta adaptación de manera efectiva, los datos textuales de los usuarios suelen almacenarse en servidores o en sus dispositivos locales, donde los modelos de procesamiento de lenguaje natural (PLN) pueden entrenarse directamente utilizando dichos datos del dominio específico. Sin embargo, esto podría plantear preocupaciones de privacidad y seguridad debido a los riesgos adicionales de exponer la información de los usuarios a adversarios. Recientemente se ha explorado la posibilidad de reemplazar la información identificable en los datos textuales con un marcador genérico. En este trabajo, aprovechamos los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para sugerir sustitutos de los tokens enmascarados y evaluar su efectividad en tareas de modelado de lenguaje. Específicamente, proponemos múltiples enfoques basados en LLMs preentrenados y ajustados, y realizamos estudios empíricos en varios conjuntos de datos para comparar estos métodos. Los resultados experimentales muestran que los modelos entrenados en los corpus ofuscados son capaces de alcanzar un rendimiento comparable con aquellos entrenados en los datos originales sin el enmascaramiento de tokens que preserva la privacidad.
Este artículo presenta un enfoque innovador para mejorar el control sobre la generación de audio, enfatizando la alineación entre las representaciones de audio y texto durante el entrenamiento del modelo. En el contexto de la generación de audio basada en modelos de lenguaje, el modelo utiliza entradas tanto de representaciones de tokens de texto como de audio para predecir los tokens de audio subsiguientes. Sin embargo, la configuración actual carece de una regularización explícita para garantizar la alineación entre la representación de texto seleccionada y las predicciones del modelo de lenguaje. Nuestra propuesta implica la incorporación de una regularización de las representaciones de audio y texto, particularmente durante la fase de guía sin clasificador (CFG, por sus siglas en inglés), donde la condición de texto se excluye de la atención cruzada durante el entrenamiento del modelo de lenguaje. El objetivo de esta regularización de representación propuesta es minimizar las discrepancias en la similitud entre audio y texto en comparación con otras muestras dentro del mismo lote de entrenamiento. Los resultados experimentales en tareas de generación de música y audio demuestran que nuestros métodos propuestos conducen a mejoras en las métricas objetivas tanto para la generación de audio como de música, así como a una mejora en la percepción humana de la generación de audio.
El análisis semántico del habla (SSP, por sus siglas en inglés) implica generar representaciones comprensibles por máquinas a partir de una entrada de voz. Entrenar modelos robustos para dominios de aplicación existentes representados en datos de entrenamiento o extenderlos a nuevos dominios requiere tripletes correspondientes de datos de voz-transcripción-análisis semántico, los cuales son costosos de obtener. En este artículo, abordamos este desafío examinando métodos que pueden utilizar datos de transcripción-análisis semántico (texto no emparejado) sin la voz correspondiente. Primero, cuando el texto no emparejado se extrae de corpus textuales existentes, se comparan Joint Audio Text (JAT) y Text-to-Speech (TTS) como formas de generar representaciones de voz para el texto no emparejado. Los experimentos en el conjunto de datos STOP muestran que el texto no emparejado de dominios existentes y nuevos mejora el rendimiento en un 2% y un 30% en Exact Match (EM) absoluto, respectivamente. Segundo, consideramos el escenario en el que el texto no emparejado no está disponible en corpus textuales existentes. Proponemos utilizar modelos de lenguaje de gran escala (LLMs) para generar texto no emparejado para dominios existentes y nuevos. Los experimentos muestran que ejemplos y palabras que coocurren con intenciones pueden usarse para generar texto no emparejado con Llama 2.0. Utilizar el texto generado con JAT y TTS para el análisis semántico del habla mejora EM en STOP en un 1.4% y un 2.6% absoluto para dominios existentes y nuevos, respectivamente.