Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje (LM, por sus siglas en inglés) son herramientas poderosas para el procesamiento del lenguaje natural, pero a menudo tienen dificultades para producir texto coherente y fluido cuando son de tamaño reducido. Modelos con alrededor de 125 millones de parámetros, como GPT-Neo (pequeño) o GPT-2 (pequeño), rara vez pueden generar texto en inglés coherente y consistente más allá de unas pocas palabras, incluso después de un entrenamiento extenso. Esto plantea la cuestión de si la capacidad de producir texto coherente en inglés solo emerge a escalas mayores (con cientos de millones de parámetros o más) y con arquitecturas complejas (con muchas capas de atención global). En este trabajo, presentamos TinyStories, un conjunto de datos sintético de cuentos cortos que solo contienen palabras que un niño típico de 3 a 4 años suele entender, generados por GPT-3.5 y GPT-4. Demostramos que TinyStories puede utilizarse para entrenar y evaluar LM que son mucho más pequeños que los modelos de última generación (menos de 10 millones de parámetros en total) o que tienen arquitecturas mucho más simples (con solo un bloque de transformadores), pero que aún así producen cuentos fluidos y consistentes de varios párrafos que son diversos, tienen una gramática casi perfecta y demuestran capacidades de razonamiento. También introducimos un nuevo paradigma para la evaluación de modelos de lenguaje: proponemos un marco que utiliza GPT-4 para calificar el contenido generado por estos modelos como si fueran cuentos escritos por estudiantes y calificados por un profesor (humano). Este nuevo paradigma supera los defectos de los puntos de referencia estándar, que a menudo requieren que la salida del modelo sea muy estructurada, y además proporciona una puntuación multidimensional para el modelo, ofreciendo calificaciones para diferentes capacidades, como gramática, creatividad y consistencia. Esperamos que TinyStories pueda facilitar el desarrollo, análisis e investigación de LM, especialmente en dominios de bajos recursos o especializados, y arrojar luz sobre la emergencia de capacidades lingüísticas en los LM.
Presentamos SoundStorm, un modelo para la generación eficiente y no autorregresiva de audio. SoundStorm recibe como entrada los tokens semánticos de AudioLM y se basa en atención bidireccional y decodificación paralela basada en confianza para generar los tokens de un códec de audio neuronal. En comparación con el enfoque de generación autorregresiva de AudioLM, nuestro modelo produce audio de la misma calidad y con mayor consistencia en la voz y las condiciones acústicas, siendo dos órdenes de magnitud más rápido. SoundStorm genera 30 segundos de audio en 0.5 segundos en un TPU-v4. Demostramos la capacidad de nuestro modelo para escalar la generación de audio a secuencias más largas mediante la síntesis de segmentos de diálogo naturales y de alta calidad, dado un texto transcrito anotado con turnos de hablantes y un breve indicador con las voces de los interlocutores.
Investigaciones recientes han sugerido que existen diferencias claras en el lenguaje utilizado en la Dark Web en comparación con el de la Surface Web. Dado que los estudios sobre la Dark Web comúnmente requieren análisis textual del dominio, los modelos de lenguaje específicos para la Dark Web pueden proporcionar información valiosa a los investigadores. En este trabajo, presentamos DarkBERT, un modelo de lenguaje preentrenado con datos de la Dark Web. Describimos los pasos tomados para filtrar y compilar los datos de texto utilizados para entrenar DarkBERT, con el fin de combatir la extrema diversidad léxica y estructural de la Dark Web que podría ser perjudicial para construir una representación adecuada del dominio. Evaluamos DarkBERT y su contraparte estándar, junto con otros modelos de lenguaje ampliamente utilizados, para validar los beneficios que ofrece un modelo específico del dominio de la Dark Web en diversos casos de uso. Nuestras evaluaciones muestran que DarkBERT supera a los modelos de lenguaje actuales y puede servir como un recurso valioso para futuras investigaciones sobre la Dark Web.
Los recientes sistemas de inteligencia artificial (IA) han alcanzado hitos en "grandes desafíos" que van desde el Go hasta el plegamiento de proteínas. La capacidad de recuperar conocimiento médico, razonar sobre él y responder preguntas médicas de manera comparable a los médicos ha sido considerada durante mucho tiempo como uno de estos grandes desafíos. Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado avances significativos en la respuesta a preguntas médicas; Med-PaLM fue el primer modelo en superar una puntuación de "aprobación" en preguntas estilo del Examen de Licenciatura Médica de EE. UU. (USMLE) con un puntaje del 67.2% en el conjunto de datos MedQA. Sin embargo, este y otros trabajos previos sugirieron un margen significativo de mejora, especialmente cuando las respuestas de los modelos se compararon con las de los médicos. Aquí presentamos Med-PaLM 2, que cierra estas brechas aprovechando una combinación de mejoras en el modelo base (PaLM 2), ajuste fino en el dominio médico y estrategias de "prompting", incluyendo un novedoso enfoque de refinamiento por ensamblaje. Med-PaLM 2 obtuvo hasta un 86.5% en el conjunto de datos MedQA, superando a Med-PaLM en más de un 19% y estableciendo un nuevo estado del arte. También observamos un rendimiento que se acerca o supera el estado del arte en los conjuntos de datos MedMCQA, PubMedQA y MMLU sobre temas clínicos. Realizamos evaluaciones humanas detalladas en preguntas de formato largo a lo largo de múltiples ejes relevantes para aplicaciones clínicas. En una clasificación comparativa por pares de 1066 preguntas médicas de consumidores, los médicos prefirieron las respuestas de Med-PaLM 2 sobre las producidas por médicos en ocho de nueve ejes relacionados con la utilidad clínica (p < 0.001). También observamos mejoras significativas en comparación con Med-PaLM en cada eje de evaluación (p < 0.001) en nuevos conjuntos de datos de 240 preguntas de formato largo "adversariales" diseñadas para explorar las limitaciones de los LLMs. Si bien se necesitan más estudios para validar la eficacia de estos modelos en entornos del mundo real, estos resultados destacan un progreso rápido hacia un rendimiento de nivel médico en la respuesta a preguntas médicas.
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) preentrenados en grandes volúmenes de código fuente han logrado avances destacados en inteligencia de código. Sin embargo, los LLMs de código existentes presentan dos limitaciones principales en términos de arquitectura y tareas de preentrenamiento. En primer lugar, suelen adoptar una arquitectura específica (solo codificador o solo decodificador) o dependen de una red unificada codificador-decodificador para diferentes tareas posteriores. El primer paradigma se ve limitado por su inflexibilidad en aplicaciones, mientras que en el segundo, el modelo se trata como un sistema único para todas las tareas, lo que resulta en un rendimiento subóptimo en un subconjunto de tareas. En segundo lugar, a menudo emplean un conjunto limitado de objetivos de preentrenamiento que podrían no ser relevantes para algunas tareas posteriores, lo que genera una degradación sustancial del rendimiento. Para abordar estas limitaciones, proponemos ``CodeT5+'', una familia de LLMs codificador-decodificador para código en la que los módulos componentes pueden combinarse de manera flexible para adaptarse a una amplia gama de tareas de código posteriores. Dicha flexibilidad se habilita mediante nuestra propuesta de una mezcla de objetivos de preentrenamiento para mitigar la discrepancia entre preentrenamiento y ajuste fino. Estos objetivos abarcan tareas de desruido de segmentos, aprendizaje contrastivo, emparejamiento texto-código y preentrenamiento de modelos de lenguaje causal, tanto en corpus de código unimodales como bimodales multilingües. Además, proponemos inicializar CodeT5+ con LLMs preexistentes congelados, sin entrenar desde cero, para escalar eficientemente nuestros modelos, y exploramos el ajuste por instrucciones para alinearlos con instrucciones en lenguaje natural. Evaluamos extensivamente CodeT5+ en más de 20 benchmarks relacionados con código en diferentes configuraciones, incluyendo zero-shot, ajuste fino y ajuste por instrucciones. Observamos un rendimiento de vanguardia (SoTA, por sus siglas en inglés) en diversas tareas relacionadas con código, como generación y completado de código, programación matemática y tareas de recuperación texto-código. En particular, nuestra versión de CodeT5+ 16B ajustada por instrucciones logra nuevos resultados SoTA en la tarea de generación de código HumanEval frente a otros LLMs de código abiertos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como GPT-3 y GPT-4 son potentes, pero sus pesos a menudo no están disponibles públicamente y sus enormes tamaños hacen que estos modelos sean difíciles de ajustar con hardware común. Como resultado, ajustar efectivamente estos modelos con datos supervisados a gran escala puede ser un desafío. Como alternativa, el aprendizaje en contexto (In-Context Learning, ICL) solo puede utilizar un número reducido de ejemplos supervisados debido a las limitaciones de longitud del contexto. En este artículo, proponemos el Aprendizaje Super en Contexto (SuperICL), que permite a los LLMs de caja negra trabajar con modelos más pequeños ajustados localmente, logrando un rendimiento superior en tareas supervisadas. Nuestros experimentos demuestran que SuperICL puede mejorar el rendimiento más allá de los modelos ajustados más avanzados, al mismo tiempo que aborda el problema de inestabilidad del aprendizaje en contexto. Además, SuperICL puede potenciar las capacidades de modelos más pequeños, como la multilingüidad y la interpretabilidad.
La generación de movimiento humano guiada por texto ha despertado un interés significativo debido a sus aplicaciones impactantes en áreas como la animación y la robótica. Recientemente, la aplicación de modelos de difusión para la generación de movimiento ha permitido mejoras en la calidad de los movimientos generados. Sin embargo, los enfoques existentes están limitados por su dependencia de datos de captura de movimiento relativamente pequeños, lo que resulta en un rendimiento deficiente ante indicaciones más diversas y del mundo real. En este artículo, presentamos Make-An-Animation, un modelo de generación de movimiento humano condicionado por texto que aprende poses y indicaciones más diversas a partir de grandes conjuntos de datos de imágenes y texto, permitiendo una mejora significativa en el rendimiento respecto a trabajos anteriores. Make-An-Animation se entrena en dos etapas. Primero, entrenamos con un conjunto de datos grande y curado de pares (texto, pseudo-pose estática) extraídos de conjuntos de datos de imágenes y texto. Segundo, afinamos el modelo con datos de captura de movimiento, añadiendo capas adicionales para modelar la dimensión temporal. A diferencia de los modelos de difusión anteriores para generación de movimiento, Make-An-Animation utiliza una arquitectura U-Net similar a los modelos recientes de generación de texto a video. La evaluación humana del realismo del movimiento y su alineación con el texto de entrada muestra que nuestro modelo alcanza un rendimiento de vanguardia en la generación de texto a movimiento.
Los modelos de difusión han ganado una atención significativa en el ámbito de la generación de imágenes debido a su rendimiento excepcional. Recientemente, su éxito se ha extendido a la generación de texto mediante la generación simultánea de todos los tokens dentro de una secuencia. Sin embargo, el lenguaje natural exhibe una dependencia secuencial mucho más pronunciada en comparación con las imágenes, y la mayoría de los modelos de lenguaje existentes se entrenan utilizando un enfoque auto-regresivo de izquierda a derecha. Para tener en cuenta la característica secuencial inherente del lenguaje natural, presentamos Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion asegura que la generación de tokens en la derecha dependa de los generados en la izquierda, un mecanismo logrado mediante el uso de un número dinámico de pasos de eliminación de ruido que varían según la posición del token. Esto resulta en que los tokens de la izquierda experimenten menos pasos de eliminación de ruido que los de la derecha, permitiéndoles generarse antes y, posteriormente, influir en la generación de los tokens de la derecha. En una serie de experimentos sobre diversas tareas de generación de texto, incluyendo resumen de texto, traducción automática y generación de sentido común, AR-Diffusion demostró claramente su superioridad sobre los modelos de lenguaje de difusión existentes y que puede ser entre 100 y 600 veces más rápido al lograr resultados comparables. Nuestro código será publicado públicamente.
Presentamos el ajuste simbólico (symbol tuning): el ajuste fino de modelos de lenguaje en pares de entrada-etiqueta en contexto, donde las etiquetas en lenguaje natural (por ejemplo, "sentimiento positivo/negativo") se reemplazan con símbolos arbitrarios (por ejemplo, "foo/bar"). El ajuste simbólico aprovecha la intuición de que, cuando un modelo no puede utilizar instrucciones o etiquetas en lenguaje natural para comprender una tarea, debe aprender las correspondencias entre entradas y etiquetas. Experimentamos con el ajuste simbólico en modelos Flan-PaLM de hasta 540 mil millones de parámetros y observamos beneficios en diversos escenarios. En primer lugar, el ajuste simbólico mejora el rendimiento en tareas de aprendizaje en contexto no vistas y es mucho más robusto ante indicaciones poco especificadas, como aquellas sin instrucciones o sin etiquetas en lenguaje natural. En segundo lugar, los modelos ajustados simbólicamente son mucho más fuertes en tareas de razonamiento algorítmico, con mejoras de hasta un 18,2 % en el benchmark List Functions y hasta un 15,3 % en el benchmark Simple Turing Concepts. Finalmente, los modelos ajustados simbólicamente muestran grandes mejoras en la capacidad de seguir etiquetas invertidas presentadas en contexto, lo que significa que son más capaces de utilizar información en contexto para anular conocimientos semánticos previos.
Un Sistema de Recomendación Conversacional (CRS, por sus siglas en inglés) ofrece mayor transparencia y control a los usuarios al permitirles interactuar con el sistema a través de un diálogo en tiempo real de múltiples turnos. Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una capacidad sin precedentes para conversar de manera natural e incorporar conocimiento del mundo y razonamiento de sentido común en la comprensión del lenguaje, desbloqueando el potencial de este paradigma. Sin embargo, aprovechar eficazmente los LLMs dentro de un CRS introduce nuevos desafíos técnicos, como comprender y controlar adecuadamente una conversación compleja y recuperar información de fuentes externas. Estos problemas se ven agravados por un corpus de elementos grande y en constante evolución, así como por la falta de datos conversacionales para el entrenamiento. En este artículo, proporcionamos una hoja de ruta para construir un CRS de gran escala de extremo a extremo utilizando LLMs. En particular, proponemos nuevas implementaciones para la comprensión de preferencias del usuario, la gestión flexible del diálogo y recomendaciones explicables como parte de una arquitectura integrada impulsada por LLMs. Para mejorar la personalización, describimos cómo un LLM puede consumir perfiles de usuario en lenguaje natural interpretable y utilizarlos para modular el contexto a nivel de sesión. Para superar las limitaciones de datos conversacionales en ausencia de un CRS en producción existente, proponemos técnicas para construir un simulador de usuario basado en LLMs controlable que genere conversaciones sintéticas. Como prueba de concepto, presentamos RecLLM, un CRS de gran escala para videos de YouTube construido sobre LaMDA, y demostramos su fluidez y funcionalidad diversa a través de algunas conversaciones ilustrativas.
El aprendizaje en contexto, donde los modelos de lenguaje preentrenados aprenden a realizar tareas a partir de ejemplos de tareas e instrucciones en sus contextos, ha captado mucha atención en la comunidad de PLN. Sin embargo, la capacidad del aprendizaje en contexto no se explota completamente porque los modelos de lenguaje no están entrenados explícitamente para aprender en contexto. Con este fin, proponemos PICL (Pre-entrenamiento para el Aprendizaje en Contexto), un marco para mejorar la capacidad de aprendizaje en contexto de los modelos de lenguaje mediante el pre-entrenamiento del modelo en una gran colección de "tareas intrínsecas" en un corpus general de texto plano utilizando el objetivo simple de modelado del lenguaje. PICL fomenta que el modelo infiera y realice tareas condicionándose en los contextos, manteniendo al mismo tiempo la generalización de tareas de los modelos preentrenados. Evaluamos el rendimiento del aprendizaje en contexto del modelo entrenado con PICL en siete conjuntos de datos de clasificación de texto ampliamente utilizados y en el benchmark Super-NaturalInstructions, que contiene más de 100 tareas de PLN formuladas como generación de texto. Nuestros experimentos muestran que PICL es más efectivo y generalizable en tareas que una variedad de líneas base, superando a modelos de lenguaje más grandes con casi 4 veces más parámetros. El código está disponible públicamente en https://github.com/thu-coai/PICL.
Una canalización completamente automatizada para la reconstrucción de objetos es crucial para la creación de contenido digital. Si bien el área de reconstrucción 3D ha experimentado avances significativos, la eliminación del fondo para obtener un modelo limpio del objeto aún depende de diversas formas de trabajo manual, como la etiquetación de cuadros delimitadores, anotaciones de máscaras y manipulaciones de mallas. En este artículo, proponemos un marco novedoso denominado AutoRecon para el descubrimiento y reconstrucción automatizados de un objeto a partir de imágenes de múltiples vistas. Demostramos que los objetos en primer plano pueden localizarse y segmentarse de manera robusta a partir de nubes de puntos SfM mediante el aprovechamiento de características autosupervisadas de transformadores de visión 2D. Luego, reconstruimos representaciones neuronales de escenas descompuestas con supervisión densa proporcionada por las nubes de puntos descompuestas, lo que resulta en una reconstrucción y segmentación precisa del objeto. Los experimentos en los conjuntos de datos DTU, BlendedMVS y CO3D-V2 demuestran la eficacia y robustez de AutoRecon.
Obtener explicaciones interpretables por humanos de los modelos lingüísticos grandes y de propósito general es un objetivo urgente para la seguridad de la IA. Sin embargo, es igualmente importante que nuestros métodos de interpretabilidad sean fieles a la dinámica causal subyacente al comportamiento del modelo y capaces de generalizarse de manera robusta a entradas no vistas. La Búsqueda de Alineación Distribuida (DAS, por sus siglas en inglés) es un potente método de descenso de gradiente basado en una teoría de abstracción causal que descubrió alineaciones perfectas entre algoritmos simbólicos interpretables y pequeños modelos de aprendizaje profundo ajustados para tareas específicas. En este artículo, escalamos significativamente DAS reemplazando los pasos restantes de búsqueda por fuerza bruta con parámetros aprendidos, un enfoque que denominamos DAS. Esto nos permite buscar eficientemente estructuras causales interpretables en modelos lingüísticos grandes mientras siguen instrucciones. Aplicamos DAS al modelo Alpaca (7 mil millones de parámetros), que, sin modificaciones, resuelve un problema simple de razonamiento numérico. Con DAS, descubrimos que Alpaca lo hace implementando un modelo causal con dos variables booleanas interpretables. Además, encontramos que la alineación de las representaciones neuronales con estas variables es robusta a cambios en las entradas y las instrucciones. Estos hallazgos marcan un primer paso hacia la comprensión profunda del funcionamiento interno de nuestros modelos lingüísticos más grandes y ampliamente implementados.
Las interfaces de lenguaje natural a menudo requieren datos supervisados para traducir las solicitudes de los usuarios en programas, consultas de bases de datos u otras representaciones estructuradas de intenciones. Durante la recopilación de datos, puede ser difícil anticipar y formalizar la gama completa de necesidades de los usuarios. Por ejemplo, en un sistema diseñado para manejar solicitudes simples (como encontrar mis reuniones de mañana o mover mi reunión con mi gerente al mediodía), los usuarios también pueden expresar solicitudes más elaboradas (como intercambiar todas mis llamadas del lunes y martes). Introducimos un enfoque para equipar un modelo simple de lenguaje a código para manejar expresiones complejas mediante un proceso de descomposición jerárquica del lenguaje natural. Nuestro enfoque utiliza un modelo de lenguaje preentrenado para descomponer una expresión compleja en una secuencia de pasos más pequeños en lenguaje natural, luego interpreta cada paso utilizando el modelo de lenguaje a código. Para probar nuestro enfoque, recopilamos y publicamos DeCU, un nuevo punto de referencia de lenguaje natural a programa para evaluar la Descomposición de Expresiones Complejas. Los experimentos muestran que el enfoque propuesto permite la interpretación de expresiones complejas con casi ningún dato de entrenamiento complejo, superando los enfoques estándar de indicación de pocos ejemplos.
El aprendizaje contrastivo ha surgido como un marco eficiente para aprender representaciones multimodales. CLIP, un trabajo seminal en esta área, logró resultados impresionantes al entrenarse con datos de imágenes y texto emparejados utilizando la pérdida contrastiva. Trabajos recientes afirman mejoras sobre CLIP al emplear pérdidas adicionales no contrastivas inspiradas en el aprendizaje autosupervisado. Sin embargo, a veces es difícil desentrañar la contribución de estas pérdidas adicionales de otros detalles de implementación, como técnicas de aumento de datos o regularización, utilizados para entrenar el modelo. Para arrojar luz sobre este tema, en este artículo primero proponemos, implementamos y evaluamos varias líneas base obtenidas al combinar el aprendizaje contrastivo con avances recientes en aprendizaje autosupervisado. En particular, utilizamos funciones de pérdida que han demostrado ser exitosas en el aprendizaje autosupervisado visual para alinear las modalidades de imagen y texto. Descubrimos que estas líneas base superan una implementación básica de CLIP. Sin embargo, cuando se emplea una receta de entrenamiento más robusta, la ventaja desaparece. De hecho, encontramos que una línea base simple de CLIP también puede mejorarse sustancialmente, hasta un 25% de mejora relativa en tareas de zero-shot, utilizando técnicas de entrenamiento bien conocidas y populares en otros subcampos. Además, descubrimos que basta con aplicar aumentos de imagen y texto para compensar la mayor parte de la mejora alcanzada por trabajos previos. Con nuestra receta de entrenamiento mejorada para CLIP, obtenemos un rendimiento de vanguardia en cuatro conjuntos de datos estándar, y superamos consistentemente trabajos anteriores (hasta un +4% en el conjunto de datos más grande), siendo sustancialmente más simple.
Los recientes avances en los métodos de preentrenamiento multimodal han demostrado una eficacia prometedora en el aprendizaje de representaciones 3D al alinear características a través de la modalidad 3D, su modalidad 2D correspondiente y la modalidad de lenguaje asociada. Sin embargo, los métodos utilizados por los marcos de preentrenamiento multimodal existentes para recopilar datos multimodales para aplicaciones 3D carecen de escalabilidad y exhaustividad, lo que podría limitar el potencial completo del aprendizaje multimodal. El principal cuello de botella radica en la escalabilidad y exhaustividad de la modalidad de lenguaje. Para abordar este problema, presentamos ULIP-2, un marco de preentrenamiento multimodal que aprovecha modelos de lenguaje multimodal de última generación (LLMs) preentrenados con un amplio conocimiento para generar automáticamente contrapartes lingüísticas holísticas para objetos 3D. Realizamos experimentos en dos conjuntos de datos a gran escala, Objaverse y ShapeNet55, y publicamos nuestros conjuntos de datos de tripletas de tres modalidades (Nube de Puntos 3D - Imagen - Lenguaje), denominados "ULIP-Objaverse Triplets" y "ULIP-ShapeNet Triplets". ULIP-2 requiere únicamente datos 3D y elimina la necesidad de cualquier esfuerzo de anotación manual, demostrando su escalabilidad; además, ULIP-2 logra mejoras notables en la clasificación zero-shot en ModelNet40 (74% de precisión Top1). Además, ULIP-2 establece un nuevo récord en el benchmark del mundo real ScanObjectNN (91.5% de precisión general) mientras utiliza solo 1.4 millones de parámetros (~10 veces menos que el estado del arte actual), lo que representa un avance en el aprendizaje escalable de representaciones 3D multimodales sin anotaciones humanas. El código y los conjuntos de datos están disponibles en https://github.com/salesforce/ULIP.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en el procesamiento del lenguaje natural, pero enfrentan desafíos en términos de coste computacional e ineficiencia a medida que aumentan de tamaño, especialmente en tareas específicas de dominio. Por otro lado, los Modelos de Lenguaje Pequeños (SLMs) suelen tener dificultades en estas tareas debido a su capacidad limitada y a la escasez de datos de entrenamiento. En este artículo, presentamos Dr. LLaMA, un método para mejorar los SLMs mediante la ampliación de datos generativos utilizando LLMs, centrándonos en tareas de respuesta a preguntas médicas y en el conjunto de datos PubMedQA. Nuestros hallazgos indican que los LLMs refinan y diversifican eficazmente los pares de preguntas y respuestas existentes, lo que resulta en un mejor rendimiento de un modelo mucho más pequeño en conjuntos de datos de preguntas y respuestas específicos del dominio después del ajuste fino. Este estudio destaca los desafíos de utilizar LLMs para la respuesta a preguntas específicas de dominio y sugiere posibles direcciones de investigación para abordar estas limitaciones, con el objetivo final de crear modelos más eficientes y capaces para aplicaciones especializadas. También hemos puesto a disposición nuestro código para los investigadores interesados.
Los Modelos de Lenguaje Enmascarados (MLMs, por sus siglas en inglés) han demostrado ser efectivos para la reevaluación de segunda pasada en sistemas de Reconocimiento Automático del Habla (ASR). En este trabajo, proponemos el Codificador de Audio y Texto Enmascarado (MATE, por sus siglas en inglés), un modelo de lenguaje enmascarado multimodal para reevaluación que incorpora representaciones acústicas en el espacio de entrada del MLM. Adoptamos el aprendizaje contrastivo para alinear eficazmente las modalidades mediante el aprendizaje de representaciones compartidas. Demostramos que el uso de un reevaluador multimodal es beneficioso para la generalización de dominio del sistema ASR cuando no se dispone de datos del dominio objetivo. MATE reduce la tasa de error de palabras (WER) en un 4%-16% en conjuntos de datos del mismo dominio y en un 3%-7% en conjuntos de datos de dominios diferentes, en comparación con el enfoque basado únicamente en texto. Además, con una cantidad muy limitada de datos de entrenamiento (0.8 horas), MATE logra una reducción de WER del 8%-23% sobre la línea base de primera pasada.
Estudios recientes han demostrado que los modelos de codificador dual entrenados con la tarea de clasificación de traducciones a nivel de oración son métodos efectivos para la incrustación de oraciones multilingües. Sin embargo, nuestra investigación indica que la alineación a nivel de token también es crucial en escenarios multilingües, un aspecto que no ha sido explorado completamente con anterioridad. Basándonos en nuestros hallazgos, proponemos un marco de preentrenamiento de doble alineación (DAP, por sus siglas en inglés) para la incrustación de oraciones multilingües que incorpora tanto la alineación a nivel de oración como a nivel de token. Para lograr esto, introducimos una novedosa tarea de aprendizaje de traducción de representaciones (RTL, por sus siglas en inglés), donde el modelo aprende a utilizar la representación contextualizada de un token de un lado para reconstruir su contraparte traducida. Este objetivo de reconstrucción fomenta que el modelo incorpore información de traducción en la representación del token. En comparación con otros métodos de alineación a nivel de token, como el modelado de lenguaje de traducción, RTL es más adecuado para arquitecturas de codificador dual y es computacionalmente eficiente. Experimentos exhaustivos en tres puntos de referencia multilingües a nivel de oración demuestran que nuestro enfoque puede mejorar significativamente la incrustación de oraciones. Nuestro código está disponible en https://github.com/ChillingDream/DAP.
A pesar de su éxito sin precedentes, incluso los modelos de lenguaje más grandes cometen errores. De manera similar a cómo los humanos aprenden y mejoran utilizando retroalimentación, trabajos anteriores propusieron proporcionar a los modelos de lenguaje comentarios en lenguaje natural para guiarlos en la corrección de sus salidas. Dado que obtener críticas generadas por humanos es costoso, los investigadores han diseñado generadores de críticas aprendidas en lugar de críticos humanos, asumiendo que se pueden entrenar modelos posteriores para utilizar los comentarios generados. Sin embargo, este enfoque no es aplicable a modelos de caja negra o de acceso limitado, como ChatGPT, ya que no pueden ser ajustados. Además, en la era de los agentes de lenguaje general de gran escala, el ajuste fino no es eficiente ni computacional ni espacialmente, ya que resulta en múltiples copias de la red. En este trabajo, presentamos RL4F (Reinforcement Learning for Feedback), un marco colaborativo multiagente en el que el generador de críticas se entrena para maximizar el rendimiento en la tarea final de GPT-3, un modelo fijo más de 200 veces su tamaño. RL4F produce críticas que ayudan a GPT-3 a revisar sus salidas. Estudiamos tres conjuntos de datos para planificación de acciones, resumen y alfabetización y mostramos mejoras (~5% en promedio) en múltiples métricas de similitud de texto sobre líneas de base sólidas en las tres tareas.
Este artículo presenta un enfoque novedoso para detectar texto generado por ChatGPT frente a texto escrito por humanos utilizando modelos de lenguaje. Para ello, primero recopilamos y publicamos un conjunto de datos preprocesado llamado OpenGPTText, que consiste en contenido reformulado generado mediante ChatGPT. Luego, diseñamos, implementamos y entrenamos dos modelos diferentes para la clasificación de texto, utilizando el Enfoque de Pretraining Optimizado Robusto de BERT (RoBERTa) y el Transformer de Transferencia de Texto a Texto (T5), respectivamente. Nuestros modelos lograron resultados notables, con una precisión superior al 97% en el conjunto de datos de prueba, evaluada mediante diversas métricas. Además, realizamos un estudio de interpretabilidad para demostrar la capacidad de nuestro modelo para extraer y diferenciar características clave entre el texto escrito por humanos y el generado por ChatGPT. Nuestros hallazgos proporcionan insights importantes sobre el uso efectivo de modelos de lenguaje para detectar texto generado.