Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos PaLM 2, un nuevo modelo de lenguaje de vanguardia que posee mejores capacidades multilingües y de razonamiento, además de ser más eficiente en términos de computación que su predecesor, PaLM. PaLM 2 es un modelo basado en Transformer entrenado utilizando una mezcla de objetivos. A través de evaluaciones exhaustivas en tareas de lenguaje en inglés y multilingüe, así como de razonamiento, demostramos que PaLM 2 ha mejorado significativamente la calidad en tareas posteriores en diferentes tamaños de modelo, al mismo tiempo que exhibe una inferencia más rápida y eficiente en comparación con PaLM. Esta mayor eficiencia permite un despliegue más amplio y también posibilita que el modelo responda más rápido, ofreciendo un ritmo de interacción más natural. PaLM 2 muestra capacidades sólidas de razonamiento, ejemplificadas por grandes mejoras sobre PaLM en BIG-Bench y otras tareas de razonamiento. Además, PaLM 2 presenta un rendimiento estable en una serie de evaluaciones de IA responsable y permite el control en tiempo de inferencia sobre la toxicidad sin sobrecargas adicionales ni impacto en otras capacidades. En general, PaLM 2 logra un rendimiento de vanguardia en un conjunto diverso de tareas y capacidades. Al hablar de la familia PaLM 2, es importante distinguir entre los modelos preentrenados (de varios tamaños), las variantes ajustadas de estos modelos y los productos orientados al usuario que utilizan estos modelos. En particular, los productos orientados al usuario suelen incluir pasos adicionales de preprocesamiento y posprocesamiento. Además, los modelos subyacentes pueden evolucionar con el tiempo. Por lo tanto, no se debe esperar que el rendimiento de los productos orientados al usuario coincida exactamente con los resultados reportados en este informe.
La edición o revisión de texto es una función esencial del proceso de escritura humana. Comprender las capacidades de los LLM (Modelos de Lenguaje de Gran Escala) para realizar revisiones de alta calidad y colaborar con escritores humanos es un paso crucial hacia la creación de asistentes de escritura efectivos. Con los éxitos previos de los LLM y el ajuste por instrucciones, aprovechamos los LLM ajustados por instrucciones para la revisión de textos con el fin de mejorar la calidad del texto generado por los usuarios y optimizar la eficiencia del proceso. Presentamos CoEdIT, un modelo de edición de texto de vanguardia para asistencia en la escritura. CoEdIT recibe instrucciones del usuario que especifican los atributos del texto deseado, como "Simplifica la oración" o "Escríbelo en un estilo más neutral", y genera el texto editado. Introducimos un modelo de lenguaje de gran escala ajustado en una colección diversa de instrucciones específicas para tareas de edición de texto (un total de 82K instrucciones). Nuestro modelo (1) logra un rendimiento de vanguardia en varios benchmarks de edición de texto, (2) es competitivo con los LLM de mayor tamaño disponibles públicamente y entrenados con instrucciones, siendo aproximadamente 60 veces más pequeño, (3) es capaz de generalizar a instrucciones de edición no vistas previamente, y (4) exhibe habilidades de comprensión composicional para generalizar a instrucciones que contienen diferentes combinaciones de acciones de edición. A través de un análisis cualitativo y cuantitativo exhaustivo, demostramos que los escritores prefieren las ediciones sugeridas por CoEdIT en comparación con otros modelos de edición de texto de vanguardia. Nuestro código y conjunto de datos están disponibles públicamente.
Aprender a partir de la retroalimentación humana ha demostrado ser efectivo para alinear los modelos de lenguaje con las preferencias humanas. Trabajos anteriores a menudo han dependido del Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF, por sus siglas en inglés), el cual optimiza el modelo de lenguaje utilizando puntuaciones de recompensa asignadas por un modelo de recompensa entrenado con datos de preferencias humanas. En este trabajo mostramos cómo la Calibración de Probabilidad de Secuencia (SLiC, por sus siglas en inglés), introducida recientemente, también puede utilizarse para aprender efectivamente a partir de preferencias humanas (SLiC-HF). Además, demostramos que esto puede lograrse con datos de retroalimentación humana recolectados para un modelo diferente, similar a los datos de aprendizaje por refuerzo fuera de política y fuera de línea. Experimentos de evaluación automática y humana en la tarea de resumen TL;DR muestran que SLiC-HF mejora significativamente los baselines de ajuste fino supervisado. Asimismo, SLiC-HF presenta una alternativa competitiva a la implementación de RLHF con PPO utilizada en trabajos anteriores, siendo mucho más sencilla de implementar, más fácil de ajustar y más eficiente computacionalmente en la práctica.
Las proporciones de mezcla de los dominios de datos de preentrenamiento (por ejemplo, Wikipedia, libros, texto web) afectan significativamente el rendimiento de los modelos de lenguaje (LM). En este artículo, proponemos Reajuste de Dominios con Optimización Minimax (DoReMi), que primero entrena un modelo proxy pequeño utilizando optimización robusta de distribución grupal (Group DRO) sobre dominios para producir pesos de dominio (proporciones de mezcla) sin conocimiento de las tareas posteriores. Luego, remuestreamos un conjunto de datos con estos pesos de dominio y entrenamos un modelo más grande y de tamaño completo. En nuestros experimentos, utilizamos DoReMi en un modelo proxy de 280 millones de parámetros para encontrar pesos de dominio para entrenar un modelo de 8 mil millones de parámetros (30 veces más grande) de manera más eficiente. En The Pile, DoReMi mejora la perplejidad en todos los dominios, incluso cuando reduce el peso de un dominio. DoReMi mejora la precisión promedio en tareas posteriores de pocos ejemplos en un 6.5% sobre un modelo de referencia entrenado con los pesos de dominio predeterminados de The Pile y alcanza la precisión de referencia con 2.6 veces menos pasos de entrenamiento. En el conjunto de datos GLaM, DoReMi, que no tiene conocimiento de las tareas posteriores, incluso iguala el rendimiento de usar pesos de dominio ajustados en tareas posteriores.
En este artículo, presentamos la auto-distilación y la agrupación en línea para el aprendizaje de representaciones de habla auto-supervisado (DinoSR), que combina el modelado de lenguaje enmascarado, la auto-distilación y la agrupación en línea. Demostramos que estos conceptos se complementan entre sí y dan como resultado un modelo sólido para el aprendizaje de representaciones de habla. DinoSR primero extrae incrustaciones contextualizadas del audio de entrada mediante una red maestra, luego ejecuta un sistema de agrupación en línea sobre las incrustaciones para generar un inventario de fonemas descubierto automáticamente, y finalmente utiliza los tokens discretizados para guiar una red estudiante. Mostramos que DinoSR supera el rendimiento previo del estado del arte en varias tareas posteriores, y proporcionamos un análisis detallado del modelo y de las unidades discretas aprendidas. El código fuente estará disponible después del período de anonimato.
Mejorar el uso de palabras es una característica deseable en la asistencia para la escritura. Para avanzar en la investigación en esta área, este artículo introduce la tarea y el punto de referencia "Smart Word Suggestions" (SWS). A diferencia de otros trabajos, SWS enfatiza la evaluación de extremo a extremo y presenta un escenario más realista de asistencia para la escritura. Esta tarea implica identificar palabras o frases que requieren mejora y proporcionar sugerencias de sustitución. El punto de referencia incluye datos etiquetados por humanos para pruebas, un gran conjunto de datos supervisado de manera distante para entrenamiento y el marco para la evaluación. Los datos de prueba incluyen 1,000 oraciones escritas por estudiantes de inglés, acompañadas de más de 16,000 sugerencias de sustitución anotadas por 10 hablantes nativos. El conjunto de datos de entrenamiento comprende más de 3.7 millones de oraciones y 12.7 millones de sugerencias generadas mediante reglas. Nuestros experimentos con siete líneas base demuestran que SWS es una tarea desafiante. Basándonos en el análisis experimental, sugerimos posibles direcciones para futuras investigaciones sobre SWS. El conjunto de datos y los códigos relacionados están disponibles en https://github.com/microsoft/SmartWordSuggestions.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento predictivo notable en un número creciente de tareas. Sin embargo, su rápida proliferación y su creciente opacidad han generado una necesidad cada vez mayor de interpretabilidad. Aquí, nos preguntamos si es posible obtener automáticamente explicaciones en lenguaje natural para módulos de texto de caja negra. Un "módulo de texto" es cualquier función que mapea texto a un valor escalar continuo, como un submódulo dentro de un LLM o un modelo ajustado de una región cerebral. "Caja negra" indica que solo tenemos acceso a las entradas/salidas del módulo. Presentamos Summarize and Score (SASC), un método que toma un módulo de texto y devuelve una explicación en lenguaje natural sobre la selectividad del módulo, junto con una puntuación que indica la confiabilidad de la explicación. Estudiamos SASC en tres contextos. Primero, evaluamos SASC en módulos sintéticos y encontramos que a menudo recupera explicaciones de la verdad fundamental. Segundo, utilizamos SASC para explicar módulos encontrados dentro de un modelo BERT preentrenado, lo que permite inspeccionar los componentes internos del modelo. Finalmente, mostramos que SASC puede generar explicaciones para la respuesta de voxeles individuales de fMRI a estímulos lingüísticos, con posibles aplicaciones en el mapeo cerebral de alta resolución. Todo el código para usar SASC y reproducir los resultados está disponible en Github.
Los sistemas de reconocimiento automático de voz en dispositivos enfrentan varios desafíos en comparación con los sistemas basados en servidores. Deben cumplir restricciones más estrictas en términos de velocidad, tamaño de almacenamiento y memoria, mientras mantienen la misma precisión. A menudo, tienen que servir a varias aplicaciones con diferentes distribuciones simultáneamente, como la comunicación con un asistente virtual y la conversión de voz a texto. La solución más simple para atender múltiples aplicaciones es construir modelos específicos para cada aplicación (modelos de lenguaje), pero esto conlleva un aumento en el uso de memoria. Por lo tanto, exploramos diferentes enfoques de modelado de lenguaje basados en datos y arquitectura para construir un único modelo independiente de la aplicación. Proponemos dos arquitecturas novedosas de tipo feed-forward que encuentran un equilibrio óptimo entre las diferentes restricciones en dispositivos. En comparación con la solución específica por aplicación, uno de nuestros enfoques novedosos reduce el tamaño de almacenamiento a la mitad, manteniendo la velocidad y la precisión del modelo original.
El núcleo de la Estereo de Múltiples Vistas (MVS) es el proceso de correspondencia entre píxeles de referencia y fuente. La agregación de costos juega un papel significativo en este proceso, mientras que métodos anteriores se centran en manejarlo mediante CNNs. Esto puede heredar la limitación natural de las CNNs, que fallan en discriminar correspondencias repetitivas o incorrectas debido a campos receptivos locales limitados. Para abordar este problema, buscamos incorporar Transformer en la agregación de costos. Sin embargo, puede surgir otro problema debido a la complejidad computacional que crece cuadráticamente con Transformer, lo que resulta en desbordamiento de memoria y latencia en la inferencia. En este artículo, superamos estos límites con una red eficiente de agregación de costos basada en Transformer, denominada CostFormer. Se propone el Transformer de Costo Consciente de la Profundidad Residual (RDACT) para agregar características de largo alcance en el volumen de costo mediante mecanismos de auto-atención a lo largo de las dimensiones de profundidad y espaciales. Además, se propone el Transformer de Regresión Residual (RRT) para mejorar la atención espacial. El método propuesto es un complemento universal para mejorar los métodos de MVS basados en aprendizaje.
Los grandes modelos de lenguaje multilingüe exhiben capacidades sorprendentemente buenas de traducción automática en escenarios de cero o pocos ejemplos, a pesar de no haber sido expuestos intencionalmente a los ejemplos de traducción que se proporcionan típicamente a los sistemas de traducción neuronal. Investigamos el papel del bilingüismo incidental —el consumo no intencional de señales bilingües, incluidos ejemplos de traducción— para explicar las capacidades de traducción de los grandes modelos de lenguaje, tomando como caso de estudio el modelo Pathways Language Model (PaLM). Introducimos un enfoque de métodos mixtos para medir y comprender el bilingüismo incidental a gran escala. Demostramos que PaLM está expuesto a más de 30 millones de pares de traducción en al menos 44 idiomas. Además, la cantidad de contenido bilingüe incidental está altamente correlacionada con la cantidad de contenido monolingüe en el mismo idioma para lenguas no inglesas. Relacionamos el contenido bilingüe incidental con los prompts de cero ejemplos y mostramos que puede utilizarse para extraer nuevos prompts que mejoren la calidad de la traducción de cero ejemplos de PaLM desde el inglés. Finalmente, en una serie de ablaciones a pequeña escala, demostramos que la presencia de este contenido tiene un impacto sustancial en las capacidades de traducción, aunque este impacto disminuye con la escala del modelo.
Estudiamos si múltiples modelos de lenguaje grandes (LLMs, por sus siglas en inglés) pueden mejorarse autónomamente entre sí en un juego de negociación mediante la interacción, la reflexión y la crítica. Nos interesa esta pregunta porque, si los LLMs fueran capaces de mejorarse mutuamente, implicaría la posibilidad de crear agentes de IA potentes con una intervención humana mínima. Hacemos que dos LLMs negocien entre sí, asumiendo los roles de comprador y vendedor, respectivamente. Su objetivo es llegar a un acuerdo, con el comprador buscando un precio más bajo y el vendedor uno más alto. Un tercer modelo de lenguaje, actuando como crítico, proporciona retroalimentación a un jugador para mejorar sus estrategias de negociación. Permitimos que los dos agentes jueguen múltiples rondas, utilizando el historial de negociaciones previas y la retroalimentación de la IA como demostraciones en contexto para mejorar iterativamente la estrategia de negociación del modelo. Utilizamos diferentes LLMs (GPT y Claude) para distintos roles y empleamos el precio del acuerdo como métrica de evaluación. Nuestros experimentos revelan varios hallazgos intrigantes: (1) Solo un subconjunto de los modelos de lenguaje que consideramos puede autojugarse y mejorar el precio del acuerdo a partir de la retroalimentación de la IA; los modelos más débiles no entienden las reglas del juego o no pueden incorporar la retroalimentación para seguir mejorando. (2) La capacidad de los modelos para aprender de la retroalimentación difiere según el rol que desempeñen. Por ejemplo, es más difícil para Claude-instant mejorar como comprador que como vendedor. (3) Al extender el juego a múltiples rondas, los agentes más fuertes pueden mejorar consistentemente su desempeño utilizando de manera significativa experiencias previas y retroalimentación iterativa de la IA, aunque tienen un mayor riesgo de romper el acuerdo. Esperamos que nuestro trabajo proporcione exploraciones iniciales esclarecedoras sobre cómo los modelos pueden mejorarse autónomamente entre sí mediante el juego y la retroalimentación de la IA.
La clasificación de grano fino es una tarea desafiante que implica identificar diferencias sutiles entre objetos dentro de la misma categoría. Esta tarea es particularmente difícil en escenarios donde los datos son escasos. Los transformadores visuales (ViT) han surgido recientemente como una herramienta poderosa para la clasificación de imágenes, debido a su capacidad para aprender representaciones altamente expresivas de datos visuales utilizando mecanismos de autoatención. En este trabajo, exploramos Semi-ViT, un modelo ViT ajustado mediante técnicas de aprendizaje semi-supervisado, adecuado para situaciones en las que carecemos de datos anotados. Esto es particularmente común en el comercio electrónico, donde las imágenes están fácilmente disponibles, pero las etiquetas son ruidosas, inexistentes o costosas de obtener. Nuestros resultados demuestran que Semi-ViT supera a las redes neuronales convolucionales (CNN) tradicionales y a los ViT, incluso cuando se ajustan con datos anotados limitados. Estos hallazgos indican que los Semi-ViT tienen un potencial significativo para aplicaciones que requieren una clasificación precisa y de grano fino de datos visuales.
Este trabajo fue presentado en el taller sobre Representaciones Espaciales No Convencionales en la Conferencia Internacional de Robótica y Automatización (IEEE ICRA) 2023. Los campos de radiancia neurales (NeRFs, por sus siglas en inglés) son una clase de representaciones implícitas de escenas que modelan entornos 3D a partir de imágenes en color. Los NeRFs son expresivos y pueden modelar la geometría compleja y multiescala de entornos del mundo real, lo que potencialmente los convierte en una herramienta poderosa para aplicaciones en robótica. Las bibliotecas modernas de entrenamiento de NeRFs pueden generar un NeRF fotorrealista a partir de un conjunto de datos estáticos en solo unos segundos, pero están diseñadas para uso fuera de línea y requieren un paso previo de optimización de pose que es lento. En este trabajo proponemos NerfBridge, un puente de código abierto entre el Sistema Operativo de Robots (ROS) y la popular biblioteca Nerfstudio para el entrenamiento en tiempo real y en línea de NeRFs a partir de un flujo de imágenes. NerfBridge facilita el desarrollo rápido de investigaciones sobre aplicaciones de NeRFs en robótica al proporcionar una interfaz extensible a las eficientes canalizaciones de entrenamiento y bibliotecas de modelos ofrecidas por Nerfstudio. Como caso de uso, describimos una configuración de hardware que puede emplear NerfBridge para entrenar un NeRF a partir de imágenes capturadas por una cámara montada en un cuadricóptero, tanto en entornos interiores como exteriores. Para el video complementario: https://youtu.be/EH0SLn-RcDg y el código: https://github.com/javieryu/nerf_bridge.
El contenido multimedia, como anuncios y videos narrativos, presenta una rica mezcla de creatividad y múltiples modalidades. Incorpora elementos como texto, imágenes, audio y técnicas de narración, utilizando recursos como emociones, simbolismo y eslóganes para transmitir significado. Si bien investigaciones previas en comprensión multimedia se han centrado principalmente en videos con acciones específicas, como cocinar, existe una escasez de grandes conjuntos de datos de entrenamiento anotados, lo que dificulta el desarrollo de modelos de aprendizaje supervisado con un rendimiento satisfactorio para aplicaciones del mundo real. Sin embargo, el auge de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha demostrado un rendimiento notable en tareas de procesamiento del lenguaje natural (NLP), como la clasificación de emociones, la respuesta a preguntas y la clasificación de temas. Para cerrar esta brecha de rendimiento en la comprensión multimedia, proponemos verbalizar videos narrativos para generar sus descripciones en lenguaje natural y luego realizar tareas de comprensión de video sobre la historia generada en lugar del video original. A través de extensos experimentos en cinco tareas de comprensión de video, demostramos que nuestro método, a pesar de ser de tipo zero-shot, obtiene resultados significativamente mejores que los enfoques supervisados de referencia para la comprensión de video. Además, para abordar la falta de puntos de referencia en la comprensión de historias, publicamos el primer conjunto de datos sobre una tarea crucial en las ciencias sociales computacionales: la identificación de estrategias de persuasión.