Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos AudioPaLM, un modelo de lenguaje de gran escala para la comprensión y generación de habla. AudioPaLM fusiona modelos de lenguaje basados en texto y en habla, PaLM-2 [Anil et al., 2023] y AudioLM [Borsos et al., 2022], en una arquitectura multimodal unificada que puede procesar y generar texto y habla con aplicaciones que incluyen reconocimiento de voz y traducción de habla a habla. AudioPaLM hereda la capacidad de preservar información paralingüística, como la identidad del hablante y la entonación, de AudioLM, y el conocimiento lingüístico presente únicamente en modelos de lenguaje de gran escala basados en texto, como PaLM-2. Demostramos que inicializar AudioPaLM con los pesos de un modelo de lenguaje de gran escala basado únicamente en texto mejora el procesamiento de habla, aprovechando con éxito la mayor cantidad de datos de entrenamiento de texto utilizados en el preentrenamiento para asistir en las tareas de habla. El modelo resultante supera significativamente a los sistemas existentes en tareas de traducción de habla y tiene la capacidad de realizar traducción de habla a texto en modo zero-shot para muchos idiomas cuyas combinaciones de idioma de entrada/destino no se vieron durante el entrenamiento. AudioPaLM también demuestra características de los modelos de lenguaje de audio, como transferir una voz entre idiomas basándose en un breve estímulo de habla. Publicamos ejemplos de nuestro método en https://google-research.github.io/seanet/audiopalm/examples.
El recientemente propuesto modelo Segment Anything (SAM) ha tenido un impacto significativo en muchas tareas de visión por computadora. Se está convirtiendo en un paso fundamental para muchas tareas de alto nivel, como la segmentación de imágenes, la generación de descripciones de imágenes y la edición de imágenes. Sin embargo, sus elevados costos computacionales impiden su aplicación más amplia en escenarios industriales. La mayor parte del cómputo proviene de la arquitectura Transformer con entradas de alta resolución. En este artículo, proponemos un método alternativo más rápido para esta tarea fundamental con un rendimiento comparable. Al reformular la tarea como generación de segmentos y uso de indicaciones (prompting), descubrimos que un detector CNN convencional con una rama de segmentación de instancias también puede realizar esta tarea de manera efectiva. Específicamente, convertimos esta tarea en la bien estudiada tarea de segmentación de instancias y entrenamos directamente el método existente de segmentación de instancias utilizando solo 1/50 del conjunto de datos SA-1B publicado por los autores de SAM. Con nuestro método, logramos un rendimiento comparable al método SAM con una velocidad de ejecución 50 veces mayor. Presentamos resultados experimentales suficientes para demostrar su efectividad. Los códigos y demostraciones estarán disponibles en https://github.com/CASIA-IVA-Lab/FastSAM.
¿Cómo informa el lenguaje nuestro pensamiento descendente? En particular, ¿cómo los seres humanos construyen significado a partir del lenguaje, y cómo podemos aprovechar una teoría del significado lingüístico para construir máquinas que piensen de manera más similar a los humanos? En este artículo, proponemos la construcción racional del significado, un marco computacional para el pensamiento informado por el lenguaje que combina modelos neuronales del lenguaje con modelos probabilísticos para la inferencia racional. Enmarcamos el significado lingüístico como una asignación sensible al contexto desde el lenguaje natural hacia un lenguaje de pensamiento probabilístico (PLoT, por sus siglas en inglés), un sustrato simbólico de propósito general para el modelado probabilístico y generativo del mundo. Nuestra arquitectura integra dos herramientas computacionales poderosas que no se habían combinado previamente: modelamos el pensamiento con programas probabilísticos, una representación expresiva para el razonamiento de sentido común flexible; y modelamos la construcción del significado con modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), que permiten una traducción de amplia cobertura desde expresiones en lenguaje natural hacia expresiones de código en un lenguaje de programación probabilística. Ilustramos nuestro marco en acción a través de ejemplos que abarcan cuatro dominios centrales de la ciencia cognitiva: razonamiento probabilístico, razonamiento lógico y relacional, razonamiento visual y físico, y razonamiento social sobre agentes y sus planes. En cada uno, mostramos que los LLMs pueden generar traducciones sensibles al contexto que capturan significados lingüísticos pragmáticamente apropiados, mientras que la inferencia bayesiana con los programas generados respalda un razonamiento de sentido común coherente y robusto. Extendemos nuestro marco para integrar módulos simbólicos motivados cognitivamente, proporcionando una interfaz unificada de pensamiento de sentido común a partir del lenguaje. Finalmente, exploramos cómo el lenguaje puede impulsar la construcción de los modelos del mundo en sí mismos.
La cuantización de las activaciones, pesos y gradientes a 4 bits es prometedora para acelerar el entrenamiento de redes neuronales. Sin embargo, los métodos existentes de entrenamiento en 4 bits requieren formatos numéricos personalizados que no son compatibles con el hardware actual. En este trabajo, proponemos un método de entrenamiento para transformadores en el que todas las multiplicaciones de matrices se implementan con aritmética INT4. Entrenar con una precisión ultra baja de INT4 es un desafío. Para lograrlo, analizamos cuidadosamente las estructuras específicas de las activaciones y los gradientes en los transformadores y proponemos cuantizadores dedicados para ellos. Para la propagación hacia adelante, identificamos el desafío de los valores atípicos y proponemos un cuantizador de Hadamard para suprimir estos valores. Para la retropropagación, aprovechamos la dispersión estructural de los gradientes mediante técnicas de división de bits y muestreo por puntuación de influencia para cuantizar los gradientes con precisión. Nuestro algoritmo logra una precisión competitiva en una amplia gama de tareas, incluyendo comprensión del lenguaje natural, traducción automática y clasificación de imágenes. A diferencia de los métodos anteriores de entrenamiento en 4 bits, nuestro algoritmo puede implementarse en la generación actual de GPUs. Nuestra implementación prototípica del operador lineal es hasta 2.2 veces más rápida que sus contrapartes en FP16 y acelera el entrenamiento hasta en un 35.1%.
Consideramos a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como capas estocásticas de lenguaje en una red, donde los parámetros aprendibles son los prompts de lenguaje natural en cada capa. Apilamos dos de estas capas, alimentando la salida de una capa a la siguiente. Denominamos a esta arquitectura apilada como Red de Lenguaje Profunda (DLN, por sus siglas en inglés). Primero demostramos cómo optimizar eficazmente los prompts para una red de lenguaje de 1 capa (DLN-1). Luego, mostramos cómo entrenar DLNs de 2 capas (DLN-2), donde se deben aprender dos prompts. Consideramos la salida de la primera capa como una variable latente a marginalizar y diseñamos un algoritmo de inferencia variacional para el entrenamiento conjunto de prompts. Una DLN-2 alcanza un rendimiento superior al de una sola capa, a veces comparable al de GPT-4 con pocos ejemplos, incluso cuando cada LLM en la red es más pequeño y menos potente. El código de la DLN es de código abierto: https://github.com/microsoft/deep-language-networks.
Los modelos Transformer han sido ampliamente adoptados en diversos dominios en los últimos años, y especialmente los modelos de lenguaje de gran escala han impulsado significativamente el campo de la IA. Debido a su tamaño, la capacidad de estas redes ha aumentado enormemente, pero esto ha conllevado un incremento significativo en el cómputo necesario. La cuantización es una de las formas más efectivas de reducir el tiempo computacional y el consumo de memoria de las redes neuronales. Sin embargo, muchos estudios han demostrado que los modelos Transformer modernos tienden a aprender valores atípicos fuertes en sus activaciones, lo que dificulta su cuantización. Para mantener un rendimiento aceptable, la existencia de estos valores atípicos requiere que las activaciones estén en un ancho de bits mayor, el uso de formatos numéricos diferentes, un ajuste fino adicional u otras soluciones alternativas. Mostramos que los valores atípicos fuertes están relacionados con un comportamiento muy específico de las cabezas de atención que intentan aprender una operación "no-op" o simplemente una actualización parcial del residual. Para lograr los ceros exactos necesarios en la matriz de atención para una no-actualización, la entrada a la función softmax se empuja a ser cada vez más grande durante el entrenamiento, causando valores atípicos en otras partes de la red. Basándonos en estas observaciones, proponemos dos modificaciones simples (e independientes) al mecanismo de atención: softmax recortado y atención con compuerta. Demostramos empíricamente que los modelos preentrenados utilizando nuestros métodos aprenden valores atípicos significativamente más pequeños mientras mantienen y, en ocasiones, incluso mejoran el rendimiento en tareas de punto flotante. Esto nos permite cuantizar los Transformers a una cuantización completa INT8 de las activaciones sin ningún esfuerzo adicional. Demostramos la efectividad de nuestros métodos tanto en modelos de lenguaje (BERT, OPT) como en Transformers de visión.
Los modelos de difusión de texto a imagen preentrenados en miles de millones de pares imagen-texto han permitido recientemente la creación de contenido 3D a partir de texto mediante la optimización de campos de radiancia neural (NeRF) inicializados aleatoriamente utilizando la destilación de puntuación. Sin embargo, los modelos 3D resultantes presentan dos limitaciones: (a) problemas de calidad, como colores saturados y el problema de Janus; (b) una diversidad extremadamente baja en comparación con la síntesis de imágenes guiada por texto. En este artículo, demostramos que el conflicto entre el proceso de optimización de NeRF y el muestreo uniforme de pasos temporales en la destilación de puntuación es la principal razón de estas limitaciones. Para resolver este conflicto, proponemos priorizar el muestreo de pasos temporales con funciones monótonas no crecientes, lo que alinea la optimización de NeRF con el proceso de muestreo del modelo de difusión. Experimentos exhaustivos muestran que este rediseño simple mejora significativamente la creación de contenido 3D a partir de texto, logrando mayor calidad y diversidad.
Los recientes avances en los modelos de difusión de texto a imagen a gran escala han permitido muchas aplicaciones en la edición de imágenes. Sin embargo, ninguno de estos métodos ha sido capaz de editar el diseño de imágenes individuales existentes. Para abordar esta brecha, proponemos el primer marco de trabajo para la edición del diseño de una sola imagen mientras se preservan sus propiedades visuales, lo que permite una edición continua en una única imagen. Nuestro enfoque se logra mediante dos módulos clave. Primero, para preservar las características de múltiples objetos dentro de una imagen, separamos los conceptos de diferentes objetos y los integramos en tokens textuales separados utilizando un método novedoso llamado inversión textual enmascarada. A continuación, proponemos un método de optimización sin entrenamiento para realizar el control del diseño en un modelo de difusión preentrenado, lo que nos permite regenerar imágenes con conceptos aprendidos y alinearlos con diseños especificados por el usuario. Como el primer marco de trabajo para editar el diseño de imágenes existentes, demostramos que nuestro método es efectivo y supera a otras líneas base que fueron modificadas para apoyar esta tarea. Nuestro código estará disponible libremente para uso público tras su aceptación.
Polis es una plataforma que aprovecha la inteligencia artificial para escalar procesos deliberativos. En este artículo, exploramos las oportunidades y riesgos asociados con la aplicación de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) hacia los desafíos de facilitar, moderar y resumir los resultados de las interacciones en Polis. En particular, demostramos mediante experimentos piloto utilizando Claude de Anthropic que los LLMs pueden, de hecho, aumentar la inteligencia humana para ayudar a ejecutar conversaciones en Polis de manera más eficiente. Específicamente, encontramos que las capacidades de resumen permiten métodos categóricamente nuevos con un inmenso potencial para empoderar al público en ejercicios de construcción colectiva de significado. Y, notablemente, las limitaciones de contexto de los LLMs tienen un impacto significativo en la profundidad y calidad de estos resultados. Sin embargo, estas oportunidades vienen acompañadas de riesgos. Discutimos algunos de estos riesgos, así como principios y técnicas para caracterizarlos y mitigarlos, y las implicaciones para otros sistemas deliberativos o políticos que podrían emplear LLMs. Finalmente, concluimos con varias direcciones abiertas para futuras investigaciones orientadas a mejorar herramientas como Polis con LLMs.
Los transformadores equivariantes, como Equiformer, han demostrado la eficacia de aplicar transformadores al dominio de los sistemas atomísticos 3D. Sin embargo, todavía están limitados a grados pequeños de representaciones equivariantes debido a su complejidad computacional. En este artículo, investigamos si estas arquitecturas pueden escalar adecuadamente a grados más altos. Partiendo de Equiformer, primero reemplazamos las convoluciones SO(3) con convoluciones eSCN para incorporar eficientemente tensores de mayor grado. Luego, para aprovechar mejor el poder de los grados más altos, proponemos tres mejoras arquitectónicas: re-normalización de atención, activación separable S^2 y normalización de capa separable. Reuniendo todo esto, proponemos EquiformerV2, que supera a los métodos anteriores de última generación en el conjunto de datos a gran escala OC20 en un 12 % en fuerzas, un 4 % en energías, ofrece mejores compensaciones entre velocidad y precisión, y reduce en 2 veces los cálculos de DFT necesarios para calcular energías de adsorción.