Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

AudioPaLM: Un Modelo de Lenguaje de Gran Escala que Puede Hablar y Escuchar
AudioPaLM: A Large Language Model That Can Speak and Listen

Jun 22, 2023

Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank

546

Presentamos AudioPaLM, un modelo de lenguaje de gran escala para la comprensión y generación de habla. AudioPaLM fusiona modelos de lenguaje basados en texto y en habla, PaLM-2 [Anil et al., 2023] y AudioLM [Borsos et al., 2022], en una arquitectura multimodal unificada que puede procesar y generar texto y habla con aplicaciones que incluyen reconocimiento de voz y traducción de habla a habla. AudioPaLM hereda la capacidad de preservar información paralingüística, como la identidad del hablante y la entonación, de AudioLM, y el conocimiento lingüístico presente únicamente en modelos de lenguaje de gran escala basados en texto, como PaLM-2. Demostramos que inicializar AudioPaLM con los pesos de un modelo de lenguaje de gran escala basado únicamente en texto mejora el procesamiento de habla, aprovechando con éxito la mayor cantidad de datos de entrenamiento de texto utilizados en el preentrenamiento para asistir en las tareas de habla. El modelo resultante supera significativamente a los sistemas existentes en tareas de traducción de habla y tiene la capacidad de realizar traducción de habla a texto en modo zero-shot para muchos idiomas cuyas combinaciones de idioma de entrada/destino no se vieron durante el entrenamiento. AudioPaLM también demuestra características de los modelos de lenguaje de audio, como transferir una voz entre idiomas basándose en un breve estímulo de habla. Publicamos ejemplos de nuestro método en https://google-research.github.io/seanet/audiopalm/examples.

Segmentación Rápida de Cualquier Objeto
Fast Segment Anything

Jun 21, 2023

Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang

343

El recientemente propuesto modelo Segment Anything (SAM) ha tenido un impacto significativo en muchas tareas de visión por computadora. Se está convirtiendo en un paso fundamental para muchas tareas de alto nivel, como la segmentación de imágenes, la generación de descripciones de imágenes y la edición de imágenes. Sin embargo, sus elevados costos computacionales impiden su aplicación más amplia en escenarios industriales. La mayor parte del cómputo proviene de la arquitectura Transformer con entradas de alta resolución. En este artículo, proponemos un método alternativo más rápido para esta tarea fundamental con un rendimiento comparable. Al reformular la tarea como generación de segmentos y uso de indicaciones (prompting), descubrimos que un detector CNN convencional con una rama de segmentación de instancias también puede realizar esta tarea de manera efectiva. Específicamente, convertimos esta tarea en la bien estudiada tarea de segmentación de instancias y entrenamos directamente el método existente de segmentación de instancias utilizando solo 1/50 del conjunto de datos SA-1B publicado por los autores de SAM. Con nuestro método, logramos un rendimiento comparable al método SAM con una velocidad de ejecución 50 veces mayor. Presentamos resultados experimentales suficientes para demostrar su efectividad. Los códigos y demostraciones estarán disponibles en https://github.com/CASIA-IVA-Lab/FastSAM.

De modelos de palabras a modelos del mundo: traducción del lenguaje natural al lenguaje probabilístico del pensamiento
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22, 2023

Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum

261

¿Cómo informa el lenguaje nuestro pensamiento descendente? En particular, ¿cómo los seres humanos construyen significado a partir del lenguaje, y cómo podemos aprovechar una teoría del significado lingüístico para construir máquinas que piensen de manera más similar a los humanos? En este artículo, proponemos la construcción racional del significado, un marco computacional para el pensamiento informado por el lenguaje que combina modelos neuronales del lenguaje con modelos probabilísticos para la inferencia racional. Enmarcamos el significado lingüístico como una asignación sensible al contexto desde el lenguaje natural hacia un lenguaje de pensamiento probabilístico (PLoT, por sus siglas en inglés), un sustrato simbólico de propósito general para el modelado probabilístico y generativo del mundo. Nuestra arquitectura integra dos herramientas computacionales poderosas que no se habían combinado previamente: modelamos el pensamiento con programas probabilísticos, una representación expresiva para el razonamiento de sentido común flexible; y modelamos la construcción del significado con modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), que permiten una traducción de amplia cobertura desde expresiones en lenguaje natural hacia expresiones de código en un lenguaje de programación probabilística. Ilustramos nuestro marco en acción a través de ejemplos que abarcan cuatro dominios centrales de la ciencia cognitiva: razonamiento probabilístico, razonamiento lógico y relacional, razonamiento visual y físico, y razonamiento social sobre agentes y sus planes. En cada uno, mostramos que los LLMs pueden generar traducciones sensibles al contexto que capturan significados lingüísticos pragmáticamente apropiados, mientras que la inferencia bayesiana con los programas generados respalda un razonamiento de sentido común coherente y robusto. Extendemos nuestro marco para integrar módulos simbólicos motivados cognitivamente, proporcionando una interfaz unificada de pensamiento de sentido común a partir del lenguaje. Finalmente, exploramos cómo el lenguaje puede impulsar la construcción de los modelos del mundo en sí mismos.

Entrenamiento de Transformers con enteros de 4 bits
Training Transformers with 4-bit Integers

Jun 21, 2023

Haocheng Xi, Changhao Li, Jianfei Chen, Jun Zhu

225

La cuantización de las activaciones, pesos y gradientes a 4 bits es prometedora para acelerar el entrenamiento de redes neuronales. Sin embargo, los métodos existentes de entrenamiento en 4 bits requieren formatos numéricos personalizados que no son compatibles con el hardware actual. En este trabajo, proponemos un método de entrenamiento para transformadores en el que todas las multiplicaciones de matrices se implementan con aritmética INT4. Entrenar con una precisión ultra baja de INT4 es un desafío. Para lograrlo, analizamos cuidadosamente las estructuras específicas de las activaciones y los gradientes en los transformadores y proponemos cuantizadores dedicados para ellos. Para la propagación hacia adelante, identificamos el desafío de los valores atípicos y proponemos un cuantizador de Hadamard para suprimir estos valores. Para la retropropagación, aprovechamos la dispersión estructural de los gradientes mediante técnicas de división de bits y muestreo por puntuación de influencia para cuantizar los gradientes con precisión. Nuestro algoritmo logra una precisión competitiva en una amplia gama de tareas, incluyendo comprensión del lenguaje natural, traducción automática y clasificación de imágenes. A diferencia de los métodos anteriores de entrenamiento en 4 bits, nuestro algoritmo puede implementarse en la generación actual de GPUs. Nuestra implementación prototípica del operador lineal es hasta 2.2 veces más rápida que sus contrapartes en FP16 y acelera el entrenamiento hasta en un 35.1%.

Redes de Lenguaje Profundo: Entrenamiento Conjunto de LLMs Apilados mediante Inferencia Variacional
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Jun 21, 2023

Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux

140

Consideramos a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como capas estocásticas de lenguaje en una red, donde los parámetros aprendibles son los prompts de lenguaje natural en cada capa. Apilamos dos de estas capas, alimentando la salida de una capa a la siguiente. Denominamos a esta arquitectura apilada como Red de Lenguaje Profunda (DLN, por sus siglas en inglés). Primero demostramos cómo optimizar eficazmente los prompts para una red de lenguaje de 1 capa (DLN-1). Luego, mostramos cómo entrenar DLNs de 2 capas (DLN-2), donde se deben aprender dos prompts. Consideramos la salida de la primera capa como una variable latente a marginalizar y diseñamos un algoritmo de inferencia variacional para el entrenamiento conjunto de prompts. Una DLN-2 alcanza un rendimiento superior al de una sola capa, a veces comparable al de GPT-4 con pocos ejemplos, incluso cuando cada LLM en la red es más pequeño y menos potente. El código de la DLN es de código abierto: https://github.com/microsoft/deep-language-networks.

Transformadores Cuantizables: Eliminando Valores Atípicos Ayudando a las Cabezas de Atención a No Hacer Nada
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

Jun 22, 2023

Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort

120

Los modelos Transformer han sido ampliamente adoptados en diversos dominios en los últimos años, y especialmente los modelos de lenguaje de gran escala han impulsado significativamente el campo de la IA. Debido a su tamaño, la capacidad de estas redes ha aumentado enormemente, pero esto ha conllevado un incremento significativo en el cómputo necesario. La cuantización es una de las formas más efectivas de reducir el tiempo computacional y el consumo de memoria de las redes neuronales. Sin embargo, muchos estudios han demostrado que los modelos Transformer modernos tienden a aprender valores atípicos fuertes en sus activaciones, lo que dificulta su cuantización. Para mantener un rendimiento aceptable, la existencia de estos valores atípicos requiere que las activaciones estén en un ancho de bits mayor, el uso de formatos numéricos diferentes, un ajuste fino adicional u otras soluciones alternativas. Mostramos que los valores atípicos fuertes están relacionados con un comportamiento muy específico de las cabezas de atención que intentan aprender una operación "no-op" o simplemente una actualización parcial del residual. Para lograr los ceros exactos necesarios en la matriz de atención para una no-actualización, la entrada a la función softmax se empuja a ser cada vez más grande durante el entrenamiento, causando valores atípicos en otras partes de la red. Basándonos en estas observaciones, proponemos dos modificaciones simples (e independientes) al mecanismo de atención: softmax recortado y atención con compuerta. Demostramos empíricamente que los modelos preentrenados utilizando nuestros métodos aprenden valores atípicos significativamente más pequeños mientras mantienen y, en ocasiones, incluso mejoran el rendimiento en tareas de punto flotante. Esto nos permite cuantizar los Transformers a una cuantización completa INT8 de las activaciones sin ningún esfuerzo adicional. Demostramos la efectividad de nuestros métodos tanto en modelos de lenguaje (BERT, OPT) como en Transformers de visión.

DreamTime: Una Estrategia de Optimización Mejorada para la Creación de Contenido de Texto a 3D
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Jun 21, 2023

Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang

121

Los modelos de difusión de texto a imagen preentrenados en miles de millones de pares imagen-texto han permitido recientemente la creación de contenido 3D a partir de texto mediante la optimización de campos de radiancia neural (NeRF) inicializados aleatoriamente utilizando la destilación de puntuación. Sin embargo, los modelos 3D resultantes presentan dos limitaciones: (a) problemas de calidad, como colores saturados y el problema de Janus; (b) una diversidad extremadamente baja en comparación con la síntesis de imágenes guiada por texto. En este artículo, demostramos que el conflicto entre el proceso de optimización de NeRF y el muestreo uniforme de pasos temporales en la destilación de puntuación es la principal razón de estas limitaciones. Para resolver este conflicto, proponemos priorizar el muestreo de pasos temporales con funciones monótonas no crecientes, lo que alinea la optimización de NeRF con el proceso de muestreo del modelo de difusión. Experimentos exhaustivos muestran que este rediseño simple mejora significativamente la creación de contenido 3D a partir de texto, logrando mayor calidad y diversidad.

Edición continua del diseño de imágenes individuales con modelos de difusión
Continuous Layout Editing of Single Images with Diffusion Models

Jun 22, 2023

Zhiyuan Zhang, Zhitong Huang, Jing Liao

Los recientes avances en los modelos de difusión de texto a imagen a gran escala han permitido muchas aplicaciones en la edición de imágenes. Sin embargo, ninguno de estos métodos ha sido capaz de editar el diseño de imágenes individuales existentes. Para abordar esta brecha, proponemos el primer marco de trabajo para la edición del diseño de una sola imagen mientras se preservan sus propiedades visuales, lo que permite una edición continua en una única imagen. Nuestro enfoque se logra mediante dos módulos clave. Primero, para preservar las características de múltiples objetos dentro de una imagen, separamos los conceptos de diferentes objetos y los integramos en tokens textuales separados utilizando un método novedoso llamado inversión textual enmascarada. A continuación, proponemos un método de optimización sin entrenamiento para realizar el control del diseño en un modelo de difusión preentrenado, lo que nos permite regenerar imágenes con conceptos aprendidos y alinearlos con diseños especificados por el usuario. Como el primer marco de trabajo para editar el diseño de imágenes existentes, demostramos que nuestro método es efectivo y supera a otras líneas base que fueron modificadas para apoyar esta tarea. Nuestro código estará disponible libremente para uso público tras su aceptación.

Oportunidades y riesgos de los LLM para la deliberación escalable con Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

Jun 20, 2023

Christopher T. Small, Ivan Vendrov, Esin Durmus, Hadjar Homaei, Elizabeth Barry, Julien Cornebise, Ted Suzman, Deep Ganguli, Colin Megill

Polis es una plataforma que aprovecha la inteligencia artificial para escalar procesos deliberativos. En este artículo, exploramos las oportunidades y riesgos asociados con la aplicación de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) hacia los desafíos de facilitar, moderar y resumir los resultados de las interacciones en Polis. En particular, demostramos mediante experimentos piloto utilizando Claude de Anthropic que los LLMs pueden, de hecho, aumentar la inteligencia humana para ayudar a ejecutar conversaciones en Polis de manera más eficiente. Específicamente, encontramos que las capacidades de resumen permiten métodos categóricamente nuevos con un inmenso potencial para empoderar al público en ejercicios de construcción colectiva de significado. Y, notablemente, las limitaciones de contexto de los LLMs tienen un impacto significativo en la profundidad y calidad de estos resultados. Sin embargo, estas oportunidades vienen acompañadas de riesgos. Discutimos algunos de estos riesgos, así como principios y técnicas para caracterizarlos y mitigarlos, y las implicaciones para otros sistemas deliberativos o políticos que podrían emplear LLMs. Finalmente, concluimos con varias direcciones abiertas para futuras investigaciones orientadas a mejorar herramientas como Polis con LLMs.

EquiformerV2: Transformador Equivariante Mejorado para Escalar a Representaciones de Mayor Grado
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations

Jun 21, 2023

Yi-Lun Liao, Brandon Wood, Abhishek Das, Tess Smidt

Los transformadores equivariantes, como Equiformer, han demostrado la eficacia de aplicar transformadores al dominio de los sistemas atomísticos 3D. Sin embargo, todavía están limitados a grados pequeños de representaciones equivariantes debido a su complejidad computacional. En este artículo, investigamos si estas arquitecturas pueden escalar adecuadamente a grados más altos. Partiendo de Equiformer, primero reemplazamos las convoluciones SO(3) con convoluciones eSCN para incorporar eficientemente tensores de mayor grado. Luego, para aprovechar mejor el poder de los grados más altos, proponemos tres mejoras arquitectónicas: re-normalización de atención, activación separable S^2 y normalización de capa separable. Reuniendo todo esto, proponemos EquiformerV2, que supera a los métodos anteriores de última generación en el conjunto de datos a gran escala OC20 en un 12 % en fuerzas, un 4 % en energías, ofrece mejores compensaciones entre velocidad y precisión, y reduce en 2 veces los cálculos de DFT necesarios para calcular energías de adsorción.

De modelos de palabras a modelos del mundo: traducción del lenguaje natural al lenguaje probabilístico del pensamiento
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Jun 22, 2023

Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum

261

Papers Diarios

AudioPaLM: Un Modelo de Lenguaje de Gran Escala que Puede Hablar y Escuchar
AudioPaLM: A Large Language Model That Can Speak and Listen

Segmentación Rápida de Cualquier Objeto
Fast Segment Anything

De modelos de palabras a modelos del mundo: traducción del lenguaje natural al lenguaje probabilístico del pensamiento
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Entrenamiento de Transformers con enteros de 4 bits
Training Transformers with 4-bit Integers

Redes de Lenguaje Profundo: Entrenamiento Conjunto de LLMs Apilados mediante Inferencia Variacional
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Transformadores Cuantizables: Eliminando Valores Atípicos Ayudando a las Cabezas de Atención a No Hacer Nada
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

DreamTime: Una Estrategia de Optimización Mejorada para la Creación de Contenido de Texto a 3D
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Edición continua del diseño de imágenes individuales con modelos de difusión
Continuous Layout Editing of Single Images with Diffusion Models

Oportunidades y riesgos de los LLM para la deliberación escalable con Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

EquiformerV2: Transformador Equivariante Mejorado para Escalar a Representaciones de Mayor Grado
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations

Support

Support

Papers Diarios

AudioPaLM: Un Modelo de Lenguaje de Gran Escala que Puede Hablar y Escuchar
AudioPaLM: A Large Language Model That Can Speak and Listen

Segmentación Rápida de Cualquier Objeto
Fast Segment Anything

De modelos de palabras a modelos del mundo: traducción del lenguaje natural al lenguaje probabilístico del pensamiento
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

Entrenamiento de Transformers con enteros de 4 bits
Training Transformers with 4-bit Integers

Redes de Lenguaje Profundo: Entrenamiento Conjunto de LLMs Apilados mediante Inferencia Variacional
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

Transformadores Cuantizables: Eliminando Valores Atípicos Ayudando a las Cabezas de Atención a No Hacer Nada
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

DreamTime: Una Estrategia de Optimización Mejorada para la Creación de Contenido de Texto a 3D
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Edición continua del diseño de imágenes individuales con modelos de difusión
Continuous Layout Editing of Single Images with Diffusion Models

Oportunidades y riesgos de los LLM para la deliberación escalable con Polis
Opportunities and Risks of LLMs for Scalable Deliberation with Polis

EquiformerV2: Transformador Equivariante Mejorado para Escalar a Representaciones de Mayor Grado
EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations