Artículos de investigación en IA seleccionados diariamente con traducciones
Una capacidad emergente impresionante de los modelos de lenguaje de gran escala (LLMs) es la generación de código, incluyendo el lenguaje de consulta estructurado (SQL) para bases de datos. Para la tarea de convertir texto en lenguaje natural a consultas SQL, Text-to-SQL, la adaptación de los LLMs es de suma importancia, tanto en el aprendizaje en contexto como en los ajustes finos, dependiendo de la cantidad de datos de adaptación utilizados. En este artículo, proponemos un modelo Text-to-SQL basado en LLM llamado SQL-PaLM, que aprovecha PaLM-2 y avanza el estado del arte en ambos escenarios. SQL-PaLM en modo few-shot se basa en un enfoque de autocoherencia basado en ejecución diseñado para Text-to-SQL, y alcanza un 77,3% de precisión en la suite de pruebas de Spider, lo que, según nuestro conocimiento, es el primero en superar significativamente el estado del arte anterior con ajuste fino por un margen del 4%. Además, demostramos que SQL-PaLM ajustado finamente lo supera aún más en otro 1%. Para aplicar SQL-PaLM en escenarios del mundo real, evaluamos su robustez en otras variantes desafiantes de Spider y demostramos la capacidad de generalización superior de SQL-PaLM. Adicionalmente, a través de extensos estudios de casos, demostramos las impresionantes capacidades inteligentes y diversos factores de éxito de Text-to-SQL basado en LLM.
Los modelos de difusión de texto a imagen pueden crear imágenes impresionantes a partir de descripciones en lenguaje natural que rivalizan con el trabajo de artistas y fotógrafos profesionales. Sin embargo, estos modelos son grandes, con arquitecturas de red complejas y decenas de iteraciones de eliminación de ruido, lo que los hace computacionalmente costosos y lentos de ejecutar. Como resultado, se requieren GPUs de alta gama e inferencia basada en la nube para ejecutar modelos de difusión a escala. Esto es costoso y tiene implicaciones de privacidad, especialmente cuando los datos del usuario se envían a un tercero. Para superar estos desafíos, presentamos un enfoque genérico que, por primera vez, permite ejecutar modelos de difusión de texto a imagen en dispositivos móviles en menos de 2 segundos. Lo logramos introduciendo una arquitectura de red eficiente y mejorando la destilación de pasos. Específicamente, proponemos una UNet eficiente al identificar la redundancia del modelo original y reducir el cálculo del decodificador de imágenes mediante destilación de datos. Además, mejoramos la destilación de pasos explorando estrategias de entrenamiento e introduciendo regularización a partir de la guía libre de clasificadores. Nuestros extensos experimentos en MS-COCO muestran que nuestro modelo con 8 pasos de eliminación de ruido logra mejores puntuaciones FID y CLIP que Stable Diffusion v1.5 con 50 pasos. Nuestro trabajo democratiza la creación de contenido al llevar potentes modelos de difusión de texto a imagen a las manos de los usuarios.
Presentamos Wuerstchen, una técnica novedosa para la síntesis de texto a imagen que combina un rendimiento competitivo con una eficiencia de costos sin precedentes y una facilidad de entrenamiento en hardware limitado. Basándonos en avances recientes en aprendizaje automático, nuestro enfoque, que utiliza estrategias de difusión latente con altas tasas de compresión de imágenes latentes, reduce significativamente la carga computacional típicamente asociada con los modelos de última generación, preservando, e incluso mejorando, la calidad de las imágenes generadas. Wuerstchen logra mejoras notables en la velocidad durante la inferencia, haciendo que las aplicaciones en tiempo real sean más viables. Una de las ventajas clave de nuestro método radica en sus modestos requisitos de entrenamiento de solo 9,200 horas de GPU, reduciendo drásticamente los costos habituales sin comprometer el rendimiento final. En una comparación con los modelos de última generación, encontramos que este enfoque ofrece una fuerte competitividad. Este artículo abre la puerta a una nueva línea de investigación que prioriza tanto el rendimiento como la accesibilidad computacional, democratizando así el uso de tecnologías de IA sofisticadas. A través de Wuerstchen, demostramos un avance convincente en el ámbito de la síntesis de texto a imagen, ofreciendo un camino innovador para explorar en futuras investigaciones.
Presentamos GenMM, un modelo generativo que "extrae" la mayor cantidad de movimientos diversos posibles a partir de una o pocas secuencias de ejemplo. En marcado contraste con los métodos existentes basados en datos, que generalmente requieren un largo tiempo de entrenamiento offline, son propensos a artefactos visuales y tienden a fallar en esqueletos grandes y complejos, GenMM hereda la naturaleza libre de entrenamiento y la calidad superior del conocido método de Motion Matching. GenMM puede sintetizar un movimiento de alta calidad en una fracción de segundo, incluso con estructuras esqueléticas altamente complejas y grandes. En el núcleo de nuestro marco generativo se encuentra el módulo de emparejamiento de movimiento generativo, que utiliza la similitud visual bidireccional como función de costo generativa para el emparejamiento de movimiento, y opera en un marco de múltiples etapas para refinar progresivamente una conjetura aleatoria utilizando coincidencias de movimiento ejemplares. Además de la generación de movimientos diversos, demostramos la versatilidad de nuestro marco generativo al extenderlo a varios escenarios que no son posibles con el emparejamiento de movimiento por sí solo, incluyendo la completación de movimiento, la generación guiada por fotogramas clave, el bucle infinito y el reensamblaje de movimiento. El código y los datos de este artículo se encuentran en https://wyysf-98.github.io/GenMM/.
Los enfoques modernos de aprendizaje profundo suelen transformar las entradas en una forma específica para cada modalidad. Por ejemplo, el enfoque más común de aprendizaje profundo para la clasificación de imágenes implica decodificar los bytes de archivos de imagen en un tensor RGB que se pasa a una red neuronal. En cambio, investigamos realizar la clasificación directamente sobre los bytes de archivo, sin necesidad de decodificar los archivos en el momento de la inferencia. Utilizar los bytes de archivo como entradas del modelo permite el desarrollo de modelos que pueden operar con múltiples modalidades de entrada. Nuestro modelo, ByteFormer, logra una precisión Top-1 en ImageNet del 77.33% cuando se entrena y prueba directamente sobre los bytes de archivos TIFF utilizando una arquitectura de transformadores con una configuración similar a DeiT-Ti (72.2% de precisión cuando opera sobre imágenes RGB). Sin modificaciones ni ajuste de hiperparámetros, ByteFormer alcanza una precisión de clasificación del 95.42% cuando opera sobre archivos WAV del conjunto de datos Speech Commands v2 (en comparación con la precisión de última generación del 98.7%). Además, demostramos que ByteFormer tiene aplicaciones en inferencia que preserva la privacidad. ByteFormer es capaz de realizar inferencia sobre representaciones de entrada ofuscadas específicas sin pérdida de precisión. También demostramos la capacidad de ByteFormer para realizar inferencia con una cámara hipotética que preserva la privacidad, evitando formar imágenes completas al enmascarar consistentemente el 90% de los canales de píxeles, logrando aún así una precisión del 71.35% en ImageNet. Nuestro código estará disponible en https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
Los modelos de difusión de texto a imagen han demostrado una capacidad sin igual para generar imágenes de alta calidad y diversidad a partir de un concepto textual (por ejemplo, "un médico", "amor"). Sin embargo, el proceso interno de mapear texto a una representación visual rica sigue siendo un enigma. En este trabajo, abordamos el desafío de comprender las representaciones de conceptos en modelos de texto a imagen descomponiendo un texto de entrada en un pequeño conjunto de elementos interpretables. Esto se logra aprendiendo un pseudo-token que es una combinación ponderada y dispersa de tokens del vocabulario del modelo, con el objetivo de reconstruir las imágenes generadas para el concepto dado. Aplicado sobre el modelo de última generación Stable Diffusion, esta descomposición revela estructuras no triviales y sorprendentes en las representaciones de los conceptos. Por ejemplo, encontramos que algunos conceptos como "un presidente" o "un compositor" están dominados por instancias específicas (por ejemplo, "Obama", "Biden") y sus interpolaciones. Otros conceptos, como "felicidad", combinan términos asociados que pueden ser concretos ("familia", "risa") o abstractos ("amistad", "emoción"). Además de permitirnos observar el funcionamiento interno de Stable Diffusion, nuestro método también habilita aplicaciones como la descomposición de una sola imagen en tokens, la detección y mitigación de sesgos, y la manipulación semántica de imágenes. Nuestro código estará disponible en: https://hila-chefer.github.io/Conceptor/
Crear un vídeo vívido a partir de un evento o escenario en nuestra imaginación es una experiencia verdaderamente fascinante. Los avances recientes en la síntesis de texto a vídeo han revelado el potencial de lograr esto únicamente con indicaciones. Si bien el texto es conveniente para transmitir el contexto general de la escena, puede resultar insuficiente para un control preciso. En este artículo, exploramos la generación de vídeos personalizados utilizando el texto como descripción del contexto y la estructura de movimiento (por ejemplo, la profundidad por fotograma) como guía concreta. Nuestro método, denominado Make-Your-Video, implica la generación de vídeos con condiciones conjuntas utilizando un Modelo de Difusión Latente que está preentrenado para la síntesis de imágenes estáticas y luego adaptado para la generación de vídeos con la introducción de módulos temporales. Este esquema de aprendizaje en dos etapas no solo reduce los recursos computacionales requeridos, sino que también mejora el rendimiento al transferir los conceptos ricos disponibles en los conjuntos de datos de imágenes exclusivamente a la generación de vídeos. Además, utilizamos una estrategia de máscara de atención causal simple pero efectiva para permitir la síntesis de vídeos más largos, lo que mitiga eficazmente la posible degradación de la calidad. Los resultados experimentales muestran la superioridad de nuestro método sobre las líneas base existentes, particularmente en términos de coherencia temporal y fidelidad a las indicaciones del usuario. Además, nuestro modelo permite varias aplicaciones intrigantes que demuestran potencial para un uso práctico.
Investigamos el potencial de aprender representaciones visuales utilizando imágenes sintéticas generadas por modelos de texto a imagen. Esta es una pregunta natural a la luz del excelente rendimiento de dichos modelos en la generación de imágenes de alta calidad. Consideramos específicamente Stable Diffusion, uno de los principales modelos de texto a imagen de código abierto. Demostramos que (1) cuando el modelo generativo se configura con una escala adecuada de guía sin clasificador, el entrenamiento de métodos autosupervisados en imágenes sintéticas puede igualar o superar a su contraparte con imágenes reales; (2) al tratar las múltiples imágenes generadas a partir del mismo texto como positivas entre sí, desarrollamos un método de aprendizaje contrastivo multi-positivo, al que llamamos StableRep. Con únicamente imágenes sintéticas, las representaciones aprendidas por StableRep superan el rendimiento de las representaciones aprendidas por SimCLR y CLIP utilizando el mismo conjunto de textos y sus correspondientes imágenes reales, en conjuntos de datos a gran escala. Cuando añadimos supervisión lingüística, StableRep entrenado con 20M imágenes sintéticas logra una mayor precisión que CLIP entrenado con 50M imágenes reales.
La generación personalizada de imágenes a partir de texto utilizando modelos de difusión ha sido propuesta recientemente y ha atraído mucha atención. Dado un pequeño conjunto de imágenes que contienen un concepto novedoso (por ejemplo, un juguete único), nuestro objetivo es ajustar el modelo generativo para capturar detalles visuales precisos del concepto novedoso y generar imágenes fotorrealistas siguiendo una condición de texto. Presentamos un método complementario, denominado ViCo, para una generación personalizada rápida y ligera. Específicamente, proponemos un módulo de atención basado en imágenes para condicionar el proceso de difusión en la semántica visual por parches. Introducimos una máscara de objetos basada en atención que se obtiene prácticamente sin costo adicional a partir del módulo de atención. Además, diseñamos una regularización simple basada en las propiedades intrínsecas de los mapas de atención texto-imagen para mitigar la degradación común por sobreajuste. A diferencia de muchos modelos existentes, nuestro método no ajusta ningún parámetro del modelo de difusión original. Esto permite un despliegue del modelo más flexible y transferible. Con solo un entrenamiento ligero de parámetros (~6% de la U-Net de difusión), nuestro método logra un rendimiento comparable o incluso superior al de todos los modelos de última generación, tanto cualitativa como cuantitativamente.
El aprendizaje autosupervisado (SSL, por sus siglas en inglés) ha surgido recientemente como un paradigma prometedor para entrenar modelos generalizables con datos a gran escala en los campos de visión, texto y audio. Aunque el SSL ha demostrado ser efectivo en audio y habla, su aplicación al audio musical aún no ha sido explorada exhaustivamente. Esto se debe principalmente a los desafíos distintivos asociados con el modelado del conocimiento musical, particularmente sus características tonales y de afinación. Para abordar esta brecha de investigación, proponemos un modelo de comprensión musical acústica con entrenamiento autosupervisado a gran escala (MERT, por sus siglas en inglés), que incorpora modelos maestros para proporcionar etiquetas pseudo en el preentrenamiento acústico basado en el estilo de modelado de lenguaje enmascarado (MLM). En nuestra exploración, identificamos una combinación superior de modelos maestros, que supera en rendimiento a los enfoques convencionales de audio y habla. Esta combinación incluye un maestro acústico basado en Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) y un maestro musical basado en la Transformada Constante-Q (CQT). Estos maestros guían eficazmente a nuestro modelo estudiante, un codificador transformador estilo BERT, para modelar mejor el audio musical. Además, introducimos una técnica de aumento de mezcla de ruido dentro del lote para mejorar la robustez de las representaciones. Asimismo, exploramos una amplia gama de configuraciones para superar la inestabilidad en el preentrenamiento de modelos de lenguaje acústico, lo que permite que nuestro paradigma diseñado escale de 95M a 330M parámetros. Los resultados experimentales indican que nuestro modelo puede generalizar y desempeñarse bien en 14 tareas de comprensión musical, alcanzando puntuaciones generales de vanguardia (SOTA). El código y los modelos están disponibles en: https://github.com/yizhilll/MERT.
Existe una demanda exquisita por personalizar el modelo preentrenado de texto a imagen a gran escala, como Stable Diffusion, para generar conceptos innovadores, como los propios usuarios. Sin embargo, el concepto recién añadido mediante métodos de personalización anteriores suele mostrar una capacidad de combinación más débil que los originales, incluso cuando se proporcionan varias imágenes durante el entrenamiento. Por ello, proponemos un nuevo método de personalización que permite la integración perfecta de un individuo único en el modelo de difusión preentrenado utilizando solo una fotografía facial y únicamente 1024 parámetros entrenables en menos de 3 minutos. De esta manera, podemos generar sin esfuerzo imágenes impresionantes de esta persona en cualquier pose o posición, interactuando con cualquiera y realizando cualquier acción imaginable a partir de indicaciones de texto. Para lograrlo, primero analizamos y construimos una base de celebridades bien definida a partir del espacio de incrustación del gran codificador de texto preentrenado. Luego, dada una foto facial como la identidad objetivo, generamos su propia incrustación optimizando el peso de esta base y bloqueando todos los demás parámetros. Potenciado por la base de celebridades propuesta, la nueva identidad en nuestro modelo personalizado muestra una mejor capacidad de combinación de conceptos que los métodos de personalización anteriores. Además, nuestro modelo también puede aprender varias identidades nuevas simultáneamente e interactuar entre sí, algo que el modelo de personalización anterior no lograba. El código será liberado.
Los modelos generativos a gran escala son capaces de producir imágenes de alta calidad a partir de descripciones textuales detalladas. Sin embargo, muchos aspectos de una imagen son difíciles o imposibles de transmitir mediante texto. Introducimos la autoguía, un método que proporciona un mayor control sobre las imágenes generadas al guiar las representaciones internas de los modelos de difusión. Demostramos que propiedades como la forma, la ubicación y la apariencia de los objetos pueden extraerse de estas representaciones y utilizarse para dirigir el muestreo. La autoguía funciona de manera similar a la guía por clasificador, pero utiliza señales presentes en el propio modelo preentrenado, sin requerir modelos adicionales ni entrenamiento. Mostramos cómo un conjunto simple de propiedades puede combinarse para realizar manipulaciones desafiantes de imágenes, como modificar la posición o el tamaño de objetos, fusionar la apariencia de objetos en una imagen con la disposición de otra, componer objetos de varias imágenes en una sola, y más. También demostramos que la autoguía puede utilizarse para editar imágenes reales. Para ver los resultados y una demostración interactiva, visite nuestra página del proyecto en https://dave.ml/selfguidance/.
Los grandes modelos de lenguaje basados en transformadores han logrado grandes éxitos empíricos. Sin embargo, a medida que se despliegan más ampliamente, existe una creciente necesidad de comprender mejor sus mecanismos internos para hacerlos más confiables. Estos modelos parecen almacenar grandes cantidades de conocimiento a partir de sus datos de entrenamiento y adaptarse rápidamente a nueva información proporcionada en su contexto o indicación. Estudiamos cómo los transformadores equilibran estos dos tipos de conocimiento considerando una configuración sintética donde los tokens se generan a partir de distribuciones de bigramas globales o específicas del contexto. Mediante un análisis empírico cuidadoso del proceso de entrenamiento en un transformador simplificado de dos capas, ilustramos el aprendizaje rápido de bigramas globales y el desarrollo más lento de un mecanismo de "cabeza de inducción" para los bigramas en contexto. Destacamos el papel de las matrices de pesos como memorias asociativas, proporcionamos ideas teóricas sobre cómo los gradientes permiten su aprendizaje durante el entrenamiento y estudiamos el papel de las propiedades distribucionales de los datos.
Generar música a partir de descripciones de texto es un modo amigable para el usuario, ya que el texto es una interfaz relativamente sencilla para la interacción. Si bien algunos enfoques utilizan textos para controlar la generación de audio musical, editar elementos musicales en el audio generado resulta desafiante para los usuarios. En contraste, la música simbólica ofrece facilidad de edición, lo que la hace más accesible para que los usuarios manipulen elementos musicales específicos. En este artículo, proponemos MuseCoco, que genera música simbólica a partir de descripciones de texto utilizando atributos musicales como puente para dividir la tarea en etapas de comprensión de texto a atributo y generación de atributo a música. MuseCoco, que significa Music Composition Copilot, permite a los músicos generar música directamente a partir de descripciones de texto dadas, ofreciendo una mejora significativa en la eficiencia en comparación con crear música completamente desde cero. El sistema tiene dos ventajas principales: En primer lugar, es eficiente en datos. En la etapa de generación de atributo a música, los atributos pueden extraerse directamente de secuencias musicales, lo que hace que el entrenamiento del modelo sea autosupervisado. En la etapa de comprensión de texto a atributo, el texto se sintetiza y refina mediante ChatGPT basándose en plantillas de atributos definidas. En segundo lugar, el sistema puede lograr un control preciso con atributos específicos en las descripciones de texto y ofrece múltiples opciones de control mediante enfoques condicionados por atributos o por texto. MuseCoco supera a los sistemas de referencia en términos de musicalidad, controlabilidad y puntuación general en al menos 1.27, 1.08 y 1.32, respectivamente. Además, se observa una mejora notable de aproximadamente un 20% en la precisión de control objetivo. Adicionalmente, hemos desarrollado un modelo robusto a gran escala con 1.200 millones de parámetros, que muestra una controlabilidad y musicalidad excepcionales.
La inteligencia de código juega un papel clave en la transformación de la ingeniería de software moderna. Recientemente, los modelos basados en aprendizaje profundo, especialmente los grandes modelos de lenguaje (LLMs) basados en Transformers, han demostrado un potencial notable para abordar estas tareas al aprovechar grandes cantidades de datos de código abierto y las características de los lenguajes de programación. Sin embargo, el desarrollo y despliegue de dichos modelos suelen requerir experiencia tanto en aprendizaje automático como en ingeniería de software, lo que crea una barrera para su adopción. En este artículo, presentamos CodeTF, una biblioteca de código abierto basada en Transformers para LLMs de código de última generación e inteligencia de código. Siguiendo los principios de diseño modular y marco extensible, diseñamos CodeTF con una interfaz unificada para permitir un acceso y desarrollo rápido en diferentes tipos de modelos, conjuntos de datos y tareas. Nuestra biblioteca incluye una colección de modelos LLMs de código preentrenados y benchmarks populares de código, además de una interfaz estandarizada para entrenar y servir LLMs de código de manera eficiente, y características de datos como analizadores específicos de lenguajes y funciones de utilidad para extraer atributos de código. En este artículo, describimos los principios de diseño, la arquitectura, los módulos y componentes clave, y realizamos una comparación con otras herramientas de biblioteca relacionadas. Finalmente, esperamos que CodeTF pueda cerrar la brecha entre el aprendizaje automático/IA generativa y la ingeniería de software, ofreciendo una solución integral de código abierto para desarrolladores, investigadores y profesionales.
Los modelos de difusión condicionados por texto son capaces de generar imágenes de alta fidelidad con contenidos diversos. Sin embargo, las representaciones lingüísticas frecuentemente presentan descripciones ambiguas de la imaginería objetivo prevista, lo que requiere la incorporación de señales de control adicionales para reforzar la eficacia de los modelos de difusión guiados por texto. En este trabajo, proponemos Cocktail, una canalización para mezclar diversas modalidades en un único embedding, combinado con un ControlNet generalizado (gControlNet), una normalización controlable (ControlNorm) y un método de muestreo con guía espacial, para materializar un control multimodal y refinado espacialmente en modelos de difusión condicionados por texto. Específicamente, introducimos un hiper-red gControlNet, dedicado a la alineación e infusión de las señales de control provenientes de modalidades dispares en el modelo de difusión preentrenado. gControlNet es capaz de aceptar señales de modalidad flexibles, abarcando la recepción simultánea de cualquier combinación de señales de modalidad, o la fusión suplementaria de múltiples señales de modalidad. Las señales de control se fusionan y se inyectan en el modelo principal según nuestra propuesta ControlNorm. Además, nuestra metodología avanzada de muestreo con guía espacial incorpora eficazmente la señal de control en la región designada, evitando así la manifestación de objetos no deseados en la imagen generada. Demostramos los resultados de nuestro método en el control de diversas modalidades, probando una síntesis de alta calidad y fidelidad a múltiples señales externas.
Presentamos el ObjectFolder Benchmark, un conjunto de 10 tareas de referencia para el aprendizaje multisensorial centrado en objetos, enfocado en el reconocimiento, reconstrucción y manipulación de objetos mediante la vista, el sonido y el tacto. También introducimos el conjunto de datos ObjectFolder Real, que incluye mediciones multisensoriales de 100 objetos domésticos del mundo real, basado en una nueva pipeline diseñada para recopilar mallas 3D, videos, sonidos de impacto y lecturas táctiles de objetos reales. Realizamos una evaluación sistemática tanto en los 1,000 objetos neuronales multisensoriales de ObjectFolder como en los datos multisensoriales reales de ObjectFolder Real. Nuestros resultados demuestran la importancia de la percepción multisensorial y revelan los roles respectivos de la visión, el audio y el tacto en diferentes tareas de aprendizaje centrado en objetos. Al publicar nuestro conjunto de datos y suite de referencia, esperamos catalizar y habilitar nuevas investigaciones en el aprendizaje multisensorial centrado en objetos en visión por computadora, robótica y más allá. Página del proyecto: https://objectfolder.stanford.edu
Los enfoques basados en modelos de difusión han mostrado potencial en la planificación basada en datos, pero carecen de garantías de seguridad, lo que dificulta su aplicación en tareas críticas. Para abordar estos desafíos, proponemos un nuevo método, llamado SafeDiffuser, que asegura que los modelos probabilísticos de difusión cumplan con especificaciones mediante el uso de una clase de funciones de barrera de control. La idea clave de nuestro enfoque es incorporar la invariancia de difusión en tiempo finito propuesta en el proceso de eliminación de ruido de la difusión, lo que permite la generación confiable de datos mediante difusión. Además, demostramos que nuestro método de invariancia de difusión en tiempo finito a través de modelos generativos no solo mantiene el rendimiento de generalización, sino que también aporta robustez en la generación segura de datos. Probamos nuestro método en una serie de tareas de planificación segura, incluyendo la generación de rutas en laberintos, la locomoción de robots con patas y la manipulación en espacios 3D, mostrando los resultados ventajas en robustez y garantías sobre los modelos de difusión convencionales.
Los Transformers son fundamentales para los recientes avances en procesamiento de lenguaje natural y visión por computadora. Los Transformers tienen una estructura principalmente uniforme, donde las capas alternan entre redes feed-forward y auto-atención para construir una red profunda. En este trabajo, investigamos esta elección de diseño y descubrimos que bloques más complejos, con diferentes permutaciones de primitivas de capas, pueden ser más eficientes. Basándonos en esta idea, desarrollamos un bloque complejo, denominado Brainformer, que consta de un conjunto diverso de capas, como capas feed-forward con compuertas dispersas, capas feed-forward densas, capas de atención y diversas formas de normalización de capas y funciones de activación. Brainformer supera consistentemente a los Transformers densos y dispersos de última generación, tanto en calidad como en eficiencia. Un modelo Brainformer con 8 mil millones de parámetros activados por token demuestra una convergencia de entrenamiento 2 veces más rápida y un tiempo por paso 5 veces más rápido en comparación con su contraparte GLaM. En la evaluación de tareas posteriores, Brainformer también muestra un 3% más de puntuación en SuperGLUE con ajuste fino en comparación con GLaM, con un número similar de parámetros activados. Finalmente, Brainformer supera ampliamente a un modelo denso Primer derivado mediante NAS con un cálculo similar por token en evaluaciones de pocos ejemplos.