Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en diversas tareas, pero dependen de indicaciones (prompts) cuidadosamente elaboradas que a menudo requieren un esfuerzo humano considerable. Para automatizar este proceso, en este artículo proponemos un marco novedoso para la optimización de prompts discretos, llamado EvoPrompt, que toma prestada la idea de los algoritmos evolutivos (EAs, por sus siglas en inglés) debido a su buen rendimiento y rápida convergencia. Para permitir que los EAs funcionen con prompts discretos, que son expresiones en lenguaje natural que deben ser coherentes y legibles para los humanos, conectamos los LLMs con los EAs. Este enfoque nos permite aprovechar simultáneamente las potentes capacidades de procesamiento de lenguaje de los LLMs y el eficiente rendimiento de optimización de los EAs. Específicamente, sin recurrir a gradientes o parámetros, EvoPrompt comienza con una población de prompts y genera iterativamente nuevos prompts utilizando LLMs basados en operadores evolutivos, mejorando la población en función del conjunto de desarrollo. Optimizamos prompts tanto para LLMs de código cerrado como abierto, incluyendo GPT-3.5 y Alpaca, en 9 conjuntos de datos que abarcan tareas de comprensión y generación de lenguaje. EvoPrompt supera significativamente los prompts diseñados por humanos y los métodos existentes para la generación automática de prompts en hasta un 25% y un 14%, respectivamente. Además, EvoPrompt demuestra que la conexión entre LLMs y EAs crea sinergias, lo que podría inspirar investigaciones futuras sobre la combinación de LLMs y algoritmos convencionales.
Investigaciones previas observaron una degradación en la precisión al reemplazar la función softmax de atención con una activación punto a punto como ReLU. En el contexto de los transformadores de visión, encontramos que esta degradación se mitiga al dividir por la longitud de la secuencia. Nuestros experimentos, que entrenaron transformadores de visión desde pequeños hasta grandes en ImageNet-21k, indican que la atención con ReLU puede acercarse o igualar el rendimiento de la atención con softmax en términos de comportamiento de escalado en función del cómputo.
Uno de los obstáculos para una mejor comprensión de los mecanismos internos de las redes neuronales es la polisemanticidad, donde las neuronas parecen activarse en múltiples contextos semánticamente distintos. La polisemanticidad nos impide identificar explicaciones concisas y comprensibles para los humanos sobre lo que las redes neuronales están haciendo internamente. Una causa hipotética de la polisemanticidad es la superposición, donde las redes neuronales representan más características de las que tienen neuronas, asignando estas características a un conjunto sobredeterminado de direcciones en el espacio de activación, en lugar de a neuronas individuales. Aquí, intentamos identificar esas direcciones utilizando autoencoders dispersos para reconstruir las activaciones internas de un modelo de lenguaje. Estos autoencoders aprenden conjuntos de características que se activan de manera dispersa y son más interpretables y monosemánticas que las direcciones identificadas por enfoques alternativos, donde la interpretabilidad se mide mediante métodos automatizados. La ablación de estas características permite una edición precisa del modelo, por ejemplo, eliminando capacidades como la predicción de pronombres, mientras se perturba menos el comportamiento del modelo en comparación con técnicas anteriores. Este trabajo indica que es posible resolver la superposición en modelos de lenguaje utilizando un método escalable y no supervisado. Nuestro método puede servir como base para futuros trabajos de interpretabilidad mecanística, lo que esperamos permitirá una mayor transparencia y capacidad de dirección en los modelos.
Exploramos el impacto de la dispersión de parámetros en el comportamiento de escalado de Transformers entrenados en conjuntos de datos masivos (es decir, "modelos fundacionales"), tanto en dominios de visión como de lenguaje. En este contexto, identificamos la primera ley de escalado que describe la relación entre la dispersión de pesos, el número de parámetros no nulos y la cantidad de datos de entrenamiento, la cual validamos empíricamente a través de escalas de modelos y datos; en ViT/JFT-4B y T5/C4. Estos resultados nos permiten caracterizar la "dispersión óptima", el nivel de dispersión que ofrece el mejor rendimiento para un tamaño efectivo de modelo y un presupuesto de entrenamiento dados. Para un número fijo de parámetros no nulos, identificamos que la dispersión óptima aumenta con la cantidad de datos utilizados para el entrenamiento. También extendemos nuestro estudio a diferentes estructuras de dispersión (como el patrón n:m compatible con hardware) y estrategias (como comenzar desde un modelo denso preentrenado). Nuestros hallazgos arrojan luz sobre el poder y las limitaciones de la dispersión de pesos en diversos entornos de parámetros y computacionales, ofreciendo tanto una comprensión teórica como implicaciones prácticas para aprovechar la dispersión hacia mejoras en la eficiencia computacional.
Para tomar decisiones efectivas en entornos novedosos con objetivos de largo plazo, es crucial involucrarse en un razonamiento jerárquico a través de escalas espaciales y temporales. Esto implica planificar secuencias abstractas de subobjetivos, razonar visualmente sobre los planes subyacentes y ejecutar acciones de acuerdo con el plan diseñado mediante el control visomotor. Proponemos Modelos Fundamentales de Composición para Planificación Jerárquica (HiP), un modelo fundamental que aprovecha múltiples modelos fundamentales expertos entrenados individualmente en datos de lenguaje, visión y acción, trabajando conjuntamente para resolver tareas de largo plazo. Utilizamos un modelo de lenguaje de gran escala para construir planes simbólicos que se anclan en el entorno a través de un modelo de difusión de video de gran escala. Los planes de video generados se anclan luego al control visomotor mediante un modelo de dinámica inversa que infiere acciones a partir de los videos generados. Para permitir un razonamiento efectivo dentro de esta jerarquía, aplicamos consistencia entre los modelos mediante refinamiento iterativo. Ilustramos la eficacia y adaptabilidad de nuestro enfoque en tres tareas diferentes de manipulación en mesas con objetivos de largo plazo.
A pesar de los avances recientes en la generación de texto a audio (TTA), demostramos que los modelos de última generación, como AudioLDM, entrenados en conjuntos de datos con una distribución de clases desequilibrada, como AudioCaps, presentan sesgos en su rendimiento de generación. Específicamente, sobresalen en la generación de clases de audio comunes, mientras que tienen un desempeño inferior en las clases raras, lo que degrada el rendimiento general de la generación. Nos referimos a este problema como generación de texto a audio de cola larga. Para abordar esta cuestión, proponemos un enfoque simple basado en recuperación aumentada para modelos TTA. En concreto, dado un texto de entrada, primero aprovechamos un modelo de preentrenamiento de lenguaje y audio contrastivo (CLAP) para recuperar pares de texto-audio relevantes. Las características de los datos de audio-texto recuperados se utilizan luego como condiciones adicionales para guiar el aprendizaje de los modelos TTA. Mejoramos AudioLDM con nuestro enfoque propuesto y denominamos al sistema aumentado resultante como Re-AudioLDM. En el conjunto de datos AudioCaps, Re-AudioLDM alcanza una distancia de Frechet de audio (FAD) de última generación de 1.37, superando ampliamente a los enfoques existentes. Además, demostramos que Re-AudioLDM puede generar audio realista para escenas complejas, clases de audio raras e incluso tipos de audio no vistos, lo que indica su potencial en tareas de TTA.
Los modelos de difusión de texto a imagen comprenden las relaciones espaciales entre objetos, pero ¿representan la verdadera estructura 3D del mundo a partir de supervisión únicamente en 2D? Demostramos que sí, el conocimiento 3D está codificado en modelos de difusión de imágenes 2D como Stable Diffusion, y mostramos que esta estructura puede aprovecharse para tareas de visión 3D. Nuestro método, Inversión Textual Neuronal de Punto de Vista (ViewNeTI), controla el punto de vista 3D de objetos en imágenes generadas por modelos de difusión congelados. Entrenamos un pequeño mapeador neuronal para tomar parámetros de punto de vista de la cámara y predecir latentes del codificador de texto; estos latentes condicionan luego el proceso de generación de difusión para producir imágenes con el punto de vista de cámara deseado. ViewNeTI aborda de manera natural la Síntesis de Nuevas Vistas (NVS). Al aprovechar el modelo de difusión congelado como un prior, podemos resolver NVS con muy pocas vistas de entrada; incluso podemos realizar síntesis de nuevas vistas a partir de una sola vista. Nuestras predicciones de NVS de una sola vista muestran buenos detalles semánticos y fotorrealismo en comparación con métodos anteriores. Nuestro enfoque es adecuado para modelar la incertidumbre inherente a los problemas de visión 3D dispersos, ya que puede generar eficientemente muestras diversas. Nuestro mecanismo de control de vista es general y puede incluso cambiar el punto de vista de la cámara en imágenes generadas por indicaciones definidas por el usuario.