Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de generación de texto a imagen han desbloqueado un gran potencial para la creatividad visual. Sin embargo, estos modelos enfrentan dificultades para generar personajes consistentes, un aspecto crucial para numerosas aplicaciones del mundo real, como la visualización de historias, el diseño de recursos para desarrollo de juegos, publicidad y más. Los métodos actuales suelen depender de múltiples imágenes preexistentes del personaje objetivo o implican procesos manuales intensivos en mano de obra. En este trabajo, proponemos una solución completamente automatizada para la generación de personajes consistentes, donde el único insumo es un texto descriptivo. Introducimos un procedimiento iterativo que, en cada etapa, identifica un conjunto coherente de imágenes que comparten una identidad similar y extrae una identidad más consistente de este conjunto. Nuestro análisis cuantitativo demuestra que nuestro método logra un mejor equilibrio entre la alineación con el texto descriptivo y la consistencia de la identidad en comparación con los métodos de referencia, y estos hallazgos se refuerzan con un estudio de usuarios. Para concluir, presentamos varias aplicaciones prácticas de nuestro enfoque. La página del proyecto está disponible en https://omriavrahami.com/the-chosen-one.
Los modelos de difusión de texto a imagen han demostrado capacidades notables para transformar indicaciones textuales en imágenes coherentes, aunque el costo computacional de su inferencia sigue siendo un desafío persistente. Para abordar este problema, presentamos UFOGen, un modelo generativo novedoso diseñado para la síntesis ultra rápida de texto a imagen en un solo paso. A diferencia de los enfoques convencionales que se centran en mejorar los muestreadores o emplear técnicas de destilación para modelos de difusión, UFOGen adopta una metodología híbrida, integrando modelos de difusión con un objetivo GAN. Al aprovechar un objetivo difusión-GAN recientemente introducido y una inicialización con modelos de difusión preentrenados, UFOGen sobresale en la generación eficiente de imágenes de alta calidad condicionadas por descripciones textuales en un solo paso. Más allá de la generación tradicional de texto a imagen, UFOGen muestra versatilidad en aplicaciones. Cabe destacar que UFOGen se encuentra entre los modelos pioneros que permiten la generación de texto a imagen en un solo paso y diversas tareas posteriores, representando un avance significativo en el panorama de los modelos generativos eficientes. \blfootnote{*Trabajo realizado como investigador estudiantil de Google, el símbolo de daga indica contribución igual.}
A pesar del éxito del razonamiento en cadena (chain of thought) para mejorar el razonamiento de los modelos de lenguaje, el proceso subyacente sigue siendo poco comprendido. Aunque el razonamiento lógicamente sólido parece intrínsecamente crucial para el razonamiento en cadena, estudios previos revelan, sorprendentemente, un impacto mínimo al utilizar demostraciones inválidas. Además, el enfoque convencional del razonamiento en cadena no informa a los modelos de lenguaje sobre qué errores evitar, lo que potencialmente conduce a más fallos. Por ello, inspirados en cómo los humanos pueden aprender tanto de ejemplos positivos como negativos, proponemos el razonamiento en cadena contrastivo para mejorar el razonamiento de los modelos de lenguaje. En comparación con el enfoque convencional, nuestro método proporciona demostraciones de razonamiento tanto válidas como inválidas, guiando al modelo a razonar paso a paso mientras reduce errores de razonamiento. Para mejorar la generalización, introducimos un método automático para construir demostraciones contrastivas. Nuestros experimentos en benchmarks de razonamiento demuestran que el razonamiento en cadena contrastivo puede servir como una mejora general del enfoque de razonamiento en cadena tradicional.
Los campos de radiancia neural logran una calidad sin precedentes para la síntesis de nuevas vistas, pero su formulación volumétrica sigue siendo costosa, requiriendo un gran número de muestras para renderizar imágenes de alta resolución. Las codificaciones volumétricas son esenciales para representar geometrías difusas como follaje y cabello, y son adecuadas para la optimización estocástica. Sin embargo, muchas escenas consisten principalmente en superficies sólidas que pueden ser renderizadas con precisión mediante una sola muestra por píxel. Basándonos en esta observación, proponemos una formulación de radiancia neural que transita suavemente entre el renderizado volumétrico y el basado en superficies, acelerando significativamente la velocidad de renderizado e incluso mejorando la fidelidad visual. Nuestro método construye una envolvente de malla explícita que delimita espacialmente una representación volumétrica neural. En regiones sólidas, la envolvente casi converge a una superficie y a menudo puede ser renderizada con una sola muestra. Para ello, generalizamos la formulación de NeuS con un tamaño de kernel variable aprendido que codifica la dispersión de la densidad, ajustando un kernel amplio para regiones volumétricas y un kernel estrecho para regiones superficiales. Luego, extraemos una malla explícita de una banda estrecha alrededor de la superficie, con un ancho determinado por el tamaño del kernel, y afinamos el campo de radiancia dentro de esta banda. En el momento de la inferencia, lanzamos rayos contra la malla y evaluamos el campo de radiancia solo dentro de la región delimitada, reduciendo enormemente el número de muestras requeridas. Los experimentos muestran que nuestro enfoque permite un renderizado eficiente con una fidelidad muy alta. También demostramos que la envolvente extraída habilita aplicaciones posteriores como animación y simulación.
Proponemos Tied-LoRA, un paradigma simple que utiliza la vinculación de pesos y el entrenamiento selectivo para aumentar aún más la eficiencia de parámetros del método de adaptación de bajo rango (LoRA). Nuestras investigaciones incluyen todas las combinaciones factibles de entrenamiento/congelación de parámetros junto con la vinculación de pesos para identificar el equilibrio óptimo entre el rendimiento y el número de parámetros entrenables. A través de experimentos que abarcan una variedad de tareas y dos modelos de lenguaje base, proporcionamos un análisis que revela las compensaciones entre eficiencia y rendimiento. Nuestros experimentos descubrieron una configuración particular de Tied-LoRA que destaca al demostrar un rendimiento comparable en varias tareas mientras emplea solo el 13~\% de los parámetros utilizados por el método LoRA estándar.
Los modelos de lenguaje de gran escala han demostrado un rendimiento prometedor en los benchmarks de generación de código. Sin embargo, existe una brecha considerable entre estos logros en los benchmarks y su aplicabilidad práctica, atribuida principalmente a la dependencia de la programación en el mundo real de bibliotecas preexistentes. En lugar de evaluar a los LLMs para que generen código desde cero, este trabajo tiene como objetivo proponer una nueva configuración de evaluación en la que los LLMs utilicen bibliotecas de código abierto para completar tareas de aprendizaje automático. Por lo tanto, proponemos ML-Bench, un benchmark extenso desarrollado para evaluar la eficacia de los LLMs en el aprovechamiento de funciones existentes en bibliotecas de código abierto. Este consta de 10044 muestras que abarcan 130 tareas en 14 repositorios destacados de aprendizaje automático en GitHub. En este contexto, dada una instrucción específica de tarea de aprendizaje automático y el archivo README correspondiente en una base de código, se le asigna a un LLM la tarea de generar código para cumplir con la tarea. Esto requiere la comprensión de documentos largos intercalados con lenguaje y código, así como la comprensión de estructuras de código complejas entre archivos, lo que introduce nuevos desafíos. Cabe destacar que, aunque GPT-4 muestra una mejora notable sobre otros LLMs, solo logra completar el 39.73\% de las tareas, dejando un gran espacio para la mejora. Abordamos estos desafíos proponiendo ML-Agent, diseñado para navegar eficazmente la base de código, localizar documentación, recuperar código y generar código ejecutable. Los resultados empíricos demuestran que ML-Agent, construido sobre GPT-4, resulta en mejoras adicionales. El código, los datos y los modelos están disponibles en https://ml-bench.github.io/.
Los puntos de referencia desempeñan un papel importante en el desarrollo de algoritmos de aprendizaje automático. Por ejemplo, la investigación en aprendizaje por refuerzo (RL, por sus siglas en inglés) ha estado fuertemente influenciada por los entornos y puntos de referencia disponibles. Sin embargo, los entornos de RL tradicionalmente se ejecutan en la CPU, lo que limita su escalabilidad con los recursos computacionales típicos del ámbito académico. Los avances recientes en JAX han permitido un uso más amplio de la aceleración por hardware para superar estos obstáculos computacionales, posibilitando pipelines de entrenamiento y entornos de RL masivamente paralelos. Esto es particularmente útil para la investigación en aprendizaje por refuerzo multiagente (MARL). En primer lugar, se deben considerar múltiples agentes en cada paso del entorno, lo que añade una carga computacional, y en segundo lugar, la complejidad de las muestras aumenta debido a la no estacionariedad, la observabilidad parcial descentralizada u otros desafíos propios del MARL. En este artículo, presentamos JaxMARL, la primera base de código de código abierto que combina facilidad de uso con eficiencia habilitada para GPU, y que soporta un gran número de entornos MARL comúnmente utilizados, así como algoritmos de referencia populares. Al considerar el tiempo de reloj, nuestros experimentos muestran que, por ejecución, nuestro pipeline de entrenamiento basado en JAX es hasta 12500 veces más rápido que los enfoques existentes. Esto permite evaluaciones eficientes y exhaustivas, con el potencial de aliviar la crisis de evaluación del campo. También presentamos y evaluamos SMAX, una versión vectorizada y simplificada del popular StarCraft Multi-Agent Challenge, que elimina la necesidad de ejecutar el motor del juego StarCraft II. Esto no solo permite la aceleración por GPU, sino que también proporciona un entorno MARL más flexible, desbloqueando el potencial para el autoaprendizaje, el metaaprendizaje y otras aplicaciones futuras en MARL. Proporcionamos el código en https://github.com/flairox/jaxmarl.
Las recientes decisiones de los principales laboratorios de IA de abrir el código de sus modelos o de restringir el acceso a los mismos han generado un debate sobre si, y cómo, deberían compartirse los modelos de IA cada vez más capaces. En el ámbito de la IA, abrir el código generalmente se refiere a hacer que la arquitectura del modelo y sus pesos sean accesibles de manera gratuita y pública para que cualquiera pueda modificarlos, estudiarlos, construir sobre ellos y utilizarlos. Esto ofrece ventajas como permitir la supervisión externa, acelerar el progreso y descentralizar el control sobre el desarrollo y uso de la IA. Sin embargo, también presenta un potencial creciente de mal uso y consecuencias no deseadas. Este artículo ofrece un análisis de los riesgos y beneficios de abrir el código de modelos base altamente capaces. Si bien abrir el código históricamente ha proporcionado beneficios netos sustanciales para la mayoría de los procesos de desarrollo de software y IA, argumentamos que, para algunos modelos base altamente capaces que probablemente se desarrollen en un futuro cercano, abrir el código podría plantear riesgos lo suficientemente extremos como para superar los beneficios. En tal caso, los modelos base altamente capaces no deberían abrirse, al menos no inicialmente. Se exploran estrategias alternativas, incluidas opciones de compartir modelos sin abrir el código. El artículo concluye con recomendaciones para desarrolladores, organismos de normalización y gobiernos para establecer prácticas seguras y responsables de compartir modelos, y preservar los beneficios del código abierto cuando sea seguro.