Artículos de investigación en IA seleccionados diariamente con traducciones
La creación de contenido para una identidad específica (ID) ha despertado un interés significativo en el campo de los modelos generativos. En el ámbito de la generación de imágenes a partir de texto (T2I), la generación de contenido basado en sujetos ha logrado grandes avances, permitiendo controlar la ID en las imágenes. Sin embargo, su extensión a la generación de videos no ha sido ampliamente explorada. En este trabajo, proponemos un marco simple pero efectivo para la generación de videos con control de identidad del sujeto, denominado Video Custom Diffusion (VCD). Con una ID de sujeto específica definida por unas pocas imágenes, VCD refuerza la extracción de información de identidad e inyecta correlación entre fotogramas en la etapa de inicialización para obtener salidas de video estables con la identidad preservada en gran medida. Para lograrlo, proponemos tres componentes novedosos esenciales para una preservación de ID de alta calidad: 1) un módulo de ID entrenado con la identidad recortada mediante segmentación basada en texto (prompt-to-segmentation) para separar la información de ID del ruido de fondo y lograr un aprendizaje más preciso de los tokens de ID; 2) un módulo de texto a video (T2V) VCD con un Prior de Ruido Gaussiano 3D para una mejor consistencia entre fotogramas; y 3) módulos de video a video (V2V) Face VCD y Tiled VCD para eliminar el desenfoque en rostros y aumentar la resolución del video. A pesar de su simplicidad, realizamos extensos experimentos para verificar que VCD es capaz de generar videos estables y de alta calidad con una mejor preservación de ID en comparación con líneas base seleccionadas. Además, debido a la transferibilidad del módulo de ID, VCD también funciona bien con modelos de texto a imagen ajustados disponibles públicamente, mejorando aún más su usabilidad. Los códigos están disponibles en https://github.com/Zhen-Dong/Magic-Me.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un rendimiento notable en tareas de razonamiento en diversos dominios. Sin embargo, en el ámbito de las tareas de razonamiento, descubrimos una debilidad: los LLMs son sorprendentemente frágiles ante el orden de las premisas, a pesar de que dicho orden no altera la tarea subyacente. En particular, observamos que los LLMs alcanzan su mejor rendimiento cuando el orden de las premisas coincide con el contexto requerido en los pasos intermedios del razonamiento. Por ejemplo, en tareas de razonamiento deductivo, presentar las premisas en el mismo orden que la prueba de referencia en el prompt (en lugar de un orden aleatorio) aumenta drásticamente la precisión del modelo. Primero examinamos el efecto del orden de las premisas en el razonamiento deductivo en una variedad de LLMs, y nuestra evaluación muestra que permutar el orden de las premisas puede causar una caída en el rendimiento de más del 30%. Además, lanzamos el benchmark R-GSM, basado en GSM8K, para examinar el efecto del orden en la resolución de problemas matemáticos, y nuevamente observamos una caída significativa en la precisión en comparación con el benchmark original GSM8K.
Los modelos de generación de imágenes basados en difusión, como DALL-E 3 y Stable Diffusion-XL, demuestran capacidades notables para generar imágenes con composiciones realistas y únicas. Sin embargo, estos modelos no son robustos a la hora de razonar con precisión sobre configuraciones físicas y espaciales de objetos, especialmente cuando se les instruye con descripciones no convencionales y, por lo tanto, fuera de distribución, como "una silla con cinco patas". En este artículo, proponemos un agente de lenguaje con cadena de pensamientos 3D (L3GO), un enfoque en tiempo de inferencia que puede razonar sobre la generación de mallas 3D basadas en partes para objetos no convencionales con los que los modelos de difusión basados en datos actuales tienen dificultades. Más concretamente, utilizamos modelos de lenguaje grandes como agentes para componer un objeto deseado mediante prueba y error dentro de un entorno de simulación 3D. Para facilitar nuestra investigación, desarrollamos un nuevo benchmark, Objetos No Convencionalmente Factibles (UFO), así como SimpleBlenv, un entorno envoltorio construido sobre Blender donde los agentes de lenguaje pueden construir y componer bloques atómicos mediante llamadas API. Las evaluaciones humanas y automáticas con GPT-4V muestran que nuestro enfoque supera al GPT-4 estándar y a otros agentes de lenguaje (por ejemplo, ReAct y Reflexion) en la generación de mallas 3D en ShapeNet. Además, cuando se prueba en nuestro benchmark UFO, nuestro enfoque supera a otros modelos de texto a imagen 2D y texto a 3D de última generación según la evaluación humana.
La generalización de longitud, definida como la capacidad de extrapolar desde secuencias de entrenamiento más cortas a secuencias de prueba más largas, representa un desafío significativo para los modelos de lenguaje. Este problema persiste incluso con Transformers a gran escala que manejan tareas relativamente sencillas. En este artículo, evaluamos la capacidad de generalización de longitud del Transformer utilizando la tarea de suma de dos números enteros. Demostramos que el éxito de la generalización de longitud está intrínsecamente vinculado al formato de los datos y al tipo de codificación posicional. Al utilizar la combinación adecuada de formato de datos y codificaciones posicionales, mostramos por primera vez que los Transformers estándar pueden extrapolar a una longitud de secuencia que es 2.5 veces la longitud de entrada. Sin embargo, a diferencia de la generalización dentro de la distribución, la generalización de longitud sigue siendo frágil, influenciada significativamente por factores como la inicialización aleatoria de los pesos y el orden de los datos de entrenamiento, lo que genera grandes variaciones entre diferentes semillas aleatorias.
La necesidad imperiosa de escalar el cómputo a través de numerosos nodos resalta la importancia de la computación paralela eficiente, particularmente en el ámbito de la integración de la Interfaz de Paso de Mensajes (MPI). La desafiante tarea de programación paralela de generar programas paralelos basados en MPI ha permanecido inexplorada. Este estudio primero investiga el desempeño de los modelos de lenguaje más avanzados en la generación de programas paralelos basados en MPI. Los hallazgos revelan que modelos ampliamente utilizados como GPT-3.5 y PolyCoder (modelos especializados en código multilingüe) exhiben una notable degradación en el rendimiento al generar programas basados en MPI en comparación con programas de propósito general. En contraste, modelos específicos de dominio como MonoCoder, que están preentrenados en lenguajes de programación relacionados con MPI como C y C++, superan a modelos más grandes. Posteriormente, introducimos una tarea específica de generación de programas basados en MPI mediante el ajuste fino de MonoCoder en HPCorpusMPI. Llamamos al modelo resultante MPIrigen. Proponemos un preprocesamiento innovador para la completación solo después de observar el código completo, permitiendo así una mejor completación con un contexto más amplio. El análisis comparativo frente al rendimiento de GPT-3.5 en modo zero-shot, utilizando un novedoso método de evaluación orientado a HPC, demuestra que MPIrigen sobresale en la generación de funciones MPI precisas, alcanzando hasta 0.8 de precisión en la predicción de ubicaciones y funciones, y más de 0.9 de precisión en la predicción de argumentos. El éxito de esta solución personalizada subraya la importancia del ajuste fino específico de dominio en la optimización de modelos de lenguaje para la generación de código de computación paralela, allanando el camino para una nueva generación de herramientas de paralelización automática. Las fuentes de este trabajo están disponibles en nuestro repositorio de GitHub MPIrigen: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.
El poder de cómputo, o "compute", es crucial para el desarrollo y despliegue de capacidades de inteligencia artificial (IA). Como resultado, gobiernos y empresas han comenzado a utilizar el compute como un medio para gobernar la IA. Por ejemplo, los gobiernos están invirtiendo en capacidad de compute doméstica, controlando el flujo de compute hacia países competidores y subsidiando el acceso a compute para ciertos sectores. Sin embargo, estos esfuerzos apenas rozan la superficie de cómo el compute puede usarse para gobernar el desarrollo y despliegue de la IA. En comparación con otros insumos clave para la IA (datos y algoritmos), el compute relevante para la IA es un punto de intervención particularmente efectivo: es detectable, excluible y cuantificable, y se produce a través de una cadena de suministro extremadamente concentrada. Estas características, junto con la importancia singular del compute para los modelos de IA de vanguardia, sugieren que gobernar el compute puede contribuir a alcanzar objetivos políticos comunes, como garantizar la seguridad y el uso beneficioso de la IA. Más precisamente, los formuladores de políticas podrían usar el compute para facilitar la visibilidad regulatoria de la IA, asignar recursos para promover resultados beneficiosos y hacer cumplir restricciones contra el desarrollo y uso irresponsable o malicioso de la IA. Sin embargo, aunque las políticas y tecnologías basadas en compute tienen el potencial de ayudar en estas áreas, existe una variación significativa en su preparación para la implementación. Algunas ideas se están probando actualmente, mientras que otras se ven obstaculizadas por la necesidad de investigación fundamental. Además, los enfoques ingenuos o mal definidos para la gobernanza del compute conllevan riesgos significativos en áreas como la privacidad, los impactos económicos y la centralización del poder. Concluimos sugiriendo salvaguardias para minimizar estos riesgos en la gobernanza del compute.
El ajuste fino mediante recompensas ha surgido como un enfoque prometedor para alinear modelos base con objetivos específicos. Se ha logrado un éxito notable en el dominio del lenguaje al utilizar aprendizaje por refuerzo (RL) para maximizar recompensas que reflejan preferencias humanas. Sin embargo, en el dominio visual, los métodos existentes de ajuste fino basados en RL están limitados por su inestabilidad en entrenamientos a gran escala, lo que les impide generalizar a indicaciones complejas y no vistas. En este artículo, proponemos Predicción de Diferencia de Recompensa Proximal (PRDP), permitiendo por primera vez un ajuste fino estable de recompensas en modelos de difusión a gran escala con más de 100K indicaciones. Nuestra innovación clave es el objetivo de Predicción de Diferencia de Recompensa (RDP), que tiene la misma solución óptima que el objetivo de RL, pero con mayor estabilidad en el entrenamiento. Específicamente, el objetivo RDP es un objetivo de regresión supervisada que requiere que el modelo de difusión prediga la diferencia de recompensa entre pares de imágenes generadas a partir de sus trayectorias de eliminación de ruido. Teóricamente demostramos que el modelo de difusión que logra una predicción perfecta de la diferencia de recompensa es exactamente el maximizador del objetivo de RL. Además, desarrollamos un algoritmo en línea con actualizaciones proximales para optimizar de manera estable el objetivo RDP. En los experimentos, demostramos que PRDP puede igualar la capacidad de maximización de recompensas de métodos bien establecidos basados en RL en entrenamientos a pequeña escala. Además, a través de entrenamientos a gran escala en indicaciones de texto del Conjunto de Datos de Preferencias Humanas v2 y el Conjunto de Datos Pick-a-Pic v1, PRDP logra una calidad de generación superior en un conjunto diverso de indicaciones complejas y no vistas, mientras que los métodos basados en RL fracasan por completo.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están volviendo cada vez más prevalentes y han encontrado un uso ubicuo al ofrecer diferentes formas de asistencia en la escritura. Sin embargo, los sistemas de escritura impulsados por LLMs pueden frustrar a los usuarios debido a su limitada personalización y control, lo que puede agravarse cuando los usuarios carecen de experiencia en ingeniería de prompts. Consideramos el diseño como una forma de abordar estos desafíos y presentamos GhostWriter, una sonda de diseño de escritura mejorada con IA donde los usuarios pueden ejercer una mayor agencia y personalización. GhostWriter aprovecha los LLMs para aprender implícitamente el estilo de escritura deseado por el usuario mientras escribe, al mismo tiempo que permite momentos de enseñanza explícita a través de ediciones manuales de estilo y anotaciones. Estudiamos a 18 participantes que utilizaron GhostWriter en dos tareas de escritura diferentes, observando que les ayuda a crear generaciones de texto personalizadas y los empodera al ofrecer múltiples formas de controlar el estilo de escritura del sistema. A partir de este estudio, presentamos ideas sobre la relación de las personas con la escritura asistida por IA y ofrecemos recomendaciones de diseño para trabajos futuros.
Con la creciente complejidad de los modelos generativos de IA, la cuantización post-entrenamiento (PTQ, por sus siglas en inglés) ha surgido como una solución prometedora para implementar modelos a hiperescala en dispositivos de borde, como teléfonos móviles y televisores. Sin embargo, los esquemas de PTQ existentes consumen un tiempo y recursos considerables, lo que podría representar un cuello de botella en situaciones reales donde se requieren actualizaciones frecuentes del modelo y ajustes múltiples de hiperparámetros. Como alternativa rentable, se han propuesto esquemas de PTQ de un solo paso (one-shot). No obstante, su rendimiento es algo limitado, ya que no pueden considerar la dependencia entre capas dentro del módulo de atención, una característica muy importante de los Transformers. En este artículo, proponemos un nuevo algoritmo de PTQ que equilibra precisión y eficiencia. La idea clave del algoritmo propuesto, llamado aespa, es realizar la cuantización capa por capa para mejorar la eficiencia, mientras se considera la dependencia entre capas para preservar la puntuación de atención. A través de extensos experimentos en varios modelos de lenguaje y análisis de complejidad, demostramos que aespa es preciso y eficiente en la cuantización de modelos Transformer.