Artículos de investigación en IA seleccionados diariamente con traducciones
Aumentar el tamaño de un modelo Transformer no siempre conduce a una mejora en el rendimiento. Este fenómeno no puede explicarse mediante las leyes de escalado empíricas. Además, la capacidad de generalización mejorada ocurre a medida que el modelo memoriza las muestras de entrenamiento. Presentamos un marco teórico que arroja luz sobre el proceso de memorización y la dinámica del rendimiento en los modelos de lenguaje basados en Transformers. Modelamos el comportamiento de los Transformers con memorias asociativas utilizando redes de Hopfield, de modo que cada bloque del Transformer efectivamente realiza una búsqueda aproximada del vecino más cercano. Basándonos en esto, diseñamos una función de energía análoga a la de la red de Hopfield continua moderna, lo que proporciona una explicación esclarecedora del mecanismo de atención. Utilizando la técnica de mayorización-minimización, construimos una función de energía global que captura la arquitectura en capas del Transformer. Bajo condiciones específicas, demostramos que la pérdida de entropía cruzada mínima alcanzable está acotada inferiormente por una constante aproximadamente igual a 1. Sustentamos nuestros resultados teóricos mediante experimentos con GPT-2 en varios tamaños de datos, así como entrenando Transformers básicos en un conjunto de datos de 2 millones de tokens.
Como humanos, aspiramos a crear contenido multimedia que sea tanto libremente deseado como fácilmente controlable. Gracias al destacado desarrollo de técnicas generativas, ahora podemos utilizar fácilmente métodos de difusión 2D para sintetizar imágenes controladas por bocetos en bruto o poses humanas designadas, e incluso editar/regenerar progresivamente regiones locales con enmascaramiento de inpainting. Sin embargo, flujos de trabajo similares en tareas de modelado 3D aún no están disponibles debido a la falta de controlabilidad y eficiencia en la generación 3D. En este artículo, presentamos un novedoso marco de modelado de activos 3D controlable e interactivo, denominado Coin3D. Coin3D permite a los usuarios controlar la generación 3D utilizando un proxy de geometría aproximada ensamblado a partir de formas básicas, e introduce un flujo de trabajo de generación interactiva para soportar la edición local de partes de manera fluida, mientras ofrece una vista previa de objetos 3D en pocos segundos. Para ello, desarrollamos varias técnicas, incluyendo el adaptador 3D que aplica control volumétrico de formas aproximadas al modelo de difusión, la estrategia de edición limitada por proxy para la edición precisa de partes, la caché de volumen progresiva para soportar la vista previa rápida, y el volumen-SDS para garantizar una reconstrucción de malla consistente. Experimentos extensivos de generación y edición interactiva en diversos proxies de formas demuestran que nuestro método logra una controlabilidad y flexibilidad superiores en la tarea de generación de activos 3D.
Presentamos Hunyuan-DiT, un transformador de difusión de texto a imagen con una comprensión detallada tanto del inglés como del chino. Para construir Hunyuan-DiT, diseñamos cuidadosamente la estructura del transformador, el codificador de texto y la codificación posicional. También desarrollamos desde cero una canalización completa de datos para actualizar y evaluar la información con el fin de optimizar el modelo de manera iterativa. Para lograr una comprensión lingüística detallada, entrenamos un Modelo de Lenguaje Multimodal de Gran Escala para refinar los subtítulos de las imágenes. Finalmente, Hunyuan-DiT puede realizar diálogos multimodales de múltiples turnos con los usuarios, generando y refinando imágenes según el contexto. A través de nuestro protocolo integral de evaluación humana con más de 50 evaluadores profesionales, Hunyuan-DiT establece un nuevo estado del arte en la generación de imágenes a partir de texto en chino en comparación con otros modelos de código abierto. El código y los modelos preentrenados están disponibles públicamente en github.com/Tencent/HunyuanDiT.
El aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) es el marco canónico para la alineación de modelos de lenguaje a gran escala. Sin embargo, el creciente interés en los algoritmos de alineación fuera de línea cuestiona la necesidad del muestreo en línea en RLHF. Dentro del contexto de la sobreoptimización de recompensas, comenzamos con un conjunto inicial de experimentos que demuestran la clara ventaja de los métodos en línea sobre los métodos fuera de línea. Esto nos lleva a investigar las causas de la discrepancia en el rendimiento a través de una serie de ablaciones experimentales cuidadosamente diseñadas. Demostramos empíricamente que hipótesis como la cobertura de datos fuera de línea y la calidad de los datos por sí solas no pueden explicar de manera convincente la diferencia en el rendimiento. También encontramos que, aunque los algoritmos fuera de línea entrenan políticas para ser buenas en clasificación por pares, son peores en generación; mientras que las políticas entrenadas por algoritmos en línea son buenas en generación pero peores en clasificación por pares. Esto sugiere una interacción única entre las capacidades discriminativas y generativas, que se ve fuertemente influenciada por el proceso de muestreo. Por último, observamos que la discrepancia en el rendimiento persiste tanto para funciones de pérdida contrastivas como no contrastivas, y parece no resolverse simplemente escalando las redes de políticas. En conjunto, nuestro estudio arroja luz sobre el papel fundamental del muestreo en línea en la alineación de IA y sugiere ciertos desafíos fundamentales de los algoritmos de alineación fuera de línea.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una increíble destreza en la realización de tareas que requieren comprensión semántica de instrucciones en lenguaje natural. Recientemente, muchos trabajos han ampliado esta capacidad para percibir entradas multimodales de audio y texto, pero sus capacidades suelen limitarse a tareas específicas ajustadas, como el reconocimiento automático del habla y la traducción. Por ello, desarrollamos SpeechVerse, un marco robusto de entrenamiento multitarea y aprendizaje curricular que combina modelos base preentrenados de habla y texto mediante un pequeño conjunto de parámetros aprendibles, manteniendo los modelos preentrenados congelados durante el entrenamiento. Los modelos se ajustan mediante instrucciones utilizando representaciones latentes continuas extraídas del modelo base de habla para lograr un rendimiento óptimo de cero disparos en una amplia gama de tareas de procesamiento del habla utilizando instrucciones en lenguaje natural. Realizamos una evaluación exhaustiva que incluye la comparación del rendimiento de nuestro modelo con líneas base tradicionales en varios conjuntos de datos y tareas. Además, evaluamos la capacidad del modelo para seguir instrucciones generalizadas mediante pruebas en conjuntos de datos fuera de dominio, indicaciones novedosas y tareas no vistas. Nuestros experimentos empíricos revelan que nuestro modelo multitarea SpeechVerse supera incluso a las líneas base específicas de tareas convencionales en 9 de las 11 tareas.
Los modelos existentes de texto a imagen tienen dificultades para seguir instrucciones textuales complejas, lo que plantea la necesidad de entradas adicionales para lograr una mejor controlabilidad. En este trabajo, proponemos descomponer una escena en primitivas visuales -denominadas representaciones de bloques densos- que contienen detalles finos de la escena mientras son modulares, interpretables por humanos y fáciles de construir. Basándonos en las representaciones de bloques, desarrollamos un modelo de difusión de texto a imagen anclado en bloques, denominado BlobGEN, para la generación composicional. En particular, introducimos un nuevo módulo de atención cruzada enmascarada para desentrelazar la fusión entre las representaciones de bloques y las características visuales. Para aprovechar la capacidad composicional de los modelos de lenguaje grandes (LLMs), introducimos un nuevo enfoque de aprendizaje en contexto para generar representaciones de bloques a partir de instrucciones textuales. Nuestros extensos experimentos muestran que BlobGEN logra una calidad de generación en cero-shot superior y una mejor controlabilidad guiada por el diseño en MS-COCO. Cuando se aumenta con LLMs, nuestro método exhibe una corrección numérica y espacial superior en benchmarks de generación composicional de imágenes. Página del proyecto: https://blobgen-2d.github.io.
Las arquitecturas actuales para la comprensión de videos se basan principalmente en bloques convolucionales 3D o convoluciones 2D con operaciones adicionales para el modelado temporal. Sin embargo, estos métodos tratan el eje temporal como una dimensión separada de la secuencia de video, lo que requiere grandes recursos de computación y memoria, limitando así su uso en dispositivos móviles. En este artículo, proponemos comprimir el eje temporal de una secuencia de video en la dimensión de canales y presentamos una red de reconocimiento de video ligera, denominada SqueezeTime, para la comprensión de videos en dispositivos móviles. Para mejorar la capacidad de modelado temporal de la red propuesta, diseñamos un Bloque de Aprendizaje Canal-Tiempo (CTL) para capturar la dinámica temporal de la secuencia. Este módulo tiene dos ramas complementarias: una para el aprendizaje de la importancia temporal y otra con capacidad de restauración de posición temporal para mejorar la capacidad de modelado de objetos inter-temporales. La propuesta SqueezeTime es mucho más ligera y rápida, con altas precisiones para la comprensión de videos en dispositivos móviles. Experimentos extensivos en varios benchmarks de reconocimiento de video y detección de acciones, como Kinetics400, Kinetics600, HMDB51, AVA2.1 y THUMOS14, demuestran la superioridad de nuestro modelo. Por ejemplo, nuestro SqueezeTime logra un +1.2% de precisión y un +80% de rendimiento en GPU en Kinetics400 en comparación con métodos anteriores. Los códigos están disponibles públicamente en https://github.com/xinghaochen/SqueezeTime y https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
Los modelos integrados de habla y lenguaje de gran escala (SLM, por sus siglas en inglés) que pueden seguir instrucciones de voz y generar respuestas de texto relevantes han ganado popularidad recientemente. Sin embargo, la seguridad y robustez de estos modelos sigue siendo en gran medida incierta. En este trabajo, investigamos las posibles vulnerabilidades de estos modelos de lenguaje basados en instrucciones de voz frente a ataques adversarios y técnicas de "jailbreaking". Específicamente, diseñamos algoritmos capaces de generar ejemplos adversarios para realizar jailbreaking en SLM tanto en escenarios de ataque de caja blanca como de caja negra, sin intervención humana. Además, proponemos contramedidas para contrarrestar dichos ataques de jailbreaking. Nuestros modelos, entrenados con datos de diálogo que incluyen instrucciones de voz, alcanzan un rendimiento de vanguardia en tareas de respuesta a preguntas habladas, obteniendo puntuaciones superiores al 80% en métricas de seguridad y utilidad. A pesar de las medidas de seguridad implementadas, los experimentos de jailbreaking demuestran la vulnerabilidad de los SLM a perturbaciones adversarias y ataques por transferencia, con tasas de éxito promedio del 90% y 10%, respectivamente, cuando se evalúan en un conjunto de preguntas dañinas cuidadosamente diseñadas que abarcan 12 categorías tóxicas diferentes. Sin embargo, demostramos que nuestras contramedidas propuestas reducen significativamente la tasa de éxito de los ataques.