Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de las impresionantes capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en diversas tareas, aún enfrentan dificultades en escenarios que involucran razonamiento complejo y planificación. Trabajos recientes han propuesto técnicas avanzadas de *prompting* y la necesidad de ajustar los modelos con datos de alta calidad para mejorar las habilidades de razonamiento de los LLMs. Sin embargo, estos enfoques están intrínsecamente limitados por la disponibilidad y calidad de los datos. En este contexto, la autocorrección y el autoaprendizaje surgen como soluciones viables, empleando estrategias que permiten a los LLMs refinar sus salidas y aprender a partir de recompensas autoevaluadas. No obstante, la eficacia de los LLMs en la autorrefinación de sus respuestas, particularmente en tareas de razonamiento complejo y planificación, sigue siendo cuestionable. En este artículo, presentamos AlphaLLM para la automejora de los LLMs, que integra la Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés) con los LLMs para establecer un ciclo de automejora, mejorando así las capacidades de los LLMs sin necesidad de anotaciones adicionales. Inspirados por el éxito de AlphaGo, AlphaLLM aborda los desafíos únicos de combinar MCTS con LLM para la automejora, incluyendo la escasez de datos, la inmensidad de los espacios de búsqueda en tareas de lenguaje y la naturaleza subjetiva de la retroalimentación en estas tareas. AlphaLLM está compuesto por un componente de síntesis de *prompts*, un enfoque eficiente de MCTS adaptado para tareas de lenguaje y un trío de modelos críticos para proporcionar retroalimentación precisa. Nuestros resultados experimentales en tareas de razonamiento matemático demuestran que AlphaLLM mejora significativamente el rendimiento de los LLMs sin anotaciones adicionales, mostrando el potencial de la automejora en los LLMs.
La animación de texto sirve como un medio expresivo, transformando la comunicación estática en experiencias dinámicas al infundir movimiento a las palabras para evocar emociones, enfatizar significados y construir narrativas convincentes. Crear animaciones que sean semánticamente conscientes plantea desafíos significativos, requiriendo experiencia en diseño gráfico y animación. Presentamos un esquema automatizado de animación de texto, denominado "Tipografía Dinámica", que combina dos tareas desafiantes. Deforma las letras para transmitir significado semántico y las infunde con movimientos vibrantes basados en indicaciones del usuario. Nuestra técnica aprovecha representaciones de gráficos vectoriales y un marco de optimización de extremo a extremo. Este marco emplea campos de desplazamiento neuronal para convertir letras en formas base y aplica movimiento por fotograma, fomentando la coherencia con el concepto textual deseado. Se emplean técnicas de preservación de forma y regularización de pérdida perceptual para mantener la legibilidad y la integridad estructural durante el proceso de animación. Demostramos la generalizabilidad de nuestro enfoque en varios modelos de texto a video y destacamos la superioridad de nuestra metodología de extremo a extremo sobre métodos base, que podrían consistir en tareas separadas. A través de evaluaciones cuantitativas y cualitativas, demostramos la efectividad de nuestro marco en la generación de animaciones de texto coherentes que interpretan fielmente las indicaciones del usuario mientras mantienen la legibilidad. Nuestro código está disponible en: https://animate-your-word.github.io/demo/.
Proponemos MeshLRM, un enfoque novedoso basado en LRM que puede reconstruir una malla de alta calidad a partir de tan solo cuatro imágenes de entrada en menos de un segundo. A diferencia de los modelos de reconstrucción a gran escala (LRM) anteriores que se centran en la reconstrucción basada en NeRF, MeshLRM incorpora la extracción y renderización diferenciable de mallas dentro del marco LRM. Esto permite la reconstrucción de mallas de extremo a extremo mediante el ajuste fino de un LRM NeRF preentrenado con renderización de mallas. Además, mejoramos la arquitectura LRM simplificando varios diseños complejos presentes en LRM anteriores. La inicialización NeRF de MeshLRM se entrena secuencialmente con imágenes de baja y alta resolución; esta nueva estrategia de entrenamiento LRM permite una convergencia significativamente más rápida y, por lo tanto, conduce a una mejor calidad con menos recursos computacionales. Nuestro enfoque logra una reconstrucción de mallas de última generación a partir de entradas de vistas escasas y también permite muchas aplicaciones posteriores, incluida la generación de texto a 3D y de imagen única a 3D. Página del proyecto: https://sarahweiii.github.io/meshlrm/
La intensa carga computacional de Stable Diffusion (SD) para la generación de imágenes a partir de texto representa un obstáculo significativo para su aplicación práctica. Para abordar este desafío, investigaciones recientes se centran en métodos para reducir los pasos de muestreo, como el Modelo de Consistencia Latente (LCM, por sus siglas en inglés), y en la implementación de optimizaciones arquitectónicas, incluyendo la poda y la destilación de conocimiento. A diferencia de los enfoques existentes, partimos de manera única de una variante compacta de SD, BK-SDM. Observamos que aplicar directamente LCM a BK-SDM con conjuntos de datos rastreados comúnmente utilizados produce resultados insatisfactorios. Esto nos lleva a desarrollar dos estrategias: (1) aprovechar pares de imágenes-texto de alta calidad provenientes de modelos generativos líderes y (2) diseñar un proceso avanzado de destilación adaptado específicamente para LCM. A través de una exploración exhaustiva de la cuantización, el perfilado y la implementación en dispositivos, logramos la generación rápida de imágenes fotorrealistas y alineadas con el texto en tan solo dos pasos, con una latencia inferior a un segundo en dispositivos de borde con recursos limitados.
Con el despliegue generalizado de modelos de lenguaje de gran escala (LLMs) en la generación de contenido extenso recientemente, ha surgido una demanda creciente de soporte eficiente para inferencia de secuencias largas. Sin embargo, la caché de clave-valor (KV), que se almacena para evitar la re-computación, ha surgido como un cuello de botella crítico al crecer linealmente en tamaño con la longitud de la secuencia. Debido a la naturaleza auto-regresiva de los LLMs, toda la caché KV se cargará para cada token generado, lo que resulta en una baja utilización de los núcleos computacionales y una alta latencia. Aunque se han propuesto varios métodos de compresión para la caché KV para aliviar este problema, estos sufren de una degradación en la calidad de la generación. Introducimos TriForce, un sistema jerárquico de decodificación especulativa que es escalable para la generación de secuencias largas. Este enfoque aprovecha los pesos originales del modelo y una caché KV dispersa dinámica mediante recuperación como un modelo de borrador, que sirve como una capa intermedia en la jerarquía y es especulada aún más por un modelo más pequeño para reducir su latencia de borrador. TriForce no solo facilita impresionantes aceleraciones para Llama2-7B-128K, logrando hasta 2.31 veces en una GPU A100, sino que también muestra escalabilidad al manejar contextos aún más largos. Para la configuración de descarga en dos GPUs RTX 4090, TriForce logra 0.108s/token—solo la mitad de lento que la línea base auto-regresiva en una A100, que alcanza 7.78 veces en nuestro sistema de descarga optimizado. Además, TriForce realiza 4.86 veces mejor que DeepSpeed-Zero-Inference en una sola GPU RTX 4090. La robustez de TriForce se destaca por su rendimiento consistentemente sobresaliente en varias temperaturas. El código está disponible en https://github.com/Infini-AI-Lab/TriForce.
Alinear los modelos de lenguaje (LM) basándose en datos de preferencias anotados por humanos es un paso crucial para obtener sistemas prácticos y eficientes basados en LM. Sin embargo, los datos de preferencias humanas multilingües son difíciles de obtener a gran escala, lo que hace que sea un desafío extender este marco a diversos idiomas. En este trabajo, evaluamos un enfoque simple para la alineación multilingüe de tipo zero-shot, donde un modelo de recompensa se entrena con datos de preferencias en un idioma fuente y se aplica directamente a otros idiomas objetivo. En tareas de resumen y generación de diálogos abiertos, demostramos que este método tiene un éxito consistente bajo configuraciones de evaluación exhaustivas, incluyendo evaluación humana: los modelos alineados multilingüemente son preferidos por los humanos sobre los modelos no alineados en más del 70% de las instancias de evaluación. Además, encontramos que un modelo de recompensa en un idioma diferente a veces produce modelos mejor alineados que un modelo de recompensa en el mismo idioma. También identificamos mejores prácticas cuando no hay datos específicos del idioma incluso para el ajuste fino supervisado, otro componente en la alineación.
Presentamos una nueva arquitectura para la personalización de modelos de difusión de texto a imagen, denominada Mezcla de Atención (Mixture-of-Attention, MoA). Inspirada en el mecanismo de Mezcla de Expertos (Mixture-of-Experts) utilizado en modelos de lenguaje grandes (LLMs), MoA distribuye la carga de generación entre dos vías de atención: una rama personalizada y una rama prioritaria no personalizada. MoA está diseñada para conservar el conocimiento previo del modelo original fijando sus capas de atención en la rama prioritaria, mientras interviene mínimamente en el proceso de generación con la rama personalizada, que aprende a integrar sujetos en el diseño y contexto generados por la rama prioritaria. Un mecanismo de enrutamiento novedoso gestiona la distribución de píxeles en cada capa entre estas ramas para optimizar la combinación de creación de contenido personalizado y genérico. Una vez entrenada, MoA facilita la creación de imágenes personalizadas de alta calidad que incluyen múltiples sujetos con composiciones e interacciones tan diversas como las generadas por el modelo original. Es crucial destacar que MoA mejora la distinción entre la capacidad preexistente del modelo y la intervención personalizada recién incorporada, ofreciendo así un control más desacoplado entre sujeto y contexto que antes era inalcanzable. Página del proyecto: https://snap-research.github.io/mixture-of-attention.
Este artículo presenta la versión 0.5 del Benchmark de Seguridad en IA, creado por el Grupo de Trabajo de Seguridad en IA de MLCommons. El Benchmark de Seguridad en IA ha sido diseñado para evaluar los riesgos de seguridad en sistemas de IA que utilizan modelos de lenguaje ajustados para chat. Introducimos un enfoque fundamentado para especificar y construir el benchmark, que en la versión 0.5 cubre solo un caso de uso (un adulto conversando con un asistente de propósito general en inglés) y un conjunto limitado de personajes (es decir, usuarios típicos, usuarios maliciosos y usuarios vulnerables). Hemos creado una nueva taxonomía de 13 categorías de riesgos, de las cuales 7 tienen pruebas en el benchmark de la versión 0.5. Planeamos lanzar la versión 1.0 del Benchmark de Seguridad en IA para finales de 2024. El benchmark de la versión 1.0 proporcionará información significativa sobre la seguridad de los sistemas de IA. Sin embargo, el benchmark de la versión 0.5 no debe utilizarse para evaluar la seguridad de los sistemas de IA. Hemos buscado documentar completamente las limitaciones, fallos y desafíos de la versión 0.5. Esta versión del Benchmark de Seguridad en IA incluye: (1) un enfoque fundamentado para especificar y construir el benchmark, que comprende casos de uso, tipos de sistemas bajo prueba (SUTs), lenguaje y contexto, personajes, pruebas y elementos de prueba; (2) una taxonomía de 13 categorías de riesgos con definiciones y subcategorías; (3) pruebas para siete de las categorías de riesgos, cada una compuesta por un conjunto único de elementos de prueba, es decir, prompts. Hay 43,090 elementos de prueba en total, creados mediante plantillas; (4) un sistema de calificación para sistemas de IA frente al benchmark; (5) una plataforma de acceso abierto y una herramienta descargable, llamada ModelBench, que puede utilizarse para evaluar la seguridad de los sistemas de IA en el benchmark; (6) un informe de evaluación de ejemplo que compara el rendimiento de más de una docena de modelos de lenguaje ajustados para chat disponibles públicamente; (7) una especificación de prueba para el benchmark.