Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

RedPajama: un conjunto de datos abierto para entrenar modelos de lenguaje grandes
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

Los modelos de lenguaje grandes están cada vez más convirtiéndose en una tecnología fundamental en inteligencia artificial, las ciencias y la sociedad en su conjunto, sin embargo, las estrategias óptimas para la composición y filtrado de conjuntos de datos siguen siendo en gran medida esquivas. Muchos de los modelos de mejor rendimiento carecen de transparencia en sus procesos de curación de datos y desarrollo de modelos, lo que supone un obstáculo para el desarrollo de modelos de lenguaje completamente abiertos. En este documento, identificamos tres desafíos centrales relacionados con los datos que deben abordarse para avanzar en modelos de lenguaje de código abierto. Estos incluyen (1) transparencia en el desarrollo del modelo, incluido el proceso de curación de datos, (2) acceso a grandes cantidades de datos de alta calidad y (3) disponibilidad de artefactos y metadatos para la curación y análisis de conjuntos de datos. Para abordar estos desafíos, lanzamos RedPajama-V1, una reproducción abierta del conjunto de datos de entrenamiento LLaMA. Además, lanzamos RedPajama-V2, un conjunto de datos masivo exclusivamente web que consta de datos de texto crudo y sin filtrar junto con señales de calidad y metadatos. Juntos, los conjuntos de datos de RedPajama abarcan más de 100 billones de tokens que abarcan múltiples dominios y, con sus señales de calidad, facilitan el filtrado de datos, con el objetivo de inspirar el desarrollo de numerosos conjuntos de datos nuevos. Hasta la fecha, estos conjuntos de datos ya se han utilizado en el entrenamiento de modelos de lenguaje sólidos utilizados en producción, como Snowflake Arctic, XGen de Salesforce y OLMo de AI2. Para proporcionar información sobre la calidad de RedPajama, presentamos una serie de análisis y estudios de ablación con modelos de lenguaje solo decodificador con hasta 1.6 mil millones de parámetros. Nuestros hallazgos demuestran cómo las señales de calidad para los datos web pueden ser aprovechadas de manera efectiva para curar subconjuntos de datos de alta calidad, subrayando el potencial de RedPajama para avanzar en el desarrollo de modelos de lenguaje transparentes y de alto rendimiento a gran escala.

FlipSketch: Convertir Dibujos Estáticos en Animaciones de Bocetos Guiadas por Texto
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

Las animaciones a mano ofrecen un medio poderoso para contar historias visuales, desde simples garabatos de flip-book hasta producciones de estudio profesionales. Mientras que la animación tradicional requiere equipos de artistas hábiles para dibujar cuadros clave e intermedios, los intentos de automatización existentes aún exigen un esfuerzo artístico significativo a través de trayectorias de movimiento precisas o especificación de cuadros clave. Presentamos FlipSketch, un sistema que devuelve la magia de la animación de flip-book: ¡simplemente dibuja tu idea y describe cómo quieres que se mueva! Nuestro enfoque aprovecha prioridades de movimiento de modelos de difusión de texto a video, adaptándolos para generar animaciones a mano a través de tres innovaciones clave: (i) ajuste fino para la generación de cuadros con estilo de boceto, (ii) un mecanismo de cuadro de referencia que preserva la integridad visual del boceto de entrada a través de un refinamiento de ruido, y (iii) una composición de doble atención que permite un movimiento fluido sin perder consistencia visual. A diferencia de las animaciones vectoriales restringidas, nuestros cuadros rasterizados admiten transformaciones dinámicas de bocetos, capturando la libertad expresiva de la animación tradicional. El resultado es un sistema intuitivo que hace que la animación a mano sea tan simple como garabatear y describir, manteniendo la esencia artística de la animación dibujada a mano.

SymDPO: Impulsando el Aprendizaje en Contexto de Modelos Multimodales Grandes con Optimización de Preferencia Directa de Demostración de Símbolos
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

A medida que los modelos de lenguaje continúan escalando, los Modelos de Lenguaje Grandes (LLMs) han mostrado capacidades emergentes en Aprendizaje en Contexto (ICL), lo que les permite resolver tareas de lenguaje prefijando algunas demostraciones en contexto (ICDs) como contexto. Inspirados por estos avances, los investigadores han extendido estas técnicas para desarrollar Modelos Multimodales Grandes (LMMs) con capacidades de ICL. Sin embargo, los LMMs existentes enfrentan un problema crítico: a menudo no logran aprovechar de manera efectiva el contexto visual en las demostraciones multimodales y en su lugar simplemente siguen patrones textuales. Esto indica que los LMMs no logran una alineación efectiva entre las demostraciones multimodales y las salidas del modelo. Para abordar este problema, proponemos la Optimización Directa de Preferencia de Demostración de Símbolos (SymDPO). Específicamente, SymDPO tiene como objetivo romper el paradigma tradicional de construir demostraciones multimodales mediante el uso de símbolos aleatorios para reemplazar respuestas de texto dentro de las instancias. Esto obliga al modelo a comprender cuidadosamente las imágenes de la demostración y establecer una relación entre las imágenes y los símbolos para responder correctamente a las preguntas. Validamos la efectividad de este método en múltiples pruebas, demostrando que con SymDPO, los LMMs pueden entender de manera más efectiva el contexto multimodal dentro de los ejemplos y utilizar este conocimiento para responder mejor a las preguntas.

Decodificación Especulativa Continua para la Generación de Imágenes Autoregresivas
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

Los modelos de generación de imágenes autorregresivos (AR) de valores continuos han demostrado una notable superioridad sobre sus contrapartes de tokens discretos, exhibiendo una considerable calidad de reconstrucción y una mayor fidelidad en la generación. Sin embargo, las demandas computacionales del marco autorregresivo resultan en una sobrecarga significativa en la inferencia. Si bien la decodificación especulativa ha demostrado ser efectiva para acelerar los Modelos de Lenguaje Grandes (LLMs), su adaptación a los modelos autorregresivos visuales de valores continuos permanece inexplorada. Este trabajo generaliza el algoritmo de decodificación especulativa desde tokens discretos al espacio continuo. Al analizar las propiedades intrínsecas de la distribución de salida, establecemos un criterio de aceptación personalizado para las distribuciones de difusión predominantes en tales modelos. Para superar la inconsistencia que ocurrió en las distribuciones de salida de la decodificación especulativa, introducimos métodos de alineación de trayectorias de desruido y prellenado de tokens. Además, identificamos la distribución difícil de muestrear en la fase de rechazo. Para mitigar este problema, proponemos un meticuloso método de muestreo de aceptación-rechazo con un límite superior adecuado, evitando así una integración compleja. Los resultados experimentales muestran que nuestra decodificación especulativa continua logra una notable aceleración de 2.33 veces en modelos listos para usar, manteniendo la distribución de salida. Los códigos estarán disponibles en https://github.com/MarkXCloud/CSpD

ITACLIP: Mejorando la Segmentación Semántica sin Entrenamiento con Mejoras en Imágenes, Texto y Arquitectura
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

Los avances recientes en los Modelos de Visión y Lenguaje Fundacionales (VLF) han transformado el paradigma de evaluación en tareas de visión por computadora. Estos modelos fundamentales, especialmente CLIP, han acelerado la investigación en tareas de visión por computadora de vocabulario abierto, incluida la Segmentación Semántica de Vocabulario Abierto (OVSS). Aunque los resultados iniciales son prometedores, las capacidades de predicción densa de los VLF aún requieren mejoras adicionales. En este estudio, mejoramos el rendimiento de segmentación semántica de CLIP mediante la introducción de nuevos módulos y modificaciones: 1) cambios arquitectónicos en la última capa de ViT y la incorporación de mapas de atención de las capas intermedias con la última capa, 2) Ingeniería de Imágenes: aplicando aumentos de datos para enriquecer las representaciones de imágenes de entrada, y 3) utilizando Modelos de Lenguaje Grandes (LLM) para generar definiciones y sinónimos para cada nombre de clase para aprovechar las capacidades de vocabulario abierto de CLIP. Nuestro método sin entrenamiento, ITACLIP, supera a los enfoques actuales de vanguardia en benchmarks de segmentación como COCO-Stuff, COCO-Object, Pascal Context y Pascal VOC. Nuestro código está disponible en https://github.com/m-arda-aydn/ITACLIP.

Construyendo Confianza: Fundamentos de Seguridad, Seguridad y Transparencia en IA
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

Este documento explora el ecosistema en rápida evolución de modelos de IA disponibles públicamente, y sus posibles implicaciones en el panorama de seguridad. A medida que los modelos de IA se vuelven cada vez más comunes, comprender sus riesgos y vulnerabilidades potenciales es crucial. Revisamos los escenarios actuales de seguridad y seguridad, destacando desafíos como problemas de seguimiento, remedios y la aparente ausencia de procesos de ciclo de vida y propiedad de modelos de IA. Se proponen estrategias integrales para mejorar la seguridad y la seguridad tanto para los desarrolladores de modelos como para los usuarios finales. Este documento tiene como objetivo proporcionar algunas de las piezas fundamentales para una mayor estandarización de la seguridad, la seguridad y la transparencia en el desarrollo y operación de modelos de IA y los ecosistemas y comunidades abiertas más amplias que se están formando en torno a ellos.

Girador de bolígrafo dinámico en mano con robótica suave
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

La manipulación dinámica en mano sigue siendo una tarea desafiante para los sistemas robóticos blandos que han demostrado ventajas en interacciones seguras y complacientes, pero tienen dificultades con tareas dinámicas de alta velocidad. En este trabajo, presentamos SWIFT, un sistema para aprender tareas dinámicas utilizando una mano robótica suave y complaciente. A diferencia de trabajos anteriores que se basan en simulación, acciones cuasiestáticas y modelos precisos de objetos, el sistema propuesto aprende a hacer girar un bolígrafo a través de ensayo y error utilizando solo datos del mundo real sin necesidad de un conocimiento previo explícito de los atributos físicos del bolígrafo. Con ensayos autoetiquetados muestreados del mundo real, el sistema descubre el conjunto de parámetros primitivos de agarre y giro de bolígrafo que permite a una mano suave hacer girar un bolígrafo de manera robusta y confiable. Después de 130 acciones muestreadas por objeto, SWIFT logra una tasa de éxito del 100% en tres bolígrafos con diferentes pesos y distribuciones de peso, demostrando la generalización y robustez del sistema ante cambios en las propiedades del objeto. Los resultados resaltan el potencial de los efectores finales robóticos blandos para realizar tareas dinámicas, incluida la manipulación rápida en mano. También demostramos que SWIFT se generaliza para hacer girar objetos con diferentes formas y pesos, como un pincel y un destornillador, que hacemos girar con tasas de éxito de 10/10 y 5/10 respectivamente. Los videos, datos y código están disponibles en https://soft-spin.github.io.

SEAGULL: Evaluación de Calidad de Imagen Sin Referencia para Regiones de Interés a través de Ajuste de Instrucciones de Visión-Lenguaje.
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

Los métodos existentes de Evaluación de Calidad de Imágenes (IQA, por sus siglas en inglés) han logrado un éxito notable en el análisis de calidad de la imagen en general, pero pocos trabajos exploran el análisis de calidad para Regiones de Interés (ROIs). El análisis de calidad de las ROIs puede proporcionar orientación detallada para la mejora de la calidad de la imagen y es crucial para escenarios que se centran en la calidad a nivel de región. Este artículo propone una red novedosa, SEAGULL, que puede Ver y Evaluar la calidad de las ROIs con la Guía de un modelo de Visión-Lenguaje Grande. SEAGULL incorpora un modelo de visión-lenguaje (VLM), máscaras generadas por el Modelo Segment Anything (SAM) para especificar las ROIs, y un Extractor de Características basado en Máscaras (MFE) meticulosamente diseñado para extraer tokens globales y locales para las ROIs especificadas, lo que permite una precisa evaluación de la calidad detallada de las ROIs. Además, este artículo construye dos conjuntos de datos de IQA basados en ROIs, SEAGULL-100w y SEAGULL-3k, para entrenar y evaluar la IQA basada en ROIs. SEAGULL-100w consta de aproximadamente 100w imágenes de distorsión sintéticas con 33 millones de ROIs para pre-entrenamiento con el fin de mejorar la capacidad del modelo de percepción de calidad regional, y SEAGULL-3k contiene alrededor de 3k ROIs de distorsión auténticas para potenciar la capacidad del modelo de percibir distorsiones del mundo real. Después del pre-entrenamiento en SEAGULL-100w y el ajuste fino en SEAGULL-3k, SEAGULL muestra un rendimiento notable en la evaluación de calidad detallada de las ROIs. El código y los conjuntos de datos están disponibles públicamente en https://github.com/chencn2020/Seagull.

Evaluación del rendimiento del tokenizador de modelos de lenguaje grandes en los diferentes idiomas oficiales de la India.
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

Los Modelos de Lenguaje de Gran Tamaño (LLMs) basados en arquitecturas de transformadores han revolucionado una variedad de dominios, con la tokenización desempeñando un papel fundamental en sus etapas de preprocesamiento y ajuste fino. En modelos multilingües, especialmente aquellos adaptados para lenguas indias, una tokenización efectiva es crucial para optimizar el rendimiento. Este documento presenta una evaluación exhaustiva de los tokenizadores utilizados por 12 LLMs en las 22 lenguas oficiales de la India, centrándose en comparar la eficiencia de sus procesos de tokenización. Empleamos la Longitud Normalizada de Secuencia (NSL) como métrica clave en nuestro análisis. Nuestros hallazgos revelan que el tokenizador SUTRA supera a todos los demás modelos, incluidos varios modelos específicos para lenguas indias, destacándose en 14 idiomas. Entre las percepciones destacadas se incluyen el manejo superior de lenguas indias por parte del tokenizador SUTRA, el avance de GPT-4o sobre su predecesor GPT-4 en el procesamiento de lenguas indias, y el rendimiento limitado de Project Indus en ciertas lenguas. Este estudio subraya la importancia crítica de desarrollar estrategias de tokenización dirigidas para modelos multilingües y centrados en lenguas indias, sentando las bases para futuras mejoras en el diseño de tokenizadores para mejorar la cobertura lingüística y la eficiencia del modelo.