Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje grandes están cada vez más convirtiéndose en una tecnología fundamental en inteligencia artificial, las ciencias y la sociedad en su conjunto, sin embargo, las estrategias óptimas para la composición y filtrado de conjuntos de datos siguen siendo en gran medida esquivas. Muchos de los modelos de mejor rendimiento carecen de transparencia en sus procesos de curación de datos y desarrollo de modelos, lo que supone un obstáculo para el desarrollo de modelos de lenguaje completamente abiertos. En este documento, identificamos tres desafíos centrales relacionados con los datos que deben abordarse para avanzar en modelos de lenguaje de código abierto. Estos incluyen (1) transparencia en el desarrollo del modelo, incluido el proceso de curación de datos, (2) acceso a grandes cantidades de datos de alta calidad y (3) disponibilidad de artefactos y metadatos para la curación y análisis de conjuntos de datos. Para abordar estos desafíos, lanzamos RedPajama-V1, una reproducción abierta del conjunto de datos de entrenamiento LLaMA. Además, lanzamos RedPajama-V2, un conjunto de datos masivo exclusivamente web que consta de datos de texto crudo y sin filtrar junto con señales de calidad y metadatos. Juntos, los conjuntos de datos de RedPajama abarcan más de 100 billones de tokens que abarcan múltiples dominios y, con sus señales de calidad, facilitan el filtrado de datos, con el objetivo de inspirar el desarrollo de numerosos conjuntos de datos nuevos. Hasta la fecha, estos conjuntos de datos ya se han utilizado en el entrenamiento de modelos de lenguaje sólidos utilizados en producción, como Snowflake Arctic, XGen de Salesforce y OLMo de AI2. Para proporcionar información sobre la calidad de RedPajama, presentamos una serie de análisis y estudios de ablación con modelos de lenguaje solo decodificador con hasta 1.6 mil millones de parámetros. Nuestros hallazgos demuestran cómo las señales de calidad para los datos web pueden ser aprovechadas de manera efectiva para curar subconjuntos de datos de alta calidad, subrayando el potencial de RedPajama para avanzar en el desarrollo de modelos de lenguaje transparentes y de alto rendimiento a gran escala.
Las animaciones a mano ofrecen un medio poderoso para contar historias visuales, desde simples garabatos de flip-book hasta producciones de estudio profesionales. Mientras que la animación tradicional requiere equipos de artistas hábiles para dibujar cuadros clave e intermedios, los intentos de automatización existentes aún exigen un esfuerzo artístico significativo a través de trayectorias de movimiento precisas o especificación de cuadros clave. Presentamos FlipSketch, un sistema que devuelve la magia de la animación de flip-book: ¡simplemente dibuja tu idea y describe cómo quieres que se mueva! Nuestro enfoque aprovecha prioridades de movimiento de modelos de difusión de texto a video, adaptándolos para generar animaciones a mano a través de tres innovaciones clave: (i) ajuste fino para la generación de cuadros con estilo de boceto, (ii) un mecanismo de cuadro de referencia que preserva la integridad visual del boceto de entrada a través de un refinamiento de ruido, y (iii) una composición de doble atención que permite un movimiento fluido sin perder consistencia visual. A diferencia de las animaciones vectoriales restringidas, nuestros cuadros rasterizados admiten transformaciones dinámicas de bocetos, capturando la libertad expresiva de la animación tradicional. El resultado es un sistema intuitivo que hace que la animación a mano sea tan simple como garabatear y describir, manteniendo la esencia artística de la animación dibujada a mano.
Los modelos de generación de imágenes autorregresivos (AR) de valores continuos han demostrado una notable superioridad sobre sus contrapartes de tokens discretos, exhibiendo una considerable calidad de reconstrucción y una mayor fidelidad en la generación. Sin embargo, las demandas computacionales del marco autorregresivo resultan en una sobrecarga significativa en la inferencia. Si bien la decodificación especulativa ha demostrado ser efectiva para acelerar los Modelos de Lenguaje Grandes (LLMs), su adaptación a los modelos autorregresivos visuales de valores continuos permanece inexplorada. Este trabajo generaliza el algoritmo de decodificación especulativa desde tokens discretos al espacio continuo. Al analizar las propiedades intrínsecas de la distribución de salida, establecemos un criterio de aceptación personalizado para las distribuciones de difusión predominantes en tales modelos. Para superar la inconsistencia que ocurrió en las distribuciones de salida de la decodificación especulativa, introducimos métodos de alineación de trayectorias de desruido y prellenado de tokens. Además, identificamos la distribución difícil de muestrear en la fase de rechazo. Para mitigar este problema, proponemos un meticuloso método de muestreo de aceptación-rechazo con un límite superior adecuado, evitando así una integración compleja. Los resultados experimentales muestran que nuestra decodificación especulativa continua logra una notable aceleración de 2.33 veces en modelos listos para usar, manteniendo la distribución de salida. Los códigos estarán disponibles en https://github.com/MarkXCloud/CSpD
Los avances recientes en los Modelos de Visión y Lenguaje Fundacionales (VLF) han transformado el paradigma de evaluación en tareas de visión por computadora. Estos modelos fundamentales, especialmente CLIP, han acelerado la investigación en tareas de visión por computadora de vocabulario abierto, incluida la Segmentación Semántica de Vocabulario Abierto (OVSS). Aunque los resultados iniciales son prometedores, las capacidades de predicción densa de los VLF aún requieren mejoras adicionales. En este estudio, mejoramos el rendimiento de segmentación semántica de CLIP mediante la introducción de nuevos módulos y modificaciones: 1) cambios arquitectónicos en la última capa de ViT y la incorporación de mapas de atención de las capas intermedias con la última capa, 2) Ingeniería de Imágenes: aplicando aumentos de datos para enriquecer las representaciones de imágenes de entrada, y 3) utilizando Modelos de Lenguaje Grandes (LLM) para generar definiciones y sinónimos para cada nombre de clase para aprovechar las capacidades de vocabulario abierto de CLIP. Nuestro método sin entrenamiento, ITACLIP, supera a los enfoques actuales de vanguardia en benchmarks de segmentación como COCO-Stuff, COCO-Object, Pascal Context y Pascal VOC. Nuestro código está disponible en https://github.com/m-arda-aydn/ITACLIP.
Este documento explora el ecosistema en rápida evolución de modelos de IA disponibles públicamente, y sus posibles implicaciones en el panorama de seguridad. A medida que los modelos de IA se vuelven cada vez más comunes, comprender sus riesgos y vulnerabilidades potenciales es crucial. Revisamos los escenarios actuales de seguridad y seguridad, destacando desafíos como problemas de seguimiento, remedios y la aparente ausencia de procesos de ciclo de vida y propiedad de modelos de IA. Se proponen estrategias integrales para mejorar la seguridad y la seguridad tanto para los desarrolladores de modelos como para los usuarios finales. Este documento tiene como objetivo proporcionar algunas de las piezas fundamentales para una mayor estandarización de la seguridad, la seguridad y la transparencia en el desarrollo y operación de modelos de IA y los ecosistemas y comunidades abiertas más amplias que se están formando en torno a ellos.
La manipulación dinámica en mano sigue siendo una tarea desafiante para los sistemas robóticos blandos que han demostrado ventajas en interacciones seguras y complacientes, pero tienen dificultades con tareas dinámicas de alta velocidad. En este trabajo, presentamos SWIFT, un sistema para aprender tareas dinámicas utilizando una mano robótica suave y complaciente. A diferencia de trabajos anteriores que se basan en simulación, acciones cuasiestáticas y modelos precisos de objetos, el sistema propuesto aprende a hacer girar un bolígrafo a través de ensayo y error utilizando solo datos del mundo real sin necesidad de un conocimiento previo explícito de los atributos físicos del bolígrafo. Con ensayos autoetiquetados muestreados del mundo real, el sistema descubre el conjunto de parámetros primitivos de agarre y giro de bolígrafo que permite a una mano suave hacer girar un bolígrafo de manera robusta y confiable. Después de 130 acciones muestreadas por objeto, SWIFT logra una tasa de éxito del 100% en tres bolígrafos con diferentes pesos y distribuciones de peso, demostrando la generalización y robustez del sistema ante cambios en las propiedades del objeto. Los resultados resaltan el potencial de los efectores finales robóticos blandos para realizar tareas dinámicas, incluida la manipulación rápida en mano. También demostramos que SWIFT se generaliza para hacer girar objetos con diferentes formas y pesos, como un pincel y un destornillador, que hacemos girar con tasas de éxito de 10/10 y 5/10 respectivamente. Los videos, datos y código están disponibles en https://soft-spin.github.io.
Los métodos existentes de Evaluación de Calidad de Imágenes (IQA, por sus siglas en inglés) han logrado un éxito notable en el análisis de calidad de la imagen en general, pero pocos trabajos exploran el análisis de calidad para Regiones de Interés (ROIs). El análisis de calidad de las ROIs puede proporcionar orientación detallada para la mejora de la calidad de la imagen y es crucial para escenarios que se centran en la calidad a nivel de región. Este artículo propone una red novedosa, SEAGULL, que puede Ver y Evaluar la calidad de las ROIs con la Guía de un modelo de Visión-Lenguaje Grande. SEAGULL incorpora un modelo de visión-lenguaje (VLM), máscaras generadas por el Modelo Segment Anything (SAM) para especificar las ROIs, y un Extractor de Características basado en Máscaras (MFE) meticulosamente diseñado para extraer tokens globales y locales para las ROIs especificadas, lo que permite una precisa evaluación de la calidad detallada de las ROIs. Además, este artículo construye dos conjuntos de datos de IQA basados en ROIs, SEAGULL-100w y SEAGULL-3k, para entrenar y evaluar la IQA basada en ROIs. SEAGULL-100w consta de aproximadamente 100w imágenes de distorsión sintéticas con 33 millones de ROIs para pre-entrenamiento con el fin de mejorar la capacidad del modelo de percepción de calidad regional, y SEAGULL-3k contiene alrededor de 3k ROIs de distorsión auténticas para potenciar la capacidad del modelo de percibir distorsiones del mundo real. Después del pre-entrenamiento en SEAGULL-100w y el ajuste fino en SEAGULL-3k, SEAGULL muestra un rendimiento notable en la evaluación de calidad detallada de las ROIs. El código y los conjuntos de datos están disponibles públicamente en https://github.com/chencn2020/Seagull.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) basados en arquitecturas de transformadores han revolucionado una variedad de dominios, con la tokenización desempeñando un papel fundamental en sus etapas de preprocesamiento y ajuste fino. En modelos multilingües, especialmente aquellos adaptados para lenguas indias, una tokenización efectiva es crucial para optimizar el rendimiento. Este documento presenta una evaluación exhaustiva de los tokenizadores utilizados por 12 LLMs en las 22 lenguas oficiales de la India, centrándose en comparar la eficiencia de sus procesos de tokenización. Empleamos la Longitud Normalizada de Secuencia (NSL) como métrica clave en nuestro análisis. Nuestros hallazgos revelan que el tokenizador SUTRA supera a todos los demás modelos, incluidos varios modelos específicos para lenguas indias, destacándose en 14 idiomas. Entre las percepciones destacadas se incluyen el manejo superior de lenguas indias por parte del tokenizador SUTRA, el avance de GPT-4o sobre su predecesor GPT-4 en el procesamiento de lenguas indias, y el rendimiento limitado de Project Indus en ciertas lenguas. Este estudio subraya la importancia crítica de desarrollar estrategias de tokenización dirigidas para modelos multilingües y centrados en lenguas indias, sentando las bases para futuras mejoras en el diseño de tokenizadores para mejorar la cobertura lingüística y la eficiencia del modelo.