Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos el Modelo Segment Anything 2 (SAM 2), un modelo base para abordar la segmentación visual solicitada en imágenes y videos. Hemos desarrollado un motor de datos que mejora el modelo y los datos a través de la interacción del usuario, para recopilar el conjunto de datos de segmentación de video más grande hasta la fecha. Nuestro modelo es una arquitectura simple de transformer con memoria en streaming para el procesamiento de video en tiempo real. SAM 2, entrenado con nuestros datos, proporciona un rendimiento sólido en una amplia gama de tareas. En la segmentación de video, observamos una mayor precisión, utilizando 3 veces menos interacciones que en enfoques anteriores. En la segmentación de imágenes, nuestro modelo es más preciso y 6 veces más rápido que el Modelo Segment Anything (SAM). Creemos que nuestros datos, modelo e ideas serán un hito significativo para la segmentación de video y tareas de percepción relacionadas. Estamos lanzando una versión de nuestro modelo, el conjunto de datos y una demostración interactiva.
En este trabajo, presentamos Gemma 2, una nueva incorporación a la familia Gemma de modelos abiertos de vanguardia y ligeros, que varían en escala desde 2 mil millones hasta 27 mil millones de parámetros. En esta nueva versión, aplicamos varias modificaciones técnicas conocidas a la arquitectura Transformer, como atenciones locales-globales entrelazadas (Beltagy et al., 2020a) y atención de grupo de consultas (Ainslie et al., 2023). También entrenamos los modelos 2B y 9B con destilación de conocimiento (Hinton et al., 2015) en lugar de predicción del siguiente token. Los modelos resultantes ofrecen el mejor rendimiento para su tamaño e incluso proporcionan alternativas competitivas a modelos que son 2-3 veces más grandes. Ponemos a disposición de la comunidad todos nuestros modelos.
Presentamos SF3D, un método novedoso para la reconstrucción rápida y de alta calidad de mallas de objetos texturizados a partir de una sola imagen en tan solo 0.5 segundos. A diferencia de la mayoría de los enfoques existentes, SF3D está explícitamente entrenado para la generación de mallas, incorporando una técnica rápida de desplegado UV que permite una generación rápida de texturas en lugar de depender de colores de vértices. El método también aprende a predecir parámetros de materiales y mapas de normales para mejorar la calidad visual de las mallas 3D reconstruidas. Además, SF3D integra un paso de "delighting" para eliminar efectos de iluminación de baja frecuencia de manera efectiva, asegurando que las mallas reconstruidas puedan ser fácilmente utilizadas en condiciones de iluminación novedosas. Experimentos demuestran el rendimiento superior de SF3D sobre las técnicas existentes. Página del proyecto: https://stable-fast-3d.github.io
Si bien los Modelos de Lenguaje Grandes muestran un rendimiento notable en la comprensión del lenguaje natural, su naturaleza intensiva en recursos los hace menos accesibles. En contraste, modelos de lenguaje más pequeños como MiniCPM ofrecen una escalabilidad más sostenible, pero a menudo tienen un rendimiento inferior sin una optimización especializada. En este artículo, exploramos la mejora de modelos de lenguaje más pequeños a través del perfeccionamiento de sus incrustaciones de texto. Seleccionamos tres modelos de lenguaje, MiniCPM, Phi-2 y Gemma, para llevar a cabo un ajuste fino contrastivo en el conjunto de datos NLI. Nuestros resultados demuestran que este método de ajuste fino mejora la calidad de las incrustaciones de texto para los tres modelos en varios puntos de referencia, con MiniCPM mostrando las mejoras más significativas con una ganancia de rendimiento promedio del 56.33\%. El código de ajuste fino contrastivo está disponible públicamente en https://github.com/trapoom555/Language-Model-STS-CFT.
El reciente éxito de los grandes modelos de lenguaje de visión muestra un gran potencial en impulsar el sistema agente que opera en interfaces de usuario. Sin embargo, sostenemos que el poder de los modelos multimodales como GPT-4V como agente general en múltiples sistemas operativos a través de diferentes aplicaciones está ampliamente subestimado debido a la falta de una técnica robusta de análisis de pantalla capaz de: 1) identificar de manera confiable iconos interactivos dentro de la interfaz de usuario, y 2) comprender la semántica de varios elementos en una captura de pantalla y asociar con precisión la acción prevista con la región correspondiente en la pantalla. Para cubrir estas brechas, presentamos OmniParser, un método integral para analizar capturas de pantalla de interfaces de usuario en elementos estructurados, lo que mejora significativamente la capacidad de GPT-4V para generar acciones que pueden estar precisamente fundamentadas en las regiones correspondientes de la interfaz. En primer lugar, creamos un conjunto de datos de detección de iconos interactivos utilizando páginas web populares y un conjunto de datos de descripción de iconos. Estos conjuntos de datos se utilizaron para ajustar modelos especializados: un modelo de detección para analizar regiones interactivas en la pantalla y un modelo de subtítulos para extraer la semántica funcional de los elementos detectados. OmniParser mejora significativamente el rendimiento de GPT-4V en el benchmark ScreenSpot. Y en los benchmarks Mind2Web y AITW, OmniParser con solo entrada de captura de pantalla supera a los baselines de GPT-4V que requieren información adicional fuera de la captura de pantalla.
Los modelos de lenguaje multimodales (MLLMs) se están implementando cada vez más en entornos del mundo real, lo que exige su capacidad para interpretar espacios tridimensionales y comprender dinámicas temporales. A pesar de su potencial, los modelos líderes actuales en nuestra comunidad aún no logran comprender adecuadamente las dimensiones espaciales y temporales. Presentamos Correspondencia Gruesa, un método visual simple, sin necesidad de entrenamiento, efectivo y de propósito general para provocar la comprensión tridimensional y temporal en MLLMs multimodales. Nuestro método utiliza un modelo de seguimiento ligero para encontrar correspondencias de objetos entre fotogramas en un video o entre conjuntos de puntos de vista de imágenes. Selecciona las instancias de objetos más frecuentes y las visualiza con marcadores con identificadores únicos en la imagen. Con este enfoque sencillo, logramos resultados de vanguardia en pruebas de comprensión 3D, incluyendo ScanQA (+20.5\%) y un subconjunto de OpenEQA (+9.7%), y en pruebas de video de larga duración como EgoSchema (+6.0%). También creamos un pequeño conjunto de datos de diagnóstico para evaluar si los MLLMs pueden razonar sobre el espacio desde un punto de vista descrito que no sea el del punto de vista de la cámara. Nuevamente, Correspondencia Gruesa mejora las habilidades de toma de perspectiva espacial, pero destacamos que los MLLMs tienen dificultades con esta tarea. En conjunto, demostramos que nuestro simple método de provocación puede ayudar significativamente en tareas posteriores que requieran razonamiento 3D o temporal.
Las recientes aplicaciones de modelos de lenguaje a gran escala, como Generación con Recuperación Aumentada y chatbots, han generado una mayor necesidad de procesar contextos de entrada más largos. Sin embargo, este requisito se ve obstaculizado por limitaciones inherentes. Desde un punto de vista arquitectónico, los modelos están limitados por una ventana de contexto definida durante el entrenamiento. Además, el procesamiento de textos extensos requiere una cantidad considerable de memoria GPU. Proponemos un enfoque novedoso, Finch, para comprimir el contexto de entrada aprovechando los pesos del modelo pre-entrenado de auto-atención. Dado un estímulo y un texto largo, Finch identifica de forma iterativa los pares de Clave (K) y Valor (V) más relevantes sobre fragmentos del texto condicionados al estímulo. Solo estos pares se almacenan en la caché KV, que, dentro del espacio limitado por la ventana de contexto, contiene en última instancia una versión comprimida del texto largo. Nuestra propuesta permite a los modelos procesar entradas extensas incluso con una alta compresión (hasta 93 veces) mientras se preserva la integridad semántica sin necesidad de ajustes finos.
Los modelos de difusión han abierto el camino a una amplia gama de marcos de edición de imágenes basados en texto. Sin embargo, estos suelen basarse en la naturaleza de múltiples pasos del proceso de difusión hacia atrás, y adaptarlos a métodos de muestreo rápido y destilado ha resultado sorprendentemente desafiante. Aquí nos enfocamos en una línea popular de marcos de edición basados en texto: el enfoque de inversión de ruido DDPM-noise "amigable para la edición". Analizamos su aplicación a métodos de muestreo rápido y categorizamos sus fallos en dos clases: la aparición de artefactos visuales y una fuerza de edición insuficiente. Rastreamos los artefactos hasta estadísticas de ruido desiguales entre ruidos invertidos y el programa de ruido esperado, y sugerimos un programa de ruido desplazado que corrige este desfase. Para aumentar la fuerza de edición, proponemos un enfoque de pseudo-guía que aumenta eficientemente la magnitud de las ediciones sin introducir nuevos artefactos. En resumen, nuestro método permite la edición de imágenes basada en texto con tan solo tres pasos de difusión, a la vez que proporciona nuevas perspectivas sobre los mecanismos detrás de enfoques populares de edición basados en texto.
MM-Vet, con preguntas de visión-idioma abiertas dirigidas a evaluar capacidades integradas, se ha convertido en uno de los benchmarks más populares para la evaluación de modelos multimodales grandes. MM-Vet evalúa seis capacidades centrales de visión-idioma (VL): reconocimiento, conocimiento, conciencia espacial, generación de lenguaje, OCR y matemáticas. Sin embargo, su formato de pregunta está restringido a pares de imagen-texto individuales, careciendo de las secuencias de imagen y texto entrelazadas predominantes en escenarios del mundo real. Para abordar esta limitación, presentamos MM-Vet v2, que incluye una nueva capacidad de VL llamada "comprensión de secuencias de imagen-texto", evaluando la capacidad de los modelos para procesar secuencias de VL. Además, mantenemos la alta calidad de las muestras de evaluación mientras ampliamos aún más el tamaño del conjunto de evaluación. Al utilizar MM-Vet v2 para comparar grandes modelos multimodales, encontramos que Claude 3.5 Sonnet es el mejor modelo con una puntuación de 71.8, superando ligeramente a GPT-4o que obtuvo 71.0. Entre los modelos de peso abierto, InternVL2-Llama3-76B lidera con una puntuación de 68.4.
En los últimos años, ha habido una tremenda mejora en la calidad de los enfoques de generación y edición de videos. Mientras que varias técnicas se centran en la edición de la apariencia, pocas abordan el movimiento. Los enfoques actuales que utilizan texto, trayectorias o cuadros delimitadores están limitados a movimientos simples, por lo que especificamos movimientos con un único video de referencia de movimiento. Además, proponemos utilizar un modelo pre-entrenado de imagen a video en lugar de un modelo de texto a video. Este enfoque nos permite preservar la apariencia exacta y la posición de un objeto o escena objetivo y ayuda a separar la apariencia del movimiento. Nuestro método, llamado inversión textual de movimiento, aprovecha nuestra observación de que los modelos de imagen a video extraen la apariencia principalmente de la entrada de imagen (latente), mientras que el incrustado de texto/imagen inyectado a través de la atención cruzada controla predominantemente el movimiento. Por lo tanto, representamos el movimiento utilizando tokens de incrustado de texto/imagen. Al operar en un incrustado de texto de movimiento inflado que contiene múltiples tokens de incrustado de texto/imagen por fotograma, logramos una granularidad temporal de movimiento alta. Una vez optimizado en el video de referencia de movimiento, este incrustado se puede aplicar a varias imágenes objetivo para generar videos con movimientos semánticamente similares. Nuestro enfoque no requiere alineación espacial entre el video de referencia de movimiento y la imagen objetivo, se generaliza en varios dominios y se puede aplicar a diversas tareas como la reencarnación de cuerpo completo y rostro, así como el control del movimiento de objetos inanimados y la cámara. Demostramos empíricamente la efectividad de nuestro método en la tarea de transferencia de movimiento de video semántico, superando significativamente a los métodos existentes en este contexto.
La animación facial 3D impulsada por audio tiene como objetivo mapear el audio de entrada a movimientos faciales realistas. A pesar del progreso significativo, surgen limitaciones debido a anotaciones 3D inconsistentes, lo que restringe a los modelos anteriores a entrenar en anotaciones específicas y, por lo tanto, limita la escala de entrenamiento. En este trabajo, presentamos UniTalker, un modelo unificado que cuenta con una arquitectura multi-cabeza diseñada para aprovechar de manera efectiva conjuntos de datos con anotaciones variadas. Para mejorar la estabilidad del entrenamiento y garantizar la consistencia entre las salidas de múltiples cabezas, empleamos tres estrategias de entrenamiento, a saber, PCA, calentamiento del modelo e incrustación de identidad pivote. Para ampliar la escala y diversidad del entrenamiento, reunimos A2F-Bench, que comprende cinco conjuntos de datos disponibles públicamente y tres conjuntos de datos recién curados. Estos conjuntos de datos contienen una amplia gama de dominios de audio, cubriendo voces y canciones multilingües, escalando así los datos de entrenamiento de conjuntos de datos comúnmente utilizados, que suelen ser de menos de 1 hora, a 18.5 horas. Con un solo modelo UniTalker entrenado, logramos reducciones sustanciales en el error de vértices labiales del 9.2% para el conjunto de datos BIWI y del 13.7% para Vocaset. Además, el UniTalker pre-entrenado muestra promesa como modelo base para tareas de animación facial impulsadas por audio. Ajustar finamente el UniTalker pre-entrenado en conjuntos de datos vistos mejora aún más el rendimiento en cada conjunto de datos, con una reducción promedio del error del 6.3% en A2F-Bench. Además, ajustar finamente el UniTalker en un conjunto de datos no visto con solo la mitad de los datos supera a los modelos previos de última generación entrenados en el conjunto de datos completo. El código y los conjuntos de datos están disponibles en la página del proyecto https://github.com/X-niper/UniTalker.
Facilitar la participación de personas con discapacidad visual en el manga presenta un desafío significativo debido a su naturaleza visual inherente. Con el objetivo de fomentar la accesibilidad, este documento tiene como objetivo generar una transcripción de diálogo de un capítulo completo de manga de forma totalmente automática, con un énfasis particular en garantizar la coherencia narrativa. Esto implica identificar (i) lo que se está diciendo, es decir, detectar los textos en cada página y clasificarlos en esenciales vs. no esenciales, y (ii) quién lo está diciendo, es decir, atribuir cada diálogo a su hablante, asegurando que los mismos personajes sean nombrados de manera consistente a lo largo del capítulo. Con este fin, presentamos: (i) Magiv2, un modelo capaz de generar transcripciones de manga de alta calidad en todo el capítulo con personajes nombrados y una precisión significativamente mayor en la diarización de hablantes que trabajos anteriores; (ii) una extensión del conjunto de datos de evaluación PopManga, que ahora incluye anotaciones para cajas de cola de bocadillos, asociaciones de texto a colas correspondientes, clasificaciones de texto como esencial o no esencial, y la identidad de cada caja de personaje; y (iii) un nuevo conjunto de datos de banco de personajes, que comprende más de 11K personajes de 76 series de manga, con 11.5K imágenes de personajes ejemplares en total, así como una lista de capítulos en los que aparecen. El código, el modelo entrenado y ambos conjuntos de datos se pueden encontrar en: https://github.com/ragavsachdeva/magi
Los modelos de difusión condicional han demostrado un éxito notable en la generación de contenido visual, produciendo muestras de alta calidad en varios dominios, en gran parte debido a la orientación sin clasificador (CFG, por sus siglas en inglés). Los intentos recientes de extender la orientación a modelos incondicionales han dependido de técnicas heurísticas, lo que ha dado como resultado una calidad de generación subóptima y efectos no deseados. En este trabajo, proponemos la Guía de Energía Suavizada (SEG), un enfoque novedoso sin entrenamiento ni condición que aprovecha la perspectiva basada en energía del mecanismo de autoatención para mejorar la generación de imágenes. Al definir la energía de la autoatención, introducimos un método para reducir la curvatura del paisaje de energía de la atención y usar la salida como predicción incondicional. En la práctica, controlamos la curvatura del paisaje de energía ajustando el parámetro del núcleo gaussiano manteniendo fijo el parámetro de escala de orientación. Además, presentamos un método de difuminación de consultas que es equivalente a difuminar todos los pesos de atención sin incurrir en complejidad cuadrática en el número de tokens. En nuestros experimentos, SEG logra una mejora de Pareto tanto en calidad como en la reducción de efectos secundarios. El código está disponible en https://github.com/SusungHong/SEG-SDXL.
Los rebuses son acertijos que requieren un razonamiento multietapa restringido para identificar una frase oculta a partir de un conjunto de imágenes y letras. En este trabajo, presentamos una amplia colección de rebuses verbalizados para el idioma italiano y la utilizamos para evaluar las capacidades de resolución de rebuses de modelos de lenguaje grandes de última generación. Mientras que sistemas de propósito general como LLaMA-3 y GPT-4o tienen un desempeño deficiente en esta tarea, el ajuste fino ad-hoc parece mejorar el rendimiento de los modelos. Sin embargo, encontramos que las mejoras de rendimiento derivadas del entrenamiento están motivadas en gran medida por la memorización. Nuestros resultados sugieren que la resolución de rebuses sigue siendo una prueba desafiante para evaluar la competencia lingüística y las habilidades de seguimiento de instrucciones secuenciales de los modelos de lenguaje grandes.
Detectar muestras fuera de distribución (OOD) es crucial para garantizar la seguridad de los sistemas de aprendizaje automático y ha dado forma al campo de la detección de OOD. Mientras tanto, varios otros problemas están estrechamente relacionados con la detección de OOD, incluida la detección de anomalías (AD), la detección de novedades (ND), el reconocimiento de conjuntos abiertos (OSR) y la detección de valores atípicos (OD). Para unificar estos problemas, se propuso un marco generalizado de detección de OOD, categorizando taxonómicamente estos cinco problemas. Sin embargo, los Modelos de Visión y Lenguaje (VLMs) como CLIP han cambiado significativamente el paradigma y han difuminado los límites entre estos campos, confundiendo nuevamente a los investigadores. En esta encuesta, primero presentamos una detección generalizada de OOD v2, encapsulando la evolución de AD, ND, OSR, detección de OOD y OD en la era de los VLM. Nuestro marco revela que, con cierta inactividad e integración en el campo, los desafíos exigentes se han convertido en la detección de OOD y AD. Además, también destacamos el cambio significativo en la definición, configuraciones de problemas y puntos de referencia; por lo tanto, presentamos una revisión exhaustiva de la metodología para la detección de OOD, incluida la discusión sobre otras tareas relacionadas para aclarar su relación con la detección de OOD. Finalmente, exploramos los avances en la emergente era de los Grandes Modelos de Visión y Lenguaje (LVLM), como GPT-4V. Concluimos esta encuesta con desafíos abiertos y futuras direcciones.
Este documento presenta un enfoque novedoso llamado resumen de habla por oraciones (Sen-SSum), que genera resúmenes de texto a partir de un documento hablado de manera oración por oración. Sen-SSum combina el procesamiento en tiempo real del reconocimiento automático del habla (ASR) con la concisión del resumen de habla. Para explorar este enfoque, presentamos dos conjuntos de datos para Sen-SSum: Mega-SSum y CSJ-SSum. Utilizando estos conjuntos de datos, nuestro estudio evalúa dos tipos de modelos basados en Transformer: 1) modelos en cascada que combinan ASR y modelos sólidos de resumen de texto, y 2) modelos de extremo a extremo (E2E) que convierten directamente el habla en un resumen de texto. Aunque los modelos E2E son atractivos para desarrollar modelos eficientes en cómputo, tienen un rendimiento inferior a los modelos en cascada. Por lo tanto, proponemos la destilación de conocimiento para los modelos E2E utilizando pseudo-resúmenes generados por los modelos en cascada. Nuestros experimentos muestran que esta destilación de conocimiento propuesta mejora efectivamente el rendimiento del modelo E2E en ambos conjuntos de datos.
Este trabajo presenta un marco novedoso para entrenar modelos de anidación de incrustación en árabe a través del Aprendizaje de Incrustación Matryoshka, aprovechando modelos multilingües, específicos del árabe y basados en inglés, para resaltar el poder de los modelos de anidación de incrustación en diversas tareas de procesamiento del lenguaje natural en árabe. Nuestra contribución innovadora incluye la traducción de varios conjuntos de datos de similitud de oraciones al árabe, permitiendo un marco de evaluación integral para comparar estos modelos en diferentes dimensiones. Entrenamos varios modelos de anidación de incrustación en el conjunto de datos de tripletes de Inferencia de Lenguaje Natural en árabe y evaluamos su rendimiento utilizando múltiples métricas de evaluación, incluyendo correlaciones de Pearson y Spearman para similitud coseno, distancia Manhattan, distancia euclidiana y similitud de producto punto. Los resultados demuestran el rendimiento superior de los modelos de incrustación Matryoshka, especialmente en la captura de matices semánticos únicos del idioma árabe. Los resultados mostraron que los modelos de incrustación Matryoshka en árabe tienen un rendimiento superior en la captura de matices semánticos únicos del idioma árabe, superando significativamente a los modelos tradicionales hasta en un 20-25\% en diversas métricas de similitud. Estos resultados subrayan la efectividad del entrenamiento específico del idioma y resaltan el potencial de los modelos Matryoshka en mejorar las tareas de similitud textual semántica para el procesamiento del lenguaje natural en árabe.