Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

SAM 2: Segmentación de cualquier cosa en imágenes y videos
SAM 2: Segment Anything in Images and Videos

Aug 1

ByNikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

120

Presentamos el Modelo Segment Anything 2 (SAM 2), un modelo base para abordar la segmentación visual solicitada en imágenes y videos. Hemos desarrollado un motor de datos que mejora el modelo y los datos a través de la interacción del usuario, para recopilar el conjunto de datos de segmentación de video más grande hasta la fecha. Nuestro modelo es una arquitectura simple de transformer con memoria en streaming para el procesamiento de video en tiempo real. SAM 2, entrenado con nuestros datos, proporciona un rendimiento sólido en una amplia gama de tareas. En la segmentación de video, observamos una mayor precisión, utilizando 3 veces menos interacciones que en enfoques anteriores. En la segmentación de imágenes, nuestro modelo es más preciso y 6 veces más rápido que el Modelo Segment Anything (SAM). Creemos que nuestros datos, modelo e ideas serán un hito significativo para la segmentación de video y tareas de percepción relacionadas. Estamos lanzando una versión de nuestro modelo, el conjunto de datos y una demostración interactiva.

Gemma 2: Mejorando Modelos de Lenguaje Abierto a un Tamaño Práctico
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

ByGemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev

En este trabajo, presentamos Gemma 2, una nueva incorporación a la familia Gemma de modelos abiertos de vanguardia y ligeros, que varían en escala desde 2 mil millones hasta 27 mil millones de parámetros. En esta nueva versión, aplicamos varias modificaciones técnicas conocidas a la arquitectura Transformer, como atenciones locales-globales entrelazadas (Beltagy et al., 2020a) y atención de grupo de consultas (Ainslie et al., 2023). También entrenamos los modelos 2B y 9B con destilación de conocimiento (Hinton et al., 2015) en lugar de predicción del siguiente token. Los modelos resultantes ofrecen el mejor rendimiento para su tamaño e incluso proporcionan alternativas competitivas a modelos que son 2-3 veces más grandes. Ponemos a disposición de la comunidad todos nuestros modelos.

SF3D: Reconstrucción estable y rápida de malla 3D con desenrollado UV y desentrañamiento de iluminación
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Presentamos SF3D, un método novedoso para la reconstrucción rápida y de alta calidad de mallas de objetos texturizados a partir de una sola imagen en tan solo 0.5 segundos. A diferencia de la mayoría de los enfoques existentes, SF3D está explícitamente entrenado para la generación de mallas, incorporando una técnica rápida de desplegado UV que permite una generación rápida de texturas en lugar de depender de colores de vértices. El método también aprende a predecir parámetros de materiales y mapas de normales para mejorar la calidad visual de las mallas 3D reconstruidas. Además, SF3D integra un paso de "delighting" para eliminar efectos de iluminación de baja frecuencia de manera efectiva, asegurando que las mallas reconstruidas puedan ser fácilmente utilizadas en condiciones de iluminación novedosas. Experimentos demuestran el rendimiento superior de SF3D sobre las técnicas existentes. Página del proyecto: https://stable-fast-3d.github.io

Mejorando los Incrustamientos de Texto para Modelos de Lenguaje Más Pequeños Utilizando Ajuste Fino Contrastivo
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

Si bien los Modelos de Lenguaje Grandes muestran un rendimiento notable en la comprensión del lenguaje natural, su naturaleza intensiva en recursos los hace menos accesibles. En contraste, modelos de lenguaje más pequeños como MiniCPM ofrecen una escalabilidad más sostenible, pero a menudo tienen un rendimiento inferior sin una optimización especializada. En este artículo, exploramos la mejora de modelos de lenguaje más pequeños a través del perfeccionamiento de sus incrustaciones de texto. Seleccionamos tres modelos de lenguaje, MiniCPM, Phi-2 y Gemma, para llevar a cabo un ajuste fino contrastivo en el conjunto de datos NLI. Nuestros resultados demuestran que este método de ajuste fino mejora la calidad de las incrustaciones de texto para los tres modelos en varios puntos de referencia, con MiniCPM mostrando las mejoras más significativas con una ganancia de rendimiento promedio del 56.33\%. El código de ajuste fino contrastivo está disponible públicamente en https://github.com/trapoom555/Language-Model-STS-CFT.

OmniParser para Agente de Interfaz Gráfica de Usuario Basado en Visión Pura
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

El reciente éxito de los grandes modelos de lenguaje de visión muestra un gran potencial en impulsar el sistema agente que opera en interfaces de usuario. Sin embargo, sostenemos que el poder de los modelos multimodales como GPT-4V como agente general en múltiples sistemas operativos a través de diferentes aplicaciones está ampliamente subestimado debido a la falta de una técnica robusta de análisis de pantalla capaz de: 1) identificar de manera confiable iconos interactivos dentro de la interfaz de usuario, y 2) comprender la semántica de varios elementos en una captura de pantalla y asociar con precisión la acción prevista con la región correspondiente en la pantalla. Para cubrir estas brechas, presentamos OmniParser, un método integral para analizar capturas de pantalla de interfaces de usuario en elementos estructurados, lo que mejora significativamente la capacidad de GPT-4V para generar acciones que pueden estar precisamente fundamentadas en las regiones correspondientes de la interfaz. En primer lugar, creamos un conjunto de datos de detección de iconos interactivos utilizando páginas web populares y un conjunto de datos de descripción de iconos. Estos conjuntos de datos se utilizaron para ajustar modelos especializados: un modelo de detección para analizar regiones interactivas en la pantalla y un modelo de subtítulos para extraer la semántica funcional de los elementos detectados. OmniParser mejora significativamente el rendimiento de GPT-4V en el benchmark ScreenSpot. Y en los benchmarks Mind2Web y AITW, OmniParser con solo entrada de captura de pantalla supera a los baselines de GPT-4V que requieren información adicional fuera de la captura de pantalla.

Correspondencia Gruesa Elicita Comprensión del Espaciotiempo 3D en un Modelo de Lenguaje Multimodal
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Los modelos de lenguaje multimodales (MLLMs) se están implementando cada vez más en entornos del mundo real, lo que exige su capacidad para interpretar espacios tridimensionales y comprender dinámicas temporales. A pesar de su potencial, los modelos líderes actuales en nuestra comunidad aún no logran comprender adecuadamente las dimensiones espaciales y temporales. Presentamos Correspondencia Gruesa, un método visual simple, sin necesidad de entrenamiento, efectivo y de propósito general para provocar la comprensión tridimensional y temporal en MLLMs multimodales. Nuestro método utiliza un modelo de seguimiento ligero para encontrar correspondencias de objetos entre fotogramas en un video o entre conjuntos de puntos de vista de imágenes. Selecciona las instancias de objetos más frecuentes y las visualiza con marcadores con identificadores únicos en la imagen. Con este enfoque sencillo, logramos resultados de vanguardia en pruebas de comprensión 3D, incluyendo ScanQA (+20.5\%) y un subconjunto de OpenEQA (+9.7%), y en pruebas de video de larga duración como EgoSchema (+6.0%). También creamos un pequeño conjunto de datos de diagnóstico para evaluar si los MLLMs pueden razonar sobre el espacio desde un punto de vista descrito que no sea el del punto de vista de la cámara. Nuevamente, Correspondencia Gruesa mejora las habilidades de toma de perspectiva espacial, pero destacamos que los MLLMs tienen dificultades con esta tarea. En conjunto, demostramos que nuestro simple método de provocación puede ayudar significativamente en tareas posteriores que requieran razonamiento 3D o temporal.

Finch: Compresión de Caché de Clave-Valor Guiada por Indicaciones
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

Las recientes aplicaciones de modelos de lenguaje a gran escala, como Generación con Recuperación Aumentada y chatbots, han generado una mayor necesidad de procesar contextos de entrada más largos. Sin embargo, este requisito se ve obstaculizado por limitaciones inherentes. Desde un punto de vista arquitectónico, los modelos están limitados por una ventana de contexto definida durante el entrenamiento. Además, el procesamiento de textos extensos requiere una cantidad considerable de memoria GPU. Proponemos un enfoque novedoso, Finch, para comprimir el contexto de entrada aprovechando los pesos del modelo pre-entrenado de auto-atención. Dado un estímulo y un texto largo, Finch identifica de forma iterativa los pares de Clave (K) y Valor (V) más relevantes sobre fragmentos del texto condicionados al estímulo. Solo estos pares se almacenan en la caché KV, que, dentro del espacio limitado por la ventana de contexto, contiene en última instancia una versión comprimida del texto largo. Nuestra propuesta permite a los modelos procesar entradas extensas incluso con una alta compresión (hasta 93 veces) mientras se preserva la integridad semántica sin necesidad de ajustes finos.

TurboEdit: Edición de Imágenes Basada en Texto Utilizando Modelos de Difusión de Pocos Pasos
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

Los modelos de difusión han abierto el camino a una amplia gama de marcos de edición de imágenes basados en texto. Sin embargo, estos suelen basarse en la naturaleza de múltiples pasos del proceso de difusión hacia atrás, y adaptarlos a métodos de muestreo rápido y destilado ha resultado sorprendentemente desafiante. Aquí nos enfocamos en una línea popular de marcos de edición basados en texto: el enfoque de inversión de ruido DDPM-noise "amigable para la edición". Analizamos su aplicación a métodos de muestreo rápido y categorizamos sus fallos en dos clases: la aparición de artefactos visuales y una fuerza de edición insuficiente. Rastreamos los artefactos hasta estadísticas de ruido desiguales entre ruidos invertidos y el programa de ruido esperado, y sugerimos un programa de ruido desplazado que corrige este desfase. Para aumentar la fuerza de edición, proponemos un enfoque de pseudo-guía que aumenta eficientemente la magnitud de las ediciones sin introducir nuevos artefactos. En resumen, nuestro método permite la edición de imágenes basada en texto con tan solo tres pasos de difusión, a la vez que proporciona nuevas perspectivas sobre los mecanismos detrás de enfoques populares de edición basados en texto.

MM-Vet v2: Un desafiante benchmark para evaluar grandes modelos multimodales para capacidades integradas
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

MM-Vet, con preguntas de visión-idioma abiertas dirigidas a evaluar capacidades integradas, se ha convertido en uno de los benchmarks más populares para la evaluación de modelos multimodales grandes. MM-Vet evalúa seis capacidades centrales de visión-idioma (VL): reconocimiento, conocimiento, conciencia espacial, generación de lenguaje, OCR y matemáticas. Sin embargo, su formato de pregunta está restringido a pares de imagen-texto individuales, careciendo de las secuencias de imagen y texto entrelazadas predominantes en escenarios del mundo real. Para abordar esta limitación, presentamos MM-Vet v2, que incluye una nueva capacidad de VL llamada "comprensión de secuencias de imagen-texto", evaluando la capacidad de los modelos para procesar secuencias de VL. Además, mantenemos la alta calidad de las muestras de evaluación mientras ampliamos aún más el tamaño del conjunto de evaluación. Al utilizar MM-Vet v2 para comparar grandes modelos multimodales, encontramos que Claude 3.5 Sonnet es el mejor modelo con una puntuación de 71.8, superando ligeramente a GPT-4o que obtuvo 71.0. Entre los modelos de peso abierto, InternVL2-Llama3-76B lidera con una puntuación de 68.4.

Recrear Cualquier Cosa: Transferencia Semántica de Movimiento de Video Utilizando Inversión de Movimiento-Texto.
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

En los últimos años, ha habido una tremenda mejora en la calidad de los enfoques de generación y edición de videos. Mientras que varias técnicas se centran en la edición de la apariencia, pocas abordan el movimiento. Los enfoques actuales que utilizan texto, trayectorias o cuadros delimitadores están limitados a movimientos simples, por lo que especificamos movimientos con un único video de referencia de movimiento. Además, proponemos utilizar un modelo pre-entrenado de imagen a video en lugar de un modelo de texto a video. Este enfoque nos permite preservar la apariencia exacta y la posición de un objeto o escena objetivo y ayuda a separar la apariencia del movimiento. Nuestro método, llamado inversión textual de movimiento, aprovecha nuestra observación de que los modelos de imagen a video extraen la apariencia principalmente de la entrada de imagen (latente), mientras que el incrustado de texto/imagen inyectado a través de la atención cruzada controla predominantemente el movimiento. Por lo tanto, representamos el movimiento utilizando tokens de incrustado de texto/imagen. Al operar en un incrustado de texto de movimiento inflado que contiene múltiples tokens de incrustado de texto/imagen por fotograma, logramos una granularidad temporal de movimiento alta. Una vez optimizado en el video de referencia de movimiento, este incrustado se puede aplicar a varias imágenes objetivo para generar videos con movimientos semánticamente similares. Nuestro enfoque no requiere alineación espacial entre el video de referencia de movimiento y la imagen objetivo, se generaliza en varios dominios y se puede aplicar a diversas tareas como la reencarnación de cuerpo completo y rostro, así como el control del movimiento de objetos inanimados y la cámara. Demostramos empíricamente la efectividad de nuestro método en la tarea de transferencia de movimiento de video semántico, superando significativamente a los métodos existentes en este contexto.

UniTalker: Escalando la Animación Facial 3D Dirigida por Audio a través de un Modelo Unificado
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

La animación facial 3D impulsada por audio tiene como objetivo mapear el audio de entrada a movimientos faciales realistas. A pesar del progreso significativo, surgen limitaciones debido a anotaciones 3D inconsistentes, lo que restringe a los modelos anteriores a entrenar en anotaciones específicas y, por lo tanto, limita la escala de entrenamiento. En este trabajo, presentamos UniTalker, un modelo unificado que cuenta con una arquitectura multi-cabeza diseñada para aprovechar de manera efectiva conjuntos de datos con anotaciones variadas. Para mejorar la estabilidad del entrenamiento y garantizar la consistencia entre las salidas de múltiples cabezas, empleamos tres estrategias de entrenamiento, a saber, PCA, calentamiento del modelo e incrustación de identidad pivote. Para ampliar la escala y diversidad del entrenamiento, reunimos A2F-Bench, que comprende cinco conjuntos de datos disponibles públicamente y tres conjuntos de datos recién curados. Estos conjuntos de datos contienen una amplia gama de dominios de audio, cubriendo voces y canciones multilingües, escalando así los datos de entrenamiento de conjuntos de datos comúnmente utilizados, que suelen ser de menos de 1 hora, a 18.5 horas. Con un solo modelo UniTalker entrenado, logramos reducciones sustanciales en el error de vértices labiales del 9.2% para el conjunto de datos BIWI y del 13.7% para Vocaset. Además, el UniTalker pre-entrenado muestra promesa como modelo base para tareas de animación facial impulsadas por audio. Ajustar finamente el UniTalker pre-entrenado en conjuntos de datos vistos mejora aún más el rendimiento en cada conjunto de datos, con una reducción promedio del error del 6.3% en A2F-Bench. Además, ajustar finamente el UniTalker en un conjunto de datos no visto con solo la mitad de los datos supera a los modelos previos de última generación entrenados en el conjunto de datos completo. El código y los conjuntos de datos están disponibles en la página del proyecto https://github.com/X-niper/UniTalker.

Colas Cuentan Cuentos: Transcripciones de Manga a Nivel de Capítulo con Nombres de Personajes
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Facilitar la participación de personas con discapacidad visual en el manga presenta un desafío significativo debido a su naturaleza visual inherente. Con el objetivo de fomentar la accesibilidad, este documento tiene como objetivo generar una transcripción de diálogo de un capítulo completo de manga de forma totalmente automática, con un énfasis particular en garantizar la coherencia narrativa. Esto implica identificar (i) lo que se está diciendo, es decir, detectar los textos en cada página y clasificarlos en esenciales vs. no esenciales, y (ii) quién lo está diciendo, es decir, atribuir cada diálogo a su hablante, asegurando que los mismos personajes sean nombrados de manera consistente a lo largo del capítulo. Con este fin, presentamos: (i) Magiv2, un modelo capaz de generar transcripciones de manga de alta calidad en todo el capítulo con personajes nombrados y una precisión significativamente mayor en la diarización de hablantes que trabajos anteriores; (ii) una extensión del conjunto de datos de evaluación PopManga, que ahora incluye anotaciones para cajas de cola de bocadillos, asociaciones de texto a colas correspondientes, clasificaciones de texto como esencial o no esencial, y la identidad de cada caja de personaje; y (iii) un nuevo conjunto de datos de banco de personajes, que comprende más de 11K personajes de 76 series de manga, con 11.5K imágenes de personajes ejemplares en total, así como una lista de capítulos en los que aparecen. El código, el modelo entrenado y ambos conjuntos de datos se pueden encontrar en: https://github.com/ragavsachdeva/magi

Mejora de la comprensión de la similitud semántica en el procesamiento del lenguaje natural en árabe mediante el aprendizaje de incrustaciones anidadas.
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Este trabajo presenta un marco novedoso para entrenar modelos de anidación de incrustación en árabe a través del Aprendizaje de Incrustación Matryoshka, aprovechando modelos multilingües, específicos del árabe y basados en inglés, para resaltar el poder de los modelos de anidación de incrustación en diversas tareas de procesamiento del lenguaje natural en árabe. Nuestra contribución innovadora incluye la traducción de varios conjuntos de datos de similitud de oraciones al árabe, permitiendo un marco de evaluación integral para comparar estos modelos en diferentes dimensiones. Entrenamos varios modelos de anidación de incrustación en el conjunto de datos de tripletes de Inferencia de Lenguaje Natural en árabe y evaluamos su rendimiento utilizando múltiples métricas de evaluación, incluyendo correlaciones de Pearson y Spearman para similitud coseno, distancia Manhattan, distancia euclidiana y similitud de producto punto. Los resultados demuestran el rendimiento superior de los modelos de incrustación Matryoshka, especialmente en la captura de matices semánticos únicos del idioma árabe. Los resultados mostraron que los modelos de incrustación Matryoshka en árabe tienen un rendimiento superior en la captura de matices semánticos únicos del idioma árabe, superando significativamente a los modelos tradicionales hasta en un 20-25\% en diversas métricas de similitud. Estos resultados subrayan la efectividad del entrenamiento específico del idioma y resaltan el potencial de los modelos Matryoshka en mejorar las tareas de similitud textual semántica para el procesamiento del lenguaje natural en árabe.

Guía de Energía Suavizada: Guiando Modelos de Difusión con Curvatura de Atención de Energía Reducida
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

Los modelos de difusión condicional han demostrado un éxito notable en la generación de contenido visual, produciendo muestras de alta calidad en varios dominios, en gran parte debido a la orientación sin clasificador (CFG, por sus siglas en inglés). Los intentos recientes de extender la orientación a modelos incondicionales han dependido de técnicas heurísticas, lo que ha dado como resultado una calidad de generación subóptima y efectos no deseados. En este trabajo, proponemos la Guía de Energía Suavizada (SEG), un enfoque novedoso sin entrenamiento ni condición que aprovecha la perspectiva basada en energía del mecanismo de autoatención para mejorar la generación de imágenes. Al definir la energía de la autoatención, introducimos un método para reducir la curvatura del paisaje de energía de la atención y usar la salida como predicción incondicional. En la práctica, controlamos la curvatura del paisaje de energía ajustando el parámetro del núcleo gaussiano manteniendo fijo el parámetro de escala de orientación. Además, presentamos un método de difuminación de consultas que es equivalente a difuminar todos los pesos de atención sin incurrir en complejidad cuadrática en el número de tokens. En nuestros experimentos, SEG logra una mejora de Pareto tanto en calidad como en la reducción de efectos secundarios. El código está disponible en https://github.com/SusungHong/SEG-SDXL.

No con Palabras, Sino con Cosas: Los Modelos de Lenguaje Grandes son Solucionadores Débiles de Adivinanzas en Italiano
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Los rebuses son acertijos que requieren un razonamiento multietapa restringido para identificar una frase oculta a partir de un conjunto de imágenes y letras. En este trabajo, presentamos una amplia colección de rebuses verbalizados para el idioma italiano y la utilizamos para evaluar las capacidades de resolución de rebuses de modelos de lenguaje grandes de última generación. Mientras que sistemas de propósito general como LLaMA-3 y GPT-4o tienen un desempeño deficiente en esta tarea, el ajuste fino ad-hoc parece mejorar el rendimiento de los modelos. Sin embargo, encontramos que las mejoras de rendimiento derivadas del entrenamiento están motivadas en gran medida por la memorización. Nuestros resultados sugieren que la resolución de rebuses sigue siendo una prueba desafiante para evaluar la competencia lingüística y las habilidades de seguimiento de instrucciones secuenciales de los modelos de lenguaje grandes.

Detección Generalizada de Datos Fuera de Distribución y Más Allá en Visión por Computadora: Una Encuesta en la Era de los Modelos de Lenguaje.
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Detectar muestras fuera de distribución (OOD) es crucial para garantizar la seguridad de los sistemas de aprendizaje automático y ha dado forma al campo de la detección de OOD. Mientras tanto, varios otros problemas están estrechamente relacionados con la detección de OOD, incluida la detección de anomalías (AD), la detección de novedades (ND), el reconocimiento de conjuntos abiertos (OSR) y la detección de valores atípicos (OD). Para unificar estos problemas, se propuso un marco generalizado de detección de OOD, categorizando taxonómicamente estos cinco problemas. Sin embargo, los Modelos de Visión y Lenguaje (VLMs) como CLIP han cambiado significativamente el paradigma y han difuminado los límites entre estos campos, confundiendo nuevamente a los investigadores. En esta encuesta, primero presentamos una detección generalizada de OOD v2, encapsulando la evolución de AD, ND, OSR, detección de OOD y OD en la era de los VLM. Nuestro marco revela que, con cierta inactividad e integración en el campo, los desafíos exigentes se han convertido en la detección de OOD y AD. Además, también destacamos el cambio significativo en la definición, configuraciones de problemas y puntos de referencia; por lo tanto, presentamos una revisión exhaustiva de la metodología para la detección de OOD, incluida la discusión sobre otras tareas relacionadas para aclarar su relación con la detección de OOD. Finalmente, exploramos los avances en la emergente era de los Grandes Modelos de Visión y Lenguaje (LVLM), como GPT-4V. Concluimos esta encuesta con desafíos abiertos y futuras direcciones.

Resumen de Oraciones en el Habla: Tarea, Conjuntos de Datos y Modelado de Extremo a Extremo con Destilación de Conocimiento de LM
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

Este documento presenta un enfoque novedoso llamado resumen de habla por oraciones (Sen-SSum), que genera resúmenes de texto a partir de un documento hablado de manera oración por oración. Sen-SSum combina el procesamiento en tiempo real del reconocimiento automático del habla (ASR) con la concisión del resumen de habla. Para explorar este enfoque, presentamos dos conjuntos de datos para Sen-SSum: Mega-SSum y CSJ-SSum. Utilizando estos conjuntos de datos, nuestro estudio evalúa dos tipos de modelos basados en Transformer: 1) modelos en cascada que combinan ASR y modelos sólidos de resumen de texto, y 2) modelos de extremo a extremo (E2E) que convierten directamente el habla en un resumen de texto. Aunque los modelos E2E son atractivos para desarrollar modelos eficientes en cómputo, tienen un rendimiento inferior a los modelos en cascada. Por lo tanto, proponemos la destilación de conocimiento para los modelos E2E utilizando pseudo-resúmenes generados por los modelos en cascada. Nuestros experimentos muestran que esta destilación de conocimiento propuesta mejora efectivamente el rendimiento del modelo E2E en ambos conjuntos de datos.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

SAM 2: Segmentación de cualquier cosa en imágenes y videos
SAM 2: Segment Anything in Images and Videos

Aug 1

120

Gemma 2: Mejorando Modelos de Lenguaje Abierto a un Tamaño Práctico
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

SF3D: Reconstrucción estable y rápida de malla 3D con desenrollado UV y desentrañamiento de iluminación
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Mejorando los Incrustamientos de Texto para Modelos de Lenguaje Más Pequeños Utilizando Ajuste Fino Contrastivo
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

OmniParser para Agente de Interfaz Gráfica de Usuario Basado en Visión Pura
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

Correspondencia Gruesa Elicita Comprensión del Espaciotiempo 3D en un Modelo de Lenguaje Multimodal
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Finch: Compresión de Caché de Clave-Valor Guiada por Indicaciones
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

TurboEdit: Edición de Imágenes Basada en Texto Utilizando Modelos de Difusión de Pocos Pasos
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

MM-Vet v2: Un desafiante benchmark para evaluar grandes modelos multimodales para capacidades integradas
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

Recrear Cualquier Cosa: Transferencia Semántica de Movimiento de Video Utilizando Inversión de Movimiento-Texto.
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

UniTalker: Escalando la Animación Facial 3D Dirigida por Audio a través de un Modelo Unificado
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

Colas Cuentan Cuentos: Transcripciones de Manga a Nivel de Capítulo con Nombres de Personajes
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Mejora de la comprensión de la similitud semántica en el procesamiento del lenguaje natural en árabe mediante el aprendizaje de incrustaciones anidadas.
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Guía de Energía Suavizada: Guiando Modelos de Difusión con Curvatura de Atención de Energía Reducida
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

No con Palabras, Sino con Cosas: Los Modelos de Lenguaje Grandes son Solucionadores Débiles de Adivinanzas en Italiano
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Detección Generalizada de Datos Fuera de Distribución y Más Allá en Visión por Computadora: Una Encuesta en la Era de los Modelos de Lenguaje.
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Resumen de Oraciones en el Habla: Tarea, Conjuntos de Datos y Modelado de Extremo a Extremo con Destilación de Conocimiento de LM
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix