HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

21 papers found

XLand-100B: Un conjunto de datos a gran escala para aprendizaje por refuerzo en contexto multi-tarea
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13

ByAlexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

Tras el éxito del paradigma de aprendizaje en contexto en modelos de lenguaje y visión por computadora a gran escala, el campo emergente del aprendizaje por refuerzo en contexto está experimentando un crecimiento acelerado. Sin embargo, su desarrollo se ha visto limitado por la falta de puntos de referencia desafiantes, ya que todos los experimentos se han realizado en entornos simples y con conjuntos de datos de pequeña escala. Presentamos XLand-100B, un conjunto de datos a gran escala para el aprendizaje por refuerzo en contexto basado en el entorno XLand-MiniGrid, como un primer paso para abordar este problema. Contiene historiales completos de aprendizaje para casi 30,000 tareas diferentes, abarcando 100B transiciones y 2.5B episodios. La recopilación del conjunto de datos requirió 50,000 horas de GPU, un recurso inaccesible para la mayoría de los laboratorios académicos. Junto con el conjunto de datos, proporcionamos las herramientas necesarias para reproducirlo o ampliarlo aún más. Con este esfuerzo significativo, buscamos democratizar la investigación en el campo en rápido crecimiento del aprendizaje por refuerzo en contexto y sentar una base sólida para futuros escalamientos. El código es de código abierto y está disponible bajo la licencia Apache 2.0 en https://github.com/dunno-lab/xland-minigrid-datasets.

Haz que Cuente: Generación de Imágenes a partir de Texto con un Número Preciso de Objetos
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14

ByLital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

A pesar del éxito sin precedentes de los modelos de difusión de texto a imagen, controlar el número de objetos representados mediante texto es sorprendentemente difícil. Esto es importante para diversas aplicaciones, desde documentos técnicos hasta libros infantiles o la ilustración de recetas de cocina. Generar recuentos correctos de objetos es fundamentalmente desafiante porque el modelo generativo necesita mantener un sentido de identidad separada para cada instancia del objeto, incluso si varios objetos se ven idénticos o se superponen, y luego realizar un cálculo global de manera implícita durante la generación. Todavía se desconoce si tales representaciones existen. Para abordar la generación con recuentos correctos, primero identificamos características dentro del modelo de difusión que pueden transportar la información de identidad del objeto. Luego las utilizamos para separar y contar instancias de objetos durante el proceso de eliminación de ruido, detectando tanto la sobre-generación como la sub-generación. Corregimos esto último entrenando un modelo que predice tanto la forma como la ubicación de un objeto faltante, basándose en la disposición de los objetos existentes, y mostramos cómo puede usarse para guiar la eliminación de ruido con el recuento correcto de objetos. Nuestro enfoque, CountGen, no depende de una fuente externa para determinar la disposición de los objetos, sino que utiliza el conocimiento previo del propio modelo de difusión, creando disposiciones dependientes del prompt y de la semilla. Evaluado en dos conjuntos de datos de referencia, encontramos que CountGen supera ampliamente la precisión de recuento de las líneas base existentes.

ChartMimic: Evaluación de la Capacidad de Razonamiento Intermodal de los LMM mediante la Generación de Código a partir de Gráficos
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14

ByChufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

Presentamos un nuevo benchmark, ChartMimic, diseñado para evaluar las capacidades de generación de código basado en aspectos visuales de los modelos multimodales grandes (LMMs). ChartMimic utiliza gráficos visuales ricos en información e instrucciones textuales como entradas, requiriendo que los LMMs generen el código correspondiente para la representación de gráficos. ChartMimic incluye 1,000 tripletas (figura, instrucción, código) curadas por humanos, que representan casos de uso auténticos de gráficos encontrados en artículos científicos de diversos dominios (por ejemplo, Física, Ciencias de la Computación, Economía, etc.). Estos gráficos abarcan 18 tipos regulares y 4 tipos avanzados, diversificándose en 191 subcategorías. Además, proponemos métricas de evaluación de múltiples niveles para proporcionar una evaluación automática y exhaustiva del código generado y los gráficos renderizados. A diferencia de los benchmarks existentes de generación de código, ChartMimic hace hincapié en evaluar la capacidad de los LMMs para armonizar una combinación de habilidades cognitivas, que incluyen comprensión visual, generación de código y razonamiento multimodal. La evaluación de 3 modelos propietarios y 11 modelos de código abierto resalta los desafíos sustanciales que plantea ChartMimic. Incluso los avanzados GPT-4V y Claude-3-opus solo alcanzan una puntuación promedio de 73.2 y 53.7, respectivamente, lo que indica un margen significativo de mejora. Anticipamos que ChartMimic inspirará el desarrollo de los LMMs, avanzando en la búsqueda de la inteligencia artificial general.

Aguja en un pajar multimodal
Needle In A Multimodal Haystack

Jun 11

ByWeiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

Con el rápido avance de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), su evaluación se ha vuelto cada vez más exhaustiva. Sin embargo, la comprensión de contenido multimodal extenso, como una habilidad fundamental para aplicaciones del mundo real, sigue siendo poco explorada. En este trabajo, presentamos Needle In A Multimodal Haystack (MM-NIAH), el primer punto de referencia diseñado específicamente para evaluar sistemáticamente la capacidad de los MLLMs existentes para comprender documentos multimodales extensos. Nuestro punto de referencia incluye tres tipos de tareas de evaluación: recuperación multimodal, conteo y razonamiento. En cada tarea, el modelo debe responder a las preguntas según diferentes piezas clave de información dispersas a lo largo del documento multimodal proporcionado. Al evaluar los MLLMs líderes en MM-NIAH, observamos que los modelos existentes aún tienen un margen significativo de mejora en estas tareas, especialmente en la evaluación centrada en la visión. Esperamos que este trabajo pueda proporcionar una plataforma para futuras investigaciones sobre la comprensión de documentos multimodales extensos y contribuir al avance de los MLLMs. El código y el punto de referencia se publican en https://github.com/OpenGVLab/MM-NIAH.

BABILong: Evaluando los límites de los LLM con razonamiento en contextos extensos Razonamiento-en-un-pajar
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

En los últimos años, los tamaños de contexto de entrada de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han aumentado drásticamente. Sin embargo, los métodos de evaluación existentes no han seguido el mismo ritmo, fallando en evaluar de manera integral la eficiencia de los modelos para manejar contextos largos. Para cerrar esta brecha, presentamos el benchmark BABILong, diseñado para probar la capacidad de los modelos de lenguaje para razonar a través de hechos distribuidos en documentos extremadamente largos. BABILong incluye un conjunto diverso de 20 tareas de razonamiento, como encadenamiento de hechos, inducción simple, deducción, conteo y manejo de listas/conjuntos. Estas tareas son desafiantes por sí mismas, y aún más exigentes cuando los hechos necesarios están dispersos en textos naturales largos. Nuestras evaluaciones muestran que los LLMs populares utilizan efectivamente solo el 10-20\% del contexto y su rendimiento disminuye drásticamente con el aumento de la complejidad del razonamiento. Entre las alternativas al razonamiento en contexto, los métodos de Generación Aumentada con Recuperación (RAG, por sus siglas en inglés) alcanzan una precisión modesta del 60\% en la respuesta a preguntas de un solo hecho, independientemente de la longitud del contexto. Entre los métodos de extensión de contexto, el mayor rendimiento lo demuestran los transformadores con memoria recurrente, que permiten procesar longitudes de hasta 11 millones de tokens. El benchmark BABILong es extensible a cualquier longitud para apoyar la evaluación de nuevos modelos con capacidades incrementadas, y proporcionamos divisiones de hasta 1 millón de tokens de longitud.

SEACrowd: Un centro de datos multilingüe y multimodal y un conjunto de benchmarks para lenguas del sudeste asiático
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14

ByHoly Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

El Sudeste Asiático (SEA) es una región rica en diversidad lingüística y variedad cultural, con más de 1.300 lenguas indígenas y una población de 671 millones de personas. Sin embargo, los modelos de IA predominantes adolecen de una falta significativa de representación de textos, imágenes y conjuntos de datos de audio procedentes de SEA, lo que compromete la calidad de los modelos de IA para las lenguas de esta región. Evaluar los modelos para las lenguas de SEA es un desafío debido a la escasez de conjuntos de datos de alta calidad, agravado por el predominio de datos de entrenamiento en inglés, lo que plantea preocupaciones sobre posibles representaciones culturales erróneas. Para abordar estos desafíos, presentamos SEACrowd, una iniciativa colaborativa que consolida un centro de recursos integral que cubre la brecha de recursos al proporcionar corpus estandarizados en casi 1.000 lenguas de SEA en tres modalidades. A través de nuestros puntos de referencia de SEACrowd, evaluamos la calidad de los modelos de IA en 36 lenguas indígenas en 13 tareas, ofreciendo valiosas perspectivas sobre el panorama actual de la IA en SEA. Además, proponemos estrategias para facilitar mayores avances en IA, maximizando la utilidad potencial y la equidad de recursos para el futuro de la IA en SEA.

OmniCorpus: Un Corpus Multimodal Unificado de 10 Mil Millones de Imágenes Intercaladas con Texto
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12

ByQingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

Los datos intercalados de imagen y texto, que consisten en múltiples imágenes y textos organizados en un formato de documento natural, se alinean con el paradigma de presentación de los datos de internet y se asemejan estrechamente a los hábitos de lectura humanos. Estudios recientes han demostrado que este tipo de datos facilita el aprendizaje multimodal en contexto y mantiene las capacidades de los modelos de lenguaje grandes durante el ajuste fino multimodal. Sin embargo, la escala limitada y la diversidad reducida de los datos intercalados de imagen y texto actuales restringen el desarrollo de modelos de lenguaje grandes multimodales. En este artículo, presentamos OmniCorpus, un conjunto de datos intercalados de imagen y texto a escala de 10 mil millones. Utilizando un motor de datos eficiente, filtramos y extraemos documentos de gran escala y alta calidad, que contienen 8.6 mil millones de imágenes y 1,696 mil millones de tokens de texto. En comparación con conjuntos de datos similares (por ejemplo, MMC4, OBELICS), nuestro conjunto de datos 1) tiene una escala 15 veces mayor mientras mantiene una buena calidad de datos; 2) presenta fuentes más diversas, incluyendo sitios web en inglés y no inglés, así como sitios web centrados en video; 3) es más flexible, pudiendo degradarse fácilmente de un formato intercalado de imagen y texto a un corpus de texto puro y pares de imagen-texto. A través de un análisis exhaustivo y experimentos, validamos la calidad, usabilidad y efectividad del conjunto de datos propuesto. Esperamos que esto pueda proporcionar una base sólida de datos para futuras investigaciones en modelos multimodales. El código y los datos están disponibles en https://github.com/OpenGVLab/OmniCorpus.

Odisea GUI: Un Conjunto de Datos Integral para la Navegación Interaplicaciones en Interfaces Gráficas de Usuario en Dispositivos Móviles
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12

ByQuanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

Los usuarios de smartphones a menudo navegan entre múltiples aplicaciones (apps) para completar tareas como compartir contenido entre plataformas de redes sociales. Los agentes autónomos de navegación de Interfaz Gráfica de Usuario (GUI) pueden mejorar la experiencia del usuario en comunicación, entretenimiento y productividad al optimizar flujos de trabajo y reducir la intervención manual. Sin embargo, los agentes GUI anteriores a menudo se entrenaban con conjuntos de datos que comprendían tareas simples que podían completarse dentro de una sola aplicación, lo que resultaba en un rendimiento deficiente en la navegación entre aplicaciones. Para abordar este problema, presentamos GUI Odyssey, un conjunto de datos integral para entrenar y evaluar agentes de navegación entre aplicaciones. GUI Odyssey consta de 7,735 episodios de 6 dispositivos móviles, abarcando 6 tipos de tareas entre aplicaciones, 201 apps y 1.4K combinaciones de apps. Utilizando GUI Odyssey, desarrollamos OdysseyAgent, un agente de navegación multimodal entre aplicaciones, mediante el ajuste fino del modelo Qwen-VL con un módulo de remuestreo de historial. Experimentos extensos demuestran la precisión superior de OdysseyAgent en comparación con los modelos existentes. Por ejemplo, OdysseyAgent supera a Qwen-VL ajustado y a GPT-4V en modo zero-shot en un 1.44\% y 55.49\% de precisión dentro del dominio, y en un 2.29\% y 48.14\% de precisión fuera del dominio en promedio. El conjunto de datos y el código se publicarán en https://github.com/OpenGVLab/GUI-Odyssey.

Glyph-ByT5-v2: Una Base Estética Sólida para la Representación Visual Precisa de Texto Multilingüe
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14

ByZeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

Recientemente, Glyph-ByT5 ha logrado un rendimiento altamente preciso en la representación visual de texto en imágenes de diseño gráfico. Sin embargo, sigue centrándose únicamente en el inglés y tiene un desempeño relativamente pobre en términos de atractivo visual. En este trabajo, abordamos estas dos limitaciones fundamentales presentando Glyph-ByT5-v2 y Glyph-SDXL-v2, que no solo admiten una representación visual precisa de texto en 10 idiomas diferentes, sino que también logran una calidad estética mucho mejor. Para alcanzar esto, realizamos las siguientes contribuciones: (i) la creación de un conjunto de datos de alta calidad de texto glífico multilingüe y diseño gráfico, que consta de más de 1 millón de pares de texto glífico y 10 millones de pares de imagen-texto de diseño gráfico que cubren otros nueve idiomas, (ii) la construcción de un benchmark de párrafos visuales multilingüe que consta de 1,000 indicaciones, con 100 para cada idioma, para evaluar la precisión ortográfica visual multilingüe, y (iii) el aprovechamiento del último enfoque de aprendizaje de preferencias consciente del paso para mejorar la calidad estética visual. Con la combinación de estas técnicas, ofrecemos un potente codificador de texto multilingüe personalizado, Glyph-ByT5-v2, y un modelo de generación gráfica estéticamente sólido, Glyph-SDXL-v2, que puede admitir una ortografía precisa en 10 idiomas diferentes. Consideramos nuestro trabajo como un avance significativo, teniendo en cuenta que los últimos DALL-E3 e Ideogram 1.0 aún tienen dificultades con la tarea de representación visual de texto multilingüe.

GEB-1.3B: Modelo de Lenguaje Grande Ligero de Código Abierto
GEB-1.3B: Open Lightweight Large Language Model

Jun 14

ByJie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) desarrollados recientemente, como ChatGPT, Claude y Llama, han demostrado capacidades impresionantes e incluso superan el rendimiento humano en varias tareas. A pesar de su éxito, las demandas intensivas de recursos de estos modelos, que requieren un poder computacional significativo tanto para el entrenamiento como para la inferencia, limitan su implementación a servidores de alto rendimiento. Además, los extensos requisitos de cálculo de los modelos a menudo resultan en una mayor latencia en los tiempos de respuesta. Con la creciente necesidad de que los LLMs operen de manera eficiente en CPUs, ha surgido investigación sobre modelos ligeros optimizados para la inferencia en CPU. En este trabajo, presentamos GEB-1.3B, un LLM ligero entrenado con 550 mil millones de tokens en idiomas chino e inglés. Empleamos técnicas novedosas de entrenamiento, como ROPE, Group-Query-Attention y FlashAttention-2, para acelerar el entrenamiento manteniendo el rendimiento del modelo. Además, ajustamos el modelo utilizando 10 millones de muestras de datos de instrucción para mejorar la alineación. GEB-1.3B exhibe un rendimiento sobresaliente en benchmarks generales como MMLU, C-Eval y CMMLU, superando a modelos comparativos como MindLLM-1.3B y TinyLLaMA-1.1B. Cabe destacar que la versión FP32 de GEB-1.3B logra tiempos de inferencia notables en CPUs, con esfuerzos en curso para mejorar aún más la velocidad mediante técnicas avanzadas de cuantización. El lanzamiento de GEB-1.3B como un modelo de código abierto marca una contribución significativa al desarrollo de LLMs ligeros, prometiendo fomentar una mayor investigación e innovación en el campo.

Control de cámara sin entrenamiento para la generación de videos
Training-free Camera Control for Video Generation

Jun 14

ByChen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

Proponemos una solución robusta y sin necesidad de entrenamiento para ofrecer control de movimiento de cámara en modelos de difusión de video preentrenados. A diferencia de trabajos anteriores, nuestro método no requiere ajustes supervisados en conjuntos de datos anotados con información de cámara ni entrenamiento autosupervisado mediante aumento de datos. En su lugar, puede integrarse y utilizarse directamente con la mayoría de los modelos de difusión de video preentrenados, generando videos con control de cámara utilizando una sola imagen o un texto como entrada. La inspiración de nuestro trabajo proviene del conocimiento previo sobre la disposición que mantienen los latentes intermedios hacia los resultados generados, de modo que reorganizar los píxeles ruidosos en ellos también reubicará el contenido de salida. Dado que el movimiento de cámara puede verse como una forma de reordenamiento de píxeles causado por un cambio de perspectiva, los videos podrían reorganizarse siguiendo un movimiento de cámara específico si sus latentes ruidosos cambian en consecuencia. Basándonos en esto, proponemos nuestro método CamTrol, que permite un control robusto de la cámara en modelos de difusión de video. Esto se logra mediante un proceso de dos etapas. Primero, modelamos la reorganización de la disposición de la imagen a través de un movimiento explícito de cámara en el espacio de nubes de puntos 3D. Segundo, generamos videos con movimiento de cámara utilizando el conocimiento previo de la disposición de los latentes ruidosos formados por una serie de imágenes reorganizadas. Experimentos exhaustivos han demostrado la robustez de nuestro método para controlar el movimiento de cámara en videos generados. Además, mostramos que nuestro método puede producir resultados impresionantes al generar videos de rotación 3D con contenido dinámico. Página del proyecto en https://lifedecoder.github.io/CamTrol/.

Diseño de un Panel de Control para la Transparencia y Gestión de la Inteligencia Artificial Conversacional
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12

ByYida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

Los modelos de lenguaje conversacionales (LLMs) funcionan como sistemas de caja negra, dejando a los usuarios adivinando por qué obtienen las respuestas que ven. Esta falta de transparencia es potencialmente problemática, especialmente considerando las preocupaciones en torno al sesgo y la veracidad. Para abordar este problema, presentamos un prototipo integral que conecta técnicas de interpretabilidad con el diseño de experiencia de usuario, con el objetivo de hacer que los chatbots sean más transparentes. Comenzamos mostrando evidencia de que un destacado LLM de código abierto tiene un "modelo de usuario": al examinar el estado interno del sistema, podemos extraer datos relacionados con la edad, género, nivel educativo y estatus socioeconómico de un usuario. A continuación, describimos el diseño de un panel que acompaña a la interfaz del chatbot, mostrando este modelo de usuario en tiempo real. El panel también puede usarse para controlar el modelo de usuario y el comportamiento del sistema. Finalmente, discutimos un estudio en el que los usuarios conversaron con el sistema instrumentado. Nuestros resultados sugieren que los usuarios aprecian ver los estados internos, lo que les ayudó a exponer comportamientos sesgados y aumentó su sensación de control. Los participantes también hicieron sugerencias valiosas que apuntan a futuras direcciones tanto para el diseño como para la investigación en aprendizaje automático. La página del proyecto y la demostración en video de nuestro sistema TalkTuner están disponibles en https://bit.ly/talktuner-project-page.

VideoGUI: Un punto de referencia para la automatización de interfaces gráficas a partir de videos instructivos
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

La automatización de Interfaces Gráficas de Usuario (GUI) tiene un gran potencial para mejorar la productividad humana al asistir en tareas informáticas. Las formulaciones de tareas existentes se centran principalmente en tareas simples que pueden especificarse con una única instrucción basada únicamente en lenguaje, como "Insertar una nueva diapositiva". En este trabajo, presentamos VideoGUI, un nuevo benchmark multimodal diseñado para evaluar asistentes de GUI en tareas visualmente centradas. Basado en videos instructivos de alta calidad de la web, nuestro benchmark se enfoca en tareas que involucran software profesional y novedoso (por ejemplo, Adobe Photoshop o Stable Diffusion WebUI) y actividades complejas (por ejemplo, edición de video). VideoGUI evalúa a los asistentes de GUI mediante un proceso jerárquico, permitiendo identificar los niveles específicos en los que pueden fallar: (i) planificación de alto nivel: reconstruir subtareas procedimentales a partir de condiciones visuales sin descripciones de lenguaje; (ii) planificación de nivel medio: generar secuencias de narraciones de acciones precisas basadas en el estado visual (es decir, captura de pantalla) y objetivos; (iii) ejecución de acciones atómicas: realizar acciones específicas como hacer clic con precisión en elementos designados. Para cada nivel, diseñamos métricas de evaluación en dimensiones individuales para proporcionar señales claras, como el rendimiento individual en hacer clic, arrastrar, escribir y desplazarse para la ejecución de acciones atómicas. Nuestra evaluación en VideoGUI revela que incluso el modelo multimodal de última generación GPT4o tiene un rendimiento deficiente en tareas de GUI visualmente centradas, especialmente en la planificación de alto nivel.

Replanteamiento del Protocolo de Evaluación Humana para Modelos de Texto a Video: Mejorando la Fiabilidad, Reproducibilidad y Practicidad
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13

ByTianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

Los recientes avances en la tecnología de texto a video (T2V), demostrados por modelos como Gen2, Pika y Sora, han ampliado significativamente su aplicabilidad y popularidad. A pesar de estos progresos, evaluar estos modelos presenta desafíos considerables. Principalmente, debido a las limitaciones inherentes de las métricas automáticas, la evaluación manual suele considerarse un método superior para valorar la generación T2V. Sin embargo, los protocolos de evaluación manual existentes enfrentan problemas de reproducibilidad, fiabilidad y practicidad. Para abordar estos desafíos, este artículo presenta el protocolo de Evaluación Humana de Texto a Video (T2VHE), un protocolo estandarizado y completo para modelos T2V. El protocolo T2VHE incluye métricas bien definidas, un entrenamiento exhaustivo de los anotadores y un módulo de evaluación dinámica efectivo. Los resultados experimentales demuestran que este protocolo no solo garantiza anotaciones de alta calidad, sino que también puede reducir los costos de evaluación en casi un 50%. Liberaremos el código fuente completo del protocolo T2VHE, incluyendo el flujo de trabajo completo del protocolo, los detalles del componente de evaluación dinámica y el código de la interfaz de anotación. Esto ayudará a las comunidades a establecer protocolos de evaluación humana más sofisticados.

Sé como un pez dorado, ¡no memorices! Mitigando la memorización en modelos de lenguaje generativos de gran escala.
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14

ByAbhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

Los modelos de lenguaje de gran escala pueden memorizar y repetir sus datos de entrenamiento, lo que genera riesgos de privacidad y derechos de autor. Para mitigar la memorización, introducimos una modificación sutil al objetivo de entrenamiento de predicción del siguiente token, que denominamos pérdida goldfish. Durante el entrenamiento, un subconjunto aleatorio de tokens se excluye del cálculo de la pérdida. Estos tokens descartados no son memorizados por el modelo, lo que evita la reproducción textual de una secuencia completa de tokens del conjunto de entrenamiento. Realizamos extensos experimentos entrenando modelos Llama-2 a escala de miles de millones, tanto preentrenados como entrenados desde cero, y demostramos reducciones significativas en la memorización extraíble con un impacto mínimo o nulo en los benchmarks posteriores.

Vivid-ZOO: Generación de Vídeo Multi-Vista con Modelos de Difusión
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12

ByBing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

Si bien los modelos de difusión han demostrado un rendimiento impresionante en la generación de imágenes/videos 2D, la generación de videos multivista basada en difusión a partir de texto (Text-to-Multi-view-Video, T2MVid) sigue siendo un área poco explorada. Los nuevos desafíos planteados por la generación de T2MVid radican en la falta de grandes cantidades de videos multivista con subtítulos y en la complejidad de modelar una distribución multidimensional de este tipo. Para abordar esto, proponemos una novedosa pipeline basada en difusión que genera videos multivista de alta calidad centrados en un objeto 3D dinámico a partir de texto. Específicamente, descomponemos el problema de T2MVid en componentes de espacio de vista y tiempo. Esta factorización nos permite combinar y reutilizar capas de modelos avanzados preentrenados de difusión para imágenes multivista y videos 2D, asegurando la consistencia multivista y la coherencia temporal en los videos multivista generados, lo que reduce significativamente el costo de entrenamiento. Además, introducimos módulos de alineación para alinear los espacios latentes de las capas de los modelos preentrenados de difusión multivista y de videos 2D, abordando la incompatibilidad de las capas reutilizadas que surge de la brecha de dominio entre los datos 2D y multivista. Para apoyar esta y futuras investigaciones, también contribuimos con un conjunto de datos de videos multivista con subtítulos. Los resultados experimentales demuestran que nuestro método genera videos multivista de alta calidad, exhibiendo movimientos vívidos, coherencia temporal y consistencia multivista, dados una variedad de indicaciones textuales.

AV-GS: Aprendizaje de Priors Conscientes de Material y Geometría para la Síntesis Acústica de Nuevas Vistas
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13

BySwapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

La síntesis acústica de vistas novedosas (NVAS, por sus siglas en inglés) tiene como objetivo renderizar audio binaural desde cualquier punto de vista objetivo, dado un audio mono emitido por una fuente de sonido en una escena 3D. Los métodos existentes han propuesto modelos implícitos basados en NeRF para aprovechar las señales visuales como condición para sintetizar audio binaural. Sin embargo, además de la baja eficiencia derivada del intenso renderizado de NeRF, estos métodos tienen una capacidad limitada para caracterizar todo el entorno de la escena, como la geometría de la habitación, las propiedades de los materiales y la relación espacial entre el oyente y la fuente de sonido. Para abordar estos problemas, proponemos un nuevo modelo de Dispersión Gaussiana Audio-Visual (AV-GS). Para obtener una condición consciente de los materiales y la geometría para la síntesis de audio, aprendemos una representación explícita de la escena basada en puntos con un parámetro de guía de audio en puntos Gaussianos inicializados localmente, teniendo en cuenta la relación espacial entre el oyente y la fuente de sonido. Para hacer que el modelo de escena visual sea adaptable al audio, proponemos una estrategia de densificación y poda de puntos para distribuir óptimamente los puntos Gaussianos, considerando la contribución por punto en la propagación del sonido (por ejemplo, se necesitan más puntos para superficies de paredes sin textura, ya que afectan la desviación de la trayectoria del sonido). Experimentos extensos validan la superioridad de nuestro AV-GS sobre las alternativas existentes en los conjuntos de datos RWAS del mundo real y SoundSpaces basados en simulación.

RVT-2: Aprendizaje de Manipulación Precisa a partir de Pocas Demostraciones
RVT-2: Learning Precise Manipulation from Few Demonstrations

Jun 12

ByAnkit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

En este trabajo, estudiamos cómo construir un sistema robótico capaz de resolver múltiples tareas de manipulación 3D dadas instrucciones en lenguaje natural. Para ser útil en entornos industriales y domésticos, dicho sistema debería ser capaz de aprender nuevas tareas con pocas demostraciones y resolverlas con precisión. Trabajos previos, como PerAct y RVT, han abordado este problema, pero a menudo tienen dificultades con tareas que requieren alta precisión. Investigamos cómo hacerlos más efectivos, precisos y rápidos. Mediante una combinación de mejoras arquitectónicas y a nivel de sistema, proponemos RVT-2, un modelo de manipulación 3D multitarea que es 6 veces más rápido en entrenamiento y 2 veces más rápido en inferencia que su predecesor RVT. RVT-2 establece un nuevo estado del arte en RLBench, mejorando la tasa de éxito del 65% al 82%. RVT-2 también es efectivo en el mundo real, donde puede aprender tareas que requieren alta precisión, como recoger e insertar enchufes, con solo 10 demostraciones. Los resultados visuales, el código y el modelo entrenado se encuentran disponibles en: https://robotic-view-transformer-2.github.io/.

GaussianSR: Superresolución 3D con Gaussianas utilizando Priores de Difusión 2D
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors

Jun 14

ByXiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen

Lograr la síntesis de nuevas vistas de alta resolución (HRNVS) a partir de vistas de entrada de baja resolución es una tarea desafiante debido a la falta de datos de alta resolución. Métodos anteriores optimizan campos de radiancia neuronal (NeRF) de alta resolución a partir de vistas de entrada de baja resolución, pero sufren de una velocidad de renderizado lenta. En este trabajo, basamos nuestro método en el *splatting* de Gaussianas 3D (3DGS) debido a su capacidad para producir imágenes de alta calidad a una velocidad de renderizado más rápida. Para mitigar la escasez de datos para la síntesis de mayor resolución, proponemos aprovechar *priors* de difusión 2D disponibles mediante la destilación del conocimiento 2D en 3D con *Score Distillation Sampling* (SDS). Sin embargo, aplicar SDS directamente a la super-resolución 3D basada en Gaussianas conduce a primitivas 3D de Gaussianas redundantes y no deseadas, debido a la aleatoriedad introducida por los *priors* generativos. Para mitigar este problema, introducimos dos técnicas simples pero efectivas para reducir las perturbaciones estocásticas introducidas por SDS. Específicamente, 1) reducimos el rango del paso de tiempo de difusión en SDS con una estrategia de *annealing*; 2) descartamos aleatoriamente primitivas de Gaussianas redundantes durante la densificación. Experimentos extensivos han demostrado que nuestro método propuesto, GaussainSR, puede alcanzar resultados de alta calidad para HRNVS con solo entradas de baja resolución en conjuntos de datos tanto sintéticos como del mundo real. Página del proyecto: https://chchnii.github.io/GaussianSR/

Descifrando la Diversidad: Una Revisión del Panorama de la Investigación en IA en la India
Decoding the Diversity: A Review of the Indic AI Research Landscape

Jun 13

BySankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha

Este artículo de revisión ofrece una visión integral de las direcciones de investigación en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) para lenguas índicas. Las lenguas índicas son aquellas habladas en el subcontinente indio, incluyendo India, Pakistán, Bangladesh, Sri Lanka, Nepal y Bután, entre otros. Estas lenguas poseen un rico patrimonio cultural y lingüístico y son habladas por más de 1.500 millones de personas en todo el mundo. Con el enorme potencial de mercado y la creciente demanda de aplicaciones basadas en procesamiento de lenguaje natural (NLP) para diversos idiomas, las aplicaciones generativas para lenguas índicas presentan desafíos y oportunidades únicas para la investigación. Nuestro artículo profundiza en los avances recientes en modelado generativo para lenguas índicas, contribuyendo con una taxonomía de direcciones de investigación y tabulando 84 publicaciones recientes. Las áreas de investigación analizadas en este documento incluyen el desarrollo de LLM, el ajuste fino de LLM existentes, la creación de corpus, la evaluación comparativa y la evaluación, así como publicaciones sobre técnicas, herramientas y aplicaciones específicas. Observamos que los investigadores en estas publicaciones destacan los desafíos asociados con la disponibilidad limitada de datos, la falta de estandarización y las complejidades lingüísticas particulares de las lenguas índicas. Este trabajo pretende servir como un recurso valioso para investigadores y profesionales en el campo del NLP, especialmente aquellos enfocados en lenguas índicas, y contribuir al desarrollo de aplicaciones de LLM más precisas y eficientes para estos idiomas.

MaskLID: Identificación de Lenguaje en Cambio de Código mediante Enmascaramiento Iterativo
MaskLID: Code-Switching Language Identification through Iterative Masking

Jun 10

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

Presentamos MaskLID, un método simple pero efectivo para la identificación de idiomas (LID) en casos de alternancia de código (CS). MaskLID no requiere entrenamiento y está diseñado para complementar los LID de alto rendimiento a nivel de oración. Los LID a nivel de oración son clasificadores entrenados en textos monolingües para proporcionar etiquetas únicas, típicamente utilizando una capa softmax para convertir puntuaciones en probabilidades. Sin embargo, en casos donde una oración está compuesta en ambos idiomas L1 y L2, el clasificador LID a menudo solo devuelve la etiqueta dominante L1. Para abordar esta limitación, MaskLID emplea una estrategia para enmascarar las características del texto asociadas con L1, permitiendo que el LID clasifique el texto como L2 en la siguiente ronda. Este método utiliza el propio LID para identificar las características que requieren enmascaramiento y no depende de ningún recurso externo. En este trabajo, exploramos el uso de MaskLID para dos LID de código abierto (GlotLID y OpenLID), ambos basados en la arquitectura FastText. El código y la demo están disponibles en https://github.com/cisnlp/MaskLID.

SEACrowd: Un centro de datos multilingüe y multimodal y un conjunto de benchmarks para lenguas del sudeste asiático
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14