Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

OS-ATLAS: Un Modelo de Acción Fundamental para Agentes GUI Generalistas
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Los esfuerzos existentes en la construcción de agentes de interfaz gráfica de usuario (GUI) dependen en gran medida de la disponibilidad de Modelos Visión-Lenguaje comerciales robustos (VLM) como GPT-4o y GeminiProVision. Los profesionales a menudo se muestran reacios a utilizar VLM de código abierto debido a su notable rezago de rendimiento en comparación con sus contrapartes de código cerrado, especialmente en la fundamentación de GUI y escenarios Fuera de Distribución (OOD). Para facilitar futuras investigaciones en esta área, desarrollamos OS-Atlas, un modelo de acción GUI fundamental que sobresale en la fundamentación de GUI y tareas agentes OOD a través de innovaciones tanto en datos como en modelado. Hemos invertido un esfuerzo de ingeniería significativo en el desarrollo de un conjunto de herramientas de código abierto para sintetizar datos de fundamentación de GUI en múltiples plataformas, incluyendo Windows, Linux, MacOS, Android y la web. Aprovechando este conjunto de herramientas, estamos lanzando el corpus de fundamentación de GUI de código abierto multiplataforma más grande hasta la fecha, que contiene más de 13 millones de elementos de GUI. Este conjunto de datos, combinado con innovaciones en el entrenamiento de modelos, proporciona una base sólida para que OS-Atlas comprenda capturas de pantalla de GUI y se generalice a interfaces no vistas. A través de una evaluación extensa en seis pruebas que abarcan tres plataformas diferentes (móvil, escritorio y web), OS-Atlas demuestra mejoras significativas en el rendimiento en comparación con modelos previos de vanguardia. Nuestra evaluación también revela ideas valiosas para mejorar y escalar continuamente las capacidades agentes de VLM de código abierto.

Personalización de Modelos de Lenguaje Grandes: Un Estudio
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

La personalización de los Modelos de Lenguaje de Gran Tamaño (LLMs) ha cobrado recientemente una importancia creciente con una amplia gama de aplicaciones. A pesar de la importancia y los avances recientes, la mayoría de los trabajos existentes sobre LLMs personalizados se han centrado ya sea completamente en (a) la generación de texto personalizado o (b) en aprovechar los LLMs para aplicaciones relacionadas con la personalización, como sistemas de recomendación. En este trabajo, cerramos la brecha entre estas dos direcciones principales separadas por primera vez al introducir una taxonomía para el uso de LLMs personalizados y resumir las diferencias clave y los desafíos. Proporcionamos una formalización de los fundamentos de los LLMs personalizados que consolida y amplía las nociones de personalización de los LLMs, definiendo y discutiendo facetas novedosas de personalización, uso y deseos de los LLMs personalizados. Luego unificamos la literatura en estos diversos campos y escenarios de uso proponiendo taxonomías sistemáticas para la granularidad de la personalización, técnicas de personalización, conjuntos de datos, métodos de evaluación y aplicaciones de LLMs personalizados. Finalmente, destacamos los desafíos y problemas abiertos importantes que aún deben abordarse. Al unificar y examinar la investigación reciente utilizando las taxonomías propuestas, nuestro objetivo es proporcionar una guía clara sobre la literatura existente y las diferentes facetas de la personalización en LLMs, capacitando tanto a investigadores como a profesionales.

Flujo de Aceleración Constante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

Los procedimientos de flujo rectificado y reflujo han avanzado significativamente en la generación rápida al enderezar progresivamente los flujos de ecuaciones diferenciales ordinarias (ODE). Operan bajo la suposición de que los pares de imagen y ruido, conocidos como acoplamientos, pueden aproximarse mediante trayectorias rectas con velocidad constante. Sin embargo, observamos que modelar con velocidad constante y utilizar procedimientos de reflujo tienen limitaciones para aprender con precisión trayectorias rectas entre pares, lo que resulta en un rendimiento subóptimo en la generación de pocos pasos. Para abordar estas limitaciones, presentamos el Flujo de Aceleración Constante (CAF), un marco novedoso basado en una simple ecuación de aceleración constante. CAF introduce la aceleración como una variable adicional aprendible, lo que permite una estimación más expresiva y precisa del flujo de ODE. Además, proponemos dos técnicas para mejorar aún más la precisión de la estimación: condicionamiento de la velocidad inicial para el modelo de aceleración y un proceso de reflujo para la velocidad inicial. Nuestros estudios exhaustivos en conjuntos de datos de juguete, CIFAR-10 y ImageNet 64x64 demuestran que CAF supera a las líneas de base de vanguardia para la generación de un paso. También mostramos que CAF mejora drásticamente la preservación de acoplamientos y la inversión de pocos pasos sobre el flujo rectificado. El código está disponible en https://github.com/mlvlab/CAF.

TOMATE: Evaluación de las Capacidades de Razonamiento Temporal Visual en Modelos Fundamentales Multimodales
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Los benchmarks existentes a menudo resaltan el notable rendimiento logrado por los Modelos Fundamentales Multimodales (MFM, por sus siglas en inglés) de última generación en aprovechar el contexto temporal para la comprensión de videos. Sin embargo, ¿qué tan bien realizan realmente los modelos el razonamiento temporal visual? Nuestro estudio de los benchmarks existentes muestra que esta capacidad de los MFM probablemente está sobreestimada, ya que muchas preguntas pueden resolverse utilizando uno, unos pocos o cuadros fuera de orden. Para examinar sistemáticamente las tareas actuales de razonamiento temporal visual, proponemos tres principios con métricas correspondientes: (1) Ganancia Multi-Cuadro, (2) Sensibilidad al Orden de Cuadros y (3) Disparidad de Información de Cuadros. Siguiendo estos principios, presentamos TOMATO, Evaluación Multimodal de Razonamiento Temporal, un nuevo benchmark diseñado para evaluar rigurosamente las capacidades de razonamiento temporal de los MFM en la comprensión de videos. TOMATO consta de 1,484 preguntas cuidadosamente seleccionadas y anotadas por humanos que abarcan seis tareas (es decir, conteo de acciones, dirección, rotación, forma y tendencia, velocidad y frecuencia, y pistas visuales), aplicadas a 1,417 videos, que incluyen 805 videos auto-grabados y generados, que abarcan escenarios centrados en humanos, del mundo real y simulados. Nuestra evaluación exhaustiva revela una brecha de rendimiento humano-modelo del 57.3% con el modelo de mejor rendimiento. Además, nuestro análisis en profundidad revela limitaciones más fundamentales más allá de esta brecha en los MFM actuales. Si bien pueden reconocer eventos con precisión en cuadros aislados, fallan en interpretar estos cuadros como una secuencia continua. Creemos que TOMATO servirá como un banco de pruebas crucial para evaluar los MFM de próxima generación y como un llamado a la comunidad para desarrollar sistemas de IA capaces de comprender la dinámica del mundo humano a través de la modalidad de video.

Generación Visual Autoregresiva Aleatorizada
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

Este documento presenta el modelado AutoRegressive Aleatorizado (RAR) para generación visual, el cual establece un nuevo rendimiento de vanguardia en la tarea de generación de imágenes al mismo tiempo que mantiene una completa compatibilidad con los marcos de modelado de lenguaje. El RAR propuesto es simple: durante un proceso de entrenamiento autoregresivo estándar con un objetivo de predicción del siguiente token, la secuencia de entrada, típicamente ordenada en forma de ráster, se permuta aleatoriamente en diferentes órdenes de factorización con una probabilidad r, donde r comienza en 1 y decae linealmente a 0 a lo largo del entrenamiento. Esta estrategia de entrenamiento de recocido permite que el modelo aprenda a maximizar la probabilidad esperada sobre todos los órdenes de factorización y, por lo tanto, mejore efectivamente la capacidad del modelo para modelar contextos bidireccionales. Es importante destacar que el RAR preserva la integridad del marco de modelado autoregresivo, asegurando una completa compatibilidad con el modelado de lenguaje al mismo tiempo que mejora significativamente el rendimiento en la generación de imágenes. En el banco de pruebas ImageNet-256, RAR logra una puntuación FID de 1.48, superando no solo a los generadores de imágenes autoregresivos de vanguardia anteriores, sino también a los métodos líderes basados en difusión y transformadores enmascarados. El código y los modelos estarán disponibles en https://github.com/bytedance/1d-tokenizer

DynaMath: Un banco de pruebas visual dinámico para evaluar la robustez del razonamiento matemático de los modelos de lenguaje visual.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Los rápidos avances en los Modelos Visión-Lenguaje (VLMs) han demostrado un gran potencial en abordar tareas de razonamiento matemático que implican contexto visual. A diferencia de los humanos que pueden aplicar de manera confiable pasos de solución a problemas similares con modificaciones menores, encontramos que los VLMs de última generación como GPT-4o pueden fallar consistentemente en estos escenarios, revelando limitaciones en sus capacidades de razonamiento matemático. En este documento, investigamos la robustez del razonamiento matemático en los VLMs y evaluamos qué tan bien estos modelos se desempeñan bajo diferentes variantes de la misma pregunta, como cambios en los valores numéricos visuales o gráficos de funciones. Aunque se han desarrollado varios puntos de referencia matemáticos basados en visión para evaluar las capacidades de resolución de problemas de los VLMs, estos puntos de referencia contienen solo conjuntos estáticos de problemas y no pueden evaluar fácilmente la robustez del razonamiento matemático. Para llenar este vacío, presentamos DynaMath, un punto de referencia matemático visual dinámico diseñado para evaluar a fondo los VLMs. DynaMath incluye 501 preguntas semilla de alta calidad, de múltiples temas, cada una representada como un programa en Python. Estos programas están cuidadosamente diseñados y anotados para permitir la generación automática de un conjunto mucho más grande de preguntas concretas, incluyendo muchos tipos diferentes de variaciones visuales y textuales. DynaMath nos permite evaluar la capacidad de generalización de los VLMs, al evaluar su desempeño bajo condiciones de entrada variables de una pregunta semilla. Evaluamos 14 VLMs de última generación con 5,010 preguntas concretas generadas. Nuestros resultados muestran que la precisión del modelo en el peor caso, definida como el porcentaje de preguntas semilla respondidas correctamente en las 10 variantes, es significativamente más baja que la precisión en el caso promedio. Nuestro análisis enfatiza la necesidad de estudiar la robustez de las capacidades de razonamiento de los VLMs, y DynaMath proporciona información valiosa para guiar el desarrollo de modelos más confiables para el razonamiento matemático.

Física en la Predicción del Próximo Token
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

Descubrimos la física subyacente en la Predicción del Próximo Token (PPT). Identificamos la ley de conservación de la información dentro de la PPT y propusimos la Primera Ley de Capacidad de Información (CI-1), demostrando que la esencia de la emergencia de la inteligencia en modelos autorregresivos es fundamentalmente un proceso de transferencia de información. También introdujimos el Principio de Landauer en la PPT, formulando la Segunda Ley de Capacidad de Información (CI-2), que establece la relación entre el entrenamiento de modelos autorregresivos y el consumo de energía. Además, presentamos varios corolarios, que tienen significado práctico para las prácticas de producción. Finalmente, validamos la compatibilidad y complementariedad de nuestros hallazgos con las teorías existentes.

GPT o BERT: ¿por qué no ambos?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Presentamos una forma sencilla de combinar el modelado de lenguaje enmascarado con el modelado de lenguaje causal. Este objetivo de entrenamiento híbrido resulta en un modelo que combina las fortalezas de ambos paradigmas de modelado dentro de una única pila de transformadores: GPT-BERT puede ser utilizado de manera transparente como cualquier modelo de lenguaje causal o enmascarado estándar. Probamos el proceso de preentrenamiento que permite este comportamiento flexible en el Desafío BabyLM 2024. Los resultados muestran que el preentrenamiento híbrido supera a los modelos solo enmascarados o solo causales. Publicamos abiertamente los modelos, corpus de entrenamiento y código.

Encuesta sobre Diseño de Interfaz de Usuario y Técnicas de Interacción en Aplicaciones de IA Generativa.
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Las aplicaciones de la IA generativa se han vuelto extremadamente impresionantes, y la interacción entre los usuarios y la IA aún más. La literatura actual sobre la interacción humano-IA ha examinado ampliamente cómo interactúan los humanos con la IA generativa, pero carece de especificidad en cuanto a los diseños de interfaz de usuario y patrones utilizados para crear estas aplicaciones. Por lo tanto, presentamos una encuesta que presenta de manera exhaustiva taxonomías de cómo un humano interactúa con la IA y los patrones de interacción de usuario diseñados para satisfacer las necesidades de una variedad de casos de uso relevantes. Nos enfocamos principalmente en interacciones guiadas por el usuario, encuestando interacciones que son iniciadas por el usuario y no incluyen señales implícitas dadas por el usuario. Con esta encuesta, nuestro objetivo es crear un compendio de diferentes patrones de interacción de usuario que puedan ser utilizados como referencia tanto para diseñadores como para desarrolladores. Al hacerlo, también nos esforzamos por reducir la barrera de entrada para aquellos que intentan aprender más sobre el diseño de aplicaciones de IA generativa.

Fashion-VDM: Modelo de Difusión de Video para Pruebas Virtuales de Indumentaria.
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

Presentamos Fashion-VDM, un modelo de difusión de video (VDM) para generar videos de prueba virtual. Dado una imagen de prenda de vestir de entrada y un video de persona, nuestro método tiene como objetivo generar un video de prueba de alta calidad de la persona vistiendo la prenda dada, manteniendo la identidad y el movimiento de la persona. La prueba virtual basada en imágenes ha demostrado resultados impresionantes; sin embargo, los métodos existentes de prueba virtual de video (VVT) aún carecen de detalles de prendas y consistencia temporal. Para abordar estos problemas, proponemos una arquitectura basada en difusión para la prueba virtual de video, guía dividida sin clasificador para un mayor control sobre las entradas de condicionamiento, y una estrategia de entrenamiento temporal progresiva para la generación de video de 64 cuadros de un solo pase, 512px. También demostramos la efectividad del entrenamiento conjunto de imagen-video para la prueba de video, especialmente cuando los datos de video son limitados. Nuestros experimentos cualitativos y cuantitativos muestran que nuestro enfoque establece el nuevo estado del arte para la prueba virtual de video. Para resultados adicionales, visite nuestra página del proyecto: https://johannakarras.github.io/Fashion-VDM.

LoRA en Contexto para Transformadores de Difusión
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Investigaciones recientes arXiv:2410.15027 han explorado el uso de transformadores de difusión (DiTs) para la generación de imágenes sin tarea específica mediante la simple concatenación de tokens de atención en imágenes. Sin embargo, a pesar de los recursos computacionales sustanciales, la fidelidad de las imágenes generadas sigue siendo subóptima. En este estudio, reevaluamos y optimizamos este marco teórico al hipotetizar que los DiTs de texto a imagen poseen inherentemente capacidades de generación contextual, que solo requieren ajustes mínimos para activarse. A través de diversos experimentos de tarea, demostramos cualitativamente que los DiTs de texto a imagen existentes pueden realizar eficazmente generación contextual sin ningún ajuste. Basándonos en esta idea, proponemos un flujo de trabajo notablemente simple para aprovechar las capacidades contextuales de los DiTs: (1) concatenar imágenes en lugar de tokens, (2) realizar subtitulado conjunto de múltiples imágenes y (3) aplicar ajustes LoRA específicos de la tarea utilizando conjuntos de datos pequeños (por ejemplo, 20 a 100 muestras) en lugar de ajustes de parámetros completos con conjuntos de datos grandes. Nombramos a nuestros modelos In-Context LoRA (IC-LoRA). Este enfoque no requiere modificaciones en los modelos DiT originales, solo cambios en los datos de entrenamiento. Notablemente, nuestro flujo de trabajo genera conjuntos de imágenes de alta fidelidad que se adhieren mejor a las indicaciones. Si bien es específico de la tarea en términos de ajuste de datos, nuestro marco teórico sigue siendo agnóstico a la tarea en arquitectura y flujo de trabajo, ofreciendo una herramienta potente para la comunidad y proporcionando ideas valiosas para investigaciones futuras sobre sistemas de generación agnósticos a la tarea a nivel de producto. Publicamos nuestro código, datos y modelos en https://github.com/ali-vilab/In-Context-LoRA

Anonimización Facial Simplificada
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

Las técnicas actuales de anonimización facial a menudo dependen de la pérdida de identidad calculada por modelos de reconocimiento facial, los cuales pueden ser inexactos e poco confiables. Además, muchos métodos requieren datos complementarios como puntos de referencia faciales y máscaras para guiar el proceso de síntesis. En contraste, nuestro enfoque utiliza modelos de difusión con solo una pérdida de reconstrucción, eliminando la necesidad de puntos de referencia faciales o máscaras, al mismo tiempo que produce imágenes con detalles intrincados y detallados. Validamos nuestros resultados en dos benchmarks públicos a través de evaluaciones tanto cuantitativas como cualitativas. Nuestro modelo logra un rendimiento de vanguardia en tres áreas clave: anonimización de identidad, preservación de atributos faciales y calidad de imagen. Más allá de su función principal de anonimización, nuestro modelo también puede realizar tareas de intercambio facial al incorporar una imagen facial adicional como entrada, demostrando su versatilidad y potencial para diversas aplicaciones. Nuestro código y modelos están disponibles en https://github.com/hanweikung/face_anon_simple.

CityGaussianV2: Reconstrucción Eficiente y Geométricamente Precisa para Escenas a Gran Escala
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Recientemente, el Splatting Gaussiano 3D (3DGS) ha revolucionado la reconstrucción de campos de luminancia, manifestando una síntesis de vista novedosa eficiente y de alta fidelidad. Sin embargo, representar superficies con precisión, especialmente en escenarios grandes y complejos, sigue siendo un desafío significativo debido a la naturaleza no estructurada del 3DGS. En este documento, presentamos CityGaussianV2, un enfoque novedoso para la reconstrucción de escenas a gran escala que aborda desafíos críticos relacionados con la precisión geométrica y la eficiencia. Basándonos en las capacidades favorables de generalización del Splatting Gaussiano 2D (2DGS), abordamos sus problemas de convergencia y escalabilidad. Específicamente, implementamos una técnica de densificación basada en gradientes descompuestos y regresión de profundidad para eliminar artefactos borrosos y acelerar la convergencia. Para escalar, introducimos un filtro de elongación que mitiga la explosión de recuento gaussiano causada por la degeneración del 2DGS. Además, optimizamos el pipeline de CityGaussian para entrenamiento paralelo, logrando una compresión de hasta 10 veces, al menos un 25% de ahorro en tiempo de entrenamiento y una disminución del 50% en el uso de memoria. También establecimos benchmarks de geometría estándar en escenas a gran escala. Los resultados experimentales demuestran que nuestro método logra un equilibrio prometedor entre calidad visual, precisión geométrica, así como costos de almacenamiento y entrenamiento. La página del proyecto está disponible en https://dekuliutesla.github.io/CityGaussianV2/.

Adaptándose Mientras Aprende: Fundamentando LLMs para Problemas Científicos con Adaptación Inteligente del Uso de Herramientas
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Los Modelos de Lenguaje Grandes (LLMs) muestran capacidades prometedoras en la resolución de problemas científicos simples, pero a menudo producen alucinaciones en los más complejos. Si bien la integración de LLMs con herramientas puede aumentar la fiabilidad, este enfoque suele resultar en una dependencia excesiva de las herramientas, disminuyendo la capacidad del modelo para resolver problemas simples a través del razonamiento básico. En contraste, los expertos humanos evalúan primero la complejidad del problema utilizando el conocimiento del dominio antes de elegir un enfoque de solución adecuado. Inspirados por este proceso humano de resolución de problemas, proponemos un novedoso método de ajuste fino de dos componentes. En el primer componente, Destilación de Conocimiento del Mundo (WKD por sus siglas en inglés), los LLMs aprenden directamente de las soluciones generadas utilizando la información de las herramientas para interiorizar el conocimiento del dominio. En el segundo componente, Adaptación del Uso de Herramientas (TUA), dividimos los problemas en categorías fáciles y difíciles basándonos en la precisión de respuesta directa del modelo. Manteniendo el mismo objetivo de alineación para los problemas fáciles como en WKD, entrenamos al modelo para cambiar inteligentemente al uso de herramientas para problemas más desafiantes. Validamos nuestro método en seis conjuntos de datos de referencia científica, que abarcan matemáticas, ciencias climáticas y epidemiología. En promedio, nuestros modelos muestran una mejora del 28.18% en la precisión de respuestas y un aumento del 13.89% en la precisión del uso de herramientas en todos los conjuntos de datos, superando a modelos de vanguardia como GPT-4o y Claude-3.5.

Blanqueamiento Zipfiano
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

El espacio de incrustación de palabras en modelos neuronales está sesgado, y corregir esto puede mejorar el rendimiento de la tarea. Señalamos que la mayoría de los enfoques para modelar, corregir y medir la simetría de un espacio de incrustación asumen implícitamente que las frecuencias de las palabras son uniformes; en realidad, las frecuencias de las palabras siguen una distribución altamente no uniforme, conocida como la ley de Zipf. Sorprendentemente, simplemente realizar un blanqueo de PCA ponderado por la frecuencia empírica de las palabras que sigue la ley de Zipf mejora significativamente el rendimiento de la tarea, superando los baselines establecidos. Desde una perspectiva teórica, tanto nuestro enfoque como los métodos existentes pueden clasificarse claramente: las representaciones de palabras se distribuyen de acuerdo con una familia exponencial con medidas base uniformes o zipfianas. Al adoptar el último enfoque, podemos enfatizar naturalmente las palabras informativas de baja frecuencia en términos de su norma vectorial, lo que se hace evidente desde la perspectiva de la geometría de la información, y en términos de las funciones de pérdida para la clasificación desequilibrada. Además, nuestra teoría corrobora que los métodos populares de procesamiento del lenguaje natural, como el muestreo negativo de skip-gram, WhiteningBERT y modelos de lenguaje sin cabeza, funcionan bien simplemente porque sus incrustaciones de palabras codifican la frecuencia empírica de las palabras en el modelo probabilístico subyacente.

HolaMeme: Integrando Atenciones de Tejido Espacial para Incrustar Condiciones de Alto Nivel y Alta Fidelidad en Modelos de Difusión
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

Proponemos un método efectivo para insertar adaptadores en modelos base de texto a imagen, lo que permite la ejecución de tareas complejas en aguas abajo mientras se preserva la capacidad de generalización del modelo base. La idea central de este método es optimizar el mecanismo de atención relacionado con mapas de características 2D, lo que mejora el rendimiento del adaptador. Este enfoque se validó en la tarea de generación de videos de memes y logró resultados significativos. Esperamos que este trabajo pueda proporcionar ideas para tareas posteriores al entrenamiento de grandes modelos de texto a imagen. Además, dado que este método demuestra una buena compatibilidad con modelos derivados de SD1.5, tiene cierto valor para la comunidad de código abierto. Por lo tanto, publicaremos el código relacionado (https://songkey.github.io/hellomeme).

LIBMoE: Una biblioteca para la evaluación exhaustiva de la Mezcla de Expertos en Modelos de Lenguaje Grandes
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

La combinación de Expertos (MoEs) juega un papel importante en el desarrollo de modelos de lenguaje grandes (LLMs) más eficientes y efectivos. Debido a los enormes requisitos de recursos, el estudio de algoritmos MoE a gran escala sigue siendo inaccesible para muchos investigadores. Este trabajo desarrolla LibMoE, un marco integral y modular para agilizar la investigación, entrenamiento y evaluación de algoritmos MoE. Basado en tres principios fundamentales: (i) diseño modular, (ii) entrenamiento eficiente; (iii) evaluación exhaustiva, LibMoE hace que MoE en LLMs sea más accesible para una amplia gama de investigadores al estandarizar los procesos de entrenamiento y evaluación. Utilizando LibMoE, evaluamos exhaustivamente cinco algoritmos MoE de última generación en tres LLMs diferentes y 11 conjuntos de datos en el escenario de cero disparos. Los resultados muestran que a pesar de las características únicas, todos los algoritmos MoE tienen un rendimiento similar en promedio en una amplia gama de tareas. Con el diseño modular y la evaluación exhaustiva, creemos que LibMoE será invaluable para que los investigadores avancen significativamente hacia la próxima generación de MoE y LLMs. Página del proyecto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SambaMixer: Predicción del Estado de Salud de Baterías de Iones de Litio utilizando Mamba Modelos de Espacio de Estados.
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

El estado de salud (SOH) de una batería de iones de litio es un parámetro crítico que determina la capacidad restante y la vida útil restante de la batería. En este documento, proponemos SambaMixer, un modelo estructurado novedoso de espacio de estados (SSM) para predecir el estado de salud de las baterías de iones de litio. El SSM propuesto se basa en la arquitectura MambaMixer, la cual está diseñada para manejar señales temporales multivariadas. Evaluamos nuestro modelo en el conjunto de datos de descarga de baterías de la NASA y demostramos que nuestro modelo supera al estado del arte en este conjunto de datos. Además, introducimos un novedoso método de re-muestreo basado en anclas que garantiza que las señales temporales tengan la longitud esperada, al mismo tiempo que sirve como técnica de aumento. Finalmente, condicionamos la predicción en el tiempo de muestra y la diferencia de tiempo de ciclo utilizando codificaciones posicionales para mejorar el rendimiento de nuestro modelo y aprender efectos de recuperación. Nuestros resultados demuestran que nuestro modelo es capaz de predecir el SOH de las baterías de iones de litio con alta precisión y robustez.

GRS-QA: Conjunto de datos de Razonamiento de Gráficos y Respuestas a Preguntas Estructuradas
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

Los Modelos de Lenguaje Grandes (LLMs) han destacado en la resolución de preguntas de múltiples pasos (M-QA) debido a sus avanzadas habilidades de razonamiento. Sin embargo, el impacto de las estructuras de razonamiento inherentes en el rendimiento de LLM M-QA sigue siendo incierto, en gran parte debido a la ausencia de conjuntos de datos de QA que proporcionen estructuras de razonamiento detalladas. Para abordar esta brecha, presentamos el Conjunto de Datos de Preguntas y Respuestas Estructuradas por Razonamiento en Grafo (GRS-QA), que incluye tanto contextos semánticos como estructuras de razonamiento para pares de preguntas y respuestas. A diferencia de los conjuntos de datos de M-QA existentes, donde diferentes estructuras de razonamiento están entrelazadas, GRS-QA captura explícitamente intrincados caminos de razonamiento mediante la construcción de grafos de razonamiento, donde los nodos representan contextos textuales y los bordes denotan flujos lógicos. Estos grafos de razonamiento de diferentes estructuras permiten una evaluación detallada de las capacidades de razonamiento de LLM en diversas estructuras de razonamiento. Nuestro análisis empírico revela que los LLMs se desempeñan de manera diferente al abordar preguntas con diversas estructuras de razonamiento. Este hallazgo facilita la exploración de estructuras textuales en comparación con la semántica.

M2rc-Eval: Completado de código a nivel de repositorio masivamente multilingüe Evaluación
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

La finalización de código a nivel de repositorio ha atraído gran atención en ingeniería de software, y se han introducido varios conjuntos de datos de referencia. Sin embargo, los conjuntos de datos de referencia existentes para la finalización de código a nivel de repositorio suelen centrarse en un número limitado de lenguajes (<5), lo que no permite evaluar las capacidades generales de inteligencia de código en diferentes lenguajes para los Modelos de Lenguaje de Código Grande (LLMs, por sus siglas en inglés) existentes. Además, los conjuntos de datos existentes suelen informar puntajes promedio generales de diferentes lenguajes, donde se ignoran las habilidades detalladas en diferentes escenarios de completado. Por lo tanto, para facilitar la investigación de LLMs de código en escenarios multilingües, proponemos un conjunto de datos de referencia de finalización de código a nivel de repositorio masivamente multilingüe que abarca 18 lenguajes de programación (llamado M2RC-EVAL), y se proporcionan dos tipos de anotaciones detalladas (es decir, a nivel de cubo y a nivel semántico) en diferentes escenarios de completado, donde obtenemos estas anotaciones basadas en el árbol de sintaxis abstracta analizado. Además, también recopilamos un corpus de instrucciones masivamente multilingüe, el conjunto de datos M2RC-INSTRUCT, para mejorar las capacidades de finalización de código a nivel de repositorio de los LLMs de código existentes. Los resultados experimentales exhaustivos demuestran la efectividad de nuestro M2RC-EVAL y M2RC-INSTRUCT.

WikiNER-fr-gold: Un corpus NER de referencia
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

En este artículo abordamos la calidad del corpus WikiNER, un corpus multilingüe de Reconocimiento de Entidades Nombradas, y proporcionamos una versión consolidada del mismo. La anotación de WikiNER se realizó de manera semisupervisada, es decir, no se llevó a cabo verificación manual a posteriori. Dicho corpus se denomina de estándar plata. En este documento proponemos WikiNER-fr-gold, que es una versión revisada de la porción en francés de WikiNER. Nuestro corpus consta de una muestra aleatoria del 20% del subcorpus francés original (26,818 oraciones con 700k tokens). Comenzamos por resumir los tipos de entidades incluidas en cada categoría para definir una guía de anotación, y luego procedemos a revisar el corpus. Finalmente, presentamos un análisis de los errores e inconsistencias observados en el corpus WikiNER-fr, y discutimos posibles direcciones para trabajos futuros.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

OS-ATLAS: Un Modelo de Acción Fundamental para Agentes GUI Generalistas
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Personalización de Modelos de Lenguaje Grandes: Un Estudio
Personalization of Large Language Models: A Survey

Oct 29

Flujo de Aceleración Constante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

TOMATE: Evaluación de las Capacidades de Razonamiento Temporal Visual en Modelos Fundamentales Multimodales
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Generación Visual Autoregresiva Aleatorizada
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath: Un banco de pruebas visual dinámico para evaluar la robustez del razonamiento matemático de los modelos de lenguaje visual.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Física en la Predicción del Próximo Token
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT o BERT: ¿por qué no ambos?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Encuesta sobre Diseño de Interfaz de Usuario y Técnicas de Interacción en Aplicaciones de IA Generativa.
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Fashion-VDM: Modelo de Difusión de Video para Pruebas Virtuales de Indumentaria.
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

LoRA en Contexto para Transformadores de Difusión
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Anonimización Facial Simplificada
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

CityGaussianV2: Reconstrucción Eficiente y Geométricamente Precisa para Escenas a Gran Escala
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Adaptándose Mientras Aprende: Fundamentando LLMs para Problemas Científicos con Adaptación Inteligente del Uso de Herramientas
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Blanqueamiento Zipfiano
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

HolaMeme: Integrando Atenciones de Tejido Espacial para Incrustar Condiciones de Alto Nivel y Alta Fidelidad en Modelos de Difusión
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

LIBMoE: Una biblioteca para la evaluación exhaustiva de la Mezcla de Expertos en Modelos de Lenguaje Grandes
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

SambaMixer: Predicción del Estado de Salud de Baterías de Iones de Litio utilizando Mamba Modelos de Espacio de Estados.
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

GRS-QA: Conjunto de datos de Razonamiento de Gráficos y Respuestas a Preguntas Estructuradas
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

M2rc-Eval: Completado de código a nivel de repositorio masivamente multilingüe Evaluación
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

WikiNER-fr-gold: Un corpus NER de referencia
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau