Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Teoría general de OCR: Hacia OCR-2.0 a través de un Modelo Unificado de Extremo a Extremo
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang

Los sistemas tradicionales de OCR (OCR-1.0) son cada vez más incapaces de satisfacer las necesidades de las personas debido a la creciente demanda de procesamiento inteligente de caracteres ópticos artificiales. En este documento, nos referimos colectivamente a todas las señales ópticas artificiales (por ejemplo, textos simples, fórmulas matemáticas/moleculares, tablas, gráficos, partituras e incluso formas geométricas) como "caracteres" y proponemos la Teoría General de OCR junto con un excelente modelo, denominado GOT, para promover la llegada de OCR-2.0. El GOT, con 580 millones de parámetros, es un modelo unificado, elegante y de extremo a extremo, que consta de un codificador de alta compresión y un decodificador de contextos largos. Como modelo OCR-2.0, el GOT puede manejar todos los "caracteres" mencionados en diversas tareas de OCR. En el lado de entrada, el modelo admite imágenes de escena y de documento en estilos de corte y de página completa comúnmente utilizados. En el lado de salida, el GOT puede generar resultados simples o formateados (markdown/tikz/smiles/kern) a través de un comando sencillo. Además, el modelo cuenta con funciones interactivas de OCR, es decir, reconocimiento a nivel de región guiado por coordenadas o colores. Además, también adaptamos tecnologías de resolución dinámica y OCR de varias páginas al GOT para una mejor practicidad. En experimentos, proporcionamos resultados suficientes para demostrar la superioridad de nuestro modelo.

OLMoE: Modelos de Lenguaje de Mezcla de Expertos Abiertos
OLMoE: Open Mixture-of-Experts Language Models

Sep 3

ByNiklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

Presentamos OLMoE, un modelo de lenguaje de última generación completamente abierto que aprovecha la técnica de Mixture-of-Experts (MoE) dispersos. OLMoE-1B-7B cuenta con 7 mil millones (B) de parámetros, pero utiliza solo 1B por token de entrada. Lo preentrenamos con 5 billones de tokens y luego lo adaptamos para crear OLMoE-1B-7B-Instruct. Nuestros modelos superan a todos los modelos disponibles con parámetros activos similares, incluso superando a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B. Presentamos varios experimentos sobre el entrenamiento de MoE, analizamos el enrutamiento en nuestro modelo mostrando una alta especialización, y compartimos de forma abierta todos los aspectos de nuestro trabajo: pesos del modelo, datos de entrenamiento, código y registros.

Kvasir-VQA: Un conjunto de datos de pares de texto e imagen del tracto gastrointestinal.
Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Sep 2

BySushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler

Presentamos Kvasir-VQA, un conjunto de datos ampliado derivado de los conjuntos de datos HyperKvasir y Kvasir-Instrument, aumentado con anotaciones de preguntas y respuestas para facilitar tareas avanzadas de aprendizaje automático en diagnósticos gastrointestinales (GI). Este conjunto de datos consta de 6,500 imágenes anotadas que abarcan diversas condiciones del tracto GI e instrumentos quirúrgicos, y admite varios tipos de preguntas, incluidas sí/no, opción, ubicación y recuento numérico. El conjunto de datos está destinado para aplicaciones como subtitulado de imágenes, Respuesta a Preguntas Visuales (VQA), generación de imágenes médicas sintéticas basadas en texto, detección de objetos y clasificación. Nuestros experimentos demuestran la efectividad del conjunto de datos en el entrenamiento de modelos para tres tareas seleccionadas, mostrando aplicaciones significativas en el análisis de imágenes médicas y diagnósticos. También presentamos métricas de evaluación para cada tarea, resaltando la usabilidad y versatilidad de nuestro conjunto de datos. El conjunto de datos y los artefactos de apoyo están disponibles en https://datasets.simula.no/kvasir-vqa.

RecetaLarga: Receta para la Generalización Eficiente de Contextos Largos en Modelos de Lenguaje Grandes
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Aug 31

ByZhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi

Los modelos de lenguaje grandes (LLMs) enfrentan desafíos significativos al manejar tareas de largo contexto debido al tamaño limitado de la ventana de contexto efectiva durante el preentrenamiento, lo cual restringe su capacidad de generalizar sobre secuencias extensas. Mientras tanto, extender la ventana de contexto en LLMs a través de post-preentrenamiento es altamente intensivo en recursos. Para abordar esto, presentamos **LongRecipe**, una estrategia eficiente de entrenamiento para extender la ventana de contexto de LLMs, que incluye un análisis de tokens impactante, transformación de índices de posición y estrategias de optimización de entrenamiento. Simula entradas de secuencias largas manteniendo la eficiencia de entrenamiento y mejora significativamente la comprensión del modelo de dependencias a largo plazo. Experimentos en tres tipos de LLMs muestran que LongRecipe puede utilizar secuencias largas mientras requiere solo el 30% del tamaño de la ventana de contexto objetivo, y reduce los recursos computacionales de entrenamiento en más del 85% en comparación con el entrenamiento de secuencia completa. Además, LongRecipe también conserva las capacidades originales del LLM en tareas generales. En última instancia, *podemos extender la ventana de contexto efectiva de los LLMs de código abierto de 8k a 128k, logrando un rendimiento cercano al de GPT-4 con solo un día de entrenamiento dedicado utilizando una sola GPU con 80G de memoria.* Nuestro código está disponible en el [enlace](https://github.com/zhiyuanhubj/LongRecipe).

DepthCrafter: Generando Secuencias Largas de Profundidad Consistentes para Videos de Mundo Abierto
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Sep 3

ByWenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan

A pesar de los significativos avances en la estimación de profundidad monocular para imágenes estáticas, estimar la profundidad de video en el mundo abierto sigue siendo un desafío, ya que los videos de mundo abierto son extremadamente diversos en contenido, movimiento, movimiento de cámara y duración. Presentamos DepthCrafter, un método innovador para generar secuencias de profundidad largas temporalmente consistentes con detalles intrincados para videos de mundo abierto, sin necesidad de información adicional como poses de cámara u flujo óptico. DepthCrafter logra capacidad de generalización a videos de mundo abierto entrenando un modelo de video a profundidad a partir de un modelo de difusión de imagen a video pre-entrenado, a través de nuestra estrategia de entrenamiento de tres etapas meticulosamente diseñada con conjuntos de datos de video-profundidad emparejados compilados. Nuestro enfoque de entrenamiento permite que el modelo genere secuencias de profundidad con longitudes variables a la vez, de hasta 110 cuadros, y extraiga tanto detalles precisos de profundidad como diversidad de contenido rico de conjuntos de datos realistas y sintéticos. También proponemos una estrategia de inferencia que procesa videos extremadamente largos a través de estimación por segmentos y unión sin problemas. Evaluaciones exhaustivas en múltiples conjuntos de datos revelan que DepthCrafter logra un rendimiento de vanguardia en la estimación de profundidad de video de mundo abierto en configuraciones de cero disparos. Además, DepthCrafter facilita varias aplicaciones secundarias, incluidos efectos visuales basados en profundidad y generación condicional de video.

LinFusion: 1 GPU, 1 Minuto, Imagen de 16K
LinFusion: 1 GPU, 1 Minute, 16K Image

Sep 3

BySonghua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang

Los modelos de difusión modernos, en particular aquellos que utilizan un UNet basado en Transformadores para el desruido, dependen en gran medida de operaciones de autoatención para gestionar relaciones espaciales complejas, logrando así un impresionante rendimiento en la generación. Sin embargo, este paradigma existente enfrenta desafíos significativos en la generación de contenido visual de alta resolución debido a su complejidad cuadrática en tiempo y memoria con respecto al número de tokens espaciales. Para abordar esta limitación, nos proponemos en este artículo un novedoso mecanismo de atención lineal como alternativa. Específicamente, comenzamos nuestra exploración a partir de modelos recientemente introducidos con complejidad lineal, como Mamba, Mamba2 y Atención Lineal con Compuertas, e identificamos dos características clave: normalización de atención e inferencia no causal, que mejoran el rendimiento en la generación visual de alta resolución. Basándonos en estos conocimientos, introducimos un paradigma generalizado de atención lineal, que sirve como una aproximación de rango bajo de un amplio espectro de mezcladores de tokens lineales populares. Para reducir el costo de entrenamiento y aprovechar mejor los modelos pre-entrenados, inicializamos nuestros modelos y destilamos el conocimiento del modelo pre-entrenado StableDiffusion (SD). Observamos que el modelo destilado, denominado LinFusion, logra un rendimiento igual o superior al SD original después de un entrenamiento modesto, al tiempo que reduce significativamente la complejidad en tiempo y memoria. Experimentos extensos en SD-v1.5, SD-v2.1 y SD-XL demuestran que LinFusion ofrece un rendimiento satisfactorio en la generación de resoluciones cruzadas sin entrenamiento, generando imágenes de alta resolución como 16K. Además, es altamente compatible con componentes pre-entrenados de SD, como ControlNet e IP-Adapter, sin necesidad de esfuerzos de adaptación. El código está disponible en https://github.com/Huage001/LinFusion.

FLUX que Reproduce Música
FLUX that Plays Music

Sep 1

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

Este documento explora una simple extensión de los Transformers de flujo rectificado basados en difusión para la generación de texto a música, denominada FluxMusic. En general, junto con el diseño avanzado del modelo Flux, lo transferimos a un espacio VAE latente de espectro melódico. Esto implica aplicar primero una secuencia de atención independiente al flujo doble de texto-música, seguido por un flujo de música único apilado para la predicción de parches des ruidizados. Empleamos múltiples codificadores de texto pre-entrenados para capturar suficientemente la información semántica de los subtítulos y la flexibilidad de inferencia. En medio de esto, la información textual gruesa, junto con incrustaciones de pasos temporales, se utiliza en un mecanismo de modulación, mientras que los detalles textuales detallados se concatenan con la secuencia de parches de música como entradas. A través de un estudio exhaustivo, demostramos que el entrenamiento de flujo rectificado con una arquitectura optimizada supera significativamente a los métodos de difusión establecidos para la tarea de texto a música, como lo demuestran varias métricas automáticas y evaluaciones de preferencia humana. Nuestros datos experimentales, código y pesos del modelo están disponibles públicamente en: https://github.com/feizc/FluxMusic.

VideoLLaMB: Comprensión de video de largo contexto con Memoria Recurrente Bridges
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng

Los avances recientes en modelos de video-idioma a gran escala han mostrado un potencial significativo para la planificación en tiempo real y las interacciones detalladas. Sin embargo, sus altas demandas computacionales y la escasez de conjuntos de datos anotados limitan su practicidad para los investigadores académicos. En este trabajo, presentamos VideoLLaMB, un marco novedoso que utiliza fichas de memoria temporal en capas puente para permitir la codificación de secuencias de video completas junto con datos visuales históricos, preservando efectivamente la continuidad semántica y mejorando el rendimiento del modelo en diversas tareas. Este enfoque incluye fichas de memoria recurrentes y un algoritmo de Segmentación de Escenas, que segmenta videos en unidades semánticas independientes para preservar la integridad semántica. Empíricamente, VideoLLaMB supera significativamente a los modelos de video-idioma existentes, demostrando una mejora de 5.5 puntos sobre sus competidores en tres bancos de pruebas de VideoQA, y 2.06 puntos en planificación egocéntrica. Los resultados exhaustivos en MVBench muestran que VideoLLaMB-7B logra resultados notablemente mejores que los modelos 7B anteriores del mismo LLM. Notablemente, mantiene un rendimiento robusto como PLLaVA incluso a medida que la longitud del video aumenta hasta 8 veces. Además, los resultados de recuperación de fotogramas en nuestro banco de pruebas especializado Needle in a Video Haystack (NIAVH) validan aún más la capacidad de VideoLLaMB para identificar con precisión fotogramas específicos dentro de videos extensos. Nuestro algoritmo de Segmentación de Escenas también permite la generación de subtítulos de video en tiempo real directamente, sin necesidad de entrenamiento adicional. En términos de eficiencia, VideoLLaMB, entrenado en 16 fotogramas, admite hasta 320 fotogramas en una sola GPU Nvidia A100 con escalado lineal de memoria de GPU, garantizando tanto un alto rendimiento como rentabilidad, estableciendo así una nueva base para modelos de video-idioma de larga duración en aplicaciones académicas y prácticas.

Optimización de Políticas de Difusión
Diffusion Policy Policy Optimization

Sep 1

ByAllen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz

Introducimos la Optimización de Política de Difusión, DPPO, un marco algorítmico que incluye las mejores prácticas para ajustar políticas basadas en difusión (por ejemplo, Política de Difusión) en tareas de control continuo y aprendizaje de robots utilizando el método de gradiente de política (PG) del aprendizaje por refuerzo (RL). Los métodos PG son ubicuos en el entrenamiento de políticas de RL con otras parametrizaciones de política; sin embargo, se había conjeturado que eran menos eficientes para políticas basadas en difusión. Sorprendentemente, mostramos que DPPO logra el mejor rendimiento general y eficiencia para el ajuste fino en benchmarks comunes en comparación con otros métodos de RL para políticas basadas en difusión y también en comparación con el ajuste fino de PG de otras parametrizaciones de política. A través de una investigación experimental, descubrimos que DPPO aprovecha sinergias únicas entre el ajuste fino de RL y la parametrización de difusión, lo que conduce a una exploración estructurada y en el manifol, un entrenamiento estable y una robustez de política sólida. Además, demostramos las fortalezas de DPPO en una variedad de entornos realistas, incluidas tareas robóticas simuladas con observaciones de píxeles, y a través de la implementación sin entrenamiento previo de políticas entrenadas en simulación en hardware de robot en una tarea de manipulación de múltiples etapas y largo horizonte. Sitio web con código: diffusion-ppo.github.io

Generación de Video Consciente en 3D de forma Composicional con Director LLM
Compositional 3D-aware Video Generation with LLM Director

Aug 31

ByHanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian

Se ha logrado un progreso significativo en la generación de texto a video mediante el uso de potentes modelos generativos y datos a gran escala de internet. Sin embargo, persisten desafíos sustanciales en controlar con precisión conceptos individuales dentro del video generado, como el movimiento y apariencia de personajes específicos y el desplazamiento de puntos de vista. En este trabajo, proponemos un nuevo paradigma que genera cada concepto en una representación 3D por separado y luego los compone con prioridades de Modelos de Lenguaje Grandes (LLM) y modelos de difusión 2D. Específicamente, dado un estímulo textual de entrada, nuestro esquema consta de tres etapas: 1) Utilizamos LLM como director para primero descomponer la consulta compleja en varios subestímulos que indican conceptos individuales dentro del video (por ejemplo, escena, objetos, movimientos), luego permitimos que LLM invoque modelos expertos pre-entrenados para obtener representaciones 3D correspondientes de los conceptos. 2) Para componer estas representaciones, solicitamos a LLM multimodal que produzca una guía aproximada sobre las escalas y coordenadas de las trayectorias de los objetos. 3) Para que los fotogramas generados se adhieran a la distribución natural de imágenes, aprovechamos además las prioridades de difusión 2D y utilizamos Muestreo de Destilación de Puntuación para refinar la composición. Experimentos extensos demuestran que nuestro método puede generar videos de alta fidelidad a partir de texto con diversos movimientos y control flexible sobre cada concepto. Página del proyecto: https://aka.ms/c3v.

ContextoCita: Atribuir la Generación del Modelo al Contexto
ContextCite: Attributing Model Generation to Context

Sep 1

ByBenjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry

¿Cómo utilizan los modelos de lenguaje la información proporcionada como contexto al generar una respuesta? ¿Podemos inferir si una declaración generada en particular está realmente fundamentada en el contexto, es una interpretación errónea o es fabricada? Para ayudar a responder estas preguntas, presentamos el problema de la atribución de contexto: identificar las partes del contexto (si las hay) que llevaron a un modelo a generar una declaración en particular. Luego presentamos ContextCite, un método simple y escalable para la atribución de contexto que se puede aplicar sobre cualquier modelo de lenguaje existente. Finalmente, mostramos la utilidad de ContextCite a través de tres aplicaciones: (1) ayudar a verificar declaraciones generadas, (2) mejorar la calidad de la respuesta al podar el contexto y (3) detectar ataques de envenenamiento. Proporcionamos el código de ContextCite en https://github.com/MadryLab/context-cite.

OD-VAE: Un Compresor de Video Omnidimensional para Mejorar el Modelo de Difusión de Video Latente.
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Sep 2

ByLiuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan

El Autoencoder Variacional (VAE), que comprime videos en representaciones latentes, es un componente crucial previo de los Modelos de Difusión de Video Latente (LVDMs). Con la misma calidad de reconstrucción, cuanto más suficiente sea la compresión del VAE para videos, más eficientes son los LVDMs. Sin embargo, la mayoría de los LVDMs utilizan VAE de imágenes 2D, cuya compresión para videos se limita solo a la dimensión espacial y a menudo se ignora en la dimensión temporal. Cómo llevar a cabo la compresión temporal de videos en un VAE para obtener representaciones latentes más concisas mientras se promete una reconstrucción precisa rara vez se explora. Para llenar este vacío, proponemos un VAE de compresión omni-dimensional, llamado OD-VAE, que puede comprimir videos tanto temporal como espacialmente. Aunque la compresión más suficiente de OD-VAE plantea un gran desafío para la reconstrucción de video, aún puede lograr una alta precisión de reconstrucción mediante nuestro diseño detallado. Para obtener un mejor equilibrio entre la calidad de reconstrucción de video y la velocidad de compresión, se introducen y analizan cuatro variantes de OD-VAE. Además, se diseña una nueva inicialización de cola para entrenar OD-VAE de manera más eficiente, y se propone una nueva estrategia de inferencia para permitir que OD-VAE maneje videos de longitud arbitraria con memoria limitada de GPU. Experimentos exhaustivos sobre reconstrucción de video y generación de video basada en LVDMs demuestran la efectividad y eficiencia de nuestros métodos propuestos.

Compresión precisa de modelos de difusión de texto a imagen mediante cuantización de vectores.
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

Aug 31

ByVage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk

Los modelos de difusión texto-imagen han surgido como un marco poderoso para la generación de imágenes de alta calidad a partir de indicaciones textuales. Su éxito ha impulsado el rápido desarrollo de modelos de difusión a nivel de producción que aumentan constantemente en tamaño y ya contienen miles de millones de parámetros. Como resultado, los modelos de vanguardia de texto a imagen están volviéndose menos accesibles en la práctica, especialmente en entornos con recursos limitados. La cuantificación post-entrenamiento (PTQ) aborda este problema comprimiendo los pesos del modelo preentrenado en representaciones de menor cantidad de bits. Las técnicas recientes de cuantificación de difusión se basan principalmente en la cuantificación escalar uniforme, ofreciendo un rendimiento decente para los modelos comprimidos a 4 bits. Este trabajo demuestra que la cuantificación vectorial (VQ) más versátil puede lograr tasas de compresión más altas para modelos de difusión texto-imagen a gran escala. Específicamente, adaptamos métodos de PTQ basados en vectores a los recientes modelos de texto-imagen a escala de miles de millones (SDXL y SDXL-Turbo), y mostramos que los modelos de difusión de 2B+ parámetros comprimidos a alrededor de 3 bits utilizando VQ exhiben una calidad de imagen y alineación textual similares a las técnicas de compresión de 4 bits previas.

GenAgent: Construcción de Sistemas de IA Colaborativos con Flujo de Trabajo Automatizado - Generación de Casos de Estudio sobre ComfyUI
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI

Sep 2

ByXiangyuan Xue, Zeyu Lu, Di Huang, Wanli Ouyang, Lei Bai

Mucha de la investigación previa en IA se ha centrado en desarrollar modelos monolíticos para maximizar su inteligencia y capacidad, con el objetivo principal de mejorar el rendimiento en tareas específicas. En contraste, este documento explora un enfoque alternativo: sistemas colaborativos de IA que utilizan flujos de trabajo para integrar modelos, fuentes de datos y canalizaciones para resolver tareas complejas y diversas. Presentamos GenAgent, un marco basado en LLM que genera automáticamente flujos de trabajo complejos, ofreciendo mayor flexibilidad y escalabilidad en comparación con modelos monolíticos. La innovación central de GenAgent radica en representar flujos de trabajo con código, junto con la construcción de flujos de trabajo con agentes colaborativos de manera paso a paso. Implementamos GenAgent en la plataforma ComfyUI y proponemos un nuevo punto de referencia, OpenComfy. Los resultados demuestran que GenAgent supera a los enfoques de referencia tanto en evaluaciones a nivel de ejecución como a nivel de tarea, mostrando su capacidad para generar flujos de trabajo complejos con una efectividad y estabilidad superiores.

Seguir-Tu-Lienzo: Generación de Contenido Extensivo para Rellenar Videos de Alta Resolución
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Sep 2

ByQihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu

Este documento explora la generación de contenido extensivo en la extrapolación de videos de alta resolución. Se señalan problemas comunes enfrentados por los métodos existentes al intentar extrapolaciones extensas de videos: la generación de contenido de baja calidad y las limitaciones impuestas por la memoria de la GPU. Para abordar estos desafíos, proponemos un método basado en difusión llamado Sigue-Tu-Lienzo. Se basa en dos diseños principales. En primer lugar, en lugar de emplear la práctica común de extrapolación "de un solo disparo", distribuimos la tarea en ventanas espaciales y las fusionamos de manera fluida. Esto nos permite realizar extrapolaciones de videos de cualquier tamaño y resolución sin verse limitados por la memoria de la GPU. En segundo lugar, el video fuente y su relación posicional relativa se inyectan en el proceso de generación de cada ventana. Esto hace que el diseño espacial generado dentro de cada ventana armonice con el video fuente. La combinación de estos dos diseños nos permite generar videos de extrapolación de alta resolución con contenido rico manteniendo coherencia espacial y temporal. Sigue-Tu-Lienzo destaca en la extrapolación de videos a gran escala, por ejemplo, desde 512X512 hasta 1152X2048 (9X), produciendo resultados de alta calidad y estéticamente agradables. Obtiene los mejores resultados cuantitativos en diversas configuraciones de resolución y escala. El código se encuentra disponible en https://github.com/mayuelala/FollowYourCanvas

Red de Voz con Atención Adaptativa Densa: Mejorando la Comprensión de Características para Trastornos de Salud Mental
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

Aug 31

ByGeorgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins

La detección de la depresión basada en el habla plantea desafíos significativos para la detección automatizada debido a su manifestación única en cada individuo y a la escasez de datos. Para abordar estos desafíos, presentamos DAAMAudioCNNLSTM y DAAMAudioTransformer, dos modelos eficientes en parámetros y explicativos para la extracción de características de audio y la detección de la depresión. DAAMAudioCNNLSTM presenta un novedoso marco de trabajo CNN-LSTM con un Mecanismo de Atención Adaptativa de Densidad Multi-cabeza (DAAM), que se enfoca dinámicamente en segmentos de habla informativos. DAAMAudioTransformer, que utiliza un codificador transformer en lugar de la arquitectura CNN-LSTM, incorpora el mismo módulo DAAM para una atención e interpretabilidad mejoradas. Estos enfoques no solo mejoran la robustez y la interpretabilidad de la detección, sino que también logran un rendimiento de vanguardia: DAAMAudioCNNLSTM con un puntaje F1 macro de 0.702 y DAAMAudioTransformer con un puntaje F1 macro de 0.72 en el conjunto de datos DAIC-WOZ, sin depender de información adicional como posiciones de vocales e información del hablante durante el entrenamiento/validación, como en enfoques anteriores. La notable explicabilidad y eficiencia de ambos modelos en el aprovechamiento de señales de habla para la detección de la depresión representan un avance hacia herramientas diagnósticas más confiables y útiles clínicamente, prometiendo avances en el cuidado de la salud mental y del habla. Para fomentar una mayor investigación en este ámbito, ponemos nuestro código a disposición del público.

Saber cuándo fusionar: Investigando la recuperación híbrida en idiomas no ingleses en el ámbito legal.
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Sep 2

ByAntoine Louis, Gijs van Dijck, Gerasimos Spanakis

La búsqueda híbrida ha surgido como una estrategia efectiva para contrarrestar las limitaciones de diferentes paradigmas de coincidencia, especialmente en contextos fuera del dominio donde se han observado mejoras notables en la calidad de recuperación. Sin embargo, la investigación existente se centra predominantemente en un conjunto limitado de métodos de recuperación, evaluados en pares en conjuntos de datos de dominio general exclusivamente en inglés. En este trabajo, estudiamos la eficacia de la búsqueda híbrida a través de una variedad de modelos prominentes de recuperación dentro del campo inexplorado del derecho en el idioma francés, evaluando tanto escenarios de cero disparo como de dominio. Nuestros hallazgos revelan que en un contexto de cero disparo, la fusión de diferentes modelos de dominio general mejora consistentemente el rendimiento en comparación con el uso de un modelo independiente, independientemente del método de fusión. Sorprendentemente, cuando los modelos se entrenan en dominio, encontramos que la fusión generalmente disminuye el rendimiento en relación con el uso del mejor sistema único, a menos que se fusionen las puntuaciones con pesos cuidadosamente ajustados. Estas nuevas perspectivas, entre otras, amplían la aplicabilidad de hallazgos anteriores en un nuevo campo y idioma, y contribuyen a una comprensión más profunda de la búsqueda híbrida en dominios especializados no ingleses.

El conjunto de datos MERIT: Modelado y Renderizado Eficiente de Transcripciones Interpretables
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Aug 31

ByI. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez

Este documento presenta el Conjunto de Datos MERIT, un conjunto de datos multimodal (texto + imagen + diseño) completamente etiquetado en el contexto de informes escolares. Con más de 400 etiquetas y 33k muestras, el Conjunto de Datos MERIT es un recurso valioso para entrenar modelos en tareas exigentes de Comprensión de Documentos Visualmente Ricos (VrDU). Por su naturaleza (informes de calificaciones de estudiantes), el Conjunto de Datos MERIT puede potencialmente incluir sesgos de manera controlada, convirtiéndolo en una herramienta valiosa para evaluar los sesgos inducidos en Modelos de Lenguaje (LLMs). El documento describe el proceso de generación del conjunto de datos y destaca sus principales características en los dominios textual, visual, de diseño y de sesgo. Para demostrar la utilidad del conjunto de datos, presentamos un punto de referencia con modelos de clasificación de tokens, mostrando que el conjunto de datos plantea un desafío significativo incluso para los modelos de última generación y que estos se beneficiarían enormemente al incluir muestras del Conjunto de Datos MERIT en su fase de preentrenamiento.

PrivacyLens: Evaluando la Conciencia de Normas de Privacidad de Modelos de Lenguaje en Acción
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Aug 29

ByYijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang

Dado que los modelos de lenguaje (LMs) se utilizan ampliamente en escenarios de comunicación personalizada (por ejemplo, enviar correos electrónicos, escribir publicaciones en redes sociales) y están dotados de cierto nivel de agencia, garantizar que actúen de acuerdo con las normas de privacidad contextual se vuelve cada vez más crítico. Sin embargo, cuantificar la conciencia de las normas de privacidad de los LMs y el riesgo de privacidad emergente en la comunicación mediada por LM es un desafío debido a (1) la naturaleza contextual y de larga cola de los casos sensibles a la privacidad, y (2) la falta de enfoques de evaluación que capturen escenarios de aplicación realistas. Para abordar estos desafíos, proponemos PrivacyLens, un marco novedoso diseñado para extender semillas sensibles a la privacidad en viñetas expresivas y luego en trayectorias de agentes, lo que permite la evaluación multinivel de la fuga de privacidad en las acciones de agentes de LM. Implementamos PrivacyLens con una colección de normas de privacidad fundamentadas en la literatura de privacidad y semillas obtenidas mediante crowdsourcing. Utilizando este conjunto de datos, revelamos una discrepancia entre el rendimiento de los LM al responder preguntas de sondeo y su comportamiento real al ejecutar instrucciones de usuario en una configuración de agente. Los LMs de última generación, como GPT-4 y Llama-3-70B, filtran información sensible en un 25.68% y un 38.69% de los casos, incluso cuando se les solicita con instrucciones que mejoran la privacidad. También demostramos la naturaleza dinámica de PrivacyLens al extender cada semilla en múltiples trayectorias para evaluar el riesgo de fuga de privacidad de LM. El conjunto de datos y el código están disponibles en https://github.com/SALT-NLP/PrivacyLens.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Teoría general de OCR: Hacia OCR-2.0 a través de un Modelo Unificado de Extremo a Extremo
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang