Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

ROCKET-1: Dominio de la Interacción en Mundo Abierto con Contexto Visual-Temporal Estímulo
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

Oct 23

ByShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang

Los modelos visión-lenguaje (VLMs) han destacado en tareas multimodales, pero adaptarlos a la toma de decisiones incorporada en entornos de mundo abierto presenta desafíos. Un problema clave es la dificultad de conectar de manera fluida entidades individuales en observaciones de bajo nivel con conceptos abstractos necesarios para la planificación. Un enfoque común para abordar este problema es a través del uso de agentes jerárquicos, donde los VLMs actúan como razonadores de alto nivel que desglosan tareas en subtareas ejecutables, generalmente especificadas utilizando lenguaje y observaciones imaginadas. Sin embargo, el lenguaje a menudo no logra transmitir eficazmente información espacial, mientras que generar imágenes futuras con suficiente precisión sigue siendo un desafío. Para abordar estas limitaciones, proponemos el estímulo de contexto visual-temporal, un protocolo de comunicación novedoso entre VLMs y modelos de política. Este protocolo aprovecha la segmentación de objetos tanto de observaciones pasadas como presentes para guiar las interacciones política-entorno. Utilizando este enfoque, entrenamos ROCKET-1, una política de bajo nivel que predice acciones basadas en observaciones visuales concatenadas y máscaras de segmentación, con seguimiento de objetos en tiempo real proporcionado por SAM-2. Nuestro método desbloquea el potencial completo de las habilidades de razonamiento visual-lenguaje de los VLMs, permitiéndoles resolver tareas creativas complejas, especialmente aquellas que dependen en gran medida de la comprensión espacial. Experimentos en Minecraft demuestran que nuestro enfoque permite a los agentes realizar tareas previamente inalcanzables, destacando la efectividad del estímulo de contexto visual-temporal en la toma de decisiones incorporada. Los códigos y demos estarán disponibles en la página del proyecto: https://craftjarvis.github.io/ROCKET-1.

Síntesis de habla continua utilizando Difusión Latente por Token.
Continuous Speech Synthesis using per-token Latent Diffusion

Oct 21

ByArnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel

El éxito de los modelos transformadores autoregresivos con tokens discretos ha inspirado enfoques basados en cuantificación para modalidades continuas, aunque a menudo limitan la calidad de la reconstrucción. Por lo tanto, presentamos SALAD, un modelo de difusión latente por token para conversión de texto a voz sin entrenamiento previo, que opera con representaciones continuas. SALAD se basa en la cabeza de difusión expresiva propuesta recientemente para generación de imágenes, y la extiende para producir salidas de longitud variable. Nuestro enfoque utiliza tokens semánticos para proporcionar información contextual y determinar la condición de detención. Proponemos tres variantes continuas para nuestro método, ampliando técnicas populares de síntesis de voz discreta. Además, implementamos líneas de base discretas para cada variante y realizamos un análisis comparativo de técnicas de modelado de voz discretas versus continuas. Nuestros resultados demuestran que tanto los enfoques continuos como los discretos son altamente competentes, y que SALAD logra una puntuación de inteligibilidad superior mientras obtiene calidad de voz y similitud de locutor al nivel del audio de referencia.

Enseñar a los LLMs Multimodales a Comprender Imágenes Electrocardiográficas
Teach Multimodal LLMs to Comprehend Electrocardiographic Images

Oct 21

ByRuoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang

El electrocardiograma (ECG) es una herramienta diagnóstica esencial no invasiva para evaluar condiciones cardíacas. Los métodos automáticos de interpretación existentes sufren de una generalización limitada, centrándose en un rango estrecho de condiciones cardíacas y típicamente dependen de señales fisiológicas crudas, que pueden no estar fácilmente disponibles en entornos con recursos limitados donde solo se pueden acceder a imágenes de ECG impresas o digitales. Los avances recientes en modelos de lenguaje grandes multimodales (MLLMs) presentan oportunidades prometedoras para abordar estos desafíos. Sin embargo, la aplicación de MLLMs a la interpretación de imágenes de ECG sigue siendo desafiante debido a la falta de conjuntos de datos de ajuste de instrucciones y benchmarks de imágenes de ECG bien establecidos para evaluación cuantitativa. Para abordar estos desafíos, presentamos ECGInstruct, un conjunto de datos de ajuste de instrucciones de imágenes de ECG completo con más de un millón de muestras, que cubre una amplia gama de tareas relacionadas con ECG de diversas fuentes de datos. Utilizando ECGInstruct, desarrollamos PULSE, un MLLM adaptado para la comprensión de imágenes de ECG. Además, creamos ECGBench, un nuevo benchmark de evaluación que cubre cuatro tareas clave de interpretación de imágenes de ECG en nueve conjuntos de datos diferentes. Nuestros experimentos muestran que PULSE establece un nuevo estado del arte, superando a los MLLMs generales con una mejora promedio de precisión del 15% al 30%. Este trabajo destaca el potencial de PULSE para mejorar la interpretación de ECG en la práctica clínica.

MMAU: Un Banco de Pruebas Masivo de Comprendimiento y Razonamiento de Audio Multitarea
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Oct 24

ByS Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

La capacidad de comprender audio, que incluye habla, sonidos no verbales y música, es crucial para que los agentes de IA interactúen de manera efectiva con el mundo. Presentamos MMAU, un nuevo punto de referencia diseñado para evaluar modelos de comprensión de audio multimodal en tareas que requieren conocimientos de nivel experto y razonamiento complejo. MMAU consta de 10k clips de audio cuidadosamente seleccionados emparejados con preguntas y respuestas en lenguaje natural anotadas por humanos que abarcan habla, sonidos ambientales y música. Incluye preguntas de extracción de información y razonamiento, que requieren que los modelos demuestren 27 habilidades distintas en tareas únicas y desafiantes. A diferencia de los puntos de referencia existentes, MMAU enfatiza la percepción y el razonamiento avanzados con conocimientos específicos del dominio, desafiando a los modelos a abordar tareas similares a las enfrentadas por expertos. Evaluamos 18 modelos de audio-lenguaje (Grandes) de código abierto y propietarios, demostrando los desafíos significativos planteados por MMAU. Notablemente, incluso el más avanzado Gemini Pro v1.5 logra solo un 52.97% de precisión, y el estado del arte de código abierto Qwen2-Audio logra solo un 52.50%, resaltando un considerable margen para mejorar. Creemos que MMAU impulsará a la comunidad de investigación de audio y multimodal a desarrollar modelos de comprensión de audio más avanzados capaces de resolver tareas de audio complejas.

FasterCache: Aceleración de Modelos de Difusión de Video sin Entrenamiento con Alta Calidad
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Oct 25

ByZhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

En este documento, presentamos \textit{FasterCache}, una estrategia novedosa sin entrenamiento diseñada para acelerar la inferencia de modelos de difusión de video con generación de alta calidad. Al analizar los métodos existentes basados en caché, observamos que reutilizar directamente características de pasos adyacentes degrada la calidad del video debido a la pérdida de variaciones sutiles. Realizamos además una investigación pionera sobre el potencial de aceleración de la guía sin clasificador (CFG, por sus siglas en inglés) y revelamos una redundancia significativa entre características condicionales y no condicionales dentro del mismo paso de tiempo. Aprovechando estas observaciones, introducimos FasterCache para acelerar sustancialmente la generación de video basada en difusión. Nuestras contribuciones clave incluyen una estrategia dinámica de reutilización de características que preserva tanto la distinción de características como la continuidad temporal, y CFG-Cache que optimiza la reutilización de salidas condicionales y no condicionales para mejorar aún más la velocidad de inferencia sin comprometer la calidad del video. Evaluamos empíricamente FasterCache en modelos recientes de difusión de video. Los resultados experimentales muestran que FasterCache puede acelerar significativamente la generación de video (por ejemplo, 1.67 veces más rápido en Vchitect-2.0) manteniendo una calidad de video comparable al valor base, y superando consistentemente a los métodos existentes tanto en velocidad de inferencia como en calidad de video.

Infinity-MM: Escalando el Rendimiento Multimodal con Datos de Instrucción a Gran Escala y de Alta Calidad
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Oct 24

ByShuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu

Los Modelos Visión-Lenguaje (VLMs) han avanzado significativamente recientemente, pero la escala limitada y la calidad de los datos de instrucción de código abierto obstaculizan su rendimiento en comparación con los modelos de código cerrado. En este trabajo, abordamos esta limitación presentando Infinity-MM, un conjunto de datos de instrucciones multimodal a gran escala con 40 millones de muestras, mejorado a través de un riguroso filtrado de calidad y deduplicación. También proponemos un método de generación de instrucciones sintéticas basado en VLMs de código abierto, utilizando anotaciones detalladas de imágenes y una generación diversa de preguntas. Utilizando estos datos, entrenamos un VLM de 2 mil millones de parámetros, Aquila-VL-2B, logrando un rendimiento de última generación (SOTA) para modelos de escala similar. Esto demuestra que ampliar los datos de instrucción y generar datos sintéticos puede mejorar significativamente el rendimiento de los modelos de código abierto.

¿Son los LLMs mejores de lo reportado? Detectando errores de etiquetado y mitigando su efecto en el rendimiento del modelo
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

Oct 24

ByOmer Nahum, Nitay Calderon, Orgad Keller, Idan Szpektor, Roi Reichart

Los puntos de referencia de PNL se basan en conjuntos de datos estandarizados para entrenar y evaluar modelos, siendo cruciales para avanzar en el campo. Tradicionalmente, las anotaciones de expertos garantizan etiquetas de alta calidad; sin embargo, el costo de la anotación experta no escala bien con la creciente demanda de conjuntos de datos más grandes requeridos por los modelos modernos. Si bien la externalización a través de la multitud proporciona una solución más escalable, a menudo se hace a expensas de la precisión y consistencia de las anotaciones. Los avances recientes en modelos de lenguaje grandes (LLMs) ofrecen nuevas oportunidades para mejorar el proceso de anotación, especialmente para detectar errores de etiquetado en conjuntos de datos existentes. En este trabajo, consideramos el enfoque reciente de LLM-como-juez, aprovechando un conjunto de LLMs para señalar ejemplos potencialmente mal etiquetados. A través de un estudio de caso de cuatro conjuntos de datos del benchmark TRUE, que abarcan diferentes tareas y dominios, analizamos empíricamente la calidad del etiquetado de conjuntos de datos existentes, y comparamos las anotaciones de expertos, externalizadas a través de la multitud y nuestras anotaciones basadas en LLM en términos de acuerdo, calidad de etiqueta y eficiencia, demostrando las fortalezas y limitaciones de cada método de anotación. Nuestros hallazgos revelan un número sustancial de errores de etiquetado, que, una vez corregidos, generan un aumento significativo en el rendimiento del modelo informado. Esto sugiere que muchos de los llamados errores de los LLM se deben a errores de etiquetado en lugar de fallas genuinas del modelo. Además, discutimos las implicaciones de los datos mal etiquetados y proponemos métodos para mitigarlos en el entrenamiento para mejorar el rendimiento del modelo.

Lea-ME: Refactorización de LLMs como Mezcla de Expertos Desacoplada de Enrutador con Diseño de Sistema
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

Oct 24

ByRuisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang

La proliferación de grandes modelos de lenguaje (LLMs) ha llevado a la adopción de arquitecturas de Mezcla de Expertos (MoE) que aprovechan dinámicamente subredes especializadas para mejorar la eficiencia y el rendimiento. A pesar de sus beneficios, los modelos MoE enfrentan desafíos significativos durante la inferencia, incluida una gestión ineficiente de la memoria y lotificación subóptima, debido a decisiones de diseño desalineadas entre la arquitectura del modelo y las políticas del sistema. Además, el enfoque convencional de entrenar MoEs desde cero es cada vez más prohibitivo en términos de costos. En este documento, proponemos un nuevo marco, Read-ME, que transforma LLMs densos pre-entrenados en modelos MoE más pequeños (en contraste con "reciclar" MoEs generalistas), evitando los altos costos del entrenamiento desde cero. Nuestro enfoque emplea la dispersión de activación para extraer expertos. Para componer expertos, examinamos el diseño de enrutador por capas ampliamente adoptado y mostramos su redundancia, e introducimos el enrutador de pre-gating desacoplado de la estructura central de MoE que facilita la precomputación amigable para el sistema y la programación de anticipación, mejorando la lotificación y el almacenamiento en caché conscientes de los expertos. Nuestro diseño conjunto aborda brechas críticas tanto en los aspectos algorítmicos como en los del sistema, estableciendo una alternativa escalable y eficiente para la inferencia de LLM en entornos con recursos limitados. Read-ME supera a otros modelos densos de código abierto populares de escalas similares, logrando mejoras de hasta un 10.1% en MMLU y mejorando la latencia media de extremo a extremo hasta un 6.1%. Los códigos están disponibles en: https://github.com/VITA-Group/READ-ME.

Preferencias híbridas: Aprendiendo a enrutamiento de instancias para retroalimentación humana vs. de IA
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

Oct 24

ByLester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi

Aprender a partir de la retroalimentación humana ha permitido alinear los modelos de lenguaje (LM) con las preferencias humanas. Sin embargo, la recolección directa de preferencias humanas puede resultar costosa, consumir mucho tiempo y presentar una alta variabilidad. Una alternativa atractiva es destilar preferencias de los LMs como fuente de anotaciones sintéticas, ya que son más consistentes, económicas y escalan mejor que las anotaciones humanas; no obstante, también son propensas a sesgos y errores. En este trabajo, presentamos un marco de enrutamiento que combina las entradas de humanos y LMs para lograr una mejor calidad de anotación, al tiempo que se reduce el costo total de la anotación humana. La clave de nuestro enfoque es identificar instancias de preferencia que se beneficiarán de las anotaciones humanas. Formulamos esto como un problema de optimización: dada un conjunto de datos de preferencias y una métrica de evaluación, entrenamos un modelo de predicción de rendimiento para predecir el rendimiento de un modelo de recompensa en una combinación arbitraria de anotaciones humanas y de LM, y empleamos una estrategia de enrutamiento que selecciona una combinación que maximiza el rendimiento predicho. Entrenamos el modelo de predicción de rendimiento en MultiPref, un nuevo conjunto de datos de preferencias con 10K instancias emparejadas con etiquetas humanas y de LM. Mostramos que la mezcla híbrida seleccionada de preferencias de LM y humanas directas utilizando nuestro marco de enrutamiento logra un mejor rendimiento del modelo de recompensa en comparación con el uso exclusivo de uno u otro. Simulamos la recolección selectiva de preferencias humanas en otros tres conjuntos de datos y demostramos que nuestro método se generaliza bien a los tres. Analizamos las características del modelo de enrutamiento para identificar las características de las instancias que pueden beneficiarse de la retroalimentación humana, por ejemplo, indicaciones con una preocupación de seguridad moderada o una complejidad de intención moderada. Publicamos el conjunto de datos, la plataforma de anotación y el código fuente utilizados en este estudio para fomentar una recolección de preferencias más eficiente y precisa en el futuro.

Capacidad de Conteo de Modelos de Lenguaje Grandes y Impacto de la Tokenización
Counting Ability of Large Language Models and Impact of Tokenization

Oct 25

ByXiang Zhang, Juntai Cao, Chenyu You

Los Transformers, la columna vertebral de los modernos modelos de lenguaje grandes (LLMs), enfrentan limitaciones arquitectónicas inherentes que obstaculizan sus capacidades de razonamiento. A diferencia de las redes recurrentes, los Transformers carecen de conexiones recurrentes, lo que los confina a una computación de profundidad constante. Esta restricción los sitúa en la clase de complejidad TC^0, lo que teóricamente los hace incapaces de resolver tareas que requieran un razonamiento cada vez más profundo a medida que crece la longitud de entrada. El conteo, un componente fundamental de muchas tareas de razonamiento, también requiere que la profundidad de razonamiento crezca linealmente para realizarse de manera inductiva. Si bien estudios previos han establecido los límites superiores de la capacidad de conteo en modelos expertos basados en Transformers (es decir, modelos específicamente entrenados para tareas de conteo), estos hallazgos no se extienden directamente a los LLMs de propósito general debido a diferencias en los mecanismos de razonamiento. Trabajos recientes han resaltado cómo el razonamiento en Cadena de Pensamiento (CoT) puede ayudar a aliviar algunas de las limitaciones arquitectónicas de los Transformers en tareas de conteo. Sin embargo, se ha prestado poca atención al papel de la tokenización en estos modelos. A diferencia de los modelos expertos que a menudo utilizan tokenización a nivel de caracteres, los LLMs suelen depender de tokenizadores a nivel de bytes (BPE), lo que altera fundamentalmente la forma en que se procesa el razonamiento. Nuestro trabajo investiga el impacto de la tokenización en las habilidades de conteo de los LLMs, descubriendo variaciones de rendimiento sustanciales basadas en diferencias de tokenización de entrada. Proporcionamos análisis teóricos y experimentales, ofreciendo ideas sobre cómo las elecciones de tokenización pueden socavar la computabilidad teórica de los modelos, inspirando así el diseño de nuevos métodos de tokenización para mejorar el razonamiento en los LLMs.

Los datos sintéticos ficticios pueden mejorar la factualidad de LLM a través del aprendizaje previo.
Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning

Oct 25

ByYujian Liu, Shiyu Chang, Tommi Jaakkola, Yang Zhang

Estudios recientes han identificado un factor agravante de las alucinaciones de LLM como la inconsistencia de conocimiento entre el pre-entrenamiento y el ajuste fino, donde datos de ajuste fino no familiares llevan al LLM a fabricar salidas plausibles pero incorrectas. En este documento, proponemos una nueva estrategia de ajuste fino llamada Prereq-Tune para abordar esta inconsistencia de conocimiento y reducir las alucinaciones. Fundamentalmente, Prereq-Tune desenreda el aprendizaje de habilidades y conocimiento, de modo que el modelo aprende solo las habilidades de la tarea sin ser afectado por la inconsistencia de conocimiento. Para lograr esto, Prereq-Tune introduce una etapa adicional de aprendizaje de requisitos previos para aprender el conocimiento necesario para SFT, permitiendo que el SFT subsiguiente se enfoque solo en las habilidades de la tarea. Prereq-Tune también puede combinarse con datos sintéticos ficticios para mejorar la fundamentación de las salidas de LLM en su conocimiento interno. Los experimentos muestran que Prereq-Tune supera a las líneas de base existentes en la mejora de la factualidad de LLM en tareas de preguntas y respuestas cortas y generación de texto extenso. También abre nuevas posibilidades para la generación controlada por conocimiento en LLMs. Nuestro código está disponible en https://github.com/UCSB-NLP-Chang/Prereq_tune.git.

Análisis del Flujo Residual de Modelos de Lenguaje ante Conflictos de Conocimiento.
Analysing the Residual Stream of Language Models Under Knowledge Conflicts

Oct 21

ByYu Zhao, Xiaotang Du, Giwon Hong, Aryo Pradipta Gema, Alessio Devoto, Hongru Wang, Xuanli He, Kam-Fai Wong, Pasquale Minervini

Los modelos de lenguaje grandes (LLMs) pueden almacenar una cantidad significativa de conocimiento factual en sus parámetros. Sin embargo, su conocimiento paramétrico puede entrar en conflicto con la información proporcionada en el contexto. Estos conflictos pueden llevar a un comportamiento no deseado del modelo, como depender de información desactualizada o incorrecta. En este trabajo, investigamos si los LLMs pueden identificar conflictos de conocimiento y si es posible saber en qué fuente de conocimiento se basará el modelo analizando el flujo residual del LLM. A través de tareas de exploración, descubrimos que los LLMs pueden registrar internamente la señal de conflicto de conocimiento en el flujo residual, lo cual puede ser detectado con precisión mediante la exploración de las activaciones intermedias del modelo. Esto nos permite detectar conflictos dentro del flujo residual antes de generar las respuestas sin modificar la entrada o los parámetros del modelo. Además, observamos que el flujo residual muestra patrones significativamente diferentes cuando el modelo se basa en conocimiento contextual en lugar de conocimiento paramétrico para resolver conflictos. Este patrón puede ser utilizado para estimar el comportamiento de los LLMs cuando ocurre un conflicto y prevenir respuestas inesperadas antes de producir las respuestas. Nuestro análisis ofrece información sobre cómo los LLMs gestionan internamente los conflictos de conocimiento y sienta las bases para desarrollar métodos para controlar los procesos de selección de conocimiento.

Reflection-Bench: explorando la inteligencia de la IA a través de la reflexión
Reflection-Bench: probing AI intelligence with reflection

Oct 21

ByLingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang

La capacidad de adaptar creencias o comportamientos en respuesta a resultados inesperados, la reflexión, es fundamental para la interacción de los sistemas inteligentes con el mundo. Desde una perspectiva de ciencia cognitiva, esto sirve como un principio central de inteligencia aplicable tanto a sistemas humanos como de IA. Para abordar el debate sobre la inteligencia de los grandes modelos de lenguaje (LLMs), proponemos Reflection-Bench, un banco de pruebas integral que consta de 7 tareas que abarcan funciones cognitivas básicas cruciales para la reflexión, incluyendo percepción, memoria, actualización de creencias, toma de decisiones, predicción, pensamiento contrafáctico y meta-reflexión. Evaluamos el rendimiento de 13 LLMs prominentes como OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. Los resultados indican que los LLMs actuales aún carecen de una capacidad de reflexión satisfactoria. Discutimos las causas subyacentes de estos resultados y sugerimos posibles vías para investigaciones futuras. En conclusión, Reflection-Bench ofrece tanto herramientas de evaluación como inspiración para desarrollar IA capaces de interactuar de manera confiable con el entorno. Nuestros datos y código están disponibles en https://github.com/YabYum/ReflectionBench.

Mapeando el Paisaje Mediático: Prediciendo la Cobertura Factual y el Sesgo Político a Través de Interacciones en la Web
Mapping the Media Landscape: Predicting Factual Reporting and Political Bias Through Web Interactions

Oct 23

ByDairazalia Sánchez-Cortés, Sergio Burdisso, Esaú Villatoro-Tello, Petr Motlicek

La evaluación de sesgos en las fuentes de noticias es fundamental para profesionales, organizaciones e investigadores que dependen de pruebas verídicas para la recopilación y reporte de información. Si bien ciertos indicadores de sesgo son discernibles a través del análisis de contenido, descriptores como sesgo político y noticias falsas plantean desafíos mayores. En este artículo, proponemos una extensión a un método de estimación de confiabilidad de medios de comunicación recientemente presentado que se enfoca en modelar los medios y sus interacciones web longitudinales. Concretamente, evaluamos el rendimiento de clasificación de cuatro estrategias de aprendizaje por refuerzo en un grafo de hiperenlaces de medios de comunicación de noticias grande. Nuestros experimentos, dirigidos a dos descriptores de sesgo desafiantes, reporte factual y sesgo político, mostraron una mejora significativa en el rendimiento a nivel de los medios de origen. Además, validamos nuestros métodos en el desafío del laboratorio CheckThat! de CLEF 2023, superando los resultados informados en ambos, el puntaje F1 y la métrica MAE oficial. Además, contribuimos liberando el conjunto de datos anotado más grande de medios de comunicación de fuentes de noticias, categorizados con etiquetas de reporte factual y sesgo político. Nuestros hallazgos sugieren que perfilar las fuentes de medios de comunicación basándose en sus interacciones de hiperenlaces a lo largo del tiempo es factible, ofreciendo una visión general de los paisajes mediáticos en evolución.

Seguimiento gaussiano 3D dinámico para modelado de dinámicas neuronales basado en grafos.
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling

Oct 24

ByMingtong Zhang, Kaifeng Zhang, Yunzhu Li

Los videos de robots interactuando con objetos codifican información detallada sobre la dinámica de los objetos. Sin embargo, los enfoques existentes de predicción de videos generalmente no tienen en cuenta explícitamente la información tridimensional de los videos, como las acciones del robot y los estados tridimensionales de los objetos, lo que limita su uso en aplicaciones robóticas del mundo real. En este trabajo, presentamos un marco para aprender la dinámica de objetos directamente a partir de videos RGB de múltiples vistas considerando explícitamente las trayectorias de acción del robot y sus efectos en la dinámica de la escena. Utilizamos la representación gaussiana 3D del Splatting Gaussiano 3D (3DGS) para entrenar un modelo de dinámica basado en partículas utilizando Redes Neuronales de Grafos. Este modelo opera en partículas de control dispersas muestreadas de las reconstrucciones gaussianas 3D rastreadas densamente. Al aprender el modelo de dinámica neuronal con datos de interacción de robots sin conexión, nuestro método puede predecir los movimientos de objetos bajo configuraciones iniciales variables y acciones de robot no vistas. Las transformaciones 3D de las gaussianas pueden interpolarse a partir de los movimientos de las partículas de control, lo que permite la representación de estados futuros predichos de objetos y logra una predicción de video condicionada por la acción. El modelo de dinámica también se puede aplicar a marcos de planificación basados en modelos para tareas de manipulación de objetos. Realizamos experimentos con varios tipos de materiales deformables, incluyendo cuerdas, ropa y peluches, demostrando la capacidad de nuestro marco para modelar formas y dinámicas complejas. Nuestra página del proyecto está disponible en https://gs-dynamics.github.io.

Aprovechando habilidades de datos previos no etiquetados para una exploración en línea eficiente.
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Oct 23

ByMax Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine

El preentrenamiento no supervisado ha sido transformador en muchos dominios supervisados. Sin embargo, aplicar tales ideas al aprendizaje por refuerzo (RL) presenta un desafío único en el sentido de que el ajuste fino no implica imitar datos específicos de la tarea, sino explorar y localizar la solución a través de la auto-mejora iterativa. En este trabajo, estudiamos cómo los datos de trayectorias previas no etiquetados pueden ser aprovechados para aprender estrategias de exploración eficientes. Mientras que los datos previos pueden ser utilizados para preentrenar un conjunto de habilidades de bajo nivel, o como datos adicionales fuera de política para RL en línea, ha sido poco claro cómo combinar estas ideas de manera efectiva para la exploración en línea. Nuestro método SUPE (Habilidades de Datos Previos no Etiquetados para Exploración) demuestra que una combinación cuidadosa de estas ideas potencia sus beneficios. Nuestro método primero extrae habilidades de bajo nivel utilizando un auto-codificador variacional (VAE), y luego pseudo-etiqueta trayectorias no etiquetadas utilizando un modelo de recompensa optimista, transformando los datos previos en ejemplos de alto nivel relevantes para la tarea. Finalmente, SUPE utiliza estos ejemplos transformados como datos adicionales fuera de política para RL en línea para aprender una política de alto nivel que compone habilidades de bajo nivel preentrenadas para explorar eficientemente. Demostramos empíricamente que SUPE supera de manera confiable las estrategias previas, resolviendo con éxito una serie de tareas de recompensa escasa a largo plazo. Código: https://github.com/rail-berkeley/supe.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

ROCKET-1: Dominio de la Interacción en Mundo Abierto con Contexto Visual-Temporal Estímulo
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

Oct 23

ByShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang

Síntesis de habla continua utilizando Difusión Latente por Token.
Continuous Speech Synthesis using per-token Latent Diffusion

Oct 21

ByArnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel

Enseñar a los LLMs Multimodales a Comprender Imágenes Electrocardiográficas
Teach Multimodal LLMs to Comprehend Electrocardiographic Images

Oct 21

ByRuoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang

MMAU: Un Banco de Pruebas Masivo de Comprendimiento y Razonamiento de Audio Multitarea
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Oct 24

ByS Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

FasterCache: Aceleración de Modelos de Difusión de Video sin Entrenamiento con Alta Calidad
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Oct 25

ByZhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

Infinity-MM: Escalando el Rendimiento Multimodal con Datos de Instrucción a Gran Escala y de Alta Calidad
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Oct 24

¿Son los LLMs mejores de lo reportado? Detectando errores de etiquetado y mitigando su efecto en el rendimiento del modelo
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

Oct 24

ByOmer Nahum, Nitay Calderon, Orgad Keller, Idan Szpektor, Roi Reichart

Lea-ME: Refactorización de LLMs como Mezcla de Expertos Desacoplada de Enrutador con Diseño de Sistema
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

Oct 24

ByRuisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang

Preferencias híbridas: Aprendiendo a enrutamiento de instancias para retroalimentación humana vs. de IA
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

Oct 24

ByLester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi