Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos visión-lenguaje (VLMs) han destacado en tareas multimodales, pero adaptarlos a la toma de decisiones incorporada en entornos de mundo abierto presenta desafíos. Un problema clave es la dificultad de conectar de manera fluida entidades individuales en observaciones de bajo nivel con conceptos abstractos necesarios para la planificación. Un enfoque común para abordar este problema es a través del uso de agentes jerárquicos, donde los VLMs actúan como razonadores de alto nivel que desglosan tareas en subtareas ejecutables, generalmente especificadas utilizando lenguaje y observaciones imaginadas. Sin embargo, el lenguaje a menudo no logra transmitir eficazmente información espacial, mientras que generar imágenes futuras con suficiente precisión sigue siendo un desafío. Para abordar estas limitaciones, proponemos el estímulo de contexto visual-temporal, un protocolo de comunicación novedoso entre VLMs y modelos de política. Este protocolo aprovecha la segmentación de objetos tanto de observaciones pasadas como presentes para guiar las interacciones política-entorno. Utilizando este enfoque, entrenamos ROCKET-1, una política de bajo nivel que predice acciones basadas en observaciones visuales concatenadas y máscaras de segmentación, con seguimiento de objetos en tiempo real proporcionado por SAM-2. Nuestro método desbloquea el potencial completo de las habilidades de razonamiento visual-lenguaje de los VLMs, permitiéndoles resolver tareas creativas complejas, especialmente aquellas que dependen en gran medida de la comprensión espacial. Experimentos en Minecraft demuestran que nuestro enfoque permite a los agentes realizar tareas previamente inalcanzables, destacando la efectividad del estímulo de contexto visual-temporal en la toma de decisiones incorporada. Los códigos y demos estarán disponibles en la página del proyecto: https://craftjarvis.github.io/ROCKET-1.
El éxito de los modelos transformadores autoregresivos con tokens discretos ha inspirado enfoques basados en cuantificación para modalidades continuas, aunque a menudo limitan la calidad de la reconstrucción. Por lo tanto, presentamos SALAD, un modelo de difusión latente por token para conversión de texto a voz sin entrenamiento previo, que opera con representaciones continuas. SALAD se basa en la cabeza de difusión expresiva propuesta recientemente para generación de imágenes, y la extiende para producir salidas de longitud variable. Nuestro enfoque utiliza tokens semánticos para proporcionar información contextual y determinar la condición de detención. Proponemos tres variantes continuas para nuestro método, ampliando técnicas populares de síntesis de voz discreta. Además, implementamos líneas de base discretas para cada variante y realizamos un análisis comparativo de técnicas de modelado de voz discretas versus continuas. Nuestros resultados demuestran que tanto los enfoques continuos como los discretos son altamente competentes, y que SALAD logra una puntuación de inteligibilidad superior mientras obtiene calidad de voz y similitud de locutor al nivel del audio de referencia.
El electrocardiograma (ECG) es una herramienta diagnóstica esencial no invasiva para evaluar condiciones cardíacas. Los métodos automáticos de interpretación existentes sufren de una generalización limitada, centrándose en un rango estrecho de condiciones cardíacas y típicamente dependen de señales fisiológicas crudas, que pueden no estar fácilmente disponibles en entornos con recursos limitados donde solo se pueden acceder a imágenes de ECG impresas o digitales. Los avances recientes en modelos de lenguaje grandes multimodales (MLLMs) presentan oportunidades prometedoras para abordar estos desafíos. Sin embargo, la aplicación de MLLMs a la interpretación de imágenes de ECG sigue siendo desafiante debido a la falta de conjuntos de datos de ajuste de instrucciones y benchmarks de imágenes de ECG bien establecidos para evaluación cuantitativa. Para abordar estos desafíos, presentamos ECGInstruct, un conjunto de datos de ajuste de instrucciones de imágenes de ECG completo con más de un millón de muestras, que cubre una amplia gama de tareas relacionadas con ECG de diversas fuentes de datos. Utilizando ECGInstruct, desarrollamos PULSE, un MLLM adaptado para la comprensión de imágenes de ECG. Además, creamos ECGBench, un nuevo benchmark de evaluación que cubre cuatro tareas clave de interpretación de imágenes de ECG en nueve conjuntos de datos diferentes. Nuestros experimentos muestran que PULSE establece un nuevo estado del arte, superando a los MLLMs generales con una mejora promedio de precisión del 15% al 30%. Este trabajo destaca el potencial de PULSE para mejorar la interpretación de ECG en la práctica clínica.
En este documento, presentamos \textit{FasterCache}, una estrategia novedosa sin entrenamiento diseñada para acelerar la inferencia de modelos de difusión de video con generación de alta calidad. Al analizar los métodos existentes basados en caché, observamos que reutilizar directamente características de pasos adyacentes degrada la calidad del video debido a la pérdida de variaciones sutiles. Realizamos además una investigación pionera sobre el potencial de aceleración de la guía sin clasificador (CFG, por sus siglas en inglés) y revelamos una redundancia significativa entre características condicionales y no condicionales dentro del mismo paso de tiempo. Aprovechando estas observaciones, introducimos FasterCache para acelerar sustancialmente la generación de video basada en difusión. Nuestras contribuciones clave incluyen una estrategia dinámica de reutilización de características que preserva tanto la distinción de características como la continuidad temporal, y CFG-Cache que optimiza la reutilización de salidas condicionales y no condicionales para mejorar aún más la velocidad de inferencia sin comprometer la calidad del video. Evaluamos empíricamente FasterCache en modelos recientes de difusión de video. Los resultados experimentales muestran que FasterCache puede acelerar significativamente la generación de video (por ejemplo, 1.67 veces más rápido en Vchitect-2.0) manteniendo una calidad de video comparable al valor base, y superando consistentemente a los métodos existentes tanto en velocidad de inferencia como en calidad de video.
La capacidad de comprender audio, que incluye habla, sonidos no verbales y música, es crucial para que los agentes de IA interactúen de manera efectiva con el mundo. Presentamos MMAU, un nuevo punto de referencia diseñado para evaluar modelos de comprensión de audio multimodal en tareas que requieren conocimientos de nivel experto y razonamiento complejo. MMAU consta de 10k clips de audio cuidadosamente seleccionados emparejados con preguntas y respuestas en lenguaje natural anotadas por humanos que abarcan habla, sonidos ambientales y música. Incluye preguntas de extracción de información y razonamiento, que requieren que los modelos demuestren 27 habilidades distintas en tareas únicas y desafiantes. A diferencia de los puntos de referencia existentes, MMAU enfatiza la percepción y el razonamiento avanzados con conocimientos específicos del dominio, desafiando a los modelos a abordar tareas similares a las enfrentadas por expertos. Evaluamos 18 modelos de audio-lenguaje (Grandes) de código abierto y propietarios, demostrando los desafíos significativos planteados por MMAU. Notablemente, incluso el más avanzado Gemini Pro v1.5 logra solo un 52.97% de precisión, y el estado del arte de código abierto Qwen2-Audio logra solo un 52.50%, resaltando un considerable margen para mejorar. Creemos que MMAU impulsará a la comunidad de investigación de audio y multimodal a desarrollar modelos de comprensión de audio más avanzados capaces de resolver tareas de audio complejas.
Los Modelos Visión-Lenguaje (VLMs) han avanzado significativamente recientemente, pero la escala limitada y la calidad de los datos de instrucción de código abierto obstaculizan su rendimiento en comparación con los modelos de código cerrado. En este trabajo, abordamos esta limitación presentando Infinity-MM, un conjunto de datos de instrucciones multimodal a gran escala con 40 millones de muestras, mejorado a través de un riguroso filtrado de calidad y deduplicación. También proponemos un método de generación de instrucciones sintéticas basado en VLMs de código abierto, utilizando anotaciones detalladas de imágenes y una generación diversa de preguntas. Utilizando estos datos, entrenamos un VLM de 2 mil millones de parámetros, Aquila-VL-2B, logrando un rendimiento de última generación (SOTA) para modelos de escala similar. Esto demuestra que ampliar los datos de instrucción y generar datos sintéticos puede mejorar significativamente el rendimiento de los modelos de código abierto.
La proliferación de grandes modelos de lenguaje (LLMs) ha llevado a la adopción de arquitecturas de Mezcla de Expertos (MoE) que aprovechan dinámicamente subredes especializadas para mejorar la eficiencia y el rendimiento. A pesar de sus beneficios, los modelos MoE enfrentan desafíos significativos durante la inferencia, incluida una gestión ineficiente de la memoria y lotificación subóptima, debido a decisiones de diseño desalineadas entre la arquitectura del modelo y las políticas del sistema. Además, el enfoque convencional de entrenar MoEs desde cero es cada vez más prohibitivo en términos de costos. En este documento, proponemos un nuevo marco, Read-ME, que transforma LLMs densos pre-entrenados en modelos MoE más pequeños (en contraste con "reciclar" MoEs generalistas), evitando los altos costos del entrenamiento desde cero. Nuestro enfoque emplea la dispersión de activación para extraer expertos. Para componer expertos, examinamos el diseño de enrutador por capas ampliamente adoptado y mostramos su redundancia, e introducimos el enrutador de pre-gating desacoplado de la estructura central de MoE que facilita la precomputación amigable para el sistema y la programación de anticipación, mejorando la lotificación y el almacenamiento en caché conscientes de los expertos. Nuestro diseño conjunto aborda brechas críticas tanto en los aspectos algorítmicos como en los del sistema, estableciendo una alternativa escalable y eficiente para la inferencia de LLM en entornos con recursos limitados. Read-ME supera a otros modelos densos de código abierto populares de escalas similares, logrando mejoras de hasta un 10.1% en MMLU y mejorando la latencia media de extremo a extremo hasta un 6.1%. Los códigos están disponibles en: https://github.com/VITA-Group/READ-ME.
Los puntos de referencia de PNL se basan en conjuntos de datos estandarizados para entrenar y evaluar modelos, siendo cruciales para avanzar en el campo. Tradicionalmente, las anotaciones de expertos garantizan etiquetas de alta calidad; sin embargo, el costo de la anotación experta no escala bien con la creciente demanda de conjuntos de datos más grandes requeridos por los modelos modernos. Si bien la externalización a través de la multitud proporciona una solución más escalable, a menudo se hace a expensas de la precisión y consistencia de las anotaciones. Los avances recientes en modelos de lenguaje grandes (LLMs) ofrecen nuevas oportunidades para mejorar el proceso de anotación, especialmente para detectar errores de etiquetado en conjuntos de datos existentes. En este trabajo, consideramos el enfoque reciente de LLM-como-juez, aprovechando un conjunto de LLMs para señalar ejemplos potencialmente mal etiquetados. A través de un estudio de caso de cuatro conjuntos de datos del benchmark TRUE, que abarcan diferentes tareas y dominios, analizamos empíricamente la calidad del etiquetado de conjuntos de datos existentes, y comparamos las anotaciones de expertos, externalizadas a través de la multitud y nuestras anotaciones basadas en LLM en términos de acuerdo, calidad de etiqueta y eficiencia, demostrando las fortalezas y limitaciones de cada método de anotación. Nuestros hallazgos revelan un número sustancial de errores de etiquetado, que, una vez corregidos, generan un aumento significativo en el rendimiento del modelo informado. Esto sugiere que muchos de los llamados errores de los LLM se deben a errores de etiquetado en lugar de fallas genuinas del modelo. Además, discutimos las implicaciones de los datos mal etiquetados y proponemos métodos para mitigarlos en el entrenamiento para mejorar el rendimiento del modelo.
Los Transformers, la columna vertebral de los modernos modelos de lenguaje grandes (LLMs), enfrentan limitaciones arquitectónicas inherentes que obstaculizan sus capacidades de razonamiento. A diferencia de las redes recurrentes, los Transformers carecen de conexiones recurrentes, lo que los confina a una computación de profundidad constante. Esta restricción los sitúa en la clase de complejidad TC^0, lo que teóricamente los hace incapaces de resolver tareas que requieran un razonamiento cada vez más profundo a medida que crece la longitud de entrada. El conteo, un componente fundamental de muchas tareas de razonamiento, también requiere que la profundidad de razonamiento crezca linealmente para realizarse de manera inductiva. Si bien estudios previos han establecido los límites superiores de la capacidad de conteo en modelos expertos basados en Transformers (es decir, modelos específicamente entrenados para tareas de conteo), estos hallazgos no se extienden directamente a los LLMs de propósito general debido a diferencias en los mecanismos de razonamiento. Trabajos recientes han resaltado cómo el razonamiento en Cadena de Pensamiento (CoT) puede ayudar a aliviar algunas de las limitaciones arquitectónicas de los Transformers en tareas de conteo. Sin embargo, se ha prestado poca atención al papel de la tokenización en estos modelos. A diferencia de los modelos expertos que a menudo utilizan tokenización a nivel de caracteres, los LLMs suelen depender de tokenizadores a nivel de bytes (BPE), lo que altera fundamentalmente la forma en que se procesa el razonamiento. Nuestro trabajo investiga el impacto de la tokenización en las habilidades de conteo de los LLMs, descubriendo variaciones de rendimiento sustanciales basadas en diferencias de tokenización de entrada. Proporcionamos análisis teóricos y experimentales, ofreciendo ideas sobre cómo las elecciones de tokenización pueden socavar la computabilidad teórica de los modelos, inspirando así el diseño de nuevos métodos de tokenización para mejorar el razonamiento en los LLMs.
Aprender a partir de la retroalimentación humana ha permitido alinear los modelos de lenguaje (LM) con las preferencias humanas. Sin embargo, la recolección directa de preferencias humanas puede resultar costosa, consumir mucho tiempo y presentar una alta variabilidad. Una alternativa atractiva es destilar preferencias de los LMs como fuente de anotaciones sintéticas, ya que son más consistentes, económicas y escalan mejor que las anotaciones humanas; no obstante, también son propensas a sesgos y errores. En este trabajo, presentamos un marco de enrutamiento que combina las entradas de humanos y LMs para lograr una mejor calidad de anotación, al tiempo que se reduce el costo total de la anotación humana. La clave de nuestro enfoque es identificar instancias de preferencia que se beneficiarán de las anotaciones humanas. Formulamos esto como un problema de optimización: dada un conjunto de datos de preferencias y una métrica de evaluación, entrenamos un modelo de predicción de rendimiento para predecir el rendimiento de un modelo de recompensa en una combinación arbitraria de anotaciones humanas y de LM, y empleamos una estrategia de enrutamiento que selecciona una combinación que maximiza el rendimiento predicho. Entrenamos el modelo de predicción de rendimiento en MultiPref, un nuevo conjunto de datos de preferencias con 10K instancias emparejadas con etiquetas humanas y de LM. Mostramos que la mezcla híbrida seleccionada de preferencias de LM y humanas directas utilizando nuestro marco de enrutamiento logra un mejor rendimiento del modelo de recompensa en comparación con el uso exclusivo de uno u otro. Simulamos la recolección selectiva de preferencias humanas en otros tres conjuntos de datos y demostramos que nuestro método se generaliza bien a los tres. Analizamos las características del modelo de enrutamiento para identificar las características de las instancias que pueden beneficiarse de la retroalimentación humana, por ejemplo, indicaciones con una preocupación de seguridad moderada o una complejidad de intención moderada. Publicamos el conjunto de datos, la plataforma de anotación y el código fuente utilizados en este estudio para fomentar una recolección de preferencias más eficiente y precisa en el futuro.
Estudios recientes han identificado un factor agravante de las alucinaciones de LLM como la inconsistencia de conocimiento entre el pre-entrenamiento y el ajuste fino, donde datos de ajuste fino no familiares llevan al LLM a fabricar salidas plausibles pero incorrectas. En este documento, proponemos una nueva estrategia de ajuste fino llamada Prereq-Tune para abordar esta inconsistencia de conocimiento y reducir las alucinaciones. Fundamentalmente, Prereq-Tune desenreda el aprendizaje de habilidades y conocimiento, de modo que el modelo aprende solo las habilidades de la tarea sin ser afectado por la inconsistencia de conocimiento. Para lograr esto, Prereq-Tune introduce una etapa adicional de aprendizaje de requisitos previos para aprender el conocimiento necesario para SFT, permitiendo que el SFT subsiguiente se enfoque solo en las habilidades de la tarea. Prereq-Tune también puede combinarse con datos sintéticos ficticios para mejorar la fundamentación de las salidas de LLM en su conocimiento interno. Los experimentos muestran que Prereq-Tune supera a las líneas de base existentes en la mejora de la factualidad de LLM en tareas de preguntas y respuestas cortas y generación de texto extenso. También abre nuevas posibilidades para la generación controlada por conocimiento en LLMs. Nuestro código está disponible en https://github.com/UCSB-NLP-Chang/Prereq_tune.git.
Los modelos de lenguaje grandes (LLMs) pueden almacenar una cantidad significativa de conocimiento factual en sus parámetros. Sin embargo, su conocimiento paramétrico puede entrar en conflicto con la información proporcionada en el contexto. Estos conflictos pueden llevar a un comportamiento no deseado del modelo, como depender de información desactualizada o incorrecta. En este trabajo, investigamos si los LLMs pueden identificar conflictos de conocimiento y si es posible saber en qué fuente de conocimiento se basará el modelo analizando el flujo residual del LLM. A través de tareas de exploración, descubrimos que los LLMs pueden registrar internamente la señal de conflicto de conocimiento en el flujo residual, lo cual puede ser detectado con precisión mediante la exploración de las activaciones intermedias del modelo. Esto nos permite detectar conflictos dentro del flujo residual antes de generar las respuestas sin modificar la entrada o los parámetros del modelo. Además, observamos que el flujo residual muestra patrones significativamente diferentes cuando el modelo se basa en conocimiento contextual en lugar de conocimiento paramétrico para resolver conflictos. Este patrón puede ser utilizado para estimar el comportamiento de los LLMs cuando ocurre un conflicto y prevenir respuestas inesperadas antes de producir las respuestas. Nuestro análisis ofrece información sobre cómo los LLMs gestionan internamente los conflictos de conocimiento y sienta las bases para desarrollar métodos para controlar los procesos de selección de conocimiento.
Los videos de robots interactuando con objetos codifican información detallada sobre la dinámica de los objetos. Sin embargo, los enfoques existentes de predicción de videos generalmente no tienen en cuenta explícitamente la información tridimensional de los videos, como las acciones del robot y los estados tridimensionales de los objetos, lo que limita su uso en aplicaciones robóticas del mundo real. En este trabajo, presentamos un marco para aprender la dinámica de objetos directamente a partir de videos RGB de múltiples vistas considerando explícitamente las trayectorias de acción del robot y sus efectos en la dinámica de la escena. Utilizamos la representación gaussiana 3D del Splatting Gaussiano 3D (3DGS) para entrenar un modelo de dinámica basado en partículas utilizando Redes Neuronales de Grafos. Este modelo opera en partículas de control dispersas muestreadas de las reconstrucciones gaussianas 3D rastreadas densamente. Al aprender el modelo de dinámica neuronal con datos de interacción de robots sin conexión, nuestro método puede predecir los movimientos de objetos bajo configuraciones iniciales variables y acciones de robot no vistas. Las transformaciones 3D de las gaussianas pueden interpolarse a partir de los movimientos de las partículas de control, lo que permite la representación de estados futuros predichos de objetos y logra una predicción de video condicionada por la acción. El modelo de dinámica también se puede aplicar a marcos de planificación basados en modelos para tareas de manipulación de objetos. Realizamos experimentos con varios tipos de materiales deformables, incluyendo cuerdas, ropa y peluches, demostrando la capacidad de nuestro marco para modelar formas y dinámicas complejas. Nuestra página del proyecto está disponible en https://gs-dynamics.github.io.
La capacidad de adaptar creencias o comportamientos en respuesta a resultados inesperados, la reflexión, es fundamental para la interacción de los sistemas inteligentes con el mundo. Desde una perspectiva de ciencia cognitiva, esto sirve como un principio central de inteligencia aplicable tanto a sistemas humanos como de IA. Para abordar el debate sobre la inteligencia de los grandes modelos de lenguaje (LLMs), proponemos Reflection-Bench, un banco de pruebas integral que consta de 7 tareas que abarcan funciones cognitivas básicas cruciales para la reflexión, incluyendo percepción, memoria, actualización de creencias, toma de decisiones, predicción, pensamiento contrafáctico y meta-reflexión. Evaluamos el rendimiento de 13 LLMs prominentes como OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. Los resultados indican que los LLMs actuales aún carecen de una capacidad de reflexión satisfactoria. Discutimos las causas subyacentes de estos resultados y sugerimos posibles vías para investigaciones futuras. En conclusión, Reflection-Bench ofrece tanto herramientas de evaluación como inspiración para desarrollar IA capaces de interactuar de manera confiable con el entorno. Nuestros datos y código están disponibles en https://github.com/YabYum/ReflectionBench.
La evaluación de sesgos en las fuentes de noticias es fundamental para profesionales, organizaciones e investigadores que dependen de pruebas verídicas para la recopilación y reporte de información. Si bien ciertos indicadores de sesgo son discernibles a través del análisis de contenido, descriptores como sesgo político y noticias falsas plantean desafíos mayores. En este artículo, proponemos una extensión a un método de estimación de confiabilidad de medios de comunicación recientemente presentado que se enfoca en modelar los medios y sus interacciones web longitudinales. Concretamente, evaluamos el rendimiento de clasificación de cuatro estrategias de aprendizaje por refuerzo en un grafo de hiperenlaces de medios de comunicación de noticias grande. Nuestros experimentos, dirigidos a dos descriptores de sesgo desafiantes, reporte factual y sesgo político, mostraron una mejora significativa en el rendimiento a nivel de los medios de origen. Además, validamos nuestros métodos en el desafío del laboratorio CheckThat! de CLEF 2023, superando los resultados informados en ambos, el puntaje F1 y la métrica MAE oficial. Además, contribuimos liberando el conjunto de datos anotado más grande de medios de comunicación de fuentes de noticias, categorizados con etiquetas de reporte factual y sesgo político. Nuestros hallazgos sugieren que perfilar las fuentes de medios de comunicación basándose en sus interacciones de hiperenlaces a lo largo del tiempo es factible, ofreciendo una visión general de los paisajes mediáticos en evolución.
El preentrenamiento no supervisado ha sido transformador en muchos dominios supervisados. Sin embargo, aplicar tales ideas al aprendizaje por refuerzo (RL) presenta un desafío único en el sentido de que el ajuste fino no implica imitar datos específicos de la tarea, sino explorar y localizar la solución a través de la auto-mejora iterativa. En este trabajo, estudiamos cómo los datos de trayectorias previas no etiquetados pueden ser aprovechados para aprender estrategias de exploración eficientes. Mientras que los datos previos pueden ser utilizados para preentrenar un conjunto de habilidades de bajo nivel, o como datos adicionales fuera de política para RL en línea, ha sido poco claro cómo combinar estas ideas de manera efectiva para la exploración en línea. Nuestro método SUPE (Habilidades de Datos Previos no Etiquetados para Exploración) demuestra que una combinación cuidadosa de estas ideas potencia sus beneficios. Nuestro método primero extrae habilidades de bajo nivel utilizando un auto-codificador variacional (VAE), y luego pseudo-etiqueta trayectorias no etiquetadas utilizando un modelo de recompensa optimista, transformando los datos previos en ejemplos de alto nivel relevantes para la tarea. Finalmente, SUPE utiliza estos ejemplos transformados como datos adicionales fuera de política para RL en línea para aprender una política de alto nivel que compone habilidades de bajo nivel preentrenadas para explorar eficientemente. Demostramos empíricamente que SUPE supera de manera confiable las estrategias previas, resolviendo con éxito una serie de tareas de recompensa escasa a largo plazo. Código: https://github.com/rail-berkeley/supe.