Artículos de investigación en IA seleccionados diariamente con traducciones
La alineación de preferencias visuales implica entrenar Modelos de Gran Visión-Lenguaje (LVLMs) para predecir las preferencias humanas entre entradas visuales. Esto se logra típicamente utilizando conjuntos de datos etiquetados de pares elegidos/rechazados y empleando algoritmos de optimización como la optimización directa de preferencias (DPO). Los métodos de alineación visual existentes, diseñados principalmente para escenarios de imágenes individuales, tienen dificultades para manejar efectivamente la complejidad de tareas con múltiples imágenes debido a la escasez de datos de entrenamiento diversos y al alto costo de la anotación de pares elegidos/rechazados. Presentamos la Optimización Directa de Preferencias Aumentada con Múltiples Imágenes (MIA-DPO), un enfoque de alineación de preferencias visuales que maneja efectivamente entradas de múltiples imágenes. MIA-DPO mitiga la escasez de datos de entrenamiento de múltiples imágenes diversos al extender los datos de imágenes individuales con imágenes no relacionadas dispuestas en collages de cuadrícula o formatos de imagen en imagen, reduciendo significativamente los costos asociados con las anotaciones de datos de múltiples imágenes. Nuestra observación revela que los valores de atención de los LVLMs varían considerablemente entre diferentes imágenes. Utilizamos los valores de atención para identificar y filtrar las respuestas rechazadas en las que el modelo pudo haberse enfocado erróneamente. Nuestra selección consciente de la atención para construir los pares elegidos/rechazados prescinde de (i) la anotación humana, (ii) datos adicionales, y (iii) modelos o APIs externos. MIA-DPO es compatible con varias arquitecturas y supera a los métodos existentes en cinco pruebas de múltiples imágenes, logrando un aumento promedio del rendimiento del 3.0% en LLaVA-v1.5 y del 4.3% en el reciente InternLM-XC2.5. Además, MIA-DPO tiene un efecto mínimo en la capacidad del modelo para entender imágenes individuales.
Los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs) han demostrado un progreso prometedor en la comprensión y análisis de contenido de video. Sin embargo, el procesamiento de videos largos sigue siendo un desafío significativo limitado por el tamaño del contexto de los LLM. Para abordar esta limitación, proponemos LongVU, un mecanismo de compresión adaptativa espacio-temporal que reduce el número de tokens de video mientras preserva los detalles visuales de videos largos. Nuestra idea se basa en aprovechar consultas cruzadas entre modalidades y dependencias entre fotogramas para reducir de forma adaptativa la redundancia temporal y espacial en videos. Específicamente, aprovechamos las características de DINOv2 para eliminar fotogramas redundantes que muestran una alta similitud. Luego utilizamos consultas cruzadas entre modalidades guiadas por texto para la reducción selectiva de características de fotogramas. Además, realizamos una reducción de tokens espaciales entre fotogramas basada en sus dependencias temporales. Nuestra estrategia de compresión adaptativa procesa de manera efectiva un gran número de fotogramas con poco deterioro de la información visual dentro de la longitud de contexto dada. Nuestro LongVU supera consistentemente a los métodos existentes en una variedad de pruebas de comprensión de video, especialmente en tareas de comprensión de videos de larga duración como VideoMME y MLVU. Dado un LLM ligero, nuestro LongVU también escala de manera efectiva a un tamaño más pequeño con un rendimiento de comprensión de video de vanguardia.
Los avances recientes en modelos predictivos han demostrado capacidades excepcionales para predecir el estado futuro de objetos y escenas. Sin embargo, la falta de categorización basada en características inherentes continúa obstaculizando el progreso en el desarrollo de modelos predictivos. Además, los benchmarks existentes no pueden evaluar de manera efectiva modelos predictivos de alta capacidad y altamente incorporados desde una perspectiva incorporada. En este trabajo, clasificamos las funcionalidades de los modelos predictivos en una jerarquía y damos el primer paso en la evaluación de Simuladores del Mundo proponiendo un marco de evaluación dual llamado WorldSimBench. WorldSimBench incluye Evaluación Perceptual Explícita y Evaluación Manipulativa Implícita, abarcando evaluaciones de preferencia humana desde la perspectiva visual y evaluaciones a nivel de acción en tareas incorporadas, cubriendo tres escenarios incorporados representativos: Entorno Incorporado de Final Abierto, Conducción Autónoma y Manipulación de Robots. En la Evaluación Perceptual Explícita, presentamos el Conjunto de Datos HF-Incorporado, un conjunto de datos de evaluación de video basado en retroalimentación humana detallada, que utilizamos para entrenar un Evaluador de Preferencia Humana que se alinea con la percepción humana y evalúa explícitamente la fidelidad visual de los Simuladores del Mundo. En la Evaluación Manipulativa Implícita, evaluamos la consistencia video-acción de los Simuladores del Mundo al evaluar si el video generado consciente de la situación puede traducirse con precisión en las señales de control correctas en entornos dinámicos. Nuestra evaluación exhaustiva ofrece ideas clave que pueden impulsar una mayor innovación en modelos de generación de video, posicionando a los Simuladores del Mundo como un avance fundamental hacia la inteligencia artificial incorporada.
Los Modelos de Lenguaje de Difusión (DLMs) han surgido como un nuevo paradigma prometedor para la modelización generativa de texto, potencialmente abordando las limitaciones de los modelos autoregresivos (AR). Sin embargo, los DLMs actuales han sido estudiados en una escala más pequeña en comparación con sus contrapartes AR y carecen de una comparación justa en los puntos de referencia de modelado de lenguaje. Además, el entrenamiento de modelos de difusión desde cero a gran escala sigue siendo un desafío. Dada la prevalencia de los modelos de lenguaje AR de código abierto, proponemos adaptar estos modelos para construir modelos de difusión de texto. Demostramos conexiones entre los objetivos de modelado AR y de difusión e introducimos un enfoque simple de pre-entrenamiento continuo para entrenar modelos de difusión. A través de una evaluación sistemática en puntos de referencia de modelado de lenguaje, razonamiento y sentido común, mostramos que podemos convertir modelos AR que van desde 127M hasta 7B parámetros (GPT2 y LLaMA) en modelos de difusión DiffuGPT y DiffuLLaMA, utilizando menos de 200B tokens para el entrenamiento. Nuestros resultados experimentales revelan que estos modelos superan a los DLMs anteriores y son competitivos con sus contrapartes AR. Publicamos una serie de DLMs (con 127M, 355M y 7B parámetros) capaces de generar texto fluido, realizar aprendizaje en contexto, completar el texto sin reordenar la indicación y seguir instrucciones en https://github.com/HKUNLP/DiffuLLaMA.
La Optimización Directa de Preferencias (DPO) ha surgido como un enfoque poderoso para alinear modelos de texto a imagen (T2I) con la retroalimentación humana. Desafortunadamente, la aplicación exitosa de DPO a modelos T2I requiere una enorme cantidad de recursos para recopilar y etiquetar conjuntos de datos a gran escala, por ejemplo, millones de imágenes emparejadas generadas anotadas con preferencias humanas. Además, estos conjuntos de datos de preferencias humanas pueden volverse obsoletos rápidamente a medida que las mejoras rápidas de los modelos T2I conducen a imágenes de mayor calidad. En este trabajo, investigamos un enfoque escalable para recopilar conjuntos de datos totalmente sintéticos a gran escala para el entrenamiento de DPO. Específicamente, las preferencias para las imágenes emparejadas se generan utilizando una función de recompensa pre-entrenada, eliminando la necesidad de involucrar a humanos en el proceso de anotación, mejorando en gran medida la eficiencia de la recopilación de conjuntos de datos. Además, demostramos que tales conjuntos de datos permiten promediar predicciones entre múltiples modelos y recopilar preferencias clasificadas en lugar de preferencias por pares. Además, presentamos RankDPO para mejorar los métodos basados en DPO utilizando la retroalimentación de clasificación. Aplicar RankDPO en los modelos SDXL y SD3-Medium con nuestro conjunto de datos de preferencias generado de forma sintética "Syn-Pic" mejora tanto el seguimiento de indicaciones (en bancos de pruebas como T2I-Compbench, GenEval y DPG-Bench) como la calidad visual (a través de estudios de usuario). Este proceso presenta una solución práctica y escalable para desarrollar mejores conjuntos de datos de preferencias para mejorar el rendimiento de los modelos de texto a imagen.
La generación de escenas LiDAR ha estado desarrollándose rápidamente recientemente. Sin embargo, los métodos existentes se centran principalmente en generar escenas estáticas y de un solo fotograma, pasando por alto la naturaleza inherentemente dinámica de los entornos de conducción del mundo real. En este trabajo, presentamos DynamicCity, un nuevo marco de generación LiDAR 4D capaz de generar escenas LiDAR a gran escala y de alta calidad que capturan la evolución temporal de los entornos dinámicos. DynamicCity consta principalmente de dos modelos clave. 1) Un modelo VAE para aprender HexPlane como la representación compacta 4D. En lugar de utilizar operaciones de promediado ingenuas, DynamicCity emplea un novedoso Módulo de Proyección para comprimir de manera efectiva las características LiDAR 4D en seis mapas de características 2D para la construcción de HexPlane, lo que mejora significativamente la calidad del ajuste de HexPlane (hasta 12.56 de ganancia en mIoU). Además, utilizamos una Estrategia de Expansión y Compresión para reconstruir volúmenes de características 3D en paralelo, lo que mejora tanto la eficiencia del entrenamiento de la red como la precisión de la reconstrucción en comparación con la consulta ingenua de cada punto 3D (hasta 7.05 de ganancia en mIoU, 2.06 veces más rápido en el entrenamiento y una reducción del 70.84% en la memoria). 2) Un modelo de difusión basado en DiT para la generación de HexPlane. Para hacer que HexPlane sea factible para la generación de DiT, se propone una Operación de Despliegue Acolchado para reorganizar los seis planos de características de HexPlane como un mapa de características 2D cuadrado. En particular, se pueden introducir diversas condiciones en el proceso de difusión o muestreo, lo que respalda diversas aplicaciones de generación 4D, como generación basada en trayectorias y comandos, rellenado e generación condicionada al diseño. Experimentos extensos en los conjuntos de datos CarlaSC y Waymo demuestran que DynamicCity supera significativamente a los métodos existentes de generación LiDAR 4D de vanguardia en múltiples métricas. El código será publicado para facilitar la investigación futura.
Los modelos de recompensa (RMs) han impulsado el rendimiento de vanguardia de los LLMs hoy en día al permitir la integración de la retroalimentación humana en el proceso de modelado del lenguaje. Sin embargo, los RMs se entrenan y evalúan principalmente en inglés, y sus capacidades en entornos multilingües siguen siendo ampliamente subestudiadas. En este trabajo, realizamos una evaluación sistemática de varios modelos de recompensa en entornos multilingües. Primero construimos el banco de evaluación de modelos de recompensa multilingüe, M-RewardBench, único en su tipo, que consta de 2.87k instancias de preferencia para 23 idiomas tipológicamente diversos, que evalúa las capacidades de chat, seguridad, razonamiento y traducción de los RMs. Luego evaluamos rigurosamente una amplia gama de modelos de recompensa en M-RewardBench, ofreciendo nuevas perspectivas sobre su rendimiento en diversos idiomas. Identificamos una brecha significativa en el rendimiento de los RMs entre los idiomas inglés y no inglés, y demostramos que las preferencias de los RMs pueden cambiar sustancialmente de un idioma a otro. También presentamos varios hallazgos sobre cómo diferentes aspectos multilingües impactan en el rendimiento de los RMs. Específicamente, mostramos que el rendimiento de los RMs mejora con una mejor calidad de traducción. De igual manera, demostramos que los modelos muestran un mejor rendimiento para los idiomas con más recursos. Publicamos el conjunto de datos M-RewardBench y el código fuente en este estudio para facilitar una mejor comprensión de la evaluación de RMs en entornos multilingües.
Este documento presenta una nueva arquitectura de control de teléfonos móviles, denominada "agentes de aplicaciones", para interacciones y controles eficientes en diversas aplicaciones de Android. El propuesto Control de Aplicaciones Multi-modales Ligero (LiMAC) toma como entrada un objetivo textual y una secuencia de observaciones móviles pasadas, como capturas de pantalla y árboles de interfaz de usuario correspondientes, para generar acciones precisas. Para abordar las limitaciones computacionales inherentes a los teléfonos inteligentes, dentro de LiMAC, introducimos un pequeño Transformador de Acciones (AcT) integrado con un modelo visión-lenguaje afinado (VLM) para la toma de decisiones en tiempo real y la ejecución de tareas. Evaluamos LiMAC en dos conjuntos de datos de control móvil de código abierto, demostrando el rendimiento superior de nuestro enfoque de factor de forma pequeño frente a versiones afinadas de VLM de código abierto, como Florence2 y Qwen2-VL. También supera significativamente a líneas de base de ingeniería de indicaciones que utilizan modelos de base de código cerrado como GPT-4o. Específicamente, LiMAC aumenta la precisión general de las acciones hasta un 19% en comparación con VLMs afinados, y hasta un 42% en comparación con las líneas de base de ingeniería de indicaciones.
La integración de técnicas de modelos de lenguaje grandes (LLM, por sus siglas en inglés) en el campo del análisis médico ha traído avances significativos, sin embargo, la escasez de conjuntos de datos grandes, diversos y bien anotados sigue siendo un desafío importante. Los datos y tareas médicas, que varían en formato, tamaño y otros parámetros, requieren un extenso preprocesamiento y estandarización para su uso efectivo en el entrenamiento de LLMs. Para abordar estos desafíos, presentamos MedINST, el Meta Conjunto de Datos de Instrucciones Biomédicas, un novedoso metaconjunto de datos instruccionales multi-dominio y multi-tarea. MedINST consta de 133 tareas de procesamiento de lenguaje natural biomédico y más de 7 millones de muestras de entrenamiento, convirtiéndolo en el conjunto de datos de instrucciones biomédicas más completo hasta la fecha. Utilizando MedINST como el metaconjunto de datos, creamos MedINST32, un desafiante punto de referencia con diferentes niveles de dificultad de tarea con el objetivo de evaluar la capacidad de generalización de los LLMs. Ajustamos varios LLMs en MedINST y evaluamos en MedINST32, demostrando una mejorada generalización entre tareas.
Recientemente, los modelos de lenguaje multimodales a gran escala (MLLMs) han recibido mucha atención por sus impresionantes capacidades. La evaluación de los MLLMs se está volviendo crítica para analizar atributos de los MLLMs y proporcionar perspectivas valiosas. Sin embargo, los benchmarks actuales pasan por alto el problema de la sensibilidad a la consigna: variaciones menores en la consigna pueden llevar a fluctuaciones significativas en el rendimiento. Por lo tanto, consignas inapropiadas pueden oscurecer las capacidades de los modelos, subestimando su rendimiento. Además, diferentes modelos tienen preferencias distintas por diferentes consignas, por lo que utilizar la misma consigna para todos los modelos causará sesgos en la evaluación. Este documento analiza esta deficiencia en los benchmarks existentes e introduce un nuevo marco de evaluación llamado TP-Eval, que presenta un método de personalización de consignas para reducir los sesgos en la evaluación y aprovechar el potencial de los modelos. TP-Eval reescribirá las consignas originales en diferentes consignas personalizadas para distintos modelos. En particular, proponemos algunos módulos bien diseñados para la personalización de consignas adaptados al escenario de evaluación de MLLM. Experimentos extensos demuestran la efectividad de nuestro enfoque para descubrir las capacidades de los modelos, y TP-Eval debería beneficiar a la comunidad en el desarrollo de benchmarks de evaluación de MLLM más completos y convincentes.
El rendimiento de las redes neuronales aumenta tanto con su tamaño como con la cantidad de datos en los que han sido entrenadas. Esto se evidencia tanto en la generación de lenguaje como de imágenes. Sin embargo, esto requiere arquitecturas de redes amigables con el escalado, así como conjuntos de datos a gran escala. Aunque han surgido arquitecturas amigables con el escalado como los transformadores para tareas de visión 3D, el momento GPT de la visión 3D sigue estando lejos debido a la falta de datos de entrenamiento. En este documento, presentamos ARKit LabelMaker, el primer conjunto de datos 3D del mundo real a gran escala con anotaciones semánticas densas. Específicamente, complementamos el conjunto de datos ARKitScenes con anotaciones semánticas densas que se generan automáticamente a gran escala. Para ello, ampliamos LabelMaker, un reciente canal de anotación automática, para satisfacer las necesidades de pre-entrenamiento a gran escala. Esto implica ampliar el canal con modelos de segmentación de vanguardia, así como hacerlo robusto ante los desafíos del procesamiento a gran escala. Además, avanzamos en el rendimiento de vanguardia en los conjuntos de datos ScanNet y ScanNet200 con modelos prevalentes de segmentación semántica 3D, demostrando la eficacia de nuestro conjunto de datos generado.
Proponemos el Modelo de Síntesis de Vistas Amplias (LVSM, por sus siglas en inglés), un enfoque novedoso basado en transformadores para la síntesis de vistas nuevas escalable y generalizable a partir de entradas de vistas dispersas. Introducimos dos arquitecturas: (1) un LVSM codificador-decodificador, que codifica tokens de imagen de entrada en un número fijo de tokens latentes unidimensionales, funcionando como una representación de escena completamente aprendida, y decodifica imágenes de vista nueva a partir de ellos; y (2) un LVSM solo decodificador, que mapea directamente imágenes de entrada a salidas de vista nueva, eliminando por completo representaciones de escena intermedias. Ambos modelos evitan los sesgos inductivos 3D utilizados en métodos anteriores, desde representaciones 3D (por ejemplo, NeRF, 3DGS) hasta diseños de redes (por ejemplo, proyecciones epipolares, barridos de planos), abordando la síntesis de vista nueva con un enfoque totalmente basado en datos. Mientras que el modelo codificador-decodificador ofrece una inferencia más rápida debido a su representación latente independiente, el LVSM solo decodificador logra una calidad, escalabilidad y generalización de cero dispar superior, superando a métodos anteriores de vanguardia en 1.5 a 3.5 dB PSNR. Evaluaciones exhaustivas en múltiples conjuntos de datos demuestran que ambas variantes de LVSM logran una calidad de síntesis de vista nueva de vanguardia. Notablemente, nuestros modelos superan a todos los métodos anteriores incluso con recursos computacionales reducidos (1-2 GPUs). Para más detalles, por favor visite nuestro sitio web: https://haian-jin.github.io/projects/LVSM/ .
Las políticas robóticas de propósito general, entrenadas en conjuntos de demostraciones diversos, han demostrado ser notablemente efectivas tanto para controlar una variedad de robots en diferentes escenarios, como para adquirir amplios repertorios de habilidades de manipulación. Sin embargo, los datos en los que se entrenan dichas políticas suelen ser de calidad mixta: las demostraciones recopiladas por humanos no suelen realizar la tarea de manera perfecta, y cuanto más grande es el conjunto de datos, más difícil resulta seleccionar solo los ejemplos de mayor calidad. También sigue sin estar claro qué tan óptimos son los datos de una encarnación para entrenar en otra encarnación. En este artículo, presentamos un enfoque general y ampliamente aplicable que mejora el rendimiento de dichas políticas robóticas generalistas en el momento de implementación al reordenar sus acciones según una función de valor aprendida a través de RL fuera de línea. Este enfoque, al que llamamos Dirección de Política Guiada por Valor (V-GPS), es compatible con una amplia gama de políticas generalistas diferentes, sin necesidad de ajustar finamente o incluso acceder a los pesos de la política. Mostramos que la misma función de valor puede mejorar el rendimiento de cinco políticas de vanguardia con arquitecturas diferentes, aunque hayan sido entrenadas en conjuntos de datos distintos, logrando una mejora de rendimiento consistente en múltiples plataformas robóticas en un total de 12 tareas. El código y los videos se pueden encontrar en: https://nakamotoo.github.io/V-GPS