Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos EnerVerse, un marco integral para la generación de espacios futuros encarnados diseñado específicamente para tareas de manipulación robótica. EnerVerse integra de manera fluida mecanismos de atención convolucional y bidireccional para el modelado del espacio interno por fragmentos, asegurando consistencia y continuidad a nivel bajo. Reconociendo la redundancia inherente en los datos de video, proponemos un contexto de memoria dispersa combinado con un paradigma generativo unidireccional por fragmentos para permitir la generación de secuencias infinitamente largas. Para aumentar aún más las capacidades robóticas, introducimos el espacio de Vista de Anclaje Libre (FAV), que proporciona perspectivas flexibles para mejorar la observación y el análisis. El espacio FAV mitiga la ambigüedad en el modelado del movimiento, elimina las restricciones físicas en entornos confinados y mejora significativamente la generalización y adaptabilidad del robot en diversas tareas y entornos. Para abordar los costos prohibitivos y la intensidad laboral de adquirir observaciones de múltiples cámaras, presentamos un canal de datos que integra un modelo generativo con Splatting Gaussiano 4D (4DGS). Este canal aprovecha las sólidas capacidades de generalización del modelo generativo y las restricciones espaciales proporcionadas por 4DGS, permitiendo una mejora iterativa de la calidad y diversidad de los datos, creando así un efecto de retroalimentación de datos que estrecha efectivamente la brecha entre simulación y realidad. Finalmente, nuestros experimentos demuestran que la generación de espacios futuros encarnados mejora sustancialmente las capacidades predictivas de políticas, lo que resulta en un mejor rendimiento general, especialmente en tareas de manipulación robótica a larga distancia.
Los Modelos de Lenguaje Multimodales Grandes (MLLMs) recientes han enfocado típicamente en integrar modalidades visual y textual, con menos énfasis en el papel del habla en mejorar la interacción. Sin embargo, el habla desempeña un papel crucial en los sistemas de diálogo multimodales, y lograr un alto rendimiento en tareas de visión y habla sigue siendo un desafío significativo debido a las diferencias fundamentales de modalidad. En este documento, proponemos una metodología de entrenamiento multi-etapa cuidadosamente diseñada que entrena progresivamente al MLLM para comprender tanto información visual como de habla, permitiendo en última instancia una interacción fluida entre visión y habla. Nuestro enfoque no solo preserva una sólida capacidad de visión-lenguaje, sino que también habilita capacidades eficientes de diálogo de habla a habla sin módulos separados de ASR y TTS, acelerando significativamente la velocidad de respuesta multimodal de extremo a extremo. Al comparar nuestro método con contrapartes de última generación en pruebas para tareas de imagen, video y habla, demostramos que nuestro modelo está equipado con capacidades sólidas tanto en visión como en habla, logrando una interacción casi en tiempo real entre visión y habla.
Recientemente, los sistemas de razonamiento de pensamiento lento, construidos sobre modelos de lenguaje grandes (LLMs), han captado una amplia atención al escalar el tiempo de pensamiento durante la inferencia. También hay un creciente interés en adaptar esta capacidad a modelos de lenguaje grandes multimodales (MLLMs). Dado que los MLLMs manejan semántica de datos más compleja a través de diferentes modalidades, intuitivamente resulta más desafiante implementar sistemas de pensamiento lento multimodales. Para abordar este problema, en este documento exploramos un enfoque directo al ajustar finamente un MLLM capaz con una pequeña cantidad de datos de pensamiento textual a largo plazo, dando como resultado un sistema de pensamiento lento multimodal, Virgo (Razonamiento visual con pensamiento prolongado). Descubrimos que estos procesos de razonamiento a largo plazo, expresados en lenguaje natural, pueden transferirse de manera efectiva a MLLMs. Además, parece que tales datos de razonamiento textual pueden ser aún más efectivos que los datos de razonamiento visual para provocar las capacidades de pensamiento lento de los MLLMs. Si bien este trabajo es preliminar, demuestra que las capacidades de pensamiento lento están fundamentalmente asociadas con el componente del modelo de lenguaje, que puede transferirse entre modalidades o dominios. Este hallazgo puede aprovecharse para guiar el desarrollo de sistemas de razonamiento de pensamiento lento más potentes. Ponemos a disposición nuestros recursos en https://github.com/RUCAIBox/Virgo.
Los agentes sociales impulsados por grandes modelos de lenguaje (LLMs) pueden simular comportamientos sociales humanos, pero tienen limitaciones en el manejo de diálogos sociales complejos orientados a objetivos. La Optimización Directa de Preferencias (DPO) ha demostrado ser efectiva en alinear el comportamiento de los LLMs con las preferencias humanas en una variedad de tareas de agente. Los enfoques basados en DPO existentes para interacciones de múltiples turnos se dividen en métodos a nivel de turno y a nivel de sesión. El método a nivel de turno es demasiado detallado, centrándose exclusivamente en turnos individuales, mientras que los métodos a nivel de sesión son demasiado generales, a menudo introduciendo ruido en el entrenamiento. Para abordar estas limitaciones, proponemos la Optimización Directa de Preferencias a Nivel de Segmento (SDPO), que se enfoca en segmentos clave específicos dentro de las interacciones para optimizar el comportamiento del agente de múltiples turnos mientras se minimiza el ruido en el entrenamiento. Las evaluaciones en el benchmark SOTOPIA demuestran que los agentes ajustados con SDPO superan consistentemente tanto a los métodos existentes basados en DPO como a los LLMs propietarios como GPT-4o, subrayando el potencial de SDPO para mejorar la inteligencia social de los agentes basados en LLMs. Publicamos nuestro código y datos en https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
Presentamos una estrategia general para alinear modelos de generación visual, tanto de imágenes como de videos, con la preferencia humana. Para comenzar, construimos VisionReward, un modelo de recompensa detallado y multidimensional. Descomponemos las preferencias humanas en imágenes y videos en múltiples dimensiones, cada una representada por una serie de preguntas de juicio, ponderadas linealmente y sumadas para obtener una puntuación interpretable y precisa. Para abordar los desafíos de la evaluación de calidad de video, analizamos sistemáticamente varias características dinámicas de los videos, lo que ayuda a VisionReward a superar a VideoScore en un 17.2% y lograr un rendimiento óptimo en la predicción de preferencias de video. Basándonos en VisionReward, desarrollamos un algoritmo de aprendizaje de preferencias multiobjetivo que aborda de manera efectiva el problema de los factores de confusión dentro de los datos de preferencia. Nuestro enfoque supera significativamente a los métodos existentes de puntuación de imágenes y videos tanto en métricas de máquina como en evaluación humana. Todo el código y los conjuntos de datos se proporcionan en https://github.com/THUDM/VisionReward.
La generación de grafos es una tarea crítica en numerosos dominios, incluido el diseño molecular y el análisis de redes sociales, debido a su capacidad para modelar relaciones complejas y datos estructurados. Mientras que la mayoría de los modelos generativos de grafos modernos utilizan representaciones de matrices de adyacencia, este trabajo revisita un enfoque alternativo que representa los grafos como secuencias de conjuntos de nodos y conjuntos de aristas. Abogamos por este enfoque debido a su codificación eficiente de grafos y proponemos una representación novedosa. Basándonos en esta representación, presentamos el Transformador Pre-entrenado Generativo de Grafos (G2PT), un modelo auto-regresivo que aprende estructuras de grafos mediante la predicción del siguiente token. Para explotar aún más las capacidades de G2PT como modelo base de propósito general, exploramos estrategias de ajuste fino para dos aplicaciones secundarias: generación orientada a objetivos y predicción de propiedades de grafos. Realizamos experimentos extensos en múltiples conjuntos de datos. Los resultados indican que G2PT logra un rendimiento generativo superior tanto en conjuntos de datos de grafos genéricos como de moléculas. Además, G2PT muestra una fuerte adaptabilidad y versatilidad en tareas secundarias, desde el diseño molecular hasta la predicción de propiedades.
Los recientes avances en modelos de lenguaje grandes (LLMs) basados en modelos de incrustación han establecido nuevos puntos de referencia de vanguardia para tareas de incrustación de texto, especialmente en recuperación basada en vectores densos. Sin embargo, estos modelos se centran predominantemente en el inglés, dejando en gran medida sin explorar las capacidades de incrustación multilingüe. Para abordar esta limitación, presentamos LUSIFER, un enfoque novedoso de cero disparo que adapta modelos de incrustación basados en LLM para tareas multilingües sin requerir supervisión multilingüe. La arquitectura de LUSIFER combina un codificador multilingüe, que actúa como un aprendiz universal de lenguajes, con un modelo de incrustación basado en LLM optimizado para tareas específicas de incrustación. Estos componentes se integran de manera transparente a través de un conjunto mínimo de parámetros entrenables que funcionan como un conector, transfiriendo eficazmente las capacidades de comprensión del lenguaje del codificador multilingüe al modelo de incrustación especializado. Además, para evaluar exhaustivamente el rendimiento de la incrustación multilingüe, presentamos un nuevo punto de referencia que abarca 5 tareas de incrustación principales, 123 conjuntos de datos diversos y cobertura en 14 idiomas. Los extensos resultados experimentales demuestran que LUSIFER mejora significativamente el rendimiento multilingüe en diversas tareas de incrustación, especialmente para idiomas con recursos medios y bajos, sin necesidad de datos de entrenamiento multilingües explícitos.
Comprender el mundo y explicarlo con teorías científicas es una aspiración central de la investigación en inteligencia artificial. Proponer teorías, diseñar experimentos para probarlas y luego revisarlas basándose en datos son fundamentales para el descubrimiento científico. A pesar de la promesa significativa de agentes científicos basados en LLM, no existen benchmarks que prueben sistemáticamente la capacidad de los LLM para proponer modelos científicos, recopilar datos experimentales y revisarlos a la luz de nuevos datos. Presentamos BoxingGym, un benchmark con 10 entornos para evaluar sistemáticamente tanto el diseño experimental (por ejemplo, recopilar datos para probar una teoría científica) como el descubrimiento de modelos (por ejemplo, proponer y revisar teorías científicas). Para permitir una evaluación manejable y cuantitativa, implementamos cada entorno como un modelo probabilístico generativo con el cual un agente científico puede realizar experimentos interactivos. Estos modelos probabilísticos se extraen de diversos dominios científicos del mundo real, que van desde la psicología hasta la ecología. Para evaluar cuantitativamente la capacidad de un agente científico para recopilar datos experimentales informativos, calculamos la ganancia de información esperada (EIG), una cantidad de teoría de la información que mide cuánto reduce la incertidumbre un experimento sobre los parámetros de un modelo generativo. Una buena teoría científica es una explicación concisa y predictiva. Por lo tanto, para evaluar cuantitativamente el descubrimiento de modelos, pedimos a un agente científico que explique su modelo y luego evaluamos si esta explicación permite a otro agente científico hacer predicciones confiables sobre este entorno. Además de esta evaluación basada en explicaciones, calculamos métricas estándar de evaluación de modelos como errores de predicción. Encontramos que los LLM actuales, como GPT-4o, tienen dificultades tanto con el diseño experimental como con el descubrimiento de modelos. Observamos que aumentar el agente basado en LLM con un modelo estadístico explícito no mejora de manera confiable estos resultados.