Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos InternVL 2.5, una serie avanzada de modelos de lenguaje grande multimodales (MLLM) que se basa en InternVL 2.0, manteniendo su arquitectura de modelo central e introduciendo mejoras significativas en estrategias de entrenamiento y prueba, así como en la calidad de los datos. En este trabajo, exploramos la relación entre la escalabilidad del modelo y el rendimiento, investigando sistemáticamente las tendencias de rendimiento en codificadores de visión, modelos de lenguaje, tamaños de conjuntos de datos y configuraciones de tiempo de prueba. A través de evaluaciones exhaustivas en una amplia gama de pruebas, que incluyen razonamiento multidisciplinario, comprensión de documentos, comprensión de múltiples imágenes/videos, comprensión del mundo real, detección de alucinaciones multimodales, anclaje visual, capacidades multilingües y procesamiento de lenguaje puro, InternVL 2.5 muestra un rendimiento competitivo, rivalizando con modelos comerciales líderes como GPT-4o y Claude-3.5-Sonnet. Destacadamente, nuestro modelo es el primer MLLM de código abierto en superar el 70% en la prueba MMMU, logrando una mejora de 3.7 puntos a través del razonamiento Chain-of-Thought (CoT) y mostrando un fuerte potencial para la escalabilidad en tiempo de prueba. Esperamos que este modelo contribuya a la comunidad de código abierto estableciendo nuevos estándares para el desarrollo y la aplicación de sistemas de IA multimodales. Para ver una demostración de HuggingFace, visite https://huggingface.co/spaces/OpenGVLab/InternVL
Este informe técnico presenta los modelos de lenguaje EXAONE 3.5 ajustados a instrucciones, desarrollados y lanzados por LG AI Research. Los modelos de lenguaje EXAONE 3.5 se ofrecen en tres configuraciones: 32B, 7.8B y 2.4B. Estos modelos cuentan con varias capacidades destacadas: 1) capacidades excepcionales de seguimiento de instrucciones en escenarios del mundo real, logrando las puntuaciones más altas en siete pruebas, 2) una comprensión excepcional de contextos largos, alcanzando el mejor rendimiento en cuatro pruebas, y 3) resultados competitivos en comparación con modelos abiertos de última generación de tamaños similares en nueve pruebas generales. Los modelos de lenguaje EXAONE 3.5 están disponibles para cualquier persona con fines de investigación y se pueden descargar desde https://huggingface.co/LGAI-EXAONE. Para uso comercial, comuníquese con el punto de contacto oficial de LG AI Research: [email protected].
Los avances recientes en modelos generativos de texto a video (T2V) han demostrado capacidades impresionantes. Sin embargo, estos modelos todavía son insuficientes para alinear los videos sintetizados con las preferencias humanas (por ejemplo, reflejar con precisión descripciones de texto), lo cual es particularmente difícil de abordar, ya que las preferencias humanas son inherentemente subjetivas y desafiantes de formalizar como funciones objetivas. Por lo tanto, este documento propone LiFT, un método novedoso de ajuste fino que aprovecha la retroalimentación humana para la alineación del modelo T2V. Específicamente, primero construimos un conjunto de datos de Anotaciones de Calificación Humana, LiFT-HRA, que consta de aproximadamente 10k anotaciones humanas, cada una incluyendo una puntuación y su justificación correspondiente. Con base en esto, entrenamos un modelo de recompensa LiFT-Critic para aprender de manera efectiva la función de recompensa, que sirve como un proxy para el juicio humano, midiendo la alineación entre los videos dados y las expectativas humanas. Por último, aprovechamos la función de recompensa aprendida para alinear el modelo T2V maximizando la probabilidad ponderada por la recompensa. Como estudio de caso, aplicamos nuestro proceso a CogVideoX-2B, demostrando que el modelo ajustado supera al CogVideoX-5B en las 16 métricas, resaltando el potencial de la retroalimentación humana en mejorar la alineación y calidad de los videos sintetizados.
Los modelos de lenguaje grandes multimodales de código abierto (MLLMs) han demostrado un potencial significativo en una amplia gama de tareas multimodales. Sin embargo, sus capacidades de razonamiento siguen estando limitadas por los conjuntos de datos de ajuste de instrucciones existentes, que en su mayoría fueron adaptados de conjuntos de datos académicos como VQA, AI2D y ChartQA. Estos conjuntos de datos se centran en tareas simplistas y solo proporcionan respuestas a nivel de frases sin ningún razonamiento intermedio. Para abordar estos desafíos, presentamos un método escalable y rentable para construir un conjunto de datos de ajuste de instrucciones multimodal a gran escala con razonamientos intermedios detallados y ricos diseñados para provocar el razonamiento CoT. Utilizando solo modelos abiertos, creamos un conjunto de datos que contiene 12 millones de pares de instrucciones-respuestas para cubrir tareas diversas y intensivas en razonamiento con razonamientos detallados y fieles. Los experimentos demuestran que el entrenamiento de MLLMs en este conjunto de datos mejora significativamente las capacidades de razonamiento, logrando un rendimiento de vanguardia en benchmarks como MathVerse (+8.1%), MMMU-Pro (+7%) y MuirBench (+13.3%). Además, el modelo muestra mejoras notables de hasta un 4% en benchmarks no basados en razonamiento. Estudios de abstracción resaltan aún más la importancia de componentes clave, como la reescritura y el auto-filtrado, en el proceso de construcción del conjunto de datos.
Los avances recientes en la edición de imágenes guiada por texto permiten a los usuarios realizar ediciones de imágenes a través de simples entradas de texto, aprovechando los extensos conocimientos previos de modelos de texto a imagen basados en difusión de múltiples pasos. Sin embargo, estos métodos a menudo no cumplen con las demandas de velocidad requeridas para aplicaciones del mundo real y en dispositivos debido al costoso proceso de inversión y muestreo de múltiples pasos involucrado. En respuesta a esto, presentamos SwiftEdit, una herramienta de edición simple pero altamente eficiente que logra una edición instantánea de imágenes guiada por texto (en 0.23 segundos). El avance de SwiftEdit radica en sus dos contribuciones novedosas: un marco de inversión de un solo paso que permite la reconstrucción de imágenes en un solo paso a través de la inversión y una técnica de edición guiada por máscara con nuestro mecanismo propuesto de reescalado de atención para realizar ediciones de imágenes localizadas. Se proporcionan experimentos extensos para demostrar la efectividad y eficiencia de SwiftEdit. En particular, SwiftEdit permite la edición instantánea de imágenes guiada por texto, que es extremadamente más rápida que los métodos de múltiples pasos anteriores (al menos 50 veces más rápida) mientras mantiene un rendimiento competitivo en los resultados de edición. Nuestra página de proyecto está en: https://swift-edit.github.io/
Los modelos de lenguaje grandes (LLMs) son conocidos por ser intensivos en memoria durante el entrenamiento, especialmente con el popular optimizador AdamW. Esta carga de memoria hace necesario utilizar más o mejores GPUs o reducir los tamaños de lote, limitando la escalabilidad y el rendimiento del entrenamiento. Para abordar esto, se han propuesto varios optimizadores eficientes en memoria para reducir el uso de memoria del optimizador. Sin embargo, enfrentan desafíos críticos: (i) dependencia de operaciones costosas de SVD; (ii) compensaciones significativas de rendimiento en comparación con AdamW; y (iii) una sobrecarga de memoria del optimizador aún sustancial para mantener un rendimiento competitivo. En este trabajo, identificamos que la regla de adaptación de la tasa de aprendizaje de AdamW puede ser efectivamente simplificada como una actualización estructurada de la tasa de aprendizaje. Basándonos en esta idea, proponemos Escalado de Gradiente Aproximado para la Optimización Eficiente en Memoria de LLM (APOLLO), que aproxima el escalado de la tasa de aprendizaje utilizando un estado de optimizador de rango bajo auxiliar basado en proyección aleatoria pura. Esta regla de actualización estructurada de la tasa de aprendizaje hace que APOLLO sea altamente tolerante a reducciones adicionales de memoria al tiempo que ofrece un rendimiento de pre-entrenamiento comparable. Incluso su variante de rango-1, APOLLO-Mini, logra un rendimiento de pre-entrenamiento superior en comparación con AdamW con costos de memoria a nivel de SGD. Experimentos extensos demuestran que la serie APOLLO se desempeña igual o mejor que AdamW, al tiempo que logra mayores ahorros de memoria al eliminar casi por completo los estados de optimización de AdamW. Estos ahorros proporcionan beneficios significativos a nivel de sistema: (1) Mayor Rendimiento: 3 veces más rendimiento en una configuración de 8 GPUs A100-80GB en comparación con AdamW al admitir tamaños de lote 4 veces más grandes. (2) Mejora en la Escalabilidad del Modelo: Pre-entrenamiento de LLaMA-13B con DDP ingenuo en GPUs A100-80GB sin optimizaciones a nivel de sistema. (3) Pre-entrenamiento Amigable con GPUs de Bajo Rendimiento: Pre-entrenamiento de LLaMA-7B en una sola GPU utilizando menos de 12 GB de memoria con cuantificación de pesos.
Los recientes avances en Grandes Modelos de Lenguaje pre-entrenados en extensos corpus han demostrado un éxito significativo en diversas tareas de procesamiento de lenguaje natural con mínima afinación. Este éxito ofrece una nueva promesa para la robótica, la cual ha estado durante mucho tiempo limitada por el alto costo de los datos etiquetados de acciones. Nos preguntamos: dado el abundante video data que contiene conocimiento relacionado con la interacción disponible como un rico "corpus", ¿puede un enfoque similar de pre-entrenamiento generativo ser aplicado de manera efectiva para mejorar el aprendizaje de robots? El desafío clave es identificar una representación efectiva para el pre-entrenamiento autoregresivo que beneficie las tareas de manipulación de robots. Inspirados por la forma en que los humanos aprenden nuevas habilidades observando entornos dinámicos, proponemos que el aprendizaje robótico efectivo debería enfatizar el conocimiento relacionado con el movimiento, el cual está estrechamente ligado a acciones de bajo nivel y es independiente del hardware, facilitando la transferencia de movimientos aprendidos a acciones reales de robots. Con este fin, presentamos Moto, que convierte el contenido de video en secuencias latentes de Tokens de Movimiento mediante un Tokenizador de Movimiento Latente, aprendiendo un "lenguaje" de puente de movimiento a partir de videos de manera no supervisada. Pre-entrenamos Moto-GPT a través de autoregresión de tokens de movimiento, permitiéndole capturar diversos conocimientos visuales de movimiento. Después del pre-entrenamiento, Moto-GPT demuestra la prometedora capacidad de producir tokens de movimiento semánticamente interpretables, predecir trayectorias de movimiento plausibles y evaluar la racionalidad de la trayectoria a través de la probabilidad de salida. Para transferir los conocimientos previos de movimiento a acciones reales de robots, implementamos una estrategia de co-afinación que une de manera fluida la predicción de tokens de movimiento latentes y el control real de robots. Experimentos extensos muestran que el Moto-GPT afinado exhibe una robustez y eficiencia superiores en referentes de manipulación de robots, subrayando su efectividad en la transferencia de conocimientos desde datos de video a tareas de manipulación visual posteriores.
Los modelos de generación de video a partir de texto han mostrado un progreso significativo en los últimos años. Sin embargo, todavía tienen dificultades para generar escenas dinámicas complejas basadas en indicaciones textuales composicionales, como la vinculación de atributos para múltiples objetos, la dinámica temporal asociada con diferentes objetos e interacciones entre objetos. Nuestra principal motivación es que las tareas complejas pueden descomponerse en tareas más simples, cada una manejada por un agente MLLM especializado en roles. Varios agentes pueden colaborar para lograr inteligencia colectiva en objetivos complejos. Proponemos GenMAC, un marco iterativo de múltiples agentes que permite la generación composicional de video a partir de texto. El flujo de trabajo colaborativo incluye tres etapas: Diseño, Generación y Rediseño, con un bucle iterativo entre las etapas de Generación y Rediseño para verificar y refinar progresivamente los videos generados. La etapa de Rediseño es la más desafiante, ya que tiene como objetivo verificar los videos generados, sugerir correcciones y rediseñar las indicaciones textuales, los diseños por cuadro y las escalas de orientación para la siguiente iteración de generación. Para evitar la alucinación de un único agente MLLM, descomponemos esta etapa en cuatro agentes basados en MLLM ejecutados secuencialmente: agente de verificación, agente de sugerencia, agente de corrección y agente de estructuración de salida. Además, para abordar diversos escenarios de generación composicional de video a partir de texto, diseñamos un mecanismo de autoenrutamiento para seleccionar de forma adaptativa el agente de corrección adecuado de una colección de agentes de corrección, cada uno especializado en un escenario. Experimentos extensos demuestran la eficacia de GenMAC, logrando un rendimiento de vanguardia en la generación composicional de video a partir de texto.
¿Hasta qué punto pueden los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs) entender imágenes compuestas? Las imágenes compuestas (CIs) son visuales sintéticos creados fusionando múltiples elementos visuales, como gráficos, carteles o capturas de pantalla, en lugar de ser capturados directamente por una cámara. Aunque las CIs son comunes en aplicaciones del mundo real, los desarrollos recientes de MLLMs se han centrado principalmente en interpretar imágenes naturales (NIs). Nuestra investigación revela que los MLLMs actuales enfrentan desafíos significativos para comprender con precisión las CIs, a menudo teniendo dificultades para extraer información o realizar un razonamiento complejo basado en estas imágenes. Descubrimos que los datos de entrenamiento existentes para CIs están principalmente formateados para tareas de pregunta-respuesta (por ejemplo, en conjuntos de datos como ChartQA y ScienceQA), mientras que los conjuntos de datos de subtítulos de imágenes de alta calidad, críticos para un alineamiento robusto entre visión y lenguaje, solo están disponibles para NIs. Para cerrar esta brecha, presentamos Subtítulos Compuestos (CompCap), un marco flexible que aprovecha Modelos de Lenguaje de Gran Tamaño (LLMs) y herramientas de automatización para sintetizar CIs con subtítulos precisos y detallados. Utilizando CompCap, creamos CompCap-118K, un conjunto de datos que contiene 118K pares de imágenes y subtítulos en seis tipos de CI. Validamos la efectividad de CompCap-118K mediante el ajuste fino supervisado de MLLMs de tres tamaños: xGen-MM-inst.-4B y LLaVA-NeXT-Vicuna-7B/13B. Los resultados empíricos muestran que CompCap-118K mejora significativamente la comprensión de CIs por parte de los MLLMs, produciendo ganancias promedio de 1.7%, 2.0% y 2.9% en once evaluaciones respectivamente.
El Splatting Gaussiano en 3D ha demostrado un notable éxito en la reconstrucción de escenas a gran escala, pero persisten desafíos debido al alto consumo de memoria durante el entrenamiento y la sobrecarga de almacenamiento. Las representaciones híbridas que integran características implícitas y explícitas ofrecen una forma de mitigar estas limitaciones. Sin embargo, al aplicarse en un entrenamiento paralelizado por bloques, surgen dos problemas críticos, ya que la precisión de la reconstrucción se deteriora debido a la reducida diversidad de datos al entrenar cada bloque de forma independiente, y el entrenamiento paralelo restringe la cantidad de bloques divididos al número disponible de GPUs. Para abordar estos problemas, proponemos Momentum-GS, un enfoque novedoso que aprovecha la auto-difusión basada en momentum para promover la consistencia y precisión en todos los bloques al tiempo que desacopla el número de bloques de la cantidad física de GPUs. Nuestro método mantiene un decodificador Gaussiano maestro actualizado con momentum, asegurando una referencia estable durante el entrenamiento. Este maestro proporciona a cada bloque una guía global de manera auto-difundida, promoviendo la consistencia espacial en la reconstrucción. Para garantizar aún más la consistencia entre los bloques, incorporamos ponderación de bloques, ajustando dinámicamente el peso de cada bloque según su precisión de reconstrucción. Experimentos extensos en escenas a gran escala muestran que nuestro método supera consistentemente a las técnicas existentes, logrando una mejora del 12.8% en LPIPS sobre CityGaussian con muchos menos bloques divididos y estableciendo un nuevo estado del arte. Página del proyecto: https://jixuan-fan.github.io/Momentum-GS_Page/
La inteligencia artificial multimodal tiene el potencial de mejorar significativamente las tareas de comprensión de documentos, como el procesamiento de recibos, la comprensión de flujos de trabajo, la extracción de datos de documentos y la síntesis de informes. Las tareas de generación de código que requieren salidas estructuradas largas también pueden beneficiarse de la multimodalidad. A pesar de esto, su uso en aplicaciones comerciales a menudo se ve limitado debido al acceso limitado a datos de entrenamiento y a licencias restrictivas, lo que dificulta el acceso abierto. Para abordar estas limitaciones, presentamos BigDocs-7.5M, un conjunto de datos de alta calidad y acceso abierto que consta de 7.5 millones de documentos multimodales en 30 tareas. Utilizamos un proceso eficiente de curación de datos para garantizar que nuestros datos sean de alta calidad y con licencia permisiva. Nuestro proceso enfatiza la responsabilidad, la transparencia y la rendición de cuentas a través de reglas de filtrado, metadatos rastreables y un cuidadoso análisis de contenido. Además, presentamos BigDocs-Bench, un conjunto de pruebas con 10 tareas novedosas en las que creamos conjuntos de datos que reflejan casos de uso del mundo real que implican razonamiento sobre Interfaces Gráficas de Usuario (GUI) y generación de código a partir de imágenes. Nuestros experimentos muestran que el entrenamiento con BigDocs-Bench mejora el rendimiento promedio hasta un 25.8% en comparación con GPT-4o de código cerrado en tareas de razonamiento de documentos y salidas estructuradas como la generación de Screenshot2HTML o Image2Latex. Finalmente, las evaluaciones humanas mostraron una preferencia por las salidas de modelos entrenados en BigDocs sobre GPT-4o. Esto sugiere que BigDocs puede ayudar tanto a académicos como a la comunidad de código abierto a utilizar y mejorar herramientas de inteligencia artificial para potenciar capacidades multimodales y razonamiento de documentos. El proyecto se encuentra alojado en https://bigdocs.github.io.
Los videos del mundo real consisten en secuencias de eventos. Generar tales secuencias con un control temporal preciso es inalcanzable con los generadores de video existentes que se basan en un único párrafo de texto como entrada. Cuando se les asigna la tarea de generar múltiples eventos descritos mediante una única indicación, dichos métodos a menudo ignoran algunos de los eventos o no logran organizarlos en el orden correcto. Para abordar esta limitación, presentamos MinT, un generador de video multi-evento con control temporal. Nuestra idea clave es vincular cada evento a un período específico en el video generado, lo que permite que el modelo se centre en un evento a la vez. Para habilitar interacciones conscientes del tiempo entre las leyendas de eventos y los tokens de video, diseñamos un método de codificación posicional basado en el tiempo, denominado ReRoPE. Esta codificación ayuda a guiar la operación de atención cruzada. Al ajustar finamente un transformador de difusión de video pre-entrenado en datos temporalmente fundamentados, nuestro enfoque produce videos coherentes con eventos conectados de forma fluida. Por primera vez en la literatura, nuestro modelo ofrece control sobre el momento de los eventos en los videos generados. Experimentos extensos demuestran que MinT supera ampliamente a los modelos de código abierto existentes.
En este artículo, presentamos PanoDreamer, un método novedoso para producir una escena 3D coherente de 360 grados a partir de una única imagen de entrada. A diferencia de los métodos existentes que generan la escena de forma secuencial, planteamos el problema como estimación de panorámica y profundidad de una sola imagen. Una vez obtenida la imagen panorámica coherente y su profundidad correspondiente, la escena puede ser reconstruida rellenando las pequeñas regiones ocultas y proyectándolas en el espacio 3D. Nuestra contribución clave es formular la estimación de panorámica y profundidad de una sola imagen como dos tareas de optimización e introducir estrategias de minimización alternante para resolver eficazmente sus objetivos. Demostramos que nuestro enfoque supera a las técnicas existentes en la reconstrucción de escenas de 360 grados de una sola imagen en cuanto a consistencia y calidad general.
La reconstrucción de escenas interiores sigue siendo un desafío debido a la complejidad inherente de las estructuras espaciales y la prevalencia de regiones sin textura. Los avances recientes en el Splatting Gaussiano 3D han mejorado la síntesis de vistas novedosas con un procesamiento acelerado, pero aún no han logrado ofrecer un rendimiento comparable en la reconstrucción de superficies. En este artículo, presentamos 2DGS-Room, un método novedoso que aprovecha el Splatting Gaussiano 2D para la reconstrucción de escenas interiores de alta fidelidad. Específicamente, empleamos un mecanismo guiado por semillas para controlar la distribución de los Gaussianos 2D, con la densidad de puntos de semilla optimizada dinámicamente a través de mecanismos de crecimiento y poda adaptativos. Para mejorar aún más la precisión geométrica, incorporamos profundidad monocular y prioridades normales para proporcionar restricciones para los detalles y las regiones sin textura, respectivamente. Además, se emplean restricciones de consistencia multi-vista para mitigar artefactos y mejorar aún más la calidad de la reconstrucción. Experimentos extensos en los conjuntos de datos ScanNet y ScanNet++ demuestran que nuestro método logra un rendimiento de vanguardia en la reconstrucción de escenas interiores.
Los modelos de lenguaje grandes (LLMs) han convertido el diálogo en uno de los modos centrales de interacción humano-máquina, lo que ha llevado a la acumulación de vastas cantidades de registros de conversaciones y a un aumento en la demanda de generación de diálogo. Un ciclo de vida conversacional abarca desde el Preludio a través de la Interlocución hasta el Epílogo, englobando varios elementos. A pesar de la existencia de numerosos estudios relacionados con el diálogo, existe una falta de puntos de referencia que abarquen elementos de diálogo completos, obstaculizando la modelización precisa y la evaluación sistemática. Para cerrar esta brecha, presentamos una tarea de investigación innovadora: Modelado de Elementos de Diálogo, que incluye Conciencia de Elementos e Interacción del Agente de Diálogo, y proponemos un nuevo punto de referencia, DEMO, diseñado para un modelado y evaluación exhaustivos del diálogo. Inspirados en el aprendizaje por imitación, construimos además un agente que posee la habilidad experta de modelar elementos de diálogo basados en el punto de referencia DEMO. Experimentos extensos indican que los LLMs existentes aún muestran un considerable potencial de mejora, y nuestro agente DEMO tiene un rendimiento superior tanto en tareas dentro del dominio como fuera de él.
Las recompensas siguen siendo una forma ininterpretable de especificar tareas para el Aprendizaje por Refuerzo, ya que los humanos a menudo no pueden predecir el comportamiento óptimo de cualquier función de recompensa dada, lo que lleva a un diseño deficiente de recompensas y a manipulaciones de recompensas. El lenguaje presenta una forma atractiva de comunicar la intención a los agentes y evitar el diseño de recompensas, pero los esfuerzos previos para hacerlo han sido limitados por costosos y poco escalables esfuerzos de etiquetado. En este trabajo, proponemos un método para una alternativa completamente no supervisada para fundamentar instrucciones de lenguaje de manera de cero disparos para obtener políticas. Presentamos una solución que toma la forma de imaginar, proyectar e imitar: El agente imagina la secuencia de observación correspondiente a la descripción de lenguaje de una tarea, proyecta la secuencia imaginada a nuestro dominio objetivo y la fundamenta en una política. Los modelos de video-lenguaje nos permiten imaginar descripciones de tareas que aprovechan el conocimiento de tareas aprendidas a partir de mapeos de video-texto a escala de internet. El desafío sigue siendo fundamentar estas generaciones en una política. En este trabajo, mostramos que podemos lograr una política de lenguaje a comportamiento de cero disparos al primero fundamentar las secuencias imaginadas en observaciones reales de un agente de RL no supervisado y utilizando una solución de aprendizaje por imitación en forma cerrada que permite al agente de RL imitar las observaciones fundamentadas. Nuestro método, RLZero, es el primero que conocemos en mostrar habilidades de generación de comportamiento de lenguaje a cero disparos sin ninguna supervisión en una variedad de tareas en dominios simulados. Además, demostramos que RLZero también puede generar políticas de cero disparos a partir de videos de cuerpos cruzados, como los obtenidos de YouTube.