Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos RWKV-7 "Goose", una nueva arquitectura de modelado de secuencias, junto con modelos de lenguaje preentrenados que establecen un nuevo estado del arte en rendimiento en tareas posteriores a escala de 3 mil millones de parámetros en tareas multilingües, y que igualan el rendimiento actual del estado del arte en inglés a pesar de haber sido entrenados con significativamente menos tokens que otros modelos líderes de 3B. Sin embargo, los modelos RWKV-7 requieren solo un uso de memoria constante y un tiempo de inferencia constante por token. RWKV-7 introduce una nueva formulación generalizada de la regla delta con compuertas de valores vectoriales y tasas de aprendizaje en contexto, así como una regla de reemplazo de valores relajada. Demostramos que RWKV-7 puede realizar seguimiento de estados y reconocer todos los lenguajes regulares, manteniendo al mismo tiempo la capacidad de entrenamiento en paralelo. Esto supera las capacidades de los Transformers bajo conjeturas estándar de complejidad, que están limitados a TC^0. Para demostrar la capacidad de modelado de lenguaje de RWKV-7, también presentamos un corpus multilingüe de código abierto extendido de 3.1 billones de tokens, y entrenamos cuatro modelos RWKV-7 que van desde 0.19 mil millones hasta 2.9 mil millones de parámetros en este conjunto de datos. Para fomentar la apertura, la reproducción y la adopción, publicamos nuestros modelos y el listado de componentes del conjunto de datos en https://huggingface.co/RWKV, y nuestro código de entrenamiento e inferencia en https://github.com/RWKV/RWKV-LM, todo bajo la Licencia Apache 2.0.
El escalado de inferencia dota a los LLM de una capacidad de razonamiento sin precedentes, utilizando el aprendizaje por refuerzo como técnica central para elicitar razonamientos complejos. Sin embargo, los detalles técnicos clave de los LLM de razonamiento de última generación permanecen ocultos (como en el blog o1 de OpenAI y el informe técnico R1 de DeepSeek), por lo que la comunidad aún enfrenta dificultades para reproducir sus resultados de entrenamiento con RL. Proponemos el algoritmo Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) y liberamos completamente un sistema de RL a gran escala de última generación que alcanza 50 puntos en AIME 2024 utilizando el modelo base Qwen2.5-32B. A diferencia de trabajos previos que retienen detalles del entrenamiento, presentamos cuatro técnicas clave de nuestro algoritmo que hacen posible el RL a gran escala en LLM. Además, liberamos nuestro código de entrenamiento, construido sobre el framework verl, junto con un conjunto de datos cuidadosamente seleccionado y procesado. Estos componentes de nuestro sistema de código abierto mejoran la reproducibilidad y apoyan futuras investigaciones en RL a gran escala para LLM.
Los videos sintéticos son ampliamente utilizados en la actualidad para complementar la escasez y diversidad de videos del mundo real. Los conjuntos de datos sintéticos actuales replican principalmente escenarios del mundo real, dejando subexplorados conceptos de videos imposibles, contrafactuales y antirrealistas. Este trabajo busca responder dos preguntas: 1) ¿Pueden los modelos actuales de generación de videos seguir instrucciones de manera efectiva para crear contenido de video imposible? 2) ¿Son los modelos actuales de comprensión de videos lo suficientemente buenos para entender videos imposibles? Para ello, presentamos IPV-Bench, un nuevo punto de referencia diseñado para evaluar y fomentar el progreso en la comprensión y generación de videos. IPV-Bench se basa en una taxonomía integral que abarca 4 dominios y 14 categorías. Incluye escenas diversas que desafían las leyes físicas, biológicas, geográficas o sociales. A partir de esta taxonomía, se construye un conjunto de instrucciones para evaluar modelos de generación de videos, desafiando sus capacidades de seguimiento de instrucciones y creatividad. Además, se ha creado un conjunto de videos de referencia para evaluar la capacidad de los Video-LLMs para comprender videos imposibles, lo que requiere especialmente razonamiento sobre dinámicas temporales y conocimiento del mundo. Las evaluaciones exhaustivas revelan limitaciones e ideas para futuras direcciones de los modelos de video, allanando el camino para la próxima generación de modelos de video.
La creatividad es un aspecto fundamental de la inteligencia, que implica la capacidad de generar soluciones novedosas y apropiadas en diversos contextos. Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido ampliamente evaluados en cuanto a sus capacidades creativas, la evaluación de los Modelos Multimodales de Lenguaje de Gran Escala (MLLMs) en este ámbito sigue siendo en gran medida inexplorada. Para abordar esta brecha, presentamos Creation-MMBench, un benchmark multimodal diseñado específicamente para evaluar las capacidades creativas de los MLLMs en tareas del mundo real basadas en imágenes. El benchmark comprende 765 casos de prueba que abarcan 51 tareas detalladas. Para garantizar una evaluación rigurosa, definimos criterios de evaluación específicos para cada caso de prueba, guiando la valoración tanto de la calidad general de las respuestas como de la consistencia factual con las entradas visuales. Los resultados experimentales revelan que los MLLMs de código abierto actuales tienen un rendimiento significativamente inferior en comparación con los modelos propietarios en tareas creativas. Además, nuestro análisis demuestra que el ajuste fino visual puede afectar negativamente las habilidades creativas del LLM base. Creation-MMBench proporciona insights valiosos para avanzar en la creatividad de los MLLMs y establece una base para futuras mejoras en la inteligencia generativa multimodal. Los datos completos y el código de evaluación están disponibles en https://github.com/open-compass/Creation-MMBench.
Se necesitan urgentemente objetos articulados a gran escala y de alta calidad para múltiples tareas relacionadas con la IA encarnada. La mayoría de los métodos existentes para crear objetos articulados son basados en datos o en simulación, los cuales están limitados por la escala y calidad de los datos de entrenamiento o por la fidelidad y el intenso trabajo de la simulación. En este artículo, proponemos Infinite Mobility, un método novedoso para sintetizar objetos articulados de alta fidelidad mediante generación procedural. Un estudio de usuario y una evaluación cuantitativa demuestran que nuestro método puede producir resultados que superan a los métodos actuales más avanzados y son comparables a conjuntos de datos anotados por humanos tanto en propiedades físicas como en calidad de malla. Además, mostramos que nuestros datos sintéticos pueden utilizarse como datos de entrenamiento para modelos generativos, permitiendo una ampliación en el siguiente paso. El código está disponible en https://github.com/Intern-Nexus/Infinite-Mobility.
Los expertos humanos destacan en la discriminación visual de grano fino al aprovechar el conocimiento del dominio para refinar las características perceptivas, una capacidad que sigue estando poco desarrollada en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) actuales. A pesar de poseer un vasto conocimiento a nivel de experto, los MLLMs tienen dificultades para integrar el razonamiento en la percepción visual, generando a menudo respuestas directas sin un análisis más profundo. Para cerrar esta brecha, introducimos el anclaje visual intensivo en conocimiento (KVG), una novedosa tarea de anclaje visual que requiere tanto una percepción de grano fino como la integración de conocimiento específico del dominio. Para abordar los desafíos del KVG, proponemos DeepPerception, un MLLM mejorado con capacidades de percepción visual cognitiva. Nuestro enfoque consiste en (1) una canalización de síntesis de datos automatizada que genera muestras de entrenamiento de alta calidad alineadas con el conocimiento, y (2) un marco de entrenamiento en dos etapas que combina el ajuste fino supervisado para el andamiaje de razonamiento cognitivo y el aprendizaje por refuerzo para optimizar la sinergia percepción-cognición. Para evaluar el rendimiento, presentamos KVG-Bench, un conjunto de datos integral que abarca 10 dominios con 1.3K casos de prueba curados manualmente. Los resultados experimentales demuestran que DeepPerception supera significativamente el ajuste fino directo, logrando mejoras de +8.08\% en precisión en KVG-Bench y exhibiendo una generalización cruzada de dominio +4.60\% superior en comparación con los enfoques de referencia. Nuestros hallazgos resaltan la importancia de integrar procesos cognitivos en los MLLMs para una percepción visual similar a la humana y abren nuevas direcciones para la investigación en razonamiento multimodal. Los datos, códigos y modelos se publican en https://github.com/thunlp/DeepPerception.
La generación de audio y música ha surgido como una tarea crucial en muchas aplicaciones, sin embargo, los enfoques existentes enfrentan limitaciones significativas: operan de manera aislada sin capacidades unificadas entre modalidades, sufren de escasez de datos de entrenamiento multimodal de alta calidad y luchan por integrar de manera efectiva entradas diversas. En este trabajo, proponemos AudioX, un modelo unificado de Transformador de Difusión para la Generación de Cualquier cosa a Audio y Música. A diferencia de los modelos anteriores específicos de dominio, AudioX puede generar tanto audio general como música con alta calidad, mientras ofrece un control flexible mediante lenguaje natural y un procesamiento fluido de varias modalidades, incluyendo texto, video, imagen, música y audio. Su innovación clave es una estrategia de entrenamiento multimodal enmascarado que oculta entradas entre modalidades y obliga al modelo a aprender a partir de entradas enmascaradas, obteniendo representaciones robustas y unificadas entre modalidades. Para abordar la escasez de datos, hemos creado dos conjuntos de datos exhaustivos: vggsound-caps con 190K descripciones de audio basadas en el conjunto de datos VGGSound, y V2M-caps con 6 millones de descripciones de música derivadas del conjunto de datos V2M. Experimentos extensos demuestran que AudioX no solo iguala o supera a los modelos especializados de última generación, sino que también ofrece una versatilidad notable al manejar diversas modalidades de entrada y tareas de generación dentro de una arquitectura unificada. El código y los conjuntos de datos estarán disponibles en https://zeyuet.github.io/AudioX/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden manejar una amplia variedad de tareas generales con indicaciones simples, sin necesidad de entrenamiento específico para cada tarea. Los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés), construidos sobre los LLMs, han demostrado un potencial impresionante para abordar tareas complejas que involucran datos visuales, auditivos y textuales. Sin embargo, cuestiones críticas relacionadas con la veracidad, la seguridad, el razonamiento similar al humano y la alineación con las preferencias humanas siguen sin abordarse adecuadamente. Esta brecha ha impulsado la aparición de diversos algoritmos de alineación, cada uno dirigido a diferentes escenarios de aplicación y objetivos de optimización. Estudios recientes han demostrado que los algoritmos de alineación son un enfoque poderoso para resolver los desafíos mencionados. En este artículo, nuestro objetivo es proporcionar una revisión exhaustiva y sistemática de los algoritmos de alineación para MLLMs. Específicamente, exploramos cuatro aspectos clave: (1) los escenarios de aplicación cubiertos por los algoritmos de alineación, incluyendo la comprensión general de imágenes, múltiples imágenes, video y audio, y aplicaciones multimodales extendidas; (2) los factores centrales en la construcción de conjuntos de datos de alineación, incluyendo fuentes de datos, respuestas del modelo y anotaciones de preferencias; (3) los puntos de referencia utilizados para evaluar los algoritmos de alineación; y (4) una discusión sobre posibles direcciones futuras para el desarrollo de algoritmos de alineación. Este trabajo busca ayudar a los investigadores a organizar los avances actuales en el campo e inspirar mejores métodos de alineación. La página del proyecto de este artículo está disponible en https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
La generación de descripciones de imágenes ha sido un desafío persistente en la investigación de visión y lenguaje. Con el auge de los LLMs, los modelos modernos de visión y lenguaje (VLMs) producen descripciones de imágenes detalladas y completas. Sin embargo, la evaluación de la calidad de estas descripciones sigue sin resolverse. Este artículo aborda dos preguntas clave: (1) ¿Qué tan bien se desempeñan los VLMs actuales en la generación de descripciones de imágenes, especialmente en comparación con los humanos? Creamos CapArena, una plataforma con más de 6000 comparaciones de descripciones y votos de preferencia humana de alta calidad. Nuestra evaluación estilo arena marca un hito, mostrando que modelos líderes como GPT-4o alcanzan o incluso superan el desempeño humano, mientras que la mayoría de los modelos de código abierto se quedan atrás. (2) ¿Pueden las métricas automatizadas evaluar de manera confiable la calidad de las descripciones detalladas? Utilizando anotaciones humanas de CapArena, evaluamos métricas tradicionales y recientes de generación de descripciones, así como VLM-como-Juez. Nuestro análisis revela que, aunque algunas métricas (por ejemplo, METEOR) muestran un acuerdo decente a nivel de descripción con los humanos, sus sesgos sistemáticos conducen a inconsistencias en la clasificación de modelos. En contraste, VLM-como-Juez demuestra una discriminación robusta tanto a nivel de descripción como de modelo. Basándonos en estas ideas, lanzamos CapArena-Auto, un punto de referencia automatizado preciso y eficiente para la generación de descripciones detalladas, logrando una correlación del 94.3% con las clasificaciones humanas a solo $4 por prueba. Los datos y recursos se publicarán en código abierto en https://caparena.github.io.
Las conexiones residuales son fundamentales en las arquitecturas modernas de aprendizaje profundo, ya que permiten el entrenamiento de redes muy profundas al mitigar el problema del gradiente desvanecido. Las Hiper-Conexiones generalizaron recientemente las conexiones residuales al introducir múltiples intensidades de conexión en diferentes profundidades, abordando así el efecto de balancín entre el gradiente desvanecido y el colapso de la representación. Sin embargo, las Hiper-Conexiones aumentan los costos de acceso a memoria al expandir el ancho de los estados ocultos. En este artículo, proponemos Frac-Conexiones, un enfoque novedoso que divide los estados ocultos en múltiples partes en lugar de expandir su ancho. Las Frac-Conexiones conservan parcialmente los beneficios de las Hiper-Conexiones mientras reducen el consumo de memoria. Para validar su eficacia, realizamos experimentos a gran escala en tareas de lenguaje, siendo el más grande un modelo MoE de 7B entrenado con hasta 3T tokens, demostrando que las Frac-Conexiones superan significativamente a las conexiones residuales.
Presentamos Cosmos-Transfer, un modelo de generación condicional de mundos que puede generar simulaciones de mundos basadas en múltiples entradas de control espacial de diversas modalidades, como segmentación, profundidad y bordes. En su diseño, el esquema condicional espacial es adaptable y personalizable. Permite ponderar diferentes entradas condicionales de manera distinta en distintas ubicaciones espaciales. Esto posibilita una generación de mundos altamente controlable y encuentra utilidad en varios casos de uso de transferencia de mundo a mundo, incluyendo Sim2Real. Realizamos evaluaciones exhaustivas para analizar el modelo propuesto y demostramos sus aplicaciones para la IA física, incluyendo Sim2Real en robótica y enriquecimiento de datos para vehículos autónomos. Además, demostramos una estrategia de escalado de inferencia para lograr generación de mundos en tiempo real con un rack NVIDIA GB200 NVL72. Para ayudar a acelerar el desarrollo de investigación en el campo, hemos liberado nuestros modelos y código en https://github.com/nvidia-cosmos/cosmos-transfer1.
Generar escenas 3D con vistas flexibles, incluyendo rotaciones de 360° y zoom, a partir de imágenes individuales es un desafío debido a la falta de datos 3D. Para abordar esto, presentamos FlexWorld, un marco novedoso que consta de dos componentes clave: (1) un modelo de difusión video-a-video (V2V) robusto para generar imágenes de nuevas vistas de alta calidad a partir de entradas incompletas renderizadas desde una escena aproximada, y (2) un proceso de expansión progresiva para construir una escena 3D completa. En particular, aprovechando un modelo de video preentrenado avanzado y pares de entrenamiento con estimación precisa de profundidad, nuestro modelo V2V puede generar nuevas vistas bajo grandes variaciones de pose de cámara. Sobre esta base, FlexWorld genera progresivamente nuevo contenido 3D y lo integra en la escena global mediante una fusión de escena consciente de la geometría. Experimentos extensos demuestran la efectividad de FlexWorld en la generación de videos de nuevas vistas de alta calidad y escenas 3D con vistas flexibles a partir de imágenes individuales, logrando una calidad visual superior bajo múltiples métricas y conjuntos de datos populares en comparación con los métodos más avanzados existentes. Cualitativamente, destacamos que FlexWorld puede generar escenas de alta fidelidad con vistas flexibles como rotaciones de 360° y zoom. Página del proyecto: https://ml-gsai.github.io/FlexWorld.
Modelar imágenes masivas de manera eficiente es un desafío de larga data en el aprendizaje automático. Para abordar este problema, presentamos la Atención Multi-Escala (MSA, por sus siglas en inglés). MSA se basa en dos ideas clave: (i) representaciones multi-escala y (ii) comunicación bidireccional entre escalas. MSA crea O(log N) escalas para representar la imagen a través de características progresivamente más gruesas y aprovecha la atención cruzada para propagar información entre escalas. Luego, presentamos Atlas, una novedosa arquitectura de red neuronal basada en MSA. Demostramos que Atlas mejora significativamente la relación entre rendimiento y cómputo en el modelado de imágenes de contexto largo en una variante de alta resolución de ImageNet 100. A una resolución de 1024px, Atlas-B alcanza un 91.04% de precisión, comparable a ConvNext-B (91.92%) mientras es 4.3 veces más rápido. Atlas es 2.95 veces más rápido y un 7.38% mejor que FasterViT, y 2.25 veces más rápido y un 4.96% mejor que LongViT. En comparaciones contra MambaVision-S, encontramos que Atlas-S logra un 5%, 16% y 32% más de precisión a 1024px, 2048px y 4096px respectivamente, mientras obtiene tiempos de ejecución similares. El código para reproducir nuestros experimentos y los modelos preentrenados está disponible en https://github.com/yalalab/atlas.
A pesar del rápido progreso en los benchmarks de IA, el significado en el mundo real del rendimiento en estos benchmarks sigue siendo poco claro. Para cuantificar las capacidades de los sistemas de IA en términos de las capacidades humanas, proponemos una nueva métrica: el horizonte temporal de finalización del 50% de las tareas. Este es el tiempo que los humanos suelen tardar en completar tareas que los modelos de IA pueden completar con una tasa de éxito del 50%. Primero cronometramos a humanos con experiencia relevante en una combinación de RE-Bench, HCAST y 66 tareas nuevas más cortas. En estas tareas, los modelos de IA de vanguardia actuales, como Claude 3.7 Sonnet, tienen un horizonte temporal del 50% de alrededor de 50 minutos. Además, el horizonte temporal de la IA de vanguardia se ha duplicado aproximadamente cada siete meses desde 2019, aunque la tendencia puede haberse acelerado en 2024. El aumento en los horizontes temporales de los modelos de IA parece estar impulsado principalmente por una mayor confiabilidad y capacidad para adaptarse a los errores, combinado con mejores capacidades de razonamiento lógico y uso de herramientas. Discutimos las limitaciones de nuestros resultados, incluido su grado de validez externa, y las implicaciones del aumento de la autonomía para capacidades peligrosas. Si estos resultados se generalizan a tareas de software del mundo real, la extrapolación de esta tendencia predice que, dentro de 5 años, los sistemas de IA serán capaces de automatizar muchas tareas de software que actualmente llevan un mes a los humanos.
La verificación es crucial para un razonamiento matemático efectivo. Presentamos un nuevo método de consistencia temporal en el que los verificadores refinan iterativamente sus juicios basándose en la evaluación previa. A diferencia de los enfoques de verificación en una sola ronda o de debate multi-modelo, nuestro método aprovecha la consistencia en una secuencia de acciones de autorreflexión para mejorar la precisión de la verificación. Las evaluaciones empíricas en diversos puntos de referencia para la identificación de errores en procesos matemáticos (Mathcheck, ProcessBench y PRM800K) muestran mejoras consistentes en el rendimiento respecto a los métodos base. Cuando se aplica a los modelos destilados recientes DeepSeek R1, nuestro método demuestra un rendimiento sólido, permitiendo que los modelos destilados de 7B/8B superen a todos los modelos de 70B/72B y a GPT-4o en ProcessBench. Cabe destacar que el modelo destilado de 14B con nuestro método alcanza un rendimiento comparable al de DeepSeek-R1. Nuestros códigos están disponibles en https://github.com/jcguo123/Temporal-Consistency.
Presentamos Concat-ID, un marco unificado para la generación de videos que preservan la identidad. Concat-ID emplea Autoencoders Variacionales para extraer características de imágenes, las cuales se concatenan con latentes de video a lo largo de la dimensión de secuencia, aprovechando únicamente mecanismos de auto-atención 3D sin necesidad de módulos adicionales. Se introduce una novedosa estrategia de emparejamiento cruzado entre videos y un régimen de entrenamiento en múltiples etapas para equilibrar la consistencia de la identidad y la capacidad de edición facial, mejorando al mismo tiempo la naturalidad del video. Experimentos exhaustivos demuestran la superioridad de Concat-ID sobre los métodos existentes tanto en la generación de identidad única como múltiple, así como su escalabilidad fluida a escenarios de múltiples sujetos, incluyendo pruebas virtuales y generación con control de fondo. Concat-ID establece un nuevo referente en la síntesis de videos que preservan la identidad, ofreciendo una solución versátil y escalable para una amplia gama de aplicaciones.
El razonamiento es una capacidad esencial para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a la hora de abordar tareas complejas, donde la identificación de errores en el proceso es vital para mejorar esta habilidad. Recientemente, se propusieron modelos de recompensa a nivel de proceso (PRMs, por sus siglas en inglés) para proporcionar recompensas paso a paso que facilitan el aprendizaje por refuerzo y la producción de datos durante el entrenamiento, y guían a los LLMs hacia pasos correctos durante la inferencia, mejorando así la precisión del razonamiento. Sin embargo, los benchmarks existentes para PRMs están basados en texto y se centran en la detección de errores, descuidando otros escenarios como la búsqueda de razonamiento. Para abordar esta brecha, presentamos MPBench, un benchmark multimodal y multitarea diseñado para evaluar sistemáticamente la efectividad de los PRMs en diversos escenarios. MPBench emplea tres paradigmas de evaluación, cada uno dirigido a un rol específico de los PRMs en el proceso de razonamiento: (1) Corrección de Pasos, que evalúa la corrección de cada paso intermedio del razonamiento; (2) Agregación de Respuestas, que combina múltiples soluciones y selecciona la mejor; y (3) Búsqueda del Proceso de Razonamiento, que guía la búsqueda de los pasos óptimos durante la inferencia. A través de estos paradigmas, MPBench realiza evaluaciones exhaustivas y proporciona insights para el desarrollo de PRMs multimodales.
El enfoque predominante para avanzar en la generación de texto a imagen ha sido el escalamiento durante el entrenamiento, donde modelos más grandes se entrenan con más datos utilizando mayores recursos computacionales. Aunque efectivo, este enfoque es computacionalmente costoso, lo que ha generado un creciente interés en el escalamiento durante la inferencia para mejorar el rendimiento. Actualmente, el escalamiento durante la inferencia para modelos de difusión de texto a imagen se limita principalmente al muestreo de mejor-de-N, donde se generan múltiples imágenes por prompt y un modelo de selección elige la mejor salida. Inspirados por el reciente éxito de modelos de razonamiento como DeepSeek-R1 en el dominio del lenguaje, introducimos una alternativa al muestreo ingenuo de mejor-de-N al equipar a los Transformadores de Difusión (DiT) con capacidades de reflexión en contexto. Proponemos Reflect-DiT, un método que permite a los Transformadores de Difusión refinar sus generaciones utilizando ejemplos en contexto de imágenes previamente generadas junto con retroalimentación textual que describe las mejoras necesarias. En lugar de depender pasivamente del muestreo aleatorio y esperar un mejor resultado en una generación futura, Reflect-DiT adapta explícitamente sus generaciones para abordar aspectos específicos que requieren mejora. Los resultados experimentales demuestran que Reflect-DiT mejora el rendimiento en el benchmark GenEval (+0.19) utilizando SANA-1.0-1.6B como modelo base. Además, alcanza un nuevo estado del arte con una puntuación de 0.81 en GenEval mientras genera solo 20 muestras por prompt, superando la mejor puntuación anterior de 0.80, que se obtuvo utilizando un modelo significativamente más grande (SANA-1.5-4.8B) con 2048 muestras bajo el enfoque de mejor-de-N.
Los modelos de lenguaje multimodal de gran escala (MLLMs) destacan en la comprensión visual 2D, pero siguen siendo limitados en su capacidad para razonar sobre el espacio 3D. En este trabajo, aprovechamos datos de escenas 3D a gran escala y de alta calidad con anotaciones de conjunto abierto para introducir 1) un nuevo conjunto de datos de ajuste fino supervisado y 2) un nuevo punto de referencia de evaluación, centrado en escenas interiores. Nuestro conjunto de datos Cubify Anything VQA (CA-VQA) abarca diversas tareas espaciales, incluyendo la predicción de relaciones espaciales, la estimación de tamaños y distancias métricas, y la anclaje 3D. Demostramos que CA-VQA nos permite entrenar MM-Spatial, un MLLM generalista robusto que también alcanza un rendimiento de vanguardia en puntos de referencia de comprensión espacial 3D, incluido el nuestro. Mostramos cómo la incorporación de profundidad métrica y entradas de múltiples vistas (proporcionadas en CA-VQA) puede mejorar aún más la comprensión 3D, y demostramos que los datos por sí solos permiten que nuestro modelo alcance capacidades de percepción de profundidad comparables a los modelos dedicados a la estimación de profundidad monocular. Publicaremos nuestro conjunto de datos de ajuste fino (SFT) y el punto de referencia.
A pesar de sus impresionantes capacidades, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) enfrentan desafíos en la percepción de detalles finos y el razonamiento complejo. Los enfoques predominantes de preentrenamiento multimodal se centran en mejorar la percepción mediante el entrenamiento con descripciones de imágenes de alta calidad, debido al costo extremadamente alto de recopilar datos de razonamiento en cadena de pensamiento (CoT) para mejorar el razonamiento. Si bien el aprovechamiento de MLLMs avanzados para la generación de descripciones aumenta la escalabilidad, los resultados a menudo carecen de exhaustividad y precisión. En este artículo, presentamos Self-Improving cognition (SIcog), un marco de autoaprendizaje diseñado para construir MLLMs de próxima generación mejorando sus capacidades cognitivas sistemáticas mediante el preentrenamiento multimodal con datos autogenerados. Específicamente, proponemos Chain-of-Description, un enfoque que mejora la percepción sistemática de un MLLM al permitir una comprensión visual paso a paso, asegurando una mayor exhaustividad y precisión. Además, adoptamos una técnica estructurada de razonamiento CoT para permitir que los MLLMs integren un razonamiento multimodal profundo. Para construir un MLLM de próxima generación con cognición auto-mejorada, SIcog primero equipa a un MLLM con habilidades sistemáticas de percepción y razonamiento utilizando anotaciones externas mínimas. Los modelos mejorados luego generan descripciones detalladas y datos de razonamiento CoT, que se curan adicionalmente mediante auto-consistencia. Estos datos curados se utilizan finalmente para el preentrenamiento multimodal con el fin de desarrollar modelos de próxima generación. Experimentos extensos en MLLMs de baja y alta resolución en diversos benchmarks demuestran que, con apenas 213K muestras de preentrenamiento autogeneradas, SIcog produce MLLMs de próxima generación con una cognición significativamente mejorada, logrando un rendimiento líder en los benchmarks en comparación con los enfoques de preentrenamiento predominantes.
La transferencia interlingüística permite que los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) realicen tareas de visión en varios idiomas utilizando datos de entrenamiento en un solo idioma. Los enfoques actuales dependen de grandes modelos de lenguaje multilingües preentrenados. Sin embargo, enfrentan la maldición de la multilingüidad, sacrificando el rendimiento en tareas específicas por capacidades multilingües, lidiando con ambigüedades léxicas y quedándose atrás respecto a avances recientes. En este trabajo, estudiamos las leyes de escalamiento de la generalización sistemática con VLMs monolingües para tareas multilingües, centrándonos en el impacto del tamaño del modelo y las muestras de entrenamiento vistas. Proponemos Florenz, un VLM codificador-decodificador monolingüe con parámetros que van desde 0.4B hasta 11.2B, que combina el VLM preentrenado Florence-2 y el modelo de lenguaje grande Gemma-2. Florenz se entrena con diferentes presupuestos computacionales en un conjunto de datos sintético que presenta una cobertura lingüística intencionalmente incompleta para la generación de descripciones de imágenes, probando así la generalización a partir de la tarea de traducción completamente cubierta. Demostramos que no solo el aprendizaje indirecto de pares tarea-idioma no vistos sigue una ley de escalamiento, sino que, con nuestra pipeline de generación de datos y la familia de modelos Florenz propuesta, las capacidades de generación de descripciones de imágenes pueden surgir en un idioma específico incluso cuando solo se dispone de datos para la tarea de traducción. El ajuste fino en una mezcla de conjuntos de datos de tareas específicas produce un rendimiento competitivo y muestra tendencias prometedoras de escalamiento en traducción multimodal (Multi30K, CoMMuTE), desambiguación léxica (CoMMuTE) y generación de descripciones de imágenes (Multi30K, XM3600, COCO Karpathy).
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas de procesamiento del lenguaje natural. Sin embargo, lograr un rendimiento sólido en dominios especializados, como el razonamiento matemático y los idiomas no ingleses, a menudo requiere un entrenamiento extensivo en conjuntos de datos masivos. Este artículo investiga un enfoque contrastante: el ajuste fino estratégico en un conjunto de datos pequeño, de alta calidad y bilingüe (inglés-francés) para mejorar tanto las capacidades de razonamiento como la competencia en francés de un modelo de lenguaje de gran escala. En lugar de depender de la escala, exploramos la hipótesis de que la curación de datos dirigida y el entrenamiento optimizado pueden lograr un rendimiento competitivo, o incluso superior. Demostramos, mediante un ajuste fino supervisado (SFT) dirigido en solo 2,000 muestras cuidadosamente seleccionadas, mejoras significativas en el razonamiento matemático. Específicamente, Pensez 7B exhibe un aumento en la precisión del modelo base de hasta un 20% en AIME25 y un incremento del 12% en un punto de referencia de nivel 5 de MATH en francés. Estos resultados desafían la suposición predominante de que los conjuntos de datos masivos son un requisito previo para un rendimiento sólido en el razonamiento de los LLMs, destacando el potencial de la curación de datos estratégica y el ajuste fino optimizado para mejorar tanto habilidades especializadas como capacidades multilingües. Nuestros hallazgos tienen implicaciones para el desarrollo eficiente de LLMs multilingües de alto rendimiento, especialmente en escenarios con recursos limitados.
En los últimos años, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado avances notables en tareas como la respuesta a preguntas visuales, la comprensión visual y el razonamiento. Sin embargo, este progreso impresionante depende de grandes cantidades de datos recopilados de internet, lo que plantea preocupaciones significativas sobre la privacidad y la seguridad. Para abordar estos problemas, el "desaprendizaje" en machine learning (MU, por sus siglas en inglés) ha surgido como una solución prometedora, permitiendo la eliminación de conocimientos específicos de un modelo ya entrenado sin necesidad de volver a entrenarlo desde cero. Aunque el MU para MLLMs ha ganado atención, las evaluaciones actuales de su eficacia siguen siendo incompletas, y el problema subyacente a menudo está mal definido, lo que dificulta el desarrollo de estrategias para crear sistemas más seguros y confiables. Para cerrar esta brecha, presentamos un benchmark, denominado PEBench, que incluye un conjunto de datos de entidades personales y escenas de eventos generales correspondientes, diseñado para evaluar de manera integral el rendimiento del MU en MLLMs. A través de PEBench, nuestro objetivo es proporcionar un marco estandarizado y robusto para avanzar en la investigación de modelos multimodales seguros y que preserven la privacidad. Evaluamos 6 métodos de MU, revelando sus fortalezas y limitaciones, y arrojando luz sobre los desafíos clave y las oportunidades para el MU en MLLMs.
Una evaluación ideal de modelos debería alcanzar dos objetivos: identificar dónde falla el modelo y proporcionar orientación accionable para su mejora. Con estos objetivos en mente para las evaluaciones de Modelos de Lenguaje (LM), formulamos el problema de generar un perfil de debilidades, un conjunto de debilidades expresadas en lenguaje natural, basado en el rendimiento de un LM en cada instancia individual de un benchmark. Introducimos un conjunto de evaluaciones cuantitativas para comparar diferentes métodos de generación de perfiles de debilidades. También proponemos un método de generación de perfiles de debilidades llamado EvalTree. Este método construye un árbol de capacidades donde cada nodo representa una capacidad descrita en lenguaje natural y está vinculado a un subconjunto de instancias del benchmark que evalúan específicamente esta capacidad; luego extrae los nodos donde el LM tiene un rendimiento deficiente para generar un perfil de debilidades. En los benchmarks MATH y WildChat, demostramos que EvalTree supera a los métodos base de generación de perfiles de debilidades al identificar las debilidades de manera más precisa y exhaustiva. La generación de perfiles de debilidades también permite la recopilación de datos guiada por debilidades, y la recopilación de datos de entrenamiento guiada por las debilidades identificadas por EvalTree mejora el rendimiento del LM más que otras estrategias de recopilación de datos. También mostramos cómo EvalTree expone fallas en la práctica de evaluación basada en votantes humanos de Chatbot Arena. Para facilitar trabajos futuros, publicamos nuestro código y una interfaz que permite a los profesionales explorar interactivamente los árboles de capacidades construidos por EvalTree.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en razonamiento, aunque conllevan un costo computacional sustancial, lo que limita su implementación en entornos con recursos restringidos. A pesar de los esfuerzos recientes para mejorar la eficiencia de los MLLMs, las soluciones anteriores no logran responder adecuadamente a las condiciones variables en tiempo de ejecución, en particular a la disponibilidad cambiante de recursos (por ejemplo, la contención debido a la ejecución de otros programas en el dispositivo). Para cerrar esta brecha, presentamos AdaLLaVA, un marco de inferencia adaptativo que aprende a reconfigurar dinámicamente las operaciones en un MLLM durante la inferencia, teniendo en cuenta los datos de entrada y un presupuesto de latencia. Realizamos experimentos exhaustivos en diversos benchmarks que involucran respuestas a preguntas, razonamiento y alucinaciones. Nuestros resultados muestran que AdaLLaVA se adhiere efectivamente al presupuesto de latencia de entrada, logrando diversos equilibrios entre precisión y latencia en tiempo de ejecución. Además, demostramos que AdaLLaVA se adapta tanto a la latencia como al contenido de la entrada, puede integrarse con la selección de tokens para mejorar la eficiencia y generaliza su funcionamiento en diferentes MLLMs. Nuestra página web del proyecto con el código liberado se encuentra en https://zhuoyan-xu.github.io/ada-llava/.
La adaptación de dominio en grafos ha surgido como un enfoque prometedor para facilitar la transferencia de conocimiento entre diferentes dominios. Recientemente, se han propuesto numerosos modelos para mejorar sus capacidades de generalización en este campo. Sin embargo, aún no existe una biblioteca unificada que reúna las técnicas existentes y simplifique su implementación. Para llenar este vacío, presentamos PyGDA, una biblioteca de Python de código abierto diseñada específicamente para la adaptación de dominio en grafos. Como la primera biblioteca integral en esta área, PyGDA cubre más de 20 métodos ampliamente utilizados de adaptación de dominio en grafos, junto con diferentes tipos de conjuntos de datos de grafos. Específicamente, PyGDA ofrece componentes modulares, permitiendo a los usuarios construir modelos personalizados de manera fluida con una variedad de funciones de utilidad comúnmente utilizadas. Para manejar grafos a gran escala, PyGDA incluye soporte para características como muestreo y procesamiento por mini-lotes, asegurando un cálculo eficiente. Además, PyGDA también incluye puntos de referencia de rendimiento exhaustivos y una API bien documentada y fácil de usar tanto para investigadores como para profesionales. Para fomentar una accesibilidad conveniente, PyGDA se publica bajo la licencia MIT en https://github.com/pygda-team/pygda, y la documentación de la API está disponible en https://pygda.readthedocs.io/en/stable/.
Los modelos generativos han logrado avances notables recientemente en el campo de los objetos 3D. Sin embargo, su aplicación práctica en áreas como la ingeniería sigue siendo limitada, ya que no alcanzan la precisión, calidad y controlabilidad necesarias para tareas específicas del dominio. El ajuste fino de modelos generativos de gran escala representa una perspectiva prometedora para hacer que estos modelos estén disponibles en estos campos. La creación de conjuntos de datos 3D de alta calidad y específicos del dominio es crucial para el ajuste fino de modelos generativos grandes, aunque el proceso de filtrado y anotación de datos sigue siendo un cuello de botella significativo. Presentamos MeshFleet, un conjunto de datos de vehículos 3D filtrado y anotado, extraído de Objaverse-XL, la colección de objetos 3D más extensa disponible públicamente. Nuestro enfoque propone una canalización para el filtrado automatizado de datos basado en un clasificador de calidad. Este clasificador se entrena en un subconjunto etiquetado manualmente de Objaverse, incorporando incrustaciones de DINOv2 y SigLIP, refinadas mediante análisis basado en descripciones y estimación de incertidumbre. Demostramos la eficacia de nuestro método de filtrado a través de un análisis comparativo frente a técnicas basadas en puntuaciones estéticas de imágenes y descripciones, así como experimentos de ajuste fino con SV3D, destacando la importancia de la selección de datos dirigida para el modelado generativo 3D específico del dominio.
Abordar la recuperación de contenido inseguro en modelos de visión y lenguaje como CLIP es un paso importante hacia su integración en el mundo real. Los esfuerzos actuales se han basado en técnicas de desaprendizaje que intentan eliminar el conocimiento del modelo sobre conceptos inseguros. Aunque efectivas para reducir salidas no deseadas, estas técnicas limitan la capacidad del modelo para discernir entre contenido seguro e inseguro. En este trabajo, presentamos un enfoque novedoso que cambia del desaprendizaje a un paradigma de conciencia, aprovechando las propiedades jerárquicas inherentes del espacio hiperbólico. Proponemos codificar el contenido seguro e inseguro como una jerarquía de implicación, donde ambos se colocan en diferentes regiones del espacio hiperbólico. Nuestro HySAC, CLIP Hiperbólico con Conciencia de Seguridad, emplea funciones de pérdida de implicación para modelar las relaciones jerárquicas y asimétricas entre pares de imagen-texto seguros e inseguros. Este modelado, ineficaz en modelos estándar de visión y lenguaje debido a su dependencia de incrustaciones euclidianas, dota al modelo de conciencia sobre el contenido inseguro, permitiéndole funcionar tanto como un clasificador multimodal de contenido inseguro como un recuperador flexible de contenido, con la opción de redirigir dinámicamente consultas inseguras hacia alternativas más seguras o mantener la salida original. Experimentos exhaustivos muestran que nuestro enfoque no solo mejora el reconocimiento de seguridad, sino que también establece un marco más adaptable e interpretable para la moderación de contenido en modelos de visión y lenguaje. Nuestro código fuente está disponible en https://github.com/aimagelab/HySAC.
Con el rápido avance de los modelos de lenguaje de gran escala (LLMs) y los modelos de visión-lenguaje (VLMs), se han logrado avances significativos en el desarrollo de sistemas de manipulación robótica de vocabulario abierto. Sin embargo, muchos enfoques existentes pasan por alto la importancia de la dinámica de los objetos, lo que limita su aplicabilidad a tareas más complejas y dinámicas. En este trabajo, presentamos KUDA, un sistema de manipulación de vocabulario abierto que integra el aprendizaje de dinámicas y el prompting visual a través de puntos clave, aprovechando tanto los VLMs como los modelos de dinámica neuronal basados en aprendizaje. Nuestra idea clave es que una especificación de objetivos basada en puntos clave es simultáneamente interpretable por los VLMs y puede traducirse eficientemente en funciones de costo para la planificación basada en modelos. Dadas instrucciones en lenguaje natural y observaciones visuales, KUDA primero asigna puntos clave a la imagen RGB y consulta el VLM para generar especificaciones de objetivos. Estas representaciones abstractas basadas en puntos clave se convierten luego en funciones de costo, que se optimizan utilizando un modelo de dinámica aprendido para producir trayectorias robóticas. Evaluamos KUDA en una variedad de tareas de manipulación, incluyendo instrucciones de lenguaje libre en diversas categorías de objetos, interacciones con múltiples objetos y objetos deformables o granulares, demostrando la efectividad de nuestro marco de trabajo. La página del proyecto está disponible en http://kuda-dynamics.github.io.
La Percepción Colaborativa en Carretera se refiere a un sistema donde múltiples unidades en el borde de la carretera colaboran para combinar sus datos perceptivos, ayudando a los vehículos a mejorar su conciencia del entorno. Los métodos existentes de percepción en carretera se centran en el diseño de modelos pero pasan por alto problemas de datos como errores de calibración, información dispersa y consistencia multi-vista, lo que resulta en un rendimiento deficiente en los conjuntos de datos publicados recientemente. Para mejorar significativamente la percepción colaborativa en carretera y abordar problemas críticos de datos, presentamos el primer marco de simulación RoCo-Sim para la percepción colaborativa en carretera. RoCo-Sim es capaz de generar datos simulados diversos y consistentes en multi-vista a través de la edición dinámica de primer plano y la transferencia de estilo de escena completa de una sola imagen. RoCo-Sim consta de cuatro componentes: (1) La Optimización de Extrínsecos de Cámara asegura una proyección precisa de 3D a 2D para las cámaras en carretera; (2) Un nuevo Muestreador Consciente de Oclusión Multi-Vista (MOAS) determina la ubicación de diversos activos digitales dentro del espacio 3D; (3) DepthSAM modela de manera innovadora las relaciones entre primer plano y fondo a partir de imágenes de vista fija de un solo fotograma, asegurando la consistencia multi-vista del primer plano; y (4) Un Kit de Herramientas de Post-Procesamiento Escalable genera escenas más realistas y enriquecidas mediante transferencia de estilo y otras mejoras. RoCo-Sim mejora significativamente la detección de objetos 3D en carretera, superando a los métodos SOTA en 83.74 en Rcooper-Intersection y 83.12 en TUMTraf-V2X para AP70. RoCo-Sim llena un vacío crítico en la simulación de percepción en carretera. El código y los modelos pre-entrenados se lanzarán pronto: https://github.com/duyuwen-duen/RoCo-Sim
La conducción autónoma cooperativa entre vehículos (V2V) tiene un gran potencial para mejorar la seguridad al abordar las incertidumbres de percepción y predicción inherentes a los sistemas de un solo agente. Sin embargo, los métodos cooperativos tradicionales están limitados por protocolos de colaboración rígidos y una generalización limitada a escenarios interactivos no vistos. Si bien los enfoques basados en LLM (Modelos de Lenguaje de Gran Escala) ofrecen capacidades de razonamiento generalizado, sus desafíos en la planificación espacial y la latencia de inferencia inestable dificultan su aplicación directa en la conducción cooperativa. Para abordar estas limitaciones, proponemos CoLMDriver, el primer sistema de conducción cooperativa basado en LLM de tubería completa, que permite una negociación efectiva basada en lenguaje y un control de conducción en tiempo real. CoLMDriver cuenta con una tubería de conducción paralela con dos componentes clave: (i) un módulo de negociación basado en LLM bajo un paradigma actor-crítico, que refina continuamente las políticas de cooperación a través de la retroalimentación de decisiones previas de todos los vehículos; y (ii) un generador de puntos de referencia guiado por intenciones, que traduce los resultados de la negociación en puntos de referencia ejecutables. Además, presentamos InterDrive, un punto de referencia de simulación basado en CARLA que comprende 10 escenarios de conducción interactiva desafiantes para evaluar la cooperación V2V. Los resultados experimentales demuestran que CoLMDriver supera significativamente a los enfoques existentes, logrando una tasa de éxito un 11% mayor en diversos escenarios de conducción V2V altamente interactivos. El código se publicará en https://github.com/cxliu0314/CoLMDriver.