Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en grandes modelos generativos multimodales han demostrado capacidades impresionantes en generación multimodal, incluyendo la generación de imágenes y videos. Estos modelos generalmente se construyen sobre marcos de múltiples pasos como difusión y flow matching, lo que limita inherentemente su eficiencia de inferencia (requiriendo 40-100 Evaluaciones de Función - NFE). Si bien varios métodos de pocos pasos buscan acelerar la inferencia, las soluciones existentes tienen limitaciones claras. Los métodos prominentes basados en destilación, como la destilación progresiva y de consistencia, requieren un procedimiento de destilación iterativo o muestran una degradación significativa en muy pocos pasos (<4-NFE). Mientras tanto, integrar entrenamiento adversarial en la destilación (por ejemplo, DMD/DMD2 y SANA-Sprint) para mejorar el rendimiento introduce inestabilidad en el entrenamiento, complejidad adicional y alto consumo de memoria de GPU debido a los modelos auxiliares entrenados. Para ello, proponemos TwinFlow, un marco simple pero efectivo para entrenar modelos generativos de 1 paso que evita la necesidad de modelos de profesor preentrenados fijos y evita redes adversariales estándar durante el entrenamiento, haciéndolo ideal para construir modelos eficientes a gran escala. En tareas de texto a imagen, nuestro método logra un puntaje GenEval de 0.83 en 1-NFE, superando a líneas base sólidas como SANA-Sprint (un marco basado en pérdida GAN) y RCGM (un marco basado en consistencia). Notablemente, demostramos la escalabilidad de TwinFlow mediante entrenamiento de parámetros completos en Qwen-Image-20B y lo transformamos en un generador eficiente de pocos pasos. Con solo 1-NFE, nuestro enfoque iguala el rendimiento del modelo original de 100-NFE tanto en los benchmarks GenEval como DPG-Bench, reduciendo el costo computacional 100 veces con una degradación de calidad menor. La página del proyecto está disponible en https://zhenglin-cheng.com/twinflow.
La edición de imágenes basada en instrucciones ha surgido como un área de investigación prominente que, beneficiándose de los modelos base de generación de imágenes, ha logrado una alta calidad estética, haciendo de la capacidad de seguimiento de instrucciones el principal desafío. Los enfoques existentes mejoran la adherencia a las instrucciones mediante aprendizaje supervisado o por refuerzo, aunque las tasas de éxito en interacciones únicas siguen siendo limitadas debido a la estocasticidad inherente y a la falta de deliberación. En este trabajo, proponemos un marco de edición deliberativa para "pensar" durante la edición, que simula el bucle cognitivo humano mediante la ejecución iterativa de un ciclo Pensar-mientras-Se-Edita: Criticar resultados y Refinar instrucciones, seguido de Repetir la generación hasta lograr un resultado satisfactorio. Específicamente, entrenamos un único MLLM, EditThinker, para actuar como motor de razonamiento de este marco, produciendo conjuntamente la puntuación de crítica, el proceso de razonamiento y las instrucciones refinadas. Empleamos aprendizaje por refuerzo para alinear el pensamiento de EditThinker con su edición, generando así mejoras de instrucciones más dirigidas. Experimentos exhaustivos en cuatro benchmarks demuestran que nuestro enfoque mejora significativamente la capacidad de seguimiento de instrucciones de cualquier modelo de edición de imágenes por un amplio margen. Liberaremos nuestro marco de construcción de datos, conjuntos de datos y modelos para beneficiar a la comunidad.
El aprendizaje por refuerzo ha surgido como un paradigma para el posentrenamiento de modelos de lenguaje grandes, potenciando sus capacidades de razonamiento. Dichos enfoques calculan un valor de ventaja para cada muestra, que refleja un rendimiento mejor o peor del esperado, generando así señales tanto positivas como negativas para el entrenamiento. Sin embargo, la mezcla indiscriminada de ambas señales en los métodos existentes, especialmente desde las etapas iniciales, puede conducir a una guía ambigua y ganancias limitadas. Para abordar este problema, proponemos **CAPO** (**O**ptimización de **P**olítica de **V**entaja basada en **C**urrículo), un mecanismo curricular adaptativo basado en señales de ventaja. El mecanismo propuesto inicia el aprendizaje por imitación utilizando únicamente muestras con ventaja positiva para establecer bases sólidas, e introduce posteriormente las señales negativas para cultivar capacidades discriminativas, mejorando así la generalización en escenarios complejos. Compatible con diversos métodos de optimización como GRPO, PPO, RLOO y Reinforce++, nuestro método logra consistentemente mejoras estables y significativas en tareas de razonamiento matemático, y además generaliza eficazmente a escenarios de razonamiento multimodal en Interfaces Gráficas de Usuario (GUI), estableciéndose como un marco de optimización versátil y robusto.
La generación consistente de imágenes requiere preservar fielmente identidades, estilos y coherencia lógica a través de múltiples imágenes, lo cual es esencial para aplicaciones como narrativa visual y diseño de personajes. Los enfoques de entrenamiento supervisado enfrentan dificultades en esta tarea debido a la escasez de conjuntos de datos a gran escala que capturen consistencia visual y la complejidad de modelar preferencias perceptuales humanas. En este artículo, sostenemos que el aprendizaje por refuerzo (RL) ofrece una alternativa prometedora al permitir que los modelos aprendan criterios visuales complejos y subjetivos sin necesidad de datos. Para lograrlo, presentamos PaCo-RL, un marco integral que combina un modelo de recompensa de consistencia especializado con un algoritmo de RL eficiente. El primer componente, PaCo-Reward, es un evaluador de consistencia por pares entrenado en un conjunto de datos a gran escala construido mediante emparejamiento automático de subfiguras. Evalúa la consistencia mediante un mecanismo de puntuación generativo y autorregresivo mejorado con instrucciones específicas por tarea y razonamientos CoT. El segundo componente, PaCo-GRPO, aprovecha una novedosa estrategia de optimización desacoplada por resolución para reducir sustancialmente el costo de RL, junto con un mecanismo de agregación de múltiples recompensas log-domadas que garantiza una optimización equilibrada y estable. Experimentos exhaustivos en dos subtareas representativas demuestran que PaCo-Reward mejora significativamente la alineación con las percepciones humanas de consistencia visual, y PaCo-GRPO alcanza un rendimiento de consistencia state-of-the-art con mayor eficiencia y estabilidad en el entrenamiento. En conjunto, estos resultados destacan el potencial de PaCo-RL como una solución práctica y escalable para la generación consistente de imágenes. La página del proyecto está disponible en https://x-gengroup.github.io/HomePage_PaCo-RL/.
Proponemos EMMA, una arquitectura eficiente y unificada para la comprensión, generación y edición multimodal. Específicamente, EMMA se compone principalmente de: 1) Un autoencoder eficiente con una relación de compresión de 32x, que reduce significativamente el número de tokens necesarios para la generación. Esto también garantiza el equilibrio en el entrenamiento entre las tareas de comprensión y generación al aplicar la misma relación de compresión a las imágenes. 2) Una concatenación por canales en lugar de una concatenación por tokens entre los tokens de comprensión y generación visual, lo que reduce aún más los tokens visuales en las arquitecturas unificadas. 3) Una red compartida y desacoplada que permite mejoras mutuas entre tareas mientras satisface los requisitos de modelado específicos de cada tarea. 4) Un mecanismo de mezcla de expertos adoptado para el codificador de comprensión visual, que mejora sustancialmente las capacidades perceptivas con un ligero aumento de parámetros. Experimentos exhaustivos han demostrado que EMMA-4B puede superar significativamente a los enfoques multimodales unificados más avanzados (por ejemplo, BAGEL-7B) tanto en eficiencia como en rendimiento, al mismo tiempo que logra resultados competitivos en comparación con expertos recientes en comprensión y generación multimodal (por ejemplo, Qwen3-VL y Qwen-Image). Creemos que EMMA sienta una base sólida para el desarrollo futuro de arquitecturas multimodales unificadas.
Lograr animación de personajes que cumpla con los estándares de producción de nivel profesional sigue siendo un desafío a pesar de los recientes avances. Los enfoques existentes pueden transferir movimiento desde un video de referencia a una imagen estática, pero a menudo fallan en preservar la fidelidad estructural y la coherencia temporal en escenarios complejos que involucran movimientos intrincados y animaciones entre identidades diferentes. En este trabajo, presentamos SCAIL (Character Animation de Estudio mediante Aprendizaje Contextual), un marco diseñado para abordar estos desafíos mediante dos innovaciones clave. Primero, proponemos una novedosa representación de poses 3D que proporciona una señal de movimiento más robusta y flexible. Segundo, introducimos un mecanismo de inyección de poses de contexto completo dentro de una arquitectura difusión-transformer, permitiendo un razonamiento espacio-temporal efectivo sobre secuencias completas de movimiento. Para alinearnos con los requisitos de nivel profesional, desarrollamos un pipeline de datos curado que garantiza diversidad y calidad, y establecemos un benchmark integral para evaluación sistemática. Los experimentos demuestran que SCAIL alcanza un rendimiento de vanguardia y avanza la animación de personajes hacia la fiabilidad y realismo de nivel profesional.
El post-entrenamiento de modelos lingüísticos grandes se basa en el aprendizaje por refuerzo para mejorar la capacidad del modelo y la calidad de la alineación. Sin embargo, el paradigma de entrenamiento fuera de política introduce un cambio de distribución, que a menudo lleva la política más allá de la región de confianza, resultando en inestabilidades de entrenamiento manifestadas como fluctuaciones en la entropía de la política y gradientes inestables. Aunque PPO-Clip mitiga este problema mediante el recorte por importancia, aún pasa por alto el cambio distribucional global de las acciones. Para abordar estos desafíos, proponemos utilizar la relación de entropía entre la política actual y la anterior como una nueva métrica global que cuantifica eficazmente el cambio relativo en la exploración de la política a lo largo de las actualizaciones. Basándonos en esta métrica, introducimos un mecanismo de Recorte de la Relación de Entropía (ERC, por sus siglas en inglés) que impone restricciones bidireccionales sobre dicha relación. Esto estabiliza las actualizaciones de la política a nivel de distribución global y compensa la incapacidad de PPO-clip para regular los cambios de probabilidad de las acciones no muestreadas. Integramos ERC en los algoritmos de aprendizaje por refuerzo DAPO y GPPO. Los experimentos en múltiples benchmarks muestran que ERC mejora consistentemente el rendimiento.
La generación de escenas 4D interactivas y dinámicas a partir de una única imagen estática sigue siendo un desafío fundamental. La mayoría de los métodos existentes, ya sean de tipo "generar-y-reconstruir" o "reconstruir-y-generar", desacoplan la geometría del movimiento, lo que proviene inconsistencias espacio-temporales y una pobre generalización. Para abordar estos problemas, extendemos el marco de trabajo "reconstruir-y-generar" para realizar conjuntamente la Generación de Movimiento y la Reconstrucción geométrica para la Síntesis 4D (MoRe4D). En primer lugar, presentamos TrajScene-60K, un conjunto de datos a gran escala de 60.000 muestras de vídeo con trayectorias densas de puntos, que aborda la escasez de datos de escenas 4D de alta calidad. Basándonos en esto, proponemos un Generador de Trayectorias de Escenas 4D basado en difusión (4D-STraG) para generar conjuntamente trayectorias de puntos 4D geométricamente consistentes y con movimiento plausible. Para aprovechar los previos de vista única, diseñamos una estrategia de normalización de movimiento guiada por profundidad y un módulo consciente del movimiento para una integración efectiva de la geometría y la dinámica. A continuación, proponemos un Módulo de Síntesis de Vista 4D (4D-ViSM) para renderizar vídeos con trayectorias de cámara arbitrarias a partir de las representaciones de pistas de puntos 4D. Los experimentos demuestran que MoRe4D genera escenas 4D de alta calidad con consistencia multi-vista y ricos detalles dinámicos a partir de una sola imagen. Código: https://github.com/Zhangyr2022/MoRe4D.
Con el avance continuo de la tecnología de generación de imágenes, modelos avanzados como GPT-Image-1 y Qwen-Image han logrado una notable coherencia texto-imagen y conocimiento del mundo. Sin embargo, estos modelos aún presentan deficiencias en la generación de imágenes fotorrealistas. Incluso en tareas T2I simples, tienden a producir imágenes "falsas" con artefactos de IA distintivos, a menudo caracterizados por "piel excesivamente suave" y "brillos faciales aceitosos". Para recuperar el objetivo original de una generación "indistinguible de la realidad", proponemos RealGen, un marco fotorrealista de texto a imagen. RealGen integra un componente LLM para la optimización de prompts y un modelo de difusión para la generación de imágenes realistas. Inspirado en la generación adversarial, RealGen introduce un mecanismo de "Recompensa del Detector", que cuantifica los artefactos y evalúa el realismo utilizando detectores de imágenes sintéticas tanto a nivel semántico como a nivel de características. Aprovechamos esta señal de recompensa con el algoritmo GRPO para optimizar toda la pipeline de generación, mejorando significativamente el realismo y el detalle de la imagen. Además, proponemos RealBench, un benchmark de evaluación automatizado que emplea Puntuación por Detector y Puntuación por Arena. Permite una evaluación del fotorrealismo sin intervención humana, produciendo resultados más precisos y alineados con la experiencia real del usuario. Los experimentos demuestran que RealGen supera significativamente a modelos generales como GPT-Image-1 y Qwen-Image, así como a modelos especializados en fotorrealismo como FLUX-Krea, en términos de realismo, detalle y estética. El código está disponible en https://github.com/yejy53/RealGen.
Los evaluadores efectivos de Modelos de Visión-Lenguaje (VLM) son cruciales para el desarrollo de modelos. Los métodos actuales para entrenar evaluadores VLM se basan principalmente en anotaciones de preferencia humana a gran escala. Sin embargo, este enfoque es costoso y las anotaciones se vuelven obsoletas fácilmente a medida que los modelos mejoran rápidamente. En este trabajo, presentamos un marco para auto-entrenar un modelo evaluador VLM sin ninguna anotación de preferencia humana, utilizando únicamente datos auto-sintetizados. Nuestro método es iterativo y consta de tres etapas: (1) generar diversos pares de instrucción-respuesta multimodales en distintos niveles de calidad, (2) generar trazas de razonamiento y juicios para cada par, eliminando aquellos que no coincidan con nuestros niveles de calidad esperados, y (3) entrenar con las respuestas correctas del evaluador y sus trazas de razonamiento. Evaluamos al evaluador resultante en Multimodal RewardBench y VL-RewardBench en diversos dominios: corrección, preferencia, razonamiento, seguridad y respuesta a preguntas visuales. Nuestro método mejora a un evaluador multimodal Llama-3.2-11B, pasando de una precisión general de 0.38 a 0.51 en VL-RewardBench, a menudo superando a modelos mucho más grandes como Llama-3.2-90B, GPT-4o y Claude 3.5 Sonnet, con mejoras particularmente fuertes en las dimensiones general, de alucinación y de razonamiento. La solidez general de estos resultados libres de anotación humana sugiere el potencial para un futuro auto-evaluador que evolucione junto con las capacidades de los VLM que mejoran rápidamente.
Los métodos generativos para activos 3D han logrado recientemente avances notables, sin embargo, proporcionar un control intuitivo y preciso sobre la geometría del objeto sigue siendo un desafío clave. Los enfoques existentes se basan predominantemente en indicaciones de texto o imagen, que a menudo carecen de especificidad geométrica: el lenguaje puede ser ambiguo y las imágenes son engorrosas de editar. En este trabajo, presentamos SpaceControl, un método *training-free* en tiempo de prueba para el control espacial explícito de la generación 3D. Nuestro enfoque acepta una amplia gama de entradas geométricas, desde primitivas básicas hasta mallas detalladas, y se integra perfectamente con modelos generativos preentrenados modernos sin requerir ningún entrenamiento adicional. Un parámetro controlable permite a los usuarios equilibrar entre la fidelidad geométrica y el realismo del resultado. Una evaluación cuantitativa exhaustiva y estudios de usuario demuestran que SpaceControl supera a las líneas base basadas en entrenamiento y en optimización en cuanto a fidelidad geométrica, preservando al mismo tiempo una alta calidad visual. Finalmente, presentamos una interfaz de usuario interactiva que permite la edición en línea de supercuádricas para su conversión directa en activos 3D texturizados, facilitando la implementación práctica en flujos de trabajo creativos. Encuentre nuestra página del proyecto en https://spacecontrol3d.github.io/
El razonamiento visual espacial es crucial para que los Modelos de Lenguaje Grandes Multimodales (MLLMs) comprendan las propiedades de los objetos y las relaciones espaciales, aunque los modelos actuales aún presentan dificultades con el razonamiento 3D. Los enfoques existentes suelen mejorar ya sea la percepción, aumentando las entradas RGB con modalidades auxiliares como la profundidad y la segmentación, o el razonamiento, entrenando en conjuntos de datos de VQA espacial y aplicando aprendizaje por refuerzo, tratando así estos dos aspectos de forma aislada. En este trabajo, investigamos si un MLLM unificado puede desarrollar una capacidad intrínseca para mejorar la percepción espacial y, mediante un razonamiento entrelazado adaptativo, lograr una inteligencia espacial más sólida. Proponemos COOPER, un MLLM unificado que aprovecha la profundidad y la segmentación como modalidades auxiliares y se entrena en dos etapas para adquirir capacidades de generación de modalidades auxiliares y de razonamiento adaptativo y entrelazado. COOPER logra una mejora promedio del 6.91% en el razonamiento espacial manteniendo un rendimiento general. Además, incluso una variante entrenada solo para la generación de modalidades auxiliares alcanza una ganancia del 7.92% en la estimación de distancias y tamaños, lo que sugiere que aprender a generar modalidades auxiliares ayuda a internalizar el conocimiento espacial y a fortalecer la comprensión espacial.
La segmentación de objetos en vídeo centrada en el razonamiento es una tarea inherentemente compleja: la consulta a menudo se refiere a dinámicas, causalidad e interacciones temporales, en lugar de apariencias estáticas. Sin embargo, las soluciones existentes generalmente colapsan estos factores en un razonamiento simplificado con incrustaciones latentes, lo que hace que la cadena de razonamiento sea opaca y esencialmente intratable. Por lo tanto, adoptamos una perspectiva de descomposición explícita e introducimos ReVSeg, que ejecuta el razonamiento como decisiones secuenciales en la interfaz nativa de los modelos de visión y lenguaje preentrenados (VLMs). En lugar de plegar todo el razonamiento en una predicción de un solo paso, ReVSeg ejecuta tres operaciones explícitas (interpretación semántica, selección de evidencia temporal y localización espacial), alineando las capacidades preentrenadas. Además, empleamos el aprendizaje por refuerzo para optimizar la cadena de razonamiento de múltiples pasos, permitiendo que el modelo refine automáticamente la calidad de sus decisiones a partir de señales basadas en los resultados. Los resultados experimentales demuestran que ReVSeg alcanza un rendimiento de vanguardia en los benchmarks estándar de segmentación de objetos en vídeo y produce trayectorias de razonamiento interpretables. La página del proyecto está disponible en https://clementine24.github.io/ReVSeg/.
Los recientes avances en los modelos generativos de video han llevado a avances significativos en la síntesis de video de alta fidelidad, específicamente en la generación de video controlable donde el video generado está condicionado por entradas de texto y acciones, por ejemplo, en la edición de video guiada por instrucciones y el modelado de mundos en robótica. A pesar de estas capacidades excepcionales, los modelos de video controlables a menudo alucinan - generando fotogramas de video futuros que no se alinean con la realidad física - lo que plantea serias preocupaciones en muchas tareas como la evaluación de políticas robóticas y la planificación. Sin embargo, los modelos de video de última generación carecen de la capacidad de evaluar y expresar su confianza, impidiendo la mitigación de las alucinaciones. Para abordar rigurosamente este desafío, proponemos C3, un método de cuantificación de incertidumbre (UQ) para entrenar modelos de video controlables calibrados a escala continua para la estimación de confianza densa a nivel de subparche, localizando con precisión la incertidumbre en cada fotograma de video generado. Nuestro método UQ introduce tres innovaciones centrales para capacitar a los modelos de video para estimar su incertidumbre. Primero, nuestro método desarrolla un marco novedoso que entrena modelos de video para la corrección y la calibración mediante reglas de puntuación estrictamente propias. En segundo lugar, estimamos la incertidumbre del modelo de video en el espacio latente, evitando la inestabilidad en el entrenamiento y los costos prohibitivos asociados con los enfoques en el espacio de píxeles. En tercer lugar, mapeamos la incertidumbre densa del espacio latente a una incertidumbre interpretable a nivel de píxel en el espacio RGB para una visualización intuitiva, proporcionando mapas de calor de incertidumbre de alta resolución que identifican regiones no confiables. A través de extensos experimentos en conjuntos de datos de aprendizaje robótico a gran escala (Bridge y DROID) y evaluaciones en el mundo real, demostramos que nuestro método no solo proporciona estimaciones de incertidumbre calibradas dentro de la distribución de entrenamiento, sino que también permite una detección efectiva fuera de distribución.
La automejora es un objetivo que actualmente entusiasma al campo de la IA, pero está plagado de peligros y puede llevar tiempo alcanzarlo plenamente. Sostenemos que un objetivo más alcanzable y mejor para la humanidad es maximizar la comejora: la colaboración entre investigadores humanos e IA para lograr una cosuperinteligencia. Es decir, apuntar específicamente a mejorar la capacidad de los sistemas de IA para trabajar con investigadores humanos y realizar investigación en IA de manera conjunta, desde la ideación hasta la experimentación, con el fin de acelerar la investigación en IA y, en general, dotar tanto a las IA como a los humanos de una superinteligencia más segura mediante su simbiosis. Centrarse en incluir la mejora de la investigación humana en el ciclo nos llevará allí más rápido y de forma más segura.
Los sistemas de recuperación de documentos multimodales han mostrado avances significativos en la alineación de contenido visual y textual para la búsqueda semántica. Sin embargo, la mayoría de los enfoques existentes siguen estando fuertemente centrados en el inglés, lo que limita su eficacia en contextos multilingües. En este trabajo, presentamos M3DR (Recuperación de Documentos Multilingüe y Multimodal), un marco diseñado para cerrar esta brecha entre idiomas, permitiendo aplicabilidad en diversos contextos lingüísticos y culturales. M3DR aprovecha datos sintéticos de documentos multilingües y se generaliza a través de diferentes arquitecturas de visión y lenguaje y tamaños de modelos, permitiendo una alineación robusta entre modalidades y lenguas. Mediante entrenamiento contrastivo, nuestros modelos aprenden representaciones unificadas para texto e imágenes de documentos que se transfieren eficazmente entre idiomas. Validamos esta capacidad en 22 lenguas tipológicamente diversas, demostrando un rendimiento consistente y adaptabilidad ante variaciones lingüísticas y de escritura. Además, introducimos un benchmark integral que captura escenarios multilingües del mundo real, evaluando modelos en entornos monolingües, multilingües y de lenguaje mixto. M3DR se generaliza tanto a paradigmas de recuperación de vector denso único como a paradigmas de recuperación multi-vector a nivel de token estilo ColBERT. Nuestros modelos, NetraEmbed y ColNetraEmbed, logran un rendimiento de vanguardia con mejoras relativas de aproximadamente el 150% en la recuperación translingüe.
La comprensión de videos largos (LVU) es un desafío porque responder consultas del mundo real a menudo depende de indicios dispersos y temporalmente distribuidos, enterrados en horas de contenido mayormente redundante e irrelevante. Si bien las arquitecturas de agentes mejoran las capacidades de razonamiento sobre videos, los marcos predominantes dependen de un sistema de descripción (captioner) independiente de la consulta para percibir la información del video, lo que desperdicia recursos computacionales en contenido irrelevante y difumina la información temporal y espacial de grano fino. Motivados por la teoría de la percepción activa, argumentamos que los agentes de LVU deben decidir activamente qué, cuándo y dónde observar, y evaluar continuamente si la observación actual es suficiente para responder la consulta. Presentamos Percepción Activa de Video (AVP), un marco de búsqueda de evidencias que trata el video como un entorno interactivo y adquiere evidencias compactas y relevantes para la consulta directamente desde los píxeles. Concretamente, AVP ejecuta un proceso iterativo de planificar-observar-reflexionar con agentes MLLM. En cada ronda, un planificador propone interacciones específicas con el video, un observador las ejecuta para extraer evidencias con marca de tiempo, y un reflector evalúa la suficiencia de la evidencia para la consulta, deteniéndose con una respuesta o activando una nueva observación. En cinco benchmarks de LVU, AVP logra el mayor rendimiento con mejoras significativas. Notablemente, AVP supera al mejor método basado en agentes en un 5.7% de precisión promedio, mientras que solo requiere el 18.4% del tiempo de inferencia y el 12.4% de los tokens de entrada.
La comprensión temporal en la conducción autónoma (CA) sigue siendo un desafío significativo, incluso para los modelos de visión y lenguaje (VLM) más avanzados. Trabajos previos han introducido conjuntos de datos y puntos de referencia destinados a mejorar el razonamiento temporal, pero estos se han centrado en otros contenidos de video, como deportes, cocina y películas. Ningún punto de referencia existente se enfoca exclusivamente en los desafíos únicos de la comprensión temporal en secuencias de CA egocéntricas. Para llenar este vacío, se presenta el punto de referencia Temporal Understanding in Autonomous Driving (TAD), que evalúa la capacidad de los VLM para capturar las relaciones dinámicas entre acciones en la CA. TAD comprende casi 6,000 pares de preguntas y respuestas, que abarcan 7 tareas diseñadas por humanos. Además, se realiza una evaluación que incluye 9 modelos generalistas, tanto de código abierto como privativo, así como modelos especializados en CA de última generación. Cuando se aplicó a TAD, los modelos actuales más avanzados mostraron precisiones deficientes, principalmente debido a una comprensión imperfecta del movimiento a nivel fino. Para mejorar la comprensión del movimiento y la precisión general en TAD, se proponen dos soluciones novedosas que no requieren entrenamiento: Scene-CoT, que aprovecha el razonamiento en cadena (Chain-of-Thought, CoT), y TCogMap, que incorpora un mapa cognitivo temporal egocéntrico. Los enfoques propuestos se integran con VLM existentes y mejoran la precisión promedio en TAD hasta en un 17.72%. Al introducir TAD, evaluar múltiples modelos de última generación y proponer mejoras efectivas, este trabajo pretende catalizar la investigación futura sobre la comprensión temporal en la CA. El punto de referencia y el código de evaluación están disponibles en https://huggingface.co/datasets/vbdai/TAD y https://github.com/vbdi/tad_bench, respectivamente.
En este estudio presentamos Colon-X, una iniciativa abierta dirigida a avanzar la inteligencia multimodal en colonoscopia. Comenzamos construyendo ColonVQA, el conjunto de datos multimodal más completo jamás creado para colonoscopia, que incluye más de 1.1 millones de entradas de pregunta-respuesta visual sobre 76 hallazgos clínicos y 18 tareas multimodales. Más allá de servir como base de datos para toda la comunidad, investigamos además una transición crítica pero poco explorada en colonoscopia: la evolución desde la comprensión multimodal hacia el razonamiento clínico: (a) Para captar el panorama actual de los comportamientos de comprensión multimodal, evaluamos sistemáticamente la generalización de 22 modelos grandes de lenguaje multimodal y examinamos su fiabilidad bajo perturbaciones inducidas por humanos. Los resultados revelan que los resultados clínicos de los principales MLLM distan mucho de ser robustos y confiables. (b) Para reducir esta brecha, exploramos además una inteligencia centrada en el razonamiento adaptada a la colonoscopia. Específicamente, recopilamos ColonReason, un conjunto de datos de razonamiento con base clínica anotado mediante un pipeline de debate multi-experto, y desarrollamos ColonR1, el primer modelo de estilo R1 que incorpora técnicas de recompensa adaptativa a la tarea y optimización con gradiente estable. En condiciones de escasez de datos, nuestro ColonR1 alcanza una precisión global del 56.61%, superando al ajuste fino supervisado en un 25.22%, y establece una nueva línea base con capacidad de razonamiento para el análisis multimodal de colonoscopia. Todos los datos y recursos del modelo están disponibles públicamente en https://github.com/ai4colonoscopy/Colon-X.
Los recientes avances en generación de vídeo han demostrado un notable potencial para construir simuladores del mundo. Sin embargo, los modelos actuales aún tienen dificultades para producir resultados físicamente consistentes, especialmente al manejar dinámicas a gran escala o complejas. Esta limitación surge principalmente porque los enfoques existentes responden de manera isotrópica a las indicaciones físicas y descuidan la alineación granular entre el contenido generado y las señales físicas localizadas. Para abordar estos desafíos, proponemos ProPhy, un Marco de Alineación Física Progresiva que permite un condicionamiento explícito consciente de la física y una generación anisotrópica. ProPhy emplea un mecanismo de dos etapas de Mezcla de Expertos en Física (MoPE) para la extracción discriminatoria de previos físicos, donde los Expertos Semánticos infieren principios físicos a nivel semántico a partir de descripciones textuales, y los Expertos de Refinamiento capturan dinámicas físicas a nivel de tokens. Este mecanismo permite al modelo aprender representaciones de vídeo conscientes de la física y de grano fino que reflejan mejor las leyes físicas subyacentes. Además, introducimos una estrategia de alineación física que transfiere las capacidades de razonamiento físico de los modelos de visión y lenguaje (VLMs) a los Expertos de Refinamiento, facilitando una representación más precisa de los fenómenos físicos dinámicos. Experimentos exhaustivos en benchmarks de generación de vídeo consciente de la física demuestran que ProPhy produce resultados más realistas, dinámicos y físicamente coherentes que los métodos state-of-the-art existentes.
La cuantización post-entrenamiento (PTQ) desempeña un papel crucial en la democratización de los grandes modelos de lenguaje (LLM). Sin embargo, las técnicas existentes de cuantización y esparcificación de bajo bit son difíciles de equilibrar en cuanto a precisión y eficiencia debido al limitado soporte hardware. Por ejemplo, W4A8 solo puede alcanzar el mismo pico de TOPS que W8A8, mientras que el formato de datos dispersos soportado por GPU (esparcidad semi-estructurada 2:4) rara vez se adopta debido a la pérdida de precisión. Para cerrar esta brecha, en este artículo proponemos el Formato de Cuantización Esparcida (SQ-format), que es un formato de datos unificado para cuantización y esparcificación potencialmente fácil de soportar tanto por nuevo hardware como por GPUs existentes. El SQ-format aprovecha el hecho de que las matrices dispersas pueden acelerarse en alta precisión, y la multiplicación de matrices de baja precisión también puede acelerarse en consecuencia. Como tal, el SQ-format se propone para lograr una mejora de Pareto entre rendimiento y throughput. Este formato es particularmente adecuado para activaciones con estado de desigualdad de valores atípicos (outliers) y hace posible su compresión estática. Mostramos el rendimiento de vanguardia de PTQ con SQ-format, proponemos el hardware necesario para soportarlo y además ofrecemos la exploración de diseño y las perspectivas para la próxima generación de aceleradores de IA.
La reducción efectiva del riesgo sísmico depende de evaluaciones precisas específicas del sitio. Esto requiere modelos que puedan representar la influencia de las condiciones locales del terreno en las características del movimiento del suelo. En este contexto, los enfoques basados en datos que aprenden firmas controladas por el sitio a partir de movimientos sísmicos registrados ofrecen una dirección prometedora. Abordamos la generación de movimientos fuertes del suelo a partir de registros de acelerómetros en el dominio del tiempo e introducimos TimesNet-Gen, un generador condicional en el dominio del tiempo. El enfoque utiliza un cuello de botella latente específico por estación. Evaluamos la generación comparando curvas HVSR y distribuciones de frecuencia fundamental del sitio f_0 entre registros reales y generados por estación, y resumimos la especificidad de la estación con una puntuación basada en las matrices de confusión de la distribución f_0. TimesNet-Gen logra una fuerte alineación por estación y se compara favorablemente con una línea base VAE condicional basada en espectrogramas para la síntesis de movimientos fuertes específicos del sitio. Nuestros códigos están disponibles en https://github.com/brsylmz23/TimesNet-Gen.
A medida que las demandas computacionales continúan aumentando, evaluar la huella ambiental de la IA requiere ir más allá del consumo de energía y agua para incluir las demandas materiales del hardware especializado. Este estudio cuantifica la huella material del entrenamiento de IA vinculando las cargas de trabajo computacionales con las necesidades físicas de hardware. Se analizó la composición elemental de la unidad de procesamiento de gráficos (GPU) Nvidia A100 SXM de 40 GB mediante espectroscopía de emisión óptica de plasma acoplado inductivamente, identificando 32 elementos. Los resultados muestran que el hardware de IA consiste en aproximadamente un 90% de metales pesados y solo trazas de metales preciosos. Los elementos cobre, hierro, estaño, silicio y níquel dominan la composición de la GPU en masa. En una metodología de múltiples pasos, integramos estas mediciones con el rendimiento computacional por GPU a lo largo de diferentes vidas útiles, teniendo en cuenta los requisitos computacionales para entrenar modelos específicos de IA en diferentes regímenes de eficiencia de entrenamiento. Los análisis basados en escenarios revelan que, dependiendo de la Utilización de FLOPs del Modelo (MFU) y la vida útil del hardware, entrenar GPT-4 requiere entre 1.174 y 8.800 GPUs A100, lo que corresponde a la extracción y eventual disposición de hasta 7 toneladas de elementos tóxicos. Las estrategias combinadas de optimización de software y hardware pueden reducir las demandas materiales: aumentar la MFU del 20% al 60% reduce los requisitos de GPU en un 67%, mientras que extender la vida útil de 1 a 3 años produce ahorros comparables; implementar ambas medidas juntas reduce las necesidades de GPU hasta en un 93%. Nuestros hallazgos destacan que las ganancias incrementales de rendimiento, como las observadas entre GPT-3.5 y GPT-4, conllevan costos materiales desproporcionadamente altos. El estudio subraya la necesidad de incorporar consideraciones sobre recursos materiales en los debates sobre la escalabilidad de la IA, enfatizando que el progreso futuro en IA debe alinearse con los principios de eficiencia de recursos y responsabilidad ambiental.
Los Modelos de Lenguaje Grandes (LLMs) suelen alinearse para garantizar la seguridad durante la fase posterior al entrenamiento; sin embargo, aún pueden generar resultados inapropiados que potencialmente podrían representar riesgos para los usuarios. Este desafío subraya la necesidad de salvaguardas robustas que operen tanto en las entradas como en las salidas del modelo. En este trabajo, presentamos Roblox Guard 1.0, un LLM de última generación ajustado mediante instrucciones, diseñado para mejorar la seguridad de los sistemas de LLM mediante una moderación integral de entradas y salidas, utilizando un pipeline de LLMs para potenciar la capacidad de moderación. Construido sobre la base de Llama-3.1-8B-Instruct, nuestro modelo está ajustado por instrucciones para generalizar en taxonomías de seguridad no vistas previamente y demuestra un rendimiento sólido en benchmarks de seguridad fuera de dominio. El proceso de ajuste por instrucciones utiliza una mezcla de conjuntos de datos de seguridad sintéticos y de código abierto, aumentados con razonamientos de cadena de pensamiento (CoT) e inversión de entrada para mejorar la comprensión contextual y la toma de decisiones. Para apoyar la evaluación sistemática, también publicamos RobloxGuard-Eval, un nuevo benchmark que presenta una taxonomía de seguridad extensible para evaluar la efectividad de las barreras de protección y los marcos de moderación de LLMs.