Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los Modelos Multimodales Grandes (LMMs) han logrado avances significativos, siguen siendo mayormente centrados en texto, utilizando el lenguaje como su modalidad central de razonamiento. Como resultado, su capacidad para manejar tareas de razonamiento predominantemente visuales es limitada. Enfoques recientes han intentado abordar este problema supervisando pasos visuales intermedios con imágenes auxiliares, mapas de profundidad o recortes de imagen. Sin embargo, estas estrategias imponen supuestos restrictivos sobre cómo deben ser las abstracciones visuales "útiles", añaden costos elevados de anotación y tienen dificultades para generalizar entre tareas. Para abordar esta limitación crítica, proponemos un mecanismo independiente de la tarea que entrena a los LMMs para descubrir y utilizar tokens de razonamiento visual sin supervisión explícita. Estos tokens atienden globalmente y vuelven a codificar la imagen de una manera adaptativa a la tarea, permitiendo al modelo extraer información visual relevante sin supervisión manual. Nuestro enfoque supera el ajuste fino directo y logra resultados de vanguardia en una amplia gama de tareas centradas en la visión —incluyendo aquellas donde las abstracciones intermedias son difíciles de especificar— mientras también generaliza para el ajuste por instrucciones multitarea.
Los modelos autorregresivos a gran escala preentrenados en predicción del siguiente token y ajustados mediante aprendizaje por refuerzo (AR) han logrado un éxito sin precedentes en muchos dominios de problemas. Durante el AR, estos modelos exploran generando nuevas salidas, un token a la vez. Sin embargo, muestrear acciones token por token puede resultar en un aprendizaje altamente ineficiente, particularmente cuando las recompensas son dispersas. Aquí demostramos que es posible superar este problema actuando y explorando dentro de las representaciones internas de un modelo autorregresivo. Específicamente, para descubrir acciones temporalmente abstractas, introducimos un modelo de secuencia de orden superior no causal cuyas salidas controlan las activaciones del flujo residual de un modelo autorregresivo base. En tareas basadas en mundos de cuadrícula y MuJoCo con estructura jerárquica, encontramos que el modelo de orden superior aprende a comprimir largos fragmentos de secuencias de activación en controladores internos. Críticamente, cada controlador ejecuta una secuencia de acciones conductualmente significativas que se desarrollan a lo largo de largas escalas de tiempo y van acompañadas de una condición de terminación aprendida, de modo que componer múltiples controladores en el tiempo conduce a una exploración eficiente en tareas novedosas. Demostramos que el refuerzo directo de controladores internos, un proceso que denominamos "AR interno", permite aprender a partir de recompensas dispersas en casos donde el ajuste estándar por AR falla. Nuestros resultados demuestran los beneficios de la generación y el refuerzo de acciones latentes en modelos autorregresivos, sugiriendo el AR interno como una vía prometedora para realizar AR jerárquico dentro de modelos fundacionales.
Los modelos existentes de generación de vídeo tienen dificultades para mantener la coherencia espacial y temporal a largo plazo debido a la naturaleza densa y de alta dimensión de las señales de vídeo. Para superar esta limitación, proponemos Spatia, un marco de generación de vídeo con memoria espacial que preserva explícitamente una nube de puntos 3D de la escena como memoria espacial persistente. Spatia genera iterativamente clips de vídeo condicionados por esta memoria espacial y la actualiza continuamente mediante SLAM visual. Este diseño de separación dinámico-estática mejora la coherencia espacial durante todo el proceso de generación, al tiempo que preserva la capacidad del modelo para producir entidades dinámicas realistas. Además, Spatia permite aplicaciones como el control explícito de cámara y la edición interactiva con conciencia 3D, proporcionando un marco geométricamente fundamentado para la generación de vídeo escalable basada en memoria.
Los modelos de lenguaje a gran escala exponen cada vez más trazas de razonamiento, sin embargo, su estructura cognitiva subyacente y sus pasos siguen siendo difíciles de identificar y analizar más allá de las estadísticas superficiales. Adoptamos la Teoría de Episodios de Schoenfeld como una lente inductiva de escala intermedia e introducimos ThinkARM (Anatomía del Razonamiento en Modelos), un marco escalable que abstrae explícitamente las trazas de razonamiento en pasos funcionales como Análisis, Exploración, Implementación, Verificación, etc. Cuando se aplica a la resolución de problemas matemáticos por parte de modelos diversos, esta abstracción revela dinámicas de pensamiento reproducibles y diferencias estructurales entre modelos que razonan y los que no, las cuales no son aparentes desde las vistas a nivel de token. Además, presentamos dos estudios de caso diagnósticos que muestran que la exploración funciona como un paso crítico de ramificación asociado con la corrección, y que los métodos orientados a la eficiencia suprimen selectivamente los pasos de retroalimentación evaluativa en lugar de acortar las respuestas de manera uniforme. En conjunto, nuestros resultados demuestran que las representaciones a nivel de episodio hacen explícitos los pasos de razonamiento, permitiendo un análisis sistemático de cómo se estructura, estabiliza y altera el razonamiento en los modelos de lenguaje modernos.
Los videos son proyecciones bidimensionales continuas de mundos tridimensionales. Tras el entrenamiento con grandes conjuntos de datos de video, ¿surgirá naturalmente una comprensión global 3D? Investigamos esto cuantificando la comprensión 3D de los Modelos Fundacionales de Video (VidFM) existentes, preentrenados con vastos datos de video. Proponemos el primer marco independiente del modelo que mide la percepción 3D de varios VidFM mediante la estimación de múltiples propiedades 3D a partir de sus características a través de lecturas superficiales. Nuestro estudio presenta hallazgos significativos sobre la percepción 3D de los VidFM en múltiples dimensiones. En particular, demostramos que los modelos de generación de video de última generación exhiben una sólida comprensión de objetos y escenas 3D, a pesar de no haber sido entrenados con datos 3D. Dicha comprensión puede incluso superar a la de grandes modelos expertos entrenados específicamente para tareas 3D. Nuestros hallazgos, junto con la evaluación comparativa 3D de los principales VidFM, proporcionan observaciones valiosas para construir modelos 3D escalables.
El aprendizaje por refuerzo (RL) multietapa para agentes multimodales basados en modelos de visión y lenguaje (VLMs) se ve obstaculizado por las recompensas dispersas y la asignación de crédito a largo plazo. Métodos recientes densifican la recompensa consultando a un "maestro" que proporciona retroalimentación a nivel de paso, por ejemplo, Guided Thought Reinforcement (GTR) y On-Policy Distillation, pero dependen de modelos costosos y a menudo privilegiados como maestro, lo que limita la practicidad y la reproducibilidad. Presentamos GTR-Turbo, una actualización altamente eficiente de GTR, que iguala el rendimiento sin necesidad de entrenar o consultar un costoso modelo maestro. Específicamente, GTR-Turbo fusiona los pesos de los puntos de control generados durante el entrenamiento de RL en curso, y luego utiliza este modelo fusionado como un maestro "gratuito" para guiar el RL posterior mediante ajuste fino supervisado o destilación de logits suaves. Este diseño elimina la dependencia de VLMs privilegiados (por ejemplo, GPT o Gemini), mitiga el "colapso de entropía" observado en trabajos anteriores y mantiene estable el entrenamiento. En diversas tareas de agentes visuales, GTR-Turbo mejora la precisión del modelo base en un 10-30%, al tiempo que reduce el tiempo de entrenamiento en reloj en un 50% y el coste computacional en un 60% en comparación con GTR.
La generación visual autorregresiva (AR) se basa en tokenizadores para mapear imágenes hacia y desde secuencias discretas. Sin embargo, los tokenizadores se entrenan para reconstruir imágenes limpias a partir de tokens de referencia, mientras que los generadores AR se optimizan únicamente para la verosimilitud de tokens. Esta desalineación genera secuencias de tokens que pueden decodificarse en imágenes de baja calidad, sin supervisión directa desde el espacio de píxeles. Proponemos VA-π, un marco liviano de posentrenamiento que optimiza directamente los modelos AR con un objetivo fundamentado en el espacio de píxeles. VA-π formula la alineación generador-tokenizador como una optimización variacional, derivando una cota inferior de evidencia (ELBO) que unifica la reconstrucción de píxeles y el modelado autorregresivo. Para optimizar en el espacio discreto de tokens, VA-π introduce una estrategia de alineación basada en refuerzo que trata al generador AR como una política, utilizando la calidad de reconstrucción en el espacio de píxeles como recompensa intrínseca. La recompensa se mide por cuán bien las secuencias de tokens predichas pueden reconstruir la imagen original bajo teacher forcing, proporcionando al modelo una guía directa a nivel de píxel sin costoso muestreo libre. El término de regularización del ELBO actúa como un regularizador natural, manteniendo la consistencia distribucional de los tokens. VA-π permite la adaptación rápida de generadores AR existentes, sin necesidad de reentrenar el tokenizador ni utilizar modelos externos de recompensa. Con solo el 1% de los datos de ImageNet-1K y 25 minutos de ajuste, reduce el FID de 14.36 a 7.65 y mejora el IS de 86.55 a 116.70 en LlamaGen-XXL, además de producir ganancias notables en la tarea de texto-a-imagen en GenEval tanto para el modelo de generación visual (LlamaGen: de 0.306 a 0.339) como para el modelo multimodal unificado (Janus-Pro: de 0.725 a 0.744). El código está disponible en https://github.com/Lil-Shake/VA-Pi.