Artículos de investigación en IA seleccionados diariamente con traducciones
Este informe presenta Kandinsky 5.0, una familia de modelos base de vanguardia para la síntesis de imágenes de alta resolución y videos de 10 segundos. El marco comprende tres líneas principales de modelos: Kandinsky 5.0 Image Lite, una serie de modelos de generación de imágenes con 6 mil millones de parámetros; Kandinsky 5.0 Video Lite, modelos rápidos y ligeros de texto a video e imagen a video con 2 mil millones de parámetros; y Kandinsky 5.0 Video Pro, modelos de 19 mil millones de parámetros que logran una calidad superior en la generación de videos. Ofrecemos una revisión exhaustiva del ciclo de vida de la curación de datos —incluyendo recopilación, procesamiento, filtrado y agrupamiento— para la canalización de entrenamiento en múltiples etapas que implica un extenso preentrenamiento e incorpora técnicas de mejora de calidad como el ajuste fino autosupervisado (SFT) y el entrenamiento posterior basado en aprendizaje por refuerzo (RL). También presentamos optimizaciones novedosas en arquitectura, entrenamiento e inferencia que permiten a Kandinsky 5.0 alcanzar velocidades de generación elevadas y un rendimiento de vanguardia en diversas tareas, según lo demuestra la evaluación humana. Como un marco generativo de gran escala y disponible públicamente, Kandinsky 5.0 aprovecha al máximo su preentrenamiento y las etapas posteriores para adaptarse a una amplia gama de aplicaciones generativas. Esperamos que este informe, junto con la liberación de nuestro código de fuente abierta y puntos de control de entrenamiento, avance significativamente el desarrollo y la accesibilidad de modelos generativos de alta calidad para la comunidad investigadora.
Los modelos de video han logrado un éxito notable en la generación de vídeos de alta fidelidad con dinámicas de movimiento coherentes. De manera análoga al desarrollo desde la generación de texto hasta el razonamiento basado en texto en el modelado del lenguaje, el desarrollo de modelos de video nos motiva a preguntar: ¿Pueden los modelos de video razonar mediante la generación de vídeos? En comparación con el corpus de texto discreto, el video fundamenta el razonamiento en disposiciones espaciales explícitas y continuidad temporal, lo que lo convierte en un sustrato ideal para el razonamiento espacial. En este trabajo, exploramos el paradigma de razonamiento mediante video e introducimos VR-Bench, un benchmark integral diseñado para evaluar sistemáticamente las capacidades de razonamiento de los modelos de video. Fundamentado en tareas de resolución de laberintos que requieren inherentemente planificación espacial y razonamiento multi-paso, VR-Bench contiene 7.920 vídeos generados proceduralmente en cinco tipos de laberintos y diversos estilos visuales. Nuestro análisis empírico demuestra que el Fine-Tuning Supervisado (SFT) puede elicitar eficientemente la capacidad de razonamiento del modelo de video. Los modelos de video exhiben una percepción espacial más sólida durante el razonamiento, superando a los principales Modelos de Lenguaje Visual (VLM) y generalizando bien en diversos escenarios, tareas y niveles de complejidad. Además, descubrimos un efecto de escalado en tiempo de prueba, donde el muestreo diverso durante la inferencia mejora la confiabilidad del razonamiento en un 10-20%. Estos hallazgos resaltan el potencial único y la escalabilidad del razonamiento mediante video para tareas de razonamiento espacial.
Los agentes de investigación de IA ofrecen la promesa de acelerar el progreso científico automatizando el diseño, la implementación y el entrenamiento de modelos de aprendizaje automático. Sin embargo, el campo aún se encuentra en su infancia, y los factores clave que determinan el éxito o el fracaso de las trayectorias de los agentes no se comprenden completamente. Examinamos el papel que juega la diversidad de ideas en el rendimiento de los agentes. Primero, analizamos las trayectorias de los agentes en MLE-bench, un punto de referencia conocido para evaluar agentes de investigación de IA, a través de diferentes modelos y arquitecturas de agentes. Nuestro análisis revela que diferentes modelos y arquitecturas de agentes producen distintos grados de diversidad de ideas, y que los agentes con mejor rendimiento tienden a tener una mayor diversidad de ideas. Además, realizamos un experimento controlado donde modificamos el grado de diversidad de ideas, demostrando que una mayor diversidad de ideas resulta en un rendimiento más sólido. Finalmente, reforzamos nuestros resultados examinando métricas de evaluación adicionales más allá de la puntuación estándar basada en medallas de MLE-bench, mostrando que nuestros hallazgos se mantienen en otras métricas de rendimiento de agentes.
El aprendizaje por refuerzo (RL) proporciona un marco de principios para mejorar los Modelos de Lenguaje-Visión (VLMs) en tareas de razonamiento complejo. Sin embargo, los enfoques de RL existentes a menudo dependen de etiquetas anotadas por humanos o heurísticas específicas de la tarea para definir recompensas verificables, ambas costosas y difíciles de escalar. Presentamos VisPlay, un marco de RL de auto-evolución que permite a los VLMs mejorar autónomamente sus capacidades de razonamiento utilizando grandes cantidades de datos de imagen sin etiquetar. Partiendo de un único VLM base, VisPlay asigna al modelo dos roles interactuantes: un Cuestionador Condicionado por Imagen que formula preguntas visuales desafiantes pero respondibles, y un Razonador Multimodal que genera respuestas plateadas (silver). Estos roles se entrenan conjuntamente con la Optimización de Políticas Relativas de Grupo (GRPO), que incorpora recompensas de diversidad y dificultad para equilibrar la complejidad de las preguntas generadas con la calidad de las respuestas plateadas. VisPlay escala eficientemente en dos familias de modelos. Cuando se entrena con Qwen2.5-VL y MiMo-VL, VisPlay logra mejoras consistentes en razonamiento visual, generalización composicional y reducción de alucinaciones en ocho benchmarks, incluyendo MM-Vet y MMMU, demostrando un camino escalable hacia una inteligencia multimodal auto-evolutiva. La página del proyecto está disponible en https://bruno686.github.io/VisPlay/.
La aplicabilidad de los modelos actuales de segmentación de lesiones en radiografías de tórax (CXR) se ha visto limitada tanto por el reducido número de etiquetas objetivo como por la dependencia de textos largos y detallados a nivel experto, lo que crea una barrera para su uso práctico. Para abordar estas limitaciones, introducimos un nuevo paradigma: la segmentación de lesiones guiada por instrucciones (ILS), diseñada para segmentar diversos tipos de lesiones basándose en instrucciones simples y fáciles de usar. Bajo este paradigma, construimos MIMIC-ILS, el primer conjunto de datos a gran escala de instrucción-respuesta para la segmentación de lesiones en CXR, utilizando nuestra canalización multimodal totalmente automatizada que genera anotaciones a partir de imágenes de radiografías de tórax y sus informes correspondientes. MIMIC-ILS contiene 1.1 millones de pares de instrucción-respuesta derivados de 192,000 imágenes y 91,000 máscaras de segmentación únicas, cubriendo siete tipos principales de lesiones. Para demostrar empíricamente su utilidad, presentamos ROSALIA, un modelo de visión y lenguaje ajustado en MIMIC-ILS. ROSALIA puede segmentar diversas lesiones y proporcionar explicaciones textuales en respuesta a las instrucciones del usuario. El modelo logra una alta precisión en segmentación y textual en nuestra nueva tarea propuesta, destacando la efectividad de nuestra canalización y el valor de MIMIC-ILS como recurso fundamental para la localización de lesiones en CXR a nivel de píxel.
La proliferación de videos de una hora de duración (por ejemplo, conferencias, pódcasts, documentales) ha intensificado la demanda de una estructuración eficiente del contenido. Sin embargo, los enfoques existentes están limitados por entrenamientos a pequeña escala con anotaciones típicamente cortas y generales, lo que restringe la generalización a transiciones matizadas en videos largos. Presentamos ARC-Chapter, el primer modelo de capitulación de video a gran escala entrenado con más de un millón de capítulos de videos largos, que presenta anotaciones de capítulos bilingües, temporales y jerárquicas. Para lograr este objetivo, compilamos un conjunto de datos bilingüe inglés-chino de capítulos mediante una canalización estructurada que unifica transcripciones ASR, textos de escena y descripciones visuales en anotaciones multinivel, desde títulos cortos hasta resúmenes largos. Demostramos mejoras claras en el rendimiento con el escalado de datos, tanto en volumen de datos como en intensidad de etiquetas. Además, diseñamos una nueva métrica de evaluación denominada GRACE, que incorpora superposiciones de segmentos de muchos a uno y similitud semántica, reflejando mejor la flexibilidad de la capitulación en escenarios reales. Experimentos exhaustivos demuestran que ARC-Chapter establece un nuevo estado del arte por un margen significativo, superando al mejor anterior en un 14.0% en puntuación F1 y un 11.3% en puntuación SODA. Además, ARC-Chapter muestra una excelente transferibilidad, mejorando el estado del arte en tareas posteriores como la descripción densa de videos en YouCook2.
Presentamos MHR, un modelo paramétrico del cuerpo humano que combina el paradigma de esqueleto/forma desacoplado de ATLAS con un sistema de rigging flexible y moderno y de correcciones de pose inspirado en la biblioteca Momentum. Nuestro modelo permite una animación humana expresiva y anatómicamente plausible, admite correcciones de pose no lineales y está diseñado para una integración robusta en flujos de trabajo de realidad aumentada/realidad virtual y gráficos por computadora.
Introducimos MoS (Mezcla de Estados), un nuevo paradigma de fusión para modelos de difusión multimodal que combina modalidades mediante interacciones flexibles basadas en estados. El núcleo de MoS es un enrutador entrenable a nivel de token que crea interacciones dependientes del paso de eliminación de ruido y de la entrada entre los estados ocultos de las modalidades, alineando precisamente las características a nivel de token con la trayectoria de difusión. Este enrutador selecciona de forma dispersa los k estados ocultos más relevantes y se entrena con una estrategia ε-greedy, seleccionando eficientemente características contextuales con un mínimo de parámetros entrenables y una sobrecarga computacional insignificante. Validamos nuestro diseño con generación (MoS-Imagen) y edición (MoS-Edición) de texto a imagen, que logran resultados de vanguardia. Con solo 3B a 5B de parámetros, nuestros modelos igualan o superan a contrapartes hasta 4 veces más grandes. Estos hallazgos establecen a MoS como un paradigma flexible y computacionalmente eficiente para escalar modelos de difusión multimodal.
A medida que la inteligencia corporeizada emerge como una frontera fundamental en la investigación de la inteligencia artificial, las plataformas de simulación deben evolucionar más allá de las interacciones físicas de bajo nivel para capturar comportamientos sociales complejos y centrados en lo humano. Presentamos FreeAskWorld, un marco de simulación interactivo que integra modelos de lenguaje extenso (LLM) para la planificación de comportamientos de alto nivel y la interacción semánticamente fundamentada, basándose en teorías de la intención y la cognición social. Nuestro marco permite simulaciones escalables y realistas entre humanos y agentes, e incluye un proceso modular de generación de datos adaptado para diversas tareas de inteligencia corporeizada. Para validar el marco, extendemos la tarea clásica de Navegación con Visión y Lenguaje (VLN) a un entorno de Consulta Direccional enriquecido con interacción, donde los agentes pueden buscar e interpretar activamente instrucciones de navegación. Presentamos y publicamos FreeAskWorld, un conjunto de datos de referencia a gran escala que comprende entornos reconstruidos, seis tipos de tareas diversas, 16 categorías de objetos principales, 63,429 fotogramas muestrales anotados y más de 17 horas de datos de interacción para apoyar el entrenamiento y la evaluación de sistemas de IA corporeizada. Evaluamos modelos de VLN y participantes humanos en configuraciones tanto de lazo abierto como de lazo cerrado. Los resultados experimentales demuestran que los modelos ajustados en FreeAskWorld superan a sus contrapartes originales, logrando una comprensión semántica mejorada y una mayor competencia interactiva. Estos hallazgos subrayan la eficacia de los marcos de simulación socialmente fundamentados para impulsar a los sistemas de IA corporeizada hacia una planificación de alto nivel más sofisticada y una interacción humano-agente más naturalista. Es importante destacar que nuestro trabajo subraya que la interacción en sí misma constituye una modalidad de información adicional.
La correspondencia densa de características tiene como objetivo estimar todas las correspondencias entre dos imágenes de una escena 3D y se ha establecido recientemente como el método de referencia debido a su alta precisión y robustez. Sin embargo, los métodos densos existentes aún fallan o tienen un rendimiento deficiente en muchos escenarios reales complejos, y los modelos de alta precisión suelen ser lentos, lo que limita su aplicabilidad. En este artículo, abordamos estas debilidades de manera amplia mediante una serie de mejoras sistemáticas que, en conjunto, producen un modelo significativamente mejor. En particular, construimos una arquitectura y función de pérdida novedosas para la correspondencia, que, combinadas con una distribución de entrenamiento diversa y cuidadosamente seleccionada, permiten a nuestro modelo resolver muchas tareas de correspondencia complejas. Además, aceleramos el entrenamiento mediante una canalización desacoplada de dos etapas (correspondencia seguida de refinamiento), y al mismo tiempo, reducimos significativamente el uso de memoria en el refinamiento mediante un kernel CUDA personalizado. Finalmente, aprovechamos el modelo base DINOv3 reciente junto con múltiples otras ideas para hacer el modelo más robusto e imparcial. En nuestro extenso conjunto de experimentos, demostramos que el nuevo método de correspondencia resultante establece un nuevo estado del arte, siendo significativamente más preciso que sus predecesores. El código está disponible en https://github.com/Parskatt/romav2.
Los recientes avances en IA generativa para música han logrado una fidelidad y diversidad estilística notables; sin embargo, estos sistemas a menudo no se alinean con las preferencias humanas matizadas debido a las funciones de pérdida específicas que utilizan. Este artículo aboga por la aplicación sistemática de técnicas de alineación de preferencias para la generación musical, abordando la brecha fundamental entre la optimización computacional y la apreciación musical humana. Basándonos en avances recientes, como el aprendizaje de preferencias a gran escala de MusicRL, los marcos de alineación múltiple de preferencias como la optimización de preferencias basada en difusión en DiffRhythm+, y las técnicas de optimización en tiempo de inferencia como Text2midi-InferAlign, discutimos cómo estas técnicas pueden abordar los desafíos únicos de la música: la coherencia temporal, la consistencia armónica y la evaluación subjetiva de la calidad. Identificamos desafíos clave de investigación, incluida la escalabilidad a composiciones de larga duración y la fiabilidad en el modelado de preferencias. De cara al futuro, prevemos que la generación de música alineada con preferencias permitirá aplicaciones transformadoras en herramientas de composición interactiva y servicios musicales personalizados. Este trabajo hace un llamado a una investigación interdisciplinaria sostenida que combine avances en aprendizaje automático y teoría musical para crear sistemas de IA musical que realmente satisfagan las necesidades creativas y experienciales humanas.
Presentamos Medal S, un modelo fundacional de segmentación médica que admite indicaciones espaciales y textuales en resolución nativa dentro de un marco entrenable de extremo a extremo. A diferencia de los métodos basados únicamente en texto que carecen de conciencia espacial, Medal S logra una alineación a nivel de canal entre las indicaciones volumétricas y los embeddings de texto, mitigando las imprecisiones causadas por desajustes de resolución. Al preservar el contexto 3D completo, procesa eficientemente múltiples máscaras en resolución nativa en paralelo, mejorando el rendimiento en segmentación multiclase. Un módulo convolucional 3D ligero permite un refinamiento preciso en el espacio vóxel guiado por ambos tipos de indicaciones, admitiendo hasta 243 clases en modalidades de TC, IRM, PET, ultrasonido y microscopía del conjunto de datos BiomedSegFM. Medal S ofrece dos modos de indicación: un modo exclusivamente textual, donde las predicciones del modelo sirven como indicaciones espaciales para el autorrefinamiento sin intervención humana, y un modo híbrido, que incorpora anotaciones manuales para una mayor flexibilidad. Para la segmentación de 24 clases, la indicación espacial paralela reduce el tiempo de inferencia en más de un 90% en comparación con la indicación secuencial. Proponemos un remuestreo dinámico para abordar el desequilibrio en la relación objetivo-parche, extendiendo SAT y nnU-Net para el aumento de datos. Además, desarrollamos una preprocesamiento de texto optimizado, una estrategia de inferencia en dos etapas y técnicas de postprocesamiento para mejorar la eficiencia de memoria, la precisión y la velocidad de inferencia. En el promedio de las cinco modalidades del conjunto de validación, Medal S supera a SAT con un DSC de 75.44 (frente a 69.83), un NSD de 77.34 (frente a 71.06), un F1 de 38.24 (frente a 24.88) y un DSC TP de 65.46 (frente a 46.97). Medal S logra un rendimiento excelente al armonizar la precisión espacial con la guía semántica textual, demostrando una eficiencia y precisión superiores en tareas de segmentación médica multiclase en comparación con enfoques basados en indicaciones secuenciales. Medal S estará disponible públicamente en https://github.com/yinghemedical/Medal-S.