Artículos de investigación en IA seleccionados diariamente con traducciones
La aceleración basada en destilación se ha convertido en fundamental para hacer prácticos los modelos de difusión de vídeo en streaming autoregresivos, siendo la destilación por correspondencia de distribuciones (DMD) la opción de facto. Sin embargo, los métodos existentes entrenan al estudiante para que coincida con la salida del profesor de manera indiscriminada, tratando cada rollout, fotograma y píxel como una supervisión igualmente fiable. Sostenemos que esto limita la calidad destilada, ya que pasa por alto dos ejes complementarios de varianza en la supervisión DMD: la Inter-Fiabilidad entre los rollouts del estudiante, cuya supervisión varía en fiabilidad, y la Intra-Perplejidad entre las regiones espaciales y los fotogramas temporales que contribuyen de manera desigual a dónde aún puede mejorarse la calidad. El objetivo, por tanto, confluye dos preguntas bajo un peso uniforme: si aprender de cada rollout y dónde concentrar la optimización dentro del mismo. Para abordar esto, proponemos Stream-R1, un marco de Destilación por Recompensa Consciente de la Fiabilidad-Perplejidad que repondera adaptativamente el objetivo de destilación a nivel de rollout y a nivel de elemento espacio-temporal mediante un único mecanismo compartido guiado por recompensas. A nivel de Inter-Fiabilidad, Stream-R1 reescala la pérdida de cada rollout mediante un exponencial de una puntuación de recompensa de vídeo preentrenada, de modo que los rollouts con supervisión fiable dominen la optimización. A nivel de Intra-Perplejidad, propaga hacia atrás el mismo modelo de recompensa para extraer la saliencia del gradiente por píxel, que se factoriza en pesos espaciales y temporales que concentran la presión de optimización en las regiones y fotogramas donde el refinamiento produce la mayor ganancia esperada. Un mecanismo de equilibrio adaptativo evita que cualquier eje de calidad domine en cuanto a calidad visual, calidad de movimiento y alineación con el texto. Stream-R1 logra mejoras consistentes en las tres dimensiones respecto a los baselines de destilación en benchmarks estándar de generación de vídeo en streaming, sin modificación arquitectónica ni coste adicional de inferencia.
Si bien el escalado en tiempo de prueba (TTS) ofrece una dirección prometedora para mejorar la generación de vídeo sin los crecientes costes de entrenamiento, los métodos actuales de generación de vídeo en tiempo de prueba basados en modelos de difusión adolecen de costes exorbitantes de exploración de candidatos y carecen de guía temporal. Para abordar estos cuellos de botella estructurales, proponemos cambiar el enfoque hacia la generación de vídeo en flujo continuo (streaming). Identificamos que su síntesis a nivel de fragmento (chunk) y sus pocos pasos de desruido son intrínsecamente adecuados para TTS, reduciendo significativamente la sobrecarga computacional y permitiendo al mismo tiempo un control temporal de grano fino. Impulsados por esta idea, presentamos Stream-T1, un pionero marco integral de TTS exclusivamente diseñado para la generación de vídeo en flujo continuo. Específicamente, Stream-T1 se compone de tres unidades: (1) Propagación de Ruido Escalada por Flujo (Stream-Scaled Noise Propagation), que refina activamente el ruido latente inicial del fragmento en generación utilizando ruido de fragmentos anteriores históricamente probado y de alta calidad, estableciendo eficazmente la dependencia temporal y utilizando el previo gaussiano histórico para guiar la generación actual; (2) Poda por Recompensa Escalada por Flujo (Stream-Scaled Reward Pruning), que evalúa exhaustivamente a los candidatos generados para lograr un equilibrio óptimo entre la estética espacial local y la coherencia temporal global, integrando evaluaciones inmediatas a corto plazo con evaluaciones a largo plazo basadas en ventanas deslizantes; (3) Hundimiento de Memoria Escalado por Flujo (Stream-Scaled Memory Sinking), que enruta dinámicamente el contexto expulsado de la caché KV hacia distintas rutas de actualización guiadas por la retroalimentación de recompensa, garantizando que la información visual previamente generada ancle y guíe efectivamente el flujo de vídeo subsiguiente. Evaluado en benchmarks exhaustivos de vídeo de 5s y 30s, Stream-T1 demuestra una superioridad profunda, mejorando significativamente la consistencia temporal, la suavidad del movimiento y la calidad visual a nivel de fotograma.
Si bien los modelos Visión-Lenguaje-Acción (VLA) han mostrado avances notables hacia políticas robóticas generalistas de tipo humano gracias a la inteligencia versátil (es decir, comprensión amplia de escenas y generalización condicionada por lenguaje) heredada de los modelos de visión y lenguaje preentrenados, aún tienen dificultades con tareas complejas del mundo real que requieren capacidades funcionales más amplias (por ejemplo, conciencia del movimiento, toma de decisiones con memoria y percepción física). Para abordar esto, presentamos RLDX-1, una política robótica de propósito general para la manipulación diestra construida sobre el Transformador de Acción de Flujos Múltiples (MSAT), una arquitectura que unifica estas capacidades mediante la integración de modalidades heterogéneas a través de flujos específicos por modalidad con autoatención conjunta cross-modal. RLDX-1 combina además esta arquitectura con decisiones de diseño a nivel de sistema, incluyendo la síntesis de datos de entrenamiento para escenarios de manipulación poco comunes, procedimientos de aprendizaje especializados para la manipulación de tipo humano y optimizaciones de inferencia para su implementación en tiempo real. Mediante evaluación empírica, demostramos que RLDX-1 supera consistentemente a los VLA más recientes de vanguardia (por ejemplo, π_{0.5} y GR00T N1.6) tanto en benchmarks de simulación como en tareas del mundo real que requieren capacidades funcionales amplias más allá de la versatilidad general. En particular, RLDX-1 muestra superioridad en las tareas humanoides ALLEX al lograr tasas de éxito del 86,8%, mientras que π_{0.5} y GR00T N1.6 alcanzan alrededor del 40%, destacando la capacidad de RLDX-1 para controlar un robot humanoide de alto GDL bajo diversas demandas funcionales. En conjunto, estos resultados posicionan a RLDX-1 como un paso prometedor hacia VLA confiables para la manipulación diestra compleja, rica en contactos y dinámica en el mundo real.
La búsqueda profunda se ha convertido en una capacidad crucial para los agentes multimodales de vanguardia, permitiendo a los modelos resolver preguntas complejas mediante búsqueda activa, verificación de evidencias y razonamiento multi-etapa. A pesar del rápido progreso, los mejores agentes de búsqueda multimodal siguen siendo difíciles de reproducir, debido en gran parte a la ausencia de datos de entrenamiento abiertos y de alta calidad, pipelines transparentes de síntesis de trayectorias o recetas de entrenamiento detalladas. Para abordar esto, presentamos OpenSearch-VL, una receta completamente de código abierto para entrenar agentes de búsqueda profunda multimodal de vanguardia con aprendizaje por refuerzo agéntico. En primer lugar, hemos diseñado un pipeline dedicado para construir datos de entrenamiento de alta calidad mediante muestreo de rutas de Wikipedia, reescritura difusa de entidades y anclaje visual de fuentes, lo que reduce conjuntamente los atajos y el colapso en la recuperación de un solo paso. Basándonos en este pipeline, hemos creado dos conjuntos de datos de entrenamiento: SearchVL-SFT-36k para SFT (Ajuste Supervisado) y SearchVL-RL-8k para RL (Aprendizaje por Refuerzo). Además, diseñamos un entorno de herramientas diverso que unifica la búsqueda de texto, búsqueda de imágenes, OCR, recorte, enfoque, super-resolución y corrección de perspectiva, permitiendo a los agentes combinar la percepción activa con la adquisición de conocimiento externo. Finalmente, proponemos un algoritmo de entrenamiento GRPO (Optimización de Políticas de Rechazo de Recompensa Generalizada) consciente de errores fatales en múltiples turnos, que maneja fallos en cascada de herramientas enmascarando los tokens posteriores al fallo, mientras preserva el razonamiento útil previo al fallo mediante un ajuste unilateral de ventajas. Basándonos en esta receta, OpenSearch-VL ofrece mejoras sustanciales de rendimiento, con avances promedio superiores a 10 puntos en siete benchmarks, y logra resultados comparables a los de modelos comerciales propietarios en varias tareas. Liberaremos todos los datos, código y modelos para apoyar la investigación abierta en agentes de búsqueda profunda multimodal.
Los modelos de mundo de conducción constituyen una tecnología fundamental para la conducción autónoma al simular la dinámica ambiental. Sin embargo, los enfoques existentes se centran predominantemente en la generación de escenas futuras, frecuentemente descuidando una comprensión integral de la escena 3D. Por otro lado, si bien los Modelos de Lenguaje a Gran Escala (LLMs) demuestran capacidades de razonamiento impresionantes, carecen de la capacidad para predecir la evolución geométrica futura, creando una disparidad significativa entre la interpretación semántica y la simulación física. Para cerrar esta brecha, proponemos HERMES++, un modelo de mundo de conducción unificado que integra la comprensión de escenas 3D y la predicción de geometría futura dentro de un único marco. Nuestro enfoque aborda los requisitos distintos de estas tareas mediante diseños sinérgicos. Primero, una representación BEV consolida la información espacial multivista en una estructura compatible con los LLMs. Segundo, introducimos consultas de mundo potenciadas por LLMs para facilitar la transferencia de conocimiento desde la rama de comprensión. Tercero, se diseña un Enlace Presente-a-Futuro para salvar la brecha temporal, condicionando la evolución geométrica al contexto semántico. Finalmente, para garantizar la integridad estructural, empleamos una estrategia de Optimización Geométrica Conjunta que integra restricciones geométricas explícitas con regularización latente implícita para alinear las representaciones internas con distribuciones a priori conscientes de la geometría. Evaluaciones exhaustivas en múltiples benchmarks validan la efectividad de nuestro método. HERMES++ logra un rendimiento sólido, superando a enfoques especializados tanto en la predicción de nubes de puntos futuras como en tareas de comprensión de escenas 3D. El modelo y el código se publicarán en https://github.com/H-EmbodVis/HERMESV2.
La síntesis de activos 3D con base física constituye un cuello de botella crítico para los mundos virtuales interactivos y la IA encarnada. Los métodos existentes se centran predominantemente en la geometría estática, pasando por alto las propiedades funcionales esenciales para la interacción. Proponemos que la generación de activos interactivos debe estar fundamentada en una lógica funcional y una física jerárquica. Para salvar esta brecha, presentamos PhysForge, un marco de trabajo desacoplado de dos etapas respaldado por PhysDB, un conjunto de datos a gran escala de 150.000 activos con anotaciones físicas de cuatro niveles. Primero, un Modelo de Lenguaje Visual (VLM) actúa como un "arquitecto físico" para planificar un "Planos Físicos Jerárquicos" que define las restricciones de material, funcionales y cinemáticas. En segundo lugar, un modelo de difusión con base física materializa estos planos sintetizando una geometría de alta fidelidad junto con parámetros cinemáticos precisos mediante un novedoso mecanismo de Inyección de KineVóxeles (KVI). Los experimentos demuestran que PhysForge produce activos funcionalmente plausibles y listos para simulación, proporcionando un motor de datos robusto para contenido 3D interactivo y agentes encarnados.
La recuperación intensiva en razonamiento busca hallar evidencia que respalde el razonamiento subsiguiente, en lugar de limitarse a coincidir con la similitud temática. Esta capacidad es cada vez más importante para los sistemas de búsqueda agentivos, donde los recuperadores deben proporcionar evidencia complementaria a lo largo de iteraciones de búsqueda y síntesis. Sin embargo, el trabajo existente sigue siendo limitado tanto en evaluación como en entrenamiento: puntos de referencia como BRIGHT ofrecen conjuntos de referencia estrechos y evalúan los recuperadores de forma aislada, mientras que los corpus de entrenamiento sintéticos a menudo optimizan la relevancia de un solo pasaje en lugar de la construcción de un portafolio de evidencias. Presentamos BRIGHT-Pro, un punto de referencia anotado por expertos que expande cada consulta con evidencia de referencia de múltiples aspectos y evalúa los recuperadores bajo protocolos de búsqueda tanto estáticos como agentivos. Además, construimos RTriever-Synth, un corpus sintético descompuesto por aspectos que genera positivos complementarios y negativos duros condicionados a positivos, y lo utilizamos para afinar mediante LoRA el modelo RTriever-4B a partir de Qwen3-Embedding-4B. Los experimentos con recuperadores léxicos, de propósito general e intensivos en razonamiento muestran que la evaluación consciente de los aspectos y agentiva revela comportamientos ocultos para las métricas estándar, mientras que RTriever-4B mejora sustancialmente a su modelo base.
El panorama de los modelos de generación de imágenes de alto rendimiento está experimentando una transición desde los ineficientes modelos multi-paso hacia sus contrapartes eficientes de pocos pasos (por ejemplo, Z-Image-Turbo y FLUX.2-klein). Sin embargo, estos modelos presentan desafíos significativos para el ajuste fino supervisado directamente continuo. Por ejemplo, aplicar la técnica de ajuste fino comúnmente utilizada comprometería su capacidad inherente de inferencia en pocos pasos. Para abordar esto, proponemos D-OPSD, un nuevo paradigma de entrenamiento para modelos de difusión destilados en pasos que permite el aprendizaje *on-policy* durante el ajuste fino supervisado. Primero descubrimos que el modelo de difusión moderno, donde un LLM/VLM actúa como codificador, puede heredar las capacidades *in-context* de su codificador. Esto nos permite convertir el entrenamiento en un proceso de auto-destilación *on-policy*. Específicamente, durante el entrenamiento, hacemos que el modelo actúe tanto como profesor como estudiante con diferentes contextos: el estudiante se condiciona únicamente en la característica de texto, mientras que el profesor se condiciona en la característica multimodal tanto de la instrucción de texto como de la imagen objetivo. El entrenamiento minimiza las dos distribuciones predichas sobre las propias trayectorias (*roll-outs*) del estudiante. Al ser optimizado sobre la trayectoria propia y bajo su propia supervisión, D-OPSD permite al modelo aprender nuevos conceptos, estilos, etc., sin sacrificar la capacidad original de pocos pasos.
La edición de video ha evolucionado hacia paradigmas de Aprendizaje en Contexto (ICL), pero los costos de atención cuadráticos resultantes crean un cuello de botella computacional crítico. En este trabajo, proponemos Atención Dispersa en Contexto (ISA), el primer marco empírico disperso casi sin pérdidas diseñado para la edición de video ICL. Nuestro diseño se basa en dos ideas clave: primero, los tokens de contexto exhiben una saliencia significativamente menor que los tokens de origen; segundo, demostramos teóricamente y validamos empíricamente que la nitidez de la Consulta se correlaciona con el error de aproximación. Motivados por estos hallazgos, ISA implementa una estrategia de preselección eficiente para podar el contexto redundante, seguida de un mecanismo de agrupación dinámica de consultas que dirige las consultas de alto error a atención completa y las de bajo error a una atención dispersa de Taylor de orden cero computacionalmente eficiente. Además, construimos \texttt{LIVEditor}, un novedoso modelo de edición de video ultrarrápido mediante ISA y una pipeline de datos de edición de video propuesta que curó un conjunto de datos de alta calidad de 1.7 millones. Experimentos exhaustivos demuestran que LIVEditor logra una reducción del ∼60% en la latencia del módulo de atención, superando a los métodos de vanguardia en EditVerseBench, IVE-Bench y VIE-Bench, y ofreciendo una aceleración casi sin pérdidas sin comprometer la fidelidad visual.
Presentamos JoyAI-Image, un modelo de base multimodal unificado para comprensión visual, generación de imágenes a partir de texto y edición de imágenes guiada por instrucciones. JoyAI-Image combina un Modelo de Lenguaje Grande Multimodal (MLLM) espacialmente mejorado con un Transformer de Difusión Multimodal (MMDiT), permitiendo que la percepción y la generación interactúen a través de una interfaz multimodal compartida. En torno a esta arquitectura, construimos una metodología de entrenamiento escalable que combina ajuste fino unificado por instrucciones, supervisión de renderizado de texto largo, datos con base espacial, y señales de edición tanto generales como espaciales. Este diseño otorga al modelo una amplia capacidad multimodal mientras fortalece el razonamiento consciente de la geometría y la síntesis visual controlable. Los experimentos en benchmarks de comprensión, generación, renderizado de texto largo y edición demuestran que JoyAI-Image logra un rendimiento state-of-the-art o altamente competitivo. Más importante aún, el bucle bidireccional entre la comprensión mejorada, la edición espacial controlable y el razonamiento asistido por nuevas perspectivas permite al modelo ir más allá de la competencia visual general hacia una inteligencia espacial más sólida. Estos resultados sugieren un camino prometedor para los modelos visuales unificados en aplicaciones descendentes como los sistemas visión-lenguaje-acción y los modelos del mundo.
Los recientes avances en los modelos de lenguaje multimodal (MLLM) han llevado las capacidades de la IA desde el procesamiento estático de datos offline hasta la interacción en tiempo real con flujos continuos, aunque aún distan mucho de la interacción multimodal humana. Los principales cuellos de botella ya no son solo la cobertura de modalidades o la latencia, sino el propio paradigma de interacción. En primer lugar, la percepción y la respuesta siguen separadas en fases alternadas, lo que impide que los modelos incorporen nuevas entradas para ajustarse oportunamente durante la generación. En segundo lugar, la mayoría de los modelos actuales siguen siendo reactivos, respondiendo solo a solicitudes explícitas del usuario en lugar de actuar de manera proactiva en el entorno multimodal en evolución. Presentamos MiniCPM-o 4.5, nuestro último esfuerzo hacia una interacción multimodal similar a la humana, que mitiga estas brechas mediante la interacción omni-modal full-duplex en tiempo real. Puede ver, escuchar y hablar simultáneamente en tiempo real, a la vez que exhibe comportamientos proactivos, como emitir recordatorios o comentarios basados en su comprensión continua de la escena en vivo. La técnica clave detrás de MiniCPM-o 4.5 es Omni-Flow, un marco unificado de flujo continuo que alinea las entradas y salidas omni-modales a lo largo de un eje temporal compartido. Esta formulación convierte la interacción convencional por turnos en un proceso full-duplex y alineado temporalmente, permitiendo la percepción y respuesta simultáneas y posibilitando que surja un comportamiento proactivo dentro del mismo marco. Con un total de 9B de parámetros, MiniCPM-o 4.5 se acerca a Gemini 2.5 Flash en capacidades de visión y lenguaje, ofreciendo un rendimiento de vanguardia de código abierto para su escala. Además, supera a Qwen3-Omni-30B-A3B en comprensión omni-modal y ofrece una generación de voz mejorada, con una eficiencia computacional significativamente mayor. Impulsado por su diseño arquitectónico eficiente y la optimización de la inferencia, el modelo puede realizar una interacción omni-modal full-duplex en tiempo real en dispositivos periféricos con un coste de RAM inferior a 12 GB.
Estimar qué tan bien una persona realiza una acción, en lugar de qué acción se realiza, es fundamental para la formación, la rehabilitación y la identificación de talento. Esta tarea es un desafío porque la competencia se codifica en diferencias sutiles de sincronización, equilibrio, biomecánica y ejecución, a menudo distribuidas en múltiples vistas y eventos temporales breves. Discutimos tres contribuciones recientes a la estimación de competencia multivista en Ego-Exo4D. SkillFormer introduce una arquitectura discriminativa eficiente en parámetros para la fusión multivista selectiva; PATS mejora el muestreo temporal preservando fragmentos localmente densos de movimientos fundamentales; y ProfVLM reformula la estimación de competencia como generación de lenguaje condicional, produciendo tanto una etiqueta de competencia como retroalimentación al estilo experto mediante un proyector cruzado con compuerta y un núcleo de lenguaje compacto. En conjunto, estos métodos logran una precisión de vanguardia en Ego-Exo4D con hasta 20 veces menos parámetros entrenables y hasta 3 veces menos épocas de entrenamiento que los baselines de video-transformers, mientras se transita de la clasificación de conjunto cerrado a la generación de retroalimentación interpretable. Estos resultados destacan un cambio hacia sistemas multivista eficientes que combinan fusión selectiva, muestreo consciente de la competencia y retroalimentación generativa procesable.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) mejora el razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), pero generalmente exhibe una diversidad de generación limitada debido a la sobre-incentivización de las recompensas positivas. Aunque métodos como el Refuerzo con Muestras Negativas (NSR) mitigan este problema al ponderar más las penalizaciones de las muestras negativas, pueden suprimir las distribuciones semánticas compartidas entre respuestas positivas y negativas. Para potenciar la capacidad de razonamiento sin perder diversidad, este artículo propone el Aprendizaje por Refuerzo Residual con Proyección de Muestras Negativas (ResRL), que desacopla las distribuciones semánticas similares entre respuestas positivas y negativas. Teóricamente, vinculamos el Desplazamiento de Verosimilitud Perezosa (LLD) a la interferencia del gradiente principal negativo-positivo y derivamos un *proxy* de única pasada hacia adelante que acota superiormente la alineación de representaciones para guiar una reponderación conservadora de la ventaja. ResRL luego proyecta las representaciones ocultas de tokens negativos sobre un subespacio positivo de bajo rango basado en SVD y utiliza los residuos de la proyección para modular los gradientes negativos, mejorando el razonamiento mientras preserva la diversidad y superando a *baselines* sólidos en promedio a lo largo de doce benchmarks que abarcan Matemáticas, Código, Tareas de Agente y Llamadas a Funciones. Notablemente, ResRL supera a NSR en razonamiento matemático en un 9.4% en Avg@16 y un 7.0% en Pass@128. El código está disponible en https://github.com/1229095296/ResRL.git.
**Antecedentes:** Las habilidades de agentes se implementan cada vez más como unidades de capacidad modulares y reutilizables en sistemas de agentes de IA. Las habilidades de agentes de investigación médica requieren salvaguardias más allá de la evaluación de propósito general, incluyendo integridad científica, validez metodológica, reproducibilidad y seguridad de límites. Este estudio desarrolló y evaluó preliminarmente un marco de auditoría específico de dominio para habilidades de agentes de investigación médica, con un enfoque en la fiabilidad frente a la revisión por expertos. **Métodos:** Desarrollamos MedSkillAudit (skill-auditor@1.0), un marco escalonado que evalúa la preparación para la liberación de habilidades antes de su implementación. Evaluamos 75 habilidades en cinco categorías de investigación médica (15 por categoría). Dos expertos asignaron de forma independiente una puntuación de calidad (0-100), una disposición ordinal de liberación (Listo para Producción / Liberación Limitada / Solo Beta / Rechazar) y una bandera de fallo de alto riesgo. La concordancia sistema-experto se cuantificó utilizando ICC(2,1) y el kappa de Cohen ponderado linealmente, comparándola con la línea base de concordancia inter-evaluadores humana. **Resultados:** La puntuación de calidad media de consenso fue de 72.4 (DE = 13.0); el 57.3% de las habilidades quedaron por debajo del umbral de Liberación Limitada. MedSkillAudit logró un ICC(2,1) = 0.449 (IC 95%: 0.250-0.610), superando el ICC inter-evaluadores humano de 0.300. La divergencia sistema-consenso en las puntuaciones (DE = 9.5) fue menor que la divergencia inter-expertos (DE = 12.4), sin sesgo direccional (Wilcoxon p = 0.613). Diseño de Protocolo mostró la concordancia más fuerte a nivel de categoría (ICC = 0.551); Escritura Académica mostró un ICC negativo (-0.567), reflejando un desajuste estructural entre la rúbrica y los expertos. **Conclusiones:** La auditoría específica de dominio previa a la implementación puede proporcionar una base práctica para gobernar las habilidades de agentes de investigación médica, complementando las comprobaciones de calidad de propósito general con flujos de trabajo de auditoría estructurados adaptados a casos de uso científicos.
La predicción de la popularidad musical ha atraído un creciente interés investigador, con relevancia para artistas, plataformas y sistemas de recomendación. Sin embargo, el auge explosivo de las plataformas de música generada por IA ha creado un panorama completamente nuevo y en gran medida inexplorado, donde se producen y consumen diariamente una avalancha de canciones sin los marcadores tradicionales de reputación del artista o respaldo discográfico. Un aspecto clave, y aún no explorado en esta búsqueda, es la calidad estética. Proponemos APEX, el primer marco de aprendizaje multitarea a gran escala para música generada por IA, entrenado con más de 211k canciones (10k horas de audio) de Suno y Udio, que predice conjuntamente señales de popularidad basadas en el compromiso —puntuaciones de reproducciones y 'me gusta'— junto con cinco dimensiones perceptuales de calidad estética, a partir de *embeddings* de audio extraídos y congelados de MERT, un modelo de comprensión musical auto-supervisado. La calidad estética y la popularidad capturan aspectos complementarios de la música que, en conjunto, demuestran ser valiosos: en una evaluación fuera de distribución en el conjunto de datos Music Arena, que comprende batallas de preferencia humana por pares en once sistemas de música generativa no vistos durante el entrenamiento, la inclusión de características estéticas mejora consistentemente la predicción de preferencias, demostrando una fuerte generalización de las representaciones aprendidas a través de arquitecturas generativas.
Los modelos de difusión se entrenan principalmente para síntesis de imágenes, pero sus trayectorias de eliminación de ruido codifican ricos antecedentes visuales espacialmente alineados. En este artículo, demostramos que estos antecedentes pueden utilizarse para segmentación semántica y de vocabulario abierto condicionada por texto, y que este enfoque puede generalizarse a diversas tareas posteriores para crear un marco de segmentación por difusión de propósito general. Concretamente, presentamos DiGSeg (Modelos de Difusión como un Segmentador Generalista), que readapta un modelo de difusión preentrenado en un marco de segmentación unificado. Nuestro enfoque codifica la imagen de entrada y la máscara de referencia en el espacio latente y las concatena como señales de condicionamiento para la U-Net de difusión. Una vía de texto paralela alineada con CLIP inyecta características lingüísticas a múltiples escalas, permitiendo al modelo alinear consultas textuales con representaciones visuales en evolución. Este diseño transforma una red de difusión estándar en una interfaz universal que produce máscaras de segmentación estructuradas condicionadas tanto por la apariencia como por prompts de texto arbitrarios. Experimentos exhaustivos demuestran un rendimiento de vanguardia en benchmarks estándar de segmentación semántica, así como una fuerte generalización de vocabulario abierto y transferencia cruzada de dominio a escenarios médicos, de teledetección y agrícolas, sin personalización arquitectónica específica del dominio. Estos resultados indican que las redes modernas de difusión pueden funcionar como segmentadores generalistas en lugar de meros generadores, reduciendo la brecha entre la generación visual y la comprensión visual.
La aparición de plataformas de "codificación por ambiente", donde los usuarios describen aplicaciones en lenguaje natural y los agentes de IA generan software de pila completa de forma autónoma, ha creado la necesidad de una evaluación rigurosa que vaya más allá de los puntos de referencia a nivel de código. Para evaluarlas como agencias virtuales de desarrollo de software en cuanto a la comprensión de requisitos empresariales, la toma de decisiones arquitectónicas, la escritura de código de producción, el manejo de modificaciones iterativas y el mantenimiento de la preparación operativa, presentamos SWE-WebDev Bench, un marco de evaluación de 68 métricas que abarca 25 métricas primarias y 43 diagnósticas en siete grupos, organizado en tres dimensiones: Modo de Interacción (Solicitud de Creación de Aplicación (ACR) vs. Solicitud de Modificación de Aplicación (AMR)), Perspectiva de la Agencia (Gerente de Producto (PM), Ingeniería, Operaciones) y Nivel de Complejidad (T4 SaaS multirol, T5 Nativo para IA). Nuestra evaluación (seis plataformas, tres dominios, 18 celdas de evaluación) revela cuatro deficiencias recurrentes en la generación actual de creadores de aplicaciones de IA: (1) Un cuello de botella en la especificación, donde las plataformas comprimen requisitos empresariales complejos en planes técnicos simplificados en exceso, (2) Un desacoplamiento generalizado entre el frontend y el backend, donde interfaces de usuario visualmente pulidas enmascaran una infraestructura de backend ausente o defectuosa, (3) Un precipicio pronunciado en la preparación para producción, donde ninguna plataforma supera el 60% en calidad de ingeniería y el esfuerzo humano posterior a la generación varía sustancialmente entre plataformas, y (4) Fallos generalizados en seguridad e infraestructura, sin que ninguna plataforma supere el 65% en Puntuación de Seguridad frente a un objetivo del 90% y con un manejo de concurrencia tan bajo como el 6%. Estas observaciones son descriptivas de nuestra muestra y requieren una replicación a mayor escala para establecer su generalidad. Publicamos SWE-WebDev Bench como un punto de referencia comunitario para permitir dicha replicación y ayudar a los desarrolladores de plataformas a identificar y abordar estas brechas. El código y los recursos del benchmark están disponibles en: https://github.com/snowmountainAi/webdevbench y https://webdevbench.com/.
Este artículo identifica un desafío crítico y poco explorado en la alineación del razonamiento a partir de múltiples modelos de lenguaje grandes multimodales (MLLMs, por sus siglas en inglés): en entornos no estacionarios, las diversas distribuciones de razonamiento de los modelos fuente a menudo evolucionan de manera impredecible, transmitiendo sesgos sistemáticos y deriva (*drift*) al modelo objetivo. Para abordar esto, formulamos la alineación del razonamiento multi-fuente como un problema de satisfacción de restricciones bajo la teoría de la deriva de concepto. Proponemos la Optimización Autónoma de Preferencias (APO, por sus siglas en inglés), un marco novedoso que trata las divergencias entre modelos no como ruido, sino como restricciones negativas dinámicas. APO opera mediante un protocolo de dos etapas: primero, un arranque supervisado proyecta el modelo objetivo hacia la unión de capacidades de los modelos fuente; segundo, una optimización consciente de las restricciones sintetiza una variedad de consenso consistente mediante la supresión explícita de trayectorias de deriva a través de un objetivo de Plackett-Luce multi-negativo. Experimentos exhaustivos en la interpretación de radiografías de tórax demuestran que nuestro modelo de 7B logra una robustez superior, superando incluso a los modelos fuente propietarios en precisión promedio. Además, publicamos CXR-MAX, un benchmark a gran escala que comprende 170.982 trayectorias de razonamiento de siete MLLMs a gran escala, para facilitar la investigación sobre la alineación del razonamiento bajo deriva. El código y los datos están disponibles en: https://github.com/XiaoyuYoung/APO.
La autocoherencia detecta alucinaciones generando múltiples respuestas muestreadas a una pregunta y midiendo el acuerdo, pero esto requiere decodificación repetida y puede ser sensible a la variación léxica. La autocoherencia semántica mejora esto agrupando las respuestas muestreadas por significado usando inferencia en lenguaje natural, pero añade tanto coste de muestreo como sobrecarga de inferencia externa. Demostramos que la confianza del primer token, phi_first, calculada a partir de la entropía normalizada de los logits top-K en el primer token de respuesta con contenido de una única decodificación greedy, iguala o supera modestamente a la autocoherencia semántica en tareas de preguntas factuales de respuesta corta sin acceso a contexto. A través de tres modelos de 7-8B ajustados por instrucción y dos benchmarks, phi_first logra una media AUROC de 0.820, comparado con 0.793 para el acuerdo semántico y 0.791 para la autocoherencia estándar de forma superficial. Una prueba de subsunción muestra que phi_first está moderada a fuertemente correlacionada con el acuerdo semántico, y combinar ambas señales produce solo una pequeña mejora en AUROC sobre phi_first por sí sola. Estos resultados sugieren que gran parte de la información de incertidumbre capturada por el acuerdo multi-muestra ya está disponible en la distribución inicial de tokens del modelo. Argumentamos que phi_first debería reportarse como una línea base predeterminada de bajo coste antes de invocar la estimación de incertidumbre basada en muestreo.
En las interfaces autorregresivas de flujo único, los mismos tokens actualizan el estado del modelo y constituyen un compromiso público irreversible. Este acoplamiento crea un impuesto de silencio: la deliberación adicional retrasa el primer contenido relevante para la tarea, mientras que la transmisión temprana e ingenua arriesga compromisos prematuros que sesgan las generaciones posteriores. Presentamos el Razonamiento Intercalado Cara a Cara (SxS), que convierte el momento de la divulgación en una decisión controlable dentro de la generación autorregresiva estándar. SxS intercala divulgaciones parciales con razonamiento privado continuo en el mismo contexto, pero libera contenido solo cuando está respaldado por el razonamiento hasta el momento. Para aprender este ritmo sin incentivar relleno, construimos trayectorias intercaladas alineadas por entailment emparejando prefijos de respuestas con prefijos de razonamiento de apoyo, luego entrenamos con SFT para adquirir la semántica de doble acción y con RL para recuperar el rendimiento del razonamiento bajo el nuevo formato. En dos arquitecturas/escalas de Qwen3 (MoE Qwen3-30B-A3B, denso Qwen3-4B) y benchmarks tanto dentro del dominio (AIME25) como fuera de él (GPQA-Diamond), SxS mejora las compensaciones de Pareto precisión-latencia del contenido bajo proxies a nivel de token, como el tiempo de espera entre actualizaciones.
Los recientes avances en los modelos de lenguaje a gran escala han logrado un rendimiento sólido en tareas de razonamiento e interacción con el entorno, pero su capacidad para la resolución creativa de problemas sigue sin explorarse en profundidad. Estudiamos esta capacidad a través del lente del uso creativo de herramientas, donde un modelo reutiliza objetos disponibles razonando sobre sus posibilidades de acción (affordances) y atributos, en lugar de depender de usos canónicos. Como primer paso, presentamos CreativityBench, un punto de referencia para evaluar la creatividad basada en affordances en los LLM. Para ello, construimos una base de conocimientos (KB) a gran escala sobre affordances con 4.000 entidades y más de 150.000 anotaciones, vinculando explícitamente objetos, partes, atributos y usos accionables. Sobre esta base, generamos 14.000 tareas fundamentadas que requieren identificar soluciones no obvias pero físicamente plausibles bajo restricciones. Las evaluaciones en 10 LLM de vanguardia, incluidos modelos de código abierto y cerrado, muestran que los modelos a menudo pueden seleccionar un objeto plausible, pero fallan en identificar las partes correctas, sus affordances y el mecanismo físico subyacente necesario para resolver la tarea, lo que conduce a una caída significativa en el rendimiento. Además, las mejoras derivadas del escalado de modelos se saturan rápidamente, un razonamiento general sólido no se traduce de manera fiable en el descubrimiento creativo de affordances, y estrategias comunes en tiempo de inferencia, como la Cadena de Pensamiento, producen ganancias limitadas. Estos resultados sugieren que el uso creativo de herramientas sigue siendo un desafío importante para los modelos actuales, y que CreativityBench proporciona un banco de pruebas útil para estudiar esta dimensión faltante de la inteligencia, con posibles implicaciones para los módulos de planificación y razonamiento en futuros agentes.
Presentamos TT4D, un conjunto de datos a gran escala y alta fidelidad sobre tenis de mesa. Proporciona más de 140 horas de partidas individuales y de dobles reconstruidas a partir de vídeos monoculares de transmisión, con anotaciones multimodales como calibraciones de cámara de alta calidad, posiciones 3D precisas de la pelota, efecto de la pelota, segmentación temporal y mallas humanas 3D a lo largo del tiempo. Estos datos exhaustivos proporcionan una nueva base para la repetición virtual, el análisis profundo de jugadores y el aprendizaje robótico. La combinación de escala y precisión del conjunto de datos se logra mediante un novedoso *pipeline* de reconstrucción. Los métodos anteriores primero dividen una secuencia de juego en segmentos de golpes individuales basándose en la trayectoria 2D de la pelota, y solo entonces intentan la reconstrucción. Sin embargo, la segmentación temporal basada en 2D falla bajo oclusiones y diversos puntos de vista de la cámara, impidiendo una reconstrucción fiable. Invertimos este paradigma elevando primero toda la trayectoria 2D no segmentada de la pelota a 3D mediante una red neuronal de elevación. Esta trayectoria 3D nos permite entonces realizar de forma fiable la segmentación temporal. La red neuronal de elevación también infiere el efecto de la pelota, maneja detecciones de pelota poco fiables y reconstruye con éxito la trayectoria de la pelota en casos de alta oclusión. Este diseño de *elevar primero* es necesario, ya que nuestro *pipeline* es el único método capaz de reconstruir partidas de tenis de mesa a partir de vídeos monoculares de transmisión con vistas generales. Demostramos la fidelidad del conjunto de datos mediante dos tareas derivadas: estimar la pose y la velocidad de la raqueta en el momento del impacto, y entrenar un modelo generativo de peloteos competitivos.
Los sistemas robóticos que interactúan con el mundo físico deben razonar sobre las restricciones cinemáticas y dinámicas impuestas por su propia encarnación, su entorno y la tarea a realizar. Presentamos KinDER, un benchmark para el Razonamiento Encarnado Cinemático y Dinámico que aborda los desafíos de razonamiento físico que surgen en el aprendizaje y la planificación robóticos. KinDER comprende 25 entornos generados proceduralmente, una biblioteca de Python compatible con Gymnasium que incluye habilidades parametrizadas y demostraciones, y un conjunto de evaluación estandarizado con 13 líneas base implementadas que abarcan planificación de tareas y movimiento, aprendizaje por imitación, aprendizaje por refuerzo y enfoques basados en modelos fundacionales. Los entornos están diseñados para aislar cinco desafíos centrales de razonamiento físico: relaciones espaciales básicas, manipulación multiobjeto no prensil, uso de herramientas, restricciones geométricas combinatorias y restricciones dinámicas, desacoplados de la percepción, la comprensión del lenguaje y la complejidad específica de la aplicación. La evaluación empírica muestra que los métodos existentes tienen dificultades para resolver muchos de los entornos, lo que indica brechas sustanciales en los enfoques actuales para el razonamiento físico. Adicionalmente, incluimos experimentos de real-a-sim-a-real en un manipulador móvil para evaluar la correspondencia entre la simulación y la interacción física en el mundo real. KinDER es completamente de código abierto y tiene como objetivo permitir la comparación sistemática entre diversos paradigmas para avanzar en el razonamiento físico en robótica. Sitio web y código: https://prpl-group.com/kinder-site/