Artículos de investigación en IA seleccionados diariamente con traducciones
La planificación de rutas de transporte público tradicionalmente depende de infraestructura de mapas estructurados y motores de enrutamiento complejos, y no existe ningún conjunto de datos existente que permita entrenar modelos para eludir esta dependencia. Presentamos TransitLM, un conjunto de datos a gran escala con más de 13 millones de registros de planificación de rutas de transporte público de cuatro ciudades chinas que abarcan 120,845 estaciones y 13,666 líneas, publicado como un corpus de preentrenamiento continuo y datos de referencia para tres tareas de evaluación con métricas complementarias. Los experimentos muestran que un LLM entrenado en TransitLM produce rutas estructuralmente válidas con alta precisión y vincula implícitamente coordenadas GPS arbitrarias a las estaciones adecuadas sin ningún mapeo explícito. Estos resultados demuestran que la planificación de rutas de transporte público puede aprenderse completamente a partir de datos, permitiendo la generación de rutas de extremo a extremo y sin mapas directamente a partir de información de origen y destino. El conjunto de datos y los puntos de referencia están disponibles en https://huggingface.co/datasets/GD-ML/TransitLM, y el código de evaluación en https://github.com/HotTricker/TransitLM.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se implementan cada vez más en roles que interactúan con humanos donde la percepción de la personalidad es crítica; sin embargo, los benchmarks existentes evalúan esta capacidad únicamente mediante la predicción numérica de puntuaciones de los Cinco Grandes, dejando abierto si los modelos realmente perciben la personalidad a través de la comprensión del comportamiento o simplemente prejuzgan mediante el reconocimiento superficial de patrones. Abordamos esta brecha con tres contribuciones. (i) Una nueva tarea: formalizamos el Razonamiento de Personalidad Fundamentado (GPR), que requiere que los MLLMs anclen cada calificación de los Cinco Grandes en evidencia observable a través de una cadena de calificación, razonamiento y fundamentación. (ii) Un nuevo conjunto de datos: publicamos MM-OCEAN (1,104 videos, 5,320 preguntas de opción múltiple), producido por un pipeline multiagente con verificación humana, que incluye observaciones conductuales con marcas de tiempo, análisis de rasgos fundamentados en evidencia y siete categorías de preguntas de opción múltiple de fundamentación de indicios. (iii) Benchmark y análisis: diseñamos una evaluación de tres niveles (calificación, razonamiento, fundamentación) más cuatro métricas de modos de fallo a nivel de muestra: Tasa de Prejuicio (PR), Tasa de Confabulación (CR), Tasa de Fracaso de Integración (IR) y Tasa de Fundamento Holístico (HR), y evaluamos 27 MLLMs (13 cerrados, 14 abiertos). El análisis revela una sorprendente Brecha de Prejuicio: en todo el campo, el 51% de las calificaciones correctas no están fundamentadas en indicios recuperados, y la Tasa de Fundamento Holístico abarca solo del 0 al 33.5%. Estos hallazgos exponen una desconexión entre obtener la puntuación correcta y razonar por la razón correcta, trazando una hoja de ruta para la cognición social fundamentada en MLLMs.
El aprendizaje por refuerzo a partir de recompensas verificables (RLVR, por sus siglas en inglés) se ha consolidado como una técnica central para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes. A pesar de su eficacia, la forma en que las recompensas a nivel de respuesta se traducen en cambios de probabilidad a nivel de token sigue siendo poco comprendida. Introducimos una visión de discriminador de las actualizaciones de RLVR, mostrando que la dirección de actualización del gradiente de política actúa implícitamente como un discriminador lineal sobre los vectores de gradiente de tokens y, por lo tanto, determina qué probabilidades de token se incrementan o disminuyen durante el aprendizaje. Bajo el RLVR estándar a nivel de secuencia, este discriminador se construye a partir de centroides de lados positivo y negativo formados mediante un promedio ponderado por ventaja de los vectores de gradiente de tokens. Sin embargo, esta construcción de centroides puede verse dominada por patrones compartidos de alta frecuencia, como los tokens de formato, diluyendo direcciones dispersas pero discriminativas que distinguen mejor las respuestas de alta recompensa de las de baja recompensa. Para abordar esta limitación, proponemos DelTA, un método discriminativo de asignación de crédito a tokens que estima coeficientes de token para amplificar las direcciones de gradiente de tokens específicas de cada lado y reducir el peso de las direcciones compartidas o débilmente discriminativas. Estos coeficientes reponderan un sustituto de RLVR auto-normalizado, haciendo que los centroides efectivos por lado sean más contrastivos y, por lo tanto, remodelando la dirección de actualización del RLVR. En siete puntos de referencia matemáticos, DelTA supera a las líneas base más fuertes de la misma escala en 3,26 y 2,62 puntos promedio en Qwen3-8B-Base y Qwen3-14B-Base, respectivamente. Resultados adicionales en generación de código, un backbone diferente y evaluaciones fuera del dominio demuestran además la capacidad de generalización de DelTA.
El auge de los agentes asistentes personales, por ejemplo, OpenClaw, destaca el creciente potencial de los grandes modelos de lenguaje para apoyar a los usuarios en la vida cotidiana y el trabajo. Un desafío central en estos entornos es la asistencia proactiva, ya que los usuarios a menudo comienzan con solicitudes poco especificadas y dejan sin expresar necesidades, restricciones o preferencias importantes. Sin embargo, los puntos de referencia existentes rara vez evalúan si los agentes pueden identificar y actuar sobre dichas intenciones ocultas antes de que sean expresadas explícitamente, especialmente en interacciones sostenidas de múltiples turnos donde las necesidades del usuario surgen gradualmente. Para abordar esta brecha, presentamos π-Bench, un punto de referencia para la asistencia proactiva que comprende 100 tareas de múltiples turnos a través de 5 personas de usuario específicas de dominio. Al incorporar intenciones ocultas del usuario, dependencias entre tareas y continuidad entre sesiones, π-Bench evalúa la capacidad de los agentes para anticipar y abordar las necesidades del usuario a lo largo de interacciones extendidas, midiendo conjuntamente la proactividad y la finalización de tareas en trayectorias a largo plazo que reflejan mejor el uso en el mundo real. Los experimentos muestran (1) que la asistencia proactiva sigue siendo un desafío, (2) una clara distinción entre la finalización de tareas y la proactividad, y (3) el valor de la interacción previa para la resolución proactiva de intenciones en tareas posteriores.
La inferencia de contexto largo en modelos de lenguaje de gran escala está limitada por el costo cuadrático de la atención completa. Las alternativas eficientes existentes a menudo se basan en entrenamiento disperso nativo o en la evicción heurística de tokens, generando un equilibrio no deseado entre eficiencia, costo de entrenamiento y precisión. En este trabajo, demostramos que los modelos de lenguaje con atención completa ya son intrínsecamente dispersos y pueden transformarse en modelos altamente dispersos con una adaptación mínima. Nuestro enfoque se basa en tres observaciones: (1) solo un pequeño subconjunto de cabezas de atención requiere realmente procesamiento completo de contexto largo; (2) la recuperación de largo alcance está gobernada principalmente por un subespacio de baja dimensión, lo que permite recuperar tokens relevantes de manera eficiente con un indexador de 16 dimensiones; y (3) el presupuesto de tokens útiles depende fuertemente de la consulta, lo que hace que la selección dinámica de top-p sea más adecuada que la esparsificación fija de top-k. Con base en estas ideas, proponemos RTPurbo, que retiene la caché KV completa solo para las cabezas de recuperación e introduce un indexador de tokens ligero para la atención dispersa. Al explotar la dispersión intrínseca del modelo, RTPurbo logra la esparsificación con solo unos cientos de pasos de entrenamiento. Experimentos en puntos de referencia de contexto largo y tareas de razonamiento muestran que RTPurbo preserva una precisión casi sin pérdidas mientras ofrece ganancias sustanciales de eficiencia, incluyendo una aceleración de prefill de hasta 9.36 veces en contexto de 1M y una aceleración de decodificación de aproximadamente 2.01 veces. Estos resultados sugieren que se puede obtener una inferencia dispersa robusta a partir del entrenamiento estándar de atención completa sin un costoso preentrenamiento disperso nativo.
El reciente desarrollo de agentes ha renovado la demanda de capacidad de razonamiento en contextos largos de los LLMs. Sin embargo, entrenar LLMs para esta capacidad requiere una costosa curación de documentos largos o síntesis heurística de contexto. Observamos que los agentes producen trayectorias masivas al resolver problemas, invocando herramientas y recibiendo observaciones del entorno a través de muchos turnos. La evidencia necesaria para responder la pregunta original está así dispersa a lo largo de estos turnos, requiriendo integración de segmentos de contexto distantes. No obstante, el SFT estándar de agentes enmascara las respuestas de las herramientas y solo entrena la selección de herramientas a nivel de turno, creando un punto ciego de supervisión donde estas señales dispersas quedan sin usar. Proponemos Agent Context Compilation (ACC), que convierte trayectorias de agentes de búsqueda, ingeniería de software y consulta de bases de datos en pares de preguntas y respuestas de contexto largo que combinan la pregunta original con respuestas de herramientas y observaciones del entorno recopiladas a través de múltiples turnos, entrenando al modelo para responder directamente sin uso de herramientas. Esto hace explícitas las dependencias entre la pregunta y la evidencia, permitiendo la supervisión directa del razonamiento en contextos largos sobre segmentos distantes sin anotación adicional. ACC es un enfoque simple pero efectivo que puede combinarse con cualquier método de extensión o entrenamiento de contexto largo existente, proporcionando datos de ajuste fino supervisado escalables. Validamos ACC en tareas de modelado de dependencias de largo alcance a través de MRCR y GraphWalks, puntos de referencia desafiantes que requieren resolución de correferencia entre turnos y recorrido de grafos en contextos extendidos. Entrenar Qwen3-30B-A3B con ACC logra 68.3 en MRCR (+18.1) y 77.5 en GraphWalks (+7.6), resultados comparables a Qwen3-235B-A22B, mientras preserva capacidades generales en GPQA, MMLU-Pro, AIME e IFEval. Un análisis de mecanismos adicional revela que el modelo entrenado con ACC exhibe una reestructuración de atención adaptativa a la tarea y especialización de expertos.
Los activos físicos 3D listos para simulación han surgido como una dirección prometedora debido a su amplia aplicabilidad en tareas posteriores. Sin embargo, la mayoría de los métodos existentes de generación 3D pasan por alto las propiedades físicas o se limitan a una única categoría de activos, como objetos rígidos, deformables o articulados. Para abordar estas limitaciones, presentamos PhysX-Omni, un marco unificado para la generación física 3D lista para simulación en diversos tipos de activos. En concreto, desarrollamos una representación geométrica novedosa y eficiente adaptada a los Modelos de Visión y Lenguaje, que codifica directamente estructuras 3D de alta resolución sin compresión, mejorando significativamente el rendimiento de generación. Además, construimos el primer conjunto de datos 3D general listo para simulación, PhysXVerse, que cubre diversas categorías tanto de interiores como de exteriores. Asimismo, para evaluar de manera integral y flexible las capacidades generativas y de comprensión en entornos reales, proponemos PhysX-Bench, que abarca seis atributos clave: geometría, escala absoluta, material, affordance, cinemática y descripción de función. Experimentos exhaustivos con métricas convencionales y PhysX-Bench demuestran que PhysX-Omni tiene un rendimiento sólido tanto en generación como en comprensión. Además, estudios adicionales validan el potencial de PhysX-Omni para aplicaciones en generación de escenas listas para simulación y aprendizaje de políticas robóticas. Creemos que PhysX-Omni puede impulsar significativamente una amplia gama de aplicaciones posteriores, particularmente en IA corpórea y simulación basada en física.
El razonamiento audiovisual conjunto es esencial para la comprensión omnimodal, pero los modelos de lenguaje grandes multimodales (MLLMs) actuales aún tienen dificultades cuando el razonamiento requiere evidencia detallada de ambas modalidades. Una limitación central es que la cadena de pensamiento (CoT) explícita basada en texto comprime las señales audiovisuales continuas en tokens discretos, debilitando el anclaje temporal y desplazando el razonamiento intermedio hacia sesgos lingüísticos. Sostenemos que un espacio latente unificado es un mejor medio para dicho razonamiento porque preserva información sensorial densa mientras sigue siendo compatible con la generación autorregresiva. Basándonos en esta observación, proponemos LatentOmni, un marco de razonamiento intermodal que entrelaza el razonamiento textual con estados latentes audiovisuales. LatentOmni introduce supervisión a nivel de características para alinear los estados de razonamiento latentes con características sensoriales relevantes para la tarea y utiliza la Incrustación de Posición Omni-Sync (OSPE) para mantener la consistencia temporal entre los estados latentes de audio y video. Además, construimos LatentOmni-Instruct-35K, un conjunto de datos de trayectorias de razonamiento entrelazadas audiovisuales para supervisar el razonamiento en el espacio latente. La evaluación exhaustiva en múltiples puntos de referencia de razonamiento audiovisual demuestra que LatentOmni logra el mejor rendimiento entre los modelos de código abierto evaluados y supera consistentemente la línea base de CoT explícito en texto, apoyando el razonamiento conjunto en el espacio latente como una vía prometedora hacia una comprensión omnimodal más sólida.
Los sistemas de hojas de cálculo (por ejemplo, Microsoft Excel, Google Sheets) desempeñan un papel central en los flujos de trabajo modernos centrados en datos. A medida que los agentes de IA se vuelven cada vez más capaces de automatizar tareas complejas, como controlar computadoras y generar presentaciones, la construcción de un agente de hojas de cálculo basado en IA ha surgido como una dirección de investigación prometedora. La mayoría de los agentes de hojas de cálculo existentes dependen de indicaciones especializadas sobre LLM de propósito general; si bien este diseño tiene potencial en operaciones simples de hojas de cálculo, tiene dificultades para gestionar los flujos de trabajo complejos y de múltiples pasos típicos de las aplicaciones del mundo real. Presentamos Spreadsheet-RL, un marco de ajuste fino basado en aprendizaje por refuerzo (RL) diseñado para entrenar agentes especializados en hojas de cálculo dentro de un entorno realista de Microsoft Excel. Spreadsheet-RL cuenta con un pipeline automatizado para la recolección escalable de pares de hojas de cálculo de inicio y objetivo provenientes de foros en línea, así como tareas de evaluación específicas de dominio en áreas como finanzas y gestión de la cadena de suministro, que recopilamos en el nuevo conjunto de datos de referencia Domain-Spreadsheet. También incluye un entorno Spreadsheet Gym diseñado para RL de múltiples turnos: Spreadsheet Gym expone una amplia funcionalidad de Excel a través de un entorno aislado de Python, junto con una plataforma refinada que incorpora un conjunto completo de herramientas y reglas de enrutamiento de herramientas cuidadosamente diseñadas para tareas de hojas de cálculo. Mediante experimentos exhaustivos, demostramos que Spreadsheet-RL mejora sustancialmente el rendimiento del agente de IA tanto en tareas generales como específicas de dominio de hojas de cálculo: mejora el Pass@1 de Qwen3-4B-Thinking-2507 en SpreadsheetBench del 12.0% al 23.4%, y eleva el Pass@1 del 8.4% al 17.2% en nuestro conjunto de datos Domain-Spreadsheet curado. Estos resultados resaltan el fuerte potencial de Spreadsheet-RL para la generalización y la adopción en el mundo real en la automatización de hojas de cálculo, y en términos más amplios, su promesa para avanzar en las interacciones basadas en LLM con interfaces de datos en el trabajo cotidiano.
Los modelos de difusión de video autorregresivos han permitido la generación de mundos en tiempo real condicionada por acciones. Sin embargo, mantener un mundo persistente, donde al volver a un punto de vista previamente observado se obtenga contenido coherente, sigue siendo un problema abierto. La atención completa con caché KV preserva esta coherencia, pero rompe las restricciones de tiempo real: el uso de memoria y el costo de atención crecen linealmente con la longitud del despliegue. La inferencia con ventana deslizante restaura el rendimiento, pero descarta la coherencia a largo plazo. Proponemos WorldKV, un marco sin entrenamiento con dos componentes: Recuperación del Mundo (World Retrieval) y Compresión del Mundo (World Compression). La Recuperación del Mundo almacena fragmentos de caché KV eliminados en memoria de GPU/CPU y recupera selectivamente fragmentos relevantes para la escena mediante correspondencia cámara/acción, insertándolos de nuevo en la ventana de atención nativa sin necesidad de re-codificación. La Compresión del Mundo poda los tokens redundantes dentro de cada fragmento mediante similitud clave-clave con un fotograma de referencia, reduciendo a la mitad el almacenamiento por fragmento para almacenar el doble de historial bajo un presupuesto fijo. En Matrix-Game-2.0 y LingBot-World-Fast, WorldKV iguala o supera la fidelidad de memoria de la caché KV completa con aproximadamente el doble de rendimiento, y compite con líneas base entrenadas con memoria sin necesidad de ajuste fino. Página del proyecto: https://cvlab-kaist.github.io/WorldKV/
La inteligencia artificial (IA) está cada vez más integrada en el descubrimiento científico, pero aún no está claro si puede anticipar el progreso científico. Para estudiar esta cuestión, presentamos un marco de evaluación temporalmente fundamentado para predecir el avance científico bajo restricciones controladas de conocimiento. Introducimos CUSP (Progreso Científico Inédito Condicionado por Corte), un punto de referencia multidisciplinario y a nivel de eventos que evalúa la predicción científica en sistemas de IA mediante la evaluación de viabilidad, el razonamiento mecanicista, el diseño generativo de soluciones y la predicción temporal. En 4.760 eventos científicos, observamos limitaciones sistemáticas y dependientes del dominio en los modelos de frontera actuales. Si bien los modelos pueden identificar direcciones de investigación plausibles entre candidatos en competencia, no logran predecir de manera confiable si los avances científicos se materializarán y estiman sistemáticamente mal cuándo ocurrirán. El rendimiento es altamente heterogéneo entre dominios, siendo la predicción temporal del progreso en IA más predecible que los avances en biología, química y física. El rendimiento es mayoritariamente insensible a si los eventos ocurren antes o después del corte de entrenamiento, lo que sugiere que estas limitaciones no pueden explicarse únicamente por la exposición al conocimiento en los datos de entrenamiento. Bajo acceso controlado a la información, el conocimiento adicional anterior al corte mejora el rendimiento, pero no cierra la brecha con los entornos de información completa, brecha que se vuelve más pronunciada para los avances con altas citas. Los modelos también muestran una sobreconfianza sistemática y fuertes sesgos de respuesta, lo que indica una estimación de incertidumbre poco fiable. En conjunto, los sistemas de IA actuales resultan insuficientes como herramientas predictivas para el progreso científico. El acceso al conocimiento previo no se traduce en predicciones fiables, y el rendimiento se beneficia más de la información posterior al evento que de la predicción prospectiva.
Los transformadores de difusión (DiTs) se han consolidado como una arquitectura dominante para la generación de texto a imagen, pero su rendimiento disminuye al generar en resoluciones superiores a su rango de entrenamiento. Los enfoques existentes sin entrenamiento mitigan este problema modificando el comportamiento de la atención durante la inferencia, a menudo mediante la extrapolación de Incrustaciones de Posición Rotatoria (RoPE) combinada con escalado de atención. Sin embargo, estas estrategias aplican un escalado uniforme e independiente del contenido a los componentes de RoPE con distintas características de frecuencia, lo que genera un equilibrio entre preservar la estructura global y recuperar los detalles finos. Introducimos SEGA, un método sin entrenamiento que escala dinámicamente la atención a través de los componentes de RoPE según la estructura de frecuencia espacial del latente en cada paso de eliminación de ruido. Este escalado adaptativo mejora tanto la coherencia estructural como la fidelidad de los detalles finos. Los experimentos muestran que SEGA mejora constantemente la síntesis de alta resolución en múltiples resoluciones objetivo, superando a las líneas de base sin entrenamiento del estado del arte.
El entrenamiento y la validación robustos de los Sistemas de Conducción Autónoma (ADS) requieren conjuntos de datos masivos y diversos. Los datos propietarios recopilados por flotas de Vehículos Autónomos (AV), aunque de alta fidelidad, son limitados en escala, diversidad de configuraciones de sensores, así como en cobertura geográfica y de comportamientos de cola larga. En contraste, los datos silvestres provenientes de fuentes como cámaras de tablero ofrecen una escala y diversidad inmensas, capturando escenarios críticos de cola larga y entornos novedosos. Sin embargo, estos datos de video no estructurados y silvestres son incompatibles con los ADS, que requieren entradas de sensores multimodales estructuradas para su validación y entrenamiento. Para cerrar esta brecha de datos, proponemos Sensor2Sensor, un novedoso paradigma de modelado generativo que traduce videos silvestres monoculares de cámaras de tablero en un conjunto de sensores multimodales de alta fidelidad (registros de AV) que comprende imágenes de cámaras multivista y nubes de puntos LiDAR. Un desafío central es la falta de datos de entrenamiento emparejados. Abordamos esto convirtiendo registros reales de AV en videos estilo cámara de tablero mediante reconstrucción por Gaussian Splatting 4D (4DGS) y renderizado de vista novedosa. Sensor2Sensor utiliza entonces una arquitectura de difusión para realizar la conversión generativa. Realizamos evaluaciones cuantitativas exhaustivas sobre la fidelidad y el realismo de los datos de sensores generados. Demostramos la utilidad práctica de Sensor2Sensor al convertir material de video desafiante de internet y cámaras de tablero en formatos de datos multimodales realistas, desbloqueando así vastas fuentes de datos externas para el desarrollo de AV.
Extender el horizonte de generación de los modelos de difusión de video a secuencias largas sigue siendo un desafío importante y de larga data. Los enfoques existentes sin entrenamiento se dividen en dos categorías: extensiones de modelos bidireccionales, que están estrechamente acopladas a arquitecturas específicas y sufren de degradación de calidad en horizontes largos, y modelos autorregresivos, que acumulan errores de deriva debido al sesgo de exposición y tienden a producir patrones de movimiento repetitivos. Para abordar estos problemas, proponemos un enfoque novedoso pero simple en tiempo de inferencia para la generación de videos largos, que es independiente de la arquitectura y no requiere entrenamiento adicional. Nuestro método genera videos largos mediante ventanas deslizantes superpuestas, donde las muestras limpias predichas de ventanas adyacentes se combinan mediante el emparejamiento de Tweedie para imponer tanto la restricción de variedad como la consistencia temporal en las regiones de superposición. Luego, el muestreo estocástico en fase temprana sincroniza las trayectorias de cada ventana inyectando ruido fresco después de cada corrección de emparejamiento de Tweedie en la fase de alto ruido, antes de transitar al muestreo determinista ODE para preservar la fidelidad visual de grano fino. Aplicado a varios modelos de generación de video, nuestro método genera videos varias veces más largos que la longitud de ventana nativa, superando tanto a las líneas base sin entrenamiento como a las autorregresivas en consistencia temporal y calidad visual, y se extiende además a la generación conjunta de audio y video y a texto a 3DGS sin necesidad de ajuste fino.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un rápido progreso en inteligencia espacial. Sin embargo, los puntos de referencia existentes para el razonamiento espacial asumen, en gran medida, entradas visuales prístinas y pasan por alto las degradaciones que ocurren comúnmente en despliegues del mundo real, como el desenfoque por movimiento, la baja iluminación, las condiciones climáticas adversas, la distorsión de lentes y los artefactos de compresión. Esto plantea una pregunta fundamental: ¿qué tan robusta es la inteligencia espacial de los MLLMs actuales cuando las observaciones visuales son imperfectas? Para responder a esta pregunta, presentamos SpaceDG, el primer conjunto de datos a gran escala diseñado para la comprensión espacial consciente de degradaciones. Este conjunto de datos se construye mediante un motor de síntesis de degradaciones físicamente fundamentado que integra el proceso de formación de degradaciones en la representación mediante Gaussian Splatting 3D (3DGS), permitiendo la simulación realista de nueve tipos de degradación. El conjunto de datos resultante contiene aproximadamente 1 millón de pares de preguntas y respuestas provenientes de casi 1000 escenas de interiores. Además, presentamos SpaceDG-Bench, un punto de referencia verificado por humanos con 1102 preguntas que abarcan 11 categorías de razonamiento y 9 tipos de degradación visual, generando más de 10 mil instancias de Preguntas y Respuestas Visuales (VQA). La evaluación de 25 MLLMs de código abierto y cerrado revela que las degradaciones视觉es afectan de manera consistente y sustancial el razonamiento espacial, exponiendo una brecha crítica en la robustez. Finalmente, demostramos que el ajuste fino en SpaceDG mejora notablemente la robustez frente a degradaciones y puede incluso superar el rendimiento humano en condiciones degradadas, sin ninguna disminución en el rendimiento con imágenes limpias, lo que resalta la promesa del entrenamiento consciente de degradaciones para una inteligencia espacial robusta.
La proliferación de modelos de lenguaje de gran tamaño (LLMs) y habilidades modulares ha dotado a los agentes autónomos de capacidades cada vez más potentes. Los marcos existentes suelen depender de LLMs monolíticos y lógica fija para interactuar con estas habilidades, lo que genera un cuello de botella crítico: distintos LLMs ofrecen ventajas específicas en diversos ámbitos, pero los marcos actuales no explotan las fortalezas complementarias de modelos y habilidades, limitando así su rendimiento en tareas posteriores. En este artículo presentamos Maestro (Agente Multimodal para Orquestación Reforzada Dirigida a Habilidades de Expertos), un marco de orquestación basado en Aprendizaje por Refuerzo (RL) que reformula tareas multimodales heterogéneas como un proceso de toma de decisiones secuencial sobre un registro jerárquico de modelos y habilidades. En lugar de consolidar todo el conocimiento en un único modelo, Maestro entrena una política ligera para componer dinámicamente conjuntos de modelos expertos congelados y una biblioteca de habilidades de dos niveles, decidiendo en cada paso si invocar un experto externo, qué par modelo-habilidad seleccionar y cuándo terminar. La política se optimiza mediante RL basado en resultados, sin requerir supervisión a nivel de paso. Evaluamos Maestro en diez puntos de referencia multimodales representativos que abarcan razonamiento matemático, comprensión de gráficos, percepción de alta resolución y análisis de dominio específico. Con un orquestador de solo 4B, Maestro alcanza una precisión media del 70,1%, superando tanto a GPT-5 (69,3%) como a Gemini-2.5-Pro (68,7%). De manera crucial, la política de coordinación aprendida se generaliza a modelos y habilidades no vistos sin reentrenamiento: al aumentar el registro con expertos fuera del dominio se obtiene un promedio del 59,5% en cuatro benchmarks desafiantes, superando todas las líneas base de código cerrado. Maestro mantiene además una alta eficiencia computacional con baja latencia. El código fuente está disponible en https://github.com/jinyangwu/Maestro.
Los modelos de difusión de video autorregresivos (ARVDs) han surgido como una arquitectura prometedora para la generación de video en streaming, allanando el camino para la generación de video interactiva en tiempo real y el modelado del mundo. A pesar de su potencial, el costo sustancial de inferencia de los ARVDs sigue siendo un obstáculo importante para su implementación práctica, lo que convierte a la cuantización de modelos en una dirección natural para mejorar la eficiencia. Sin embargo, la cuantización para ARVDs sigue siendo en gran medida inexplorada. Nuestro análisis empírico muestra que la aplicación directa de los esquemas de cuantización existentes, desarrollados para transformadores de difusión estándar, a los ARVDs produce un rendimiento subóptimo, revelando comportamientos de cuantización que difieren de los observados en modelos de difusión bidireccionales. En este artículo, identificamos dos desafíos críticos en la cuantización de ARVDs: (C1) Sensibilidad de cuantización por fotograma altamente desequilibrada. La acumulación de errores durante la generación autorregresiva puede inducir una sensibilidad a la cuantización severamente sesgada entre fotogramas, siguiendo un patrón de decaimiento de tipo exponencial. (C2) Patrones de valores atípicos prominentes y heterogéneos en los pesos. Las distribuciones de pesos presentan canales atípicos pronunciados, cuyos patrones varían sustancialmente entre tipos de capas y profundidades de bloques. Para abordar estos problemas, proponemos Q-ARVD, un marco novedoso para la cuantización precisa de ARVDs. (S1) Para hacer frente a la sensibilidad por fotograma altamente desequilibrada, Q-ARVD incorpora un mecanismo de ponderación de fotogramas que tiene en cuenta la calidad final dentro del objetivo de cuantización. (S2) Para evitar que los valores atípicos heterogéneos degraden el rendimiento, Q-ARVD introduce una cuantización adaptativa de doble escala consciente de valores atípicos, que detecta automáticamente la presencia y cantidad de canales atípicos para una capa arbitraria, y los aísla para proteger los canales normales. Experimentos exhaustivos demuestran la superioridad de Q-ARVD.
Los Modelos de Recompensa de Proceso (PRMs) constituyen un mecanismo potente para guiar el razonamiento de modelos de lenguaje de gran escala al proporcionar una supervisión detallada a nivel de pasos. Sin embargo, esta efectividad conlleva un costo significativo: los PRMs requieren anotaciones de expertos para cada paso de razonamiento, lo que los hace costosos y difíciles de escalar. En este trabajo, proponemos un método para entrenar PRMs no supervisados (uPRM) que no requiere supervisión humana, ni a nivel de anotaciones paso a paso ni mediante la verificación de la respuesta final con la verdad fundamental. La idea clave detrás de nuestro enfoque es definir una función de puntuación, derivada de las probabilidades del siguiente token del LLM, que evalúe conjuntamente las posiciones candidatas de los primeros pasos erróneos en un lote de trayectorias de razonamiento. Demostramos la efectividad de uPRM en diversos escenarios: (i) uPRM logra mejoras de precisión absoluta de hasta un 15% en comparación con el método LLM como juez para identificar los primeros pasos erróneos en el conjunto de datos ProcessBench; (ii) como verificador para el escalado en tiempo de prueba, uPRM se desempeña de manera comparable a los PRMs supervisados y supera la línea base de votación mayoritaria en hasta un 6,9%; y (iii) cuando se utiliza como señal de recompensa en aprendizaje por refuerzo, uPRM permite una optimización de políticas más robusta durante todo el entrenamiento en comparación con un PRM supervisado entrenado con etiquetas de verdad fundamental. En conjunto, nuestros resultados abren un camino hacia el modelado de recompensas escalable para tareas de razonamiento complejas.
La atención lineal reemplaza la caché ilimitada de la atención softmax con un estado recurrente de tamaño fijo, reduciendo la mezcla de secuencias a tiempo lineal y la decodificación a memoria constante. La parte difícil no es solo qué olvidar, sino cómo editar esta memoria comprimida sin desordenar las asociaciones existentes. Los modelos basados en regla delta restan la lectura actual antes de escribir un nuevo valor, y Kimi Delta Attention (KDA) afina el olvido con decaimiento por canal. Pero la edición activa aún utiliza una única puerta escalar para controlar dos cosas diferentes: cuánto contenido antiguo borrar en el lado de la clave y cuánto contenido nuevo comprometer en el lado del valor. Presentamos Gated DeltaNet-2, que generaliza tanto Gated DeltaNet como KDA al heredar el olvido adaptativo y el decaimiento por canal, mientras aborda su limitación compartida: el vínculo escalar entre borrado y escritura. Gated Delta Rule-2 separa estos roles con una puerta de borrado por canal b_t y una puerta de escritura por canal w_t, reduciéndose a KDA cuando ambas puertas colapsan al mismo escalar y a Gated DeltaNet cuando el decaimiento también colapsa. Derivamos una vista de actualización de pesos rápidos, un algoritmo WY por fragmentos con decaimiento por canal absorbido en factores de borrado asimétricos, y un pase hacia atrás consciente de puertas que preserva el entrenamiento paralelo eficiente. Con 1.300 millones de parámetros entrenados en 100.000 millones de tokens de FineWeb-Edu, Gated DeltaNet-2 logra los resultados generales más sólidos entre las variantes de Mamba-2, Gated DeltaNet, KDA y Mamba-3 en modelado de lenguaje, razonamiento de sentido común y recuperación. Su ventaja es más pronunciada en los benchmarks de aguja en un pajar RULER de contexto largo, donde mejora la configuración evaluada de recuperación multiclave y se mantiene fuerte tanto en entornos recurrentes como híbridos. El código está disponible en https://github.com/NVlabs/GatedDeltaNet-2.
La generación de imágenes abierta ya no es un simple problema de conversión de instrucción a imagen. La generación de alta calidad a menudo requiere que un agente combine la capacidad generativa interna de un modelo con recursos externos. A medida que las solicitudes se vuelven más diversas y exigentes, nuestro objetivo es desarrollar un agente general de generación de imágenes que pueda auto-evolucionar a través de trayectorias y utilizar herramientas de manera más efectiva en diversos desafíos de generación. Con este fin, proponemos GenEvolve, un marco de auto-evolución basado en la Destilación de Experiencia Visual Orquestada por Herramientas. En GenEvolve, cada intento de generación se modela como una trayectoria orquestada por herramientas, donde el agente recopila evidencia, selecciona referencias, invoca habilidades de generación y las compone en un programa de instrucciones y referencias. A diferencia de los métodos de generación basados en agentes existentes que se basan principalmente en recompensas escalares a nivel de imagen, GenEvolve compara múltiples trayectorias para la misma solicitud y abstrae las diferencias entre las mejores y las peores en una experiencia visual estructurada, proporcionada solo a una rama de profesor privilegiada. Inspirado en la autodestilación en política, la Destilación de Experiencia Visual proporciona una supervisión densa a nivel de token, ayudando al estudiante a internalizar una mejor búsqueda, activación de conocimiento, selección de referencias y construcción de instrucciones. Además, construimos GenEvolve-Data y GenEvolve-Bench. Los experimentos en puntos de referencia públicos y en GenEvolve-Bench muestran mejoras sustanciales sobre líneas base sólidas, logrando un rendimiento de última generación entre los marcos actuales de generación de imágenes. Nuestro sitio web es el siguiente: https://ephemeral182.github.io/GenEvolve/
Los LLMs se adoptan ampliamente en producción, llevando los sistemas de inferencia a sus límites. El servicio de LLM desagregado (por ejemplo, la separación de PD y la desagregación del estado KV) mejora la escalabilidad y la eficiencia de costos, pero también convierte a KV en una carga útil explícita que cruza los límites de red y almacenamiento, haciendo de KV un cuello de botella dominante de extremo a extremo. Las compresiones de KV existentes suelen ser configuraciones de tiempo de ejecución estáticas, a pesar de que el contexto del servicio de producción varía con el tiempo en la combinación de cargas de trabajo, el ancho de banda y los presupuestos de SLO/calidad. Como resultado, una elección fija puede ser subóptima o incluso aumentar la latencia. Presentamos \emph{KVServe}, el primer marco de compresión de comunicación KV adaptativa y consciente del servicio para servicio de LLM desagregado: KVServe (1) unifica la compresión KV en un espacio de estrategias modulares con nuevos componentes y recomposición entre métodos; (2) introduce un Motor de Perfilado Bayesiano que busca eficientemente este espacio y destila un conjunto de candidatos Pareto 3D, reduciendo $50\times$ la sobrecarga de búsqueda fuera de línea; y (3) implementa un Controlador en Línea Consciente del Servicio que combina un modelo de latencia analítico con un bandido ligero para seleccionar perfiles bajo restricciones y corregir el desajuste entre fuera de línea y en línea. Integrado en vLLM y evaluado en conjuntos de datos, modelos, GPUs y redes, KVServe logra hasta $9.13\times$ de aceleración en JCT en servicio separado por PD y hasta $32.8\times$ de reducción en TTFT en servicio desagregado por KV.
El progreso en el desarrollo de modelos de lenguaje suele estar impulsado por decisiones comparativas: qué arquitectura adoptar, qué corpus de preentrenamiento utilizar o qué receta de entrenamiento aplicar. Tomar estas decisiones correctamente requiere pronósticos de rendimiento fiables, pero las dos señales comúnmente utilizadas tienen limitaciones fundamentales. La pérdida de entropía cruzada está escasamente alineada con las capacidades finales del modelo, y la evaluación directa de estas capacidades es costosa, escasa y a menudo poco informativa en las primeras etapas del entrenamiento. En su lugar, proponemos construir métricas proxy mediante la agregación de estadísticas a nivel de token, como la entropía, la precisión top-k y el rango de tokens expertos, a partir de la distribución del siguiente token de un modelo candidato sobre soluciones escritas por expertos. En tres contextos, nuestras métricas proxy superan consistentemente a las líneas base basadas en pérdida y cómputo: 1) Para la selección de modelos entre familias, clasifican una población heterogénea de modelos de razonamiento con un Rho de Spearman medio de 0.81 (frente a Rho = 0.36 para la pérdida de entropía cruzada); 2) Para la selección de datos de preentrenamiento, clasifican de manera fiable 25 corpus candidatos para un modelo objetivo utilizando aproximadamente 10,000 veces menos cómputo que la evaluación directa, desplazando la frontera de Pareto más allá de los métodos existentes; y 3) Para la predicción durante el entrenamiento, extrapolan la precisión final a lo largo de un horizonte de cómputo de 18 veces con aproximadamente la mitad del error de las alternativas existentes. En conjunto, estos resultados sugieren que las trayectorias de expertos son una fuente de señal ampliamente útil para evaluar las capacidades del modelo, permitiendo pronósticos de rendimiento fiables a lo largo del ciclo de vida del desarrollo del modelo.
Los enfoques existentes para la producción de microdramas digitales suelen basarse en guiones generados por LLM en una sola ejecución y en pipelines débilmente acoplados, lo que no logra satisfacer tres requisitos clave de la generación de microdramas: (1) ritmo narrativo, lo que da lugar a ganchos débiles, escalada insuficiente y finales poco atractivos; (2) consistencia espacial, que provoca diseños de escena cambiantes y posiciones de personajes inconsistentes entre clips; y (3) control de calidad a nivel de producción, que requiere una extensa revisión y corrección manual tanto en la etapa de guion como en la visual. Presentamos *One Sentence, One Drama*, un marco multiagente jerárquico que transforma la idea de una sola frase del usuario en un microdrama completamente producido a través de módulos intermedios estructurados y refinamiento iterativo. Nuestro enfoque se sustenta en tres componentes clave: (1) un módulo de generación de historias basado en debate multiagente que impone el ritmo narrativo y la coherencia del microdrama; (2) un mecanismo de generación del primer fotograma basado en 3D que establece una referencia espacial compartida para un posicionamiento consistente de personajes y diseño de escena entre clips; y (3) bucles de revisión multietapa que realizan una detección exhaustiva de errores y una revisión dirigida en las etapas de guion, visual y de generación de video. También introducimos la combinación de música de fondo (BGM) a nivel de escena y la planificación de transiciones de escena para mejorar la experiencia inmersiva del público. Para evaluar sistemáticamente esta tarea, presentamos *Short-Drama-Bench*, un punto de referencia que amplía las métricas estándar de calidad de video con criterios específicos para microdramas. Los resultados experimentales demuestran que nuestro método supera significativamente a los pipelines existentes en calidad narrativa, consistencia entre clips y experiencia visual general.
Los grandes modelos de lenguaje (LLMs) y los sistemas agénticos han mostrado potencial para el apoyo a decisiones clínicas, pero los trabajos existentes suponen en gran medida que la evidencia ya ha sido seleccionada y entregada al modelo. Los flujos de trabajo clínicos reales, en cambio, requieren que los agentes busquen activamente, planifiquen de forma iterativa y sinteticen evidencia multimodal proveniente de fuentes heterogéneas. En este artículo presentamos ClinSeekAgent, un marco agéntico automatizado para la búsqueda dinámica de evidencia multimodal que cambia el paradigma del consumo pasivo de evidencia a la adquisición activa de la misma. Dada únicamente una consulta clínica y acceso a fuentes de datos en bruto, ClinSeekAgent recopila evidencia consultando bases de conocimiento médico, navegando por historias clínicas electrónicas (HCE) sin procesar e invocando herramientas de imagen médica; refina sus hipótesis a medida que emerge nueva información; e integra la evidencia recolectada en decisiones clínicas fundamentadas. ClinSeekAgent sirve tanto como agente en tiempo de inferencia para LLMs de vanguardia como como un pipeline en tiempo de entrenamiento para destilar trayectorias agénticas de alta calidad en modelos compactos de código abierto. Para validar su efectividad en tiempo de inferencia, construimos ClinSeek-Bench, que empareja razonamiento de Entrada Seleccionada a partir de evidencia predefinida fija con Búsqueda Automática de Evidencia sobre datos clínicos en bruto. En tareas de HCE solo texto, ClinSeekAgent mejora el F1 global de Claude Opus 4.6 de 60,0 a 63,2 y el de MiniMax M2.5 de 43,1 a 47,3, con ganancias positivas en la predicción de riesgo en 7 de los 9 modelos anfitriones evaluados. En tareas multimodales, ClinSeekAgent mejora a Claude Opus 4.6 de 47,5 a 62,6 (+15,1); todos los modelos evaluados mejoran en los tres grupos de tareas relacionadas con radiografías de tórax (CXR). Validamos además ClinSeekAgent como pipeline de entrenamiento al destilar trayectorias agénticas de búsqueda de evidencia en ClinSeek-35B-A3B, que alcanza un F1 promedio de 34,0 en AgentEHR-Bench existente, mejorando en +11,9 puntos respecto a su línea base Qwen3.5-35B-A3B y acercándose a Claude Opus 4.6.
Mientras que la mayoría de los fotogramas en vídeos de larga duración son redundantes, la información crítica reside en las sorpresas temporales: momentos en los que las características visuales reales se desvían de su evolución prevista. Inspirándonos en la codificación predictiva del cerebro humano, presentamos Swift Sampling, un elegante algoritmo de selección de fotogramas que no requiere entrenamiento y que identifica automáticamente los momentos de alta información en un vídeo. Específicamente, modelamos un vídeo como una trayectoria diferenciable en el espacio latente visual y calculamos la velocidad y aceleración de sus características. Luego, aplicamos la expansión de Taylor para proyectar la trayectoria esperada de los fotogramas subsiguientes. Los fotogramas que se desvían marcadamente de esta variedad predicha se identifican como fotogramas temporalmente sorprendentes y se seleccionan para el muestreo. A diferencia de los métodos previos sin entrenamiento que dependen de redes auxiliares o del ajuste de hiperparámetros específicos del vídeo, Swift Sampling es extremadamente ligero, añadiendo solo un costo computacional adicional de 0.02x sobre la línea base, lo que lo hace 30 veces más barato en términos de gastos generales que las líneas base líderes. En tres conjuntos de referencia de respuesta a preguntas sobre vídeos largos y 10 tareas posteriores diferentes, Swift Sampling supera al muestreo uniforme y a las líneas base previas independientes de la consulta. Es especialmente potente para vídeos largos con presupuestos de fotogramas limitados, mejorando la precisión hasta en +12.5 puntos.
Las fichas de modelo describen el comportamiento del modelo mediante una combinación de descripciones textuales y artefactos estructurados, incluyendo tablas de rendimiento, configuración y conjuntos de datos. Los sistemas existentes de búsqueda de modelos se basan predominantemente en la similitud semántica sobre el texto, lo que puede producir conjuntos de resultados homogéneos y limitar la exploración de alternativas. Argumentamos que la búsqueda de modelos es inherentemente comparativa: los usuarios desean modelos que estén alineados con la tarea pero diferenciados de maneras medibles. Hipotetizamos que este equilibrio requiere la recuperación de evidencia condensada y de alta calidad en lugar de descripciones extensas, y gran parte de esa evidencia se concentra en tablas estructuradas. Presentamos StructuredSemanticSearch, un marco de búsqueda de modelos basado en tablas construido sobre el punto de referencia ModelTables. Dada una consulta, StructuredSemanticSearch combina una línea base semántica para la alineación de tareas con un pipeline consciente de la estructura que descubre tablas de fichas de modelo relacionadas con la consulta utilizando operadores de descubrimiento de tablas como unionability, joinability y búsqueda por palabras clave. Las tablas recuperadas se asignan de nuevo a las fichas de modelo bajo un presupuesto controlado de top-k, lo que permite una comparación justa entre la recuperación basada en texto y la basada en tablas. Más allá de la recuperación, StructuredSemanticSearch adapta la integración de tablas al dominio de las tablas de modelos mediante una integración consciente de la orientación, produciendo vistas integradas compactas de tablas a partir de tablas de evidencia parcialmente superpuestas y a veces transpuestas. Para la evaluación, introducimos un protocolo auditable basado en nuggets que extrae elementos de evidencia compactos de las fichas de modelo, empareja las consultas con nuggets específicos de condición o intención, y mide la cobertura y diversidad de la evidencia sobre los conjuntos de candidatos de fichas de modelo recuperados. Este protocolo también proporciona un camino escalable hacia el etiquetado aproximado basado en evidencia en lagos de modelos dinámicos. Los experimentos con 597 consultas de recomendación de modelos muestran una mejora en la cobertura de nuggets para el pipeline consciente de la estructura en comparación con la línea base semántica.
¿Cómo debería decidir un agente cuándo y cómo planificar? Un enfoque dominante construye agentes como políticas reactivas con computación adaptativa (por ejemplo, cadena de pensamiento), entrenados de extremo a extremo esperando que la planificación emerja implícitamente. Sin control sobre la presencia, estructura u horizonte de la planificación, estos sistemas incrementan drásticamente la longitud del razonamiento, generando un uso ineficiente de tokens sin ganancias confiables de precisión. Sostenemos que el razonamiento agéntico eficiente se beneficia al descomponer la toma de decisiones en tres sistemas: razonamiento simulado (Sistema II) que fundamenta la deliberación en predicciones de estados futuros mediante un modelo del mundo; autorregulación (Sistema III) que decide cuándo y con qué profundidad planificar a través de un configurador aprendido; y ejecución reactiva (Sistema I) que maneja acciones de grano fino. El razonamiento simulado proporciona una planificación unificada en diversas tareas sin ingeniería específica por dominio, mientras que la autorregulación asegura que el planificador se invoca solo cuando es necesario. Para probar esto, desarrollamos SR²AM (Modelo de Lenguaje Agéntico con Razonamiento Simulado y Autorregulación), realizando ambos como etapas distintas dentro de la cadena de pensamiento de un LLM, con el LLM como modelo del mundo. Exploramos dos instanciaciones: registrar decisiones de un sistema multimódulo inducido por instrucciones (v0.1) y reconstruir planes estructurados a partir de trazas de LLMs de razonamiento preentrenados (v1.0), entrenados mediante aprendizaje supervisado y luego por refuerzo (RL). En matemáticas, ciencias, análisis tabular y búsqueda de información web, v0.1-8B y v1.0-30B alcanzan un Pass@1 competitivo con sistemas de 120-355B y 685B-1T parámetros respectivamente, mientras que v1.0-30B utiliza entre un 25,8% y un 95,3% menos tokens de razonamiento que LLMs agénticos comparables. El RL aumenta el horizonte de planificación promedio en un 22,8%, mientras que la frecuencia de planificación crece solo un 2,0%, lo que muestra que aprende a planificar a más largo plazo en lugar de con mayor frecuencia. En un sentido más amplio, la autorregulación aprendida instancia un principio que esperamos se extienda más allá de la planificación, hacia cómo los agentes gobiernan su propio aprendizaje y adaptación.
Los métodos tradicionales de seguimiento de objetos visuales (VOT) suelen basarse en entrenamiento supervisado específico de la tarea, lo que limita su generalización a objetos no vistos y escenarios desafiantes con distractores, oclusiones y movimientos no lineales. Los modelos fundacionales recientes de visión, ejemplificados por SAM 2, aprenden fuertes conocimientos previos de comprensión de video a partir de un preentrenamiento a gran escala y ofrecen una base prometedora para construir rastreadores más robustos y generalizables. Sin embargo, la aplicación directa de SAM 2 al VOT sigue siendo subóptima, ya que no modela explícitamente la dinámica del movimiento del objetivo ni impone consistencia geométrica y semántica entre fotogramas, aspectos ambos esenciales para un seguimiento fiable. Para abordar este problema, proponemos SAMOSA, un nuevo marco de seguimiento que adapta SAM 2 a escenarios complejos de VOT aprovechando explícitamente señales de movimiento, geometría y semántica. Específicamente, introducimos un predictor de movimiento no lineal ligero para modelar la dinámica del objetivo y guiar la selección de máscaras, así como el filtrado de memoria. Además, explotamos señales semánticas para detectar cambios de objetivo y recuperarnos de fallos de seguimiento, mientras que las señales geométricas se incorporan como restricciones estructurales para mejorar la estabilidad del seguimiento. De esta manera, SAMOSA tiende un puente entre el conocimiento implícito de comprensión de video de SAM 2 y el modelado explícito orientado al seguimiento. Experimentos exhaustivos muestran que SAMOSA supera sistemáticamente a los enfoques de última generación basados en SAM 2 en referencias generales, demuestra una mayor generalización que los métodos de VOT supervisados y logra ganancias sustanciales en conjuntos de datos anti-UAV, que ejemplifican escenarios complejos de movimiento no lineal. Nuestro código está disponible en https://github.com/DurYi/SAMOSA.
Los modelos de lenguaje multimodal de gran escala (MLLMs) y los modelos de difusión han alcanzado cada uno una madurez notable: los MLLMs sobresalen en el razonamiento sobre entradas multimodales heterogéneas con un sólido anclaje semántico, mientras que los modelos de difusión sintetizan imágenes y videos con un realismo fotográfico. Sostenemos que estas dos familias pueden unificarse mediante una simple división de tareas: los MLLMs realizan la planificación semántica, mientras que los modelos de difusión generan píxeles a partir de guías semánticas de alto nivel y características visuales de bajo nivel. Basándonos en esta idea, proponemos Bernini, un marco unificado para la generación y edición de videos. Un planificador basado en MLLM predice la representación semántica objetivo directamente en el espacio de incrustación de ViT, y un renderizador basado en DiT sintetiza píxeles condicionados por este plan, aumentado con características textuales y, para la edición, características de la VAE fuente para preservar los detalles. Dado que la semántica actúa como interfaz, el planificador y el renderizador pueden entrenarse por separado y solo someterse a un co-entrenamiento ligero, preservando las fortalezas preentrenadas de ambos componentes mientras se mantiene la eficiencia del entrenamiento. Para manejar mejor múltiples entradas visuales, introducimos el Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE), e incorporamos además el razonamiento de cadena de pensamiento en el planificador para transferir mejor la comprensión a la generación. Bernini logra un rendimiento de vanguardia en una amplia gama de puntos de referencia de generación y edición de videos, con la comprensión preentrenada del MLLM traduciéndose en una sólida generalización en tareas de edición desafiantes.
Muchos edificios públicos proporcionan planos con un indicador de "usted está aquí" para ayudar a los visitantes a orientarse. La localización en planos busca replicar computacionalmente esta capacidad al determinar dónde se capturaron observaciones visuales dentro de un plano. Sin embargo, los métodos existentes suelen asumir entornos controlados de pequeña escala y planos vectorizados precisos, lo que limita su capacidad para operar en edificios de gran escala y planos rasterizados. En este trabajo, presentamos un enfoque para realizar localización en planos en entornos reales, basando la tarea en una representación 3D reconstruida de la escena. Dada una colección de imágenes sin restricciones, nuestro método reconstruye una escena 3D alineada con la gravedad y la proyecta en un mapa de densidad 2D que actúa como proxy del plano. La localización en el plano se formula entonces como la alineación de este proxy con el plano de entrada mediante una transformación de similitud 2D. Para salvar la brecha de apariencia entre los mapas de densidad y los planos arquitectónicos, adaptamos un modelo fundacional 2D para aprender correspondencias entre modalidades, introduciendo un esquema de ajuste fino que fomenta coincidencias semánticamente alineadas mientras mantiene la consistencia estructural. Experimentos exhaustivos demuestran mejoras sustanciales con respecto a métodos anteriores, incluso en entornos extremadamente dispersos con tan solo una única imagen de entrada. Nuestro código y datos estarán disponibles públicamente.
La alineación de los modelos de generación de texto a imagen (T2I) con las preferencias humanas depende cada vez más de modelos de recompensa de imagen que puntúan o clasifican las imágenes generadas según su alineación con la indicación y su calidad perceptiva. Los modelos de recompensa existentes suelen entrenarse como modelos de preferencia de Bradley-Terry (BT) sobre grandes corpus de preferencias humanas, lo que los hace costosos de entrenar, difíciles de adaptar y opacos en sus criterios de evaluación. Mientras tanto, los evaluadores basados en modelos de lenguaje y visión (VLM) pueden proporcionar evaluaciones más detalladas mediante rúbricas textuales, pero sus reglas de puntuación, diseñadas manualmente o generadas heurísticamente, pueden no reflejar de manera fiable las preferencias humanas. En este artículo, proponemos AutoRubric-T2I, el primer marco de aprendizaje de rúbricas en T2I que sintetiza y selecciona automáticamente rúbricas explícitas para guiar a los evaluadores VLM. AutoRubric-T2I primero sintetiza trazas de razonamiento a partir de pares de preferencias en rúbricas candidatas, luego utiliza un evaluador VLM para puntuar imágenes emparejadas bajo cada rúbrica, generando diferencias de puntuación entre pares para el aprendizaje de preferencias. Para eliminar reglas ruidosas y redundantes, empleamos además un refinador de regresión logística con regularización L1, que selecciona las N rúbricas más discriminativas. Evaluaciones exhaustivas muestran que AutoRubric-T2I produce señales de recompensa interpretables y de alta calidad utilizando menos del 0.01% de los datos de preferencia anotados, lo que reduce sustancialmente la necesidad de entrenar modelos de recompensa a gran escala. En puntos de referencia de recompensa de imagen como MMRB2, AutoRubric-T2I supera a los modelos de recompensa base más potentes. Validamos además AutoRubric-T2I como recompensa de RL en tareas T2I posteriores, incluyendo TIIF y UniGenBench++, donde mejora la calidad de generación en comparación con modelos de recompensa escalares utilizando el pipeline Flow-GRPO en modelos de difusión.
Presentamos TerminalWorld, un motor de datos escalable que reconstruye automáticamente tareas de evaluación de alta fidelidad a partir de grabaciones de terminal del mundo real. Procesando 80.870 grabaciones de terminal, el motor genera un conjunto completo de 1.530 tareas validadas, que abarcan 18 categorías del mundo real, desde operaciones cotidianas breves hasta flujos de trabajo que superan los 50 pasos, e incluyen 1.280 comandos únicos. A partir de estas, seleccionamos un subconjunto Verificado de 200 tareas representativas revisadas manualmente. Una evaluación comparativa exhaustiva en TerminalWorld-Verified con ocho modelos de frontera y seis agentes revela que los sistemas actuales aún tienen dificultades con los flujos de trabajo auténticos en terminal, logrando una tasa máxima de éxito de solo el 62,5 %. Además, TerminalWorld captura capacidades reales de terminal distintas de las evaluaciones existentes seleccionadas por expertos (p. ej., Terminal-Bench), con una correlación débil con sus puntuaciones (Pearson r = 0,20). El motor automatizado hace que TerminalWorld sea auténtico y escalable por construcción, lo que permite evaluar agentes en entornos de terminal del mundo real a medida que evolucionan las prácticas de los desarrolladores. Los datos y el código están disponibles en https://github.com/EuniAI/TerminalWorld.
Las notas clínicas longitudinales contienen evidencia rica de cómo evolucionan los pacientes a lo largo del tiempo, pero convertir esta señal en supervisión de entrenamiento para la predicción clínica sigue siendo un desafío. Extendemos el aprendizaje de Foresight (Foresight Learning) a la predicción clínica transformando notas de MIMIC-III ordenadas cronológicamente en ejemplos que consisten en contexto pasado del paciente, una pregunta en lenguaje natural sobre un posible evento futuro y una etiqueta obtenida de documentación posterior. Este proceso produce 6,900 ejemplos de predicción a partir de 702 admisiones, abarcando medicamentos, procedimientos, soporte de órganos, microbiología y mortalidad. Un pequeño adaptador LoRA entrenado con estos ejemplos mejora respecto al modelo base con indicaciones, reduciendo el error de calibración esperado de 0,1269 a 0,0398 y el puntaje Brier de 0,199 a 0,145, al mismo tiempo que supera ligeramente las estimaciones puntuales de GPT-5 en preguntas reservadas. El enfoque permite una supervisión reutilizable de predicción clínica a partir de notas longitudinales, sin necesidad de características estructuradas diseñadas manualmente ni clasificadores específicos de punto final.
Los diseños de chips fabricables deben cumplir con miles de reglas de diseño basadas en geometría, y la verificación de reglas de diseño (DRC) las aplica ejecutando scripts DRC sobre los diseños. Traducir reglas en lenguaje natural a scripts DRC correctos requiere mucho trabajo y experiencia especializada, lo que motiva el uso de agentes LLM para la síntesis y depuración de scripts DRC. Sin embargo, los benchmarks existentes tienen conjuntos de evaluación pequeños y a menudo evalúan los scripts por similitud de código en lugar de corrección en la ejecución, y los métodos previos basados en aprendizaje automático ignoran la retroalimentación de la ejecución o requieren diseños de prueba etiquetados como entrada del agente. Para ello, presentamos Rule2DRC, un benchmark a gran escala para agentes de codificación de scripts DRC con 1,000 tareas de regla a script y 13,921 diseños de chips de evaluación para una puntuación basada en ejecución. Rule2DRC proporciona un pipeline de evaluación que mide la corrección funcional mediante los resultados de ejecución de DRC sin requerir que los diseños de evaluación sean entrada del agente. También proponemos SplitTester, un agente evaluador para selección de programas que utiliza retroalimentación de la ejecución para generar casos de prueba discriminatorios y separar scripts candidatos previamente indistinguibles, mejorando sustancialmente el rendimiento de selección Best-of-N en este dominio. Publicamos el código en https://github.com/snu-mllab/Rule2DRC.
El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) ha mostrado un gran potencial para el razonamiento de LLM, pero el RLVR basado en resultados sigue siendo ineficiente en problemas difíciles, ya que los despliegues correctos de la respuesta final son escasos y la asignación de crédito a nivel de muestra no puede aprovechar el progreso parcial en intentos fallidos. Introducimos SCRL (Aprendizaje por Refuerzo Curricular con Subproblemas), un marco de aprendizaje por refuerzo curricular que deriva subproblemas verificables a partir de cadenas de razonamiento de referencia y fija el subproblema final como el problema original. Esto convierte el progreso parcial en problemas difíciles en señales de aprendizaje verificables. Algorítmicamente, SCRL utiliza una normalización a nivel de subproblema, que normaliza las recompensas de manera independiente en cada posición de subproblema y asigna las ventajas resultantes a los segmentos de respuesta correspondientes, permitiendo una asignación de crédito más granular sin rúbricas externas ni modelos de recompensa. Nuestro análisis muestra que los currículos de subproblemas sacan a los problemas difíciles de las zonas muertas de gradiente, con mayores ganancias relativas a medida que el problema original se vuelve más difícil. En siete conjuntos de referencia de razonamiento matemático, SCRL supera a los métodos de referencia de aprendizaje curricular sólidos, mejorando la precisión promedio frente a GRPO en +4.1 puntos en Qwen3-4B-Base y +1.9 puntos en Qwen3-14B-Base. En AIME24, AIME25 e IMO-Bench, SCRL mejora adicionalmente pass@1 en +3.7 puntos y pass@64 en +4.6 puntos en Qwen3-4B-Base, lo que indica una mejor exploración en problemas de razonamiento difíciles.
A medida que los dispositivos portátiles y móviles se integran cada vez más en la vida cotidiana, ofrecen una forma práctica de detectar continuamente el movimiento humano en entornos no controlados. Sin embargo, las señales inerciales dependen en gran medida de la configuración de detección, incluyendo la ubicación en el cuerpo, la posición de montaje, la orientación del sensor, el hardware del dispositivo y el protocolo de muestreo. Esta dependencia de la configuración dificulta el aprendizaje de representaciones de movimiento que se transfieran entre dispositivos y conjuntos de datos, y limita el uso más amplio de las IMU portátiles más allá del reconocimiento de conjuntos cerrados. Presentamos AnyMo, un marco consciente de la geometría para el modelado de movimiento humano independiente de la configuración. AnyMo utiliza una simulación de IMU basada en física sobre ubicaciones densas en la superficie del cuerpo para generar señales sintéticas diversas y plausibles, preentrena un codificador de grafos a partir de pares de vistas sintéticas de colocaciones y observaciones parciales enmascaradas, tokeniza IMU multiposición en tokens de movimiento corporal completo, y alinea estos tokens con un LLM para la comprensión de movimiento-lenguaje. Evaluamos AnyMo en tres tareas complementarias: reconocimiento de actividades zero-shot en 14 conjuntos de datos no vistos aguas abajo, recuperación entre modalidades y descripción de movimiento con IMU portátil, donde mejora la Precisión/F1/R@2 promedio en un 11,7%/11,6%/22,6% en HAR, incrementa el MRR de recuperación zero-shot de IMU a texto y de texto a IMU en un 15,9% y un 28,6%, respectivamente, y mejora el BERT-F1 de descripción zero-shot en un 18,8%. Estos resultados respaldan a AnyMo como un modelo generalista para la comprensión del movimiento mediante wearables en entornos no controlados. Página del proyecto: https://baiyuchen.com/project/AnyMo.
Los Autoencoders de Representación (RAEs) aprovechan modelos de visión fundacionales congelados (VFMs) como codificadores tokenizadores, proporcionando representaciones robustas de alto nivel que facilitan una convergencia rápida y una generación de alta calidad en modelos de difusión latente. Sin embargo, congelar el VFM limita inherentemente su capacidad de reconstrucción espacial, restringiendo la generación detallada y la edición de imágenes; en contraste, incorporar señales orientadas a la reconstrucción mediante ajuste fino altera el espacio semántico preentrenado y degrada la fidelidad generativa. Para abordar este compromiso, proponemos DecQ, un marco simple pero efectivo para RAEs. Específicamente, DecQ introduce consultas ligeras de condensación de detalles que extraen información detallada de las características intermedias del VFM a través de módulos condensadores. Estas consultas se incorporan al decodificador para apoyar la reconstrucción y se generan conjuntamente con los tokens de parche durante el modelado generativo. Al agregar información de capas tanto superficiales como profundas, DecQ mitiga efectivamente el compromiso entre reconstrucción y generación, mejorando tanto la calidad de reconstrucción como el rendimiento generativo. Nuestros experimentos demuestran que: (1) con solo 8 consultas adicionales y un 3.9% de cómputo extra, DecQ mejora la reconstrucción respecto al RAE basado en DINOv2 congelado, incrementando el PSNR de 19.13 dB a 22.76 dB; y (2) para el modelado generativo, DecQ logra una convergencia 3.3 veces más rápida que RAE, alcanzando un FID de 1.41 sin guía y 1.05 con guía.
Detectar los valores de Schwartz en textos políticos es difícil porque las señales implícitas a menudo dependen de los argumentos circundantes y de distinciones sutiles entre valores vecinos. Estudiamos cuándo el contexto y el conocimiento moral explícito ayudan en la detección de valores a nivel de oración. Utilizando el formato ValuesML/Touch{é} ValueEval, comparamos entradas de oración, ventana y documento completo; configuraciones sin RAG y aumentadas por recuperación con una base de conocimiento moral curada; codificadores supervisados DeBERTa-v3-base/large; y LLMs zero-shot de 12B a 123B parámetros. Los resultados muestran que más contexto no siempre es mejor: el contexto de documento completo mejora los codificadores DeBERTa supervisados en 3.8–4.8 puntos de macro-F1 en comparación con la entrada solo de oración, pero no ayuda de manera consistente a los LLMs zero-shot. El conocimiento moral recuperado es más consistentemente útil en comparaciones emparejadas, mejorando cada familia de modelos y condición de contexto probados bajo fusión temprana. Sin embargo, escalar de DeBERTa-v3-base a large y de 12B a LLMs más grandes no garantiza mejoras, y la fusión temprana simple supera a las variantes de RAG de fusión tardía y atención cruzada probadas para codificadores. Los análisis por valor muestran que el contexto y la recuperación ayudan más para valores socialmente situados o conceptualmente confundibles. Estos hallazgos sugieren que la PNL sensible a valores debe evaluar contexto, conocimiento y familia de modelos de manera conjunta, en lugar de tratar las entradas más largas o los modelos más grandes como mejoras universales.
La comprensión de video streaming omni-proactiva, es decir, decidir autónomamente cuándo hablar y qué decir a partir de flujos audiovisuales continuos, es una capacidad emergente de los modelos de lenguaje grandes omni-modales. Los benchmarks existentes presentan deficiencias en tres aspectos clave: dependen principalmente de señales visuales, adoptan protocolos de sondeo o de marcas de tiempo fijas en lugar de una verdadera evaluación proactiva, y abarcan solo un rango limitado de tareas, lo que impide una evaluación fiable y una diferenciación de los modelos omni-proactivos de streaming. Presentamos OmniPro, el primer benchmark que evalúa conjuntamente la percepción omni-modal, la respuesta proactiva y diversas tareas de comprensión de video. Comprende 2.700 muestras verificadas por humanos, distribuidas en 9 sub-tareas y 3 niveles cognitivos, cubriendo 6 capacidades básicas de comprensión de video. En particular, el 84% de las muestras requieren señales de audio (habla o no habla), y cada muestra está anotada con etiquetas de aislamiento de modalidad para permitir un análisis multimodal detallado. Además, introducimos un protocolo de evaluación de modo dual: el modo Sonda evalúa la comprensión del contenido interrogando al modelo antes y después de cada disparador de referencia, mientras que el modo en Línea evalúa la capacidad proactiva completa, exigiendo que los modelos decidan autónomamente cuándo responder en una entrada de streaming. La evaluación de 11 modelos representativos revela tres hallazgos clave: (1) el audio proporciona mejoras consistentes, pero con una utilización muy variable entre modelos; (2) el rendimiento se degrada significativamente con el tiempo, lo que indica una robustez limitada a largo plazo; y (3) la percepción de audio no verbal sigue siendo la dimensión más débil.
A medida que los modelos de lenguaje de gran tamaño (LLMs) influyen cada vez más en cómo los usuarios forman, perfeccionan y amplían sus objetivos, atribuir contribuciones en la colaboración humano-IA se vuelve fundamental para que los usuarios calibren su propia confianza y para que los evaluadores valoren el trabajo asistido por IA. Sin embargo, los métodos existentes se centran en artefactos finales, omitiendo el proceso mediante el cual los propios objetivos se moldean conjuntamente. Presentamos un marco de atribución a nivel de objetivos, CoTrace, que descompone los objetivos explícitos en requisitos verificables y rastrea tanto las contribuciones directas como las influencias indirectas a lo largo de los turnos de diálogo. Al aplicar CoTrace a 638 registros de colaboración del mundo real, encontramos que, si bien los modelos solo representan entre el 11% y el 26% de la contribución en la configuración de objetivos, contribuyen sustancialmente más en la introducción de requisitos concretos de nivel inferior y realizan diversos tipos de contribuciones indirectas. Mediante simulaciones controladas, demostramos que las decisiones de diseño de interacción afectan significativamente el comportamiento de los modelos en la configuración de objetivos. En un estudio de usuario, exponer a los participantes a análisis a nivel de objetivos cambia sus contribuciones percibidas en casi 2 puntos en una escala de 5 puntos, revelando una descalibración sistemática en cómo los usuarios entienden su propio trabajo asistido por IA.
Presentamos Lean Refactor, un marco agéntico plug-and-play aumentado por recuperación para la refactorización multiobjetivo, controlable y robusta ante versiones de pruebas de Lean. Las pruebas generadas por LLM son notoriamente correctas pero verbosas y frágiles entre versiones de bibliotecas, sin embargo, los trabajos existentes de refactorización pasan por alto tres desafíos prácticos: 1) la refactorización de Lean es inherentemente multiobjetivo (la longitud de la prueba, el costo de compilación y la compatibilidad de versiones a menudo están en tensión); 2) los repositorios de Lean tienen compatibilidad frágil, mientras que las versiones de LLM desconocen las versiones de Lean/Mathlib; 3) los pipelines basados en entrenamiento requieren un ajuste fino repetido con cada nueva versión de LLM, no escalando ni con la rotación de modelos ni con el ciclo de versiones de Lean. Lean Refactor dirige un LLM agéntico congelado con recuperaciones de una base de datos curada de estrategias de refactorización multiobjetivo, cada una densamente anotada con metadatos como las versiones de Lean/Mathlib compatibles y la reducción esperada del costo de compilación. Los experimentos muestran más del 70% de compresión a nivel de tokens en puntos de referencia de competición, más del 20% en repositorios de investigación, y hasta un 60% de reducción del tiempo de compilación, superando trabajos anteriores y Claude Code. La recuperación filtrada por versión mejora aún más la compresión en la versión de Lean objetivo, y las pruebas miniF2F refactorizadas exhiben una transferencia de versión zero-shot más fuerte a versiones futuras de Lean que sus contrapartes no refactorizadas.
El desequilibrio de clases es un desafío fundamental en la segmentación de imágenes médicas, donde las clases frecuentes suelen dominar el entrenamiento en detrimento de las clases raras. Los enfoques basados en pérdidas mitigan el desequilibrio reponderando la pérdida por píxel dentro del lote, mientras que las estrategias de muestreo controlan qué imágenes ingresan al lote. Sin embargo, ninguna de ellas controla explícitamente qué clases aparecen dentro del lote, dejando la exposición a clases raras solo parcialmente reequilibrada. En este trabajo, adoptamos el muestreo episódico del aprendizaje con pocos ejemplos para promover la construcción de lotes equilibrados por clase en un entorno completamente supervisado. Desacoplamos el muestreo episódico de su contexto convencional de aprendizaje métrico y lo evaluamos en la segmentación de composición corporal en TC. Comparamos el muestreo episódico con el muestreo aleatorio y ponderado en nueve tejidos musculares y adiposos, derivados de 210 exploraciones del conjunto de datos público SAROS. El entrenamiento se realiza en regímenes de datos completos y reducidos, con comparaciones adicionales bajo presupuestos de iteraciones de entrenamiento igualados. Bajo entrenamiento con datos completos, las tres estrategias tuvieron un rendimiento comparable (Dice medio de 0,882 para el episódico, 0,878 para el aleatorio y el ponderado). Bajo entrenamiento con datos reducidos, el muestreo episódico superó al aleatorio y al ponderado (0,787 frente a 0,758 y 0,762), impulsado por una diferencia de 12 veces en las iteraciones de entrenamiento. Bajo presupuestos de entrenamiento igualados, el muestreo aleatorio y ponderado mostraron sobreajuste antes, mientras que el episódico mejoró durante aproximadamente tres veces más iteraciones antes de estabilizarse. Nuestros hallazgos identifican el presupuesto de iteraciones de entrenamiento como un factor de confusión poco reconocido en las estrategias de muestreo, lo que motiva protocolos de evaluación conscientes de las iteraciones para conjuntos de datos pequeños. Además, la ventaja residual del muestreo episódico es consistente con un efecto de regularización implícito de los lotes equilibrados por clase, ofreciendo una estrategia de bajo costo e independiente del modelo para la segmentación de imágenes médicas con desequilibrio de clases. El código está disponible en https://github.com/iasonsky/episodic-sampling.
Las leyes de escalamiento han hecho que el rendimiento de los modelos de lenguaje sea predecible a partir del tamaño del modelo, los datos y el cómputo, pero usualmente tratan al optimizador como un detalle fijo del entrenamiento. Mostramos que esta suposición pasa por alto un eje fundamental del escalamiento de representación: la eficacia con la que el optimizador convierte el ancho adicional de la FFN en capacidad espectral utilizada. Utilizando los espectros propios de las representaciones de las redes feed-forward, medidos a través de rangos espectrales suaves y duros, encontramos que la misma arquitectura Transformer manifiesta leyes de escalamiento espectral marcadamente diferentes cuando se entrena con distintos optimizadores. Manteniendo fijas la arquitectura y el programa de anchura, AdamW exhibe un escalamiento de rango duro débil (β=0.44) en las representaciones de tokens raros (COLA) donde se sabe que el aprendizaje es más difícil, mientras que Muon logra un escalamiento lineal (β=1.02) en los mismos regímenes, un aumento de 2.3 veces en el exponente de escalamiento. Esta diferencia no se reduce a la pérdida de validación: las configuraciones de AdamW pueden igualar a las variantes Dion de bajo rango en perplejidad, bajo entrenamiento extendido, mientras presentan una geometría espectral marcadamente diferente, demostrando que una pérdida igualada no implica una estructura de representación igualada. La asimetría entre rango duro y suave revela además que los optimizadores difieren no solo en cuánta capacidad se realiza, sino también en cómo esa capacidad se estructura a través de los modos propios. Para desentrañar los efectos del optimizador de los arquitectónicos, comparamos con intervenciones arquitectónicas (por ejemplo, rango de atención y codificación posicional), y encontramos que los desplazamientos espectrales inducidos por el optimizador a menudo superan los efectos arquitectónicos. Estos resultados sugieren que la optimización es un eje de primera clase en el escalamiento de representación, motivando el co-diseño de optimizador y arquitectura.
La Hipótesis de la Representación Platónica Fuerte sugiere que la convergencia representacional en redes neuronales artificiales puede aprovecharse de manera constructiva: los embeddings pueden traducirse entre modelos a través de un espacio latente universal sin datos pareados. Nos preguntamos si una geometría análoga puede recuperarse entre cerebros humanos. Utilizando datos de fMRI del Natural Scenes Dataset, proponemos un codificador auto-supervisado que aprende embeddings específicos de cada sujeto a partir de datos cerebrales exclusivamente, explotando presentaciones repetidas de estímulos. Mostramos que estos espacios aprendidos de forma independiente pueden traducirse entre sujetos mediante rotaciones ortogonales no supervisadas, sin necesidad de muestras pareadas entre sujetos ni representaciones intermedias de modelos. Sincronizar las rotaciones por pares en un único espacio latente compartido mejora aún más la recuperación entre sujetos, lo que indica que los espacios específicos de cada sujeto son mutuamente compatibles con un sistema de coordenadas común. Estos resultados proporcionan evidencia de una geometría neural compartida en la corteza visual humana: las representaciones de fMRI específicas de cada sujeto son aproximadamente isométricas entre individuos y pueden traducirse mediante transformaciones puramente geométricas.
La generación interactiva de música en streaming promete el uso de modelos generativos para la interpretación en vivo y la co-creación, algo imposible con modelos offline. Sin embargo, los modelos del estado del arte (SOTA) existen en el régimen AR discreto, requiriendo niveles industriales de cómputo tanto para el entrenamiento como para la inferencia. En este trabajo, investigamos si los modelos de difusión de audio, con su amplio soporte en la comunidad de código abierto pero su naturaleza bidireccional no secuencial, pueden ser reutilizados eficientemente como modelos interactivos accesibles en hardware de consumo. Al examinar críticamente el pipeline moderno para la difusión de extrapolación por bloques, identificamos ineficiencias críticas durante la inferencia que resultan en una eficiencia computacional estrictamente peor que la de sus contrapartes AR discretas. Proponemos los Modelos de Difusión Musical en Vivo (LMDMs), una modificación simple del proceso de difusión generativa que recupera, y luego supera, la complejidad de inferencia de los Modelos Musicales en Vivo (LMMs) discretos mediante el almacenamiento en caché KV por bloques. A diferencia de los LMMs, los LMDMs permiten además un alineamiento estable post-entrenamiento a través de nuestro novedoso paradigma ARC-Forcing, reduciendo la acumulación de errores sin necesidad de RL explícito ni modelos de recompensa. Demostramos la aplicación de los LMDMs en varios dominios creativos, incluyendo la generación condicionada por texto, la síntesis musical basada en bocetos y el improvisación colectiva (jamming). Finalmente, mostramos cómo los LMDMs pueden utilizarse como un instrumento generativo en una colaboración real entre artista e IA, empleando los LMDMs como un "delay generativo" para transformar la improvisación de los músicos en vivo con efectos tímbricos variables, mientras se ejecutan localmente en un portátil de consumo para juegos.
La reconstrucción 3D de animales en entornos naturales sigue siendo un desafío debido a la gran variación entre especies, las frecuentes oclusiones y la prevalencia de escenas con múltiples animales, mientras que los métodos existentes se centran principalmente en entornos de un solo animal. Presentamos SAM 3D Animal, el primer marco solicitable para la reconstrucción 3D de múltiples animales a partir de una sola imagen. Basado en el modelo paramétrico de animales SMAL+, nuestro método reconstruye conjuntamente múltiples instancias y admite indicaciones flexibles en forma de puntos clave y máscaras, lo que permite una desambiguación más fiable en escenas concurridas y ocluidas. Para entrenar dicho modelo, introducimos además Herd3D, un conjunto de datos 3D multi-animal que contiene más de 5000 imágenes, diseñado para aumentar la diversidad en especies, interacciones y patrones de oclusión. Los experimentos con los conjuntos de datos Animal3D, APTv2 y Animal Kingdom muestran que nuestro marco logra resultados de vanguardia tanto frente a métodos existentes basados en modelos como sin modelos, demostrando una solución escalable y efectiva para la reconstrucción 3D de animales guiada por indicaciones en la naturaleza.
La Odometría Visual-Inercial (VIO), fundamental para la navegación de robots móviles, emplea cámaras con una gran cantidad de píxeles. Capturar y procesar imágenes de cámara requiere recursos significativos. Este trabajo presenta un enfoque minimalista para la odometría planar, demostrando que solo cuatro mediciones visuales y una IMU pueden proporcionar una estimación de movimiento robusta para robots de tracción diferencial. Nuestra idea clave es que cuatro fotodiodos orientados hacia el suelo, que perciben el entorno a través de máscaras ópticas de Gabor, generan señales que codifican la velocidad. Basándonos en esto, optimizamos conjuntamente los parámetros de las máscaras junto con una Red Convolucional Temporal (TCN) utilizando un simulador fundamentado físicamente. El modelo resultante decodifica la velocidad a partir de las cuatro mediciones producidas por los fotodiodos. Combinar estas estimaciones con la velocidad angular de una IMU proporciona una trayectoria planar continua. Validamos nuestro enfoque con un prototipo de sensor montado en un robot de tracción diferencial. En diversos terrenos interiores y exteriores, nuestro sistema sigue de cerca la referencia de verdad fundamental sin necesidad de ajustes en el mundo real. Nuestro trabajo demuestra que la detección minimalista permite una odometría planar eficiente y precisa.
La recuperación de imágenes de moda es un pilar fundamental en los sistemas modernos de comercio electrónico. En la práctica, se desea contar con un marco unificado que admita diversos formatos de consulta e intenciones de búsqueda. Sin embargo, los enfoques existentes se centran en tareas de recuperación estrechas y no capturan completamente dicha diversidad. Por lo tanto, en este trabajo nos proponemos desarrollar un marco unificado capaz de manejar diversos escenarios realistas de recuperación de moda, logrando una recuperación de imágenes de moda verdaderamente versátil. Para establecer una base de datos, presentamos primero U-FIRE, un benchmark integral que consolida conjuntos de datos fragmentados de moda en una colección unificada, complementada con dos conjuntos de datos curados manualmente para probar la generalización. Sobre esta base, proponemos FashionLens, un marco unificado basado en Modelos de Lenguaje Grande Multimodales. Para manejar objetivos de coincidencia divergentes, diseñamos un Calibrador de Consultas Esféricas Guiado por Propuestas que desplaza dinámicamente las representaciones de consulta hacia espacios métricos alineados con la tarea mediante interpolación lineal esférica adaptativa. Además, para mitigar el desequilibrio de optimización causado por las distintas complejidades de las tareas y escalas de datos, desarrollamos una estrategia de Muestreo Adaptativo Guiado por Gradientes que re-pondera automáticamente las tareas según la dificultad de aprendizaje en tiempo real y la prioridad de la escala de datos. Los experimentos en U-FIRE muestran que FashionLens logra un rendimiento de vanguardia en diversos escenarios de recuperación y se generaliza de manera robusta a tareas no vistas. Los datos y el código se publican públicamente en https://github.com/haokunwen/FashionLens.