Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes de codificación de IA se utilizan cada vez más en el trabajo científico, pero su capacidad de investigación autónoma de extremo a extremo sigue siendo difícil de verificar. Presentamos ResearchClawBench, un punto de referencia para evaluar la investigación científica autónoma en 40 tareas de 10 dominios científicos. Cada tarea se basa en un artículo publicado real, proporciona literatura relacionada y datos sin procesar, y oculta el artículo objetivo durante la evaluación. Rúbricas multimodales elaboradas por expertos descomponen los artefactos científicos objetivo en criterios ponderados, lo que permite evaluar el redescubrimiento a nivel del artículo objetivo al tiempo que deja espacio para nuevos descubrimientos. Evaluamos siete agentes de investigación autónoma (auto-investigación) bajo un protocolo unificado y diecisiete LLMs nativos a través del ResearchHarness ligero. Los sistemas actuales siguen estando lejos de un redescubrimiento fiable: el agente autónomo más fuerte, Claude Code, promedia 21.5, y el LLM de ResearchHarness más fuerte, Claude-Opus-4.7, promedia 20.7, con una media frontera de LLM de solo 26.5. El análisis de errores muestra que los fallos se concentran en desajustes del protocolo experimental, desajustes de evidencia y falta de núcleo científico. ResearchClawBench proporciona una frontera de evaluación reproducible para medir el progreso hacia la investigación científica autónoma.
Los modelos de lenguaje visual (VLMs) sobresalen en muchas tareas, pero aún presentan dificultades en el razonamiento espacial cuando la información crítica no es directamente observable. Muchos de estos problemas requieren percepción imaginativa: inferir lo que se vería desde un punto de vista no observado, trazar trayectorias a través de espacios ocluidos, o integrar observaciones parciales en una representación espacial coherente. Introducimos los Tokens de Percepción Imaginativa (IPT), representaciones perceptuales intermedias que externalizan lo que un VLM percibiría bajo configuraciones espaciales alternativas, manteniéndose consistentes con la entrada observada. Para estudiar esta capacidad, formulamos tres tareas: Toma de Perspectiva (PET), Trazado de Trayectorias (PT) y Conteo Multivista (MVC), y construimos conjuntos de datos de aproximadamente 20 mil ejemplos con imaginaciones de referencia, respuestas y puntos de referencia de evaluación. Utilizando el VLM unificado BAGEL como modelo base, la supervisión con IPT mejora consistentemente el razonamiento espacial y a menudo supera al entrenamiento con cadenas de pensamiento textual, incluso sin generar imágenes en el momento de la inferencia. En MVC, IPT mejora la precisión en un 3,4% y logra un rendimiento competitivo con modelos cerrados robustos en PT. Además, encontramos que combinar IPT con supervisión solo de etiquetas produce ganancias adicionales, mientras que la cadena de pensamiento textual puede degradar sustancialmente el rendimiento, lo que sugiere un desajuste de modalidad cuando el cómputo espacial se fuerza a través del lenguaje. En general, IPT proporciona una señal de supervisión fundamentada para razonar sobre estructuras espaciales no observadas, mejorando la generalización y generando representaciones intermedias interpretables.
Los modelos de lenguaje de gran escala exhiben impresionantes capacidades de cero disparo en una amplia variedad de tareas posteriores. Sin embargo, tienen dificultades para funcionar como modelos de incrustación listos para usar, lo que genera un rendimiento subóptimo en puntos de referencia masivos de incrustación de texto. En este artículo, identificamos una posible causa subyacente de esta deficiencia. Nuestra motivación surge de una observación inesperada: las incrustaciones de texto tienden a alinearse con tokens frecuentes pero poco informativos cuando se proyectan en el espacio de vocabulario. Sostenemos que esta expresión excesiva de tokens de alta frecuencia suprime la capacidad del modelo para capturar matices semánticos. Para abordar esto, presentamos EmbedFilter, una transformación lineal simple diseñada para refinar directamente las incrustaciones de texto derivadas de los LLM. Específicamente, descubrimos que la matriz de desincrustación dentro de los LLM codifica un espacio latente que está escribiendo activamente estos tokens frecuentes en el espacio de incrustación. Al filtrar este subespacio, EmbedFilter suprime la influencia de los tokens de alta frecuencia, mejorando así las representaciones semánticas. Como subproducto convincente, esto permite una reducción inherente de dimensionalidad, disminuyendo el almacenamiento de índices y acelerando la recuperación, mientras se preserva completamente la calidad de la incrustación refinada. Nuestros experimentos con múltiples arquitecturas de LLM demuestran que los LLM equipados con EmbedFilter logran un rendimiento superior de cero disparo en tareas posteriores, incluso con dimensiones de incrustación significativamente reducidas. Esperamos que nuestros hallazgos proporcionen conocimientos más profundos sobre los mecanismos de las representaciones basadas en LLM e inspiren diseños más fundamentados para mejorar el entrenamiento de incrustaciones de texto. Nuestro código está disponible en https://github.com/CentreChen/EmbFilter.
Evaluar mediadores LLM sigue siendo un desafío, ya que la mediación se desarrolla como una trayectoria en tiempo real moldeada por las emociones, intenciones y contexto cambiantes de las partes en conflicto. Los bancos de pruebas existentes se basan en unos pocos dominios redactados por expertos, varían principalmente en la postura estratégica y puntúan cada turno frente a cada tema, introduciendo ruido fuera de tema. Presentamos SoCRATES, un punto de referencia para evaluar mediadores LLM proactivos en bancos de pruebas realistas y multidominio. Construye escenarios a partir de conflictos reales mediante un flujo de trabajo agéntico en ocho dominios, explora cinco ejes de adaptación sociocognitiva (postura estratégica, composición de las partes, longitud del historial, reactividad emocional e identidad cultural) y puntúa cada tema solo en los turnos que lo avanzan mediante un evaluador localizado por temas. El evaluador alcanza una alineación de 0,82 con expertos humanos, más que duplicando una línea base por turno. Al evaluar ocho LLMs de frontera, encontramos que incluso el mediador más fuerte cierra solo aproximadamente un tercio de la brecha de consenso no mediada en bancos de pruebas diversos y realistas, con un rendimiento que varía drásticamente según el eje sociocognitivo, lo que resalta que el progreso reside en la adaptación social a condiciones diversas.
El progreso en los modelos fundacionales genómicos es difícil de evaluar debido a la fragmentación de los puntos de referencia, protocolos de evaluación incompatibles y reportes específicos por tarea. Como resultado, las afirmaciones de superioridad o generalidad entre modelos a menudo no son directamente comparables. Presentamos GENEB, un punto de referencia diagnóstico a gran escala que evalúa representaciones congeladas de 40 modelos fundacionales genómicos en 100 tareas que abarcan 13 categorías funcionales, bajo un protocolo unificado basado en sondeo, incluyendo regímenes de pocas muestras. GENEB permite una comparación controlada entre escalas de modelo, arquitecturas, tokenizaciones y datos de preentrenamiento, exponiendo explícitamente las compensaciones a nivel de tarea. Nuestro análisis muestra que las clasificaciones agregadas son inestables: los rankings de modelos varían drásticamente entre categorías de tareas, la escala proporciona ganancias modestas e inconsistentes, y la alineación arquitectónica y de preentrenamiento frecuentemente supera al número de parámetros. Estos resultados destacan las limitaciones de las prácticas de evaluación actuales y posicionan a GENEB como un marco de referencia para la comparación fundamentada y la selección de modelos con conciencia de categoría en el aprendizaje automático genómico.
Presentamos MMAE (Massive Multitask Audio Editing, por sus siglas en inglés), un punto de referencia masivo para la edición de audio multitarea, que constituye el primer banco de pruebas de evaluación integral diseñado para la edición de audio basada en instrucciones de propósito general. Impulsado por el cambio hacia la creación inteligente, la edición interactiva se ha expandido rápidamente desde los dominios visuales, iniciada por modelos como Nano-banana 2 para imágenes y Gemini-Omni para video, hasta el ámbito del audio. Sin embargo, la infraestructura de evaluación actual presenta un rezago severo, manteniéndose altamente fragmentada y restringida a subdominios específicos u operaciones básicas. A diferencia de los puntos de referencia existentes, que son limitados en alcance, MMAE abarca un amplio espectro de escenarios del mundo real, incluyendo 7 modalidades de audio distintas, como sonido, voz, música y sus mezclas. Además, establecemos una taxonomía integral que abarca 6 niveles de complejidad de tareas, desde modificaciones básicas hasta razonamiento de múltiples pasos y edición iterativa, 2 niveles de granularidad y 8 tipos de operaciones distintas. Cuidadosamente curado mediante colaboración humano-agente, MMAE comprende 2,000 muestras de alta fidelidad emparejadas con un marco de evaluación pionero basado en rúbricas. Al descomponer tareas de formato libre en 17,741 criterios verificables, este sólido paradigma de rúbricas permite una evaluación precisa y multidimensional tanto del seguimiento de instrucciones como de la consistencia contextual. Nuestra evaluación exhaustiva de los modelos líderes revela que los sistemas actuales aún están lejos de lograr ediciones confiables. De manera sorprendente, la Tasa de Coincidencia Exacta (EMR, por sus siglas en inglés) se sitúa constantemente por debajo del 5% y desciende a un 0% absoluto en tareas complejas de modalidad mixta, exponiendo cuellos de botella críticos en la ejecución precisa y la robustez estructural. Esperamos que MMAE sirva como catalizador para futuros avances en la comunidad de creación inteligente, proporcionando una hoja de ruta diagnóstica clara y estableciendo un paradigma de evaluación estandarizado y duradero para los sistemas de edición de audio de próxima generación.
A pesar de ser una frontera fundamental, el modelado de mundos interactivos sigue siendo poco explorado en términos de la versatilidad de control requerida por escenarios prácticos. Para cerrar esta brecha, presentamos AnchorWorld, un marco que avanza la simulación egocéntrica mediante una integridad de interacción mejorada y un mecanismo flexible para la personalización del mundo. Primero, utilizamos el movimiento humano en 3D como la modalidad de interacción principal. Para complementar las partes del cuerpo fuera de vista o truncadas en las vistas egocéntricas, introducimos una supervisión de entrenamiento auxiliar que incorpora puntos de vista exógenos desacoplados del sensorio en primera persona del agente. Esto permite que el modelo observe la posición del cuerpo completo del agente en relación con el entorno, facilitando un anclaje espacial más robusto de las interacciones humano-mundo. Además, proponemos un mecanismo simple pero efectivo para personalizar mundos en evolución autónoma. Esto se logra definiendo vistas ancla dentro de un sistema de coordenadas mundial unificado, junto con descripciones textuales que dictan la evolución dinámica de las escenas locales. Los resultados experimentales muestran que AnchorWorld supera significativamente a las líneas base de última generación, mientras que los estudios de ablación validan la efectividad de nuestros diseños clave. Notablemente, nuestro esquema de personalización exhibe una prometedora consistencia geométrica espacio-temporal y se adhiere estrictamente a las dinámicas evolutivas prescritas.
La inteligencia robótica generalista a menudo se plantea como un problema de escalado de políticas: recopilar más demostraciones robóticas, entrenar modelos de Visión-Lenguaje-Acción (VLA) más grandes y esperar una generalización más amplia. En este artículo de posición, argumentamos que este planteamiento es incompleto. El cuello de botella central no es solo el aprendizaje de políticas, sino la ausencia de mecanismos que conviertan los abundantes datos conductuales no estructurados del mundo en supervisión robótica fundamentada. El movimiento humano, el video de internet, las secuencias de simulación y las demostraciones interactivas contienen información rica sobre tareas, objetivos, contactos, fallos y restricciones físicas; sin embargo, la mayor parte de esta información no es directamente utilizable por las políticas robóticas porque carece de etiquetas de acción específicas del cuerpo, semántica de la tarea y estructura de recompensa. Identificamos cuatro componentes faltantes para la próxima generación de robótica: interfaces de datos para el etiquetado automático del comportamiento no estructurado, interfaces de corporeidad para redirigir el movimiento humano a acciones robóticas, interfaces de modelos del mundo para el razonamiento 3D fundamentado en la física, e interfaces de recompensa para inferir el progreso y el éxito de la tarea a partir de video y lenguaje. Revisamos el progreso reciente en modelos fundacionales robóticos, conjuntos de datos entre cuerpos, aprendizaje a partir de video, modelos del mundo y modelado de recompensas, y proponemos una agenda de investigación para construir sistemas robóticos que puedan aprender no solo de demostraciones robóticas, sino del mundo físico en general.
La inserción de objetos tiene como objetivo componer de manera fluida un objeto de referencia en una región específica de una imagen de fondo. Los métodos recientes basados en difusión logran una alta calidad visual, pero formulan la inserción como una simple tarea de inpaint 2D, sin proporcionar control explícito sobre la pose 3D del objeto y limitando su aplicabilidad práctica. Proponemos DIRECT (Inyección Descompuesta para Composición de Referencia e Integración en el Destino), un marco novedoso que integra la manipulación interactiva de la pose con la síntesis de imágenes 2D de alta fidelidad para permitir la inserción de objetos controlable por pose. Nuestro método descompone las condiciones de inserción en tres componentes complementarios: guía de apariencia que captura detalles visuales del objeto de referencia, guía geométrica derivada del proxy 3D ajustado por el usuario y guía de contexto del fondo de destino. Al inyectarlos a través de vías separadas, DIRECT evita el enredo de características y, simultáneamente, preserva la apariencia de referencia, sigue la pose especificada por el usuario y adapta el objeto a la escena de destino. También introducimos un pipeline automatizado de construcción de datos para mejorar la diversidad y calidad de los datos de entrenamiento. Los experimentos muestran que DIRECT supera a los métodos anteriores tanto en controlabilidad geométrica como en calidad visual.
Los agentes autoevolutivos requieren adaptación después del despliegue, pero los enfoques existentes asumen un bucle de aprendizaje utilizable, como habilidades curadas, trayectorias exitosas o señales de verificación. Los despliegues reales en entornos abiertos pueden no proporcionar nada de esto, ofreciendo únicamente una indicación de tarea. En este trabajo, estudiamos la autoevolución en mundo abierto, donde un agente debe construir tanto sus habilidades como sus propias señales de verificación desde cero, utilizando recursos del mundo abierto pero sin supervisión de la tarea objetivo. Proponemos OpenSkill, un marco que inicia este bucle: adquiere conocimiento fundamentado y anclas de verificación a partir de documentación, repositorios y la web, los sintetiza en habilidades transferibles y refina dichas habilidades mediante tareas virtuales autoconstruidas, basadas en las anclas y no en respuestas objetivo. Así, el mundo abierto proporciona tanto el conocimiento a aprender como un entorno de práctica independiente de supervisión, reservando la supervisión de la tarea objetivo para la evaluación final. En tres puntos de referencia y dos agentes objetivo, OpenSkill logra la mejor tasa de aprobación automática mientras cumple con la restricción de ausencia de supervisión. El análisis muestra que sus habilidades se transfieren entre modelos sin necesidad de adaptación específica del modelo, y su verificador autoconstruido se alinea con los resultados reales a pesar de no haber accedido nunca a ellos.
Los benchmarks existentes evalúan el razonamiento integrado con herramientas (TIR) en LLMs bajo "caminos felices" idealizados, ignorando en gran medida los fallos reales de las herramientas. Presentamos ToolMaze, un benchmark para el descubrimiento dinámico de rutas y la recuperación de errores en agentes TIR. Para diferenciar la replanificación sistemática del ensayo y error ciego, ToolMaze adopta un diseño bidimensional: complejidad topológica basada en DAG y una taxonomía 2 × 2 de perturbaciones de herramientas (explícitas/implícitas, transitorias/permanentes). Las evaluaciones muestran que las perturbaciones degradan el rendimiento en casi todos los modelos, con las caídas más pronunciadas bajo fallos semánticos implícitos. Impulsada por una excesiva confianza sistémica en salidas corruptas, la Tasa de Recuperación ante Perturbaciones (PRR) se desploma alrededor del 37% en estos escenarios, mientras que las topologías complejas atrapan a los agentes en bucles de ensayo y error inútiles. De manera crucial, la tolerancia a fallos de los agentes mejora con la escala del modelo 3,66 veces más lentamente que la ejecución básica de tareas, lo que destaca la replanificación dinámica como un cuello de botella distintivo no abordado por el escalado del modelo ni por las indicaciones. Los datos y el código están disponibles en https://github.com/Zhudongsheng75/ToolMaze.
La comprensión de video está siendo transformada rápidamente por los modelos multimodales de lenguaje de gran escala (MLLMs, por sus siglas en inglés), a medida que la investigación avanza desde clips cortos hacia escenarios de video largos, multimodales y con alto contenido de conocimiento. Estos escenarios requieren que los modelos manejen evidencia dispersa, dependencias de largo alcance, alineación multimodal e inferencia confiable bajo presupuestos computacionales limitados. Este trabajo presenta una perspectiva centrada en la visión humana sobre la comprensión de video basada en LLMs, organizada en torno a tres capacidades funcionales: observar, recordar y razonar. En lugar de tratar las tareas de video como puntos de referencia aislados, esta perspectiva proporciona una estructura unificada para analizar cómo los MLLMs de video adquieren evidencia, preservan el contexto y generan resultados fundamentados. Introducimos una formulación que caracteriza los sistemas de comprensión de video por sus representaciones perceptuales, estados de memoria, trazas de razonamiento y predicciones finales. Basándonos en esta formulación, identificamos desafíos en la percepción espacio-temporal, el procesamiento eficiente de videos largos, el modelado de memoria, la comprensión en streaming y el razonamiento fiable. Los métodos representativos se organizan según sus funciones en los sistemas MLLM de video. La observación abarca la percepción detallada, integral, audiovisual y eficiente. La memoria incluye la memoria fuera de línea y en streaming, mientras que el razonamiento cubre el razonamiento solo con texto y el pensamiento con videos. Además, examinamos dominios de aplicación como videos egocéntricos, deportivos, instructivos, médicos y narrativos, y cubrimos conjuntos de datos de entrenamiento y puntos de referencia de evaluación según tipos de tareas, formatos de supervisión, modalidades y dimensiones de capacidad. Finalmente, esbozamos problemas abiertos y direcciones futuras para la inteligencia de video escalable, consciente de la memoria y fundamentada en evidencia. Los trabajos relacionados se seguirán rastreando continuamente en https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.
Los asistentes de IA persistentes, como OpenClaw, acumulan grandes colecciones de recuerdos relacionados a lo largo de interacciones prolongadas. A medida que estos recuerdos crecen, pueden reforzarse mutuamente, divergir entre contextos o entrar en conflicto directo, lo que hace que la asistencia correcta dependa de las relaciones de memoria más que del recuerdo aislado. Los puntos de referencia existentes de memoria a largo plazo rara vez evalúan cómo los agentes preservan y utilizan dichas relaciones durante tareas posteriores. Para abordar esta carencia, presentamos SubtleMemory, un punto de referencia para la discriminación de memoria relacional de grano fino en agentes de IA de larga duración. SubtleMemory construye artefactos semánticos latentes controlados por relación cuyas variantes instancian relaciones complementarias, matizadas o contradictorias, y los incrusta en historiales realistas de usuario-agente, requiriendo que los agentes recuperen estructuras relacionales distribuidas durante consultas e instrucciones posteriores. El punto de referencia contiene 1.522 instancias de evaluación distribuidas en 10 historiales largos, fundamentadas en 1.090 conjuntos de variantes de memoria controlados por relación y que abarcan consultas relacionadas y no relacionadas con el usuario. Al evaluar seis sistemas de memoria independientes, dos agentes tipo Claw con módulos de memoria nativos y tres agentes tipo Claw con módulos de memoria complementarios, encontramos que los sistemas actuales siguen siendo débiles en la discriminación de memoria relacional de grano fino. Además, introducimos protocolos de diagnóstico que revelan perfiles de capacidad distintos en las etapas de preservación, recuperación y razonamiento posterior de la memoria.
Presentamos UnpredictaBench, una evaluación que prueba la capacidad de los grandes modelos de lenguaje (LLMs) para capturar distribuciones subyacentes reales. A medida que los LLMs se utilizan cada vez más como sustitutos de otras entidades (por ejemplo, de humanos en simulaciones económicas), la tendencia de muchos modelos a colapsar hacia una única respuesta plausible implica una falta de captura de la impredecibilidad de los sistemas reales. Los trabajos recientes sobre mejora de la diversidad en las salidas son insuficientes para este contexto: la simulación requiere muestras calibradas respecto a una distribución objetivo, no simplemente salidas variadas. UnpredictaBench aísla una versión simplificada pero fundamental de este problema: el muestreo de resultados a partir de distribuciones objetivo individuales, incluyendo distribuciones estadísticas canónicas, distribuciones inducidas por programas estocásticos y escenarios en lenguaje natural que describen procesos aleatorios. Introducimos 448 problemas de este tipo junto con KS@N, una métrica de evaluación de propósito general que cuantifica qué tan bien un modelo produce muestras que se aproximan a distribuciones objetivo de caja negra mediante la prueba estadística de Kolmogorov-Smirnov. Esta es la tasa a la que no logramos rechazar muestras de tamaño N generadas por el modelo frente a muestras de la verdad fundamental, donde un N mayor indica mayor dificultad. Evaluados en modelos abiertos y propietarios, encontramos una amplia variabilidad en las capacidades distribucionales. Por ejemplo, cuando los modelos generan muestras de tamaño 100 (KS@100, nuestra métrica estándar), las puntuaciones van desde cerca de 0 hasta más del 20%. Ningún modelo logra superar el 40% en KS@100, lo que muestra un margen de mejora significativo en el muestreo distribucional como capacidad. Aunque añadir razonamiento puede aumentar ligeramente las puntuaciones, no encontramos una solución inmediata para este problema. UnpredictaBench demuestra que incluso el muestreo distribucional simple sigue siendo desafiante, lo que lo convierte en un primer paso necesario hacia el uso de LLMs como sustitutos de sistemas complejos.
Los gráficos causales proporcionan un lenguaje de alto nivel para transparentar los mecanismos subyacentes. Trabajos recientes utilizan Modelos de Lenguaje de Gran Escala (LLMs) para recuperar gráficos causales de procesos del mundo externo. En cambio, en este artículo empleamos gráficos causales para modelar la propia inferencia de los LLMs, ofreciendo a los interesados una visión transparente de cómo el modelo percibe y organiza conceptos de alto nivel para generar una predicción. Proponemos un método de cuatro fases para construir dichos gráficos. Dado un LLM objetivo y un conjunto de ejemplos textuales, nuestro método descubre conceptos discriminativos de clases e interpretables por humanos, y mapea cada entrada a estados conceptuales percibidos por el LLM. A continuación, introducimos un procedimiento de aumentación contrafactual inspirado en MCMC que expande los datos observacionales dispersos mediante cadenas de contrafactuales. Esto permite un descubrimiento causal estable con σ-CG, generando gráficos informativos e interpretables. Aplicamos nuestro método a tres LLMs en tareas de diagnóstico de enfermedades, análisis de sentimientos y clasificación con LLM como juez. Evaluamos los gráficos aprendidos en cuanto a fidelidad predictiva y estabilidad estructural, así como la aumentación inspirada en MCMC en términos de convergencia y utilidad descendente. Nuestros resultados muestran que los gráficos causales descubiertos capturan dependencias significativas coherentes con el razonamiento de los LLMs. En conjunto, este artículo sienta las bases para la explicabilidad a nivel de concepto de los LLMs.
Si bien los Modelos de Lenguaje y Visión (MLVs) han demostrado sólidas capacidades de razonamiento visual, sus habilidades de razonamiento espacial siguen estando en gran medida limitadas a las imágenes observadas y a cadenas de pensamiento orientadas al texto. A menudo tienen dificultades para inferir distribuciones no observadas, mantener la coherencia entre vistas y razonar desde puntos de vista alternativos cuando solo se dispone de observaciones egocéntricas limitadas. En este trabajo, estudiamos este problema como pensamiento con imaginación, donde un MLV adquiere activamente evidencia visual imaginada al interactuar con un simulador del mundo durante el razonamiento. Proponemos Astra, un marco de razonamiento espacial agéntico que dota a los MLVs de imaginación visual condicionada a acciones. Específicamente, Astra combina Astra-VL, una política de MLV entrenada con RL, con Astra-WM, un simulador del mundo basado en Bagel que genera observaciones de vistas novedosas a partir de imágenes de contexto y movimientos de cámara en lenguaje natural. Para proporcionar evidencia imaginada confiable, Astra-WM se entrena con ajuste de consistencia de vistas para mejorar la consistencia de pose y contenido entre vistas. En la etapa de RL, proponemos un currículo de RL en dos fases con el simulador del mundo en el ciclo para estabilizar la exploración del uso de herramientas y avanzar la capacidad del modelo para invocar al simulador solo cuando las observaciones imaginadas mejoran la respuesta directa. Los experimentos demuestran que tanto el simulador del mundo como la política agéntica son necesarios: Astra-WM mejora a Gemini-3-Flash aumentado con simulador en MMSI-Bench de 45.1 a 49.5, mientras que Astra-VL mejora la columna vertebral Qwen3-VL de 29.8 a 38.8 en MMSI-Bench y de 36.8 a 42.7 en MindCube. Estos resultados muestran que las observaciones imaginadas pueden proporcionar evidencia espacial útil, pero un razonamiento efectivo aumentado por modelo del mundo requiere aprender cuándo, dónde y cómo imaginar.
En este trabajo, nos centramos en ampliar SHARP, el popular método de síntesis de vistas fotorrealistas, para el renderizado monocular universal en un continuo de sistemas de cámaras, desde cámaras convencionales de perspectiva hasta configuraciones de gran campo de visión, ojo de pez y panorámicas omnidireccionales. Para superar las suposiciones específicas de orificio estenopeico de SHARP, nuestra idea clave es alinear diversas imágenes en un espacio latente omnidireccional unificado. Así, proponemos UniSHARP, que realiza una alineación implícita tanto en el espacio de características como en el espacio gaussiano. Específicamente, las primitivas gaussianas se disponen a lo largo de rayos y distancias radiales en una representación universal basada en rayos, mientras que las características semánticas 2D y espaciales 3D extraídas de codificadores inspirados en UniK3D se decodifican conjuntamente para generar la nube gaussiana completa. Para evaluar de manera integral nuestro método, construimos un punto de referencia que abarca diversos sistemas de imagen en distintas escenas. Dicho punto de referencia se estratifica además por campo de visión (FoV) para permitir una evaluación detallada de la tarea de renderizado monocular universal. Experimentos exhaustivos en el punto de referencia propuesto demuestran la eficacia de UniSHARP, superando con creces a otros métodos alternativos. La página del proyecto se encuentra en: https://insta360-research-team.github.io/Unisharp-website/
Sostenemos que los datos de movimiento de alta calidad pueden orientar las políticas de seguimiento hacia mejores trayectorias de optimización desde las primeras etapas del entrenamiento. En este trabajo presentamos LIMMT (Less Is More for Motion Tracking, "Menos es más para el seguimiento de movimiento"). Hasta donde sabemos, este es el primer estudio centrado en datos para el seguimiento de movimiento humanoide basado en física. No nos limitamos a eliminar clips de baja calidad o erróneos, sino que definimos la calidad de los datos de movimiento a través de tres dimensiones: viabilidad física, diversidad y complejidad. Demostramos que incluso entrenar con menos del 3% de AMASS produce un mejor rendimiento de seguimiento que entrenar con el conjunto de datos completo. Además, realizamos una limpieza de datos sobre los datos de captura de movimiento (mocap) estimados y obtenidos de la web. Numerosos experimentos y análisis validan la eficacia de nuestro marco.
Presentamos dots.tts, un modelo fundacional de síntesis de voz (TTS) autoregresivo continuo de 2 mil millones de parámetros que modela el habla en un espacio latente continuo. En comparación con los modelos autoregresivos continuos existentes, nuestras innovaciones clave son triples. Primero, entrenamos un AudioVAE con múltiples objetivos para construir un espacio de habla continuo semánticamente estructurado y propicio para la predicción. Segundo, utilizamos condicionamiento de historial completo en el cabezal de coincidencia de flujo (flow-matching head) para preservar la coherencia a largo plazo y reducir la deriva durante la generación. Tercero, aplicamos post-entrenamiento autocorrectivo sin recompensa al cabezal de coincidencia de flujo para mejorar aún más la robustez y la calidad acústica. Tras ser entrenado en un corpus multilingüe a gran escala, dots.tts logra el mejor rendimiento promedio en Seed-TTS-Eval, con tasas de error de palabra (WER) de 0.94%/1.30%/6.60% y puntuaciones SIM de 81.0/77.1/79.5 en los conjuntos de prueba zh/en/zh-hard, respectivamente. En otros puntos de referencia, dots.tts también demuestra consistentemente un rendimiento de vanguardia en código abierto, exhibiendo una fuerte estabilidad de generación, capacidad de clonación de voz y expresividad emocional. Para una inferencia eficiente, aplicamos además destilación MeanFlow con conciencia de CFG, permitiendo la generación de voz de baja latencia con latencias de primer paquete de 85/54 ms en modos de transmisión de salida y transmisión dual, respectivamente. Para facilitar la investigación reproducible y el despliegue práctico, publicamos el código de entrenamiento e inferencia, junto con los puntos de control preentrenados, post-entrenados y destilados con MeanFlow, bajo la licencia Apache 2.0.
Los modelos de difusión de imagen a video aprovechan las imágenes de entrada para generar contenido visualmente impactante, pero con frecuencia producen movimientos que violan las leyes físicas. Revelamos un hallazgo sorprendente: una generación de 2 pasos suele exhibir una consistencia física mejor que la salida de 50 pasos del mismo modelo. Mediante análisis espectral, rastreamos esto hasta la erosión de fase durante el desruido; la fase se degrada significativamente (disminuyendo aproximadamente un 18% desde el paso 2 hasta el paso 50), mientras que la magnitud permanece relativamente estable. Basándonos en esta observación, proponemos PhaseLock, un marco sin entrenamiento que preserva los priors de movimiento válidos de la inferencia de pocos pasos a lo largo de la trayectoria de desruido. En lugar de depender de la inferencia de pasos completos para la consistencia física, PhaseLock extrae un prior de movimiento de solo 2 pasos y lo impone sobre la generación de alta fidelidad mediante la Guía Delta Latente. Nuestro enfoque mitiga eficazmente la degradación de fase, mejorando la consistencia física en un promedio de 6.2 puntos en diversos modelos, mientras mantiene en gran medida la fidelidad visual, con una sobrecarga insignificante (1.06 veces el tiempo, 1.02 veces la memoria) y una menor dependencia de costosos métodos de guía externa (~5 veces el tiempo).
Los humanos son el cuello de botella en la construcción y mejora de la IA. Tanto los modelos como los agentes que los envuelven son escritos, ajustados y corregidos por personas. El objetivo a largo plazo de una IA capaz de descubrir cómo mejorarse a sí misma sigue siendo un problema abierto. Dos líneas de investigación en gran medida inconexas abordan este cuello de botella. La escuela de actualización del arnés emplea un meta-agente que reescribe el andamiaje de un agente específico para una tarea (sus herramientas, indicaciones, lógica de reintentos y procedimiento de búsqueda), manteniendo fijos los pesos del modelo. La escuela de entrenamiento en tiempo de prueba utiliza tuberías de aprendizaje por refuerzo escritas a mano para actualizar los pesos del propio modelo a partir de la retroalimentación de la tarea, manteniendo fijo el arnés. Estos dos silos operan de forma aislada. Proponemos SIA, un bucle de automejora en el que un agente basado en modelo de lenguaje (el Agente de Retroalimentación) actualiza tanto el arnés como los pesos de un agente específico para una tarea. Evaluamos en tres dominios contrastantes: clasificación de cargos legales chinos, optimización de kernels de GPU de bajo nivel y eliminación de ruido en ARN de célula única. La combinación de ambas palancas supera a la iteración del andamiaje por sí sola en los tres puntos de referencia. Las mejoras son del 56,6 % en LawBench, una reducción del 91,9 % en tiempo de ejecución en kernels de GPU y del 502 % en eliminación de ruido sobre la línea base inicial. Las actualizaciones del arnés hacen que el modelo sea agentivo, moldeando cómo busca y actúa, mientras que las actualizaciones de pesos construyen la intuición del dominio que ninguna indicación o andamiaje puede inculcar.
La recomendación de artículos científicos se evalúa típicamente como un ranking estático sobre un conjunto fijo de candidatos, pero la lectura científica real se desarrolla como un proceso diario y longitudinal en el que los intereses cambian y la retroalimentación se acumula. Presentamos PaperFlow, un marco que organiza este proceso en tres etapas acopladas: Perfilado, que construye y mantiene un perfil académico estructurado e inspeccionable a partir de evidencia heterogénea de inicio en frío; Recomendación, que clasifica cada flujo de artículos específico de una fecha mediante agregación de múltiples señales bajo un presupuesto de visualización fijo; y Adaptación, que actualiza el estado del usuario a partir de señales de retroalimentación semánticamente distintas y modela la deriva de intereses a lo largo de los días. Además, definimos un punto de referencia longitudinal usuario-día que fija usuarios, fechas, conjuntos de candidatos, entradas visibles y etiquetas de relevancia simuladas ocultas bajo un límite de información temporal compartido. El punto de referencia contiene 24 usuarios de investigación simulados, 50 flujos diarios de artículos, 1200 episodios usuario-día, 20 727 artículos únicos y 497 448 registros episodio-artículo. También especificamos un protocolo de evaluación humana ciega para validar la alineación entre las métricas automáticas y los juicios de expertos. Los experimentos contra cinco líneas base de recomendación científica muestran que PaperFlow logra el ranking basado en oráculo más fuerte, la mayor alineación conductual con las selecciones de lectura simuladas y la mejor puntuación de evaluación humana ciega.
Los agentes de ingeniería de software impulsados por LLM se han convertido en un banco de pruebas central para la capacidad de los modelos de lenguaje en el mundo real, pero su entrenamiento sigue estando limitado por la disponibilidad de tareas de alta calidad de SWE. Los métodos existentes de datos sintéticos suelen crear tareas mediante procedimientos fijos de mutación o inyección de errores, lo que hace que las distribuciones resultantes sean en gran medida independientes de las debilidades del agente y del progreso del entrenamiento. Presentamos Socratic-SWE, un marco de autoevolución en bucle cerrado que reutiliza las trazas históricas de resolución del agente como fuente de señal de entrenamiento. En lugar de tratar las trazas solo como evidencia para el cálculo de recompensas, Socratic-SWE las destila en habilidades estructuradas del agente que resumen fallos recurrentes y patrones efectivos de reparación. Estas habilidades guían entonces la generación de tareas de reparación dirigidas en repositorios reales. Las tareas candidatas se verifican mediante validación basada en ejecución y se puntúan con una recompensa de alineación de gradiente del solucionador, de modo que las tareas retenidas sean tanto verificables como útiles para mejorar el Solucionador. El Solucionador actualizado produce nuevas trazas, lo que permite que el currículo de tareas se adapte a lo largo de rondas sucesivas. En SWE-bench Verified, SWE-bench Lite, SWE-bench Pro y Terminal-Bench 2.0, Socratic-SWE mejora consistentemente con respecto a las líneas base de autoevolución bajo el mismo presupuesto computacional, alcanzando un 50,40% en SWE-bench Verified tras tres iteraciones. Estos resultados sugieren que las trazas de resolución pueden servir como un sustrato escalable para agentes SWE autoevolutivos.
Los agentes LLM están siendo cada vez más requeridos para operar en regímenes de tareas heterogéneas que exigen paradigmas de ejecución distintos. Esto desafía a los sistemas de agentes fijos y motiva la necesidad de una meta-adaptación a nivel del sistema más allá de las actualizaciones aisladas de componentes. Si bien trabajos existentes han adaptado el arnés externo o entrenado las políticas de razonamiento subyacentes, la adaptación del sistema completo sigue estando insuficientemente caracterizada. El espacio de adaptación entre la estructura y la ejecución rara vez se hace explícito, y la compatibilidad entre el arnés externo y el razonador interno no se optimiza de manera conjunta. Proponemos HarnessForge, un marco meta-adaptativo para la evolución de sistemas de agentes LLM. HarnessForge formula un sistema de agente como un par arnés–política, definiendo un espacio de adaptación estable que separa la estructura de ejecución a nivel de arnés del comportamiento de razonamiento a nivel de política. Luego realiza una co-evolución arnés–política mediante un ajuste del arnés guiado por fallos y una alineación de políticas condicionada por el arnés. Los experimentos en cinco puntos de referencia de diversos dominios muestran que HarnessForge mejora consistentemente tanto los backbones Qwen3-4B como Qwen3-8B, superando a las líneas base de solo arnés y solo política con ganancias de hasta un 12,0% sobre la línea base más fuerte, y logrando compensaciones favorables entre eficiencia de despliegue y ejecución. Esto demuestra que la co-evolución arnés–política es efectiva y que la compatibilidad ejecutable entre el arnés y la política de razonamiento es esencial para la adaptación del sistema agente. El código está disponible en https://github.com/mingju-c/HarnessForge.
A pesar del rápido progreso de los Modelos de Lenguaje y Visión (VLMs), el ámbito carece de puntos de referencia que diagnostiquen rigurosamente sus verdaderas capacidades de razonamiento y tracen un progreso significativo hacia una inteligencia multimodal similar a la humana. La mayoría de las evaluaciones existentes se centran en tareas fragmentadas o inconexas, ocultando debilidades cognitivas críticas y proporcionando poca información para una mejora dirigida. Para abordar esta brecha, presentamos BloomBench, parte de la serie de puntos de referencia Almieyar, el primer punto de referencia multimodal cognitivamente fundamentado en humanos y bilingüe (inglés-árabe) para VLMs. Basado en la Taxonomía de Bloom, BloomBench evalúa sistemáticamente seis niveles de cognición (Recordar, Comprender, Aplicar, Analizar, Evaluar, Crear) a través de tareas cuidadosamente diseñadas de imagen-pregunta-respuesta. Construido con un proceso semiautomatizado y validado mediante un protocolo de garantía de calidad híbrido estratificado, asegura escalabilidad, inclusividad cultural y fidelidad lingüística. Aprovechando este marco, realizamos un estudio exhaustivo de VLMs de última generación para diagnosticar sus perfiles cognitivos. Nuestro análisis revela una marcada asimetría cognitiva: mientras que los modelos de última generación alcanzan techos de rendimiento sólidos en comprensión semántica, tienen dificultades sustanciales con el recuerdo factual y la síntesis creativa. Esto demuestra que la competencia multimodal general actual enmascara limitaciones más profundas en capas cognitivas específicas. Además, nuestro estudio destaca una brecha de rendimiento crítica entre el árabe y el inglés, exponiendo limitaciones en el razonamiento multimodal interlingüe actual. Estos hallazgos establecen una base para desarrollar VLMs más alineados cognitivamente e inclusivos. El marco de referencia y el conjunto de datos están disponibles en: https://github.com/qcri/Almieyar-Oryx-BloomBench.
Los Modelos de Visión-Lenguaje (VLMs) se despliegan cada vez más en entornos embodied, donde deben producir salidas numéricas como magnitudes de acción y coordenadas espaciales. Aunque estos números parecen tener significado, sigue sin estar claro si dichas salidas numéricas están genuinamente fundamentadas en la percepción espacial. Por ello, en este trabajo revisitamos la comprensión numérica espacial a través de SpaceNum, un marco unificado que captura dos configuraciones complementarias: los números como transiciones dinámicas durante la exploración espacial, y los números como disposiciones estáticas en el razonamiento espacial. Formulamos dos tareas bidireccionales, Num2Space y Space2Num, para evaluar qué tan bien los VLMs mapean entre la estructura espacial del lado visual y las representaciones numéricas del lado lingüístico. Estudiamos sistemáticamente si los VLMs actuales realmente comprenden los valores numéricos en contextos espaciales. Tanto en transiciones dinámicas como en disposiciones estáticas, encontramos que los modelos fallan en gran medida al fundamentar los números en un significado espacial y a menudo se desempeñan cerca de una adivinación aleatoria. Mediante análisis de errores, análisis de trazas de razonamiento e intervenciones controladas, mostramos que los VLMs actuales dependen en gran medida de señales espaciales superficiales, tienen dificultades para construir representaciones estables conscientes de coordenadas y no logran abstraer disposiciones espaciales estructuradas a partir de observaciones visuales. Además, demostramos que el razonamiento explícito proporciona solo mejoras marginales, mientras que el ajuste puede mejorar parcialmente la comprensión numérica espacial y transferirse a benchmarks externos de razonamiento espacial.
A pesar de los avances en la comprensión de escenas 3D, los Grandes Modelos Multimodales 3D existentes operan en entornos fuera de línea, requiriendo observaciones completas de la escena o clips de video predefinidos. En este artículo, presentamos un modelo 3D de visión-lenguaje en línea que permite la comprensión espacial en tiempo real a partir de video en streaming. Nuestro enfoque adopta un modelado de control de streaming autorregresivo basado en el objetivo de predicción del siguiente token del LLM para aprender cuándo responder, y emplea un módulo ligero de Integración de Características Visual-Espacial (VSFI) para inyectar incrementalmente conocimientos geométricos alineados temporalmente en el flujo visual. Para aliviar la sobrecarga de decodificación de contexto largo, proponemos un módulo de Compresión de Vóxeles Adaptativa a la Geometría (GAVC) enchufable para la compresión eficiente de tokens visuales. Para abordar la escasez de datos de streaming 3D-lenguaje, desarrollamos además un pipeline de generación de datos escalable que compila más de 1 millón de pares de preguntas-respuesta 3D espacio-temporales en línea y establece un benchmark integral que abarca 29 tareas. Los experimentos exhaustivos muestran que nuestro enfoque supera significativamente tanto a los modelos propietarios como a los de código abierto en tareas de comprensión espacial 3D, razonamiento y anclaje tanto en línea como fuera de línea. La página del proyecto está disponible en https://stream3d-vlm.github.io/
La visión 3D ha evolucionado rápidamente, impulsada por representaciones de datos, paradigmas de aprendizaje y estrategias de modelado cada vez más diversas. Sin embargo, el campo sigue fragmentado entre representaciones y puntos de referencia, lo que dificulta desarrollar perspectivas unificadas sobre eficiencia, fidelidad y escalabilidad. Este trabajo proporciona una taxonomía centrada en datos de la visión 3D que conecta representaciones geométricas, conjuntos de datos, marcos de aprendizaje y aplicaciones dentro de un único mapa conceptual. Comenzamos analizando las principales representaciones estructurales de datos 3D (nubes de puntos, mallas, vóxeles y gaussianas 3D), junto con sus pipelines de adquisición. Luego examinamos cómo el diseño de conjuntos de datos, la construcción de puntos de referencia y los regímenes de supervisión moldean los avances recientes, abarcando el aprendizaje 3D supervisado en 2D, las representaciones neuronales implícitas y el modelado de mundos 4D. A través de esta lente integradora, clarificamos las relaciones entre representaciones, paradigmas de aprendizaje y tareas posteriores en reconstrucción, generación y modelado de video, ofreciendo una visión consolidada de las tendencias emergentes hacia el equilibrio entre eficiencia y fidelidad, y hacia el fundamento geométrico multimodal.
La recuperación para agentes de búsqueda aún se hereda de la recuperación de información no agentiva: un recuperador clasifica el corpus y el agente lee un pequeño conjunto de documentos devueltos. Trabajos recientes sobre interacción directa con el corpus (DCI, por sus siglas en inglés) muestran que los agentes pueden, en cambio, interactuar con el corpus en bruto mediante herramientas de shell como grep y lecturas de archivos. Pero la interacción ilimitada no escala: cada comando amplio de shell es un escaneo de todo el corpus, y la latencia se degrada abruptamente a medida que el corpus crece. Sostenemos que el papel de la recuperación para la búsqueda agentiva no es solo seleccionar documentos que quepan en la ventana de contexto del LLM, sino construir un espacio de interacción: un subconjunto acotado del corpus que el agente pueda explorar con herramientas asociadas. De ello se derivan dos consecuencias de diseño. El espacio necesita un límite proporcionado por la recuperación, y los objetos dentro de él deben procesarse para la interacción. Como prueba de concepto, proponemos RISE (Retrieving Interaction SpacE, espacio de interacción recuperado): utilizamos BM25 para construir el espacio de interacción; mientras tanto, sus documentos se procesan durante la indexación para la navegación tipo shell. En BrowseComp-Plus, RISE iguala la línea base de DCI puro en shell con un 78% de precisión con gpt-5.4-mini a aproximadamente una cuarta parte del costo por consulta. Con 1M de documentos, RISE-BM25 alcanza el 81% en gpt-5.4-mini, mientras que DCI en gpt-5.4-nano se degrada al 60% con 33 de 100 fallos en tiempo real.
En los modelos generativos, la ponderación de pérdida basada en confianza suele evitarse porque acelera los errores cuando el modelo está confiadamente equivocado, pero esta intuición se desmorona en el entrenamiento supervisado de difusión. Introducimos la barrera logarítmica de Eisbach, un peso sin parámetros derivado de la entropía de la distribución espacial de energía de la salida del DiT: una entropía alta amortigua el gradiente, mientras que una entropía baja lo preserva. Aplicada al ajuste fino LoRA de Stable Audio 3 Medium en MusicCaps, produce inesperadamente un desarrollo temático más fuerte, una diferenciación acústica más clara y una mayor diversidad textural en comparación con el entrenamiento no ponderado, lo opuesto al colapso de modos. Esto funciona porque, en la difusión supervisada, la dirección del gradiente está fijada a la verdad fundamental, por lo que la confianza solo escala el tamaño del paso, y porque la entropía temporal reduce la ponderación de muestras planas mientras preserva las de alto contraste. El resultado es un currículo de datos en línea, autorreferencial, que emerge puramente del pase directo, con dinámicas de nivel de ruido analizadas y predicciones comprobables.
Los modelos de lenguaje pueden utilizar recompensas verificables para mejorar en una amplia variedad de tareas de razonamiento. Sin embargo, tanto los enfoques paramétricos (por ejemplo, RLVR) como los no paramétricos (por ejemplo, la optimización de instrucciones) para lograrlo suelen requerir cientos de muestras de entrenamiento y miles de ejecuciones del modelo, lo que los hace costosos en el mejor de los casos e inviables en el peor. Para abordar este desafío, presentamos Reflexión Contrastiva (CORE), un algoritmo de aprendizaje no paramétrico que compara trazas de razonamiento pasadas para generar percepciones: descripciones breves en lenguaje natural de estrategias y restricciones de razonamiento que capturan las diferencias entre intentos exitosos y no exitosos de un problema. En cuatro tareas de razonamiento, demostramos que CORE permite una mejora más rápida que tanto los métodos paramétricos (GRPO) como los no paramétricos (GEPA, RAG episódico y MemRL), utilizando menos ejecuciones. Bajo presupuestos fijos de ejecuciones con tan solo cinco muestras de entrenamiento, mostramos además que CORE logra ganancias de rendimiento comparables o superiores a cada línea base. Finalmente, destacamos que CORE también es sustancialmente más eficiente en contexto que las líneas base no paramétricas, al requerir menos tokens de instrucción mientras almacena el conocimiento aprendido como percepciones compactas e interpretables en lenguaje natural. Por lo tanto, nuestros resultados sugieren que destilar los contrastes entre trazas de razonamiento exitosas y no exitosas en percepciones abstractas y útiles puede proporcionar una ruta más eficiente e interpretable hacia la automejora del modelo que las actualizaciones de pesos, la optimización de instrucciones o la reutilización directa de trazas de razonamiento almacenadas.
Personalizar un juez LLM para una tarea o dominio específico a menudo implica optimizar su prompt a través de múltiples criterios de evaluación simultáneamente. Los métodos de gradiente textual automatizan este proceso para un único criterio del juez; sin embargo, producen críticas en lenguaje natural, no vectores numéricos. Por lo tanto, el conjunto de herramientas de resolución de conflictos del aprendizaje multitarea (PCGrad, MGDA) no se aplica al entorno de gradiente textual multiobjetivo. Probamos cinco modos de descomposición de optimizadores de gradiente textual variando la cantidad de información entre tareas que comparten los LLM de pérdida, gradiente y optimizador. En 6 de 10 configuraciones, observamos que la optimización nunca mejora respecto al prompt inicial. La especificidad del gradiente disminuye un 59% (de 9.0 a 3.7) cuando el LLM de gradiente procesa múltiples criterios de forma conjunta. Por separado, observamos que combinar ingenuamente las instrucciones por tarea en un solo prompt degrada el rho de Spearman en un -5.3%. Estos resultados identifican dos modos de fallo separables: la dilución del gradiente en el momento de la optimización y la interferencia de instrucciones en el momento de la inferencia, que juntos restringen el espacio de diseño para la personalización multiobjetivo del juez mediante retroalimentación textual.
Los modelos de razonamiento han avanzado rápidamente, pero la receta dominante de aprendizaje por refuerzo a partir de recompensas verificables (RLVR) sigue siendo sorprendentemente limitada: muestrear muchas respuestas y recompensar cada una con un solo bit que indique si la respuesta final es correcta. Sin embargo, muchos entornos proporcionan retroalimentación enriquecida, incluyendo trazas de ejecución, salidas de herramientas, correcciones de expertos y autoevaluaciones del modelo. Estudiamos cómo utilizar dicha retroalimentación mediante una variante distribucional del clásico algoritmo de aprendizaje por imitación DAgger, donde el aprendiz tiene acceso local a una distribución experta sobre los estados visitados por la política actual. Esto produce un objetivo simple de entropía cruzada directa que admite un experto en caja negra y cuyo gradiente a nivel de secuencia realiza una rica asignación de crédito al propagar el desacuerdo futuro entre experto y estudiante hacia decisiones anteriores. Mostramos que el RL previo con objetivos de autodestilación basados en KL inversa o Jensen-Shannon no logra garantizar una mejora monótona de la política: incluso cuando el experto tiene una recompensa más alta, sus actualizaciones pueden aumentar la probabilidad de acciones peores. Por el contrario, mostramos que la entropía cruzada directa permite una mejora monótona de la política y disfruta de garantías sobre el arrepentimiento. Además, mostramos que nuestro objetivo optimiza un límite inferior en la probabilidad ponderada por el profesor del éxito, lo que conduce a una mejora en Pass@N. Empíricamente, nuestro enfoque, DistIL, mejora con respecto a RLVR y RL con líneas base de autodestilación en una variedad de dominios: razonamiento científico, codificación y resolución de problemas matemáticos difíciles.
Los modelos de razonamiento generan largas trazas de cadena de pensamiento que resultan costosas de destilar y fomentan salidas verbosas por parte de los estudiantes. Estudiamos la compresión post-hoc de dichas trazas antes de la destilación de conocimiento. Dos profesores, Qwen3.5-397B-A17B y gpt-oss-120B, generan aproximadamente 283 mil trazas correctas cada uno; dos modelos ajustados por instrucciones las comprimen al 8,6–21,0 % de su longitud de caracteres original. En una cuadrícula principal de 48 ejecuciones más siete ablaciones de truncamiento con el profesor Qwen, las trazas comprimidas reducen los tokens de entrenamiento al 12–30 % de los crudos, aceleran el entrenamiento entre 2,0 y 7,6 veces y acortan las salidas de inferencia entre 3 y 19 veces, con reducciones menores bajo el profesor gpt-oss, de menor longitud. Sin embargo, las trazas crudas mantienen la mayor precisión en tareas posteriores en todas las escalas y para ambos profesores. Una ablación de truncamiento de trazas crudas igualadas en longitud muestra que la compresión no se beneficia simplemente de un presupuesto de tokens más reducido: las trazas comprimidas por modelo generalmente superan o igualan al truncamiento ingenuo, especialmente para estudiantes más pequeños, manteniendo al mismo tiempo salidas de inferencia más cortas. En conjunto, la compresión de trazas de razonamiento ofrece una compensación entre precisión y eficiencia, más que una mejora gratuita: los estudiantes retienen hasta el 96 % de la precisión de las trazas crudas mientras obtienen hasta 18 veces más eficiencia por token, y en la escala de 0,8B con LoRA, las trazas comprimidas reducen la brecha entre crudo y comprimido, pero no superan al crudo.
Los sistemas de modelos de lenguaje agentivos alternan entre dos tipos de pasos estructuralmente distintos: llamadas estructuradas a herramientas (cortas, deterministas, baja perplejidad) y pasos de planificación/razonamiento abiertos (largos, complejos, alta perplejidad). A pesar de esta heterogeneidad, los sistemas de inferencia actuales aplican un cómputo idéntico a cada paso. Presentamos LayerRoute, un adaptador ligero que aprende a omitir selectivamente bloques transformadores por cada entrada. LayerRoute aumenta cada uno de los 24 bloques transformadores en Qwen2.5-0.5B-Instruct con: (1) un enrutador por capa (~897 parámetros, Linear(896,1)) que genera una compuerta binaria rígida mediante el estimador de paso directo, y (2) adaptadores LoRA (rango 8, ~1,08M de parámetros) en las proyecciones de atención Q/K/V/O. Los pesos de la red principal permanecen congelados. Una única pasada de entrenamiento de extremo a extremo en datos agentivos (Hermes, Glaive, GSM8K, Turing) con un término de regularización de compuerta obliga al sistema a descubrir qué bloques son omitibles por tipo de entrada. Después de 3.000 pasos (6,4 minutos en una A100 de 40 GB), LayerRoute logra un diferencial de omisión del 12,91%: las llamadas a herramientas omiten el 15,25% de los FLOPs, mientras que los pasos de planificación omiten solo el 2,34%, utilizando únicamente 1,10M de parámetros entrenables (el 0,22% de la red principal de 494M). La calidad mejora con respecto al modelo base debido a la adaptación LoRA, con un delta de perplejidad de -1,29 en llamadas a herramientas y -1,30 en planificación.
Los modelos de lenguaje grandes (LLMs) han sido adoptados recientemente como agentes sintéticos para la simulación de opinión pública, ofreciendo una alternativa prometedora a las encuestas humanas costosas y lentas. A pesar de su escalabilidad, los métodos actuales de simulación basados en LLMs no logran capturar la diversidad social, produciendo diferencias intergrupales aplanadas y respuestas excesivamente homogéneas entre grupos demográficos. Identificamos esta limitación como un fenómeno de Colapso de la Diversidad en las representaciones ocultas de los LLMs, donde identidades sociales distintas se vuelven cada vez más indistinguibles a través de las capas. Motivados por esta observación, proponemos la Inyección Paramétrica de Identidad Social (PSII), un marco general que inyecta representaciones paramétricas explícitas de atributos demográficos y orientaciones de valor directamente en estados ocultos intermedios de los LLMs. A diferencia del condicionamiento de persona basado en indicaciones, PSII permite una modulación de identidad fina y controlable a nivel de representación. Experimentos exhaustivos en la World Values Survey utilizando múltiples LLMs de código abierto muestran que PSII mejora significativamente la fidelidad distribucional y la diversidad, reduciendo la divergencia KL con respecto a los datos reales de encuestas y mejorando la diversidad general. Este trabajo proporciona nuevas perspectivas sobre el control a nivel de representación de agentes LLM y avanza hacia una simulación de opinión pública escalable y consciente de la diversidad.
El reconocimiento automático del habla (ASR) es un componente central de la interacción humano-computadora y un front-end cada vez más importante para asistentes y agentes basados en modelos de lenguaje grandes (LLM). Sin embargo, la mayoría de los sistemas ASR actuales aún siguen un paradigma de una sola pasada, que está poco alineado con la comunicación humana, donde los malentendidos se resuelven mediante aclaraciones y refinamientos iterativos. Esta discrepancia dificulta la corrección de errores críticos para el significado una vez que ocurren. Al mismo tiempo, métricas a nivel de token como la tasa de error de palabras (WER) o la tasa de error de caracteres (CER) no reflejan adecuadamente este problema. Para abordar estas limitaciones, formulamos el ASR Interactivo como una tarea de refinamiento en múltiples turnos y proponemos ASR Agéntico (Agentic ASR), un marco de bucle cerrado que combina un front-end ASR de una sola pasada con corrección semántica, enrutamiento de intenciones y edición basada en razonamiento. Además, introducimos la Tasa de Error Semántico a Nivel de Oración (S^2ER), una métrica de evaluación semántica basada en LLM, junto con un Sistema de Simulación Interactiva para la evaluación comparativa escalable y reproducible. Experimentos en puntos de referencia multilingües, intensivos en entidades nombradas y de cambio de código muestran que la interacción iterativa reduce consistentemente los errores semánticos, con mejoras mucho mayores en S^2ER que en las métricas convencionales a nivel de token. Los estudios de alineación humano-IA y ablación validan adicionalmente la confiabilidad del juez semántico y la robustez del marco propuesto. El código está disponible en: https://interactiveasr.github.io/ y la demo en vivo en: https://i-asr.sjtuxlance.com/
Los ataques de destilación crean un compromiso de despliegue para los proveedores de modelos: las mismas salidas que hacen que un modelo sea más útil también pueden facilitar su imitación. Estudiamos este compromiso mediante un juego minimax entre un profesor con restricciones de utilidad y un estudiante adaptativo. Nuestro marco produce reglas de respuesta unilaterales tratables: una regla de evaluación adaptativa en la que el estudiante repondera ejemplos de alto valor, y una plantilla de defensa del lado del profesor que suprime las salidas más útiles para la destilación. A partir de un proxy económico del valor del ejemplo, derivamos Product-of-Experts (PoE), una defensa simple de solo paso hacia adelante que combina al profesor con un estudiante proxy durante la generación. Empíricamente, la evaluación adaptativa revela una gran brecha pasivo-adaptativa: en las defensas de última generación, los estudiantes adaptativos recuperan significativamente más capacidad de lo que sugiere la evaluación pasiva en GSM8K y MATH. Bajo esta evaluación más fuerte, la brecha aparente de robustez entre las defensas costosas y PoE se reduce considerablemente, mientras que PoE sigue siendo sustancialmente más barato y preserva trazas de razonamiento de mayor calidad. En general, nuestros resultados sugieren que la destilación fuerte sigue siendo difícil de detener, y que el progreso en la anti-destilación debería juzgarse comparando con estudiantes adaptativos en lugar de pasivos. Nuestro código está disponible en: https://github.com/ysfalh/distillation-game.
Presentamos StreamForce, un marco de generación de video en streaming que permite un control físicamente fundamentado mediante entradas continuas de fuerza. A diferencia de modelos de video anteriores que entrenan modelos separados para diferentes tipos de fuerza, asumen fuerzas fijas o dependen de procesamiento no causal, StreamForce es un modelo causal y unificado que responde de manera instantánea y coherente tanto a fuerzas locales como globales que varían en el tiempo. Para lograrlo, diseñamos una representación unificada de fuerza como señal de control y desarrollamos un flujo de destilación para la generación de video controlable por fuerzas. Nuestro modelo combina la eficiencia autorregresiva con la capacidad de respuesta a las fuerzas, manteniendo un realismo fotométrico y dinámico estable. StreamForce alcanza hasta 16.6 FPS en una sola GPU, logrando un rendimiento de vanguardia tanto en la adherencia a las fuerzas como en el realismo del movimiento. Sitio web del proyecto: https://neu-vi.github.io/StreamForce/
La selección de fuentes negativas duras para la recuperación densa generalmente se decide solo después del ajuste fino y la evaluación descendente. Proponemos ECI_{sem}, una variante residual semántica de la Información Contrastiva Efectiva (ECI) que clasifica las fuentes negativas candidatas utilizando incrustaciones congeladas del codificador objetivo. ECI_{sem} no requiere entrenamiento, pero sí etiquetas: cada ejemplo puntuado necesita una consulta, un positivo etiquetado y un negativo candidato explícito. ECI_{sem} construye una matriz de información residual ponderada a partir de la consistencia del objetivo, la localidad semántica, la residualidad léxica y un objetivo de diversidad de log-determinante. En las fuentes negativas de MS MARCO, ECI_{sem} intra-familia clasifica los negativos de LLM como los más altos entre las fuentes no híbridas y Dense+LLM como los más altos entre las fuentes híbridas, coincidiendo con los resultados agregados más fuertes de transferencia BEIR en DistilBERT, E5-base y Contriever. Las ablaciones controladas muestran que esta alineación depende del uso de la familia del codificador objetivo, mientras que ablaciones adicionales muestran estabilidad ante perturbaciones en el tamaño de muestra, la temperatura, el tokenizador y el corpus IDF. La teoría ofrece un vínculo lineal localizado con la reducción de la pérdida, mientras que el estudio empírico trata la evaluación descendente como la prueba final.
Los desarrolladores utilizan cada vez más herramientas de inteligencia artificial como ChatGPT, Copilot y Claude en los flujos de trabajo de software cotidianos, pero los estudios previos a menudo evalúan las salidas de los LLM de forma aislada, sin examinar cómo los desarrolladores las adaptan en proyectos reales. Analizamos 35,361 comentarios de código de GitHub que mencionan explícitamente el uso de IA y sus bloques de código asociados. Primero, codificamos de forma abierta 500 comentarios y bloques de código únicos para derivar una taxonomía de las actividades de desarrollo asistidas por IA; luego, anotamos el conjunto de datos completo utilizando dos clasificadores basados en LLM y agregamos las predicciones mediante la maximización de expectativas de Dawid-Skene. También analizamos 12,996 mensajes de confirmaciones posteriores para estudiar cómo evoluciona el código asistido por IA tras su introducción, y examinamos tendencias temporales desde diciembre de 2022 hasta marzo de 2026. Nuestros resultados muestran que los desarrolladores utilizan principalmente los LLM para la implementación de código, seguida de la mejora de código, la depuración, la documentación y las pruebas. Las confirmaciones posteriores implican con frecuencia refactorización y limpieza, integración y extensión de funcionalidades, y corrección de errores, lo que indica una supervisión humana sostenida en la adaptación del código asistido por IA. Con el tiempo, los comentarios que hacen referencia a la IA pasan de la generación directa de código al apoyo conceptual y de conocimiento y a la mejora del código. Estos hallazgos sugieren que las herramientas de IA se están integrando no solo como ayudas para la generación de código, sino también como mecanismos de apoyo colaborativo cuyos resultados son refinados, extendidos y corregidos por los desarrolladores a lo largo del tiempo.
La robustez de las redes neuronales profundas es crucial para despliegues críticos en seguridad, sin embargo, los métodos de evaluación existentes suelen depender del ataque y carecer de interpretabilidad. Proponemos una métrica de robustez basada en principios, independiente del ataque, fundamentada en la norma espectral de la Matriz de Información de Fisher (MIF), que cuantifica la sensibilidad en el peor caso de la distribución de salida del modelo ante perturbaciones en la entrada. Teóricamente, establecemos que la MIF equivale a la varianza del jacobiano de entrada y derivamos cotas espectrales en forma cerrada para arquitecturas comunes, incluyendo VGG, ResNet, DenseNet y Transformer, proporcionando la primera clasificación teórica de robustez. Para permitir una evaluación escalable, desarrollamos algoritmos eficientes, incluyendo el método de iteración de potencia y la estimación basada en Hutchinson, que admiten configuraciones tanto de caja blanca como de caja negra. Experimentos exhaustivos en múltiples conjuntos de datos, incluyendo CIFAR, ImageNet e imágenes médicas, y en diversas arquitecturas, muestran una fuerte correlación entre nuestra métrica y la vulnerabilidad adversarial. Nuestro marco sirve como una herramienta diagnóstica interpretable que complementa las evaluaciones basadas en ataques, ofreciendo información sobre la sensibilidad arquitectónica y guiando el diseño de modelos más robustos. El código está disponible en: https://github.com/franz-chang/SRP/.
Estudiamos la transformación de modelos autorregresivos (ARLM) en modelos de lenguaje de difusión (DLM). En lugar de preentrenar desde cero, trabajos previos reemplazan la atención causal en los ARLM con atención bidireccional y luego entrenan el modelo resultante utilizando un objetivo de DLM. Sin embargo, estos enfoques incurren en dos cambios de distribución. Primero, la transición de un objetivo de predicción del siguiente token a un objetivo de DLM puede descartar conocimiento adquirido por el ARLM durante el entrenamiento. Segundo, los DLM estándar sufren un desajuste entre entrenamiento e inferencia, ya que la pérdida de entrenamiento se define sobre secuencias enmascaradas aleatoriamente, en lugar de las trayectorias encontradas en la inferencia producidas por decodificación basada en confianza. Para abordar ambos desafíos, introducimos un Modelo de Lenguaje de Difusión On-Policy (OPDLM), en el cual se emplea Destilación On-Policy (OPD) para la transformación de ARLM a DLM. Específicamente, OPDLM se entrena mediante auto-OPD, donde el estudiante, un ARLM con atención bidireccional, genera sus propias trayectorias, y el profesor, el ARLM original congelado, destila su conocimiento proporcionando logits objetivo sobre estas trayectorias. Al entrenar directamente de manera on-policy, OPDLM elimina el desajuste entre entrenamiento e inferencia en los DLM, mientras que la destilación del modelo original mejora la retención del conocimiento del ARLM. Los resultados empíricos demuestran que OPDLM requiere de 15 a 7,000 veces menos tokens de entrenamiento con un rendimiento sólido en una amplia variedad de tareas. OPDLM evita el costo prohibitivo del preentrenamiento de DLM y posiciona la transformación de DLM como una forma de post-entrenamiento de ARLM.
Los modelos discretos de Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) suelen formular la generación de acciones como una predicción del siguiente token sobre espacios de acción discretizados, condicionando cada token autorregresivamente al contexto previo. Si bien este enfoque es efectivo, conlleva una alta latencia de inferencia y en gran medida ignora la estructura temporal inherente a las trayectorias de acción. Esfuerzos recientes introducen la decodificación paralela para mejorar la eficiencia, permitiendo una inferencia más rápida, pero carecen de mecanismos explícitos para modelar las dependencias entre tokens. Presentamos TBD-VLA, un marco VLA basado en tokens discretos que incorpora difusión por bloques para habilitar la generación temporal de acciones. Dividimos las secuencias de acción en bloques temporales y aplicamos difusión discreta enmascarada dentro de cada bloque, manteniendo una generación autorregresiva entre bloques. Este diseño unifica la autorregresión temporal y la decodificación paralela de acciones, logrando tanto una fuerte coherencia temporal como una velocidad de inferencia mejorada. Además, el modelado temporal explícito permite la ejecución asíncrona de fragmentos de acción (por ejemplo, Real-Time Chunking) mediante in-painting temporal. TBD-VLA supera significativamente a los enfoques VLA anteriores tanto en simulaciones como en tareas de manipulación en el mundo real, ofreciendo un camino escalable hacia modelos VLA discretos, rápidos y conscientes de la temporalidad. Página web del proyecto: https://tbd-vla.github.io/
En aplicaciones del mundo real, se espera que los modelos funcionen de manera fiable en contextos diversos. Sin embargo, muchos de los benchmarks multimodales existentes amplían los tipos de tareas sin capturar la diversidad visual necesaria para manejar entradas visuales abiertas. Presentamos WorldBench, un benchmark de razonamiento desafiante y visualmente diverso para evaluar Modelos de Lenguaje Grandes Multimodales (MLLMs). Construimos una taxonomía de miles de conceptos visuales en múltiples dominios (por ejemplo, seres vivos). Guiados por esta taxonomía, curamos una amplia colección de imágenes de motores de búsqueda y conjuntos de datos existentes para representar de manera integral el mundo visual. Mediante un proceso estructurado de prueba y error, diseñamos manualmente preguntas desafiantes que los MLLMs de frontera no logran responder. En evaluaciones cuantitativas y humanas, WorldBench alcanza una mayor diversidad visual que cualquier benchmark diverso existente. Al evaluar 15 MLLMs en WorldBench, se revelan debilidades en la comprensión visual: incluso el modelo más fuerte alcanza solo un 64,0% de precisión, mientras que algunos modelos obtienen resultados marginalmente por encima del nivel de azar. Esperamos que nuestro trabajo destaque la importancia de la diversidad visual en la construcción de benchmarks multimodales.
Los sistemas de búsqueda agentiva interactúan iterativamente con modelos de recuperación para responder consultas complejas. A pesar de los avances significativos, optimizar los recuperadores para la búsqueda agentiva sigue siendo un desafío, ya que a menudo requiere un coentrenamiento intensivo o anotaciones de referencia estándar que limitan la aplicabilidad en el mundo real. Proponemos Critic-R, un marco que cierra explícitamente el ciclo de retroalimentación entre el agente de razonamiento y el modelo de recuperación durante la inferencia y el entrenamiento. Critic-R introduce un modelo crítico que evalúa la traza de razonamiento introspectivo del agente después de consumir evidencia recuperada, para determinar si el contexto recuperado respalda suficientemente el siguiente paso de razonamiento. Critic-R cuenta con dos mecanismos complementarios: Critic-R-Zero, un bucle de refinamiento de consultas en tiempo de inferencia que reescribe iterativamente las consultas y las instrucciones de recuperación, y Critic-Embed, un enfoque de optimización para modelos de recuperación que aprovecha las trayectorias de refinamiento exitosas y fallidas como supervisión automática, sin requerir anotaciones manuales de relevancia. Evaluamos Critic-R en HotpotQA, 2WikiMultihopQA, MuSiQue y Bamboogle. Los resultados muestran que Critic-R mejora significativamente tanto la calidad de la recuperación como la precisión de las respuestas posteriores.
La inferencia eficiente es fundamental para los modelos de lenguaje de contexto largo, donde el cálculo de la atención y el acceso a la caché KV dominan el costo. El trabajo reciente RAT+ introduce un backbone de atención aumentada por recurrencia que permite una atención dilatada flexible en tiempo de inferencia. En este artículo, investigamos si esta memoria de decaimiento exponencial también puede mejorar los métodos existentes de inferencia dispersa consciente de la consulta. Utilizando métodos representativos como Quest, MoBA y SnapKV, demostramos que RAT+ mejora consistentemente la precisión en comparación con la atención estándar en diversos presupuestos de dispersión en ocho tareas de aguja en el pajar. Validamos estas mejoras tanto en los checkpoints publicados del artículo de RAT+ como en OLMo2-7B, al cual continuamos preentrenando con el módulo de memoria añadido durante 10 mil millones de tokens. Finalmente, proponemos dos hipótesis que explican por qué este módulo de memoria beneficia la inferencia dispersa consciente de la consulta y diseñamos experimentos dirigidos para respaldarlas.
La armonía es una capa simbólica compacta donde convergen las relaciones matemáticas de alturas, la consonancia acústica y la convención musical. Este informe trata las secuencias de símbolos de acordes no como una representación completa de la música, sino como una serie temporal interpretable y controlable para el modelado armónico local de género. Partiendo de un punto de control congelado de un Music Transformer de pop-jazz, evalúo hasta qué punto pequeñas interfaces de adaptación pueden extender el modelo a once géneros objetivo: blues, bossa nova, corales de Bach, country, electrónica, folk, funk, gospel, hip-hop, R&B/soul y rock. La evaluación principal compara LoRA, IA3, BitFit, ajuste de prefijo y ajuste fino completo en 11 géneros y 3 semillas, una cuadrícula completa de 165 celdas. Los cinco métodos mejoran con respecto a la base congelada en la predicción de acordes no vistos, con ganancias macro de +2.89 a +3.61 puntos; LoRA e IA3 obtienen las puntuaciones más altas, pero las pruebas de Wilcoxon con corrección de Holm y Benjamini-Hochberg no respaldan un ganador decisivo. Un control de tamaño de datos emparejado agudiza esto: cuando los géneros se submuestran a un tamaño de corpus común, IA3 se mantiene en la cima, pero la ventaja de datos completos de LoRA desaparece y cae al último lugar, lo que indica que las pequeñas diferencias son en parte impulsadas por los datos. Una línea base de token de control también es sólida, y los adaptadores de género incorrecto a menudo superan a la base congelada, lo que sugiere que gran parte del efecto proviene de un condicionamiento ligero sobre una base armónica reutilizable más que de una familia de adaptadores en particular. Diagnósticos adicionales (barridos de rango, rotación de género incorrecto, ablación del punto de control base, clasificación de género solo con acordes, estadísticas de salida generada, evaluación con canciones reales y análisis de duplicados) respaldan una conclusión acotada: la adaptación de símbolos de acordes mejora de manera confiable la predicción armónica local de género, pero los símbolos de acordes por sí solos no contienen la identidad completa del género. Por lo tanto, el informe evita afirmaciones sobre la autenticidad de género percibida o la calidad musical completa, que requieren una evaluación controlada con oyentes o músicos.