Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos del mundo basados en video han surgido siguiendo dos paradigmas dominantes: la generación de video y la reconstrucción 3D. Sin embargo, los puntos de referencia de evaluación existentes se centran de forma limitada en la fidelidad visual y la alineación texto-video para modelos generativos, o dependen de métricas de reconstrucción 3D estática que fundamentalmente descuidan la dinámica temporal. Sostenemos que el futuro del modelado del mundo reside en la generación 4D, que modela conjuntamente la estructura espacial y la evolución temporal. En este paradigma, la capacidad central es la respuesta interactiva: la habilidad de reflejar fielmente cómo las acciones de interacción impulsan las transiciones de estado a través del espacio y el tiempo. Sin embargo, ningún punto de referencia existente evalúa sistemáticamente esta dimensión crítica. Para abordar esta brecha, proponemos Omni-WorldBench, un punto de referencia integral diseñado específicamente para evaluar las capacidades de respuesta interactiva de los modelos del mundo en entornos 4D. Omni-WorldBench comprende dos componentes clave: Omni-WorldSuite, un conjunto sistemático de instrucciones que abarca diversos niveles de interacción y tipos de escenas; y Omni-Metrics, un marco de evaluación basado en agentes que cuantifica las capacidades de modelado del mundo midiendo el impacto causal de las acciones de interacción tanto en los resultados finales como en las trayectorias de evolución de los estados intermedios. Realizamos evaluaciones exhaustivas de 18 modelos del mundo representativos en múltiples paradigmas. Nuestro análisis revela limitaciones críticas de los modelos del mundo actuales en la respuesta interactiva, proporcionando insights prácticos para futuras investigaciones. Omni-WorldBench se publicará públicamente para fomentar el progreso en el modelado interactivo del mundo en 4D.
Presentamos daVinci-MagiHuman, un modelo de base generativo de audio y vídeo de código abierto para la generación centrada en el ser humano. daVinci-MagiHuman genera conjuntamente vídeo y audio sincronizados utilizando un Transformer de flujo único que procesa texto, vídeo y audio dentro de una secuencia de tokens unificada mediante únicamente autoatención. Este diseño de flujo único evita la complejidad de las arquitecturas multistream o de atención cruzada, manteniéndose fácil de optimizar con infraestructura estándar de entrenamiento e inferencia. El modelo es especialmente potente en escenarios centrados en el ser humano, produciendo una actuación facial expresiva, una coordinación natural entre habla y expresión, movimientos corporales realistas y una sincronización audio-vídeo precisa. Soporta generación oral multilingüe en chino (mandarín y cantonés), inglés, japonés, coreano, alemán y francés. Para una inferencia eficiente, combinamos el backbone de flujo único con destilación de modelos, superresolución en espacio latente y un decodificador Turbo VAE, lo que permite generar un vídeo de 5 segundos a 256p en 2 segundos en una única GPU H100. En evaluación automática, daVinci-MagiHuman logra la mayor calidad visual y alineación textual entre los principales modelos abiertos, junto con la tasa de error de palabras más baja (14.60%) en inteligibilidad del habla. En evaluación humana por pares, alcanza tasas de victoria del 80.0% frente a Ovi 1.1 y del 60.9% frente a LTX 2.3 en más de 2000 comparaciones. Liberamos como código abierto la pila completa del modelo, incluyendo el modelo base, el modelo destilado, el modelo de superresolución y el código base de inferencia.
El entrenamiento de agentes de investigación profunda requiere trayectorias de largo horizonte que entrelazan búsqueda, agregación de evidencias y razonamiento multi-etapa. Sin embargo, los flujos de trabajo existentes para la recolección de datos suelen depender de APIs web propietarias, lo que hace que la síntesis de trayectorias a gran escala sea costosa, inestable y difícil de reproducir. Presentamos OpenResearcher, un flujo de trabajo reproducible que desacopla el arranque único del corpus de la síntesis de trayectorias multi-turno y ejecuta el ciclo de búsqueda y navegación completamente offline utilizando tres primitivas explícitas del navegador: buscar, abrir y encontrar, sobre un corpus de 15 millones de documentos. Utilizando GPT-OSS-120B como modelo maestro, sintetizamos más de 97,000 trayectorias, incluyendo una cola significativa de largo horizonte con más de 100 llamadas a herramientas. El ajuste fino supervisado de un modelo base 30B-A3B en estas trayectorias alcanza un 54.8% de precisión en BrowseComp-Plus, una mejora de +34.0 puntos sobre el modelo base, mientras se mantiene competitivo en BrowseComp, GAIA y xbench-DeepSearch. Dado que el entorno es offline y está totalmente instrumentado, también permite análisis controlados, donde nuestro estudio revela perspectivas prácticas para el diseño de flujos de investigación profunda, incluyendo estrategias de filtrado de datos, opciones de configuración del agente, y cómo el éxito de la recuperación se relaciona con la precisión de la respuesta final. Publicamos el flujo de trabajo, las trayectorias sintetizadas, los puntos de control del modelo y el entorno de búsqueda offline en https://github.com/TIGER-AI-Lab/OpenResearcher.
Los modelos deíctica-lenguaje (VLMs) suelen procesar imágenes en su resolución nativa alta, lo que impone una disyuntiva entre precisión y eficiencia computacional: las entradas de alta resolución capturan detalles finos pero conllevan costos computacionales significativos, mientras que las entradas de baja resolución abogan por la eficiencia, pero potencialmente omiten información visual crítica, como texto pequeño. Presentamos AwaRes, un marco espacial bajo demanda que resuelve esta disyuntiva precisión-eficiencia operando en una vista global de baja resolución y utilizando llamadas a herramientas para recuperar únicamente los segmentos de alta resolución necesarios para una consulta dada. Construimos datos supervisados automáticamente: un juez compara respuestas de baja vs. alta resolución para etiquetar si es necesario recortar, y un modelo de grounding oráculo localiza la evidencia para la respuesta correcta, la cual mapeamos a un conjunto discreto de recortes para formar trayectorias de uso de herramientas multi-turno. Entrenamos nuestro marco con SFT de inicio en frío seguido de GRPO multi-turno con una recompensa compuesta que combina la corrección semántica de la respuesta con penalizaciones explícitas por el costo de los recortes. Página del proyecto: https://nimrodshabtay.github.io/AwaRes
Presentamos LongCat-Flash-Prover, un modelo insignia de código abierto con 560 mil millones de parámetros basado en Mezcla de Expertos (MoE), que avanza en el Razonamiento Formal Nativo en Lean4 mediante un razonamiento agentivo integrado con herramientas (TIR). Descomponemos la tarea de razonamiento formal nativo en tres capacidades formales independientes: auto-formalización, bosquejo y demostración. Para facilitar estas capacidades, proponemos un Marco de Iteración de Expertos Híbridos para expandir trayectorias de tareas de alta calidad, que incluyen generar un enunciado formal a partir de un problema informal dado, producir una demostración completa directamente desde el enunciado o un bosquejo de tipo lema. Durante el RL agentivo, presentamos un algoritmo de Optimización de Políticas con Muestreo de Importancia Jerárquico (HisPO), que tiene como objetivo estabilizar el entrenamiento del modelo MoE en tareas de horizonte tan largo. Emplea una estrategia de enmascaramiento de gradientes que considera el desfase de la política y las discrepancias inherentes entre el motor de entrenamiento y el de inferencia, tanto a nivel de secuencia como de token. Adicionalmente, incorporamos mecanismos de detección de consistencia y legalidad de teoremas para eliminar problemas de hackeo de recompensas. Evaluaciones exhaustivas muestran que nuestro LongCat-Flash-Prover establece un nuevo estado del arte para modelos de pesos abiertos tanto en auto-formalización como en demostración de teoremas. Demostrando una eficiencia muestral notable, alcanza una tasa de aprobación del 97.1% en MiniF2F-Test utilizando solo un presupuesto de 72 inferencias por problema. En benchmarks más desafiantes, resuelve el 70.8% de ProverBench y el 41.5% de PutnamBench con no más de 220 intentos por problema, superando significativamente a las bases de referencia de pesos abiertos existentes.
La comprensión de videos largos sigue siendo un desafío para los modelos de lenguaje multimodal (MLLM) debido a las ventanas de contexto limitadas, lo que hace necesario identificar segmentos de video relevantes para la consulta de forma dispersa. Sin embargo, los métodos existentes localizan pistas predominantemente basándose únicamente en la consulta, pasando por alto la estructura intrínseca del video y la relevancia variable entre segmentos. Para abordar este problema, proponemos VideoDetective, un marco que integra la relevancia consulta-segmento y la afinidad inter-segmentos para una búsqueda efectiva de pistas en la respuesta a preguntas sobre videos largos. Específicamente, dividimos un video en varios segmentos y los representamos como un grafo de afinidad visual-temporal construido a partir de la similitud visual y la proximidad temporal. Luego, realizamos un ciclo de Hipótesis-Verificación-Mejora para estimar las puntuaciones de relevancia de los segmentos observados con respecto a la consulta y las propagamos a segmentos no vistos, obteniendo una distribución de relevancia global que guía la localización de los segmentos más críticos para la respuesta final con una observación dispersa. Los experimentos muestran que nuestro método logra ganancias sustanciales de forma consistente en una amplia gama de MLLM principales en benchmarks representativos, con mejoras en la precisión de hasta el 7.5% en VideoMME-long. Nuestro código está disponible en https://videodetective.github.io/
A pesar del notable éxito de los modelos de representación de imágenes preentrenados a gran escala (es decir, codificadores visuales) en diversas tareas de visión, estos se entrenan predominantemente con datos de imágenes 2D y, por lo tanto, a menudo no logran capturar las relaciones espaciales 3D entre objetos y fondos en el mundo real, lo que limita su eficacia en muchas aplicaciones posteriores. Para abordar esto, proponemos SpatialBoost, un marco escalable que mejora la conciencia espacial de los codificadores visuales preentrenados existentes mediante la inyección de conocimiento espacial 3D expresado en descripciones lingüísticas. La idea central consiste en convertir la información espacial 3D densa de imágenes 2D en expresiones lingüísticas, que luego se utiliza para inyectar dicho conocimiento espacial en los codificadores visuales a través de un Modelo de Lenguaje Grande (LLM). Para ello, adoptamos un proceso de razonamiento de Cadena de Pensamiento (CoT) de múltiples turnos que incorpora progresivamente conocimiento espacial denso y construye una comprensión espacial jerárquica. Para validar la eficacia, adaptamos SpatialBoost a codificadores visuales de vanguardia como DINOv3 y evaluamos sus mejoras de rendimiento en una amplia gama de benchmarks que requieren tanto percepción 3D como habilidades visuales generales. Por ejemplo, SpatialBoost mejora el rendimiento de DINOv3 de 55.9 a 59.7 mIoU en ADE20K, logrando un rendimiento de vanguardia con una ganancia del 3.8% sobre el DINOv3 preentrenado.
Si bien los avances recientes en espacios latentes generativos han impulsado un progreso sustancial en la generación de imágenes únicas, el espacio latente óptimo para la síntesis de nuevas vistas (NVS, por sus siglas en inglés) sigue estando en gran medida inexplorado. En particular, la NVS requiere una generación geométricamente consistente entre diferentes puntos de vista, pero los enfoques existentes suelen operar en un espacio latente VAE independiente de la vista. En este artículo, proponemos Geometric Latent Diffusion (GLD), un marco que readapta el espacio de características geométricamente consistente de los modelos fundacionales de geometría como espacio latente para la difusión multi-vista. Demostramos que estas características no solo permiten una reconstrucción RGB de alta fidelidad, sino que también codifican fuertes correspondencias geométricas cruzadas, proporcionando un espacio latente bien adaptado para la NVS. Nuestros experimentos demuestran que GLD supera tanto a VAE como a RAE en las métricas de calidad de imagen 2D y consistencia 3D, al mismo tiempo que acelera el entrenamiento en más de 4.4x en comparación con el espacio latente VAE. Cabe destacar que GLD se mantiene competitivo con los métodos de vanguardia que aprovechan el preentrenamiento a gran escala de texto a imagen, a pesar de entrenar su modelo de difusión desde cero sin dicho preentrenamiento generativo.
El entrenamiento actual de modelos de lenguaje comúnmente aplica el Ajuste Supervisado Multitarea (SFT) utilizando un presupuesto computacional homogéneo en todos los subconjuntos de datos. Este enfoque es fundamentalmente subóptimo: las dinámicas de aprendizaje heterogéneas provocan que las tareas de aprendizaje rápido se sobreajusten tempranamente mientras que las más lentas permanecen infraajustadas. Para abordar esto, presentamos mSFT, un algoritmo de búsqueda iterativo y consciente del sobreajuste para mezclas de datos multitarea. mSFT entrena el modelo en una mezcla activa, identifica y excluye el subconjunto de datos que se sobreajusta primero, y revierte al punto de control óptimo específico antes de continuar. Evaluaciones exhaustivas demuestran que mSFT supera consistentemente a 4 métodos de referencia en 10 benchmarks y 6 modelos base. Un análisis más profundo confirma que mSFT mantiene ganancias robustas en diversos tamaños de conjuntos de datos y granularidades de tareas, y es insensible a su único nuevo hiperparámetro (presupuesto computacional). Notablemente, con un presupuesto computacional bajo, mSFT puede mejorar el rendimiento mientras reduce los FLOPS de entrenamiento. En última instancia, mSFT establece un algoritmo práctico y consciente del sobreajuste para el SFT multitarea que maximiza el potencial de los modelos en diversas mezclas de datos.
Los métodos de Optimización de Políticas Relativas a Grupos (GRPO) para generación de vídeo, como FlowGRPO, siguen siendo mucho menos fiables que sus homólogos para modelos de lenguaje e imágenes. Esta brecha surge porque la generación de vídeo tiene un espacio de soluciones complejo, y la conversión de EDO a EDE utilizada para la exploración puede inyectar un exceso de ruido, lo que reduce la calidad de los rollouts y hace que las estimaciones de recompensa sean menos fiables, desestabilizando así la alineación posterior al entrenamiento. Para abordar este problema, consideramos que el modelo preentrenado define una variedad de datos de vídeo válida y formulamos el problema central como la restricción de la exploración dentro de la vecindad de esta variedad, garantizando que se preserve la calidad de los rollouts y que las estimaciones de recompensa sigan siendo fiables. Proponemos SAGE-GRPO (Alineación Estable mediante Exploración), que aplica restricciones tanto a nivel micro como macro. A nivel micro, derivamos una EDE precisa consciente de la variedad con una corrección logarítmica de la curvatura e introducimos un ecualizador de norma de gradiente para estabilizar el muestreo y las actualizaciones a lo largo de los pasos de tiempo. A nivel macro, utilizamos una región de confianza dual con un ancla móvil periódica y restricciones paso a paso para que la región de confianza rastree puntos de control más cercanos a la variedad y limite la deriva a largo plazo. Evaluamos SAGE-GRPO en HunyuanVideo1.5 utilizando el VideoAlign original como modelo de recompensa y observamos ganancias consistentes sobre métodos anteriores en las métricas VQ, MQ, TA y visuales (CLIPScore, PickScore), lo que demuestra un rendimiento superior tanto en la maximización de recompensas como en la calidad general del vídeo. El código y la galería visual están disponibles en https://dungeonmassster.github.io/SAGE-GRPO-Page/.
Los métodos de proyección de Gaussianos 3D de avance directo permiten la reconstrucción en una sola pasada y el renderizado en tiempo real. Sin embargo, normalmente adoptan pipelines rígidos de píxel-a-Gaussiano o vóxel-a-Gaussiano que asignan Gaussianos de manera uniforme, lo que genera Gaussianos redundantes entre vistas. Además, carecen de un mecanismo efectivo para controlar el número total de Gaussianos manteniendo la fidelidad de la reconstrucción. Para abordar estas limitaciones, presentamos F4Splat, que realiza una densificación predictiva de avance directo para la proyección de Gaussianos 3D de avance directo, introduciendo una estrategia de asignación guiada por puntuación de densificación que distribuye Gaussianos de forma adaptativa según la complejidad espacial y la superposición multivista. Nuestro modelo predice puntuaciones de densificación por región para estimar la densidad de Gaussianos requerida y permite un control explícito sobre el presupuesto final de Gaussianos sin necesidad de reentrenamiento. Esta asignación espacialmente adaptativa reduce la redundancia en regiones simples y minimiza los Gaussianos duplicados en vistas superpuestas, produciendo representaciones 3D compactas y de alta calidad. Experimentos exhaustivos demuestran que nuestro modelo logra un rendimiento superior en síntesis de vistas novedosas en comparación con métodos previos de avance directo no calibrados, utilizando significativamente menos Gaussianos.
La detección de objetos 3D de vocabulario abierto tiene como objetivo localizar y reconocer objetos más allá de una taxonomía de entrenamiento fija. En entornos multivista con RGB, los enfoques recientes a menudo desacoplan la construcción de instancias basada en geometría del etiquetado semántico, generando fragmentos agnósticos a la clase y asignando categorías de vocabulario abierto a posteriori. Aunque son flexibles, dicha desacoplamiento hace que la construcción de instancias se rija principalmente por la consistencia geométrica, sin restricciones semánticas durante la fusión. Cuando la evidencia geométrica es dependiente de la vista e incompleta, esta fusión basada únicamente en geometría puede conducir a errores de asociación irreversibles, incluyendo la fusión excesiva de objetos distintos o la fragmentación de una única instancia. Proponemos Group3D, un marco de detección 3D de vocabulario abierto multivista que integra restricciones semánticas directamente en el proceso de construcción de instancias. Group3D mantiene un vocabulario adaptativo a la escena derivado de un modelo de lenguaje grande multimodal (MLLM) y lo organiza en grupos de compatibilidad semántica que codifican equivalencias de categoría plausibles entre vistas. Estos grupos actúan como restricciones durante la fusión: los fragmentos 3D se asocian solo cuando satisfacen tanto la compatibilidad semántica como la consistencia geométrica. Esta fusión controlada semánticamente mitiga la fusión excesiva impulsada por la geometría, al tiempo que absorbe la variabilidad categorial multivista. Group3D admite configuraciones con poses conocidas y libres, dependiendo únicamente de observaciones RGB. Los experimentos en ScanNet y ARKitScenes demuestran que Group3D logra un rendimiento de vanguardia en detección 3D de vocabulario abierto multivista, mientras exhibe una fuerte generalización en escenarios de cero disparos. La página del proyecto está disponible en https://ubin108.github.io/Group3D/.
Mejorar el razonamiento incorporado en modelos lingüísticos multimodales de gran escala (MLLMs) es esencial para construir modelos de visión-lenguaje-acción (VLAs) sobre ellos, permitiendo traducir fácilmente la comprensión multimodal en acciones de bajo nivel. En consecuencia, trabajos recientes han explorado la mejora del razonamiento incorporado en MLLMs mediante supervisión del tipo pregunta-respuesta visual. Sin embargo, se ha reportado que estos enfoques resultan en un rendimiento inestable de los VLAs, a menudo produciendo solo mejoras marginales o incluso negativas. En este artículo, proponemos un marco de entrenamiento de MLLMs más sistemático llamado RoboAlign que mejora de manera confiable el rendimiento de los VLAs. Nuestra idea clave es muestrear tokens de acción mediante razonamiento de lenguaje natural de cero disparos y refinar este razonamiento utilizando aprendizaje por refuerzo (RL) para mejorar la precisión de las acciones. Como resultado, RoboAlign salva la brecha de modalidad entre el lenguaje y las acciones de bajo nivel en los MLLMs, y facilita la transferencia de conocimiento del MLLM al VLA. Para validar la efectividad de RoboAlign, entrenamos VLAs añadiendo un cabezal de acción basado en difusión sobre una arquitectura base de MLLM y los evaluamos en los principales puntos de referencia de robótica. Notablemente, al realizar la alineación basada en RL después de SFT utilizando menos del 1\% de los datos, RoboAlign logra mejoras de rendimiento del 17.5\%, 18.9\% y 106.6\% sobre las líneas base de SFT en los entornos LIBERO, CALVIN y del mundo real, respectivamente.
Los Modelos de Lenguaje Grandes (LLMs) exhiben alucinaciones en tareas intensivas en conocimiento. La generación aumentada por recuperación basada en grafos (RAG) ha surgido como una solución prometedora, sin embargo, los enfoques existentes adolecen de limitaciones fundamentales de exhaustividad (recall) y precisión cuando operan sobre grafos de conocimiento de caja negra (black-box) —grafos cuyo esquema y estructura se desconocen de antemano. Identificamos tres desafíos centrales que causan pérdida de exhaustividad (incertidumbre en la instanciación semántica e incertidumbre en la ruta estructural) y pérdida de precisión (incertidumbre en la comparación evidencial). Para abordar estos desafíos, formalizamos la tarea de recuperación como el problema de Recuperación del Subgrafo Informativo Óptimo (Optimal Informative Subgraph Retrieval, OISR) —una variante del Problema del Árbol de Steiner para Grupos— y demostramos que es NP-difícil y APX-difícil. Proponemos BubbleRAG, un pipeline que no requiere entrenamiento y que optimiza sistemáticamente tanto la exhaustividad como la precisión mediante agrupación de anclajes semánticos, expansión heurística en burbujas para descubrir grafos de evidencia candidatos (Candidate Evidence Graphs, CEGs), ranking compuesto y expansión consciente del razonamiento. Los experimentos en benchmarks de preguntas y respuestas de múltiples saltos (multi-hop QA) demuestran que BubbleRAG logra resultados de vanguardia, superando a líneas base sólidas tanto en F1 como en precisión (accuracy), manteniéndose además plug-and-play.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha mejorado sustancialmente las capacidades de razonamiento de los modelos de lenguaje grandes. Si bien los análisis existentes identifican que los cambios inducidos por RLVR son dispersos, se centran principalmente en la magnitud de estas actualizaciones, pasando en gran medida por alto su dirección. En este trabajo, argumentamos que la dirección de las actualizaciones es una perspectiva más crítica para comprender los efectos de RLVR, la cual puede capturarse mediante la diferencia de probabilidad logarítmica a nivel de token con signo, Δlog p, entre los modelos base y final de RLVR. Mediante análisis estadístico e intervenciones de reemplazo de tokens, demostramos que Δlog p identifica más eficazmente las actualizaciones dispersas pero críticas para el razonamiento que las métricas basadas en magnitud (por ejemplo, divergencia o entropía). Basándonos en esta idea, proponemos dos aplicaciones prácticas: (1) un método de extrapolación en tiempo de prueba que amplifica la política a lo largo de la dirección aprendida Δlog p para mejorar la precisión del razonamiento sin entrenamiento adicional; (2) un método de reponderación en tiempo de entrenamiento que centra el aprendizaje en tokens de baja probabilidad (que corresponden a un Δlog p más alto), lo que mejora el rendimiento del razonamiento en distintos modelos y benchmarks. Nuestro trabajo establece la dirección del cambio como un principio clave para analizar y mejorar RLVR.
El post-entrenamiento para tareas agentivas de horizonte largo presenta una tensión entre la eficiencia computacional y la generalización. Mientras que el ajuste fino supervisado (SFT) es eficiente computacionalmente, a menudo sufre de degradación fuera de dominio (OOD). Por el contrario, el aprendizaje por refuerzo de extremo a extremo (E2E RL) preserva las capacidades OOD, pero incurre en altos costes computacionales debido a las numerosas iteraciones de ejecución en línea. Presentamos PivotRL, un marco novedoso que opera sobre trayectorias SFT existentes para combinar la eficiencia computacional del SFT con la precisión OOD del E2E RL. PivotRL se basa en dos mecanismos clave: primero, ejecuta ejecuciones en línea locales y filtra los pivotes: turnos intermedios informativos donde las acciones muestreadas exhiben una alta varianza en los resultados; segundo, utiliza recompensas para acciones funcionalmente equivalentes en lugar de exigir una coincidencia estricta de cadenas con la demostración de datos del SFT. Demostramos teóricamente que estos mecanismos incentivan señales de aprendizaje sólidas con una alta norma de gradiente natural, mientras preservan al máximo el orden de probabilidad de la política en acciones no relacionadas con las tareas de entrenamiento. En comparación con el SFT estándar en datos idénticos, demostramos que PivotRL logra una precisión dentro del dominio un +4.17% mayor en promedio en cuatro dominios agentivos, y una precisión OOD un +10.04% mayor en tareas no agentivas. Notablemente, en tareas agentivas de programación, PivotRL logra una precisión competitiva con E2E RL con 4 veces menos iteraciones de ejecución. PivotRL es adoptado por el Nemotron-3-Super-120B-A12B de NVIDIA, actuando como el caballo de batalla en el post-entrenamiento agentivo a escala de producción.
Las técnicas existentes de optimización de indicaciones (prompts) se basan en señales locales para actualizar el comportamiento, descuidando a menudo patrones más amplios y recurrentes entre tareas, lo que conduce a una mala generalización; además, dependen de reescrituras completas del prompt o fusiones no estructuradas, lo que resulta en pérdida de conocimiento. Estas limitaciones se magnifican en los flujos de trabajo de investigación y codificación, que implican repositorios heterogéneos, entornos poco especificados y retroalimentación débil, donde la reproducción de resultados a partir de bases de código públicas es un régimen de evaluación establecido. Presentamos Reflective Evolving Research Engineer (REVERE), un marco de trabajo que aprende continuamente de un Contexto de Entrenamiento Global, reconoce modos de fallo recurrentes en las trayectorias de ejecución entre repositorios, los destila en heurísticas reutilizables y realiza ediciones específicas en tres campos configurables: el prompt del sistema, una plantilla de prompt de tarea y una hoja de referencia acumulativa. REVERE, a través de este marco de optimización reflexiva, mejora el rendimiento respecto a las instrucciones expertas artesanales previas más avanzadas en tareas de codificación de investigación en un 4.50% en SUPER, un 3.51% en ResearchCodeBench y un 4.89% en ScienceAgentBench según sus métricas respectivas. Estos resultados demuestran que los agentes equipados con mecanismos de aprendizaje continuo y consolidación de memoria global pueden evolucionar significativamente sus capacidades con el tiempo.
Los modelos que unen visión y lenguaje, como CLIP, son componentes clave de la IA multimodal, aunque sus datos de entrenamiento a gran escala y sin curar introducen graves sesgos sociales y espurios. Los métodos existentes de eliminación de sesgos *post-hoc* suelen operar directamente en el denso espacio de incrustaciones de CLIP, donde la información del sesgo y la relevante para la tarea están altamente entrelazadas. Este entrelazamiento limita su capacidad para eliminar el sesgo sin degradar la fidelidad semántica. En este trabajo, proponemos la Modulación de Incrustaciones Dispersas (SEM, por sus siglas en inglés), un marco de eliminación de sesgos *post-hoc* y de cero disparos que opera en el espacio latente de un Autoencoder Disperso (SAE). Al descomponer las incrustaciones de texto de CLIP en características disentrelazadas, SEM identifica y modula las neuronas relevantes para el sesgo mientras preserva las relevantes para la consulta. Esto permite intervenciones no lineales más precisas. En cuatro conjuntos de datos de referencia y dos arquitecturas base de CLIP, SEM logra ganancias sustanciales en equidad en recuperación y clasificación de cero disparos. Nuestros resultados demuestran que las representaciones latentes dispersas proporcionan una base efectiva para la eliminación de sesgos *post-hoc* en modelos de visión y lenguaje.
Los modelos generativos y los codificadores de visión han avanzado en gran medida por caminos separados, optimizados para objetivos diferentes y basados en principios matemáticos distintos. Sin embargo, comparten una propiedad fundamental: la Gaussianidad del espacio latente. Los modelos generativos mapean ruido gaussiano a imágenes, mientras que los codificadores mapean imágenes a incrustaciones semánticas cuyas coordenadas se comportan empíricamente como gaussianas. Nuestra hipótesis postula que ambos son visiones de una fuente latente compartida, la Incrustación Normal Universal (UNE, por sus siglas en inglés): un espacio latente aproximadamente gaussiano del cual surgen las incrustaciones del codificador y el ruido invertido por DDIM como proyecciones lineales ruidosas. Para probar nuestra hipótesis, presentamos NoiseZoo, un conjunto de datos de latentes por imagen que comprende ruido de difusión invertido por DDIM y representaciones coincidentes del codificador (CLIP, DINO). En CelebA, los sondeos lineales en ambos espacios producen predicciones de atributos sólidas y alineadas, lo que indica que el ruido generativo codifica semántica significativa a lo largo de direcciones lineales. Estas direcciones permiten además ediciones controladas y fieles (por ejemplo, sonrisa, género, edad) sin cambios arquitectónicos, donde una simple ortogonalización mitiga los enredos espurios. En conjunto, nuestros resultados proporcionan apoyo empírico a la hipótesis UNE y revelan una geometría latente gaussiana compartida que vincula concretamente la codificación y la generación. El código y los datos están disponibles en https://rbetser.github.io/UNE/.
La Adaptación de Bajo Rango con Descomposición de Peso (DoRA) extiende LoRA al desacoplar la magnitud del peso de su dirección, pero su paso hacia adelante requiere la norma por filas de W + sBA, un cálculo que todos los principales frameworks que estudiamos implementan materializando el producto denso [d_out, d_in] BA. Con d_in = 8192 y un rango r = 384, la norma de un solo módulo requiere aproximadamente 512 MB de memoria de trabajo transitoria en bf16, lo que hace que DoRA de alto rango sea costoso y a menudo inviable en configurasiones comunes de una sola GPU cuando se involucran cientos de módulos adaptados y checkpointing. Presentamos dos contribuciones de sistemas. Una norma factorizada descompone la norma al cuadrado en términos base, cruzados y de Gram calculables mediante intermediarios de O(d_out r + r^2), eliminando el producto denso. Kernels de Triton fusionados colapsan la composición de DoRA de cuatro kernels en una sola pasada, reduciendo el tráfico de memoria aproximadamente 4 veces y utilizando una forma numéricamente estable que evita la cancelación catastrófica en el régimen de reescalado cercano a la unidad, donde las escalas de magnitud se concentran en la práctica. En seis modelos de visión y lenguaje (VLM) de 8 a 32B probados en tres GPUs NVIDIA (RTX 6000 PRO, H200, B200) con r = 384 en bf16, la implementación fusionada es 1.5-2.0 veces más rápida que la implementación DoRA de Hugging Face PEFT para inferencia y 1.5-1.9 veces más rápida para el cálculo del gradiente (excluyendo el paso del optimizador), con un pico de VRAM hasta 7 GB menor. Los microbenchmarks en seis GPUs que abarcan cuatro generaciones de arquitecturas (L40S, A100, RTX 6000 PRO, H200, B200, B300) confirman una aceleración de 1.5-2.7 veces en el kernel de composición. La similitud del coseno en los logits finales supera 0.9999 en todos los pares modelo/GPU, y las curvas de entrenamiento multi-semilla coinciden dentro de un delta de pérdida medio por paso de 7.1 x 10^-4 a lo largo de 2000 pasos.
Los Modelos de Lenguaje Grandes (LLMs) han logrado una notable confiabilidad y capacidades avanzadas mediante el razonamiento extendido en tiempo de prueba. Sin embargo, extender estas capacidades a los Modelos Multimodales de Lenguaje Grande (MLLMs) sigue siendo un desafío significativo debido a una escasez crítica de datos de razonamiento de cadena larga de alta calidad y de pipelines de entrenamiento optimizados. Para cerrar esta brecha, presentamos un marco unificado de razonamiento visual multi-agente que evoluciona sistemáticamente desde nuestro modelo fundamental centrado en imágenes, Insight-V, hacia una arquitectura espacio-temporal generalizada, Insight-V++. Primero proponemos un pipeline escalable de generación de datos equipado con evaluación multi-granularidad que sintetiza de forma autónoma trayectorias de razonamiento complejas y estructuradas a través de dominios de imagen y video sin intervención humana. Reconociendo que supervisar directamente a los MLLMs con datos tan intrincados produce resultados subóptimos, diseñamos una arquitectura de doble agente que comprende un agente de razonamiento para ejecutar cadenas analíticas extensas, y un agente de resumen para evaluar críticamente y destilar los resultados finales. Si bien nuestro marco inicial utilizaba la Optimización de Preferencia Directa (DPO), su naturaleza *off-policy* limitaba fundamentalmente el potencial del aprendizaje por refuerzo. Para superar estas limitaciones, particularmente para la comprensión de video de horizonte largo, Insight-V++ introduce dos algoritmos novedosos, ST-GRPO y J-GRPO, que mejoran el razonamiento espacio-temporal y aumentan la robustez evaluativa. Crucialmente, al aprovechar la retroalimentación confiable del agente de resumen, guiamos un proceso iterativo de generación de trayectorias de razonamiento, reentrenando todo el sistema multi-agente en un ciclo continuo de auto-mejora. Experimentos exhaustivos en modelos base como LLaVA-NeXT y Qwen2.5-VL demuestran ganancias significativas de rendimiento en diversos benchmarks desafiantes de razonamiento para imagen y video, al mismo tiempo que se preservan capacidades sólidas en tareas tradicionales centradas en la percepción.
Presentamos Generalized Discrete Diffusion from Snapshots (GDDS), un marco unificado para modelado de difusión discreta que soporta procesos arbitrarios de adición de ruido sobre grandes espacios de estados discretos. Nuestra formulación engloba todos los enfoques existentes de difusión discreta, permitiendo al mismo tiempo una flexibilidad significativamente mayor en la elección de las dinámicas de corrupción. El proceso directo de adición de ruido se basa en la uniformización y permite una corrupción arbitraria rápida. Para el proceso inverso, derivamos un límite inferior de evidencia (ELBO) simple basado en latentes de instantáneas, en lugar de toda la trayectoria de ruido, que permite el entrenamiento eficiente de arquitecturas estándar de modelado generativo con una interpretación probabilística clara. Nuestros experimentos en tareas de generación discreta de vocabulario amplio sugieren que el marco propuesto supera a los métodos existentes de difusión discreta en términos de eficiencia de entrenamiento y calidad de generación, y supera por primera vez a los modelos autorregresivos a esta escala. Proporcionamos el código junto con una publicación de blog en la página del proyecto: https://oussamazekri.fr/gdds.
La "singularidad de la IA" a menudo se interpreta erróneamente como una mente monolítica y divina. La evolución sugiere un camino diferente: la inteligencia es fundamentalmente plural, social y relacional. Los avances recientes en IA agencial revelan que los modelos de razonamiento de vanguardia, como DeepSeek-R1, no mejoran simplemente "pensando más tiempo". En su lugar, simulan "sociedades internas de pensamiento", debates cognitivos espontáneos que argumentan, verifican y reconcilian para resolver tareas complejas. Además, estamos entrando en una era de centauros humano-IA: actores híbridos donde la agencia colectiva trasciende el control individual. Escalar esta inteligencia requiere pasar de la alineación diádica (RLHF) hacia una alineación institucional. Al diseñar protocolos digitales, modelados sobre organizaciones y mercados, podemos construir una infraestructura social de contrapesos y equilibrios. La próxima explosión de inteligencia no será un único cerebro de silicio, sino una sociedad combinatoria compleja que se especializa y expande como una ciudad. Ninguna mente es una isla.
El enrutamiento de consultas selecciona dinámicamente el modelo de lenguaje grande más apropiado de un conjunto de candidatos para cada consulta, optimizando el rendimiento mientras gestiona los costos. A medida que los conjuntos de modelos escalan para incluir docenas de modelos de vanguardia con diferencias de rendimiento mínimas, los enfoques existentes enfrentan desafíos significativos: las taxonomías de tareas definidas manualmente no pueden capturar distinciones de capacidades a nivel granular, mientras que los enrutadores monolíticos tienen dificultades para diferenciar variaciones sutiles en tareas diversas. Proponemos una arquitectura de enrutamiento en dos etapas que aborda estas limitaciones mediante la detección automática de tareas granulares y la estimación de calidad consciente del contexto de la tarea. Nuestra primera etapa emplea agrupamiento basado en grafos para descubrir tipos de tareas latentes y entrena un clasificador para asignar prompts a las tareas descubiertas. La segunda etapa utiliza una arquitectura de mezcla de expertos con cabezales de predicción específicos por tarea para estimaciones de calidad especializadas. Durante la inferencia, agregamos las predicciones de ambas etapas para equilibrar la estabilidad a nivel de tarea con la adaptabilidad específica por prompt. Evaluado en 10 benchmarks con 11 modelos de vanguardia, nuestro método supera consistentemente los baselines existentes y sobrepasa al modelo individual más fuerte, incurriendo en menos de la mitad de su costo.
La reutilización e invocación de código existente sigue siendo costosa y poco fiable, ya que la mayoría de las herramientas prácticas están integradas en repositorios de código heterogéneos y carecen de interfaces ejecutables estandarizadas. Aunque los modelos de lenguaje grandes (LLMs) y los marcos de invocación de herramientas basados en el Protocolo de Contexto de Modelo (MCP) permiten la ejecución de tareas en lenguaje natural, los enfoques actuales dependen en gran medida de la curación y estandarización manual de herramientas, lo que limita fundamentalmente la escalabilidad. En este artículo, proponemos ToolRosetta, un marco unificado que traduce automáticamente repositorios de código abierto y APIs en herramientas compatibles con MCP que pueden ser invocadas de manera fiable por LLMs. Dada una tarea del usuario, ToolRosetta planifica de forma autónoma cadenas de herramientas, identifica bases de código relevantes y las convierte en servicios MCP ejecutables, permitiendo la finalización de tareas de extremo a extremo con mínima intervención humana. Además, ToolRosetta incorpora una capa de inspección de seguridad para mitigar los riesgos inherentes a la ejecución de código arbitrario. Experimentos exhaustivos en diversos dominios científicos demuestran que ToolRosetta puede estandarizar automáticamente un gran número de herramientas de código abierto y reducir el esfuerzo humano requerido para la reproducción e implementación de código. Notablemente, al aprovechar de manera fluida herramientas de código abierto especializadas, los agentes potenciados por ToolRosetta mejoran consistentemente el rendimiento en la finalización de tareas en comparación con LLMs comerciales y sistemas de agentes existentes.
La Adaptación de Bajo Rango (LoRA) es la estrategia de ajuste fino por defecto para generar imágenes personalizadas a partir de modelos de difusión preentrenados. Elegir un rango (rank) adecuado es extremadamente crítico, ya que equilibra el rendimiento y el consumo de memoria, pero hoy en día esta decisión a menudo se deja al consenso de la comunidad, independientemente de la complejidad del sujeto a personalizar. La razón es evidente: el coste de seleccionar un buen rango para cada componente de LoRA es combinatorio, por lo que se opta por atajos prácticos como fijar el mismo rango para todos los componentes. En este artículo, damos un primer paso para superar este desafío. Inspirados por los métodos variacionales que aprenden un ancho adaptable de las redes neuronales, permitimos que los rangos de cada capa se adapten libremente durante el ajuste fino de un sujeto. Lo logramos imponiendo un orden de importancia en las posiciones del rango, fomentando efectivamente la creación de rangos más altos solo cuando son estrictamente necesarios. Cualitativa y cuantitativamente, nuestro enfoque, LoRA^2, logra un equilibrio competitivo entre DINO, CLIP-I y CLIP-T en 29 sujetos, mientras requiere mucha menos memoria y un rango más bajo que las versiones de LoRA con rangos altos. Código: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.
Los agentes de IA han demostrado una capacidad creciente para realizar tareas aisladas de ingeniería de software, como resolver incidencias en GitHub. Sin embargo, las tareas de horizonte largo que implican múltiples subtareas interdependientes siguen presentando desafíos tanto en precisión como en cumplimiento de plazos. Un enfoque natural para resolver estas tareas de manera oportuna es la colaboración asíncrona multiagente, donde varios agentes trabajan simultáneamente en diferentes partes de la tarea. No obstante, la aplicación efectiva de sistemas multiagente ha resultado sorprendentemente difícil: las ediciones concurrentes de múltiples agentes interfieren entre sí, las dependencias son difíciles de sincronizar y consolidar el progreso parcial en un conjunto coherente representa un reto. Por otro lado, los desarrolladores humanos han dependido durante mucho tiempo de infraestructuras de colaboración maduras para gestionar estos desafíos en grandes proyectos de software. Inspirados por estas primitivas de colaboración, presentamos la Delegación Aislada Asíncrona Centralizada (CAID), un paradigma estructurado de coordinación multiagente basado en tres primitivas fundamentales de ingeniería de software: delegación centralizada de tareas, ejecución asíncrona y espacios de trabajo aislados. CAID construye planes de tareas conscientes de las dependencias mediante un gestor central, ejecuta subtareas concurrentemente en espacios aislados y consolida el progreso mediante una integración estructurada con verificación ejecutable basada en pruebas. En evaluaciones empíricas, encontramos que CAID mejora la precisión en un 26.7% absoluto respecto a líneas base de agente único en tareas de reproducción de artículos (PaperBench) y un 14.3% en tareas de desarrollo de bibliotecas Python (Commit0). Mediante análisis sistemático, determinamos que la ramificación y fusión (branch-and-merge) constituye un mecanismo central de coordinación para la colaboración multiagente, y que primitivas de ingeniería de software como git worktree, git commit y git merge permiten implementarlo de manera confiable y ejecutable.
Los Grandes Modelos de Lenguaje y Visión (LVLM) sobresalen en comprensión semántica pero presentan dificultades en la fundamentación espacial de grano fino, ya que el modelo debe inferir implícitamente geometrías complejas sin producir nunca una interpretación espacial. Presentamos Perceptio, un LVLM mejorado con capacidades de razonamiento espacial 2D y 3D, habilitadas mediante tokens de segmentación semántica y tokens de profundidad generados directamente dentro de la secuencia autoregresiva. Concretamente, (i) destilamos un codebook de profundidad VQ-VAE a partir de un sólido profesor monocular para tokenizar la profundidad densa en secuencias compactas, e (ii) integramos tokens de segmentación semántica basados en SAM2 y tokens de profundidad VQ-VAE dentro del LLM, de modo que el modelo primero emite tokens espaciales y luego responde. Para estabilizar la generación de tokens de profundidad, introducimos nuevos objetivos compuestos para tokens de profundidad (pérdidas de marcador, token y conteo) y una técnica de fusión suave para la reconstrucción diferenciable. Adoptamos una estrategia de entrenamiento conjunto multi-tarea en diversos conjuntos de datos, permitiendo que el modelo aprenda tokens de percepción para abordar múltiples tareas posteriores. Basado en InternVL, Perceptio logra un rendimiento de vanguardia en diversos benchmarks: mejora la segmentación por expresión referencial en +0.8/+1.4/+1.1 cIoU en RefCOCO/+/g, aumenta la precisión en comprensión espacial de HardBLINK en un 10.3% y la precisión de MMBench en un 1.0%, demostrando que una cadena de pensamiento espacial explícita fortalece materialmente la fundamentación espacial en los LVLM.
Los Transformadores de Difusión (DiTs) impulsan modelos de video de alta fidelidad, pero siguen siendo computacionalmente costosos debido a la eliminación secuencial de ruido y a la costosa atención espacio-temporal. El almacenamiento en caché de características sin necesidad de entrenamiento acelera la inferencia mediante la reutilización de activaciones intermedias en los pasos de desruido; sin embargo, los métodos existentes se basan en gran medida en una suposición de Mantenimiento de Orden Cero, es decir, reutilizar las características en caché como instantáneas estáticas cuando la deriva global es pequeña. Esto a menudo genera artefactos de fantasmas, desenfoque e inconsistencias de movimiento en escenas dinámicas. Proponemos WorldCache, un marco de Almacenamiento en Caché Dinámico con Restricciones de Percepción que mejora tanto cuándo como cómo reutilizar las características. WorldCache introduce umbrales adaptativos al movimiento, estimación de deriva ponderada por prominencia, aproximación óptima mediante fusión y deformación, y programación de umbrales consciente de la fase a lo largo de los pasos de difusión. Nuestro enfoque cohesivo permite una reutilización de características adaptativa y consistente con el movimiento sin necesidad de reentrenamiento. En Cosmos-Predict2.5-2B evaluado en PAI-Bench, WorldCache logra una aceleración de la inferencia de 2.3 veces mientras preserva el 99.4% de la calidad de la línea base, superando sustancialmente a los enfoques de almacenamiento en caché previos sin entrenamiento. Nuestro código puede consultarse en https://umair1221.github.io/World-Cache/{World-Cache}.
El aprendizaje por refuerzo seguro sin conexión (RL) busca políticas que maximicen la recompensa a partir de conjuntos de datos estáticos bajo estrictas restricciones de seguridad. Los métodos existentes a menudo dependen de objetivos de coste esperado suavizados o de inferencia generativa iterativa, lo que puede ser insuficiente para el control en tiempo real crítico para la seguridad. Proponemos Safe Flow Q-Learning (SafeFQL), que extiende FQL al RL seguro sin conexión combinando una función de valor de seguridad inspirada en la alcanzabilidad de Hamilton-Jacobi con una política de flujo eficiente de un solo paso. SafeFQL aprende el valor de seguridad mediante una recursión de Bellman de auto-consistencia, entrena una política de flujo mediante clonación del comportamiento y la destila en un actor de un solo paso para la selección de acciones seguras que maximizan la recompensa sin necesidad de muestreo por rechazo durante el despliegue. Para tener en cuenta el error de aproximación de datos finitos en el límite de seguridad aprendido, añadimos un paso de calibración por predicción conformada que ajusta el umbral de seguridad y proporciona una cobertura de seguridad probabilística para muestras finitas. Empíricamente, SafeFLOG intercambia un coste de entrenamiento sin conexión modestamente mayor por una latencia de inferencia sustancialmente menor en comparación con los métodos base generativos seguros de tipo difusión, lo que es ventajoso para el despliegue en tiempo real crítico para la seguridad. En tareas de navegación de barcos y Safety Gymnasium MuJoCo, SafeFLOG iguala o supera el rendimiento previo del RL seguro sin conexión mientras reduce sustancialmente las violaciones de las restricciones.
Las vocalizaciones animales proporcionan información crucial para la evaluación de la vida silvestre, especialmente en entornos complejos como los bosques, facilitando la identificación de especies y el monitoreo ecológico. Los recientes avances en el aprendizaje profundo han permitido la clasificación automática de especies a partir de sus vocalizaciones. Sin embargo, clasificar especies no vistas durante el entrenamiento sigue siendo un desafío. Para abordar esta limitación, presentamos AnimalCLAP, un marco de trabajo lenguaje-audio consciente de la taxonomía que comprende un nuevo conjunto de datos y un modelo que incorpora información biológica jerárquica. Específicamente, nuestro conjunto de datos de vocalizaciones consiste en 4.225 horas de grabaciones que cubren 6.823 especies, anotadas con 22 rasgos ecológicos. El modelo AnimalCLAP se entrena en este conjunto de datos para alinear las representaciones de audio y texto utilizando estructuras taxonómicas, mejorando el reconocimiento de especies no vistas. Demostramos que nuestro modelo propuesto infiere efectivamente los atributos ecológicos y biológicos de las especies directamente a partir de sus vocalizaciones, logrando un rendimiento superior en comparación con CLAP. Nuestro conjunto de datos, código y modelos estarán disponibles públicamente en https://dahlian00.github.io/AnimalCLAP_Page/.
Los modelos de mundo aprenden a predecir estados futuros de un entorno, permitiendo la planificación y la simulación mental. Los enfoques actuales recurren por defecto a predictores basados en Transformadores que operan en espacios latentes aprendidos. Esto tiene un costo: computación O(N²) y la ausencia de un sesgo inductivo espacial explícito. Este artículo plantea una pregunta fundamental: ¿es la autoatención necesaria para el modelado predictivo de mundo, o pueden otros sustratos computacionales lograr resultados comparables o superiores? Presento FluidWorld, un modelo de mundo de prueba de concepto cuyas dinámicas predictivas se rigen por ecuaciones diferenciales parciales (EDP) de tipo reacción-difusión. En lugar de utilizar un predictor de red neuronal separado, la integración de la EDP en sí produce la predicción del estado futuro. En una ablación triple estrictamente equiparada en parámetros para la predicción incondicional de video UCF-101 (64x64, ~800K parámetros, codificador, decodificador, pérdidas y datos idénticos), FluidWorld se compara con una línea de base de Transformer (autoatención) y una línea de base de ConvLSTM (recurrencia convolucional). Si bien los tres modelos convergen a una pérdida de predicción de un paso comparable, FluidWorld logra un error de reconstrucción 2 veces menor, produce representaciones con una preservación de la estructura espacial entre un 10 y un 15% mayor y una dimensionalidad efectiva entre un 18 y un 25% superior, y, críticamente, mantiene desenrollos multi-paso coherentes donde ambas líneas de base se degradan rápidamente. Todos los experimentos se realizaron en un único PC de consumo (Intel Core i5, NVIDIA RTX 4070 Ti), sin ningún tipo de computación a gran escala. Estos resultados establecen que las dinámicas basadas en EDP, que proporcionan de forma nativa una complejidad espacial O(N), computación adaptativa y coherencia espacial global mediante difusión, son una alternativa viable y eficiente en parámetros tanto a la atención como a la recurrencia convolucional para el modelado de mundo.
Los Modelos de Lenguaje de Difusión (DLM) ofrecen ventajas atractivas frente a los modelos Auto-Regresivos (AR), como la decodificación paralela con atención completa y una generación flexible. Sin embargo, adolecen de una notable discrepancia entre el entrenamiento y la inferencia: los DLM se entrenan con un objetivo estático de predicción enmascarada en un solo paso, pero se despliegan a través de una trayectoria de desruido progresivo de múltiples pasos. Proponemos MemDLM (DLM Mejorado con Memoria), que reduce esta brecha incrustando un proceso de desruido simulado en el entrenamiento mediante Optimización Bi-nivel. Un bucle interno actualiza un conjunto de pesos rápidos, formando una Memoria Paramétrica que captura la experiencia de la trayectoria local de cada muestra, mientras que un bucle externo actualiza el modelo base condicionado por esta memoria. Al descargar la presión de memorización de las representaciones de tokens a los parámetros, MemDLM logra una convergencia más rápida y una pérdida de entrenamiento menor. Además, el bucle interno puede reactivarse en el momento de la inferencia como un paso de adaptación, generando ganancias adicionales en la comprensión de contexto largo. Encontramos que, cuando se activa durante la inferencia, esta Memoria Paramétrica actúa como un mecanismo emergente de recuperación en los pesos, ayudando a MemDLM a reducir aún más los cuellos de botella de atención a nivel de token en tareas de recuperación desafiantes tipo "Aguja en un Pajar". Código: https://github.com/JarvisPei/MemDLM.
Los recientes avances en tecnologías de conversión de texto a voz permiten generar habla sintética de alta fidelidad casi indistinguible de las voces humanas reales. Si bien estudios recientes demuestran la eficacia de los codificadores de voz basados en aprendizaje auto-supervisado para la detección de deepfakes, estos modelos presentan dificultades para generalizar entre locutores no vistos. Nuestro análisis cuantitativo sugiere que estas representaciones del codificador están sustancialmente influenciadas por información del locutor, haciendo que los detectores exploten correlaciones específicas del hablante en lugar de claves relacionadas con artefactos. Denominamos a este fenómeno entrelazamiento del locutor. Para mitigar esta dependencia, presentamos SNAP, un marco de trabajo de anulación del locutor. Estimamos un subespacio del locutor y aplicamos proyección ortogonal para suprimir los componentes dependientes del hablante, aislando los artefactos de síntesis en las características residuales. Al reducir el entrelazamiento del locutor, SNAP incentiva a los detectores a centrarse en patrones relacionados con artefactos, logrando un rendimiento de vanguardia.
Las redes neuronales profundas (DNN) han logrado un éxito notable en visión por computadora, pero siguen siendo altamente vulnerables a los ataques adversarios. Entre ellos, los ataques de camuflaje manipulan la apariencia visible de un objeto para engañar a los detectores mientras permanecen imperceptibles para los humanos. En este artículo, proponemos un nuevo marco que formula los ataques de camuflaje de vehículos como un problema de edición de imágenes condicional. Específicamente, exploramos estrategias de generación de camuflaje a nivel de imagen y a nivel de escena, y ajustamos un ControlNet para sintetizar vehículos camuflados directamente en imágenes reales. Diseñamos un objetivo unificado que aplica conjuntamente fidelidad estructural del vehículo, consistencia de estilo y efectividad adversarial. Experimentos exhaustivos en los conjuntos de datos COCO y LINZ muestran que nuestro método logra una efectividad de ataque significativamente mayor, provocando una disminución de más del 38% en AP50, mientras preserva mejor la estructura del vehículo y mejora la imperceptibilidad percibida por humanos en comparación con enfoques existentes. Además, nuestro marco se generaliza efectivamente a detectores de caja negra no vistos y exhibe una transferibilidad prometedora al mundo físico. La página del proyecto está disponible en https://humansensinglab.github.io/CtrlCamo.
La navegación audiovisual permite a los agentes corporizados navegar hacia objetivos que emiten sonido aprovechando tanto las señales auditivas como las visuales. Sin embargo, la mayoría de los enfoques existentes dependen de respuestas impulsivas de sala (RIR) precalculadas para la renderización de audio binaural, lo que restringe a los agentes a posiciones discretas en una cuadrícula y genera observaciones espacialmente discontinuas. Para establecer un entorno más realista, presentamos la Navegación Semántica Audiovisual en Entornos Continuos (SAVN-CE), donde los agentes pueden moverse libremente en espacios 3D y percibir flujos audiovisuales temporal y espacialmente coherentes. En este entorno, los objetivos pueden volverse intermitentemente silenciosos o dejar de emitir sonido por completo, haciendo que los agentes pierdan la información del objetivo. Para abordar este desafío, proponemos MAGNet, un modelo basado en transformadores multimodales que codifica conjuntamente las representaciones espaciales y semánticas del objetivo e integra el contexto histórico con las señales de auto-movimiento para permitir un razonamiento del objetivo aumentado por memoria. Experimentos exhaustivos demuestran que MAGNet supera significativamente a los métodos de vanguardia, logrando una mejora absoluta de hasta el 12.1% en la tasa de éxito. Estos resultados también destacan su robustez frente a sonidos de corta duración y escenarios de navegación a larga distancia. El código está disponible en https://github.com/yichenzeng24/SAVN-CE.
El Aprendizaje por Refuerzo (RL) es fundamental para transformar los Modelos de Lenguaje a Gran Escala (LLMs) en agentes autónomos capaces de planificación de largo horizonte, sin embargo, una receta práctica para escalar RL en entornos complejos y de múltiples turnos sigue siendo esquiva. Este artículo presenta un estudio empírico sistemático utilizando TravelPlanner, un banco de pruebas desafiante que requiere la orquestación de herramientas para satisfacer restricciones multifacéticas. Descomponemos el espacio de diseño de RL agéntico en 5 ejes: configuración de recompensas, escalado de modelos, composición de datos, selección de algoritmos y estabilidad ambiental. Nuestros experimentos controlados arrojan 7 conclusiones clave, por ejemplo: (1) las elecciones de recompensa y algoritmo dependen de la escala, ya que los modelos más pequeños se benefician de recompensas escalonadas y una exploración mejorada, mientras que los modelos más grandes convergen eficientemente con recompensas densas más simples, (2) ~1,000 muestras de entrenamiento con una mezcla equilibrada de dificultad marcan un punto óptimo tanto para el rendimiento dentro del dominio como fuera de él, y (3) la estabilidad ambiental es crítica para prevenir la degradación de la política. Basándonos en nuestra receta destilada, nuestros modelos entrenados con RL logran un rendimiento de vanguardia en TravelPlanner, superando significativamente a los principales LLMs.
La clonación de comportamiento es un paradigma fundamental en el aprendizaje automático, que permite el aprendizaje de políticas a partir de demostraciones de expertos en robótica, conducción autónoma y modelos generativos. Los modelos autorregresivos como el transformador han demostrado ser extraordinariamente efectivos, desde los grandes modelos de lenguaje (LLM) hasta los sistemas de visión-lenguaje-acción (VLA). Sin embargo, aplicar modelos autorregresivos al control continuo requiere discretizar las acciones mediante cuantización, una práctica ampliamente adoptada pero poco comprendida teóricamente. Este artículo proporciona los fundamentos teóricos para esta práctica. Analizamos cómo el error de cuantización se propaga a lo largo del horizonte e interactúa con la complejidad muestral estadística. Demostramos que la clonación de comportamiento con acciones cuantizadas y pérdida logarítmica alcanza una complejidad muestral óptima, igualando las cotas inferiores existentes, e incurre únicamente en una dependencia polinomial del horizonte respecto al error de cuantización, siempre que la dinámica sea estable y la política satisfaga una condición de suavidad probabilística. Además, caracterizamos cuándo diferentes esquemas de cuantización satisfacen o violan estos requisitos, y proponemos una aumentación basada en modelos que mejora demostrablemente la cota de error sin requerir suavidad en la política. Finalmente, establecemos límites fundamentales que capturan conjuntamente los efectos del error de cuantización y la complejidad estadística.
Estudiamos si una jerarquía aperiódica puede ofrecer una ventaja estructural para la compresión sin pérdidas frente a alternativas periódicas. Demostramos que los teselados de cuasicristales de Fibonacci evitan el colapso de profundidad finita que afecta a las jerarquías periódicas: las posiciones utilizables de búsqueda de n-gramas permanecen distintas de cero en cada nivel, mientras que los teselados periódicos colapsan después de O(log p) niveles para un período p. Esto produce una ventaja de la jerarquía aperiódica: la reutilización del diccionario permanece disponible en todas las escalas en lugar de desaparecer más allá de una profundidad finita. Nuestro análisis arroja cuatro consecuencias principales. Primero, la propiedad de Compensación Áurea muestra que la decadencia exponencial en el número de posiciones se compensa exactamente con el crecimiento exponencial en la longitud de frase, por lo que la cobertura potencial permanece invariante en escala con un valor asintótico de Wvarphi/5. Segundo, usando la ley de complejidad estúrmica p(n)=n+1, demostramos que las jerarquías Fibonacci/Estúrmicas maximizan la eficiencia de cobertura del libro de códigos entre los teselados aperiódicos binarios. Tercero, bajo dependencia de largo alcance, la jerarquía resultante logra una entropía de codificación menor que las jerarquías periódicas comparables. Cuarto, la redundancia decae de manera superexponencial con la profundidad, mientras que los sistemas periódicos permanecen bloqueados en la profundidad donde ocurre el colapso. Validamos estos resultados con Quasicryth, un compresor de texto sin pérdidas construido sobre una jerarquía de Fibonacci de diez niveles con longitudes de frase {2,3,5,8,13,21,34,55,89,144}. En experimentos controlados A/B con libros de códigos idénticos, la ventaja aperiódica sobre una línea base de Período-5 crece de 36{,}243 B a 3 MB a 11{,}089{,}469 B a 1 GB, explicado por la activación de niveles más profundos de la jerarquía. En enwik9, Quasicryth logra 225{,}918{,}349 B (22.59%), ahorrando 20{,}735{,}733 B gracias al teselado de Fibonacci en comparación con no usar teselado.
Los sistemas de diálogo basados en conocimiento tienen como objetivo generar respuestas informativas y contextualmente relevantes condicionándolas a fuentes de conocimiento externas. Sin embargo, la mayoría de los enfoques existentes se centran exclusivamente en el inglés, carecen de mecanismos explícitos de citación para verificar afirmaciones factuales y ofrecen una transparencia limitada en la toma de decisiones del modelo. Presentamos XKD-Dial, una canalización de entrenamiento progresiva de cuatro etapas para la generación de diálogo explicable y basado en conocimiento en un entorno bilingüe (inglés-hindi), que comprende: (1) adaptación multilingüe, (2) SFT de diálogo en inglés con fundamentación de citas, (3) SFT de diálogo bilingüe, y (4) alineación GRPO con recompensas conscientes de las citas. Evaluamos seis modelos que abarcan arquitecturas codificador-decodificador (250M-3B) y solo-decodificador (1B-7B) en cada etapa de la canalización. Nuestras contribuciones clave son: (i) tres análisis de explicabilidad *post-hoc* -alineación de atención cruzada, atribución de Gradientes Integrados y fundamentación causal basada en oclusión- aplicados sistemáticamente a lo largo de la trayectoria de entrenamiento para revelar *cómo* se aprende el comportamiento de citación, no solo *si* se aprende; (ii) el SFT con citas reduce la alucinación al 0.0% para los modelos codificador-decodificador desde la Etapa 2 en adelante; (iii) la canalización progresiva previene el olvido catastrófico mientras mejora las capacidades en hindi; (iv) los modelos más pequeños igualan el rendimiento de los modelos más grandes en inglés después del SFT; y (v) GRPO proporciona una mejora marginal sobre un SFT bien diseñado para tareas de citación estructurada. Evaluamos utilizando seis métricas automáticas (BLEU, ROUGE, BERTScore, FactScore, Citation-F1 y tasa de alucinación).
Este trabajo presenta AdditiveLLM2, un modelo de lenguaje grande multimodal y adaptado al dominio, construido a partir de la variante ajustada por instrucciones del modelo Gemma 3 utilizando un conjunto de datos relativamente pequeño de alrededor de 50 millones de tokens. El conjunto de datos (AdditiveLLM2-OA) consiste en artículos de revistas de acceso abierto sobre fabricación aditiva, con datos extraídos para los procesos de preentrenamiento adaptativo al dominio y ajuste fino por instrucciones visuales. Se evalúan varias etapas del modelo desarrollado con el Additive-Manufacturing-Benchmark, que consta de tareas específicas del dominio de la fabricación aditiva compiladas a partir de recursos publicados. AdditiveLLM2 demuestra competencia tanto en tareas basadas en lenguaje como en visión, alcanzando precisiones superiores al 90% en conocimiento general de fabricación aditiva. Esta estrategia de preentrenamiento adaptativo al dominio y ajuste por instrucciones describe un método de especialización accesible para modelos de lenguaje grandes en un dominio como la fabricación aditiva.