Artículos de investigación en IA seleccionados diariamente con traducciones
Los rápidos avances en los modelos de video se han centrado principalmente en la calidad visual, dejando sus capacidades de razonamiento poco exploradas. El razonamiento en video fundamenta la inteligencia en entornos visuales espaciotemporalmente consistentes que van más allá de lo que el texto puede capturar de forma natural, permitiendo un razonamiento intuitivo sobre la estructura espacio-temporal, como la continuidad, la interacción y la causalidad. Sin embargo, el estudio sistemático del razonamiento en video y su comportamiento de escalabilidad se ve obstaculizado por la falta de datos de entrenamiento a gran escala. Para abordar esta brecha, presentamos el Conjunto de Datos de Razonamiento en Video Muy Grande (VBVR), un recurso de escala sin precedentes que abarca 200 tareas de razonamiento curadas siguiendo una taxonomía fundamentada y más de un millón de clips de video, aproximadamente tres órdenes de magnitud más grande que los conjuntos de datos existentes. Además, presentamos VBVR-Bench, un marco de evaluación verificable que va más allá de la evaluación basada en modelos al incorporar calificadores basados en reglas y alineados con criterios humanos, permitiendo un diagnóstico reproducible e interpretable de las capacidades de razonamiento en video. Aprovechando el conjunto VBVR, realizamos uno de los primeros estudios de escalabilidad a gran escala sobre el razonamiento en video y observamos signos tempranos de generalización emergente hacia tareas de razonamiento no vistas. En conjunto, VBVR sienta las bases para la siguiente etapa de investigación en el razonamiento en video generalizable. Los datos, el kit de herramientas de evaluación comparativa y los modelos están disponibles públicamente en https://video-reason.com/.
Los sistemas de IA compuestos prometen capacidades que superan a las de los modelos individuales, pero su éxito depende críticamente de una orquestación efectiva. Los enfoques de enrutamiento existentes presentan dos limitaciones: (1) los enrutadores a nivel de entrada toman decisiones toscas a nivel de consulta que ignoran los requisitos evolutivos de la tarea; (2) los orquestadores entrenados con RL son costosos de adaptar y a menudo sufren de colapso del enrutamiento, invocando repetidamente una opción potente pero costosa en escenarios de múltiples turnos. Presentamos SkillOrchestra, un marco para la orquestación consciente de habilidades. En lugar de aprender directamente una política de enrutamiento de extremo a extremo, SkillOrchestra aprende habilidades granulares a partir de la experiencia de ejecución y modela la competencia y el costo específicos del agente bajo dichas habilidades. En el despliegue, el orquestador infiere las demandas de habilidad de la interacción actual y selecciona a los agentes que mejor las satisfacen bajo una compensación explícita entre rendimiento y costo. Experimentos exhaustivos en diez puntos de referencia demuestran que SkillOrchestra supera a los orquestadores basados en RL de última generación hasta en un 22.5%, con una reducción del costo de aprendizaje de 700x y 300x en comparación con Router-R1 y ToolOrchestra, respectivamente. Estos resultados muestran que el modelado explícito de habilidades permite una orquestación escalable, interpretable y eficiente en muestras, ofreciendo una alternativa fundamentada a los enfoques intensivos en datos basados en RL. El código está disponible en: https://github.com/jiayuww/SkillOrchestra.
Tras el auge de los grandes modelos fundacionales, surgieron los modelos Visión-Lenguaje-Acción (VLA), que aprovechan la sólida comprensión visual y lingüística para el aprendizaje de políticas de propósito general. Sin embargo, el panorama actual de los VLA sigue siendo fragmentado y exploratorio. Aunque muchos grupos han propuesto sus propios modelos VLA, las inconsistencias en los protocolos de entrenamiento y las configuraciones de evaluación dificultan identificar qué decisiones de diseño son realmente cruciales. Para aportar estructura a este espacio en evolución, reexaminamos el espacio de diseño de los VLA bajo un marco unificado y una configuración de evaluación común. Partiendo de una línea base VLA simple similar a RT-2 y OpenVLA, diseccionamos sistemáticamente las decisiones de diseño en tres dimensiones: componentes fundamentales, elementos esenciales de percepción y perspectivas de modelado de acciones. De este estudio, extraemos 12 hallazgos clave que, en conjunto, constituyen una receta práctica para construir modelos VLA robustos. El resultado de esta exploración es un modelo simple pero efectivo, VLANeXt. VLANeXt supera a los métodos previos del estado del arte en los benchmarks LIBERO y LIBERO-plus y demuestra una fuerte generalización en experimentos del mundo real. Liberaremos una base de código unificada y fácil de usar que sirva como plataforma común para que la comunidad reproduzca nuestros hallazgos, explore el espacio de diseño y construya nuevas variantes de VLA sobre una base compartida.
Reportamos un estudio exploratorio de pruebas de intrusión (red-teaming) con agentes autónomos impulsados por modelos de lenguaje desplegados en un entorno de laboratorio en vivo con memoria persistente, cuentas de correo electrónico, acceso a Discord, sistemas de archivos y ejecución de shell. Durante un período de dos semanas, veinte investigadores en IA interactuaron con los agentes bajo condiciones benignas y adversarias. Centrándonos en las fallas que surgen de la integración de modelos de lenguaje con autonomía, uso de herramientas y comunicación multipartidista, documentamos once casos de estudio representativos. Los comportamientos observados incluyen: cumplimiento no autorizado con no propietarios, divulgación de información sensible, ejecución de acciones destructivas a nivel del sistema, condiciones de denegación de servicio, consumo descontrolado de recursos, vulnerabilidades de suplantación de identidad, propagación de prácticas inseguras entre agentes y toma de control parcial del sistema. En varios casos, los agentes reportaron la finalización de tareas mientras que el estado subyacente del sistema contradecía dichos informes. También informamos sobre algunos de los intentos fallidos. Nuestros hallazgos establecen la existencia de vulnerabilidades relevantes para la seguridad, privacidad y gobernanza en entornos de despliegue realistas. Estos comportamientos plantean interrogantes no resueltos sobre la rendición de cuentas, la autoridad delegada y la responsabilidad por daños posteriores, y merecen atención urgente por parte de juristas, responsables políticos e investigadores de diversas disciplinas. Este informe sirve como una contribución empírica inicial a esa conversación más amplia.
La recomendación secuencial emplea cada vez más el razonamiento latente de múltiples pasos para mejorar la computación en tiempo de prueba. A pesar de las ganancias empíricas, los enfoques existentes impulsan en gran medida los estados de razonamiento intermedios mediante objetivos dominados por el objetivo, sin imponer restricciones explícitas de viabilidad. Esto resulta en una deriva latente, donde las trayectorias de razonamiento se desvían hacia regiones implausibles. Sostenemos que el razonamiento efectivo para la recomendación debería verse en cambio como una navegación en una variedad colaborativa, en lugar de un refinamiento latente de forma libre. Con este fin, proponemos ManCAR (Razonamiento Adaptativo con Restricciones de Variedad), un marco fundamentado que ancla el razonamiento dentro de la topología de un grafo de interacción global. ManCAR construye un previo de intención local a partir del vecindario colaborativo de las acciones recientes de un usuario, representado como una distribución sobre el símplex de ítems. Durante el entrenamiento, el modelo alinea progresivamente su distribución predictiva latente con este previo, forzando a que la trayectoria de razonamiento permanezca dentro de la variedad válida. En tiempo de prueba, el razonamiento procede de manera adaptativa hasta que la distribución predictiva se estabiliza, evitando el sobre-refinamiento. Proporcionamos una interpretación variacional de ManCAR para validar teóricamente sus mecanismos de prevención de deriva y parada adaptativa en tiempo de prueba. Los experimentos en siete puntos de referencia demuestran que ManCAR supera consistentemente a los baselines de última generación, logrando una mejora relativa de hasta el 46.88% con respecto a NDCG@10. Nuestro código está disponible en https://github.com/FuCongResearchSquad/ManCAR.
Si bien los modelos Visión-Lenguaje-Acción (VLA) han experimentado un rápido progreso en el preentrenamiento, su avance en el Aprendizaje por Refuerzo (RL) sigue estando obstaculizado por la baja eficiencia muestral y las recompensas dispersas en entornos del mundo real. El desarrollo de modelos de recompensa de proceso generalizables es esencial para proporcionar la retroalimentación detallada necesaria para cerrar esta brecha; sin embargo, las funciones de valor temporal existentes a menudo no logran generalizar más allá de sus dominios de entrenamiento. Presentamos TOPReward, una novedosa función de valor temporal con base probabilística que aprovecha el conocimiento mundial latente de los modelos de visión y lenguaje (VLM) preentrenados en video para estimar el progreso de tareas robóticas. A diferencia de métodos anteriores que solicitan a los VLM que generen valores de progreso directamente, lo cual es propenso a errores de representación numérica, TOPReward extrae el progreso de la tarea directamente de los logits internos de los tokens del VLM. En evaluaciones zero-shot en más de 130 tareas distintas del mundo real y múltiples plataformas robóticas (por ejemplo, Franka, YAM, SO-100/101), TOPReward alcanza una Correlación de Orden-Valor (VOC) media de 0.947 en Qwen3-VL, superando drásticamente el estado del arte del baseline GVL, que logra una correlación cercana a cero en el mismo modelo de código abierto. Además, demostramos que TOPReward sirve como una herramienta versátil para aplicaciones posteriores, incluida la detección de éxito y la clonación de comportamientos alineada con la recompensa.
Los modelos multimodales unificados pueden tanto comprender como generar contenido visual dentro de una única arquitectura. Sin embargo, los modelos existentes siguen siendo muy demandantes de datos y demasiado pesados para su implementación en dispositivos de borde. Presentamos Mobile-O, un modelo compacto de difusión visión-lenguaje que lleva la inteligencia multimodal unificada a un dispositivo móvil. Su módulo central, el Proyector de Condicionamiento Móvil (MCP), fusiona características visión-lenguaje con un generador de difusión utilizando convoluciones separables en profundidad y alineación por capas. Este diseño permite un condicionamiento cruzado eficiente con un coste computacional mínimo. Entrenado con solo unos pocos millones de muestras y post-entrenado en un novedoso formato cuarteto (prompt de generación, imagen, pregunta, respuesta), Mobile-O mejora conjuntamente las capacidades de comprensión y generación visual. A pesar de su eficiencia, Mobile-O logra un rendimiento competitivo o superior en comparación con otros modelos unificados, alcanzando un 74% en GenEval y superando a Show-O y JanusFlow en un 5% y un 11%, respectivamente, mientras se ejecuta 6 y 11 veces más rápido. En comprensión visual, Mobile-O los supera en un 15,3% y un 5,1% en promedio a lo largo de siete benchmarks. Ejecutándose en solo ~3s por imagen de 512x512 en un iPhone, Mobile-O establece el primer marco práctico para la comprensión y generación multimodal unificada en tiempo real en dispositivos de borde. Esperamos que Mobile-O facilite la investigación futura en inteligencia multimodal unificada en tiempo real que se ejecute completamente en el dispositivo sin dependencia de la nube. Nuestro código, modelos, conjuntos de datos y aplicación móvil están disponibles públicamente en https://amshaker.github.io/Mobile-O/.
La capacidad de manipular herramientas amplía significativamente el conjunto de tareas que un robot puede realizar. Sin embargo, la manipulación de herramientas representa una clase compleja de destreza, que requiere agarrar objetos delgados, rotaciones del objeto en la mano e interacciones con fuerza. Dado que recopilar datos de teleoperación para estos comportamientos es un desafío, el aprendizaje por refuerzo (RL) de simulación a realidad (sim-to-real) es una alternativa prometedora. No obstante, los enfoques anteriores suelen requerir un esfuerzo de ingeniería sustancial para modelar objetos y ajustar funciones de recompensa para cada tarea. En este trabajo, proponemos SimToolReal, dando un paso hacia la generalización de políticas de RL sim-to-real para la manipulación de herramientas. En lugar de centrarnos en un único objeto y tarea, generamos proceduralmente una amplia variedad de primitivas de objetos similares a herramientas en simulación y entrenamos una única política de RL con el objetivo universal de manipular cada objeto hacia poses objetivo aleatorias. Este enfoque permite a SimToolReal realizar una manipulación diestra general de herramientas en el momento de la prueba sin ningún entrenamiento específico de objeto o tarea. Demostramos que SimToolReal supera a los métodos anteriores de retargeting y de agarre fijo en un 37%, igualando al mismo tiempo el rendimiento de políticas de RL especializadas entrenadas en objetos y tareas objetivo específicos. Finalmente, mostramos que SimToolReal generaliza a través de un conjunto diverso de herramientas cotidianas, logrando un fuerte rendimiento zero-shot en más de 120 pruebas en el mundo real que abarcan 24 tareas, 12 instancias de objetos y 6 categorías de herramientas.
Estudiamos la tarea de establecer correspondencia visual a nivel de objetos entre diferentes puntos de vista en videos, centrándonos en los escenarios desafiantes de egocéntrica-a-exocéntrica y exocéntrica-a-egocéntrica. Proponemos un marco simple pero efectivo basado en segmentación binaria condicional, donde una máscara de consulta de objeto se codifica en una representación latente para guiar la localización del objeto correspondiente en un video objetivo. Para fomentar representaciones robustas e invariantes al punto de vista, introducimos un objetivo de entrenamiento de consistencia cíclica: la máscara pronosticada en la vista objetivo se proyecta de vuelta a la vista fuente para reconstruir la máscara de consulta original. Esta restricción bidireccional proporciona una fuerte señal de auto-supervisión sin requerir anotaciones de referencia y permite el entrenamiento en tiempo de prueba (TTT) durante la inferencia. Los experimentos en los benchmarks Ego-Exo4D y HANDAL-X demuestran la efectividad de nuestro objetivo de optimización y la estrategia TTT, logrando un rendimiento de vanguardia. El código está disponible en https://github.com/shannany0606/CCMP.
El aprendizaje por refuerzo con verificadores (RLVR) es un paradigma central para mejorar el razonamiento de los modelos de lenguaje grandes (LLM), sin embargo, los métodos existentes a menudo adolecen de una exploración limitada. Las políticas tienden a colapsar en unos pocos patrones de razonamiento y detienen prematuramente la exploración profunda, mientras que la regularización de entropía convencional introduce solo estocasticidad local y no logra inducir una diversidad significativa a nivel de trayectoria, lo que conduce a señales de aprendizaje débiles e inestables en la optimización de políticas basada en grupos. Proponemos DSDR, un marco de aprendizaje por refuerzo con Regularización de Diversidad a Doble Escala que descompone la diversidad en el razonamiento de los LLM en componentes globales y de acoplamiento. Globalmente, DSDR promueve la diversidad entre las trayectorias de razonamiento correctas para explorar modos de solución distintos. Localmente, aplica una regularización de entropía a nivel de token, invariante a la longitud y restringida a las trayectorias correctas, evitando el colapso de la entropía dentro de cada modo mientras preserva la corrección. Las dos escalas se acoplan mediante un mecanismo de asignación global-a-local que enfatiza la regularización local para las trayectorias correctas más distintivas. Brindamos soporte teórico que muestra que DSDR preserva la corrección óptima bajo una regularización acotada, sostiene señales de aprendizaje informativas en la optimización basada en grupos y produce una regla de acoplamiento global-a-local fundamentada. Los experimentos en múltiples benchmarks de razonamiento demuestran mejoras consistentes en precisión y pass@k, destacando la importancia de la diversidad a doble escala para la exploración profunda en RLVR. El código está disponible en https://github.com/SUSTechBruce/DSDR.
Los datos sintéticos generados por modelos generativos de video han mostrado potencial para el aprendizaje robótico como una canalización escalable, pero a menudo sufren de calidad de acción inconsistente debido a videos generados de manera imperfecta. Recientemente, se han utilizado modelos de visión y lenguaje (VLM) para validar la calidad del video, pero tienen limitaciones para distinguir videos físicamente precisos y, incluso en ese caso, no pueden evaluar directamente las acciones generadas en sí mismas. Para abordar este problema, presentamos RoboCurate, un novedoso marco de generación de datos robóticos sintéticos que evalúa y filtra la calidad de las acciones anotadas comparándolas con una reproducción en simulación. Específicamente, RoboCurate reproduce las acciones predichas en un simulador y evalúa la calidad de la acción midiendo la consistencia del movimiento entre el desarrollo del simulador y el video generado. Además, desbloqueamos la diversidad de observación más allá del conjunto de datos disponible mediante edición de imagen a imagen y aplicamos transferencia de video a video que preserva la acción para aumentar aún más la apariencia. Observamos que los datos generados por RoboCurate producen mejoras relativas sustanciales en las tasas de éxito en comparación con el uso exclusivo de datos reales, logrando +70.1% en GR-1 Tabletop (300 demostraciones), +16.1% en DexMimicGen en la configuración de pre-entrenamiento, y +179.9% en el desafiante entorno del mundo real de manipulación diestra humanoide ALLEX.
Proponemos tttLRM, un novedoso modelo de reconstrucción 3D a gran escala que aprovecha una capa de Entrenamiento en Tiempo de Prueba (TTT) para permitir una reconstrucción 3D autoregresiva de contexto largo con complejidad computacional lineal, escalando así aún más la capacidad del modelo. Nuestro marco comprime eficientemente múltiples observaciones de imágenes en los pesos rápidos de la capa TTT, formando una representación 3D implícita en el espacio latente que puede decodificarse en varios formatos explícitos, como *Gaussian Splats* (GS) para aplicaciones posteriores. La variante de aprendizaje en línea de nuestro modelo admite la reconstrucción y el refinamiento 3D progresivo a partir de observaciones en flujo continuo. Demostramos que el preentrenamiento en tareas de síntesis de nuevas vistas se transfiere eficazmente al modelado 3D explícito, lo que resulta en una mejor calidad de reconstrucción y una convergencia más rápida. Experimentos exhaustivos muestran que nuestro método logra un rendimiento superior en la reconstrucción feedforward de Gaussianos 3D en comparación con los enfoques más avanzados, tanto en objetos como en escenas.
El Reconocimiento Óptico de Caracteres (OCR) es una tarea fundamental para la digitalización de información, actuando como un puente crítico entre los datos visuales y la comprensión textual. Si bien los Modelos de Visión y Lenguaje (VLM) modernos han logrado una alta precisión en este dominio, dependen predominantemente de la decodificación autoregresiva, que resulta computacionalmente costosa y lenta para documentos largos, ya que requiere un paso hacia adelante secuencial por cada token generado. Identificamos una oportunidad clave para superar este cuello de botella: a diferencia de la generación abierta, el OCR es una tarea altamente determinista donde la entrada visual dicta estrictamente una secuencia de salida única, lo que teóricamente permite una decodificación paralela y eficiente mediante modelos de difusión. Sin embargo, demostramos que los modelos de difusión enmascarados existentes no logran aprovechar este potencial; estos introducen inestabilidades estructurales que son benignas en tareas flexibles, como la generación de subtítulos, pero catastróficas para los requisitos rígidos de coincidencia exacta del OCR. Para cerrar esta brecha, presentamos DODO, el primer VLM que utiliza difusión discreta por bloques y desbloquea su potencial de aceleración para el OCR. Al descomponer la generación en bloques, DODO mitiga los errores de sincronización de la difusión global. Empíricamente, nuestro método logra una precisión cercana a la del estado del arte y permite una inferencia hasta 3 veces más rápida en comparación con los métodos baseline autoregresivos.
Los sistemas de memoria agentica permiten a los agentes de modelos de lenguaje grande (LLM) mantener el estado a lo largo de interacciones prolongadas, apoyando el razonamiento de largo alcance y la personalización más allá de las ventanas de contexto fijas. A pesar del rápido desarrollo arquitectónico, los fundamentos empíricos de estos sistemas siguen siendo frágiles: los puntos de referencia existentes a menudo están subdimensionados, las métricas de evaluación están desalineadas con la utilidad semántica, el rendimiento varía significativamente entre los modelos base, y los costos a nivel de sistema se pasan por alto con frecuencia. Esta revisión presenta un análisis estructurado de la memoria agentica desde perspectivas tanto arquitectónicas como de sistema. Primero introducimos una taxonomía concisa de los sistemas MAG basada en cuatro estructuras de memoria. Luego, analizamos los puntos críticos clave que limitan los sistemas actuales, incluyendo los efectos de saturación en los puntos de referencia, la validez de las métricas y la sensibilidad de los evaluadores, la precisión dependiente del modelo base, y la sobrecarga de latencia y rendimiento introducida por el mantenimiento de la memoria. Al conectar la estructura de la memoria con las limitaciones empíricas, esta revisión aclara por qué los sistemas de memoria agentica actuales a menudo no cumplen con su promesa teórica y esboza direcciones para una evaluación más confiable y un diseño de sistema escalable.
Los sistemas modernos de ranking a gran escala operan dentro de un panorama sofisticado de objetivos en competencia, restricciones operativas y requisitos de producto en evolución. El progreso en este dominio está cada vez más limitado por la restricción del contexto de ingeniería: el arduo proceso de traducir intenciones ambiguas de producto en hipótesis razonables, ejecutables y verificables, en lugar de estar limitado únicamente por las técnicas de modelado. Presentamos GEARS (Motor Generativo para Sistemas de Ranking con Agencia), un marco que replantea la optimización del ranking como un proceso de descubrimiento autónomo dentro de un entorno de experimentación programable. En lugar de tratar la optimización como una selección estática de modelos, GEARS aprovecha Habilidades de Agente Especializadas para encapsular el conocimiento experto en ranking en capacidades de razonamiento reutilizables, permitiendo a los operadores dirigir los sistemas mediante una personalización de alto nivel basada en la "sensación" de la intención. Además, para garantizar la confiabilidad en producción, el marco incorpora puntos de validación para hacer cumplir la robustez estadística y filtrar políticas frágiles que se sobreajustan a señales a corto plazo. La validación experimental en diversas superficies de producto demuestra que GEARS identifica consistentemente políticas superiores y casi Pareto-eficientes, sinergizando señales algorítmicas con un contexto profundo de ranking mientras mantiene una rigurosa estabilidad de despliegue.
La optimización de kernels de GPU es fundamental para sistemas modernos de aprendizaje automático eficientes, pero sigue siendo un desafío debido a la compleja interacción de factores de diseño y la rápida evolución del hardware. Los enfoques automatizados existentes suelen tratar a los Modelos de Lenguaje a Gran Escala (LLMs) meramente como generadores estocásticos de código dentro de bucles evolutivos guiados por heurísticas. Estos métodos a menudo tienen dificultades con kernels complejos que requieren transformaciones estructurales coordinadas y multi-paso, ya que carecen de capacidades de planificación explícita y frecuentemente descartan estrategias prometedoras debido a implementaciones intermedias ineficientes o incorrectas. Para abordar esto, proponemos la Búsqueda mediante un Modelo Mundial en Co-evolución y construimos K-Search basado en este método. Al reemplazar las heurísticas de búsqueda estáticas con un modelo mundial en co-evolución, nuestro marco aprovecha el conocimiento de dominio previo de los LLMs para guiar la búsqueda, explorando activamente el espacio de optimización. Este enfoque desacopla explícitamente la planificación algorítmica de alto nivel de la instanciación de programas de bajo nivel, permitiendo que el sistema navegue por trayectorias de optimización no monótonas mientras se mantiene resiliente a defectos temporales de implementación. Evaluamos K-Search en diversos kernels complejos de FlashInfer, incluyendo kernels GQA, MLA y MoE. Nuestros resultados muestran que K-Search supera significativamente a los métodos de búsqueda evolutiva más avanzados, logrando una mejora promedio de 2.10x y una ganancia de hasta 14.3x en kernels MoE complejos. En la tarea GPUMode TriMul, K-Search alcanza un rendimiento de vanguardia en H100, llegando a 1030us y superando tanto a soluciones evolutivas previas como a las diseñadas por humanos.
Los modelos Visión-Lenguaje-Acción (VLA) han surgido como un paradigma prometedor para la manipulación robótica de propósito general, aprovechando el preentrenamiento a gran escala para lograr un alto rendimiento. El campo ha evolucionado rápidamente con la incorporación de priores espaciales y diversas innovaciones arquitectónicas. Sin embargo, estos avances suelen ir acompañados de recetas de entrenamiento y detalles de implementación variables, lo que puede dificultar identificar la fuente precisa de las mejoras empíricas. En este trabajo, presentamos SimVLA, una línea base simplificada diseñada para establecer un punto de referencia transparente en la investigación de VLA. Al desacoplar estrictamente la percepción del control, utilizando un backbone estándar de visión-lenguaje y un cabezal de acción ligero, y estandarizando la dinámica crítica del entrenamiento, demostramos que un diseño minimalista puede alcanzar un rendimiento de vanguardia. A pesar de tener solo 0.5B de parámetros, SimVLA supera a modelos de miles de millones de parámetros en benchmarks estándar de simulación sin preentrenamiento en robots. SimVLA también alcanza un rendimiento comparable en robots reales con respecto a pi0.5. Nuestros resultados establecen a SimVLA como una línea base robusta y reproducible que permite atribuir claramente las mejoras empíricas a futuras innovaciones arquitectónicas. Sitio web: https://frontierrobo.github.io/SimVLA
A pesar del notable éxito práctico de los modelos de lenguaje basados en transformadores, trabajos recientes han planteado dudas sobre su capacidad para realizar un seguimiento de estados. En particular, un creciente cuerpo de literatura ha demostrado esta limitación principalmente a través de fallos en la generalización fuera de distribución (FdD), como la extrapolación de longitud. En este trabajo, desplazamos la atención hacia las implicaciones dentro de la distribución de estas limitaciones. Realizamos un estudio experimental a gran escala de la eficiencia de datos de los transformadores y las redes neuronales recurrentes (RNN) en múltiples regímenes de supervisión. Descubrimos que la cantidad de datos de entrenamiento requerida por los transformadores crece mucho más rápidamente con el tamaño del espacio de estados y la longitud de la secuencia que en el caso de las RNN. Además, analizamos hasta qué punto los mecanismos de seguimiento de estados aprendidos se comparten entre diferentes longitudes de secuencia. Demostramos que los transformadores exhiben un uso compartido de pesos insignificante o incluso perjudicial entre longitudes, lo que indica que aprenden soluciones específicas para cada longitud de forma aislada. Por el contrario, los modelos recurrentes exhiben un aprendizaje amortizado efectivo al compartir pesos entre longitudes, lo que permite que los datos de una longitud de secuencia mejoren el rendimiento en otras. En conjunto, estos resultados demuestran que el seguimiento de estados sigue siendo un desafío fundamental para los transformadores, incluso cuando las distribuciones de entrenamiento y evaluación coinciden.
Presentamos Nacrith, un sistema de compresión sin pérdidas que combina un modelo de lenguaje transformador de 135 millones de parámetros (SmolLM2-135M) con un conjunto de predictores ligeros en línea y un codificador aritmético de 32 bits. Más allá del paradigma básico de LLM más codificación aritmética, Nacrith introduce varias contribuciones: (1) una actualización de la precisión de la CDF de 2^16 a 2^24 que elimina ~75% de la sobrecarga de cuantificación causada por los pisos de probabilidad mínima en vocabularios grandes; (2) un modelo N-grama a nivel de token para predicciones locales rápidas; (3) una cabeza de sesgo adaptativa en espacio logarítmico que corrige errores del LLM por documento mediante descenso de gradiente en línea; (4) un salto del LLM basado en confianza para acelerar tokens altamente predecibles; (5) un formato binario híbrido (NC06) que extiende la compresión neuronal a archivos binarios arbitrarios—hasta donde sabemos, una primicia entre los compresores basados en LLM; (6) un backend de inferencia llama.cpp que logra una decodificación ~7 veces más rápida por token que PyTorch; (7) compresión paralela multi-GPU con hasta 8 trabajadores; y (8) una ventana deslizante nativa de caché KV que reduce el costo por deslizamiento en ~37x. El sistema requiere solo ~500 MB de pesos GGUF y ~1.2 GB de VRAM por trabajador, ejecutándose en GPUs de consumo. En alice29.txt (Corpus de Canterbury, 152 KB), Nacrith logra 0.918 bits por byte (bpb)—superando a gzip por 3.1x, a bzip2 por 2.5x, a CMIX v21 por 44%, y a ts_zip por 20%, mientras comprime por debajo de los límites de entropía de Shannon de byte de orden 0, 1 y 2. En enwik8 (100 MB), Nacrith alcanza 0.9389 bpb (11.74%), superando a ts_zip (~1.11 bpb) por 15% y a FineZip (1.024 bpb) por 8%, a pesar de utilizar un modelo 60 veces más pequeño y sin ajuste fino. Una evaluación fuera de distribución en un documento publicado después del corte de entrenamiento del modelo confirma que estas ganancias no son artefactos de memorización, logrando 0.723 bpb en texto no visto.
La industria digital demanda activos modulares 3D de alta calidad y diversidad, especialmente para contenido generado por usuarios (CGU). En este trabajo presentamos AssetFormer, un modelo basado en Transformer autorregresivo diseñado para generar activos modulares 3D a partir de descripciones textuales. Nuestro estudio piloto aprovecha activos modulares del mundo real recopilados de plataformas en línea. AssetFormer aborda el desafío de crear activos compuestos por primitivas que se adhieren a parámetros de diseño restringidos para diversas aplicaciones. Al adaptar innovadoramente técnicas de secuenciación y decodificación de módulos inspiradas en modelos de lenguaje, nuestro enfoque mejora la calidad de la generación de activos mediante modelado autorregresivo. Los resultados iniciales indican la efectividad de AssetFormer para agilizar la creación de activos en escenarios de desarrollo profesional y CGU. Este trabajo presenta un marco flexible extensible a varios tipos de activos modulares 3D, contribuyendo al campo más amplio de la generación de contenido 3D. El código está disponible en https://github.com/Advocate99/AssetFormer.
Los métodos actuales de animación humana 3D tienen dificultades para lograr fotorrealismo: los enfoques basados en cinemática carecen de dinámicas no rígidas (por ejemplo, dinámicas de la ropa), mientras que los métodos que aprovegan *priors* de difusión de video pueden sintetizar movimiento no rígido pero sufren de artefactos de calidad y pérdida de identidad. Para superar estas limitaciones, presentamos Ani3DHuman, un marco que combina la animación basada en cinemática con *priors* de difusión de video. Primero introducimos una representación de movimiento en capas que separa el movimiento rígido del movimiento residual no rígido. El movimiento rígido es generado por un método cinemático, que luego produce un renderizado aproximado para guiar al modelo de difusión de video en la generación de secuencias de video que restauran el movimiento residual no rígido. Sin embargo, esta tarea de restauración, basada en muestreo por difusión, es muy desafiante, ya que los renderizados iniciales están fuera de distribución, lo que hace que los muestreadores ODE determinísticos estándar fallen. Por lo tanto, proponemos un novedoso método de muestreo estocástico autoguiado, que aborda eficazmente el problema de fuera de distribución al combinar el muestreo estocástico (para calidad fotorrealista) con la autoguía (para fidelidad de identidad). Estos videos restaurados proporcionan una supervisión de alta calidad, permitiendo la optimización del campo de movimiento residual no rígido. Experimentos exhaustivos demuestran que Ani3DHuman puede generar animación humana 3D fotorrealista, superando a los métodos existentes. El código está disponible en https://github.com/qiisun/ani3dhuman.
Los virus adenoasociados (AAV) son vectores prometedores para la terapia génica, pero sus serotipos nativos presentan limitaciones en cuanto a tropismo tisular, evasión inmune y eficiencia de producción. La ingeniería de cápsides para superar estos obstáculos es un desafío debido al vasto espacio de secuencias y la dificultad de optimizar simultáneamente múltiples propiedades funcionales. La complejidad aumenta aún más en el caso del riñón, que presenta barreras anatómicas únicas y dianas celulares que requieren una ingeniería de vectores precisa y eficiente. Aquí presentamos AAVGen, un marco de inteligencia artificial generativa para el diseño de novo de cápsides de AAV con perfiles multitráfico mejorados. AAVGen integra un modelo de lenguaje de proteínas (PLM) con ajuste fino supervisado (SFT) y una técnica de aprendizaje por refuerzo denominada Optimización de Políticas de Secuencias Grupales (GSPO). El modelo se guía por una señal de recompensa compuesta derivada de tres predictores de regresión basados en ESM-2, cada uno entrenado para predecir una propiedad clave: aptitud para la producción, tropismo renal y termoestabilidad. Nuestros resultados demuestran que AAVGen produce una biblioteca diversa de secuencias novedosas de la proteína VP1. Las validaciones in silico revelaron que la mayoría de las variantes generadas tienen un rendimiento superior en los tres índices empleados, lo que indica una optimización multiobjetivo exitosa. Además, el análisis estructural mediante AlphaFold3 confirma que las secuencias generadas preservan el plegamiento canónico de la cápside a pesar de la diversificación de secuencias. AAVGen establece una base para la ingeniería de vectores virales basada en datos, acelerando el desarrollo de vectores AAV de próxima generación con características funcionales a medida.
La odometría confiable para robots con patas sin cámaras o LiDAR sigue siendo un desafío debido a la deriva del IMU y al ruido en la medición de velocidades articulares. Este artículo presenta un estimador de estado puramente propioceptivo que utiliza únicamente mediciones del IMU y de los motores para estimar conjuntamente la pose y velocidad del cuerpo, con una formulación unificada aplicable a robots bípedos, cuadrúpedos y con ruedas y patas. La idea clave es tratar cada pata en contacto como un anclaje cinemático: la estimación de fuerzas en el pie basada en par articular selecciona contactos confiables, y las posiciones de apoyo correspondientes proporcionan restricciones intermitentes en el marco global que suprimen la deriva a largo plazo. Para prevenir la deriva en elevación durante travesías prolongadas, introducimos una corrección ligera basada en agrupamiento de alturas y decaimiento temporal que ajusta las alturas recién registradas de los apoyos a planos de soporte previamente observados. Para mejorar las observaciones de velocidad del pie bajo cuantización de encoders, aplicamos un filtro de Kalman de cubatura por cinemática inversa que filtra directamente las velocidades del extremo del pie a partir de ángulos y velocidades articulares. La implementación mitiga además la deriva en guiñada mediante consistencia geométrica multi-contacto y se degrada gradualmente a una referencia de rumbo derivada cinemáticamente cuando las restricciones de guiñada del IMU no están disponibles o son poco confiables. Evaluamos el método en cuatro plataformas cuadrúpedas (tres robots Astrall y un Unitree Go2 EDU) utilizando trayectorias de lazo cerrado. En el robot Astrall de pie puntual A, un lazo horizontal de ~200 m y un lazo vertical de ~15 m regresan con errores de 0.1638 m y 0.219 m, respectivamente; en el robot con ruedas y patas B, los errores correspondientes son 0.2264 m y 0.199 m. En el robot con ruedas y patas C, un lazo horizontal de ~700 m produce un error de 7.68 m y un lazo vertical de ~20 m produce un error de 0.540 m. El Unitree Go2 EDU cierra un lazo horizontal de ~120 m con un error de 2.2138 m y un lazo vertical de ~8 m con menos de 0.1 m de error vertical. github.com/ShineMinxing/Ros2Go2Estimator.git
El descubrimiento causal para datos transversales y temporales ha seguido tradicionalmente un paradigma específico por conjunto de datos, donde un nuevo modelo se ajusta para cada conjunto individual. Este enfoque limita el potencial del preentrenamiento multi-conjunto. El concepto de modelos causales grandes (LCMs) visualiza una clase de arquitecturas neuronales preentrenadas específicamente diseñadas para el descubrimiento causal temporal. Los enfoques previos están limitados a pequeños números de variables, se degradan con entradas más grandes y dependen en gran medida de datos sintéticos, lo que limita la generalización. Proponemos un marco teórico para LCMs, combinando generadores sintéticos diversos con conjuntos de datos de series temporales realistas, permitiendo el aprendizaje a escala. Experimentos exhaustivos en benchmarks sintéticos, semi-sintéticos y realistas muestran que los LCMs escalan efectivamente a mayores números de variables y arquitecturas más profundas manteniendo un rendimiento sólido. Los modelos entrenados alcanzan una precisión competitiva o superior en comparación con líneas base clásicas y neuronales, particularmente en entornos fuera de distribución, a la vez que permiten una inferencia rápida en una sola pasada. Los resultados demuestran que los LCMs son un paradigma de modelo fundacional prometedor para el descubrimiento causal temporal. Los experimentos y los pesos del modelo están disponibles en https://github.com/kougioulis/LCM-paper/.
El razonamiento diagnóstico de series temporales es esencial para muchas aplicaciones, pero las soluciones existentes enfrentan una brecha persistente: los modelos de lenguaje de gran tamaño de razonamiento general (GRLM) poseen fuertes habilidades de razonamiento pero carecen del conocimiento específico del dominio para comprender patrones complejos de series temporales. Por el contrario, los LLM de series temporales ajustados (TSLM) comprenden estos patrones pero carecen de la capacidad para generalizar el razonamiento hacia preguntas más complejas. Para cerrar esta brecha, proponemos un marco híbrido de inyección de conocimiento que inyecta las percepciones generadas por el TSLM directamente en la traza de razonamiento del GRLM, logrando así un razonamiento sólido sobre series temporales con conocimiento del dominio. Dado que la recopilación de datos para el ajuste fino por inyección de conocimiento es costosa, aprovechamos además un enfoque basado en aprendizaje por refuerzo con recompensas verificables (RLVR) para obtener trazas ricas en conocimiento sin supervisión humana, transfiriendo luego dicha traza de pensamiento del dominio al GRLM para una inyección de conocimiento eficiente. Además, publicamos SenTSR-Bench, un benchmark de razonamiento diagnóstico basado en series temporales multivariante recopilado de operaciones industriales del mundo real. Tanto en SenTSR-Bench como en otros conjuntos de datos públicos, nuestro método supera consistentemente a los TSLM en un 9.1%-26.1% y a los GRLM en un 7.9%-22.4%, ofreciendo percepciones diagnósticas de series temporales robustas y conscientes del contexto.