Artículos de investigación en IA seleccionados diariamente con traducciones
Introducimos el Aprendizaje por Refuerzo Colaborativo de Agentes Heterogéneos (HACRL), un nuevo paradigma de aprendizaje que aborda las ineficiencias de la optimización aislada basada en políticas. HACRL permite una optimización colaborativa con ejecución independiente: agentes heterogéneos comparten trayectorias verificadas durante el entrenamiento para mejorar mutuamente, mientras operan de forma independiente en el momento de la inferencia. A diferencia del aprendizaje por refuerzo multiagente (MARL) basado en LLM, HACRL no requiere despliegue coordinado, y a diferencia de la destilación de políticas en línea/fuera de línea, permite un aprendizaje mutuo bidireccional entre agentes heterogéneos en lugar de una transferencia unidireccional de profesor a estudiante. Basándonos en este paradigma, proponemos HACPO, un algoritmo de RL colaborativo que permite el intercambio de trayectorias de manera fundamentada para maximizar la utilización de muestras y la transferencia de conocimiento entre agentes. Para mitigar las discrepancias de capacidad y los cambios de distribución de políticas, HACPO introduce cuatro mecanismos específicos con garantías teóricas sobre la estimación insesgada de ventajas y la corrección de la optimización. Experimentos exhaustivos en diversas combinaciones de modelos heterogéneos y benchmarks de razonamiento demuestran que HACPO mejora consistentemente a todos los agentes participantes, superando a GSPO en un promedio del 3.3% utilizando solo la mitad del coste de trayectorias.
Presentamos Helios, el primer modelo de generación de vídeo de 14B que funciona a 19,5 FPS en una única GPU NVIDIA H100 y admite generación a escala de minutos, igualando la calidad de una línea base sólida. Logramos avances en tres dimensiones clave: (1) robustez frente a la deriva en vídeos largos sin utilizar heurísticas anti-deriva comunes como el auto-forzado, bancos de error o muestreo de fotogramas clave; (2) generación en tiempo real sin técnicas estándar de aceleración como caché KV, atención dispersa/lineal o cuantización; y (3) entrenamiento sin frameworks de paralelismo o fragmentación, permitiendo tamaños de lote propios de difusión de imágenes mientras se alojan hasta cuatro modelos de 14B en 80 GB de memoria GPU. Específicamente, Helios es un modelo de difusión autoregresivo de 14B con una representación de entrada unificada que admite de forma nativa tareas T2V, I2V y V2V. Para mitigar la deriva en la generación de vídeos largos, caracterizamos los modos de fallo típicos y proponemos estrategias de entrenamiento simples pero efectivas que simulan explícitamente la deriva durante el entrenamiento, eliminando simultáneamente el movimiento repetitivo en su origen. Para la eficiencia, comprimimos masivamente el contexto histórico y ruidoso y reducimos el número de pasos de muestreo, obteniendo costes computacionales comparables —o inferiores— a los de modelos generativos de vídeo de 1,3B. Además, introducimos optimizaciones a nivel de infraestructura que aceleran tanto la inferencia como el entrenamiento mientras reducen el consumo de memoria. Experimentos exhaustivos demuestran que Helios supera consistentemente a métodos anteriores en generación de vídeos cortos y largos. Planeamos publicar el código, el modelo base y el modelo destilado para apoyar el desarrollo futuro de la comunidad.
Pensemos en cómo los humanos abordamos tareas de lectura complejas: marcando puntos clave, infiriendo sus relaciones y estructurando la información para guiar la comprensión y las respuestas. Del mismo modo, ¿puede un modelo de lenguaje grande beneficiarse de la estructura del texto para mejorar su rendimiento en el procesamiento textual? Para explorarlo, en este trabajo primero presentamos Structure of Thought (SoT), una técnica de prompting que guía explícitamente a los modelos para construir estructuras textuales intermedias, mejorando consistentemente el rendimiento en ocho tareas y tres familias de modelos. Partiendo de esta idea, presentamos T2S-Bench, el primer benchmark diseñado para evaluar y mejorar las capacidades de conversión de texto a estructura de los modelos. T2S-Bench incluye 1.800 muestras en 6 dominios científicos y 32 tipos estructurales, construidas rigurosamente para garantizar precisión, equidad y calidad. La evaluación de 45 modelos principales revela un potencial de mejora sustancial: la precisión promedio en la tarea de razonamiento multi-etapa es de solo 52.1%, e incluso el modelo más avanzado alcanza 58.1% de precisión en nodos en la extracción extremo a extremo. Además, en Qwen2.5-7B-Instruct, SoT por sí solo produce una mejora promedio de +5.7% en ocho tareas diversas de procesamiento textual, y el fine-tuning en T2S-Bench incrementa esta ganancia a +8.6%. Estos resultados destacan el valor de la estructuración explícita del texto y las contribuciones complementarias de SoT y T2S-Bench. El conjunto de datos y el código de evaluación han sido publicados en https://t2s-bench.github.io/T2S-Bench-Page/.
Las experiencias interactivas proactivas y en tiempo real son esenciales para los asistentes de IA con capacidades humanas, pero enfrentan tres desafíos clave: (1) lograr una inferencia de baja latencia con entradas de flujo continuo, (2) decidir autónomamente cuándo responder, y (3) controlar tanto la calidad como la cantidad del contenido generado para cumplir con las restricciones de tiempo real. En este trabajo, materializamos los asistentes de IA mediante dos escenarios de juego, comentarista y guía, seleccionados por su idoneidad para la evaluación automática. Presentamos Live Gaming Benchmark, un conjunto de datos a gran escala con tres escenarios representativos: comentario en solitario, co-comentario y guía de usuario, y presentamos Proact-VL, un marco general que adapta los modelos de lenguaje multimodal para convertirlos en agentes interactivos proactivos y en tiempo real, capaces de percibir e interactuar con el entorno de manera similar a los humanos. Experimentos exhaustivos demuestran que Proact-VL logra una latencia y calidad de respuesta superiores mientras mantiene sólidas capacidades de comprensión de video, lo que evidencia su practicidad para aplicaciones interactivas en tiempo real.
A medida que los Modelos de Lenguaje a Gran Escala (LLMs) se utilizan cada vez más para tareas de larga duración, mantener una memoria a largo plazo efectiva se ha convertido en un desafío crítico. Los métodos actuales a menudo enfrentan una disyuntiva entre costo y precisión. Los métodos de almacenamiento simples a menudo fallan en recuperar información relevante, mientras que los métodos de indexación complejos (como los grafos de memoria) requieren un gran cómputo y pueden causar pérdida de información. Además, depender del LLM principal para procesar todos los recuerdos es computacionalmente costoso y lento. Para abordar estas limitaciones, proponemos MemSifter, un marco novedoso que descarga el proceso de recuperación de memoria a un modelo proxy de pequeña escala. En lugar de aumentar la carga en el LLM de trabajo principal, MemSifter utiliza un modelo más pequeño para razonar sobre la tarea antes de recuperar la información necesaria. Este enfoque no requiere cómputo pesado durante la fase de indexación y agrega una sobrecarga mínima durante la inferencia. Para optimizar el modelo proxy, introducimos un paradigma de entrenamiento de Aprendizaje por Refuerzo (RL) específico para memoria. Diseñamos una recompensa orientada al resultado de la tarea basada en el rendimiento real del LLM de trabajo para completarla. La recompensa mide la contribución real de los recuerdos recuperados mediante múltiples interacciones con el LLM de trabajo, y discrimina las clasificaciones recuperadas por contribuciones decrecientes escalonadas. Adicionalmente, empleamos técnicas de entrenamiento como Aprendizaje Curricular y Fusión de Modelos para mejorar el rendimiento. Evaluamos MemSifter en ocho benchmarks de memoria para LLMs, incluyendo tareas de Investigación Profunda. Los resultados demuestran que nuestro método iguala o supera el rendimiento de los enfoques estado del arte existentes tanto en precisión de recuperación como en finalización final de la tarea. MemSifter ofrece una solución eficiente y escalable para la memoria a largo plazo de los LLMs. Hemos liberado los pesos del modelo, el código y los datos de entrenamiento como código abierto para apoyar futuras investigaciones.
La síntesis de interacciones plausibles entre humanos y objetos articulados (HOI) sin supervisión 3D/4D sigue siendo un desafío fundamental. Si bien los enfoques recientes *zero-shot* aprovechan modelos de difusión de video para sintetizar interacciones humano-objeto, se limitan en gran medida a la manipulación de objetos rígidos y carecen de un razonamiento geométrico 4D explícito. Para cerrar esta brecha, formulamos la síntesis de HOI articulada como un problema de reconstrucción 4D a partir de *priors* de video monoculares: dado solo un video generado por un modelo de difusión, reconstruimos una escena articulada 4D completa sin ninguna supervisión 3D. Este enfoque basado en la reconstrucción trata el video 2D generado como supervisión para un problema de *renderizado inverso*, recuperando escenas 4D geométricamente consistentes y físicamente plausibles que respetan naturalmente el contacto, la articulación y la coherencia temporal. Presentamos ArtHOI, el primer marco *zero-shot* para la síntesis de interacciones humano-objeto articuladas mediante reconstrucción 4D a partir de *priors* de video. Nuestros diseños clave son: 1) Segmentación de partes basada en flujo óptico: se aprovecha el flujo óptico como una señal geométrica para separar las regiones dinámicas de las estáticas en el video monocular; 2) Canalización de reconstrucción desacoplada: la optimización conjunta de la articulación del objeto y el movimiento humano es inestable bajo la ambigüedad monocular, por lo que primero recuperamos la articulación del objeto y luego sintetizamos el movimiento humano condicionado a los estados del objeto reconstruidos. ArtHOI tiende un puente entre la generación basada en video y la reconstrucción consciente de la geometría, produciendo interacciones que están tanto semánticamente alineadas como físicamente fundamentadas. En diversas escenas articuladas (por ejemplo, abrir neveras, armarios, microondas), ArtHOI supera significativamente a los métodos anteriores en precisión de contacto, reducción de penetraciones y fidelidad de articulación, extendiendo la síntesis de interacciones *zero-shot* más allá de la manipulación rígida mediante una síntesis informada por la reconstrucción.
Presentamos Phi-4-reasoning-vision-15B, un modelo de razonamiento multimodal compacto y de pesos abiertos, y compartimos las motivaciones, decisiones de diseño, experimentos y aprendizajes que guiaron su desarrollo. Nuestro objetivo es aportar información práctica a la comunidad investigadora sobre la construcción de modelos de razonamiento multimodal más pequeños y eficientes, y compartir el resultado de estos aprendizajes como un modelo de pesos abiertos que se desempeña bien en tareas comunes de visión y lenguaje, y sobresale en el razonamiento científico y matemático, así como en la comprensión de interfaces de usuario. Nuestras contribuciones incluyen demostrar que elecciones arquitectónicas cuidadosas y una rigurosa curación de datos permiten que modelos multimodales más pequeños y de pesos abiertos alcancen un rendimiento competitivo con un consumo significativamente menor de cómputo y de *tokens* tanto en el entrenamiento como en la inferencia. Las mejoras más sustanciales provienen del filtrado sistemático, la corrección de errores y la aumentación sintética de datos, lo que refuerza que la calidad de los datos sigue siendo el principal factor de influencia en el rendimiento del modelo. Las ablaciones sistemáticas muestran que los codificadores de alta resolución y resolución dinámica producen mejoras consistentes, ya que una percepción precisa es un requisito previo para un razonamiento de alta calidad. Finalmente, una mezcla híbrida de datos de razonamiento y no razonamiento, con *tokens* de modo explícitos, permite que un único modelo proporcione respuestas directas y rápidas para tareas más simples y un razonamiento de cadena de pensamiento (*chain-of-thought*) para problemas complejos.
El escalado en tiempo de prueba para tareas de razonamiento complejo demuestra que aprovechar la capacidad computacional durante la inferencia, mediante métodos como el muestreo independiente y la agregación de múltiples soluciones, produce resultados significativamente mejores en las tareas. Sin embargo, un cuello de botella crítico es la verificación: el muestreo solo es efectivo si las soluciones correctas pueden identificarse de manera confiable entre los candidatos. Mientras que los enfoques existentes suelen evaluar los candidatos de forma independiente mediante puntuaciones escalares, demostramos que los modelos son sustancialmente más fuertes en la autoverificación por pares. Aprovechando esta idea, presentamos V_1, un marco que unifica la generación y la verificación mediante una clasificación por pares eficiente. V_1 consta de dos componentes: V_1-Infer, un algoritmo guiado por incertidumbre que utiliza una clasificación basada en torneos y asigna dinámicamente capacidad computacional de autoverificación a pares de candidatos cuya corrección relativa es más incierta; y V_1-PairRL, un marco de aprendizaje por refuerzo que entrena conjuntamente un único modelo como generador y autoverificador por pares, garantizando que el verificador se adapte a la distribución en evolución del generador. En benchmarks de generación de código (LiveCodeBench, CodeContests, SWE-Bench) y razonamiento matemático (AIME, HMMT), V_1-Infer mejora Pass@1 hasta en un 10% respecto a la verificación puntual y supera a los métodos recientes de escalado en tiempo de prueba, siendo además significativamente más eficiente. Además, V_1-PairRL logra ganancias de escalado en tiempo de prueba del 7-9% sobre el aprendizaje por refuerzo estándar y el entrenamiento conjunto puntual, y mejora el Pass@1 base hasta en un 8.7% sobre el aprendizaje por refuerzo estándar en un entorno de generación de código.
La generación de vídeos panorámicos 360° de alta calidad a partir de entradas en perspectiva es una de las aplicaciones cruciales para la realidad virtual (RV), donde los vídeos de alta resolución son especialmente importantes para la experiencia inmersiva. Los métodos existentes están limitados por las restricciones computacionales de los modelos de difusión convencionales, que solo admiten generación nativa con resoluciones ≤ 1K y dependen de una super-resolución posterior subóptima para aumentar la resolución. Presentamos CubeComposer, un novedoso modelo de difusión autorregresivo espacio-temporal que genera nativamente vídeos 360° en resolución 4K. Al descomponer los vídeos en representaciones de cubemap con seis caras, CubeComposer sintetiza contenido de forma autorregresiva en un orden espacio-temporal planificado, reduciendo las demandas de memoria mientras permite una salida de alta resolución. Específicamente, para abordar los desafíos de la autorregresión multidimensional, proponemos: (1) una estrategia autorregresiva espacio-temporal que orquesta la generación de vídeos 360° a través de las caras del cubo y ventanas temporales para una síntesis coherente; (2) un mecanismo de gestión de contexto de caras del cubo, equipado con un diseño de atención de contexto disperso para mejorar la eficiencia; y (3) técnicas conscientes de la continuidad, que incluyen codificación posicional, relleno y fusión conscientes del cubo para eliminar las costuras en los límites. Experimentos exhaustivos en conjuntos de datos de referencia demuestran que CubeComposer supera a los métodos state-of-the-art en resolución nativa y calidad visual, apoyando escenarios prácticos de aplicación en RV. Página del proyecto: https://lg-li.github.io/project/cubecomposer
Los agentes de modelos de lenguaje grandes (LLM) se enfrentan a un cuello de botella fundamental debido a las ventanas de contexto finitas en tareas de horizonte largo. A medida que las trayectorias crecen, retener las salidas de herramientas y el razonamiento intermedio en contexto rápidamente se vuelve inviable: el contexto de trabajo se vuelve prohibitivamente largo, eventualmente excede el presupuesto de contexto y dificulta el uso de evidencias distantes incluso cuando aún están presentes. Las soluciones existentes suelen acortar el contexto mediante truncamiento o resúmenes continuos, pero estos métodos son inherentemente con pérdidas porque comprimen o descartan la evidencia pasada en sí. Presentamos Memex, un mecanismo de memoria de experiencia indexada que, en cambio, comprime el contexto sin descartar evidencia. Memex mantiene un contexto de trabajo compacto que consiste en resúmenes estructurados concisos e índices estables, mientras almacena las interacciones subyacentes en su totalidad fidedigna en una base de datos de experiencia externa bajo esos índices. El agente puede entonces decidir cuándo desreferenciar un índice y recuperar la evidencia pasada exacta necesaria para el subobjetivo actual. Optimizamos tanto los comportamientos de escritura como de lectura con nuestro marco de aprendizaje por refuerzo MemexRL, utilizando una configuración de recompensas adaptada al uso de memoria indexada bajo un presupuesto de contexto, para que el agente aprenda qué resumir, qué archivar, cómo indexarlo y cuándo recuperarlo. Esto produce una forma de memoria de horizonte largo sustancialmente menos pérdida que los enfoques basados únicamente en resúmenes. Además, proporcionamos un análisis teórico que muestra el potencial del bucle Memex para preservar la calidad de las decisiones con desreferenciación acotada, manteniendo acotado el cómputo efectivo en contexto a medida que crece el historial. Empíricamente, en tareas desafiantes de horizonte largo, el agente Memex entrenado con MemexRL mejora el éxito en la tarea mientras utiliza un contexto de trabajo significativamente más pequeño.
La clasificación de conceptos visuales de grano fino en entornos de mundo abierto, es decir, sin un conjunto de etiquetas predefinido, exige que los modelos sean precisos y específicos. Los modelos de razonamiento multimodal de gran tamaño (LMMs) recientes exhiben una fuerte capacidad de comprensión visual, pero tienden a producir predicciones excesivamente genéricas al realizar clasificación de imágenes de grano fino. Nuestro análisis preliminar revela que los modelos sí poseen el conocimiento intrínseco del dominio de grano fino. Sin embargo, promover predicciones más específicas (especificidad) sin comprometer las correctas (corrección) sigue siendo un desafío no trivial y poco estudiado. En este trabajo, investigamos cómo dirigir los LMMs de razonamiento hacia predicciones que sean tanto correctas como específicas. Proponemos un novedoso marco de aprendizaje por refuerzo consciente de la especificidad, SpeciaRL, para afinar LMMs de razonamiento en clasificación de imágenes de grano fino bajo el entorno de mundo abierto. SpeciaRL introduce una señal de recompensa dinámica basada en un verificador, anclada a las mejores predicciones dentro de desarrollos en línea, promoviendo la especificidad mientras respeta las capacidades del modelo para evitar predicciones incorrectas. Nuestros experimentos fuera de dominio muestran que SpeciaRL ofrece el mejor equilibrio entre corrección y especificidad en extensos benchmarks de grano fino, superando a los métodos existentes y avanzando en la clasificación de imágenes de grano fino en mundo abierto. El código y el modelo están disponibles públicamente en https://github.com/s-angheben/SpeciaRL.
Los Grandes Modelos de Lenguaje y Visión (LVLM) han adoptado estrategias de poda de tokens visuales para mitigar la sobrecarga computacional sustancial que generan las extensas secuencias de tokens visuales. Si bien trabajos previos se centran principalmente en métodos de poda basados en atención o en diversidad, un análisis en profundidad de las características y limitaciones de estos enfoques sigue siendo en gran medida inexplorado. En este trabajo, realizamos un análisis empírico exhaustivo utilizando el rango efectivo (erank) como medida de la diversidad de características y la entropía de las puntuaciones de atención para investigar los mecanismos de procesamiento de tokens visuales y analizar las fortalezas y debilidades de cada enfoque. Nuestro análisis revela dos hallazgos: (1) Nuestro análisis cuantitativo basado en erank muestra que muchos métodos de poda orientados a la diversidad preservan sustancialmente menos diversidad de características de la prevista; además, el análisis utilizando el conjunto de datos CHAIR revela que la diversidad que sí conservan está estrechamente ligada a un aumento en la frecuencia de alucinaciones en comparación con la poda basada en atención. (2) Observamos además que los enfoques basados en atención son más efectivos en imágenes simples donde la evidencia visual está concentrada, mientras que los métodos basados en diversidad manejan mejor imágenes complejas con características distribuidas. Basándonos en estas percepciones empíricas, demostramos que incorporar ajustes conscientes de la imagen en las estrategias de poda híbridas existentes mejora consistentemente su rendimiento. También proporcionamos una instanciación mínima de nuestros hallazgos empíricos a través de un mecanismo de poda adaptativa simple, que logra un rendimiento sólido y confiable tanto en puntos de referencia estándar como en evaluaciones específicas de alucinaciones. Nuestra página del proyecto está disponible en https://cvsp-lab.github.io/AgilePruner.
La generación de videos narrativos de formato largo con narrativas visuales consistentes sigue siendo un desafío significativo en la síntesis de video. Presentamos un marco novedoso, un conjunto de datos y un modelo que abordan tres limitaciones críticas: la consistencia del fondo entre planos, las transiciones fluidas de plano a plano con múltiples sujetos y la escalabilidad a narrativas de una hora de duración. Nuestro enfoque introduce una canalización de generación con consistencia de fondo que mantiene la coherencia visual entre escenas mientras preserva la identidad de los personajes y las relaciones espaciales. Además, proponemos un módulo de síntesis de video consciente de las transiciones que genera transiciones suaves de plano para escenarios complejos que involucran múltiples sujetos entrando o saliendo del cuadro, superando las limitaciones de sujeto único de trabajos anteriores. Para respaldar esto, contribuimos con un conjunto de datos sintético de 10,000 secuencias de transición con múltiples sujetos que cubre composiciones de escena dinámicas poco representadas. En VBench, InfinityStory logra la mayor Consistencia de Fondo (88.94), la mayor Consistencia de Sujeto (82.11) y el mejor rango promedio general (2.80), demostrando una estabilidad mejorada, transiciones más suaves y una mejor coherencia temporal.
El rápido avance de los modelos de lenguaje multimodal ha demostrado capacidades impresionantes, aunque casi todos operan en un paradigma fuera de línea, lo que dificulta la interactividad en tiempo real. Para abordar esta brecha, presentamos el Real-tIme Video intERaction Bench (RIVER Bench), diseñado para evaluar la comprensión de vídeo en línea. RIVER Bench introduce un marco novedoso que comprende tareas de Memoria Retrospectiva, Percepción en Vivo y Anticipación Proactiva, imitando de cerca los diálogos interactivos en lugar de responder a vídeos completos de una sola vez. Realizamos anotaciones detalladas utilizando vídeos de diversas fuentes y duraciones, y definimos con precisión el formato interactivo en tiempo real. Las evaluaciones en varias categorías de modelos revelan que, aunque los modelos fuera de línea se desempeñan bien en tareas de preguntas y respuestas únicas, tienen dificultades con el procesamiento en tiempo real. Para abordar las limitaciones de los modelos existentes en la interacción con vídeo en línea, especialmente sus deficiencias en memoria a largo plazo y percepción futura, propusimos un método de mejora general que permite a los modelos interactuar con los usuarios de manera más flexible en tiempo real. Creemos que este trabajo impulsará significativamente el desarrollo de modelos de comprensión de vídeo interactivos en tiempo real e inspirará futuras investigaciones en este campo emergente. Los conjuntos de datos y el código están disponibles públicamente en https://github.com/OpenGVLab/RIVER.
Los agentes impulsados por modelos de lenguaje extenso (LLM) han demostrado una gran capacidad para automatizar tareas de ingeniería de software, como la corrección estática de errores, según lo evidencian benchmarks como SWE-bench. Sin embargo, en el mundo real, el desarrollo de software maduro generalmente se basa en cambios complejos de requisitos e iteraciones de características a largo plazo, un proceso que los paradigmas de reparación estáticos y únicos no logran capturar. Para cerrar esta brecha, proponemos SWE-CI, el primer benchmark a nivel de repositorio basado en el ciclo de Integración Continua, que busca cambiar el paradigma de evaluación para la generación de código: de la corrección funcional estática y a corto plazo hacia la mantenibilidad dinámica y a largo plazo. El benchmark comprende 100 tareas, cada una correspondiente en promedio a un historial de evolución que abarca 233 días y 71 commits consecutivos en un repositorio de código del mundo real. SWE-CI requiere que los agentes resuelvan sistemáticamente estas tareas a través de docenas de rondas de análisis e iteraciones de codificación. SWE-CI proporciona información valiosa sobre qué tan bien los agentes pueden mantener la calidad del código a lo largo de una evolución a largo plazo.
Los Agentes Conversacionales Corporizados (ECA) buscan emular la interacción humana cara a cara mediante el habla, los gestos y las expresiones faciales. Los agentes conversacionales actuales basados en modelos de lenguaje extenso (LLM) carecen de corporalidad y de los gestos expresivos esenciales para una interacción natural. Las soluciones existentes para los ECA a menudo producen movimientos rígidos y de baja diversidad, inadecuados para una interacción similar a la humana. Alternativamente, los métodos generativos para la síntesis de gestos co-verbal producen gestos corporales naturales, pero dependen del contexto del habla futuro y requieren largos tiempos de ejecución. Para cerrar esta brecha, presentamos MIBURI, el primer marco causal y en línea para generar gestos expresivos de cuerpo completo y expresiones faciales sincronizados con el diálogo hablado en tiempo real. Empleamos códecs de gestos conscientes de las partes del cuerpo que codifican detalles de movimiento jerárquicos en tokens discretos multinivel. Estos tokens son generados de forma autoregresiva por un marco causal bidimensional condicionado a las incrustaciones de texto-habla basadas en LLM, modelando tanto la dinámica temporal como la jerarquía de movimiento a nivel de partes en tiempo real. Además, introducimos objetivos auxiliares para fomentar gestos expresivos y diversos, evitando la convergencia a poses estáticas. Las evaluaciones comparativas demuestran que nuestro enfoque causal y en tiempo real produce gestos naturales y contextualmente alineados en comparación con líneas de base recientes. Invitamos al lector a explorar los videos de demostración en https://vcai.mpi-inf.mpg.de/projects/MIBURI/.
La evaluación de seguridad y el red-team de los modelos de lenguaje grandes siguen siendo predominantemente centrados en texto, y los marcos existentes carecen de la infraestructura para probar sistemáticamente si la alineación se generaliza a entradas de audio, imagen y video. Presentamos MUSE (Evaluación de Seguridad Multimodal Unificada), una plataforma de código abierto y centrada en ejecuciones que integra la generación automática de cargas útiles cross-modal, tres algoritmos de ataque multi-turno (Crescendo, PAIR, Violent Durian), el enrutamiento de modelos independiente del proveedor y un juez LLM con una taxonomía de seguridad de cinco niveles en un único sistema basado en navegador. Un marco de doble métrica distingue la Tasa de Éxito de Ataque dura (solo Cumplimiento) de la TEA blanda (incluyendo Cumplimiento Parcial), capturando filtraciones parciales de información que las métricas binarias pasan por alto. Para investigar si la alineación se generaliza a través de los límites de modalidad, introducimos la Conmutación de Modalidad Inter-Turno (ITMS), que aumenta los ataques multi-turno con una rotación de modalidad por turno. Los experimentos en seis MLLMs de cuatro proveedores muestran que las estrategias multi-turno pueden alcanzar hasta un 90-100% de TEA contra modelos con un rechazo de turno único casi perfecto. ITMS no aumenta uniformemente la TEA final en líneas base ya saturadas, pero acelera la convergencia al desestabilizar las defensas en los turnos iniciales, y la ablación revela que la dirección de los efectos de modalidad es específica de la familia de modelos en lugar de universal, subrayando la necesidad de pruebas de seguridad cross-modal conscientes del proveedor.
Comprender una escena 3D de inmediato durante su exploración es esencial para las tareas embodadas, donde un agente debe construir y comprender la escena 3D de manera online y casi en tiempo real. En este estudio, proponemos EmbodiedSplat, un sistema de splatting gaussiano 3D (3DGS) online de avance directo para la comprensión de escenas de vocabulario abierto que permite la reconstrucción 3D online simultánea y la comprensión semántica 3D a partir de imágenes en flujo continuo. A diferencia de los métodos existentes de 3DGS de vocabulario abierto, que normalmente se restringen a una configuración de optimización offline o por escena, nuestros objetivos son dos: 1) Reconstruir el modelo 3DGS con semántica integrada de la escena completa a partir de más de 300 imágenes en flujo continuo de manera online. 2) Ser altamente generalizable a escenas novedosas con un diseño de avance directo y admitir una reconstrucción semántica 3D casi en tiempo real cuando se combina con modelos 2D en tiempo real. Para lograr estos objetivos, proponemos un Campo de Coeficientes Dispersos Online con un Libro de Códigos Global CLIP, que vincula los *embeddings* CLIP 2D a cada Gaussiana 3D mientras minimiza el consumo de memoria y preserva la total capacidad de generalización semántica de CLIP. Además, generamos características CLIP con conciencia geométrica 3D agregando la nube de puntos parcial del 3DGS a través de una U-Net 3D para compensar la carencia de información geométrica 3D en los *embeddings* lingüísticos orientados a 2D. Experimentos exhaustivos en diversos conjuntos de datos de interiores, incluidos ScanNet, ScanNet++ y Replica, demuestran tanto la efectividad como la eficiencia de nuestro método. Visite nuestra página del proyecto en https://0nandon.github.io/EmbodiedSplat/.
¿Puede el aprendizaje por refuerzo con recompensas duras y verificables enseñar a un modelo de lenguaje compacto a razonar sobre física, o principalmente aprende a hacer coincidencia de patrones hacia respuestas correctas? Estudiamos esta cuestión entrenando un modelo de razonamiento de 1.500 millones de parámetros en estática de vigas, un problema clásico de ingeniería, utilizando RLVR eficiente en parámetros con recompensas binarias de corrección de solucionadores simbólicos, sin trazas de razonamiento generadas por un profesor. El mejor checkpoint de BeamPERL logra una mejora del 66,7% en Pass@1 sobre el modelo base. Sin embargo, la competencia aprendida es anisótropa: el modelo generaliza composicionalmente (más cargas) pero falla ante cambios topológicos (apoyos desplazados) que requieren las mismas ecuaciones de equilibrio. Los checkpoints intermedios producen el razonamiento más sólido, mientras que la optimización continuada degrada la robustez manteniendo la recompensa. Estos hallazgos revelan una limitación clave de la alineación a nivel de resultado: el aprendizaje por refuerzo con recompensas físicas exactas induce plantillas de solución procedurales en lugar de la internalización de las ecuaciones gobernantes. La precisión de la señal de recompensa -incluso cuando es analíticamente exacta- no garantiza por sí sola un razonamiento físico transferible. Nuestros resultados sugieren que las recompensas verificables pueden necesitar combinarse con un andamiaje de razonamiento estructurado para ir más allá de la coincidencia de patrones hacia un razonamiento científico robusto.
El Transformer de Detección (DETR) y sus variantes muestran un rendimiento sólido en la detección de objetos, una tarea clave para los sistemas autónomos. Sin embargo, una limitación crítica de estos modelos es que sus puntuaciones de confianza solo reflejan la incertidumbre semántica, sin capturar la igualmente importante incertidumbre espacial. Esto resulta en una evaluación incompleta de la fiabilidad de la detección. Por otro lado, los Deep Ensembles pueden abordar este problema al proporcionar estimaciones de incertidumbre espacial de alta calidad. No obstante, su inmenso consumo de memoria los hace impracticables para aplicaciones del mundo real. Una alternativa más económica, el Monte Carlo (MC) Dropout, sufre de una alta latencia debido a la necesidad de realizar múltiples pasadas hacia adelante durante la inferencia para estimar la incertidumbre. Para abordar estas limitaciones, presentamos GroupEnsemble, un método eficiente y efectivo para la estimación de incertidumbre en modelos tipo DETR. GroupEnsemble predice simultáneamente múltiples conjuntos de detección individuales alimentando al decodificador del transformer durante la inferencia con grupos adicionales y diversos de consultas de objetos. Cada grupo de consultas es transformado de forma aislada por el decodificador compartido y predice un conjunto de detección completo para la misma entrada. Se aplica una máscara de atención al decodificador para evitar interacciones entre consultas de diferentes grupos, garantizando que cada grupo detecte de forma independiente para lograr una estimación de incertidumbre fiable basada en ensembles. Al aprovechar el paralelismo inherente del decodificador, GroupEnsemble estima la incertidumbre de manera eficiente en una sola pasada hacia adelante, sin repetición secuencial. Validamos nuestro método en escenarios de conducción autónoma y escenarios cotidianos comunes utilizando los conjuntos de datos Cityscapes y COCO, respectivamente. Los resultados muestran que un enfoque híbrido que combina MC-Dropout y GroupEnsemble supera a los Deep Ensembles en varias métricas a una fracción del coste. El código está disponible en https://github.com/yutongy98/GroupEnsemble.
A pesar del creciente interés en la detección de objetos de vocabulario abierto en los últimos años, la mayoría de los métodos existentes dependen en gran medida de conjuntos de datos de entrenamiento manualmente curados de grano fino, así como de una extracción de características cross-modal capa por capa que consume muchos recursos. En este artículo, proponemos HDINO, un detector de objetos de vocabulario abierto conciso pero eficiente que elimina la dependencia de estos componentes. Específicamente, proponemos una estrategia de entrenamiento de dos etapas basada en el modelo DINO basado en transformers. En la primera etapa, las muestras ruidosas se tratan como instancias de objetos positivas adicionales para construir un Mecanismo de Alineación Semántica Uno-a-Muchos (O2M) entre las modalidades visual y textual, facilitando así la alineación semántica. También se diseña una Pérdida de Clasificación Ponderada por Dificultad (DWCL) basada en la dificultad de detección inicial para minar ejemplos difíciles y mejorar aún más el rendimiento del modelo. En la segunda etapa, se aplica un módulo liviano de fusión de características a las representaciones alineadas para mejorar la sensibilidad a la semántica lingüística. Bajo la configuración Swin Transformer-T, HDINO-T alcanza 49.2 mAP en COCO utilizando 2.2M imágenes de entrenamiento de dos conjuntos de datos de detección disponibles públicamente, sin ninguna curación manual de datos y sin el uso de datos de grounding, superando a Grounding DINO-T y T-Rex2 en 0.8 mAP y 2.8 mAP, respectivamente, los cuales fueron entrenados con 5.4M y 6.5M de imágenes. Después del ajuste fino en COCO, HDINO-T y HDINO-L logran además 56.4 mAP y 59.2 mAP, destacando la efectividad y escalabilidad de nuestro enfoque. El código y los modelos están disponibles en https://github.com/HaoZ416/HDINO.