Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos rStar2-Agent, un modelo de razonamiento matemático de 14B entrenado con aprendizaje por refuerzo agencial para alcanzar un rendimiento de vanguardia. Más allá de los enfoques actuales de largas cadenas de pensamiento (CoT), el modelo demuestra comportamientos cognitivos avanzados, como pensar detenidamente antes de utilizar herramientas de codificación en Python y reflexionar sobre la retroalimentación de la ejecución del código para explorar, verificar y refinar de manera autónoma los pasos intermedios en la resolución de problemas complejos. Esta capacidad se logra mediante tres innovaciones clave que hacen que el aprendizaje por refuerzo agencial sea efectivo a gran escala: (i) una infraestructura eficiente de aprendizaje por refuerzo con un entorno confiable de código Python que soporta ejecuciones de alto rendimiento y mitiga los altos costos de despliegue, permitiendo el entrenamiento con recursos limitados de GPU (64 GPUs MI300X); (ii) GRPO-RoC, un algoritmo de aprendizaje por refuerzo agencial con una estrategia de despliegue Resample-on-Correct que aborda los ruidos inherentes del entorno provenientes de las herramientas de codificación, permitiendo que el modelo razone de manera más efectiva en un entorno de código; (iii) Una receta eficiente de entrenamiento agencial que comienza con un ajuste fino supervisado (SFT) no razonado y avanza a través de múltiples etapas de aprendizaje por refuerzo, obteniendo habilidades cognitivas avanzadas con un costo computacional mínimo. Como resultado, rStar2-Agent eleva un modelo preentrenado de 14B al estado del arte en solo 510 pasos de aprendizaje por refuerzo en una semana, logrando puntajes promedio de pass@1 del 80.6% en AIME24 y 69.8% en AIME25, superando a DeepSeek-R1 (671B) con respuestas significativamente más cortas. Más allá de las matemáticas, rStar2-Agent-14B también demuestra una fuerte generalización en tareas de alineación, razonamiento científico y uso de herramientas agenciales. El código y las recetas de entrenamiento están disponibles en https://github.com/microsoft/rStar.
Los avances recientes destacan la importancia de los métodos de aprendizaje por refuerzo basados en GRPO y la evaluación comparativa para mejorar la generación de texto a imagen (T2I). Sin embargo, los métodos actuales que utilizan modelos de recompensa puntual (RM) para puntuar imágenes generadas son susceptibles al "hackeo de recompensas". Revelamos que esto ocurre cuando las diferencias mínimas de puntuación entre imágenes se amplifican después de la normalización, creando ventajas ilusorias que llevan al modelo a sobreoptimizar ganancias triviales, lo que finalmente desestabiliza el proceso de generación de imágenes. Para abordar esto, proponemos Pref-GRPO, un método GRPO basado en recompensas de preferencias por pares que cambia el objetivo de optimización de la maximización de puntuación al ajuste de preferencias, asegurando un entrenamiento más estable. En Pref-GRPO, las imágenes se comparan por pares dentro de cada grupo utilizando un RM de preferencias, y la tasa de victoria se utiliza como señal de recompensa. Experimentos extensos demuestran que Pref-GRPO diferencia sutiles diferencias en la calidad de las imágenes, proporcionando ventajas más estables y mitigando el hackeo de recompensas. Además, los benchmarks T2I existentes están limitados por criterios de evaluación poco detallados, lo que dificulta una evaluación integral de los modelos. Para resolver esto, presentamos UniGenBench, un benchmark T2I unificado que comprende 600 indicaciones (prompts) en 5 temas principales y 20 subtemas. Evalúa la consistencia semántica a través de 10 criterios principales y 27 subcriterios, aprovechando MLLM para la construcción y evaluación del benchmark. Nuestros benchmarks revelan las fortalezas y debilidades de los modelos T2I tanto de código abierto como cerrado y validan la efectividad de Pref-GRPO.
Presentamos MCP-Bench, un punto de referencia para evaluar modelos de lenguaje de gran escala (LLMs) en tareas realistas de múltiples pasos que requieren el uso de herramientas, coordinación entre herramientas, control preciso de parámetros y planificación/razonamiento para resolver tareas. Construido sobre el Protocolo de Contexto de Modelo (MCP), MCP-Bench conecta LLMs a 28 servidores MCP en vivo representativos que abarcan 250 herramientas en dominios como finanzas, viajes, computación científica y búsqueda académica. A diferencia de los puntos de referencia basados en API anteriores, cada servidor MCP proporciona un conjunto de herramientas complementarias diseñadas para trabajar juntas, permitiendo la construcción de tareas auténticas de múltiples pasos con un rico acoplamiento de entrada-salida. Las tareas en MCP-Bench evalúan la capacidad de los agentes para recuperar herramientas relevantes a partir de instrucciones ambiguas sin nombres explícitos de herramientas, planificar trayectorias de ejecución de múltiples saltos para objetivos complejos, fundamentar respuestas en salidas intermedias de herramientas y orquestar flujos de trabajo entre dominios, capacidades que no son evaluadas adecuadamente por los puntos de referencia existentes que dependen de especificaciones explícitas de herramientas, flujos de trabajo superficiales de pocos pasos y operaciones aisladas en dominios. Proponemos un marco de evaluación multifacético que cubre la comprensión y el uso de esquemas a nivel de herramienta, la planificación a nivel de trayectoria y la finalización de tareas. Los experimentos con 20 LLMs avanzados revelan desafíos persistentes en MCP-Bench. Código y datos: https://github.com/Accenture/mcp-bench.
La literatura existente generalmente trata la generación impulsada por el estilo y la impulsada por el sujeto como dos tareas disjuntas: la primera prioriza la similitud estilística, mientras que la segunda insiste en la consistencia del sujeto, lo que resulta en un aparente antagonismo. Argumentamos que ambos objetivos pueden unificarse bajo un único marco porque, en última instancia, se refieren a la separación y recomposición del contenido y el estilo, un tema recurrente en la investigación impulsada por el estilo. Con este fin, presentamos USO, un modelo de personalización optimizado unificado para estilo y sujeto. Primero, construimos un conjunto de datos a gran escala de tripletas que consiste en imágenes de contenido, imágenes de estilo y sus correspondientes imágenes de contenido estilizadas. Segundo, introducimos un esquema de aprendizaje desacoplado que alinea simultáneamente las características de estilo y separa el contenido del estilo a través de dos objetivos complementarios: el entrenamiento de alineación de estilo y el entrenamiento de separación contenido-estilo. Tercero, incorporamos un paradigma de aprendizaje por recompensa de estilo, denominado SRL, para mejorar aún más el rendimiento del modelo. Finalmente, lanzamos USO-Bench, el primer punto de referencia que evalúa conjuntamente la similitud de estilo y la fidelidad del sujeto a través de múltiples métricas. Experimentos exhaustivos demuestran que USO logra un rendimiento de vanguardia entre los modelos de código abierto en ambas dimensiones de consistencia del sujeto y similitud de estilo. Código y modelo: https://github.com/bytedance/USO
El paradigma de aprendizaje mediante la práctica es crucial para desarrollar sistemas de IA agentes capaces, pero se ve severamente limitado por la generación ineficiente de experiencias, un cuello de botella especialmente pronunciado en benchmarks complejos como GAIA. Para abordar esto, presentamos AWorld, un sistema de código abierto diseñado para la interacción a gran escala entre agentes y entornos. Al distribuir tareas en un clúster, AWorld acelera la recopilación de experiencias en 14.6 veces en comparación con la ejecución secuencial estándar en un solo nodo. Esta aceleración crítica hace que el aprendizaje por refuerzo extensivo sea práctico y escalable. Aprovechando esta capacidad, entrenamos un agente basado en Qwen3-32B que supera significativamente a su modelo base, aumentando su precisión general en GAIA del 21.59% al 32.23%. En los niveles más desafiantes del benchmark, nuestro agente alcanza una puntuación del 16.33%, superando el rendimiento de los principales modelos propietarios. Nuestro sistema de código abierto y el agente resultante proporcionan un plan práctico para un pipeline completo de entrenamiento de IA agentes, desde la interacción eficiente hasta la mejora demostrable del modelo.
La generación de videos largos es fundamentalmente un problema de memoria de contexto extenso: los modelos deben retener y recuperar eventos destacados a lo largo de un rango prolongado sin colapsar o desviarse. Sin embargo, escalar transformadores de difusión para generar videos de contexto largo está limitado fundamentalmente por el costo cuadrático de la autoatención, lo que hace que la memoria y el cálculo sean intratables y difíciles de optimizar para secuencias largas. Replanteamos la generación de videos de contexto largo como una tarea de recuperación de información interna y proponemos un módulo simple y aprendible de enrutamiento de atención dispersa, Mezcla de Contextos (MoC), como un motor eficaz de recuperación de memoria a largo plazo. En MoC, cada consulta selecciona dinámicamente algunos fragmentos informativos más anclajes obligatorios (subtítulos, ventanas locales) para atender, con un enrutamiento causal que evita cierres de bucle. A medida que escalamos los datos y gradualmente esparcimos el enrutamiento, el modelo asigna recursos computacionales a la historia destacada, preservando identidades, acciones y escenas durante minutos de contenido. La eficiencia surge como un subproducto de la recuperación (escalado casi lineal), lo que permite un entrenamiento y síntesis prácticos, y la emergencia de memoria y consistencia a escala de minutos.
Los datos de instrucción diversos son cruciales para el ajuste efectivo de instrucciones en modelos de lenguaje grandes, ya que permiten que el modelo generalice a través de diferentes tipos de entradas. Construir un conjunto de datos de instrucciones diversificado es un paso esencial en este proceso. Los enfoques existentes a menudo aprovechan modelos de lenguaje grandes para explorar y generar automáticamente instrucciones diversas, asegurando tanto la diversidad como la calidad de los datos. Sin embargo, tienden a pasar por alto un factor importante en las aplicaciones del mundo real: la relevancia en la tarea. En la práctica, solo unas pocas aplicaciones del mundo real requieren un modelo verdaderamente de propósito general; la mayoría se beneficia de conocimientos específicos de la tarea adaptados a su caso de uso particular. Por lo tanto, es vital desarrollar métodos de aumento de instrucciones que no solo mantengan la diversidad, sino que también estén optimizados para escenarios específicos del mundo real. Así, presentamos el Aumento de Instrucciones Centrado en la Tarea (Task Centric Instruction Augmentation, TCIA), un marco que expande sistemáticamente las instrucciones mientras preserva tanto la diversidad como la alineación con la tarea. Al representar las instrucciones en un espacio discreto de consultas y restricciones, TCIA crea un conjunto rico de instrucciones relevantes para la tarea y permite que los modelos generalicen estas instrucciones específicas sin sacrificar el rendimiento general. Los experimentos muestran que TCIA mejora el rendimiento de los modelos de lenguaje de código abierto en un promedio del 8.7% en cuatro aplicaciones específicas del mundo real, y en algunos casos supera a los modelos líderes de código cerrado. Estas mejoras no comprometen la capacidad general de seguimiento de instrucciones, lo que convierte a TCIA en una solución escalable y eficiente para adaptar modelos de lenguaje a aplicaciones del mundo real centradas en tareas.
Presentamos el primer rastreador de puntos 3D multi-vista basado en datos, diseñado para rastrear puntos arbitrarios en escenas dinámicas utilizando múltiples vistas de cámara. A diferencia de los rastreadores monoculares existentes, que tienen dificultades con las ambigüedades de profundidad y las oclusiones, o de los métodos previos multi-cámara que requieren más de 20 cámaras y una tediosa optimización por secuencia, nuestro modelo de avance directo predice directamente correspondencias 3D utilizando un número práctico de cámaras (por ejemplo, cuatro), permitiendo un rastreo robusto y preciso en tiempo real. Dadas las poses conocidas de las cámaras y la profundidad multi-vista basada en sensores o estimada, nuestro rastreador fusiona características multi-vista en una nube de puntos unificada y aplica correlación de k-vecinos más cercanos junto con una actualización basada en transformadores para estimar de manera confiable correspondencias 3D de largo alcance, incluso bajo oclusión. Entrenamos en 5K secuencias sintéticas multi-vista de Kubric y evaluamos en dos benchmarks del mundo real: Panoptic Studio y DexYCB, logrando errores medianos de trayectoria de 3.1 cm y 2.0 cm, respectivamente. Nuestro método generaliza bien a diversas configuraciones de cámara de 1-8 vistas con puntos de vista variables y longitudes de video de 24-150 fotogramas. Al liberar nuestro rastreador junto con los conjuntos de datos de entrenamiento y evaluación, buscamos establecer un nuevo estándar para la investigación en rastreo 3D multi-vista y proporcionar una herramienta práctica para aplicaciones del mundo real. Página del proyecto disponible en https://ethz-vlg.github.io/mvtracker.
La alineación de seguridad en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo implica mediar representaciones internas para rechazar solicitudes dañinas. Investigaciones recientes han demostrado que estos mecanismos de seguridad pueden ser eludidos mediante la ablación o eliminación de direcciones representativas específicas dentro del modelo. En este artículo, proponemos el enfoque opuesto: Inyección de Seguridad de Rango Uno (ROSI, por sus siglas en inglés), un método de caja blanca que amplifica la alineación de seguridad de un modelo al redirigir permanentemente sus activaciones hacia el subespacio que media el rechazo. ROSI opera como una modificación simple y sin necesidad de ajuste fino de los pesos de rango uno, aplicada a todas las matrices de escritura del flujo residual. La dirección de seguridad requerida puede calcularse a partir de un pequeño conjunto de pares de instrucciones dañinas e inofensivas. Demostramos que ROSI aumenta consistentemente las tasas de rechazo por seguridad —evaluadas mediante Llama Guard 3— mientras preserva la utilidad del modelo en benchmarks estándar como MMLU, HellaSwag y Arc. Además, mostramos que ROSI también puede realinear modelos 'sin censura' al amplificar sus propias direcciones de seguridad latentes, demostrando su utilidad como un procedimiento de seguridad efectivo de última milla. Nuestros resultados sugieren que la redirección de pesos específica e interpretable es un mecanismo económico y potente para mejorar la seguridad de los LLMs, complementando paradigmas de ajuste fino más intensivos en recursos.
En este artículo presentamos OneReward, un marco unificado de aprendizaje por refuerzo que mejora las capacidades generativas del modelo en múltiples tareas bajo diferentes criterios de evaluación utilizando únicamente un modelo de recompensa. Al emplear un único modelo de visión-lenguaje (VLM) como modelo generativo de recompensa, capaz de distinguir entre ganador y perdedor para una tarea y criterio de evaluación dados, puede aplicarse eficazmente a modelos de generación multitarea, especialmente en contextos con datos variados y objetivos de tarea diversos. Utilizamos OneReward para la generación de imágenes guiada por máscaras, que puede dividirse en varias subtareas como relleno de imágenes, extensión de imágenes, eliminación de objetos y renderizado de texto, involucrando una máscara binaria como área de edición. Aunque estas tareas específicas de dominio comparten el mismo paradigma de condicionamiento, difieren significativamente en las distribuciones de datos subyacentes y las métricas de evaluación. Los métodos existentes suelen depender de un ajuste fino supervisado (SFT) específico para cada tarea, lo que limita la generalización y la eficiencia del entrenamiento. Basándonos en OneReward, desarrollamos Seedream 3.0 Fill, un modelo de generación guiada por máscaras entrenado mediante aprendizaje por refuerzo multitarea directamente sobre un modelo base preentrenado, eliminando la necesidad de SFT específico por tarea. Los resultados experimentales demuestran que nuestro modelo de edición unificado supera consistentemente a competidores tanto comerciales como de código abierto, como Ideogram, Adobe Photoshop y FLUX Fill [Pro], en múltiples dimensiones de evaluación. El código y el modelo están disponibles en: https://one-reward.github.io
Los modelos de lenguaje aumentados con herramientas, equipados con recuperación, memoria o APIs externas, están transformando la IA, aunque sus ventajas teóricas siguen siendo poco exploradas. En este artículo, abordamos esta cuestión demostrando los beneficios del aprendizaje con herramientas (recuperación externa) sobre el aprendizaje en pesos (memorización) para el recuerdo de hechos. Mostramos que el número de hechos que un modelo puede memorizar únicamente en sus pesos está fundamentalmente limitado por su cantidad de parámetros. En contraste, demostramos que el uso de herramientas permite un recuerdo ilimitado de hechos mediante una construcción de circuitos simple y eficiente. Estos resultados se validan en experimentos controlados, donde los modelos que utilizan herramientas superan consistentemente a los que dependen de la memorización. Además, mostramos que, para modelos de lenguaje preentrenados a gran escala, enseñar el uso de herramientas y reglas generales es más efectivo que ajustar hechos en la memoria. Nuestro trabajo proporciona una base tanto teórica como empírica, estableciendo por qué los flujos de trabajo aumentados con herramientas no solo son prácticos, sino también demostrablemente más escalables.
Los modelos recientes de Visión-Lenguaje-Acción (VLA) construidos sobre modelos preentrenados de Visión-Lenguaje (VLM) requieren un extenso post-entrenamiento, lo que resulta en un alto costo computacional que limita su escalabilidad y despliegue. Proponemos CogVLA, un marco de Visión-Lenguaje-Acción Alineado con la Cognición que aprovecha el enrutamiento basado en instrucciones y la esparsificación para mejorar tanto la eficiencia como el rendimiento. CogVLA se inspira en la coordinación multimodal humana e introduce una arquitectura progresiva de 3 etapas. 1) El Enrutamiento de Agregación basado en Encoder-FiLM (EFA-Routing) inyecta información de instrucciones en el codificador visual para agregar y comprimir selectivamente tokens visuales de doble flujo, formando una representación latente consciente de las instrucciones. 2) Sobre esta codificación visual compacta, el Enrutamiento de Poda basado en LLM-FiLM (LFP-Routing) introduce la intención de acción en el modelo de lenguaje podando tokens visuales irrelevantes para las instrucciones, logrando así esparsidad a nivel de token. 3) Para asegurar que las entradas de percepción comprimidas aún puedan soportar una generación de acciones precisa y coherente, introducimos la Atención Acoplada V-L-A (CAtten), que combina la atención causal visión-lenguaje con un decodificación paralela bidireccional de acciones. Experimentos extensos en el benchmark LIBERO y tareas robóticas del mundo real demuestran que CogVLA alcanza un rendimiento de vanguardia con tasas de éxito del 97.4% y 70.0%, respectivamente, mientras reduce los costos de entrenamiento en 2.5 veces y disminuye la latencia de inferencia en 2.8 veces en comparación con OpenVLA. CogVLA es de código abierto y está disponible públicamente en https://github.com/JiuTian-VL/CogVLA.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden tener dificultades para equilibrar la credulidad ante la desinformación y la resistencia a correcciones válidas en diálogos persuasivos, un desafío crítico para su implementación confiable. Presentamos DuET-PD (Evaluación Dual para la Confianza en Diálogos Persuasivos), un marco que evalúa la dinámica de cambio de postura en múltiples turnos a través de dos dimensiones: tipo de persuasión (correctiva/engañosa) y dominio (conocimiento mediante MMLU-Pro, y seguridad mediante SALAD-Bench). Descubrimos que incluso un modelo de última generación como GPT-4o alcanza solo un 27,32% de precisión en MMLU-Pro bajo persuasiones engañosas sostenidas. Además, los resultados revelan una tendencia preocupante de creciente adulación en modelos de código abierto más recientes. Para abordar esto, introducimos Holistic DPO, un enfoque de entrenamiento que equilibra ejemplos de persuasión positivos y negativos. A diferencia de las técnicas de prompting o entrenamiento solo de resistencia, Holistic DPO mejora tanto la robustez ante la desinformación como la receptividad a correcciones, aumentando la precisión de Llama-3.1-8B-Instruct bajo persuasión engañosa en contextos de seguridad de un 4,21% a un 76,54%. Estas contribuciones ofrecen un camino para desarrollar LLMs más confiables y adaptables para diálogos de múltiples turnos. El código está disponible en https://github.com/Social-AI-Studio/DuET-PD.
Presentamos FakeParts, una nueva clase de deepfakes caracterizada por manipulaciones sutiles y localizadas en regiones espaciales o segmentos temporales específicos de videos que, por lo demás, son auténticos. A diferencia del contenido completamente sintético, estas manipulaciones parciales, que van desde expresiones faciales alteradas hasta sustituciones de objetos y modificaciones de fondo, se integran perfectamente con elementos reales, lo que las hace particularmente engañosas y difíciles de detectar. Para abordar la brecha crítica en las capacidades de detección, presentamos FakePartsBench, el primer conjunto de datos de referencia a gran escala diseñado específicamente para capturar todo el espectro de deepfakes parciales. Compuesto por más de 25K videos con anotaciones de manipulación a nivel de píxel y de fotograma, nuestro conjunto de datos permite una evaluación exhaustiva de los métodos de detección. Nuestros estudios con usuarios demuestran que FakeParts reduce la precisión de detección humana en más de un 30% en comparación con los deepfakes tradicionales, observándose una degradación similar en el rendimiento de los modelos de detección más avanzados. Este trabajo identifica una vulnerabilidad urgente en los enfoques actuales de detección de deepfakes y proporciona los recursos necesarios para desarrollar métodos más robustos para las manipulaciones parciales de video.
La eliminación de objetos en video ha alcanzado un rendimiento avanzado gracias al reciente éxito de los modelos generativos de video. Sin embargo, al abordar los efectos secundarios de los objetos, como sus sombras y reflejos, los trabajos existentes tienen dificultades para eliminar estos efectos debido a la escasez de datos de video emparejados como supervisión. Este artículo presenta ROSE, denominado Remove Objects with Side Effects, un marco que estudia sistemáticamente los efectos del objeto en el entorno, los cuales pueden categorizarse en cinco casos comunes: sombras, reflejos, luz, translucidez y espejo. Dados los desafíos de curar videos emparejados que exhiban los efectos mencionados, aprovechamos un motor de renderizado 3D para la generación de datos sintéticos. Construimos cuidadosamente una canalización completamente automática para la preparación de datos, que simula un conjunto de datos emparejados a gran escala con diversas escenas, objetos, ángulos de toma y trayectorias de cámara. ROSE se implementa como un modelo de inpaint de video basado en un transformador de difusión. Para localizar todas las áreas correlacionadas con el objeto, se introduce todo el video en el modelo para su eliminación basada en referencia. Además, se introduce supervisión adicional para predecir explícitamente las áreas afectadas por los efectos secundarios, las cuales pueden revelarse a través de la máscara diferencial entre los videos emparejados. Para investigar completamente el rendimiento del modelo en la eliminación de varios efectos secundarios, presentamos un nuevo punto de referencia, denominado ROSE-Bench, que incorpora tanto escenarios comunes como los cinco efectos secundarios especiales para una evaluación integral. Los resultados experimentales demuestran que ROSE logra un rendimiento superior en comparación con los modelos existentes de eliminación de objetos en video y se generaliza bien a escenarios de video del mundo real. La página del proyecto es https://rose2025-inpaint.github.io/.
Presentamos Dress&Dance, un marco de difusión de video que genera videos de prueba virtual de alta calidad de 5 segundos de duración a 24 FPS con una resolución de 1152x720, donde un usuario viste prendas deseadas mientras se mueve de acuerdo con un video de referencia dado. Nuestro enfoque requiere una única imagen del usuario y admite una variedad de prendas superiores, inferiores y de una sola pieza, así como la prueba simultánea de prendas superiores e inferiores en un solo paso. Clave en nuestro marco es CondNet, una red de condicionamiento novedosa que aprovecha la atención para unificar entradas multimodales (texto, imágenes y videos), mejorando así el registro de las prendas y la fidelidad del movimiento. CondNet se entrena con datos heterogéneos, combinando un conjunto limitado de videos y un conjunto de imágenes más grande y fácilmente disponible, de manera progresiva y en múltiples etapas. Dress&Dance supera las soluciones existentes de código abierto y comerciales, permitiendo una experiencia de prueba virtual de alta calidad y flexible.
El contenido 3D posee inherentemente características multimodales y puede proyectarse en diferentes modalidades (por ejemplo, imágenes RGB, RGBD y nubes de puntos). Cada modalidad presenta ventajas distintivas en el modelado de activos 3D: las imágenes RGB contienen texturas 3D vívidas, mientras que las nubes de puntos definen geometrías 3D detalladas. Sin embargo, la mayoría de las arquitecturas generativas nativas 3D existentes operan predominantemente dentro de paradigmas de una sola modalidad, pasando por alto los beneficios complementarios de los datos multimodales, o se limitan a estructuras 3D, restringiendo así el alcance de los conjuntos de datos de entrenamiento disponibles. Para aprovechar de manera integral las multimodales en el modelado 3D, presentamos TriMM, el primer modelo generativo nativo 3D de avance directo que aprende de multimodales básicas (por ejemplo, RGB, RGBD y nube de puntos). Específicamente, 1) TriMM introduce primero la codificación multimodal colaborativa, que integra características específicas de cada modalidad mientras preserva sus fortalezas representativas únicas. 2) Además, se introduce supervisión auxiliar 2D y 3D para aumentar la robustez y el rendimiento de la codificación multimodal. 3) Basándose en el código multimodal integrado, TriMM emplea un modelo de difusión latente en triplano para generar activos 3D de calidad superior, mejorando tanto la textura como el detalle geométrico. Experimentos extensos en múltiples conjuntos de datos conocidos demuestran que TriMM, al aprovechar eficazmente las multimodales, logra un rendimiento competitivo con modelos entrenados en conjuntos de datos a gran escala, a pesar de utilizar una pequeña cantidad de datos de entrenamiento. Además, realizamos experimentos adicionales en conjuntos de datos RGB-D recientes, verificando la viabilidad de incorporar otros conjuntos de datos multimodales en la generación 3D.
A medida que los diálogos de múltiples turnos con modelos de lenguaje de gran escala (LLMs) se vuelven más largos y complejos, ¿cómo pueden los usuarios evaluar y revisar mejor el progreso hacia sus objetivos conversacionales? Presentamos OnGoal, una interfaz de chat con LLM que ayuda a los usuarios a gestionar mejor el progreso de sus objetivos. OnGoal proporciona retroalimentación en tiempo real sobre la alineación con los objetivos mediante evaluaciones asistidas por LLM, explicaciones de los resultados de evaluación con ejemplos y resúmenes del progreso de los objetivos a lo largo del tiempo, permitiendo a los usuarios navegar diálogos complejos de manera más efectiva. A través de un estudio con 20 participantes en una tarea de escritura, evaluamos OnGoal frente a una interfaz de chat base sin seguimiento de objetivos. Al usar OnGoal, los participantes dedicaron menos tiempo y esfuerzo para alcanzar sus objetivos mientras exploraban nuevas estrategias de indicaciones para superar malentendidos, lo que sugiere que el seguimiento y visualización de objetivos puede mejorar el compromiso y la resiliencia en diálogos con LLMs. Nuestros hallazgos inspiraron implicaciones de diseño para futuras interfaces de chat con LLM que mejoren la comunicación de objetivos, reduzcan la carga cognitiva, aumenten la interactividad y permitan retroalimentación para mejorar el rendimiento de los LLMs.
Los comportamientos sociales humanos son inherentemente multimodales, lo que requiere el desarrollo de modelos audiovisuales potentes para su percepción. En este artículo, presentamos Social-MAE, nuestro modelo preentrenado de Autoencoder Enmascarado Audiovisual basado en una versión extendida del Autoencoder Enmascarado Audiovisual Contrastivo (CAV-MAE), el cual se preentrena con datos audiovisuales sociales. Específicamente, modificamos CAV-MAE para que reciba un mayor número de fotogramas como entrada y lo preentrenamos en un gran conjunto de datos de interacción social humana (VoxCeleb2) de manera autosupervisada. Demostramos la efectividad de este modelo mediante el ajuste fino y la evaluación en diferentes tareas sociales y afectivas, concretamente, reconocimiento de emociones, detección de risas y estimación de personalidad aparente. El modelo alcanza resultados de vanguardia en reconocimiento multimodal de emociones y reconocimiento de risas, así como resultados competitivos en la estimación de personalidad aparente, lo que demuestra la efectividad del preentrenamiento autosupervisado en el dominio específico. El código y los pesos del modelo están disponibles aquí: https://github.com/HuBohy/SocialMAE.