Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en la generación de videos han logrado un realismo de movimiento impresionante, pero a menudo pasan por alto la narrativa centrada en personajes, una tarea crucial para la automatización de películas y la generación de animaciones. Presentamos Talking Characters, una tarea más realista que genera animaciones de personajes hablantes directamente a partir de voz y texto. A diferencia de los talking heads, Talking Characters tiene como objetivo generar el retrato completo de uno o más personajes, más allá de la región facial. En este artículo, proponemos MoCha, el primero de su tipo en generar personajes hablantes. Para garantizar una sincronización precisa entre el video y el habla, proponemos un mecanismo de atención de ventana de habla-video que alinea eficazmente los tokens de habla y video. Para abordar la escasez de conjuntos de datos de video etiquetados con habla a gran escala, introducimos una estrategia de entrenamiento conjunto que aprovecha tanto los datos de video etiquetados con habla como con texto, mejorando significativamente la generalización en diversas acciones de personajes. También diseñamos plantillas de prompts estructuradas con etiquetas de personajes, permitiendo, por primera vez, conversaciones multi-personaje con diálogos por turnos, lo que posibilita que los personajes generados por IA participen en conversaciones conscientes del contexto con coherencia cinematográfica. Evaluaciones cualitativas y cuantitativas exhaustivas, incluyendo estudios de preferencia humana y comparaciones con benchmarks, demuestran que MoCha establece un nuevo estándar para la narrativa cinematográfica generada por IA, logrando un realismo, expresividad, controlabilidad y generalización superiores.
Este artículo explora la tarea de Generación de Texto Visual Complejo (CVTG, por sus siglas en inglés), la cual se centra en generar contenido textual intrincado distribuido en diversas regiones dentro de imágenes visuales. En CVTG, los modelos de generación de imágenes suelen producir texto visual distorsionado y borroso o omitir parte del texto visual. Para abordar estos desafíos, proponemos TextCrafter, un novedoso método de renderizado de texto visual múltiple. TextCrafter emplea una estrategia progresiva para descomponer el texto visual complejo en componentes distintos, asegurando una alineación robusta entre el contenido textual y su soporte visual. Además, incorpora un mecanismo de mejora de enfoque en tokens para amplificar la prominencia del texto visual durante el proceso de generación. TextCrafter aborda eficazmente los principales desafíos en las tareas de CVTG, como la confusión, omisión y borrosidad del texto. Asimismo, presentamos un nuevo conjunto de datos de referencia, CVTG-2K, diseñado para evaluar rigurosamente el rendimiento de los modelos generativos en tareas de CVTG. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques más avanzados.
Presentamos Open-Reasoner-Zero, la primera implementación de código abierto de entrenamiento RL a gran escala orientado al razonamiento, centrada en escalabilidad, simplicidad y accesibilidad. A través de extensos experimentos, demostramos que un enfoque minimalista, utilizando PPO estándar con GAE (lambda=1, gamma=1) y recompensas basadas en reglas directas, sin ninguna regularización KL, es suficiente para escalar tanto la longitud de las respuestas como el rendimiento en benchmarks, similar al fenómeno observado en DeepSeek-R1-Zero. Utilizando el mismo modelo base que DeepSeek-R1-Zero-Qwen-32B, nuestra implementación logra un rendimiento superior en AIME2024, MATH500 y el benchmark GPQA Diamond, al mismo tiempo que demuestra una eficiencia notable: requiere solo una décima parte de los pasos de entrenamiento en comparación con el pipeline de DeepSeek-R1-Zero. En el espíritu del código abierto, publicamos nuestro código fuente, configuraciones de parámetros, datos de entrenamiento y pesos del modelo en varios tamaños.
A medida que el entusiasmo por escalar el cómputo (datos y parámetros) en la era del preentrenamiento disminuyó gradualmente, la escalabilidad en tiempo de prueba (TTS, por sus siglas en inglés), también conocida como "cómputo en tiempo de prueba", ha surgido como un foco de investigación prominente. Estudios recientes demuestran que TTS puede potenciar aún más las capacidades de resolución de problemas de los modelos de lenguaje grandes (LLMs), permitiendo avances significativos no solo en tareas de razonamiento especializado, como matemáticas y programación, sino también en tareas generales como preguntas y respuestas abiertas. Sin embargo, a pesar del auge de esfuerzos recientes en esta área, sigue existiendo una necesidad urgente de una revisión exhaustiva que ofrezca una comprensión sistémica. Para llenar este vacío, proponemos un marco unificado y multidimensional estructurado en torno a cuatro dimensiones clave de la investigación en TTS: qué escalar, cómo escalar, dónde escalar y qué tan bien escalar. Basándonos en esta taxonomía, realizamos una revisión extensa de métodos, escenarios de aplicación y aspectos de evaluación, y presentamos una descomposición organizada que destaca los roles funcionales únicos de las técnicas individuales dentro del panorama más amplio de TTS. A partir de este análisis, sintetizamos las principales trayectorias de desarrollo de TTS hasta la fecha y ofrecemos pautas prácticas para su implementación. Además, identificamos varios desafíos abiertos y brindamos perspectivas sobre direcciones futuras prometedoras, incluyendo una mayor escalabilidad, la clarificación de la esencia funcional de las técnicas, la generalización a más tareas y más atribuciones.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) mejoran significativamente la capacidad de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs) al aprender a razonar, mostrando un rendimiento prometedor en la resolución de tareas complejas. Sin embargo, su proceso de razonamiento deliberativo conlleva ineficiencias en el uso de tokens, el consumo de memoria y el tiempo de inferencia. Por ello, este estudio ofrece una revisión de los métodos de inferencia eficiente diseñados específicamente para LRMs, centrándose en mitigar la ineficiencia de tokens mientras se preserva la calidad del razonamiento. En primer lugar, introducimos una taxonomía para agrupar los métodos recientes en dos categorías principales: (a) Cadena de Pensamiento (CoT) compacta explícita, que reduce los tokens manteniendo la estructura de razonamiento explícita, y (b) CoT latente implícita, que codifica los pasos de razonamiento dentro de representaciones ocultas en lugar de tokens explícitos. Asimismo, discutimos sus fortalezas y debilidades. Luego, realizamos análisis empíricos de los métodos existentes desde los aspectos de rendimiento y eficiencia. Además, presentamos desafíos abiertos en este campo, incluyendo el razonamiento controlable centrado en el ser humano, el equilibrio entre interpretabilidad y eficiencia del razonamiento, garantizar la seguridad del razonamiento eficiente y aplicaciones más amplias del razonamiento eficiente. Adicionalmente, destacamos ideas clave para mejorar la eficiencia de inferencia de los LRMs mediante técnicas como la fusión de modelos, nuevas arquitecturas y enrutadores de agentes. Esperamos que este trabajo sirva como una guía valiosa, ayudando a los investigadores a superar los desafíos en este campo vibrante.
La síntesis de interacciones humano-escena (HSI) diversas y físicamente plausibles es fundamental tanto para la animación por computadora como para la IA encarnada. A pesar de los avances alentadores, los métodos actuales se centran principalmente en desarrollar controladores separados, cada uno especializado en una tarea de interacción específica. Esto dificulta significativamente la capacidad de abordar una amplia variedad de tareas HSI desafiantes que requieren la integración de múltiples habilidades, por ejemplo, sentarse mientras se sostiene un objeto. Para abordar este problema, presentamos TokenHSI, una política única y unificada basada en transformadores, capaz de unificar múltiples habilidades y adaptarse de manera flexible. La idea clave es modelar la propiocepción del humanoide como un token compartido separado y combinarlo con tokens de tareas distintos mediante un mecanismo de enmascaramiento. Tal política unificada permite un intercambio efectivo de conocimientos entre habilidades, facilitando así el entrenamiento multitarea. Además, nuestra arquitectura de política admite entradas de longitud variable, lo que permite la adaptación flexible de habilidades aprendidas a nuevos escenarios. Al entrenar tokenizadores de tareas adicionales, no solo podemos modificar las geometrías de los objetivos de interacción, sino también coordinar múltiples habilidades para abordar tareas complejas. Los experimentos demuestran que nuestro enfoque puede mejorar significativamente la versatilidad, adaptabilidad y extensibilidad en diversas tareas HSI. Sitio web: https://liangpan99.github.io/TokenHSI/
El entrenamiento de modelos de visión y lenguaje (VLMs, por sus siglas en inglés) generalmente requiere pares de imagen-texto a gran escala y de alta calidad, pero recolectar o sintetizar dichos datos es costoso. En contraste, los datos de texto son abundantes y económicos, lo que plantea la pregunta: ¿se puede sintetizar datos de entrenamiento multimodal de alta calidad únicamente a partir de texto? Para abordar esto, proponemos un marco de síntesis de datos multimodal de tres etapas integradas de manera cruzada, que genera dos conjuntos de datos: Unicorn-1.2M y Unicorn-471K-Instruction. En la Etapa 1: Síntesis de Datos de Subtítulos Diversos, construimos 1.2 millones de subtítulos de alta calidad y semánticamente diversos expandiendo semillas de subtítulos escasos utilizando modelos de lenguaje grandes (LLMs). En la Etapa 2: Generación de Datos de Ajuste por Instrucciones, procesamos adicionalmente 471,000 subtítulos en tareas de ajuste por instrucciones de múltiples turnos para apoyar el razonamiento complejo. Finalmente, en la Etapa 3: Transferencia de Representación de Modalidad, estas representaciones textuales de subtítulos se transforman en representaciones visuales, resultando en representaciones sintéticas de imágenes diversas. Este proceso de tres etapas nos permite construir Unicorn-1.2M para el preentrenamiento y Unicorn-471K-Instruction para el ajuste por instrucciones, sin depender de imágenes reales. Al eliminar la dependencia de imágenes reales mientras se mantiene la calidad y diversidad de los datos, nuestro marco ofrece una solución rentable y escalable para el entrenamiento de VLMs. El código está disponible en https://github.com/Yu-xm/Unicorn.git.
El razonamiento antes de la acción y la imaginación de resultados potenciales (es decir, modelos del mundo) son esenciales para agentes corporizados que operan en entornos complejos y abiertos. Sin embargo, trabajos previos incorporan solo una de estas capacidades en un agente de extremo a extremo o integran múltiples modelos especializados en un sistema de agentes, lo que limita la eficiencia de aprendizaje y la generalización de la política. Por lo tanto, este artículo realiza el primer intento de sinergizar el Razonamiento y la Imaginación en una política Generalista de extremo a extremo, denominada RIG. Para entrenar RIG de manera integral, construimos una canalización de datos que integra y enriquece progresivamente el contenido de la imaginación y el razonamiento en las trayectorias recopiladas de agentes existentes. El aprendizaje conjunto del razonamiento y la generación de la siguiente imagen modela explícitamente la correlación inherente entre el razonamiento, la acción y la dinámica de los entornos, lo que resulta en mejoras de más de 17 veces en la eficiencia de muestreo y la generalización en comparación con trabajos anteriores. Durante la inferencia, RIG primero razona sobre la siguiente acción, genera acciones potenciales y luego predice los resultados de las acciones, lo que ofrece al agente la oportunidad de revisar y autocorregirse basándose en la imaginación antes de realizar acciones reales. Los resultados experimentales muestran que la sinergia entre el razonamiento y la imaginación no solo mejora la robustez, generalización e interoperabilidad de la política generalista, sino que también permite la escalabilidad en tiempo de prueba para mejorar el rendimiento general.
El aprendizaje por refuerzo (RL) con recompensas verificables (RLVR) ha mostrado resultados prometedores en tareas de razonamiento matemático y codificación donde existen respuestas de referencia bien estructuradas. Sin embargo, su aplicabilidad en dominios más amplios sigue siendo poco explorada. En este trabajo, estudiamos la extensión de RLVR a dominios más diversos como la medicina, la química, la psicología y la economía. Observamos un alto acuerdo en juicios binarios entre diferentes modelos de lenguaje grandes (LLMs) cuando existen respuestas de referencia objetivas, lo que cuestiona la necesidad de anotaciones a gran escala para entrenar modelos de recompensa específicos del dominio. Para abordar las limitaciones de las recompensas binarias al manejar respuestas de referencia no estructuradas, incorporamos además puntuaciones suaves basadas en modelos en RLVR para mejorar su flexibilidad. Nuestros experimentos muestran que un modelo generativo de recompensa destilado puede servir como un verificador efectivo entre dominios, proporcionando señales de recompensa confiables para RL sin requerir anotaciones específicas del dominio. Al ajustar un modelo base de 7B utilizando varios algoritmos de RL contra nuestro modelo de recompensa, obtenemos políticas que superan por un amplio margen a los LLMs alineados de código abierto más avanzados, como Qwen2.5-72B-Instruct y DeepSeek-R1-Distill-Qwen-32B, en diversos dominios en entornos de respuestas de formato libre. Esto también refuerza la robustez y escalabilidad de RLVR, destacando su potencial para aplicaciones del mundo real con etiquetas ruidosas o débiles.
La generación y edición de videos condicionados por indicaciones de texto o imágenes han experimentado avances significativos. Sin embargo, persisten desafíos en el control preciso del diseño global y los detalles geométricos únicamente mediante textos, así como en el soporte de control de movimiento y modificación local a través de imágenes. En este artículo, buscamos lograr un control espacial y de movimiento basado en bocetos para la generación de videos, además de apoyar la edición detallada de videos reales o sintéticos. Basándonos en el modelo de generación de videos DiT, proponemos una estructura de control eficiente en memoria con bloques de control de bocetos que predicen características residuales de los bloques DiT omitidos. Los bocetos se dibujan en uno o dos fotogramas clave (en puntos temporales arbitrarios) para facilitar la interacción. Para propagar estas condiciones de boceto temporalmente dispersas a lo largo de todos los fotogramas, proponemos un mecanismo de atención entre fotogramas que analiza la relación entre los fotogramas clave y cada fotograma del video. Para la edición de videos basada en bocetos, diseñamos un módulo adicional de inserción de video que mantiene la coherencia entre el contenido recién editado y la característica espacial y el movimiento dinámico del video original. Durante la inferencia, utilizamos fusión latente para la preservación precisa de las regiones no editadas. Experimentos extensos demuestran que nuestro SketchVideo logra un rendimiento superior en la generación y edición de videos controlables.
Los modelos de lenguaje de gran escala (LLMs) mejorados con razonamiento generan explícitamente pasos intermedios de razonamiento antes de producir respuestas finales, lo que ayuda al modelo a destacar en la resolución de problemas complejos. En este artículo, demostramos que este marco de generación emergente ofrece una oportunidad única para un control más granular sobre el comportamiento del modelo. Proponemos Intervención de Pensamiento, un paradigma novedoso diseñado para guiar explícitamente los procesos internos de razonamiento de los LLMs mediante la inserción o revisión estratégica de tokens de pensamiento específicos. Realizamos evaluaciones exhaustivas en múltiples tareas, incluyendo seguimiento de instrucciones en IFEval, jerarquía de instrucciones en SEP, y alineación de seguridad en XSTest y SORRY-Bench. Nuestros resultados demuestran que la Intervención de Pensamiento supera significativamente los enfoques de prompting basales, logrando mejoras de hasta un 6.7% en precisión en escenarios de seguimiento de instrucciones, un 15.4% en razonamiento sobre jerarquías de instrucciones, y un aumento del 40.0% en las tasas de rechazo para indicaciones inseguras utilizando los modelos de código abierto DeepSeek R1. En general, nuestro trabajo abre una nueva y prometedora vía de investigación para el control de LLMs de razonamiento.
Proponemos un enfoque novedoso para generar salidas complejas que mejora significativamente la precisión en tareas de texto a SQL. Nuestro método aprovecha los resultados de ejecución para seleccionar la consulta más semánticamente consistente entre múltiples candidatos, permitiendo que modelos más pequeños y económicos superen a métodos de razonamiento computacionalmente intensivos como o1, o3-mini y DeepSeek R1, al mismo tiempo que reducen los costos de inferencia hasta 30 veces. Se integra sin esfuerzo con modelos existentes, ofreciendo una vía práctica y escalable para la generación de SQL de última generación.
Es altamente deseable obtener un modelo capaz de generar mallas 3D de alta calidad a partir de indicaciones de texto en solo segundos. Aunque intentos recientes han adaptado modelos de difusión preentrenados de texto a imagen, como Stable Diffusion (SD), para generar representaciones 3D (por ejemplo, Triplano), a menudo sufren de baja calidad debido a la falta de datos de entrenamiento 3D de alta calidad suficientes. Con el objetivo de superar la escasez de datos, proponemos un nuevo esquema de entrenamiento, denominado Distilación de Renderizado Progresivo (PRD), que elimina la necesidad de datos 3D de referencia al destilar modelos de difusión multi-vista y adaptar SD para convertirlo en un generador 3D nativo. En cada iteración del entrenamiento, PRD utiliza la U-Net para desruir progresivamente el espacio latente a partir de ruido aleatorio durante unos pocos pasos, y en cada paso decodifica el espacio latente desruido en una salida 3D. Los modelos de difusión multi-vista, como MVDream y RichDreamer, se utilizan junto con SD para destilar texturas y geometrías consistentes con el texto en las salidas 3D mediante destilación de puntuación. Dado que PRD permite el entrenamiento sin datos 3D de referencia, podemos escalar fácilmente los datos de entrenamiento y mejorar la calidad de generación para indicaciones de texto desafiantes con conceptos creativos. Además, PRD puede acelerar la velocidad de inferencia del modelo de generación en solo unos pocos pasos. Con PRD, entrenamos un generador de Triplano, denominado TriplaneTurbo, que añade solo un 2.5% de parámetros entrenables para adaptar SD a la generación de Triplano. TriplaneTurbo supera a los generadores anteriores de texto a 3D tanto en eficiencia como en calidad. Específicamente, puede producir mallas 3D de alta calidad en 1.2 segundos y generaliza bien para entradas de texto desafiantes. El código está disponible en https://github.com/theEricMa/TriplaneTurbo.
La detección de fraude en telecomunicaciones enfrenta desafíos significativos debido a la falta de datos de entrenamiento multimodal de alta calidad que integren señales de audio con análisis textual orientado al razonamiento. Para abordar esta brecha, presentamos TeleAntiFraud-28k, el primer conjunto de datos de audio-texto de pensamiento lento de código abierto específicamente diseñado para el análisis automatizado de fraude en telecomunicaciones. Nuestro conjunto de datos se construye mediante tres estrategias: (1) Generación de muestras de texto-verdad preservando la privacidad utilizando grabaciones de llamadas transcritas mediante reconocimiento automático de voz (ASR) (con audio original anonimizado), asegurando consistencia en el mundo real mediante la regeneración con modelos de texto a voz (TTS); (2) Mejora semántica mediante muestreo de autoinstrucción basado en modelos de lenguaje grandes (LLM) sobre salidas ASR auténticas para ampliar la cobertura de escenarios; (3) Síntesis adversarial multiagente que simula tácticas emergentes de fraude a través de escenarios de comunicación predefinidos y tipologías de fraude. El conjunto de datos generado contiene 28,511 pares de habla-texto rigurosamente procesados, completos con anotaciones detalladas para el razonamiento de fraude. El conjunto de datos se divide en tres tareas: clasificación de escenarios, detección de fraude y clasificación de tipos de fraude. Además, construimos TeleAntiFraud-Bench, un punto de referencia de evaluación estandarizado que comprende instancias muestreadas proporcionalmente del conjunto de datos, para facilitar pruebas sistemáticas del rendimiento del modelo en tareas de detección de fraude en telecomunicaciones. También contribuimos con un modelo de ajuste fino supervisado (SFT) optimizado para producción, entrenado con datos híbridos reales/sintéticos, mientras liberamos el marco de procesamiento de datos para permitir la expansión del conjunto de datos impulsada por la comunidad. Este trabajo establece un marco fundamental para la investigación multimodal contra el fraude, abordando desafíos críticos en la privacidad de los datos y la diversidad de escenarios. El proyecto se lanzará en https://github.com/JimmyMa99/TeleAntiFraud.
Los modelos de acción son esenciales para permitir que los agentes autónomos realicen tareas complejas. Sin embargo, entrenar modelos de acción de gran escala sigue siendo un desafío debido a la diversidad de entornos de los agentes y la complejidad de los datos agenticos. A pesar del creciente interés, la infraestructura existente ofrece un soporte limitado para el ajuste fino escalable y específico para agentes. Presentamos ActionStudio, un marco de datos y entrenamiento ligero y extensible diseñado para modelos de acción de gran escala. ActionStudio unifica trayectorias heterogéneas de agentes a través de un formato estandarizado, soporta diversos paradigmas de entrenamiento, incluyendo LoRA, ajuste fino completo y configuraciones distribuidas, e integra herramientas robustas de preprocesamiento y verificación. Validamos su efectividad en benchmarks públicos y realistas de la industria, demostrando un rendimiento sólido y una escalabilidad práctica. Hemos liberado el código y los datos en https://github.com/SalesforceAIResearch/xLAM para facilitar la investigación en la comunidad.
En los últimos años, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversos problemas de inteligencia artificial. Sin embargo, no logran planificar de manera confiable, incluso cuando se les proporciona una definición detallada de la tarea de planificación. Intentos por mejorar sus capacidades de planificación, como el prompting de cadena de pensamiento, el ajuste fino y el "razonamiento" explícito, aún producen planes incorrectos y generalmente no logran generalizarse a tareas más grandes. En este artículo, mostramos cómo utilizar LLMs para generar planes correctos, incluso para tareas fuera de distribución de tamaño creciente. Para un dominio de planificación dado, solicitamos a un LLM que genere varias funciones heurísticas dependientes del dominio en forma de código Python, las evaluamos en un conjunto de tareas de entrenamiento dentro de una búsqueda voraz del mejor primero, y seleccionamos la más robusta. Las heurísticas generadas por el LLM resuelven muchas más tareas de prueba no vistas que las heurísticas independientes del dominio de última generación para la planificación clásica. Incluso son competitivas con el algoritmo de aprendizaje más fuerte para la planificación dependiente del dominio. Estos hallazgos son especialmente notables dado que nuestra implementación de prueba de concepto se basa en un planificador Python no optimizado y las comparaciones se construyen sobre código C++ altamente optimizado. En algunos dominios, las heurísticas generadas por el LLM expanden menos estados que las comparaciones, revelando que no solo son computacionalmente eficientes, sino que a veces incluso más informativas que las heurísticas de última generación. En general, nuestros resultados muestran que muestrear un conjunto de programas de funciones heurísticas de planificación puede mejorar significativamente las capacidades de planificación de los LLMs.
Este trabajo se centra en la avatarización 4D de dominio abierto, con el objetivo de crear un avatar 4D a partir de una imagen de retrato en un estilo arbitrario. Seleccionamos triplanos paramétricos como la representación intermedia 4D y proponemos un paradigma de entrenamiento práctico que aprovecha tanto las redes generativas adversarias (GANs) como los modelos de difusión. Nuestro diseño surge de la observación de que las GANs 4D sobresalen en conectar imágenes y triplanos sin supervisión, pero suelen enfrentar desafíos al manejar distribuciones de datos diversas. Un robusto prior de difusión 2D emerge como la solución, ayudando a la GAN a transferir su experiencia a través de diversos dominios. La sinergia entre estos expertos permite la construcción de un conjunto de datos de imágenes-triplanos multidominio, lo que impulsa el desarrollo de un creador de avatares 4D general. Experimentos exhaustivos sugieren que nuestro modelo, AvatarArtist, es capaz de producir avatares 4D de alta calidad con una fuerte robustez frente a diversos dominios de imágenes fuente. El código, los datos y los modelos se pondrán a disposición del público para facilitar estudios futuros.
Los recientes avances en DUSt3R han permitido la estimación robusta de nubes densas de puntos y parámetros de cámara para escenas estáticas, aprovechando arquitecturas de redes Transformer y supervisión directa en conjuntos de datos 3D a gran escala. En contraste, la escala limitada y la diversidad reducida de los conjuntos de datos 4D disponibles representan un cuello de botella importante para entrenar un modelo 4D altamente generalizable. Esta limitación ha llevado a los métodos convencionales 4D a ajustar modelos 3D en datos de video dinámicos escalables, utilizando priores geométricos adicionales como flujo óptico y profundidades. En este trabajo, tomamos un camino opuesto e introducimos Easi3R, un método simple pero eficiente para la reconstrucción 4D que no requiere entrenamiento. Nuestro enfoque aplica adaptación de atención durante la inferencia, eliminando la necesidad de preentrenamiento desde cero o ajuste fino de la red. Descubrimos que las capas de atención en DUSt3R codifican inherentemente información rica sobre el movimiento de la cámara y los objetos. Al desenredar cuidadosamente estos mapas de atención, logramos una segmentación precisa de regiones dinámicas, estimación de la pose de la cámara y reconstrucción de mapas densos de puntos 4D. Experimentos exhaustivos en videos dinámicos del mundo real demuestran que nuestra adaptación de atención ligera supera significativamente a los métodos anteriores de vanguardia que están entrenados o ajustados en extensos conjuntos de datos dinámicos. Nuestro código está disponible públicamente con fines de investigación en https://easi3r.github.io/.
En el ámbito de la creación de contenido 3D, lograr una topología de malla óptima mediante modelos de IA ha sido un objetivo perseguido durante mucho tiempo por los artistas 3D. Métodos anteriores, como MeshGPT, han explorado la generación de objetos 3D listos para usar a través de técnicas auto-regresivas de malla. Aunque estos métodos producen resultados visualmente impresionantes, su dependencia de predicciones token por token en el proceso auto-regresivo conlleva varias limitaciones significativas. Estas incluyen velocidades de generación extremadamente lentas y un número incontrolable de caras de malla. En este artículo, presentamos MeshCraft, un marco novedoso para la generación eficiente y controlable de mallas, que aprovecha la difusión espacial continua para generar caras triangulares discretas. Específicamente, MeshCraft consta de dos componentes principales: 1) un VAE basado en transformadores que codifica mallas crudas en tokens continuos a nivel de cara y las decodifica de vuelta a las mallas originales, y 2) un transformador de difusión basado en flujo condicionado por el número de caras, permitiendo la generación de mallas 3D de alta calidad con un número predefinido de caras. Al utilizar el modelo de difusión para la generación simultánea de toda la topología de la malla, MeshCraft logra una generación de mallas de alta fidelidad a velocidades significativamente más rápidas en comparación con los métodos auto-regresivos. En concreto, MeshCraft puede generar una malla de 800 caras en solo 3.2 segundos (35 veces más rápido que los métodos base existentes). Experimentos exhaustivos demuestran que MeshCraft supera a las técnicas más avanzadas tanto en evaluaciones cualitativas como cuantitativas en el conjunto de datos ShapeNet y muestra un rendimiento superior en el conjunto de datos Objaverse. Además, se integra perfectamente con las estrategias de guía condicional existentes, mostrando su potencial para liberar a los artistas del trabajo manual y tedioso involucrado en la creación de mallas.
La mayoría de los generadores de objetos 3D se centran en la calidad estética, a menudo descuidando las restricciones físicas necesarias en aplicaciones prácticas. Una de estas restricciones es que el objeto 3D debe ser autosoportable, es decir, debe mantenerse equilibrado bajo la gravedad. Enfoques previos para generar objetos 3D estables utilizaban simuladores físicos diferenciables para optimizar la geometría en tiempo de prueba, lo cual es lento, inestable y propenso a óptimos locales. Inspirados por la literatura sobre la alineación de modelos generativos con retroalimentación externa, proponemos Direct Simulation Optimization (DSO), un marco para utilizar la retroalimentación de un simulador (no diferenciable) para aumentar la probabilidad de que el generador 3D produzca objetos estables directamente. Construimos un conjunto de datos de objetos 3D etiquetados con una puntuación de estabilidad obtenida del simulador físico. Luego, podemos ajustar el generador 3D utilizando la puntuación de estabilidad como métrica de alineación, mediante direct preference optimization (DPO) o direct reward optimization (DRO), un objetivo novedoso que introducimos para alinear modelos de difusión sin requerir preferencias por pares. Nuestros experimentos muestran que el generador ajustado, utilizando ya sea el objetivo DPO o DRO, es mucho más rápido y tiene mayor probabilidad de producir objetos estables que la optimización en tiempo de prueba. Notablemente, el marco DSO funciona incluso sin objetos 3D de referencia para el entrenamiento, permitiendo que el generador 3D se auto-mejore al recopilar automáticamente retroalimentación de simulación sobre sus propias salidas.
Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) han surgido para abordar los desafíos de la Respuesta a Preguntas Visuales (VQA, por sus siglas en inglés), generando un nuevo enfoque de investigación sobre la realización de evaluaciones objetivas de estos modelos. Los métodos de evaluación existentes enfrentan limitaciones debido a la significativa carga de trabajo humana requerida para diseñar pares de preguntas y respuestas para imágenes visuales, lo que inherentemente restringe la escala y el alcance de las evaluaciones. Aunque los enfoques automatizados de MLLM-como-juez intentan reducir la carga de trabajo humana mediante evaluaciones automáticas, a menudo introducen sesgos. Para abordar estos problemas, proponemos un marco de Evaluación de MLLM mediante Revisión por Pares No Supervisada (UPME, por sus siglas en inglés). Este marco utiliza únicamente datos de imágenes, permitiendo que los modelos generen automáticamente preguntas y realicen evaluaciones por pares de las respuestas de otros modelos, aliviando efectivamente la dependencia de la carga de trabajo humana. Además, introducimos un sistema de puntuación visión-lenguaje para mitigar los problemas de sesgo, el cual se centra en tres aspectos: (i) corrección de la respuesta; (ii) comprensión y razonamiento visual; y (iii) correlación imagen-texto. Los resultados experimentales demuestran que UPME alcanza una correlación de Pearson de 0.944 con evaluaciones humanas en el conjunto de datos MMstar y de 0.814 en el conjunto de datos ScienceQA, lo que indica que nuestro marco se alinea estrechamente con los puntos de referencia diseñados por humanos y las preferencias humanas inherentes.
Las capacidades de resolución de problemas matemáticos de los modelos de lenguaje de gran escala se han convertido en un punto central de investigación, con un creciente interés en aprovechar las rutas de razonamiento autogeneradas como una forma prometedora de refinar y mejorar estos modelos. Estas rutas capturan procesos lógicos paso a paso mientras requieren únicamente la respuesta correcta para la supervisión. El método de autoentrenamiento ha demostrado ser efectivo en tareas de razonamiento, eliminando la necesidad de modelos externos y anotaciones manuales. Sin embargo, optimizar el uso de datos autogenerados para el entrenamiento del modelo sigue siendo un desafío abierto. En este trabajo, proponemos el Ponderación Adaptativa Basada en Entropía para el Autoentrenamiento (EAST, por sus siglas en inglés), una estrategia de ponderación adaptativa diseñada para priorizar datos inciertos durante el autoentrenamiento. Específicamente, EAST emplea una función de mapeo con un parámetro ajustable que controla la nitidez de la ponderación, asignando pesos más altos a los datos donde el modelo exhibe mayor incertidumbre. Este enfoque guía al modelo a centrarse en ejemplos más informativos y desafiantes, mejorando así su capacidad de razonamiento. Evaluamos nuestro enfoque en los benchmarks GSM8K y MATH. Los resultados empíricos muestran que, mientras el método básico no muestra prácticamente ninguna mejora (0%) en MATH, EAST logra una ganancia de aproximadamente un 1% sobre el modelo base. En GSM8K, EAST alcanza un aumento adicional de rendimiento del 1-2% en comparación con el método básico.
El reciente surgimiento de los Modelos de Visión y Lenguaje a Gran Escala (VLMs, por sus siglas en inglés) ha dado lugar a una variedad de benchmarks diferentes para evaluar dichos modelos. Sin embargo, observamos que la mayoría de los métodos de evaluación existentes adolecen del hecho de que, o bien requieren que el modelo elija entre respuestas predeterminadas, sacrificando la apertura, o bien evalúan las respuestas utilizando un modelo juez, lo que resulta en una evaluación subjetiva y poco confiable. Además, observamos una falta de benchmarks para VLMs en el idioma coreano, los cuales son necesarios como una métrica separada de los benchmarks más comunes en inglés, ya que el rendimiento de los modelos generativos de lenguaje puede variar significativamente según el idioma utilizado. Por lo tanto, presentamos KOFFVQA, un benchmark de propósito general de preguntas y respuestas visuales de formato libre en el idioma coreano para la evaluación de VLMs. Nuestro benchmark consta de 275 preguntas cuidadosamente elaboradas, cada una emparejada con una imagen y criterios de calificación que cubren 10 aspectos diferentes del rendimiento de los VLMs. Los criterios de calificación eliminan el problema de la falta de confiabilidad al permitir que el modelo juez califique cada respuesta basándose en un conjunto de reglas predeterminadas. Al definir los criterios de evaluación de manera objetiva, incluso un modelo pequeño de código abierto puede utilizarse para evaluar modelos en nuestro benchmark de manera confiable. Además de evaluar un gran número de VLMs existentes en nuestro benchmark, también verificamos experimentalmente que nuestro método de utilizar criterios de calificación preexistentes para la evaluación es mucho más confiable que los métodos existentes. Nuestro código de evaluación está disponible en https://github.com/maum-ai/KOFFVQA.
La optimización multiobjetivo evolutiva (EMO, por sus siglas en inglés) ha logrado avances significativos durante las últimas dos décadas. Sin embargo, a medida que aumentan las escalas y complejidades de los problemas, los algoritmos tradicionales de EMO enfrentan limitaciones sustanciales en su rendimiento debido a una insuficiente paralelización y escalabilidad. Si bien la mayoría de los trabajos se han centrado en el diseño de algoritmos para abordar estos desafíos, se ha prestado poca atención a la aceleración por hardware, lo que ha dejado una brecha evidente entre los algoritmos de EMO y los dispositivos de computación avanzados, como las GPU. Para cerrar esta brecha, proponemos paralelizar los algoritmos de EMO en GPU mediante la metodología de tensorización. Al emplear la tensorización, las estructuras de datos y las operaciones de los algoritmos de EMO se transforman en representaciones tensoriales concisas, lo que permite de manera automática y fluida el uso de la capacidad de cómputo de las GPU. Demostramos la efectividad de nuestro enfoque aplicándolo a tres algoritmos representativos de EMO: NSGA-III, MOEA/D y HypE. Para evaluar exhaustivamente nuestra metodología, introducimos un benchmark de control multiobjetivo de robots utilizando un motor de física acelerado por GPU. Nuestros experimentos muestran que los algoritmos de EMO tensorizados logran aceleraciones de hasta 1113 veces en comparación con sus versiones basadas en CPU, manteniendo la calidad de las soluciones y escalando eficazmente los tamaños de población a cientos de miles. Además, los algoritmos de EMO tensorizados abordan eficientemente tareas complejas de control multiobjetivo de robots, produciendo soluciones de alta calidad con comportamientos diversos. Los códigos fuente están disponibles en https://github.com/EMI-Group/evomo.
Los modelos de lenguaje de gran escala preentrenados para video (Video LLMs) exhiben capacidades de razonamiento notables, sin embargo, adaptar estos modelos a nuevas tareas que involucran modalidades o tipos de datos adicionales (por ejemplo, audio o información 3D) sigue siendo un desafío. En este artículo, presentamos PAVE, un marco flexible para adaptar Video LLMs preentrenados a tareas posteriores con señales de canal secundario, como audio, indicaciones 3D o videos de múltiples vistas. PAVE introduce adaptadores ligeros, denominados "parches", que agregan una pequeña cantidad de parámetros y operaciones a un modelo base sin modificar su arquitectura o pesos preentrenados. Al hacerlo, PAVE puede adaptar eficazmente el modelo base preentrenado para admitir diversas tareas posteriores, incluyendo respuestas a preguntas audiovisuales, razonamiento 3D, reconocimiento de videos de múltiples vistas y comprensión de videos de alta tasa de cuadros. En estas tareas, PAVE mejora significativamente el rendimiento del modelo base, superando a los modelos específicos de tarea más avanzados mientras incurre en un costo menor de ~0.1% de FLOPs y parámetros adicionales. Además, PAVE admite el aprendizaje multitarea y se generaliza bien en diferentes Video LLMs. Nuestro código está disponible en https://github.com/dragonlzm/PAVE.
Los métodos de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés) han ganado recientemente una popularidad significativa gracias a la amplia disponibilidad de modelos preentrenados a gran escala. Estos métodos permiten una rápida adaptación a tareas posteriores con un costo computacional mínimo. Sin embargo, los métodos populares de ajuste fino, como LoRA, muestran una robustez limitada en cuanto a la elección de hiperparámetros o regímenes de entrenamiento prolongados, lo que impide un rendimiento óptimo inmediato. En contraste, enfoques acotados, como ETHER, ofrecen una mayor robustez pero están limitados a adaptaciones de rango extremadamente bajo y transformaciones de fuerza fija, reduciendo su poder expresivo de adaptación. En este trabajo, proponemos la Adaptación de Bajo Rango Desacoplada (DeLoRA), un novedoso método de ajuste fino que normaliza y escala matrices de bajo rango aprendibles. Al acotar la distancia de la transformación, DeLoRA desacopla efectivamente el aprendizaje angular de la fuerza de adaptación, mejorando la robustez sin comprometer el rendimiento. A través de evaluaciones en generación de imágenes guiada por temas, comprensión del lenguaje natural y ajuste por instrucciones, demostramos que DeLoRA iguala o supera el rendimiento de los métodos PEFT competidores, mostrando una mayor robustez. El código está disponible en https://github.com/ExplainableML/DeLoRA.
Los gestos co-verbales desempeñan un papel crucial en la comunicación no verbal. En este artículo, presentamos un nuevo marco para la comprensión de gestos co-verbales en entornos naturales. Específicamente, proponemos tres nuevas tareas y puntos de referencia para evaluar la capacidad de un modelo para comprender las asociaciones entre gestos, texto y habla: (i) recuperación basada en gestos, (ii) detección de palabras gesticuladas y (iii) detección de hablantes activos mediante gestos. Presentamos un nuevo enfoque que aprende una representación tri-modal de habla-texto-vídeo-gesto para resolver estas tareas. Al aprovechar una combinación de pérdida contrastiva global de frases y pérdida de acoplamiento local de gestos-palabras, demostramos que se puede aprender una representación sólida de gestos de manera débilmente supervisada a partir de vídeos en entornos naturales. Nuestras representaciones aprendidas superan a métodos anteriores, incluidos los grandes modelos de visión y lenguaje (VLMs), en las tres tareas. Un análisis adicional revela que las modalidades de habla y texto capturan señales relacionadas con gestos distintas, destacando las ventajas de aprender un espacio de incrustación tri-modal compartido. El conjunto de datos, el modelo y el código están disponibles en: https://www.robots.ox.ac.uk/~vgg/research/jegal