Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes de Modelos de Lenguaje Grandes (LLMs) son cada vez más fundamentales para abordar tareas complejas en entornos interactivos. El trabajo existente se centra principalmente en mejorar el rendimiento a través de la clonación de comportamientos de expertos más sólidos, sin embargo, dichos enfoques a menudo fallan en aplicaciones del mundo real, principalmente debido a la incapacidad de recuperarse de errores. Sin embargo, los datos de crítica a nivel de paso son difíciles y costosos de recopilar. Automatizar y construir dinámicamente conjuntos de datos de autocrítica es crucial para capacitar a los modelos con capacidades de agente inteligente. En este trabajo, proponemos un marco de autoentrenamiento iterativo, Agente-R, que permite al Agente de Lenguaje Reflexionar sobre la marcha. A diferencia de los métodos tradicionales que recompensan o penalizan acciones basadas en la corrección, Agente-R aprovecha MCTS para construir datos de entrenamiento que recuperan trayectorias correctas a partir de las erróneas. Un desafío clave de la reflexión del agente radica en la necesidad de una revisión oportuna en lugar de esperar hasta el final de una ejecución. Para abordar esto, introducimos un mecanismo de construcción de crítica guiado por el modelo: el modelo actor identifica el primer paso erróneo (dentro de su capacidad actual) en una trayectoria fallida. A partir de ahí, lo fusionamos con el camino correcto adyacente, que comparte el mismo nodo padre en el árbol. Esta estrategia permite que el modelo aprenda la reflexión basada en su política actual, logrando así una mejor eficiencia de aprendizaje. Para explorar aún más la escalabilidad de este paradigma de auto-mejora, investigamos el refinamiento iterativo tanto de las capacidades de corrección de errores como de la construcción del conjunto de datos. Nuestros hallazgos demuestran que Agente-R mejora continuamente la capacidad del modelo para recuperarse de errores y permite una corrección de errores oportuna. Experimentos en tres entornos interactivos muestran que Agente-R dota efectivamente a los agentes de la capacidad de corregir acciones erróneas evitando bucles, logrando un rendimiento superior en comparación con los métodos de referencia (+5.59%).
Presentamos MMVU, un completo banco de pruebas de nivel experto y multidisciplinario para evaluar modelos fundamentales en comprensión de video. MMVU incluye 3,000 preguntas anotadas por expertos que abarcan 27 materias en cuatro disciplinas principales: Ciencia, Salud, Humanidades y Ciencias Sociales, e Ingeniería. En comparación con bancos de pruebas anteriores, MMVU presenta tres avances clave. En primer lugar, desafía a los modelos a aplicar conocimientos específicos del dominio y realizar razonamientos de nivel experto para analizar videos de dominios especializados, yendo más allá de la percepción visual básica evaluada típicamente en los bancos de pruebas de video actuales. En segundo lugar, cada ejemplo es anotado desde cero por expertos humanos. Implementamos estrictos controles de calidad de datos para garantizar la alta calidad del conjunto de datos. Finalmente, cada ejemplo se enriquece con razonamientos anotados por expertos y conocimientos relevantes del dominio, facilitando el análisis en profundidad. Realizamos una extensa evaluación de 32 modelos fundamentales multimodales de vanguardia en MMVU. Los últimos modelos capaces de Sistema-2, o1 y Gemini 2.0 Flash Thinking, logran el mejor rendimiento entre los modelos probados. Sin embargo, aún no alcanzan el nivel de expertise humano. A través de análisis de errores en profundidad y estudios de casos, ofrecemos ideas prácticas para futuros avances en comprensión de video de nivel experto y con alto contenido de conocimiento para dominios especializados.
Este documento revisita la implementación del Balance de Carga de Pérdida (LBL, por sus siglas en inglés) al entrenar modelos de Mezcla de Expertos (MoEs). Específicamente, LBL para MoEs se define como la suma de N_E sum_{i=1}^{N_E} f_i p_i, donde N_E es el número total de expertos, f_i representa la frecuencia de selección del experto i, y p_i denota la puntuación de enrutamiento promedio del experto i. Los marcos de entrenamiento de MoE existentes suelen emplear la estrategia de entrenamiento paralelo para que f_i y el LBL se calculen dentro de un micro lote y luego se promedien en grupos paralelos. En esencia, un micro lote para entrenar LLMs a escala de miles de millones normalmente contiene muy pocas secuencias. Por lo tanto, el LBL del micro lote está casi a nivel de secuencia, y el enrutador se ve obligado a distribuir el token de manera uniforme dentro de cada secuencia. Bajo esta estricta restricción, incluso los tokens de una secuencia específica de dominio (por ejemplo, código) se dirigen uniformemente a todos los expertos, lo que inhibe la especialización de los expertos. En este trabajo, proponemos calcular LBL usando un lote global para liberar esta restricción. Dado que un lote global contiene secuencias mucho más diversas que un micro lote, lo que fomentará el equilibrio de carga a nivel de corpus. Específicamente, introducimos un paso de comunicación adicional para sincronizar f_i entre micro lotes y luego usarlo para calcular el LBL. A través de experimentos en el entrenamiento de LLMs basados en MoEs (hasta 42.8B parámetros totales y 400B tokens), encontramos sorprendentemente que la estrategia de LBL de lote global produce excelentes ganancias de rendimiento tanto en la perplejidad de pre-entrenamiento como en las tareas posteriores. Nuestro análisis revela que el LBL de lote global también mejora en gran medida la especialización de dominio de los expertos de MoE.
Este documento presenta UI-TARS, un modelo de agente GUI nativo que percibe exclusivamente las capturas de pantalla como entrada y realiza interacciones humanas (por ejemplo, operaciones de teclado y ratón). A diferencia de los marcos de agentes predominantes que dependen en gran medida de modelos comerciales altamente envueltos (por ejemplo, GPT-4o) con indicaciones y flujos de trabajo expertamente elaborados, UI-TARS es un modelo de extremo a extremo que supera a estos marcos sofisticados. Los experimentos demuestran su rendimiento superior: UI-TARS logra un rendimiento de estado del arte en más de 10 benchmarks de agentes GUI que evalúan percepción, fundamentación y ejecución de tareas GUI. Especialmente, en el benchmark OSWorld, UI-TARS logra puntuaciones de 24.6 con 50 pasos y 22.7 con 15 pasos, superando a Claude (22.0 y 14.9 respectivamente). En AndroidWorld, UI-TARS alcanza 46.6, superando a GPT-4o (34.5). UI-TARS incorpora varias innovaciones clave: (1) Percepción Mejorada: aprovechando un conjunto de datos a gran escala de capturas de pantalla GUI para comprensión contextual de elementos de la UI y descripciones precisas; (2) Modelado de Acciones Unificado, que estandariza acciones en un espacio unificado entre plataformas y logra una fundamentación e interacción precisas a través de trazas de acciones a gran escala; (3) Razonamiento Sistema-2, que incorpora razonamiento deliberado en la toma de decisiones de múltiples pasos, involucrando múltiples patrones de razonamiento como descomposición de tareas, pensamiento reflexivo, reconocimiento de hitos, etc. (4) Entrenamiento Iterativo con Trazas Reflectivas en Línea, que aborda la restricción de datos mediante la recopilación automática, filtrado y refinamiento reflexivo de nuevas trazas de interacción en cientos de máquinas virtuales. A través del entrenamiento iterativo y ajuste reflexivo, UI-TARS aprende continuamente de sus errores y se adapta a situaciones imprevistas con una intervención humana mínima. También analizamos la trayectoria de evolución de los agentes GUI para guiar el desarrollo futuro de este dominio.
Presentamos TokenVerse, un método para personalización multi-concepto que aprovecha un modelo de difusión pre-entrenado de texto a imagen. Nuestro marco puede desentrañar elementos visuales y atributos complejos a partir de tan solo una imagen, al tiempo que permite la generación plug-and-play sin problemas de combinaciones de conceptos extraídos de múltiples imágenes. A diferencia de trabajos existentes, TokenVerse puede manejar múltiples imágenes con múltiples conceptos cada una, y soporta una amplia gama de conceptos, incluyendo objetos, accesorios, materiales, pose e iluminación. Nuestro trabajo explota un modelo de texto a imagen basado en DiT, en el cual el texto de entrada afecta la generación a través de la atención y la modulación (desplazamiento y escala). Observamos que el espacio de modulación es semántico y permite un control localizado sobre conceptos complejos. Basándonos en esta percepción, diseñamos un marco basado en optimización que toma como entrada una imagen y una descripción de texto, y encuentra para cada palabra una dirección distinta en el espacio de modulación. Estas direcciones pueden luego ser utilizadas para generar nuevas imágenes que combinen los conceptos aprendidos en una configuración deseada. Demostramos la efectividad de TokenVerse en entornos desafiantes de personalización, y destacamos sus ventajas sobre métodos existentes. Página web del proyecto en https://token-verse.github.io/
A pesar del rendimiento prometedor de los Modelos de Lenguaje de Visión Amplia (LVLMs) en la comprensión visual, ocasionalmente generan salidas incorrectas. Si bien los modelos de recompensa (RMs) con aprendizaje por refuerzo o escalado en tiempo de prueba ofrecen el potencial de mejorar la calidad de generación, aún existe una brecha crítica: los RMs multi-modales públicamente disponibles para LVLMs son escasos, y los detalles de implementación de los modelos propietarios a menudo no están claros. Nosotros cerramos esta brecha con InternLM-XComposer2.5-Reward (IXC-2.5-Reward), un modelo de recompensa multi-modal simple pero efectivo que alinea los LVLMs con las preferencias humanas. Para garantizar la robustez y versatilidad de IXC-2.5-Reward, creamos un corpus de preferencias multi-modales de alta calidad que abarca entradas de texto, imagen y video en diversos dominios, como seguimiento de instrucciones, comprensión general, documentos ricos en texto, razonamiento matemático y comprensión de video. IXC-2.5-Reward logra excelentes resultados en el último benchmark de modelos de recompensa multi-modales y muestra un rendimiento competitivo en los benchmarks de modelos de recompensa solo de texto. Además, demostramos tres aplicaciones clave de IXC-2.5-Reward: (1) Proporcionar una señal de supervisión para el entrenamiento de RL. Integramos IXC-2.5-Reward con la Optimización de Política Proximal (PPO) lo que resulta en IXC-2.5-Chat, que muestra mejoras consistentes en el seguimiento de instrucciones y diálogo multi-modal abierto; (2) Seleccionar la mejor respuesta de entre las respuestas candidatas para el escalado en tiempo de prueba; y (3) Filtrar muestras atípicas o ruidosas de datos de entrenamiento existentes de ajuste de instrucciones de imagen y video. Para garantizar la reproducibilidad y facilitar futuras investigaciones, hemos compartido públicamente todos los pesos del modelo y las recetas de entrenamiento en https://github.com/InternLM/InternLM-XComposer.
Presentamos Hunyuan3D 2.0, un avanzado sistema de síntesis 3D a gran escala para generar activos 3D texturizados de alta resolución. Este sistema incluye dos componentes fundamentales: un modelo de generación de formas a gran escala, Hunyuan3D-DiT, y un modelo de síntesis de texturas a gran escala, Hunyuan3D-Paint. El modelo generativo de formas, construido sobre un transformador de difusión basado en flujos escalables, tiene como objetivo crear geometría que se alinee adecuadamente con una imagen de condición dada, sentando una base sólida para aplicaciones posteriores. El modelo de síntesis de texturas, beneficiándose de fuertes precursores geométricos y de difusión, produce mapas de texturas vibrantes y de alta resolución para mallas generadas o creadas manualmente. Además, desarrollamos Hunyuan3D-Studio, una plataforma de producción versátil y fácil de usar que simplifica el proceso de recreación de activos 3D. Permite a usuarios profesionales y aficionados manipular e incluso animar sus mallas de manera eficiente. Evaluamos sistemáticamente nuestros modelos, demostrando que Hunyuan3D 2.0 supera a modelos anteriores de vanguardia, incluidos los modelos de código abierto y los modelos de código cerrado en detalles de geometría, alineación de condiciones, calidad de textura, etc. Hunyuan3D 2.0 se ha lanzado públicamente para cubrir las lagunas en la comunidad de código abierto 3D en cuanto a modelos generativos de base a gran escala. El código y los pesos pre-entrenados de nuestros modelos están disponibles en: https://github.com/Tencent/Hunyuan3D-2
Los modelos de lenguaje de razonamiento (RLMs), también conocidos como Modelos de Razonamiento Amplios (LRMs), como o1 y o3 de OpenAI, DeepSeek-V3 y QwQ de Alibaba, han redefinido las capacidades de resolución de problemas de la IA al extender los grandes modelos de lenguaje (LLMs) con mecanismos avanzados de razonamiento. Sin embargo, sus altos costos, naturaleza propietaria y arquitecturas complejas, que combinan de manera única el Aprendizaje por Refuerzo (RL), heurísticas de búsqueda y LLMs, presentan desafíos de accesibilidad y escalabilidad. Para abordar estos desafíos, proponemos un plan integral que organiza los componentes de los RLM en un marco modular, basado en una encuesta y análisis de todos los trabajos de RLM. Este plan incorpora diversas estructuras de razonamiento (cadenas, árboles, grafos y formas anidadas), estrategias de razonamiento (por ejemplo, Búsqueda Monte Carlo Tree, Búsqueda Beam), conceptos de RL (modelos de política, de valor y otros) y esquemas de supervisión (Supervisión Basada en la Salida y Basada en el Proceso). También proporcionamos formulaciones matemáticas detalladas y especificaciones algorítmicas para simplificar la implementación de RLM. Al mostrar cómo esquemas como LLaMA-Berry, QwQ, Journey Learning y Graph of Thoughts encajan como casos especiales, demostramos la versatilidad y el potencial unificador del plan. Para ilustrar su utilidad, presentamos x1, una implementación modular para prototipado y experimentación rápida de RLM. Utilizando x1 y una revisión de la literatura, ofrecemos ideas clave, como el entrenamiento en fases múltiples para modelos de política y de valor, y la importancia de las distribuciones de entrenamiento familiares. Finalmente, delineamos cómo los RLMs pueden integrarse con un ecosistema LLM más amplio, incluyendo herramientas y bases de datos. Nuestro trabajo desmitifica la construcción de RLM, democratiza las capacidades avanzadas de razonamiento y fomenta la innovación, con el objetivo de mitigar la brecha entre la "IA rica" y la "IA pobre" al reducir las barreras para el desarrollo y experimentación de RLM.
Los teléfonos inteligentes se han vuelto indispensables en la vida moderna, sin embargo, la realización de tareas complejas en dispositivos móviles a menudo sigue siendo frustrante. Los avances recientes en agentes móviles basados en modelos multimodales grandes (LMM) han demostrado la capacidad de percibir y actuar en entornos móviles. Sin embargo, los enfoques actuales enfrentan limitaciones significativas: no logran abordar las necesidades humanas del mundo real, tienen dificultades con tareas intensivas en razonamiento y a largo plazo, y carecen de mecanismos para aprender y mejorar a partir de experiencias previas. Para superar estos desafíos, presentamos Mobile-Agent-E, un marco jerárquico de múltiples agentes capaz de autoevolucionar a través de experiencias pasadas. Por jerárquico, nos referimos a una separación explícita de la planificación de alto nivel y la ejecución de acciones de bajo nivel. El marco comprende un Gerente, responsable de idear planes generales desglosando tareas complejas en submetas, y cuatro agentes subordinados: Perceptor, Operador, Reflector de Acción y Tomador de Notas, que manejan percepción visual detallada, ejecución de acciones inmediatas, verificación de errores y agregación de información, respectivamente. Mobile-Agent-E también cuenta con un módulo de autoevolución novedoso que mantiene una memoria a largo plazo persistente que incluye Consejos y Atajos. Los Consejos son orientaciones generales y lecciones aprendidas de tareas anteriores sobre cómo interactuar efectivamente con el entorno. Los Atajos son secuencias reutilizables y ejecutables de operaciones atómicas adaptadas para subrutinas específicas. La inclusión de Consejos y Atajos facilita el refinamiento continuo en rendimiento y eficiencia. Junto con este marco, presentamos Mobile-Eval-E, un nuevo punto de referencia que presenta tareas móviles complejas que requieren interacciones de múltiples aplicaciones a largo plazo. Los resultados empíricos muestran que Mobile-Agent-E logra una mejora absoluta del 22% sobre enfoques anteriores de vanguardia en tres estructuras de modelos base. Página del proyecto: https://x-plug.github.io/MobileAgent.
Los agentes autónomos impulsados por grandes modelos de lenguaje (LLMs) tienen el potencial de mejorar las capacidades humanas, asistiendo en tareas digitales desde enviar correos electrónicos hasta realizar análisis de datos. Las habilidades de los LLMs existentes en tales tareas suelen ser obstaculizadas por la falta de datos de alta calidad del agente provenientes de los entornos correspondientes con los que interactúan. Proponemos Aprender-por-interactuar, un marco centrado en datos para adaptar agentes LLM a cualquier entorno dado sin anotaciones humanas. Aprender-por-interactuar sintetiza trayectorias de interacciones agente-entorno basadas en documentaciones, y construye instrucciones mediante la síntesis o abstracción de historiales de interacción, un proceso llamado construcción inversa. Evaluamos la calidad de nuestros datos sintéticos utilizándolos tanto en escenarios basados en entrenamiento como en aprendizaje en contexto sin entrenamiento (ICL), donde diseñamos enfoques de recuperación innovadores optimizados para agentes. Experimentos extensos en SWE-bench, WebArena, OSWorld y Spider2-V que abarcan entornos realistas de codificación, web y de escritorio muestran la efectividad de Aprender-por-interactuar en diversas tareas agénticas posteriores -- los resultados base se mejoran hasta un 12.2\% para ICL con Claude-3.5 y un 19.5\% para entrenamiento con Codestral-22B. Además, demostramos el papel crítico de la construcción inversa, que proporciona hasta un 14.0\% de mejora para el entrenamiento. Nuestros estudios de ablación demuestran la eficiencia proporcionada por nuestros datos sintetizados en ICL y la superioridad de nuestra canalización de recuperación sobre enfoques alternativos como la generación aumentada por recuperación convencional (RAG). Esperamos que Aprender-por-interactuar sirva como una base para la síntesis de datos de agentes a medida que los LLMs se despliegan cada vez más en entornos del mundo real.
Depth Anything ha logrado un notable éxito en la estimación de profundidad monocular con una sólida capacidad de generalización. Sin embargo, sufre de inconsistencia temporal en videos, lo que dificulta sus aplicaciones prácticas. Se han propuesto diversos métodos para mitigar este problema mediante el aprovechamiento de modelos de generación de video o la introducción de conocimientos previos de flujo óptico y posiciones de cámara. No obstante, estos métodos solo son aplicables a videos cortos (< 10 segundos) y requieren un equilibrio entre calidad y eficiencia computacional. Proponemos Video Depth Anything para una estimación de profundidad consistente y de alta calidad en videos superlargos (de varios minutos) sin sacrificar eficiencia. Basamos nuestro modelo en Depth Anything V2 y reemplazamos su cabeza con una cabeza espacial-temporal eficiente. Diseñamos una pérdida de consistencia temporal directa pero efectiva al restringir el gradiente temporal de profundidad, eliminando la necesidad de conocimientos previos geométricos adicionales. El modelo se entrena en un conjunto de datos conjunto de profundidad de video e imágenes no etiquetadas, similar a Depth Anything V2. Además, se ha desarrollado una estrategia novedosa basada en fotogramas clave para la inferencia de videos largos. Los experimentos muestran que nuestro modelo puede aplicarse a videos de longitud arbitraria sin comprometer calidad, consistencia o capacidad de generalización. Evaluaciones exhaustivas en múltiples conjuntos de datos de video demuestran que nuestro enfoque establece un nuevo estado del arte en la estimación de profundidad de video sin necesidad de entrenamiento. Ofrecemos modelos de diferentes escalas para soportar una variedad de escenarios, siendo nuestro modelo más pequeño capaz de un rendimiento en tiempo real a 30 FPS.
La modelización generativa tiene como objetivo transformar ruido aleatorio en salidas estructuradas. En este trabajo, mejoramos los modelos de difusión de video al permitir el control del movimiento a través del muestreo de ruido latente estructurado. Esto se logra simplemente con un cambio en los datos: preprocesamos videos de entrenamiento para producir ruido estructurado. En consecuencia, nuestro método es independiente del diseño del modelo de difusión, no requiriendo cambios en las arquitecturas de los modelos o en los flujos de entrenamiento. Específicamente, proponemos un algoritmo novedoso de deformación de ruido, lo suficientemente rápido para ejecutarse en tiempo real, que reemplaza la aleatoriedad temporal gaussiana con ruido deformado correlacionado derivado de campos de flujo óptico, al tiempo que preserva la gaussianidad espacial. La eficiencia de nuestro algoritmo nos permite ajustar modelos de base de difusión de video modernos utilizando ruido deformado con un sobrecoste mínimo, y proporcionar una solución integral para una amplia gama de controles de movimiento amigables para el usuario: control de movimiento de objetos locales, control de movimiento de cámara global y transferencia de movimiento. La armonización entre coherencia temporal y gaussianidad espacial en nuestro ruido deformado conduce a un control de movimiento efectivo manteniendo la calidad de píxeles por cuadro. Experimentos extensos y estudios de usuarios demuestran las ventajas de nuestro método, convirtiéndolo en un enfoque robusto y escalable para controlar el movimiento en modelos de difusión de video. Los resultados en video están disponibles en nuestra página web: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. El código fuente y los puntos de control del modelo están disponibles en GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
Mostramos que las etiquetas GPS contenidas en los metadatos de las fotos proporcionan una señal de control útil para la generación de imágenes. Entrenamos modelos de GPS a imagen y los utilizamos para tareas que requieren una comprensión detallada de cómo varían las imágenes dentro de una ciudad. En particular, entrenamos un modelo de difusión para generar imágenes condicionadas tanto por GPS como por texto. El modelo aprendido genera imágenes que capturan la apariencia distintiva de diferentes vecindarios, parques y puntos de referencia. También extraemos modelos 3D de modelos de GPS a imagen 2D a través de muestreo de destilación de puntuación, utilizando el condicionamiento GPS para restringir la apariencia de la reconstrucción desde cada punto de vista. Nuestras evaluaciones sugieren que nuestros modelos condicionados por GPS aprenden con éxito a generar imágenes que varían según la ubicación, y que el condicionamiento GPS mejora la estructura 3D estimada.
La calidad de los datos de Ajuste Fino Supervisado (SFT) juega un papel crítico en mejorar las capacidades conversacionales de los Modelos de Lenguaje Grandes (LLMs). Sin embargo, a medida que los LLMs se vuelven más avanzados, la disponibilidad de datos de SFT de alta calidad anotados por humanos se ha convertido en un cuello de botella significativo, lo que requiere una mayor dependencia de datos de entrenamiento sintéticos. En este trabajo, presentamos Condor, un novedoso marco de generación de datos sintéticos de dos etapas que incorpora el Árbol de Conocimiento Mundial y la Refinación de Autorreflexión para producir datos de SFT de alta calidad a escala. Nuestros resultados experimentales demuestran que un modelo base ajustado fino solo con 20K muestras generadas por Condor logra un rendimiento superior en comparación con contrapartes. La etapa adicional de refinamiento en Condor además permite la auto-mejora iterativa para LLMs en varias escalas (hasta 72B), validando la efectividad de nuestro enfoque. Además, nuestra investigación sobre la escalabilidad para datos sintéticos en post-entrenamiento revela un potencial sustancial no explorado para mejoras de rendimiento, abriendo prometedores caminos para futuras investigaciones.
En este documento, proponemos un novedoso método de generación de cabezas parlantes impulsado por audio capaz de generar simultáneamente expresiones faciales altamente expresivas y gestos de manos. A diferencia de los métodos existentes que se centran en generar poses de cuerpo completo o medio cuerpo, investigamos los desafíos de la generación de gestos co-verbales e identificamos la débil correspondencia entre las características de audio y los gestos de cuerpo completo como una limitación clave. Para abordar esto, redefinimos la tarea como un proceso de dos etapas. En la primera etapa, generamos poses de manos directamente a partir de la entrada de audio, aprovechando la fuerte correlación entre las señales de audio y los movimientos de manos. En la segunda etapa, empleamos un modelo de difusión para sintetizar fotogramas de video, incorporando las poses de manos generadas en la primera etapa para producir expresiones faciales realistas y movimientos corporales. Nuestros resultados experimentales demuestran que el método propuesto supera a enfoques de vanguardia, como CyberHost y Vlogger, en cuanto a calidad visual y precisión de sincronización. Este trabajo proporciona una nueva perspectiva sobre la generación de gestos impulsada por audio y un marco robusto para crear animaciones de cabezas parlantes expresivas y naturales.
Presentamos MAGI, un marco híbrido de generación de video que combina modelado enmascarado para la generación intra-frame con modelado causal para la generación del siguiente frame. Nuestra innovación clave, Enseñanza Completa Forzada (CTF), condiciona los frames enmascarados en frames de observación completos en lugar de enmascarados (llamado Enseñanza Forzada enmascarada, MTF), permitiendo una transición fluida desde la generación autoregresiva a nivel de token (nivel de parche) a nivel de frame. CTF supera significativamente a MTF, logrando una mejora del +23% en las puntuaciones FVD en la predicción de video condicionada al primer frame. Para abordar problemas como el sesgo de exposición, empleamos estrategias de entrenamiento específicas, estableciendo un nuevo punto de referencia en la generación autoregresiva de video. Los experimentos muestran que MAGI puede generar secuencias de video largas y coherentes que superan los 100 frames, incluso cuando se entrena con tan solo 16 frames, resaltando su potencial para una generación de video escalable y de alta calidad.
Investigamos la relación entre la geometría de los embeddings de tokens y su papel en la predicción del siguiente token dentro de los modelos transformer. Un aspecto importante de esta conexión utiliza la noción de medida empírica, que codifica la distribución de nubes de puntos de tokens a lo largo de las capas del transformer y dirige la evolución de las representaciones de tokens en el marco de interacción de campo medio. Utilizamos métricas como la dimensión intrínseca, la superposición de vecindarios y la similitud del coseno para explorar observacionalmente estas medidas empíricas a lo largo de las capas. Para validar nuestro enfoque, comparamos estas métricas con un conjunto de datos donde los tokens están desordenados, lo que interrumpe la estructura sintáctica y semántica. Nuestros hallazgos revelan una correlación entre las propiedades geométricas de los embeddings de tokens y la pérdida de entropía cruzada de las predicciones del siguiente token, lo que implica que las indicaciones con valores de pérdida más altos tienen tokens representados en espacios de mayor dimensión.
Los modelos visión-lenguaje (VLMs), que procesan entradas de imagen y texto, se integran cada vez más en asistentes de chat y otras aplicaciones de IA para consumidores. Sin embargo, sin las debidas precauciones, los VLMs pueden dar consejos perjudiciales (por ejemplo, sobre cómo autolesionarse) o fomentar comportamientos inseguros (por ejemplo, el consumo de drogas). A pesar de estos riesgos evidentes, hasta ahora se ha realizado poco trabajo para evaluar la seguridad de los VLMs y los nuevos riesgos creados por las entradas multimodales. Para abordar esta brecha, presentamos MSTS, una Suite de Pruebas de Seguridad Multimodal para VLMs. MSTS consta de 400 indicaciones de prueba en 40 categorías de riesgo detalladas. Cada indicación de prueba consiste en un texto y una imagen que solo en combinación revelan su completo significado inseguro. Con MSTS, encontramos problemas de seguridad evidentes en varios VLMs abiertos. También descubrimos que algunos VLMs son seguros por accidente, lo que significa que son seguros porque no logran entender incluso indicaciones de prueba simples. Traducimos MSTS a diez idiomas, mostrando indicaciones no inglesas para aumentar la tasa de respuestas inseguras del modelo. También demostramos que los modelos son más seguros cuando se prueban solo con texto en lugar de indicaciones multimodales. Por último, exploramos la automatización de las evaluaciones de seguridad de los VLMs, encontrando que incluso los mejores clasificadores de seguridad son insuficientes.
La generación de titulares de noticias personalizados tiene como objetivo proporcionar a los usuarios titulares llamativos adaptados a sus preferencias. Los métodos predominantes se centran en las preferencias de contenido orientadas al usuario, pero la mayoría de ellos pasan por alto el hecho de que las diversas preferencias estilísticas son fundamentales para los intereses panorámicos de los usuarios, lo que conduce a una personalización subóptima. En vista de esto, proponemos un nuevo marco de Generación de Titulares Personalizados Consciente del Estilo-Contenido (SCAPE). SCAPE extrae tanto características de contenido como estilísticas de los titulares con la ayuda de la colaboración de un gran modelo de lenguaje (LLM). Además, integra de forma adaptativa los intereses a largo y corto plazo de los usuarios a través de una red de fusión jerárquica basada en aprendizaje contrastivo. Al incorporar los intereses panorámicos en el generador de titulares, SCAPE refleja las preferencias de estilo-contenido de los usuarios durante el proceso de generación. Experimentos extensos en el conjunto de datos del mundo real PENS demuestran la superioridad de SCAPE sobre los baselines.
Los Modelos de Lenguaje con Visión Amplia (LVLMs) han demostrado capacidades notables en comprender y describir contenido visual, logrando un rendimiento de vanguardia en diversas tareas de visión y lenguaje. Sin embargo, estos modelos a menudo muestran un comportamiento de alucinación, generando descripciones que contienen objetos o detalles ausentes en la imagen de entrada. Nuestro trabajo investiga este fenómeno mediante el análisis de patrones de atención en las capas y cabezas del transformador, revelando que las alucinaciones a menudo se originan a partir de la degradación progresiva del anclaje visual en capas más profundas. Proponemos un enfoque novedoso de modificación de atención que combina énfasis selectivo en tokens y modulación específica de cabezas para mantener el anclaje visual a lo largo del proceso de generación. Nuestro método introduce dos componentes clave: (1) un mecanismo de selección de tokens de doble flujo que identifica y prioriza tokens visuales informativos localmente y significativos espacialmente, y (2) una estrategia de modulación específica de cabeza de atención que amplifica diferencialmente el procesamiento de información visual según la sensibilidad visual medida de las cabezas de atención individuales. A través de experimentación extensiva en el conjunto de datos MSCOCO, demostramos que nuestro enfoque reduce las tasas de alucinación hasta en un 62.3\% en comparación con los modelos base, manteniendo un rendimiento de tarea comparable. Nuestro análisis revela que modular selectivamente tokens a través de cabezas de atención con diferentes niveles de sensibilidad visual puede mejorar significativamente el anclaje visual sin necesidad de volver a entrenar el modelo.