Artículos de investigación en IA seleccionados diariamente con traducciones
En este documento, presentamos SaulLM-54B y SaulLM-141B, dos modelos de lenguaje grandes (LLMs) diseñados para el sector legal. Estos modelos, que cuentan con arquitecturas de 54 mil millones y 141 mil millones de parámetros respectivamente, se basan en la arquitectura Mixtral. El desarrollo de SaulLM-54B y SaulLM-141B se guía por la adaptación de dominio a gran escala, dividida en tres estrategias: (1) la explotación de un preentrenamiento continuo que implica un corpus base que incluye más de 540 mil millones de tokens legales, (2) la implementación de un protocolo especializado de seguimiento de instrucciones legales, y (3) la alineación de las salidas del modelo con las preferencias humanas en las interpretaciones legales. La integración de datos generados sintéticamente en los pasos dos y tres mejora las capacidades de los modelos en la interpretación y procesamiento de textos legales, alcanzando efectivamente un rendimiento de vanguardia y superando a modelos de código abierto previos en LegalBench-Instruct. Este trabajo explora los compromisos involucrados en la adaptación específica de dominio a esta escala, ofreciendo ideas que pueden orientar estudios futuros sobre adaptación de dominio utilizando modelos decodificadores sólidos. Basándose en SaulLM-7B, este estudio perfecciona el enfoque para producir un LLM mejor equipado para tareas legales. Estamos lanzando versiones base, instruct y alineada sobre SaulLM-54B y SaulLM-141B bajo la Licencia MIT para facilitar la reutilización y la investigación colaborativa.
El Trastorno Depresivo Mayor (TDM) es una afección de salud mental generalizada que afecta a 300 millones de personas en todo el mundo. Este trabajo presenta una novedosa arquitectura de fusión a nivel de modelo basada en BiLSTM para la clasificación binaria de la depresión a partir de grabaciones de entrevistas clínicas. La arquitectura propuesta incorpora Coeficientes Cepstrales de Frecuencia Melódica, Unidades de Acción Facial, y utiliza un modelo GPT-4 basado en aprendizaje de dos disparos para procesar datos de texto. Este es el primer trabajo en incorporar grandes modelos de lenguaje en una arquitectura multimodal para esta tarea. Obtiene resultados impresionantes en la división de validación cruzada del Desafío DAIC-WOZ AVEC 2016 y en la división de validación cruzada de Dejar-A-Un-Sujeto-Afuera, superando a todos los modelos de referencia y a múltiples modelos de vanguardia. En las pruebas de Dejar-A-Un-Sujeto-Afuera, logra una precisión del 91.01%, un puntaje F1 del 85.95%, una precisión del 80%, y una exhaustividad del 92.86%.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado habilidades notables en diversas tareas, sin embargo, su desarrollo se ha centrado predominantemente en idiomas de alto recurso como el inglés y el chino, dejando desatendidos a los idiomas de bajo recurso. Para abordar esta disparidad, presentamos SeaLLMs 3, la última iteración de la familia de modelos SeaLLMs, diseñada para los idiomas del sudeste asiático. Esta región, caracterizada por su rica diversidad lingüística, ha carecido de un adecuado soporte tecnológico del lenguaje. SeaLLMs 3 tiene como objetivo cerrar esta brecha al abarcar una amplia gama de idiomas hablados en esta región, incluyendo inglés, chino, indonesio, vietnamita, tailandés, tagalo, malayo, birmano, jemer, laosiano, tamil y javanés. Aprovechando técnicas eficientes de mejora del lenguaje y un conjunto de datos de ajuste de instrucciones especialmente construido, SeaLLMs 3 reduce significativamente los costos de entrenamiento manteniendo un alto rendimiento y versatilidad. Nuestro modelo destaca en tareas como conocimiento del mundo, razonamiento matemático, traducción y seguimiento de instrucciones, logrando un rendimiento de vanguardia entre modelos de tamaño similar. Además, priorizamos la seguridad y la fiabilidad al abordar consideraciones generales y específicas de la cultura e incorporamos mecanismos para reducir las alucinaciones. Este trabajo subraya la importancia de la IA inclusiva, demostrando que las capacidades avanzadas de los LLM pueden beneficiar a comunidades lingüísticas y culturales desatendidas.
Los modelos de difusión de video han avanzado considerablemente en diversas aplicaciones de generación de video. Sin embargo, entrenar modelos para tareas de generación de video largas requiere recursos computacionales y de datos significativos, lo que representa un desafío para el desarrollo de modelos de difusión de video largos. Este documento investiga un enfoque sencillo y sin entrenamiento para extender un modelo de difusión de video corto existente (por ejemplo, pre-entrenado en videos de 16 cuadros) para una generación de video larga consistente (por ejemplo, 128 cuadros). Nuestra observación preliminar ha encontrado que aplicar directamente el modelo de difusión de video corto para generar videos largos puede llevar a una degradación severa en la calidad del video. Una investigación adicional revela que esta degradación se debe principalmente a la distorsión de los componentes de alta frecuencia en videos largos, caracterizada por una disminución en los componentes de alta frecuencia espaciales y un aumento en los componentes de alta frecuencia temporales. Motivados por esto, proponemos una solución novedosa llamada FreeLong para equilibrar la distribución de frecuencia de las características de video largas durante el proceso de eliminación de ruido. FreeLong combina los componentes de baja frecuencia de las características de video globales, que encapsulan toda la secuencia de video, con los componentes de alta frecuencia de las características de video locales que se centran en subsecuencias más cortas de cuadros. Este enfoque mantiene la consistencia global al incorporar detalles espacio-temporales diversos y de alta calidad de videos locales, mejorando tanto la consistencia como la fidelidad de la generación de video larga. Evaluamos FreeLong en varios modelos base de difusión de video y observamos mejoras significativas. Además, nuestro método admite una generación coherente de múltiples estímulos, asegurando tanto la coherencia visual como transiciones fluidas entre escenas.
El aprendizaje de políticas de robots basado en visión, que mapea entradas visuales a acciones, requiere una comprensión holística de diversas tareas visuales más allá de las necesidades de una sola tarea como clasificación o segmentación. Inspirados en esto, presentamos Theia, un modelo de base visual para el aprendizaje de robots que destila múltiples modelos de base visual listos para usar entrenados en diversas tareas visuales. Las representaciones visuales ricas de Theia codifican conocimientos visuales diversos, mejorando el aprendizaje de robots en etapas posteriores. Experimentos extensos demuestran que Theia supera a sus modelos maestros y a modelos previos de aprendizaje de robots utilizando menos datos de entrenamiento y tamaños de modelo más pequeños. Además, cuantificamos la calidad de las representaciones visuales pre-entrenadas y postulamos que una mayor entropía en las distribuciones de normas de características conduce a un mejor rendimiento en el aprendizaje de robots. El código y los modelos están disponibles en https://github.com/bdaiinstitute/theia.
La búsqueda e integración de información es una tarea cognitiva compleja que consume un tiempo y esfuerzo enormes. Inspirados por el notable progreso de los Modelos de Lenguaje Grande, trabajos recientes intentan resolver esta tarea combinando LLMs y motores de búsqueda. Sin embargo, estos métodos aún obtienen un rendimiento insatisfactorio debido a tres desafíos: (1) las solicitudes complejas a menudo no pueden ser recuperadas de manera precisa y completa por el motor de búsqueda, (2) la información correspondiente a integrar está dispersa en múltiples páginas web junto con un ruido masivo, y (3) un gran número de páginas web con contenidos extensos pueden exceder rápidamente la longitud máxima de contexto de los LLMs. Inspirados por el proceso cognitivo cuando los humanos resuelven estos problemas, presentamos MindSearch para imitar las mentes humanas en la búsqueda e integración de información en la web, que puede ser implementado por un marco multiagente basado en LLM simple pero efectivo. El WebPlanner modela la mente humana de búsqueda de información en múltiples pasos como un proceso de construcción de gráficos dinámicos: descompone la consulta del usuario en subpreguntas atómicas como nodos en el gráfico y extiende progresivamente el gráfico basado en el resultado de búsqueda de WebSearcher. Encargado de cada subpregunta, WebSearcher realiza recuperación jerárquica de información con motores de búsqueda y recopila información valiosa para WebPlanner. El diseño multiagente de MindSearch permite que todo el marco busque e integre información en paralelo desde una escala más grande (por ejemplo, más de 300) páginas web en 3 minutos, lo que equivale a 3 horas de esfuerzo humano. MindSearch demuestra una mejora significativa en la calidad de respuesta en términos de profundidad y amplitud, tanto en problemas de preguntas y respuestas de conjunto cerrado como abierto. Además, las respuestas de MindSearch basadas en InternLM2.5-7B son preferibles por los humanos a las aplicaciones ChatGPT-Web y Perplexity.ai, lo que implica que MindSearch ya puede ofrecer una solución competitiva al motor de búsqueda de IA propietario.
Los avances recientes en los modelos de lenguaje grandes (LLMs) han aumentado la demanda de benchmarks exhaustivos para evaluar sus capacidades como agentes con características humanas. Los benchmarks existentes, aunque útiles, a menudo se centran en escenarios de aplicación específicos, enfatizando la finalización de tareas pero sin desglosar las habilidades subyacentes que impulsan estos resultados. Esta falta de granularidad dificulta discernir profundamente de dónde provienen las fallas. Además, la configuración de estos entornos requiere un esfuerzo considerable, y a veces surgen problemas de falta de fiabilidad y reproducibilidad, especialmente en tareas interactivas. Para abordar estas limitaciones, presentamos el benchmark de Comprensión de Agentes de Multitarea Masiva (MMAU), que incluye tareas exhaustivas sin necesidad de configuraciones de entorno complejas. Evalúa modelos en cinco dominios, incluyendo el Uso de Herramientas, Preguntas y Respuestas de Grafos Acíclicos Dirigidos (DAG), codificación de Ciencia de Datos y Aprendizaje Automático, programación a nivel de competición y Matemáticas, y abarca cinco capacidades esenciales: Comprensión, Razonamiento, Planificación, Resolución de Problemas y Autocorrección. Con un total de 20 tareas meticulosamente diseñadas que abarcan más de 3K indicaciones distintas, MMAU proporciona un marco integral para evaluar las fortalezas y limitaciones de los agentes LLM. Al probar 18 modelos representativos en MMAU, ofrecemos análisis profundos e informativos. En última instancia, MMAU no solo arroja luz sobre las capacidades y limitaciones de los agentes LLM, sino que también mejora la interpretabilidad de su rendimiento. Los conjuntos de datos y scripts de evaluación de MMAU se publican en https://github.com/apple/axlearn/docs/research/mmau.
El Pre-entrenamiento Contrastivo de Lenguaje-Imagen (CLIP), que sobresale en la abstracción de representaciones de mundo abierto a través de dominios y modalidades, se ha convertido en un pilar para una variedad de tareas de visión y multimodales. Sin embargo, estudios recientes revelan que CLIP tiene graves deficiencias visuales, como la dificultad para distinguir orientación, cantidad, color, estructura, etc. Estas deficiencias visuales también limitan las capacidades de percepción de los grandes modelos de lenguaje multimodales (MLLMs) construidos sobre CLIP. La razón principal podría ser que los pares de imagen-texto utilizados para entrenar CLIP están inherentemente sesgados, debido a la falta de distinción del texto y la diversidad de imágenes. En este trabajo, presentamos un enfoque simple de post-entrenamiento para los modelos CLIP, que supera en gran medida sus deficiencias visuales a través de un proceso de difusión auto-supervisado. Introducimos DIVA, que utiliza el modelo de DIfusión como Asistente Visual para CLIP. Específicamente, DIVA aprovecha la retroalimentación generativa de modelos de difusión de texto a imagen para optimizar las representaciones de CLIP, solo con imágenes (sin texto correspondiente). Demostramos que DIVA mejora el rendimiento de CLIP en el desafiante benchmark MMVP-VLM que evalúa las habilidades visuales detalladas en gran medida (por ejemplo, 3-7%), y mejora el rendimiento de MLLMs y modelos de visión en tareas de comprensión y segmentación multimodales. Una extensa evaluación en 29 benchmarks de clasificación y recuperación de imágenes confirma que nuestro marco preserva las sólidas capacidades de cero-shot de CLIP. El código estará disponible en https://github.com/baaivision/DIVA.
El medio visual (imágenes y videos) naturalmente contiene una gran cantidad de redundancia de información, lo que brinda una excelente oportunidad para mejorar la eficiencia en el procesamiento. Si bien los modelos basados en Transformadores de Visión (ViT) escalan eficazmente a regímenes de datos grandes, no logran aprovechar esta redundancia inherente, lo que resulta en costos computacionales más altos. Las redes de Mezcla de Expertos (MoE) demuestran escalabilidad manteniendo los mismos costos de inferencia, pero vienen con una huella de parámetros más grande. Presentamos la Mezcla de Expertos Anidados (MoNE), que utiliza una estructura anidada para expertos, donde los expertos individuales se sitúan en una curva creciente de computación precisión. Dado un presupuesto de computación, MoNE aprende a elegir dinámicamente tokens en un orden de prioridad, procesando así tokens redundantes a través de expertos anidados más económicos. Mediante este marco, logramos un rendimiento equivalente a los modelos de referencia, al tiempo que reducimos el tiempo de inferencia computacional en más del doble. Validamos nuestro enfoque en conjuntos de datos de imágenes y videos estándar - ImageNet-21K, Kinetics400 y Something-Something-v2. Además, destacamos la adaptabilidad de MoNE al demostrar su capacidad para mantener un rendimiento sólido en diferentes presupuestos de computación de tiempo de inferencia en videos, utilizando solo un modelo entrenado.
El entrenamiento efectivo de modelos de lenguaje (LMs) para tareas de razonamiento matemático exige datos de ajuste fino supervisado de alta calidad. Además de obtener anotaciones de expertos humanos, una alternativa común es muestrear de LMs más grandes y potentes. Sin embargo, este enfoque de destilación de conocimiento puede resultar costoso e inestable, especialmente al depender de LMs cerrados y propietarios como GPT-4, cuyos comportamientos suelen ser impredecibles. En este trabajo, demostramos que las habilidades de razonamiento de LMs a pequeña escala pueden mejorarse a través del autoentrenamiento, un proceso en el que los modelos aprenden de sus propias salidas. También mostramos que el autoentrenamiento convencional puede ser mejorado aún más por un algoritmo de aprendizaje de preferencias llamado Optimización Directa de Preferencias (DPO). Al integrar DPO en el autoentrenamiento, aprovechamos los datos de preferencias para guiar a los LMs hacia un razonamiento de cadena de pensamiento más preciso y diverso. Evaluamos nuestro método en diversas tareas de razonamiento matemático utilizando diferentes modelos base. Nuestros experimentos muestran que este enfoque no solo mejora el rendimiento de razonamiento de los LMs, sino que también ofrece una solución más rentable y escalable en comparación con depender de LMs propietarios a gran escala.
Los modelos recientes de reconstrucción 3D a gran escala suelen emplear un proceso de dos etapas, que consiste en primero generar imágenes de múltiples vistas mediante un modelo de difusión de múltiples vistas, y luego utilizar un modelo feed-forward para reconstruir imágenes en contenido 3D. Sin embargo, los modelos de difusión de múltiples vistas a menudo producen imágenes de baja calidad e inconsistentes, afectando negativamente la calidad de la reconstrucción 3D final. Para abordar este problema, proponemos un marco unificado de generación 3D llamado Cycle3D, que utiliza cíclicamente un módulo de generación basado en difusión 2D y un módulo de reconstrucción 3D feed-forward durante el proceso de difusión de múltiples pasos. Concretamente, el modelo de difusión 2D se aplica para generar texturas de alta calidad, y el modelo de reconstrucción garantiza la consistencia de múltiples vistas. Además, el modelo de difusión 2D puede controlar aún más el contenido generado e inyectar información de vista de referencia para vistas no vistas, mejorando así la diversidad y consistencia de textura de la generación 3D durante el proceso de eliminación de ruido. Experimentos extensos demuestran la capacidad superior de nuestro método para crear contenido 3D con alta calidad y consistencia en comparación con las líneas de base de vanguardia.
Imagina observar a alguien rascándose el brazo; para entender por qué, sería necesaria información adicional. Sin embargo, al ver un mosquito cerca, inmediatamente se ofrecería una explicación probable para la incomodidad de la persona, aliviando así la necesidad de más información. Este ejemplo ilustra cómo las sutiles señales visuales pueden desafiar nuestras habilidades cognitivas y demuestra la complejidad de interpretar escenarios visuales. Para estudiar estas habilidades, presentamos Acertijos Visuales, un punto de referencia diseñado para probar modelos de visión y lenguaje en acertijos visuales que requieren sentido común y conocimiento del mundo. El punto de referencia consta de 400 acertijos visuales, cada uno con una imagen única creada por una variedad de modelos de texto a imagen, una pregunta, una respuesta verdadera, una pista textual y una atribución. La evaluación humana revela que los modelos existentes se quedan significativamente atrás del rendimiento humano, que es del 82\% de precisión, con Gemini-Pro-1.5 liderando con un 40\% de precisión. Nuestro punto de referencia viene con tareas de evaluación automática para hacer que la evaluación sea escalable. Estos hallazgos subrayan el potencial de Acertijos Visuales como un recurso valioso para mejorar las capacidades de los modelos de visión y lenguaje en la interpretación de escenarios visuales complejos.
La pregunta y respuesta multimodal en 3D (MQA) desempeña un papel crucial en la comprensión de escenas al permitir que agentes inteligentes comprendan su entorno en entornos 3D. Si bien la investigación existente se ha centrado principalmente en tareas domésticas en interiores y tareas de conducción autónoma en carreteras al aire libre, ha habido una exploración limitada de tareas de comprensión de escenas a nivel de ciudad. Además, la investigación existente enfrenta desafíos en la comprensión de escenas urbanas, debido a la ausencia de información semántica espacial e información de interacción humano-entorno a nivel de ciudad. Para abordar estos desafíos, investigamos la MQA en 3D desde perspectivas tanto de conjunto de datos como de método. Desde la perspectiva del conjunto de datos, presentamos un nuevo conjunto de datos de MQA en 3D llamado City-3DQA para la comprensión de escenas a nivel de ciudad, que es el primer conjunto de datos en incorporar tareas semánticas de escena e interactivas humano-entorno dentro de la ciudad. Desde la perspectiva del método, proponemos un método mejorado de comprensión a nivel de ciudad mediante grafos de escena (Sg-CityU), que utiliza el grafo de escena para introducir la semántica espacial. Se informa un nuevo punto de referencia y nuestro método propuesto Sg-CityU logra una precisión del 63.94 % y del 63.76 % en diferentes configuraciones de City-3DQA. En comparación con los métodos de MQA en 3D en interiores y el uso de modelos de lenguaje avanzados (LLMs) de gran tamaño en cero disparos, Sg-CityU demuestra un rendimiento de última generación (SOTA) en robustez y generalización.
El árabe clásico representa una era significativa, abarcando la época dorada de la cultura árabe, la filosofía y la literatura científica. Con un amplio consenso sobre la importancia de traducir estas literaturas para enriquecer la difusión del conocimiento entre las comunidades, la llegada de grandes modelos de lenguaje (LLMs) y sistemas de traducción ofrece herramientas prometedoras para facilitar este objetivo. Sin embargo, hemos identificado una escasez de conjuntos de datos de traducción en árabe clásico, que a menudo son limitados en alcance y temas, obstaculizando el desarrollo de sistemas de traducción de alta calidad. En respuesta, presentamos el conjunto de datos ATHAR, que consta de 66,000 muestras de traducción de alta calidad de árabe clásico a inglés que abarcan una amplia gama de temas, incluyendo ciencia, cultura y filosofía. Además, evaluamos el rendimiento de los actuales LLMs de última generación bajo diversas configuraciones, concluyendo que existe una necesidad de tales conjuntos de datos en los sistemas actuales. Nuestros hallazgos resaltan cómo los modelos pueden beneficiarse del ajuste fino o la incorporación de este conjunto de datos en sus tuberías de preentrenamiento. El conjunto de datos está disponible públicamente en el HuggingFace Data Hub en https://huggingface.co/datasets/mohamed-khalil/ATHAR.
Los Modelos de Lenguaje de Gran Escala (LLMs) están superando rápidamente el conocimiento humano en muchos dominios. Mientras que tradicionalmente mejorar estos modelos depende de costosos datos humanos, recientes mecanismos de auto-recompensa (Yuan et al., 2024) han demostrado que los LLMs pueden mejorar al evaluar sus propias respuestas en lugar de depender de etiquetadores humanos. Sin embargo, los métodos existentes se han centrado principalmente en mejorar las respuestas del modelo en lugar de las capacidades de juicio, lo que resulta en una rápida saturación durante el entrenamiento iterativo. Para abordar este problema, presentamos un nuevo paso de Meta-Recompensa en el proceso de auto-mejora, donde el modelo evalúa sus propios juicios y utiliza esa retroalimentación para refinar sus habilidades de juicio. Sorprendentemente, este enfoque no supervisado mejora la capacidad del modelo para juzgar y seguir instrucciones, como se demuestra por una mejora en la tasa de éxito de Llama-3-8B-Instruct del 22.9% al 39.4% en AlpacaEval 2, y del 20.6% al 29.1% en Arena-Hard. Estos resultados sugieren fuertemente el potencial de modelos auto-mejorantes sin supervisión humana.
Los modelos generativos, como los modelos de difusión (DMs), los autoencoders variacionales (VAEs) y las redes generativas adversariales (GANs), producen imágenes con un nivel de autenticidad que las hace casi indistinguibles de fotos reales y obras de arte. Aunque esta capacidad es beneficiosa para muchas industrias, la dificultad de identificar imágenes sintéticas deja a las plataformas de medios en línea vulnerables a intentos de suplantación y desinformación. Para apoyar el desarrollo de métodos defensivos, presentamos ImagiNet, un conjunto de datos de alta resolución y equilibrado para la detección de imágenes sintéticas, diseñado para mitigar posibles sesgos en los recursos existentes. Contiene 200K ejemplos, abarcando cuatro categorías de contenido: fotos, pinturas, rostros y no clasificados. Las imágenes sintéticas son generadas con generadores de código abierto y propietarios, mientras que las contrapartes reales del mismo tipo de contenido se recopilan de conjuntos de datos públicos. La estructura de ImagiNet permite un sistema de evaluación de dos vías: i) clasificación como real o sintético y ii) identificación del modelo generativo. Para establecer una línea base, entrenamos un modelo ResNet-50 utilizando un objetivo contrastivo auto-supervisado (SelfCon) para cada vía. El modelo demuestra un rendimiento de vanguardia y una alta velocidad de inferencia en los benchmarks establecidos, logrando un AUC de hasta 0.99 y una precisión equilibrada que oscila entre el 86% y el 95%, incluso bajo condiciones de redes sociales que implican compresión y redimensionamiento. Nuestros datos y código están disponibles en https://github.com/delyan-boychev/imaginet.
El análisis de sentimientos es un área ampliamente investigada dentro del Procesamiento del Lenguaje Natural (PLN), que atrae un interés significativo debido a la llegada de soluciones automatizadas. A pesar de esto, la tarea sigue siendo desafiante debido a la complejidad inherente de los idiomas y la naturaleza subjetiva de los sentimientos. Es aún más desafiante para idiomas menos estudiados y con menos recursos, como el lituano. Nuestra revisión de la investigación existente en PLN lituano revela que los métodos tradicionales de aprendizaje automático y los algoritmos de clasificación tienen una efectividad limitada para la tarea. En este trabajo, abordamos el análisis de sentimientos de reseñas en línea lituanas basadas en cinco estrellas de múltiples dominios que recopilamos y limpiamos. Aplicamos modelos transformadores a esta tarea por primera vez, explorando las capacidades de los Modelos de Lenguaje Grande (LLM) pre-entrenados multilingües, centrándonos específicamente en el ajuste fino de los modelos BERT y T5. Dada la dificultad inherente de la tarea, los modelos ajustados finamente tienen un rendimiento bastante bueno, especialmente cuando los sentimientos mismos son menos ambiguos: una precisión de reconocimiento del 80.74% y 89.61% en pruebas para las reseñas más populares de una y cinco estrellas respectivamente. Superan significativamente al estado del arte comercial actual de los LLM de propósito general GPT-4. Compartimos abiertamente nuestros LLM ajustados finamente en línea.
La creación de avatares fotorrealistas para individuos tradicionalmente implica extensas sesiones de captura con dispositivos de estudio complejos y costosos como el sistema LightStage. Si bien avances recientes en representaciones neuronales han permitido la generación de avatares 3D fotorrealistas y animables a partir de escaneos rápidos de teléfono, estos conservan la iluminación de tiempo de captura, carecen de detalles faciales y presentan regiones faltantes en áreas como la parte trasera de las orejas. Por lo tanto, su calidad es inferior en comparación con los avatares capturados en estudio. En este artículo, proponemos un método que aborda esta brecha al generar mapas de textura iluminados similares a los de estudio a partir de breves capturas monoculares de teléfono. Logramos esto al parametrizar los mapas de textura del teléfono utilizando el espacio W^+ de un StyleGAN2, lo que permite una reconstrucción casi perfecta. Luego, afinamos un StyleGAN2 muestreando en el espacio parametrizado W^+ utilizando un conjunto muy pequeño de texturas capturadas en estudio como señal de entrenamiento adversarial. Para mejorar aún más el realismo y la precisión de los detalles faciales, super-resolvemos la salida del StyleGAN2 utilizando un modelo de difusión cuidadosamente diseñado que es guiado por los gradientes de imagen del mapa de textura capturado por teléfono. Una vez entrenado, nuestro método destaca en la producción de mapas de textura facial similares a los de estudio a partir de videos casuales monoculares de teléfono inteligente. Demostrando sus capacidades, mostramos la generación de avatares fotorrealistas, uniformemente iluminados y completos a partir de capturas monoculares de teléfono. El enlace a la página del proyecto se puede encontrar aquí: http://shahrukhathar.github.io/2024/07/22/Bridging.html.
Presentamos un nuevo enfoque para comprender la estructura de periodicidad y semántica de conjuntos de datos de movimiento, independientemente de la morfología y estructura esquelética de los personajes. A diferencia de los métodos existentes que utilizan un espacio latente de alta dimensionalidad excesivamente disperso, proponemos un espacio de fases compuesto por múltiples curvas cerradas, cada una correspondiente a una amplitud latente. Con nuestro autoencoder periódico vector cuantificado propuesto, aprendemos un espacio de fases compartido para múltiples personajes, como un humano y un perro, sin ninguna supervisión. Esto se logra explotando la estructura discreta y una red superficial como cuellos de botella, de modo que los movimientos semánticamente similares se agrupen en la misma curva del espacio, y los movimientos dentro del mismo componente se alineen temporalmente por la variable de fase. En combinación con un marco de coincidencia de movimiento mejorado, demostramos la capacidad del espacio de fases para el alineamiento temporal y semántico en varias aplicaciones, incluyendo la recuperación, transferencia y estilización de movimiento. El código y los modelos pre-entrenados para este artículo están disponibles en https://peizhuoli.github.io/walkthedog.
La generalización de dominio es un aspecto crucial de un modelo de aprendizaje profundo, ya que determina la capacidad del modelo para desempeñarse bien en datos de dominios no vistos. Sin embargo, la investigación sobre la generalización de dominio de modelos de aprendizaje profundo para tareas de visión y lenguaje sigue siendo limitada, principalmente debido a la falta de conjuntos de datos requeridos. Para abordar estos desafíos, proponemos VolDoGer: Conjunto de datos de Visión-Lenguaje para Generalización de Dominio, un conjunto de datos dedicado diseñado para la generalización de dominio que aborda tres tareas de visión y lenguaje: descripción de imágenes, respuesta a preguntas visuales e implicación visual. Construimos VolDoGer extendiendo técnicas de anotación de datos basadas en LLM a tareas de visión y lenguaje, aliviando así la carga de reclutar anotadores humanos. Evaluamos la generalización de dominio de varios modelos, desde modelos ajustados fino hasta un reciente modelo de lenguaje grande multimodal, a través de VolDoGer.
En este documento, presentamos TAPTRv2, un enfoque basado en Transformer construido sobre TAPTR para resolver la tarea de Seguimiento de Cualquier Punto (TAP). TAPTR toma prestados diseños del Detector Transformer (DETR) y formula cada punto de seguimiento como una consulta de punto, lo que permite aprovechar operaciones bien estudiadas en algoritmos similares a DETR. TAPTRv2 mejora TAPTR al abordar un problema crítico relacionado con su dependencia en el volumen de costos, que contamina la característica de contenido de la consulta de punto y afecta negativamente tanto la predicción de visibilidad como el cálculo del volumen de costos. En TAPTRv2, proponemos una nueva operación de actualización de posición basada en atención (APU) y utilizamos atención deformable consciente de la clave para realizarla. Para cada consulta, esta operación utiliza pesos de atención conscientes de la clave para combinar sus posiciones de muestreo deformables correspondientes y predecir una nueva posición de consulta. Este diseño se basa en la observación de que la atención local es esencialmente lo mismo que el volumen de costos, ambos se calculan mediante el producto punto entre una consulta y sus características circundantes. Al introducir esta nueva operación, TAPTRv2 no solo elimina la carga adicional del cálculo del volumen de costos, sino que también conduce a una mejora sustancial en el rendimiento. TAPTRv2 supera a TAPTR y logra un rendimiento de vanguardia en muchos conjuntos de datos desafiantes, demostrando la superioridad.