Artículos de investigación en IA seleccionados diariamente con traducciones
Con la introducción de técnicas de generación de video basadas en difusión, la generación de video humano condicionada por audio ha logrado recientemente avances significativos tanto en la naturalidad del movimiento como en la síntesis de detalles de retratos. Debido al control limitado de las señales de audio en el impulso del movimiento humano, los métodos existentes a menudo añaden señales espaciales auxiliares para estabilizar los movimientos, lo cual puede comprometer la naturalidad y la libertad de movimiento. En este artículo, proponemos un modelo de difusión de video condicionado solo por audio de extremo a extremo llamado Loopy. Específicamente, diseñamos un módulo temporal inter e intra-clip y un módulo de audio a latentes, permitiendo que el modelo aproveche la información de movimiento a largo plazo de los datos para aprender patrones de movimiento naturales y mejorar la correlación entre audio y movimiento de retrato. Este método elimina la necesidad de plantillas de movimiento espacial especificadas manualmente utilizadas en métodos existentes para restringir el movimiento durante la inferencia. Experimentos extensos muestran que Loopy supera a los modelos recientes de difusión de retratos impulsados por audio, ofreciendo resultados más realistas y de alta calidad en diversos escenarios.
Expandir las capacidades de largo contexto de los Modelos de Lenguaje Multimodal Grande (MLLMs) es crucial para la comprensión de video, la comprensión de imágenes de alta resolución y agentes multimodales. Esto implica una serie de optimizaciones sistemáticas, incluyendo la arquitectura del modelo, la construcción de datos y la estrategia de entrenamiento, abordando particularmente desafíos como el rendimiento degradado con más imágenes y altos costos computacionales. En este artículo, adaptamos la arquitectura del modelo a un híbrido de bloques Mamba y Transformador, abordamos la construcción de datos con dependencias temporales y espaciales entre múltiples imágenes y empleamos una estrategia de entrenamiento progresiva. El modelo liberado LongLLaVA (Asistente de Lenguaje y Visión de Largo Contexto) es el primer MLLM híbrido, que logró un mejor equilibrio entre eficiencia y efectividad. LongLLaVA no solo logra resultados competitivos en varios benchmarks, sino que también mantiene un alto rendimiento y un bajo consumo de memoria. Especialmente, podría procesar casi mil imágenes en una sola GPU A100 de 80GB, mostrando perspectivas de aplicación prometedoras para una amplia gama de tareas.
Aunque los modelos de lenguaje de gran contexto (LLMs) actuales han demostrado capacidades impresionantes para responder preguntas de usuarios basadas en textos extensos, la falta de citas en sus respuestas dificulta la verificación por parte del usuario, lo que genera preocupaciones sobre su confiabilidad debido a posibles alucinaciones. En este trabajo, nuestro objetivo es habilitar a los LLMs de gran contexto para generar respuestas con citas a nivel de oración detalladas, mejorando su fidelidad y verificabilidad. En primer lugar, presentamos LongBench-Cite, un banco de pruebas automatizado para evaluar el rendimiento de los LLMs actuales en la respuesta a preguntas de largo contexto con citas (LQAC), revelando un considerable margen de mejora. Con este fin, proponemos CoF (De Grueso a Fino), un nuevo proceso que utiliza LLMs listos para usar para generar automáticamente instancias de preguntas y respuestas de largo contexto con citas precisas a nivel de oración, y aprovechamos este proceso para construir LongCite-45k, un conjunto de datos a gran escala para LQAC. Finalmente, entrenamos LongCite-8B y LongCite-9B utilizando el conjunto de datos LongCite-45k, lo que permite que generen respuestas precisas y citas detalladas a nivel de oración en una sola salida. Los resultados de evaluación en LongBench-Cite muestran que nuestros modelos entrenados logran una calidad de citas de vanguardia, superando a modelos propietarios avanzados, incluido GPT-4o.
Este documento presenta MMMU-Pro, una versión robusta del benchmark de Comprensión y Razonamiento Multimodal Masivo (MMMU, por sus siglas en inglés). MMMU-Pro evalúa rigurosamente las verdaderas capacidades de comprensión y razonamiento de modelos multimodales a través de un proceso de tres pasos basado en MMMU: (1) filtrar preguntas que pueden ser respondidas por modelos solo de texto, (2) aumentar las opciones de candidatos, y (3) introducir un entorno de entrada solo de visión donde las preguntas están incrustadas en imágenes. Este entorno desafía a la IA a "ver" y "leer" verdaderamente de manera simultánea, poniendo a prueba una habilidad cognitiva humana fundamental de integrar de forma fluida información visual y textual. Los resultados muestran que el rendimiento del modelo es considerablemente menor en MMMU-Pro que en MMMU, con una variación del 16.8% al 26.9% entre modelos. Exploramos el impacto de las indicaciones de OCR y el razonamiento de Cadena de Pensamiento (CoT), encontrando que las indicaciones de OCR tienen un efecto mínimo mientras que CoT generalmente mejora el rendimiento. MMMU-Pro proporciona una herramienta de evaluación más rigurosa, imitando de cerca escenarios del mundo real y ofreciendo direcciones valiosas para futuras investigaciones en IA multimodal.
Estudios recientes han demostrado cada vez más que los datos de alta calidad son cruciales para el preentrenamiento efectivo de modelos de lenguaje. Sin embargo, la definición precisa de "alta calidad" sigue siendo poco explorada. Enfocándonos en el dominio del código, presentamos Arctic-SnowCoder-1.3B, un modelo base de código eficiente en datos preentrenado en 555B tokens a través de tres fases de datos progresivamente refinados: (1) preentrenamiento general con 500B tokens de código de calidad estándar, preprocesados mediante filtrado básico, deduplicación y descontaminación, (2) continuación del preentrenamiento con 50B tokens de alta calidad, seleccionados de la fase uno por un anotador de calidad estilo BERT entrenado para distinguir buen código de datos aleatorios, utilizando ejemplos positivos extraídos de archivos de código de alta calidad, junto con datos de instrucción de Magicoder y StarCoder2-Instruct, y (3) preentrenamiento mejorado con 5B de datos sintéticos creados por Llama-3.1-70B utilizando los datos de la fase dos como semillas, adaptando el enfoque de Magicoder para el preentrenamiento. A pesar de ser entrenado en un conjunto de datos limitado, Arctic-SnowCoder logra un rendimiento de vanguardia en BigCodeBench, un banco de pruebas de codificación centrado en tareas de programación prácticas y desafiantes, en comparación con modelos de tamaño similar entrenados en no más de 1T tokens, superando a Phi-1.5-1.3B en un 36%. En todos los bancos de pruebas evaluados, Arctic-SnowCoder-1.3B supera a StarCoderBase-3B preentrenado en 1T tokens. Además, iguala el rendimiento de los principales modelos base de código pequeños entrenados en billones de tokens. Por ejemplo, Arctic-SnowCoder-1.3B supera a StarCoder2-3B, preentrenado en más de 3.3T tokens, en HumanEval+, un banco de pruebas que evalúa la generación de código a nivel de función, y se mantiene competitivo en BigCodeBench. Nuestra evaluación presenta un análisis exhaustivo que justifica varias decisiones de diseño para Arctic-SnowCoder. Lo más importante, encontramos que la clave para datos de alta calidad es su alineación con la distribución de las aplicaciones posteriores.
Presentamos un marco para la manipulación de robots asistentes, que se centra en dos desafíos fundamentales: primero, adaptar eficientemente modelos a gran escala a tareas de comprensión de la capacidad de acción de escenas secundarias, especialmente en escenarios de la vida diaria donde recopilar datos multitarea que involucren a humanos requiere un esfuerzo arduo; segundo, aprender de manera efectiva trayectorias de robots fundamentadas en el modelo visual de la capacidad de acción. Abordamos el primer desafío empleando un método de ajuste de indicaciones eficiente en parámetros que antepone indicaciones de texto aprendibles al modelo de visión congelado para predecir capacidades de manipulación en escenarios multitarea. Luego proponemos aprender trayectorias de robots guiadas por capacidades de acción en un método supervisado de Coincidencia de Flujo. La coincidencia de flujo representa una política visuomotora de robot como un proceso condicional de flujo de puntos de referencia aleatorios hacia trayectorias de robot deseadas. Finalmente, presentamos un conjunto de datos del mundo real con 10 tareas en Actividades de la Vida Diaria para probar nuestro marco. Nuestra extensa evaluación destaca que el método propuesto de ajuste de indicaciones para aprender la capacidad de acción de manipulación con un indicador de lenguaje logra un rendimiento competitivo e incluso supera a otros protocolos de ajuste fino en diferentes escalas de datos, al tiempo que satisface la eficiencia de parámetros. Aprender trayectorias multitarea de robots con una única política de coincidencia de flujo también conduce a un rendimiento consistentemente mejor que los métodos alternativos de clonación de comportamiento, especialmente dadas las distribuciones de acciones de robots multimodales. Nuestro marco unifica de manera fluida el aprendizaje del modelo de capacidad de acción y la generación de trayectorias con coincidencia de flujo para la manipulación de robots.
Los científicos sociales adoptaron rápidamente los grandes modelos de lenguaje debido a su capacidad para anotar documentos sin entrenamiento supervisado, una habilidad conocida como aprendizaje de cero disparos. Sin embargo, debido a sus demandas computacionales, costos y a menudo naturaleza propietaria, estos modelos a menudo entran en conflicto con los estándares de replicación y ciencia abierta. Este artículo presenta los modelos de lenguaje Político DEBATE (DeBERTa Algorithm for Textual Entailment) para la clasificación de documentos políticos de cero disparos y pocos disparos. Estos modelos no solo son tan buenos o mejores que los modelos de lenguaje grandes de última generación en la clasificación de cero y pocos disparos, sino que son órdenes de magnitud más eficientes y completamente de código abierto. Al entrenar los modelos con una muestra aleatoria simple de 10-25 documentos, pueden superar a los clasificadores supervisados entrenados con cientos o miles de documentos y a los modelos generativos de última generación con indicaciones complejas y diseñadas. Además, liberamos el conjunto de datos PolNLI utilizado para entrenar estos modelos, un corpus de más de 200,000 documentos políticos con etiquetas altamente precisas en más de 800 tareas de clasificación.
Las técnicas de conversión de voz (VC) basadas en difusión, como VoiceGrad, han atraído interés debido a su alto rendimiento en términos de calidad de habla y similitud de locutor. Sin embargo, una limitación notable es la lenta inferencia causada por la difusión inversa de múltiples pasos. Por lo tanto, proponemos FastVoiceGrad, una nueva VC basada en difusión de un solo paso que reduce el número de iteraciones de docenas a una, al tiempo que hereda el alto rendimiento de VC de la VC basada en difusión de múltiples pasos. Obtenemos el modelo utilizando destilación de difusión condicional adversarial (ACDD), aprovechando la capacidad de las redes generativas adversariales y los modelos de difusión al reconsiderar los estados iniciales en el muestreo. Las evaluaciones de VC de cualquier locutor a cualquier locutor en una sola toma demuestran que FastVoiceGrad logra un rendimiento de VC superior o comparable al de VC basadas en difusión de múltiples pasos anteriores, al tiempo que mejora la velocidad de inferencia. Se pueden encontrar muestras de audio en https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.