Artículos de investigación en IA seleccionados diariamente con traducciones
Las notables capacidades multimodales y la experiencia interactiva de GPT-4o subrayan su necesidad en aplicaciones prácticas, sin embargo, los modelos de código abierto rara vez destacan en ambas áreas. En este documento, presentamos VITA, el primer Modelo de Lenguaje Multimodal Grande (MLLM, por sus siglas en inglés) de código abierto capaz de procesar y analizar simultáneamente modalidades de Video, Imagen, Texto y Audio, y al mismo tiempo cuenta con una avanzada experiencia interactiva multimodal. Comenzando desde Mixtral 8x7B como base lingüística, ampliamos su vocabulario chino seguido de un ajuste de instrucciones bilingüe. Además, dotamos al modelo de lenguaje con capacidades visuales y de audio a través del aprendizaje multitarea en dos etapas de alineación multimodal y ajuste de instrucciones. VITA demuestra sólidas capacidades fundamentales de comprensión multilingüe, visual y auditiva, como lo demuestra su sólido rendimiento en una variedad de pruebas tanto unimodales como multimodales. Más allá de las capacidades fundamentales, hemos avanzado considerablemente en mejorar la experiencia natural de interacción humano-computadora multimodal. Hasta donde sabemos, somos los primeros en explotar la interacción no despertadora y la interrupción de audio en MLLM. VITA es el primer paso para que la comunidad de código abierto explore la integración fluida de comprensión e interacción multimodal. Aunque aún queda mucho trabajo por hacer en VITA para acercarse a sus contrapartes de código cerrado, esperamos que su papel como pionero pueda servir como piedra angular para investigaciones posteriores. Página del Proyecto: https://vita-home.github.io.
Los autoencoders dispersos (SAEs) son un método no supervisado para aprender una descomposición dispersa de las representaciones latentes de una red neuronal en características aparentemente interpretables. A pesar del entusiasmo reciente sobre su potencial, las aplicaciones de investigación fuera de la industria se ven limitadas por el alto costo de entrenar una suite completa de SAEs. En este trabajo, presentamos Gemma Scope, una suite abierta de SAEs JumpReLU entrenados en todas las capas y subcapas de los modelos base Gemma 2 2B y 9B, y en capas seleccionadas de los modelos base Gemma 2 27B. Entrenamos principalmente los SAEs en los modelos pre-entrenados de Gemma 2, pero también liberamos SAEs entrenados en Gemma 2 9B ajustados por instrucción para comparación. Evaluamos la calidad de cada SAE en métricas estándar y publicamos estos resultados. Esperamos que al liberar estos pesos de SAE, podamos facilitar la investigación de seguridad e interpretabilidad más ambiciosa para la comunidad. Los pesos y un tutorial se pueden encontrar en https://huggingface.co/google/gemma-scope y una demo interactiva en https://www.neuronpedia.org/gemma-scope.
Los Modelos de Lenguaje Multimodal Grande (MLLMs) han demostrado capacidades notables para ejecutar instrucciones en una variedad de tareas de imagen única. A pesar de este progreso, persisten desafíos significativos en modelar secuencias de imagen largas. En este trabajo, presentamos el versátil modelo de lenguaje multimodal grande, mPLUG-Owl3, que mejora la capacidad para comprender secuencias de imagen largas en escenarios que incorporan conocimiento imagen-texto recuperado, imagen-texto entrelazado y videos extensos. Específicamente, proponemos bloques de hiperatención novedosos para integrar eficientemente la visión y el lenguaje en un espacio semántico guiado por el lenguaje común, facilitando así el procesamiento de escenarios de múltiples imágenes extendidos. Los extensos resultados experimentales sugieren que mPLUG-Owl3 logra un rendimiento de vanguardia entre los modelos de tamaño similar en tareas de imagen única, múltiples imágenes y videos. Además, proponemos una evaluación desafiante de secuencias visuales largas llamada Resistencia a Distractores para evaluar la capacidad de los modelos de mantener el enfoque en medio de distracciones. Finalmente, con la arquitectura propuesta, mPLUG-Owl3 demuestra un rendimiento sobresaliente en entradas de secuencias visuales ultra largas. Esperamos que mPLUG-Owl3 pueda contribuir al desarrollo de modelos de lenguaje multimodal grande más eficientes y potentes.
Significant research efforts have been made to scale and improve vision-language model (VLM) training approaches. Yet, with an ever-growing number of benchmarks, researchers are tasked with the heavy burden of implementing each protocol, bearing a non-trivial computational cost, and making sense of how all these benchmarks translate into meaningful axes of progress. To facilitate a systematic evaluation of VLM progress, we introduce UniBench: a unified implementation of 50+ VLM benchmarks spanning a comprehensive range of carefully categorized capabilities from object recognition to spatial awareness, counting, and much more. We showcase the utility of UniBench for measuring progress by evaluating nearly 60 publicly available vision-language models, trained on scales of up to 12.8B samples. We find that while scaling training data or model size can boost many vision-language model capabilities, scaling offers little benefit for reasoning or relations. Surprisingly, we also discover today's best VLMs struggle on simple digit recognition and counting tasks, e.g. MNIST, which much simpler networks can solve. Where scale falls short, we find that more precise interventions, such as data quality or tailored-learning objectives offer more promise. For practitioners, we also offer guidance on selecting a suitable VLM for a given application. Finally, we release an easy-to-run UniBench code-base with the full set of 50+ benchmarks and comparisons across 59 models as well as a distilled, representative set of benchmarks that runs in 5 minutes on a single GPU.
Los recientes avances en modelos de lenguaje de gran escala (LLMs) han generado un creciente interés en la investigación de LLMs asistidos por herramientas para resolver desafíos del mundo real, lo que requiere una evaluación exhaustiva de las capacidades de uso de herramientas. Mientras que trabajos anteriores se centraron en evaluar ya sea servicios web sin estado (API RESTful), basados en una única indicación del usuario, o en una trayectoria de diálogo fuera de política, ToolSandbox incluye la ejecución de herramientas con estado, dependencias de estado implícitas entre herramientas, un simulador de usuario incorporado que soporta evaluación conversacional en política y una estrategia de evaluación dinámica para hitos intermedios y finales sobre una trayectoria arbitraria. Mostramos que los modelos de código abierto y propietarios tienen una brecha de rendimiento significativa, y tareas complejas como Dependencia de Estado, Canonicalización e Información Insuficiente definidas en ToolSandbox representan un desafío incluso para los LLMs SOTA más capaces, proporcionando nuevos y valiosos conocimientos sobre las capacidades de uso de herramientas de LLMs. El marco de evaluación de ToolSandbox se encuentra disponible en https://github.com/apple/ToolSandbox
A pesar del progreso prometedor en la superresolución de imágenes faciales, la superresolución de caras en videos sigue siendo relativamente poco explorada. Los enfoques existentes suelen adaptar redes generales de superresolución de videos a conjuntos de datos de caras o aplicar modelos establecidos de superresolución de imágenes faciales de forma independiente en cuadros de video individuales. Estos paradigmas enfrentan desafíos ya sea en la reconstrucción de detalles faciales o en la mantenimiento de la consistencia temporal. Para abordar estos problemas, presentamos un nuevo marco llamado Propagación de Características Inspirada en Kalman (KEEP), diseñado para mantener una prioridad facial estable en el tiempo. Los principios de filtrado de Kalman ofrecen a nuestro método una capacidad recurrente para utilizar la información de cuadros previamente restaurados para guiar y regular el proceso de restauración del cuadro actual. Experimentos extensos demuestran la efectividad de nuestro método en capturar detalles faciales de manera consistente a lo largo de los cuadros de video. El código y una demostración en video están disponibles en https://jnjaby.github.io/projects/KEEP.
La inversión textual sigue siendo un método popular para personalizar modelos de difusión, con el fin de enseñar a los modelos nuevos temas y estilos. Observamos que la inversión textual ha sido poco explorada utilizando alternativas a la UNet, y experimentamos con la inversión textual utilizando un transformador de visión. También buscamos optimizar la inversión textual utilizando una estrategia que no requiera el uso explícito de la UNet y sus capas idiosincráticas, por lo que añadimos tokens de bonificación y aplicamos ortogonalidad. Observamos que el uso del token de bonificación mejora la fidelidad a las imágenes fuente y el uso del transformador de visión mejora la fidelidad a la indicación. El código está disponible en https://github.com/jamesBaker361/tex_inv_plus.
En este documento, presentamos MooER, un modelo de reconocimiento automático del habla (ASR) / traducción automática del habla (AST) a gran escala basado en LLM de Moore Threads. Se utiliza un conjunto de datos pseudoetiquetado de 5000 horas que contiene datos de habla de código abierto y recopilados por nosotros mismos para el entrenamiento. Logramos un rendimiento comparable a otros modelos de código abierto entrenados con cientos de miles de horas de datos de habla etiquetados. Mientras tanto, los experimentos realizados en el conjunto de pruebas Covost2 Zh2en sugieren que nuestro modelo supera a otros LLM de habla de código abierto. Se puede obtener un puntaje BLEU de 25.2. Las principales contribuciones de este documento se resumen de la siguiente manera. Primero, este documento presenta una estrategia de entrenamiento para codificadores y LLM en tareas relacionadas con el habla (incluido ASR y AST) utilizando una pequeña cantidad de datos pseudoetiquetados sin ninguna anotación manual adicional y selección. En segundo lugar, liberamos nuestros modelos de ASR y AST y planeamos hacer público nuestro código y estrategia de entrenamiento en un futuro cercano. Además, está previsto lanzar más adelante un modelo entrenado en datos de entrenamiento a escala de 8wh.
La conversión de voz tiene como objetivo modificar la voz del hablante de origen para que se asemeje al hablante de destino, preservando al mismo tiempo el contenido original del discurso. A pesar de los notables avances en la conversión de voz en la actualidad, la conversión de voz multilingüe (que incluye escenarios tanto monolingües como cruzados) aún no ha sido estudiada extensamente. Enfrenta dos desafíos principales: 1) la considerable variabilidad en la prosodia y los hábitos de articulación entre idiomas; y 2) la escasez de conjuntos de datos multilingües emparejados del mismo hablante. En este documento, proponemos MulliVC, un novedoso sistema de conversión de voz que solo convierte el timbre y conserva el contenido original y la prosodia del idioma de origen sin datos emparejados multilingües. Específicamente, cada paso de entrenamiento de MulliVC consta de tres subpasos: en el primer paso, el modelo se entrena con datos de habla monolingües; luego, los pasos dos y tres se inspiran en la traducción inversa, construyen un proceso cíclico para desentrañar el timbre y otra información (contenido, prosodia y otra información relacionada con el idioma) en ausencia de datos multilingües del mismo hablante. Tanto los resultados objetivos como subjetivos indican que MulliVC supera significativamente a otros métodos tanto en contextos monolingües como cruzados, demostrando la eficacia del sistema y la viabilidad del enfoque de tres pasos con consistencia cíclica. Se pueden encontrar muestras de audio en nuestra página de demostración (mullivc.github.io).
Los modelos de lenguaje de redes neuronales (LMs) han demostrado capturar con éxito conocimientos lingüísticos complejos. Sin embargo, su utilidad para comprender la adquisición del lenguaje sigue siendo motivo de debate. Contribuimos a este debate presentando un estudio de caso en el que utilizamos LMs como aprendices simulados para derivar nuevas hipótesis experimentales que serán probadas con humanos. Aplicamos este paradigma para estudiar la generalización dativa cruzada (CDG): la generalización productiva de verbos novedosos a través de construcciones dativas (ella me lanzó la pelota/ella lanzó la pelota hacia mí) -- cuya adquisición se sabe que implica un amplio espacio de características contextuales -- utilizando LMs entrenadas en el habla dirigida a niños. Específicamente preguntamos: "¿qué propiedades de la exposición al entrenamiento facilitan la generalización de un verbo novedoso a la construcción dativa alternativa (no modelada)?" Para responder a esto, variamos sistemáticamente el contexto de exposición en el que ocurre un verbo dativo novedoso en términos de las propiedades del tema y del destinatario, y luego analizamos el uso de dicho verbo novedoso por parte de los LMs en la construcción dativa no modelada. Encontramos que los LMs replican patrones conocidos de la CDG en niños, como condición previa para explorar nuevas hipótesis. Las simulaciones posteriores revelan un papel matizado de las características del contexto de exposición de los verbos novedosos en la CDG de los LMs. Observamos que la CDG se facilita cuando el primer argumento postverbal del contexto de exposición es pronominal, definido, corto y se ajusta a las expectativas prototípicas de animacidad del dativo de exposición. Estos patrones son característicos de la alineación armónica en dativos, donde el argumento con características que ocupan un lugar más alto en la escala de prominencia discursiva tiende a preceder al otro. Esto da lugar a una nueva hipótesis que sugiere que la CDG se facilita en la medida en que las características del contexto de exposición -- en particular, su primer argumento postverbal -- están armónicamente alineadas. Concluimos proponiendo futuros experimentos que puedan poner a prueba esta hipótesis en niños.