Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos el Modelo Reconocer Cualquier Cosa (RAM, por sus siglas en inglés): un modelo base robusto para etiquetado de imágenes. RAM puede reconocer cualquier categoría común con alta precisión. RAM introduce un nuevo paradigma para el etiquetado de imágenes, aprovechando pares de imagen-texto a gran escala para el entrenamiento en lugar de anotaciones manuales. El desarrollo de RAM comprende cuatro pasos clave. En primer lugar, se obtienen etiquetas de imágenes sin anotaciones a gran escala mediante análisis semántico automático de texto. Posteriormente, se entrena un modelo preliminar para anotación automática unificando las tareas de descripción y etiquetado, supervisado por los textos originales y las etiquetas analizadas, respectivamente. En tercer lugar, se emplea un motor de datos para generar anotaciones adicionales y limpiar las incorrectas. Por último, el modelo se reentrena con los datos procesados y se ajusta utilizando un conjunto de datos más pequeño pero de mayor calidad. Evaluamos las capacidades de etiquetado de RAM en numerosos benchmarks y observamos un rendimiento impresionante en zero-shot, superando significativamente a CLIP y BLIP. Notablemente, RAM incluso supera los enfoques completamente supervisados y muestra un rendimiento competitivo con la API de Google. Estamos liberando RAM en https://recognize-anything.github.io/ para fomentar los avances de los modelos grandes en visión por computadora.
El ajuste por instrucciones ha avanzado significativamente los modelos de lenguaje grande (LLMs, por sus siglas en inglés), como ChatGPT, permitiéndoles alinearse con las instrucciones humanas en diversas tareas. Sin embargo, el progreso en los modelos abiertos de visión y lenguaje (VLMs, por sus siglas en inglés) ha sido limitado debido a la escasez de conjuntos de datos de instrucciones de alta calidad. Para abordar este desafío y promover la investigación en el campo de visión y lenguaje, presentamos el conjunto de datos Multi-Modal, Multilingual Instruction Tuning (M^3IT), diseñado para optimizar la alineación de los VLMs con las instrucciones humanas. Nuestro conjunto de datos M^3IT comprende 40 conjuntos de datos cuidadosamente seleccionados, incluyendo 2.4 millones de instancias y 400 instrucciones de tareas escritas manualmente, reformateadas en una estructura de visión a texto. Las tareas clave se han traducido a 80 idiomas utilizando un sistema de traducción avanzado, garantizando una mayor accesibilidad. M^3IT supera a los conjuntos de datos anteriores en términos de cobertura de tareas, número de instrucciones y escala de instancias. Además, desarrollamos Ying-VLM, un modelo VLM entrenado en nuestro conjunto de datos M^3IT, que demuestra su potencial para responder preguntas complejas que requieren conocimiento del mundo, generalizar a tareas de video no vistas y comprender instrucciones no vistas en chino. Para fomentar futuras investigaciones, hemos liberado tanto el conjunto de datos como los modelos entrenados.
Nos enfocamos en una tarea novedosa: la creación de avatares parlantes con recursos limitados. Dado un video de pocos minutos de una persona hablando, que incluye la pista de audio como datos de entrenamiento, y textos arbitrarios como entrada de control, nuestro objetivo es sintetizar videos de retratos parlantes de alta calidad que correspondan al texto de entrada. Esta tarea tiene amplias perspectivas de aplicación en la industria de los humanos digitales, pero aún no se ha logrado técnicamente debido a dos desafíos principales: (1) Es difícil imitar el timbre de audio fuera del dominio para un sistema tradicional de conversión de texto a voz (TTS) multi-hablante. (2) Es complicado renderizar avatares parlantes de alta fidelidad y sincronizados labialmente con datos de entrenamiento limitados. En este artículo, presentamos Adaptive Text-to-Talking Avatar (Ada-TTA), que (1) diseña un modelo genérico de TTS multi-hablante de cero disparos que desentrelaza eficazmente el contenido del texto, el timbre y la prosodia; y (2) aprovecha los avances recientes en renderizado neuronal para lograr la generación realista de videos de rostros parlantes impulsados por audio. Con estos diseños, nuestro método supera los dos desafíos mencionados y logra generar discursos que preservan la identidad y videos realistas de personas hablando. Los experimentos demuestran que nuestro método puede sintetizar videos de avatares parlantes realistas, que preservan la identidad y están sincronizados audio-visualmente.
Encontrar correspondencias entre imágenes es un problema fundamental en visión por computadora. En este artículo, demostramos que la correspondencia emerge en los modelos de difusión de imágenes sin ninguna supervisión explícita. Proponemos una estrategia simple para extraer este conocimiento implícito de las redes de difusión como características de imagen, denominadas DIffusion FeaTures (DIFT), y las utilizamos para establecer correspondencias entre imágenes reales. Sin necesidad de ajustes adicionales ni supervisión en datos o anotaciones específicas de la tarea, DIFT es capaz de superar tanto a métodos débilmente supervisados como a características competitivas preexistentes en la identificación de correspondencias semánticas, geométricas y temporales. Específicamente para la correspondencia semántica, DIFT de Stable Diffusion supera a DINO y OpenCLIP en 19 y 14 puntos de precisión respectivamente en el desafiante benchmark SPair-71k. Incluso supera a los métodos supervisados de última generación en 9 de 18 categorías, manteniéndose a la par en el rendimiento general. Página del proyecto: https://diffusionfeatures.github.io
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden utilizarse para generar datos de texto para entrenar y evaluar otros modelos. Sin embargo, crear conjuntos de datos de alta calidad con LLMs puede ser un desafío. En este trabajo, exploramos asociaciones entre humanos e IA para facilitar una alta diversidad y precisión en la generación de datos de texto basada en LLMs. Primero examinamos dos enfoques para diversificar la generación de texto: 1) la supresión de logits, que minimiza la generación de lenguajes que ya han sido generados con frecuencia, y 2) el muestreo de temperatura, que aplana la probabilidad de muestreo de tokens. Descubrimos que los enfoques de diversificación pueden aumentar la diversidad de los datos, pero a menudo a costa de la precisión de los datos (es decir, que el texto y las etiquetas sean apropiados para el dominio objetivo). Para abordar este problema, examinamos dos intervenciones humanas: 1) la sustitución de etiquetas (LR, por sus siglas en inglés), que corrige etiquetas desalineadas, y 2) el filtrado de fuera de alcance (OOSF, por sus siglas en inglés), que elimina instancias que están fuera del dominio de interés del usuario o a las que no se aplica ninguna etiqueta considerada. Con estudios de oráculo, encontramos que LR aumenta la precisión absoluta de los modelos entrenados con conjuntos de datos diversificados en un 14,4%. Además, descubrimos que algunos modelos entrenados con datos generados con intervenciones de LR superaron la clasificación basada en LLMs con pocos ejemplos. Por el contrario, OOSF no fue efectivo para aumentar la precisión del modelo, lo que implica la necesidad de trabajos futuros en la generación de datos de texto con intervención humana en el ciclo.
Los modelos de lenguaje suelen alcanzar mayor precisión cuando razonan paso a paso en tareas complejas. Sin embargo, su razonamiento puede ser incorrecto, inconsistente o depender de suposiciones previas no deseables. Para abordar estos problemas, introducimos una clase de herramientas para modelos de lenguaje llamadas guías, que utilizan estado y restricciones incrementales para guiar la generación. Una guía puede ser invocada por el modelo para restringir su propia generación a un conjunto de enunciados válidos proporcionados por la herramienta. A su vez, las decisiones del modelo pueden alterar el estado de la guía. Mostramos cómo un sistema general para razonamiento lógico puede usarse como guía, al que llamamos LogicGuide. Dado un problema de razonamiento en lenguaje natural, un modelo puede formalizar sus suposiciones para LogicGuide y luego garantizar que sus pasos de razonamiento sean correctos. En experimentos con los conjuntos de datos de razonamiento PrOntoQA y ProofWriter, LogicGuide mejora significativamente el rendimiento de GPT-3, GPT-3.5 Turbo y LLaMA (ganancias de precisión de hasta 35%). LogicGuide también reduce drásticamente los efectos de contenido: la interferencia de suposiciones previas y actuales de la que tanto humanos como modelos de lenguaje han demostrado sufrir. Finalmente, exploramos el autoaprendizaje de LLaMA 13B a partir de su propio razonamiento y encontramos que LogicGuide es crucial: al entrenarse únicamente con razonamientos autogenerados certificados, LLaMA puede mejorarse a sí mismo, evitando aprender de sus propias alucinaciones.
La adaptación de dominio utilizando únicamente corpus de texto es un desafío en el reconocimiento de voz de extremo a extremo (E2E). La adaptación mediante la síntesis de audio a partir de texto a través de TTS (Text-to-Speech) consume muchos recursos. Presentamos un método para aprender Representaciones Unificadas de Voz y Texto en un Transductor Conformer (USTR-CT) que permite una rápida adaptación de dominio utilizando únicamente corpus de texto. A diferencia del método anterior de textograma, en nuestro trabajo se introduce un codificador de texto adicional para aprender la representación del texto, el cual se elimina durante la inferencia, por lo que no se requiere modificación para el despliegue en línea. Para mejorar la eficiencia de la adaptación, también se exploran adaptaciones de un solo paso y de múltiples pasos. Los experimentos de adaptación de LibriSpeech a SPGISpeech muestran que el método propuesto reduce la tasa de error de palabras (WER) en un 44% relativo en el dominio objetivo, superando tanto al método TTS como al método de textograma. Además, se demuestra que el método propuesto puede combinarse con la estimación del modelo de lenguaje interno (ILME) para mejorar aún más el rendimiento.
A pesar de memorizar fácilmente el conocimiento mundial sobre entidades, los modelos de lenguaje preentrenados (LMs) tienen dificultades para combinar dos o más hechos para realizar razonamientos de múltiples saltos en tareas de respuesta a preguntas. En este trabajo, proponemos técnicas que mejoran esta limitación basándonos en caminatas aleatorias sobre grafos de conocimiento estructurados. Específicamente, utilizamos indicaciones suaves (soft prompts) para guiar a los LMs a encadenar su conocimiento codificado, aprendiendo a mapear preguntas de múltiples saltos a trayectorias de caminatas aleatorias que conducen a la respuesta. La aplicación de nuestros métodos en dos modelos T5 muestra mejoras sustanciales sobre los enfoques de ajuste estándar al responder preguntas que requieren razonamiento de 2 saltos.
En este artículo presentamos un enfoque para localizar temporalmente los pasos de actividades procedimentales en videos instructivos narrados. Para abordar la escasez de datos etiquetados a gran escala, obtenemos las descripciones de los pasos de una base de conocimiento lingüístico (wikiHow) que contiene artículos instructivos para una amplia variedad de tareas procedimentales. Sin ninguna forma de supervisión manual, nuestro modelo aprende a anclar temporalmente los pasos de los artículos procedimentales en videos instructivos mediante la correspondencia de tres modalidades: fotogramas, narraciones y descripciones de pasos. Específicamente, nuestro método alinea los pasos con el video fusionando información de dos vías distintas: i) alineación {\em directa} de las descripciones de pasos con los fotogramas, ii) alineación {\em indirecta} obtenida al componer las correspondencias pasos-a-narraciones con narraciones-a-video. Cabe destacar que nuestro enfoque realiza un anclaje temporal global de todos los pasos de un artículo simultáneamente al aprovechar la información de orden, y se entrena con pseudo-etiquetas de pasos que se refinan iterativamente y se filtran de manera agresiva. Para validar nuestro modelo, introducimos un nuevo punto de referencia de evaluación -- HT-Step -- obtenido mediante la anotación manual de un subconjunto de 124 horas de HowTo100M. El servidor de pruebas está accesible en \url{https://eval.ai/web/challenges/challenge-page/2082.} con pasos obtenidos de artículos de wikiHow. Los experimentos en este punto de referencia, así como las evaluaciones zero-shot en CrossTask, demuestran que nuestra alineación multimodal produce mejoras significativas frente a varias líneas base y trabajos previos. Finalmente, mostramos que nuestro módulo interno para emparejar narraciones con video supera por un amplio margen el estado del arte en el punto de referencia de alineación narración-video HTM-Align.