Artículos de investigación en IA seleccionados diariamente con traducciones
Con el avance de los modelos de texto a imagen (por ejemplo, Stable Diffusion) y las técnicas de personalización correspondientes como DreamBooth y LoRA, cualquier persona puede materializar su imaginación en imágenes de alta calidad a un costo asequible. Posteriormente, existe una gran demanda de técnicas de animación de imágenes para combinar aún más las imágenes estáticas generadas con dinámicas de movimiento. En este informe, proponemos un marco práctico para animar la mayoría de los modelos personalizados de texto a imagen existentes de una vez por todas, ahorrando esfuerzos en ajustes específicos del modelo. En el núcleo del marco propuesto se encuentra la inserción de un módulo de modelado de movimiento recién inicializado en el modelo congelado de texto a imagen y su entrenamiento en clips de video para destilar prioridades de movimiento razonables. Una vez entrenado, al simplemente inyectar este módulo de modelado de movimiento, todas las versiones personalizadas derivadas del mismo modelo base de texto a imagen (T2I) se convierten fácilmente en modelos impulsados por texto que producen imágenes animadas diversas y personalizadas. Realizamos nuestra evaluación en varios modelos representativos y públicos de texto a imagen personalizados, abarcando tanto imágenes de anime como fotografías realistas, y demostramos que nuestro marco propuesto ayuda a estos modelos a generar clips de animación temporalmente suaves mientras preservan el dominio y la diversidad de sus salidas. El código y los pesos preentrenados estarán disponibles públicamente en https://animatediff.github.io/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han establecido un plan para el avance de la inteligencia artificial general. Su objetivo principal es funcionar como un asistente centrado en el ser humano (útil, honesto e inofensivo). La alineación con los humanos adquiere una importancia primordial, y el aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) surge como el paradigma tecnológico clave que sustenta este objetivo. Las rutas técnicas actuales suelen incluir modelos de recompensa para medir las preferencias humanas, la Optimización de Políticas Proximales (PPO, por sus siglas en inglés) para optimizar las salidas del modelo de políticas, y la supervisión de procesos para mejorar las capacidades de razonamiento paso a paso. Sin embargo, debido a los desafíos del diseño de recompensas, la interacción con el entorno y el entrenamiento de agentes, junto con los enormes costos de prueba y error de los modelos de lenguaje de gran escala, existe una barrera significativa para que los investigadores de IA impulsen el desarrollo de la alineación técnica y el aterrizaje seguro de los LLMs. El entrenamiento estable de RLHF sigue siendo un enigma. En el primer informe, analizamos el marco de RLHF, reevaluamos el funcionamiento interno de PPO y exploramos cómo los componentes que conforman los algoritmos PPO impactan en el entrenamiento de los agentes de políticas. Identificamos que las restricciones de políticas son el factor clave para la implementación efectiva del algoritmo PPO. Por lo tanto, exploramos el PPO-max, una versión avanzada del algoritmo PPO, para mejorar eficientemente la estabilidad del entrenamiento del modelo de políticas. Basándonos en nuestros principales resultados, realizamos un análisis exhaustivo de las capacidades de RLHF en comparación con los modelos SFT y ChatGPT. La ausencia de implementaciones de código abierto ha planteado desafíos significativos para la investigación de la alineación de los LLMs. Por ello, estamos ansiosos por publicar informes técnicos, modelos de recompensa y códigos de PPO.
Recientemente se han logrado avances significativos en aplicaciones creativas de modelos grandes preentrenados para tareas posteriores en visión 3D, como la generación de formas a partir de texto. Esto motiva nuestra investigación sobre cómo estos modelos preentrenados pueden utilizarse de manera efectiva para generar formas 3D a partir de bocetos, lo cual ha seguido siendo un desafío abierto debido a los conjuntos de datos limitados de pares boceto-forma y al nivel variable de abstracción en los bocetos. Descubrimos que condicionar un modelo generativo 3D con las características (obtenidas de un modelo de visión grande preentrenado y congelado) de representaciones sintéticas durante el entrenamiento nos permite generar efectivamente formas 3D a partir de bocetos en el momento de la inferencia. Esto sugiere que las características del modelo de visión grande preentrenado contienen señales semánticas que son resistentes a cambios de dominio, es decir, permitiéndonos usar únicamente representaciones RGB, pero generalizando a bocetos en el momento de la inferencia. Realizamos un conjunto exhaustivo de experimentos que investigan diferentes factores de diseño y demostramos la efectividad de nuestro enfoque directo para la generación de múltiples formas 3D por cada boceto de entrada, independientemente de su nivel de abstracción, sin requerir ningún conjunto de datos emparejado durante el entrenamiento.
Presentamos Emu, un modelo fundacional multimodal basado en Transformers, capaz de generar imágenes y textos de manera fluida en contextos multimodales. Este modelo omnívoro puede procesar indistintamente cualquier entrada de datos unimodal o multimodal (por ejemplo, secuencias intercaladas de imágenes, texto y video) mediante un proceso de entrenamiento autorregresivo de un modelo para todos. Primero, las señales visuales se codifican en embeddings, que junto con los tokens de texto forman una secuencia de entrada intercalada. Emu se entrena de extremo a extremo con un objetivo unificado de clasificar el siguiente token de texto o predecir el siguiente embedding visual en la secuencia multimodal. Esta versatilidad multimodal permite explorar diversas fuentes de datos de preentrenamiento a gran escala, como videos con fotogramas y texto intercalados, páginas web con imágenes y texto intercalados, así como pares de imagen-texto y video-texto a escala web. Emu puede servir como una interfaz multimodal generalista tanto para tareas de imagen a texto como de texto a imagen, y admite la generación de imágenes y textos en contexto. En una amplia gama de tareas de cero disparos/pocos disparos, incluyendo la generación de descripciones de imágenes, respuesta a preguntas visuales, respuesta a preguntas sobre videos y generación de imágenes a partir de texto, Emu demuestra un rendimiento sobresaliente en comparación con los modelos multimodales grandes más avanzados. También se muestran capacidades extendidas, como asistentes multimodales mediante ajuste por instrucciones, con un rendimiento impresionante.
En este artículo presentamos Semantic-SAM, un modelo universal de segmentación de imágenes capaz de segmentar y reconocer cualquier cosa en cualquier nivel de granularidad deseado. Nuestro modelo ofrece dos ventajas clave: conciencia semántica y abundancia de granularidad. Para lograr la conciencia semántica, consolidamos múltiples conjuntos de datos en tres niveles de granularidad e introducimos una clasificación desacoplada para objetos y partes. Esto permite que nuestro modelo capture información semántica rica. Para la capacidad multi-granularidad, proponemos un esquema de aprendizaje multi-opción durante el entrenamiento, permitiendo que cada clic genere máscaras en múltiples niveles que corresponden a múltiples máscaras de referencia. Cabe destacar que este trabajo representa el primer intento de entrenar conjuntamente un modelo en los conjuntos de datos SA-1B, genéricos y de segmentación de partes. Los resultados experimentales y las visualizaciones demuestran que nuestro modelo logra con éxito la conciencia semántica y la abundancia de granularidad. Además, combinar el entrenamiento con SA-1B con otras tareas de segmentación, como la segmentación panóptica y de partes, conduce a mejoras en el rendimiento. Proporcionaremos código y una demostración para una mayor exploración y evaluación.
Presentamos VampNet, un enfoque de modelado de tokens acústicos enmascarados para la síntesis, compresión, restauración y variación de música. Utilizamos un esquema de enmascaramiento variable durante el entrenamiento que nos permite generar música coherente a partir del modelo aplicando diversos enfoques de enmascaramiento (llamados prompts) durante la inferencia. VampNet no es autoregresivo, aprovechando una arquitectura de transformador bidireccional que atiende a todos los tokens en un único paso hacia adelante. Con solo 36 pasos de muestreo, VampNet puede generar formas de onda musicales coherentes y de alta fidelidad. Demostramos que, al proporcionar diferentes prompts a VampNet, podemos aplicarlo a tareas como la compresión de música, restauración, extensión, continuación y creación de bucles con variación (vamping). Al ser adecuadamente prompteado, VampNet es capaz de mantener el estilo, género, instrumentación y otros aspectos de alto nivel de la música. Esta capacidad flexible de prompting convierte a VampNet en una poderosa herramienta de co-creación musical. El código y muestras de audio están disponibles en línea.
La inteligencia humana prospera gracias al concepto de sinergia cognitiva, donde la colaboración e integración de información entre diferentes procesos cognitivos produce resultados superiores en comparación con procesos cognitivos individuales aislados. Aunque los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento prometedor como agentes generales de resolución de tareas, aún enfrentan dificultades con tareas que requieren un conocimiento intensivo del dominio y un razonamiento complejo. En este trabajo, proponemos el "Solo Performance Prompting" (SPP), que transforma un único LLM en un sinergista cognitivo al involucrarlo en una auto-colaboración de múltiples turnos con varias personalidades. Un sinergista cognitivo se refiere a un agente inteligente que colabora con múltiples mentes, combinando sus fortalezas y conocimientos individuales, para mejorar la resolución de problemas y el rendimiento general en tareas complejas. Al identificar y simular dinámicamente diferentes personalidades basadas en las entradas de la tarea, el SPP libera el potencial de la sinergia cognitiva en los LLMs. Hemos descubierto que asignar múltiples personalidades detalladas en los LLMs desencadena mejores habilidades de resolución de problemas en comparación con el uso de una sola personalidad o un número fijo de ellas. Evaluamos el SPP en tres tareas desafiantes: Escritura Creativa de Trivia, Codenames Colaborativo y Rompecabezas de Lógica, que abarcan tanto tipos intensivos en conocimiento como en razonamiento. A diferencia de trabajos anteriores, como el "Chain-of-Thought", que solo mejoran las habilidades de razonamiento en los LLMs, el SPP efectivamente desencadena habilidades internas de adquisición de conocimiento, reduce las alucinaciones y mantiene fuertes capacidades de razonamiento. El código, los datos y los prompts pueden encontrarse en: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
Observamos que los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) son capaces de completar de manera autoregresiva secuencias complejas de tokens, desde aquellas generadas de forma procedimental mediante gramáticas libres de contexto probabilísticas (PCFG), hasta patrones espaciales más ricos encontrados en el Abstract Reasoning Corpus (ARC), un benchmark de inteligencia general, presentados en estilo de arte ASCII. Sorprendentemente, la habilidad para completar patrones puede conservarse parcialmente incluso cuando las secuencias se expresan utilizando tokens muestreados aleatoriamente del vocabulario. Estos resultados sugieren que, sin necesidad de entrenamiento adicional, los LLMs pueden funcionar como modeladores generales de secuencias, impulsados por el aprendizaje en contexto. En este trabajo, investigamos cómo estas capacidades zero-shot podrían aplicarse a problemas en robótica, desde extrapolar secuencias de números que representan estados a lo largo del tiempo para completar movimientos simples, hasta el prompting de menor a mayor de trayectorias condicionadas por recompensas que pueden descubrir y representar políticas de control en bucle cerrado (por ejemplo, un controlador estabilizador para CartPole). Aunque hoy en día es difícil implementar este enfoque en sistemas reales debido a la latencia, las limitaciones en el tamaño del contexto y los costos computacionales, el uso de LLMs para impulsar el control de bajo nivel podría ofrecer una visión emocionante de cómo los patrones entre palabras podrían transferirse a acciones.
Un desafío en el desarrollo de sistemas de PLN para los idiomas del mundo es comprender cómo estos se generalizan ante diferencias tipológicas relevantes para aplicaciones del mundo real. Con este fin, proponemos M2C, un marco morfológicamente consciente para la evaluación conductual de modelos de PLN. Utilizamos M2C para generar pruebas que examinan el comportamiento de los modelos en función de características lingüísticas específicas en 12 idiomas tipológicamente diversos. Evaluamos modelos de lenguaje de última generación en las pruebas generadas. Si bien los modelos destacan en la mayoría de las pruebas en inglés, resaltamos fallos de generalización ante características tipológicas específicas, como expresiones temporales en suajili y posesivos compuestos en finés. Nuestros hallazgos motivan el desarrollo de modelos que aborden estos puntos ciegos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en el campo del procesamiento del lenguaje natural, permitiendo una mejor interacción humano-computadora mediante el uso de lenguaje natural. Sin embargo, la integración fluida de señales de voz en los LLMs no ha sido explorada adecuadamente. La arquitectura "solo decodificador" tampoco ha sido bien estudiada para tareas de procesamiento de voz. En esta investigación, presentamos Speech-LLaMA, un enfoque novedoso que incorpora eficazmente información acústica en modelos de lenguaje de gran escala basados en texto. Nuestro método aprovecha la Clasificación Temporal Conexionista y un codificador de audio simple para mapear las características acústicas comprimidas al espacio semántico continuo del LLM. Además, exploramos más a fondo la arquitectura solo decodificador para tareas de conversión de voz a texto entrenando un modelo Speech-LLaMA de menor escala inicializado aleatoriamente únicamente con datos emparejados de voz y texto. Realizamos experimentos en tareas de traducción de voz a texto multilingüe y demostramos una mejora significativa sobre líneas base sólidas, destacando las ventajas potenciales de los modelos solo decodificador para la conversión de voz a texto.
Las instituciones internacionales pueden desempeñar un papel importante para garantizar que los sistemas avanzados de IA beneficien a la humanidad. Las colaboraciones internacionales pueden desbloquear la capacidad de la IA para impulsar el desarrollo sostenible, y la coordinación de los esfuerzos regulatorios puede reducir los obstáculos a la innovación y la difusión de sus beneficios. Por el contrario, las capacidades potencialmente peligrosas de los sistemas de IA potentes y de propósito general generan externalidades globales en su desarrollo y despliegue, y los esfuerzos internacionales para promover prácticas responsables de IA podrían ayudar a gestionar los riesgos que plantean. Este artículo identifica un conjunto de funciones de gobernanza que podrían llevarse a cabo a nivel internacional para abordar estos desafíos, desde apoyar el acceso a sistemas de IA de vanguardia hasta establecer estándares internacionales de seguridad. Agrupa estas funciones en cuatro modelos institucionales que presentan sinergias internas y tienen precedentes en organizaciones existentes: 1) una Comisión sobre IA de Vanguardia que facilite el consenso de expertos sobre las oportunidades y riesgos de la IA avanzada, 2) una Organización de Gobernanza de IA Avanzada que establezca estándares internacionales para gestionar las amenazas globales de los modelos avanzados, apoye su implementación y posiblemente supervise el cumplimiento de un futuro régimen de gobernanza, 3) una Colaborativa de IA de Vanguardia que promueva el acceso a la IA de última generación, y 4) un Proyecto de Seguridad de IA que reúna a investigadores e ingenieros líderes para impulsar la investigación en seguridad de IA. Exploramos la utilidad de estos modelos e identificamos preguntas abiertas sobre su viabilidad.
El objetivo de la síntesis de programas, o generación de código, es producir código ejecutable a partir de descripciones dadas. Recientemente, ha habido un número creciente de estudios que emplean aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar el rendimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en la generación de código. Sin embargo, estos métodos de RL solo han utilizado marcos de trabajo fuera de línea, lo que limita su exploración de nuevos espacios de muestras. Además, los enfoques actuales que utilizan señales de pruebas unitarias son bastante simples, sin tener en cuenta las ubicaciones específicas de errores dentro del código. Para abordar estos problemas, propusimos RLTF, es decir, Aprendizaje por Refuerzo a partir de Retroalimentación de Pruebas Unitarias, un novedoso marco de RL en línea con retroalimentación de pruebas unitarias de múltiples granularidades para refinar los LLMs de código. Nuestro enfoque genera datos en tiempo real durante el entrenamiento y utiliza simultáneamente señales de retroalimentación detalladas para guiar al modelo hacia la producción de código de mayor calidad. Experimentos exhaustivos muestran que RLTF alcanza un rendimiento de vanguardia en los puntos de referencia APPS y MBPP. Nuestro código se puede encontrar en: https://github.com/Zyq-scut/RLTF.
La consistencia y la fiabilidad son cruciales para llevar a cabo investigaciones en IA. Muchos campos de investigación reconocidos, como la detección de objetos, han sido comparados y validados mediante sólidos marcos de referencia. Tras AlphaFold2, la tarea de plegamiento de proteínas ha entrado en una nueva fase, y se han propuesto muchos métodos basados en los componentes de AlphaFold2. La importancia de un marco de investigación unificado en el plegamiento de proteínas radica en incluir implementaciones y puntos de referencia para comparar de manera consistente y justa diversos enfoques. Para lograrlo, presentamos Solvent, un marco de plegamiento de proteínas que soporta componentes significativos de modelos de última generación mediante una interfaz lista para usar. Solvent incluye diferentes modelos implementados en una base de código unificada y permite el entrenamiento y la evaluación de modelos definidos en el mismo conjunto de datos. Evaluamos algoritmos conocidos y sus componentes, y proporcionamos experimentos que ofrecen perspectivas útiles en el campo del modelado de estructuras proteicas. Esperamos que Solvent aumente la fiabilidad y consistencia de los modelos propuestos, y mejore la eficiencia tanto en velocidad como en costos, lo que resultará en una aceleración de la investigación en modelado de plegamiento de proteínas. El código está disponible en https://github.com/kakaobrain/solvent, y el proyecto continuará desarrollándose.
Proponemos un sistema para reorganizar objetos en una escena con el fin de lograr una relación deseada entre el objeto y la escena, como insertar un libro en una ranura abierta de una estantería. La pipeline se generaliza a geometrías, poses y disposiciones novedosas tanto de las escenas como de los objetos, y se entrena a partir de demostraciones para operar directamente sobre nubes de puntos 3D. Nuestro sistema supera los desafíos asociados con la existencia de múltiples soluciones de reorganización geométricamente similares para una escena dada. Al aprovechar un procedimiento de entrenamiento iterativo de eliminación de ruido en la pose, podemos ajustar datos de demostración multimodales y producir salidas multimodales manteniendo la precisión y exactitud. También mostramos las ventajas de condicionar el sistema en características geométricas locales relevantes mientras se ignora la estructura global irrelevante que perjudica tanto la generalización como la precisión. Demostramos nuestro enfoque en tres tareas de reorganización distintas que requieren manejar la multimodalidad y la generalización sobre la forma y la pose de los objetos, tanto en simulación como en el mundo real. Sitio web del proyecto, código y videos: https://anthonysimeonov.github.io/rpdiff-multi-modal/
La dictación por voz es una modalidad de entrada de texto cada vez más importante. Los sistemas existentes que permiten tanto la dictación como la edición por voz limitan su lenguaje de comandos a plantillas planas invocadas por palabras clave. En este trabajo, estudiamos la viabilidad de permitir a los usuarios interrumpir su dictación con comandos de edición hablados en lenguaje natural abierto. Introducimos una nueva tarea y conjunto de datos, TERTiUS, para experimentar con dichos sistemas. Para soportar esta flexibilidad en tiempo real, un sistema debe segmentar y clasificar incrementalmente segmentos de habla como dictado o comando, e interpretar los segmentos que son comandos. Experimentamos con el uso de modelos de lenguaje preentrenados de gran escala para predecir el texto editado o, alternativamente, para predecir un pequeño programa de edición de texto. Los experimentos muestran una compensación natural entre la precisión del modelo y la latencia: un modelo más pequeño logra un 30% de precisión en el estado final con 1.3 segundos de latencia, mientras que un modelo más grande alcanza un 55% de precisión en el estado final con 7 segundos de latencia.
La teleoperación basada en visión ofrece la posibilidad de dotar a los robots de inteligencia a nivel humano para interactuar físicamente con el entorno, requiriendo únicamente sensores de cámara de bajo costo. Sin embargo, los sistemas actuales de teleoperación basados en visión están diseñados y desarrollados para un modelo de robot y entorno de despliegue específicos, lo que escala de manera deficiente a medida que aumenta el conjunto de modelos de robots y la variedad de entornos operativos. En este artículo, proponemos AnyTeleop, un sistema de teleoperación unificado y general que admite múltiples brazos, manos, realidades y configuraciones de cámara dentro de un solo sistema. Aunque está diseñado para ofrecer una gran flexibilidad en la elección de simuladores y hardware real, nuestro sistema aún puede lograr un rendimiento excepcional. En experimentos del mundo real, AnyTeleop puede superar a un sistema anterior diseñado para un hardware de robot específico, obteniendo una tasa de éxito más alta con el mismo robot. Para la teleoperación en simulación, AnyTeleop conduce a un mejor rendimiento en el aprendizaje por imitación, en comparación con un sistema anterior diseñado específicamente para ese simulador. Página del proyecto: http://anyteleop.com/.