Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos un modelo de texto a voz (TTS, por sus siglas en inglés) llamado BASE TTS, que significa Big Adaptive Streamable TTS with Emergent abilities (TTS Grande, Adaptable y Transmisible con Habilidades Emergentes). BASE TTS es el modelo TTS más grande hasta la fecha, entrenado con 100 mil horas de datos de voz de dominio público, logrando un nuevo estado del arte en naturalidad del habla. Utiliza un Transformer autorregresivo de mil millones de parámetros que convierte textos sin procesar en códigos discretos ("speechcodes"), seguido de un decodificador basado en convoluciones que transforma estos speechcodes en formas de onda de manera incremental y transmisible. Además, nuestros speechcodes se construyen mediante una novedosa técnica de tokenización del habla que incluye la separación de la identidad del hablante y compresión con codificación byte-pair. Haciendo eco de las ampliamente reportadas "habilidades emergentes" de los modelos de lenguaje grandes cuando se entrenan con volúmenes crecientes de datos, demostramos que las variantes de BASE TTS construidas con más de 10 mil horas y 500 millones de parámetros comienzan a mostrar una prosodia natural en oraciones textualmente complejas. Diseñamos y compartimos un conjunto de datos especializado para medir estas habilidades emergentes en texto a voz. Mostramos la naturalidad de vanguardia de BASE TTS mediante evaluaciones comparativas con sistemas de texto a voz de gran escala disponibles públicamente: YourTTS, Bark y TortoiseTTS. Las muestras de audio generadas por el modelo pueden escucharse en https://amazon-ltts-paper.com/.
Los modelos de lenguaje actuales tienen limitaciones para comprender aspectos del mundo que no se describen fácilmente con palabras y enfrentan dificultades con tareas complejas y de larga duración. Las secuencias de video ofrecen valiosa información temporal ausente en el lenguaje y las imágenes estáticas, lo que las hace atractivas para el modelado conjunto con el lenguaje. Dichos modelos podrían desarrollar una comprensión tanto del conocimiento textual humano como del mundo físico, permitiendo capacidades más amplias de IA para asistir a los humanos. Sin embargo, aprender a partir de millones de tokens de secuencias de video y lenguaje presenta desafíos debido a limitaciones de memoria, complejidad computacional y conjuntos de datos limitados. Para abordar estos desafíos, hemos creado un gran conjunto de datos de videos y libros diversos, utilizamos la técnica RingAttention para entrenar de manera escalable en secuencias largas, y aumentamos gradualmente el tamaño del contexto de 4K a 1M tokens. Este artículo realiza las siguientes contribuciones: (a) Red neuronal con el mayor tamaño de contexto: Entrenamos uno de los transformadores con el mayor tamaño de contexto en secuencias largas de video y lenguaje, estableciendo nuevos referentes en tareas difíciles de recuperación y comprensión de videos largos. (b) Soluciones para superar los desafíos del entrenamiento visión-lenguaje, incluyendo el uso de empaquetado de secuencias enmascaradas para mezclar diferentes longitudes de secuencia, ponderación de pérdidas para equilibrar lenguaje y visión, y un conjunto de datos de preguntas y respuestas generado por el modelo para chats de secuencias largas. (c) Una implementación altamente optimizada con RingAttention, empaquetado de secuencias enmascaradas y otras características clave para entrenar en secuencias multimodales de millones de tokens. (d) Liberación completa de una familia de modelos de 7B parámetros capaces de procesar documentos de texto largos (LWM-Text, LWM-Text-Chat) y videos (LWM, LWM-Chat) de más de 1M tokens. Este trabajo allana el camino para entrenar en conjuntos de datos masivos de video y lenguaje largos, desarrollando una comprensión tanto del conocimiento humano como del mundo multimodal, y capacidades más amplias.
El reciente y rápido progreso en los modelos de aprendizaje (auto)supervisado se predice en gran medida por leyes de escalado empíricas: el rendimiento de un modelo escala proporcionalmente a su tamaño. Sin embargo, leyes de escalado análogas siguen siendo esquivas en los dominios de aprendizaje por refuerzo, donde aumentar el número de parámetros de un modelo a menudo perjudica su rendimiento final. En este artículo, demostramos que la incorporación de módulos de Mezcla de Expertos (MoE), y en particular Soft MoEs (Puigcerver et al., 2023), en redes basadas en valor resulta en modelos más escalables en términos de parámetros, evidenciado por aumentos sustanciales en el rendimiento en una variedad de regímenes de entrenamiento y tamaños de modelos. Este trabajo proporciona, por tanto, una fuerte evidencia empírica hacia el desarrollo de leyes de escalado para el aprendizaje por refuerzo.
Presentamos Lumos, el primer sistema de respuesta a preguntas multimodal de extremo a extremo con capacidades de comprensión de texto. En el núcleo de Lumos se encuentra un componente de Reconocimiento de Texto en Escenas (STR, por sus siglas en inglés) que extrae texto de imágenes en primera persona, cuya salida se utiliza para enriquecer la entrada a un Modelo de Lenguaje Multimodal de Gran Escala (MM-LLM). Durante el desarrollo de Lumos, nos enfrentamos a numerosos desafíos relacionados con la calidad del STR, la latencia general y la inferencia del modelo. En este artículo, profundizamos en esos desafíos y discutimos la arquitectura del sistema, las decisiones de diseño y las técnicas de modelado empleadas para superar estos obstáculos. También proporcionamos una evaluación exhaustiva de cada componente, demostrando alta calidad y eficiencia.
Las Redes Neuronales de Grafos (GNNs) han demostrado un potencial prometedor en el aprendizaje de representaciones de grafos. La mayoría de las GNNs definen un mecanismo local de paso de mensajes, propagando información a través del grafo mediante la superposición de múltiples capas. Sin embargo, se sabe que estos métodos sufren dos limitaciones principales: el sobre-aplanamiento y la captura deficiente de dependencias de largo alcance. Recientemente, los Transformers de Grafos (GTs) surgieron como una alternativa poderosa a las Redes Neuronales de Paso de Mensajes (MPNNs). No obstante, los GTs tienen un costo computacional cuadrático, carecen de sesgos inductivos sobre las estructuras de grafos y dependen de Codificaciones Posicionales/Estructurales (SE/PE) complejas. En este artículo, demostramos que, aunque los Transformers, el paso de mensajes complejo y las SE/PE son suficientes para un buen rendimiento en la práctica, ninguno de ellos es necesario. Motivados por el reciente éxito de los Modelos de Espacio de Estados (SSMs), como Mamba, presentamos las Redes Mamba de Grafos (GMNs), un marco general para una nueva clase de GNNs basadas en SSMs selectivos. Discutimos y categorizamos los nuevos desafíos al adoptar SSMs para datos estructurados en grafos, y presentamos cuatro pasos requeridos y uno opcional para diseñar GMNs, donde elegimos (1) Tokenización del Vecindario, (2) Ordenamiento de Tokens, (3) Arquitectura del Codificador Bidireccional de SSM Selectivo, (4) Codificación Local, y el dispensable (5) PE y SE. Además, proporcionamos una justificación teórica sobre el poder de las GMNs. Los experimentos demuestran que, a pesar de un costo computacional mucho menor, las GMNs alcanzan un rendimiento sobresaliente en conjuntos de datos de referencia de largo alcance, pequeña escala, gran escala y heterofilia.
Presentamos UFO, un agente innovador centrado en la interfaz de usuario (UI) diseñado para cumplir solicitudes de usuarios adaptadas a aplicaciones en Windows OS, aprovechando las capacidades de GPT-Vision. UFO emplea un marco de doble agente para observar y analizar meticulosamente la interfaz gráfica de usuario (GUI) y la información de control de aplicaciones de Windows. Esto permite al agente navegar y operar de manera fluida dentro de aplicaciones individuales y entre ellas para cumplir solicitudes de usuarios, incluso cuando estas abarcan múltiples aplicaciones. El marco incorpora un módulo de interacción de control, facilitando la ejecución de acciones sin intervención humana y permitiendo una ejecución completamente automatizada. Como resultado, UFO transforma procesos arduos y que consumen mucho tiempo en tareas simples que pueden realizarse únicamente mediante comandos en lenguaje natural. Realizamos pruebas de UFO en 9 aplicaciones populares de Windows, abarcando una variedad de escenarios que reflejan el uso diario de los usuarios. Los resultados, derivados tanto de métricas cuantitativas como de estudios de casos reales, destacan la eficacia superior de UFO para cumplir solicitudes de usuarios. Hasta donde sabemos, UFO es el primer agente de UI específicamente diseñado para completar tareas en el entorno de Windows OS. El código abierto de UFO está disponible en https://github.com/microsoft/UFO.
La mayoría de los generadores de texto a 3D se basan en modelos preentrenados de texto a imagen que han sido entrenados con miles de millones de imágenes. Utilizan variantes de Score Distillation Sampling (SDS), que es lento, algo inestable y propenso a artefactos. Una mitigación consiste en ajustar el generador 2D para que sea consciente de múltiples vistas, lo que puede ayudar en la destilación o combinarse con redes de reconstrucción para generar objetos 3D directamente. En este artículo, exploramos más a fondo el espacio de diseño de los modelos de texto a 3D. Mejoramos significativamente la generación de múltiples vistas al considerar generadores de video en lugar de generadores de imágenes. Combinado con un algoritmo de reconstrucción 3D que, mediante el uso de splatting gaussiano, puede optimizar una función de pérdida robusta basada en imágenes, producimos directamente salidas 3D de alta calidad a partir de las vistas generadas. Nuestro nuevo método, IM-3D, reduce el número de evaluaciones de la red generadora 2D entre 10 y 100 veces, lo que resulta en una canalización mucho más eficiente, mejor calidad, menos inconsistencias geométricas y un mayor rendimiento de activos 3D utilizables.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) evolucionan rápidamente, su influencia en la ciencia se está volviendo cada vez más prominente. Las capacidades emergentes de los LLMs en la generalización de tareas y el diálogo de forma libre pueden impulsar significativamente campos como la química y la biología. Sin embargo, el campo de la biología de células individuales, que constituye los bloques fundamentales de los organismos vivos, aún enfrenta varios desafíos. Las altas barreras de conocimiento y la escalabilidad limitada de los métodos actuales restringen la explotación completa de los LLMs para dominar los datos de células individuales, obstaculizando la accesibilidad directa y la iteración rápida. Con este fin, presentamos ChatCell, que marca un cambio de paradigma al facilitar el análisis de células individuales mediante lenguaje natural. Aprovechando la adaptación de vocabulario y la generación unificada de secuencias, ChatCell ha adquirido un profundo conocimiento en biología de células individuales y la capacidad de adaptarse a una amplia gama de tareas de análisis. Experimentos exhaustivos demuestran además el rendimiento robusto de ChatCell y su potencial para profundizar en los conocimientos sobre células individuales, allanando el camino para una exploración más accesible e intuitiva en este campo crucial. La página principal de nuestro proyecto está disponible en https://zjunlp.github.io/project/ChatCell.
Los controles actuales sobre los modelos de difusión (por ejemplo, a través de texto o ControlNet) para la generación de imágenes no logran reconocer atributos abstractos y continuos, como la dirección de la iluminación o los cambios de forma no rígidos. En este artículo, presentamos un enfoque que permite a los usuarios de modelos de texto a imagen tener un control detallado de varios atributos en una imagen. Esto lo logramos diseñando conjuntos especiales de tokens de entrada que pueden transformarse de manera continua, a los que llamamos Palabras 3D Continuas. Estos atributos pueden, por ejemplo, representarse como controles deslizantes y aplicarse junto con indicaciones de texto para un control preciso sobre la generación de imágenes. Utilizando solo una malla y un motor de renderizado, demostramos que nuestro enfoque puede adoptarse para proporcionar un control continuo del usuario sobre varios atributos conscientes de la 3D, como la iluminación según la hora del día, la orientación de las alas de un pájaro, el efecto dollyzoom y las poses de objetos. Nuestro método es capaz de condicionar la creación de imágenes con múltiples Palabras 3D Continuas y descripciones de texto simultáneamente, sin añadir sobrecarga al proceso generativo. Página del proyecto: https://ttchengab.github.io/continuous_3d_words
La naturaleza autorregresiva de los modelos de lenguaje grandes (LLMs) convencionales limita inherentemente la velocidad de inferencia, ya que los tokens se generan secuencialmente. Aunque las técnicas de decodificación especulativa y paralela intentan mitigar esto, enfrentan limitaciones: ya sea dependiendo de modelos más pequeños y menos precisos para la generación o no aprovechando completamente las representaciones del LLM base. Introducimos una arquitectura novedosa, los transformadores en tándem, para abordar estos problemas. Esta arquitectura combina de manera única (1) un modelo autorregresivo pequeño y (2) un modelo grande que opera en modo de bloque (procesando múltiples tokens simultáneamente). La precisión predictiva del modelo pequeño se mejora sustancialmente al permitirle prestar atención a las representaciones más ricas del modelo grande. En el conjunto de datos de preentrenamiento de PaLM2, un tándem de PaLM2-Bison y PaLM2-Gecko demuestra una mejora del 3.3% en la precisión de predicción del siguiente token en comparación con un PaLM2-Gecko independiente, ofreciendo una aceleración de 1.16x en comparación con un modelo PaLM2-Otter con un rendimiento comparable en tareas posteriores. Además, integramos el modelo tándem dentro del marco de decodificación especulativa (SPEED), donde el modelo grande valida los tokens generados por el modelo pequeño. Esto garantiza que el tándem de PaLM2-Bison y PaLM2-Gecko logre una aceleración sustancial (alrededor de 1.14x más rápido que usar PaLM2-Gecko estándar en SPEED) mientras mantiene una precisión idéntica en las tareas posteriores.
El reconocimiento de gestos manuales se está convirtiendo en un modo de interacción humano-computadora cada vez más prevalente, especialmente a medida que las cámaras proliferan en los dispositivos cotidianos. A pesar del progreso continuo en este campo, la personalización de gestos a menudo no se explora lo suficiente. La personalización es crucial, ya que permite a los usuarios definir y demostrar gestos que son más naturales, memorables y accesibles. Sin embargo, la personalización requiere un uso eficiente de los datos proporcionados por el usuario. Introducimos un método que permite a los usuarios diseñar fácilmente gestos personalizados con una cámara monocular a partir de una sola demostración. Empleamos transformadores y técnicas de meta-aprendizaje para abordar los desafíos del aprendizaje con pocos ejemplos. A diferencia de trabajos anteriores, nuestro método admite cualquier combinación de gestos con una mano, dos manos, estáticos y dinámicos, incluyendo diferentes puntos de vista. Evaluamos nuestro método de personalización mediante un estudio de usuarios con 20 gestos recopilados de 21 participantes, logrando una precisión promedio de reconocimiento de hasta el 97% a partir de una sola demostración. Nuestro trabajo proporciona un camino viable para la personalización de gestos basada en visión, sentando las bases para futuros avances en este dominio.
Un Campo de Radiancia Neural (NeRF) codifica la relación específica entre la geometría 3D y la apariencia de una escena. Aquí nos planteamos la pregunta de si podemos transferir la apariencia de un NeRF fuente a una geometría 3D objetivo de manera semánticamente significativa, de modo que el nuevo NeRF resultante conserve la geometría objetivo pero tenga una apariencia que sea una analogía del NeRF fuente. Para ello, generalizamos las analogías clásicas de imágenes 2D a NeRFs. Aprovechamos la transferencia de correspondencias basada en afinidad semántica, impulsada por características semánticas de modelos de imágenes 2D preentrenados a gran escala, para lograr una transferencia de apariencia consistente en múltiples vistas. Nuestro método permite explorar el espacio de combinación de geometría 3D y apariencia. Demostramos que nuestro método supera a los métodos tradicionales basados en estilización y que una gran mayoría de los usuarios prefieren nuestro método frente a varias líneas base típicas.