Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Seed-TTS, una familia de modelos autoregresivos de gran escala para la conversión de texto a voz (TTS, por sus siglas en inglés) capaces de generar un habla prácticamente indistinguible de la voz humana. Seed-TTS funciona como un modelo base para la generación de voz y destaca en el aprendizaje contextual del habla, logrando un rendimiento en similitud de locutor y naturalidad que iguala al habla humana de referencia en evaluaciones tanto objetivas como subjetivas. Con ajustes específicos, alcanzamos puntuaciones subjetivas aún más altas en estas métricas. Seed-TTS ofrece una controlabilidad superior sobre diversos atributos del habla, como la emoción, y es capaz de generar un habla altamente expresiva y diversa para locutores en entornos no controlados. Además, proponemos un método de autodistilación para la factorización del habla, así como un enfoque de aprendizaje por refuerzo para mejorar la robustez del modelo, la similitud del locutor y la controlabilidad. También presentamos una variante no autoregresiva (NAR) del modelo Seed-TTS, denominada Seed-TTS_DiT, que utiliza una arquitectura completamente basada en difusión. A diferencia de los sistemas TTS basados en NAR anteriores, Seed-TTS_DiT no depende de duraciones de fonemas preestimadas y realiza la generación de voz mediante un procesamiento de extremo a extremo. Demostramos que esta variante alcanza un rendimiento comparable al de la variante basada en modelos de lenguaje y mostramos su eficacia en la edición de voz. Invitamos a los lectores a escuchar demostraciones en https://bytedancespeech.github.io/seedtts_tech_report.
Exploramos la cuantificación de incertidumbre en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), con el objetivo de identificar cuándo la incertidumbre en las respuestas dadas una consulta es elevada. Consideramos simultáneamente tanto la incertidumbre epistémica como la aleatoria, donde la primera proviene de la falta de conocimiento sobre la verdad fundamental (como hechos o el lenguaje), y la segunda surge de la aleatoriedad irreducible (como múltiples respuestas posibles). En particular, derivamos una métrica basada en la teoría de la información que permite detectar de manera confiable cuándo solo la incertidumbre epistémica es grande, en cuyo caso la salida del modelo no es confiable. Esta condición puede calcularse únicamente a partir de la salida del modelo obtenida mediante un tipo especial de indicación iterativa basada en las respuestas previas. Dicha cuantificación, por ejemplo, permite detectar alucinaciones (casos en los que la incertidumbre epistémica es alta) tanto en respuestas de una sola opción como en respuestas múltiples. Esto contrasta con muchas estrategias estándar de cuantificación de incertidumbre (como establecer umbrales en la log-probabilidad de una respuesta), donde las alucinaciones en el caso de respuestas múltiples no pueden detectarse. Realizamos una serie de experimentos que demuestran la ventaja de nuestra formulación. Además, nuestras investigaciones arrojan luz sobre cómo las probabilidades asignadas a una salida dada por un LLM pueden amplificarse mediante indicación iterativa, lo cual podría ser de interés independiente.
Tanto los métodos de RLHF (Alineación de Preferencias Humanas mediante Aprendizaje por Refuerzo) en línea como fuera de línea, como PPO y DPO, han sido extremadamente exitosos en alinear la IA con las preferencias humanas. A pesar de su éxito, los métodos existentes sufren de un problema fundamental: su solución óptima es altamente dependiente de la tarea (es decir, no son robustos ante tareas fuera de distribución, OOD). Aquí abordamos este desafío proponiendo SRPO (Optimización Robusta de Preferencias con Auto-mejora), un marco práctico y matemáticamente fundamentado de RLHF fuera de línea que es completamente robusto a los cambios en la tarea. La idea clave de SRPO es plantear el problema de aprender a partir de preferencias humanas como un proceso de auto-mejora, que puede expresarse matemáticamente en términos de un objetivo min-max que busca la optimización conjunta de la política de auto-mejora y la política generativa de manera adversarial. La solución para este problema de optimización es independiente de la tarea de entrenamiento y, por lo tanto, es robusta a sus cambios. Luego demostramos que este objetivo puede reformularse en la forma de una pérdida fuera de línea no adversarial, que puede optimizarse utilizando técnicas estándar de optimización supervisada a gran escala, sin necesidad de un modelo de recompensa ni inferencia en línea. Mostramos la efectividad de SRPO en términos de la Tasa de Victoria de la IA (WR) frente a completaciones humanas (GOLD). En particular, cuando SRPO se evalúa en el conjunto de datos OOD XSUM, supera al reconocido DPO por un claro margen del 15% después de 5 auto-revisiones, alcanzando una WR del 90%.
La generación de texto a video ha estado rezagada en calidad y diversidad en comparación con la síntesis de texto a imagen debido a la complejidad del modelado espacio-temporal y a los conjuntos de datos limitados de video-texto. Este artículo presenta I4VGen, un marco de inferencia de difusión de video sin entrenamiento y de tipo plug-and-play, que mejora la generación de texto a video aprovechando técnicas robustas de imagen. Específicamente, siguiendo el enfoque de texto a imagen a video, I4VGen descompone la generación de texto a video en dos etapas: síntesis de imagen ancla y síntesis de video guiada por la imagen ancla. Correspondientemente, se emplea una canalización de generación-selección bien diseñada para lograr una imagen ancla visualmente realista y semánticamente fiel, y se incorpora un innovador Muestreo de Distorsión de Puntuación de Video Invariante al Ruido para animar la imagen a un video dinámico, seguido de un proceso de regeneración de video para refinar el resultado. Esta estrategia de inferencia mitiga eficazmente el problema prevalente de la relación señal-ruido terminal no nula. Evaluaciones exhaustivas muestran que I4VGen no solo produce videos con mayor realismo visual y fidelidad textual, sino que también se integra perfectamente en los modelos existentes de difusión de imagen a video, mejorando así la calidad general del video.
Los ejes principales de interés en los modelos de difusión para generación de imágenes son la calidad de la imagen, la cantidad de variación en los resultados y qué tan bien los resultados se alinean con una condición dada, por ejemplo, una etiqueta de clase o un prompt de texto. El enfoque popular de guía sin clasificador utiliza un modelo no condicional para guiar un modelo condicional, lo que conduce a una mejor alineación con el prompt y a imágenes de mayor calidad, a costa de una reducción en la variación. Estos efectos parecen intrínsecamente entrelazados y, por lo tanto, difíciles de controlar. Hacemos la observación sorprendente de que es posible obtener un control desentrelazado sobre la calidad de la imagen sin comprometer la cantidad de variación, guiando la generación utilizando una versión más pequeña y menos entrenada del propio modelo en lugar de un modelo no condicional. Esto conduce a mejoras significativas en la generación de ImageNet, estableciendo récords de FID de 1.01 para 64x64 y 1.25 para 512x512, utilizando redes disponibles públicamente. Además, el método también es aplicable a modelos de difusión no condicionales, mejorando drásticamente su calidad.
Los recientes avances en Inteligencia Artificial (IA) han sido impulsados en gran medida por el escalamiento. En robótica, el escalamiento se ve obstaculizado por la falta de acceso a grandes conjuntos de datos robóticos. Abogamos por el uso de simulaciones físicas realistas como medio para escalar entornos, tareas y conjuntos de datos para métodos de aprendizaje robótico. Presentamos RoboCasa, un marco de simulación a gran escala para entrenar robots generalistas en entornos cotidianos. RoboCasa incluye escenas realistas y diversas, centradas en ambientes de cocina. Ofrecemos miles de activos 3D en más de 150 categorías de objetos y docenas de muebles y electrodomésticos interactuables. Enriquecimos el realismo y la diversidad de nuestra simulación con herramientas de IA generativa, como activos de objetos generados a partir de modelos de texto a 3D y texturas de entorno a partir de modelos de texto a imagen. Diseñamos un conjunto de 100 tareas para evaluación sistemática, incluyendo tareas compuestas generadas con la guía de modelos de lenguaje grandes. Para facilitar el aprendizaje, proporcionamos demostraciones humanas de alta calidad e integramos métodos de generación automática de trayectorias para ampliar sustancialmente nuestros conjuntos de datos con una carga humana mínima. Nuestros experimentos muestran una clara tendencia de escalamiento en el uso de datos robóticos sintéticos para el aprendizaje por imitación a gran escala y un gran potencial en el aprovechamiento de datos de simulación para tareas del mundo real. Videos y código de código abierto están disponibles en https://robocasa.ai/.
En el campo de la generación de videos de retratos, el uso de imágenes únicas para generar videos de retratos se ha vuelto cada vez más común. Un enfoque habitual implica aprovechar modelos generativos para mejorar adaptadores que permitan una generación controlada. Sin embargo, las señales de control (por ejemplo, texto, audio, imagen de referencia, pose, mapa de profundidad, etc.) pueden variar en intensidad. Entre estas, las condiciones más débiles a menudo tienen dificultades para ser efectivas debido a la interferencia de condiciones más fuertes, lo que plantea un desafío en el equilibrio de estas condiciones. En nuestro trabajo sobre la generación de videos de retratos, identificamos las señales de audio como particularmente débiles, a menudo eclipsadas por señales más fuertes como la pose facial y la imagen de referencia. Sin embargo, el entrenamiento directo con señales débiles suele dificultar la convergencia. Para abordar esto, proponemos V-Express, un método simple que equilibra diferentes señales de control mediante el entrenamiento progresivo y la operación de abandono condicional. Nuestro método permite gradualmente un control efectivo mediante condiciones débiles, logrando así capacidades de generación que tienen en cuenta simultáneamente la pose facial, la imagen de referencia y el audio. Los resultados experimentales demuestran que nuestro método puede generar efectivamente videos de retratos controlados por audio. Además, se proporciona una solución potencial para el uso simultáneo y efectivo de condiciones de diferentes intensidades.
Recientemente, los modelos de difusión de video han surgido como herramientas generativas expresivas para la creación de contenido de video de alta calidad, fácilmente accesibles para usuarios generales. Sin embargo, estos modelos a menudo no ofrecen un control preciso sobre las poses de la cámara para la generación de video, lo que limita la expresión del lenguaje cinematográfico y el control del usuario. Para abordar este problema, presentamos CamCo, que permite un control detallado de la pose de la cámara para la generación de video a partir de imágenes. Equipamos un generador de video preentrenado con una entrada de pose de cámara parametrizada con precisión utilizando coordenadas de Plücker. Para mejorar la consistencia 3D en los videos producidos, integramos un módulo de atención epipolar en cada bloque de atención que aplica restricciones epipolares a los mapas de características. Además, ajustamos CamCo en videos del mundo real con poses de cámara estimadas mediante algoritmos de estructura a partir del movimiento para sintetizar mejor el movimiento de los objetos. Nuestros experimentos muestran que CamCo mejora significativamente la consistencia 3D y las capacidades de control de la cámara en comparación con modelos anteriores, generando de manera efectiva movimientos de objetos plausibles. Página del proyecto: https://ir1d.github.io/CamCo/