Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión han surgido como un paradigma poderoso para la generación, obteniendo un rendimiento sólido en diversos dominios con entradas de valor continuo. A pesar de las promesas de la generación de texto completamente no autoregresiva, aplicar modelos de difusión al lenguaje natural sigue siendo un desafío debido a su naturaleza discreta. En este trabajo, proponemos Text-to-text Self-conditioned Simplex Diffusion (TESS), un modelo de difusión de texto que es completamente no autoregresivo, emplea una nueva forma de autocondicionamiento y aplica el proceso de difusión en el espacio simplex de logits en lugar del típico espacio de embeddings aprendido. A través de extensos experimentos en tareas de comprensión y generación de lenguaje natural, incluyendo resumen, simplificación de texto, generación de paráfrasis y generación de preguntas, demostramos que TESS supera a los modelos no autoregresivos de última generación y es competitivo con los modelos secuencia a secuencia autoregresivos preentrenados.
La separación universal de fuentes (USS, por sus siglas en inglés) es una tarea de investigación fundamental para el análisis computacional de escenas auditivas, cuyo objetivo es separar grabaciones mono en pistas de fuentes individuales. Existen tres desafíos principales que esperan solución en la tarea de separación de fuentes de audio. En primer lugar, los sistemas anteriores de separación de fuentes de audio se centran principalmente en separar una o un número limitado de fuentes específicas. Falta investigación sobre la construcción de un sistema unificado que pueda separar fuentes arbitrarias mediante un único modelo. En segundo lugar, la mayoría de los sistemas anteriores requieren datos de fuentes limpias para entrenar un separador, mientras que los datos de fuentes limpias son escasos. En tercer lugar, falta un sistema USS que pueda detectar y separar automáticamente clases de sonido activas en un nivel jerárquico. Para utilizar datos de audio a gran escala con etiquetas débiles o sin etiquetar en la separación de fuentes de audio, proponemos un marco universal de separación de fuentes de audio que incluye: 1) un modelo de etiquetado de audio entrenado con datos débilmente etiquetados como red de consulta; y 2) un modelo de separación de fuentes condicional que toma las salidas de la red de consulta como condiciones para separar fuentes de sonido arbitrarias. Investigamos varias redes de consulta, modelos de separación de fuentes y estrategias de entrenamiento, y proponemos una estrategia USS jerárquica para detectar y separar automáticamente clases de sonido de la ontología AudioSet. Al aprovechar únicamente el conjunto de datos AudioSet con etiquetas débiles, nuestro sistema USS logra separar una amplia variedad de clases de sonido, incluyendo la separación de eventos sonoros, la separación de fuentes musicales y la mejora de voz. El sistema USS alcanza una mejora promedio en la relación señal-distorsión (SDRi) de 5.57 dB en 527 clases de sonido de AudioSet; 10.57 dB en el conjunto de datos DCASE 2018 Task 2; 8.12 dB en el conjunto de datos MUSDB18; un SDRi de 7.28 dB en el conjunto de datos Slakh2100; y un SSNR de 9.00 dB en el conjunto de datos voicebank-demand. Publicamos el código fuente en https://github.com/bytedance/uss.
Los modelos de difusión de imágenes y videos impulsados por texto han logrado un éxito sin precedentes en la generación de contenido realista y diverso. Recientemente, la edición y variación de imágenes y videos existentes en modelos generativos basados en difusión han captado una atención significativa. Sin embargo, trabajos previos se limitan a editar contenido con texto o a ofrecer una personalización rudimentaria utilizando una única pista visual, lo que los hace inadecuados para contenido indescriptible que requiere un control detallado y de grano fino. En este sentido, proponemos un marco genérico de edición de videos llamado Make-A-Protagonist, que utiliza pistas textuales y visuales para editar videos con el objetivo de empoderar a los individuos para convertirse en protagonistas. Específicamente, aprovechamos múltiples expertos para analizar el video fuente, las pistas visuales y textuales objetivo, y proponemos un modelo de generación de videos basado en texto y visuales que emplea un muestreo de eliminación de ruido guiado por máscaras para generar el resultado deseado. Resultados extensos demuestran las capacidades versátiles y notables de edición de Make-A-Protagonist.
Los modelos de resumen a menudo generan texto que está mal calibrado con respecto a las métricas de calidad porque se entrenan para maximizar la verosimilitud de una única referencia (MLE). Para abordar esto, trabajos recientes han añadido un paso de calibración, que expone al modelo a sus propias salidas clasificadas para mejorar la relevancia o, en una línea de trabajo separada, contrasta conjuntos positivos y negativos para mejorar la fidelidad. Aunque efectivos, gran parte de estos trabajos se han centrado en cómo generar y optimizar estos conjuntos. Se sabe menos sobre por qué una configuración es más efectiva que otra. En este trabajo, descubrimos las características subyacentes de los conjuntos efectivos. Para cada instancia de entrenamiento, formamos un grupo grande y diverso de candidatos y variamos sistemáticamente los subconjuntos utilizados para el ajuste fino de calibración. Cada estrategia de selección se enfoca en aspectos distintos de los conjuntos, como la diversidad léxica o el tamaño de la brecha entre positivos y negativos. En tres conjuntos de datos diversos de resumen científico de formato largo (que abarcan dominios biomédicos, clínicos y químicos), encontramos, entre otros hallazgos, que la calibración de fidelidad es óptima cuando los conjuntos negativos son extractivos y más propensos a ser generados, mientras que para la calibración de relevancia, el margen de la métrica entre los candidatos debe maximizarse y la sorpresa—la discrepancia entre las clasificaciones de candidatos definidas por el modelo y la métrica—debe minimizarse. El código para crear, seleccionar y optimizar conjuntos de calibración está disponible en https://github.com/griff4692/calibrating-summaries.
Si bien el preentrenamiento con datos a gran escala de imágenes y texto de la Web ha facilitado avances rápidos en muchas tareas de visión y lenguaje (V&L), trabajos recientes han demostrado que los modelos preentrenados carecen de una comprensión "detallada", como la capacidad de reconocer relaciones, verbos y números en las imágenes. Esto ha generado un mayor interés en la comunidad por desarrollar nuevos puntos de referencia o modelos para tales capacidades. Para comprender y cuantificar mejor el progreso en esta dirección, investigamos cuatro modelos competitivos de V&L en cuatro puntos de referencia detallados. A través de nuestro análisis, encontramos que X-VLM (Zeng et al., 2022) supera consistentemente a otras líneas base, y que las innovaciones en el modelado pueden tener un mayor impacto en el rendimiento que la ampliación de datos de la Web, lo que incluso degrada el rendimiento en ocasiones. Mediante una investigación más profunda de X-VLM, destacamos la importancia tanto de nuevas funciones de pérdida como de fuentes de datos enriquecidas para aprender habilidades detalladas. Finalmente, inspeccionamos la dinámica del entrenamiento y descubrimos que, para algunas tareas, el rendimiento alcanza su punto máximo al inicio del entrenamiento o fluctúa significativamente, sin converger nunca.
Generar visualizaciones fieles de rostros humanos requiere capturar tanto los detalles generales como los más finos de la geometría y apariencia facial. Los métodos existentes son impulsados por datos, lo que exige un extenso corpus de información no accesible públicamente para la comunidad investigadora, o no logran capturar detalles finos porque dependen de modelos geométricos faciales que no pueden representar texturas detalladas con una discretización de malla y deformación lineal diseñada para modelar únicamente una geometría facial general. Introducimos un método que cierra esta brecha inspirándose en técnicas tradicionales de gráficos por computadora. Las expresiones no vistas se modelan combinando la apariencia de un conjunto reducido de poses extremas. Esta combinación se realiza midiendo cambios volumétricos locales en esas expresiones y reproduciendo localmente su apariencia cuando se realiza una expresión similar durante las pruebas. Demostramos que nuestro método generaliza a expresiones no vistas, añadiendo efectos detallados sobre deformaciones volumétricas suaves de un rostro, y mostramos cómo se generaliza más allá de los rostros.
Garantizar que los modelos de lenguaje a gran escala (LM, por sus siglas en inglés) sean justos, robustos y útiles requiere comprender cómo las diferentes modificaciones en sus entradas impactan el comportamiento del modelo. Sin embargo, en el contexto de tareas de generación de texto abierto, dicha evaluación no es trivial. Por ejemplo, al presentar a un modelo un texto de entrada y una versión perturbada o "contrastiva" del mismo, las diferencias significativas en las predicciones del siguiente token pueden no revelarse con estrategias de decodificación estándar. Con esta motivación en mente, proponemos la Decodificación de Entrada Contrastiva (CID, por sus siglas en inglés): un algoritmo de decodificación para generar texto a partir de dos entradas, donde el texto generado es probable dada una entrada pero improbable dada la otra. De esta manera, las generaciones contrastivas pueden resaltar diferencias potencialmente sutiles en cómo la salida del LM varía para las dos entradas de una manera simple e interpretable. Utilizamos CID para resaltar sesgos específicos del contexto que son difíciles de detectar con estrategias de decodificación estándar y cuantificar el efecto de diferentes perturbaciones en la entrada.
En este artículo, estudiamos un problema novedoso en el reconocimiento de acciones egocéntricas, al que denominamos "Generalización Multimodal" (MMG, por sus siglas en inglés). MMG tiene como objetivo investigar cómo los sistemas pueden generalizar cuando los datos de ciertas modalidades son limitados o incluso están completamente ausentes. Investigamos exhaustivamente MMG en el contexto del reconocimiento de acciones supervisado estándar y en el escenario más desafiante de aprendizaje de pocos ejemplos para nuevas categorías de acciones. MMG consta de dos escenarios novedosos, diseñados para abordar consideraciones de seguridad y eficiencia en aplicaciones del mundo real: (1) generalización con modalidades faltantes, donde algunas modalidades presentes durante el entrenamiento están ausentes durante la inferencia, y (2) generalización multimodal de cero ejemplos, donde las modalidades presentes durante la inferencia y el entrenamiento son disjuntas. Para facilitar esta investigación, construimos un nuevo conjunto de datos, MMG-Ego4D, que contiene puntos de datos con modalidades de video, audio y sensores de movimiento inercial (IMU). Nuestro conjunto de datos se deriva del conjunto de datos Ego4D, pero ha sido procesado y reanotado exhaustivamente por expertos humanos para facilitar la investigación en el problema de MMG. Evaluamos una amplia variedad de modelos en MMG-Ego4D y proponemos nuevos métodos con una capacidad de generalización mejorada. En particular, introducimos un nuevo módulo de fusión con entrenamiento de abandono de modalidades, entrenamiento de alineación basado en contraste y una nueva función de pérdida prototípica multimodal para un mejor rendimiento en el aprendizaje de pocos ejemplos. Esperamos que este estudio sirva como un punto de referencia y guíe futuras investigaciones en problemas de generalización multimodal. El punto de referencia y el código estarán disponibles en https://github.com/facebookresearch/MMG_Ego4D.
La programación y asignación de recursos es un componente crítico en muchos sistemas de alto impacto, desde el control de congestión hasta la computación en la nube. Encontrar soluciones más óptimas para estos problemas suele tener un impacto significativo en el ahorro de recursos y tiempo, reducir el desgaste de los dispositivos e incluso mejorar potencialmente las emisiones de carbono. En este artículo, nos centramos en un caso específico de un problema de programación: el problema de mapeo de memoria que ocurre durante la compilación de programas de aprendizaje automático. Específicamente, nos referimos al mapeo de tensores en diferentes capas de memoria para optimizar el tiempo de ejecución. Presentamos un enfoque para resolver el problema de mapeo de memoria utilizando Aprendizaje por Refuerzo (RL, por sus siglas en inglés). RL es un paradigma de solución adecuado para problemas de toma de decisiones secuenciales que se prestan a la planificación y para espacios de búsqueda combinatorios con entradas de datos de alta dimensionalidad. Formulamos el problema como un juego de un solo jugador, al que llamamos mallocGame, de modo que las trayectorias de alta recompensa del juego correspondan a mapeos de memoria eficientes en el hardware objetivo. También presentamos un agente de Aprendizaje por Refuerzo, mallocMuZero, y demostramos que es capaz de jugar este juego para descubrir nuevas y mejoradas soluciones de mapeo de memoria que conducen a tiempos de ejecución más rápidos en cargas de trabajo reales de aprendizaje automático en aceleradores de ML. Comparamos el rendimiento de mallocMuZero con el solucionador predeterminado utilizado por el compilador de Álgebra Lineal Acelerada (XLA) en un conjunto de pruebas de cargas de trabajo realistas de ML. Además, demostramos que mallocMuZero es capaz de mejorar el tiempo de ejecución del modelo de multiplicación de matrices AlphaTensor, publicado recientemente.
Varias empresas líderes en IA, incluyendo OpenAI, Google DeepMind y Anthropic, tienen como objetivo declarado construir inteligencia artificial general (IAG) —sistemas de IA que alcanzan o superan el desempeño humano en una amplia gama de tareas cognitivas. Al perseguir este objetivo, podrían desarrollar e implementar sistemas de IA que planteen riesgos particularmente significativos. Aunque ya han tomado algunas medidas para mitigar estos riesgos, aún no han surgido las mejores prácticas. Para apoyar la identificación de dichas prácticas, enviamos una encuesta a 92 expertos destacados de laboratorios de IAG, academia y sociedad civil, y recibimos 51 respuestas. Se les preguntó a los participantes en qué medida estaban de acuerdo con 50 declaraciones sobre lo que los laboratorios de IAG deberían hacer. Nuestro hallazgo principal es que, en promedio, los participantes estuvieron de acuerdo con todas ellas. Muchas declaraciones recibieron niveles de acuerdo extremadamente altos. Por ejemplo, el 98% de los encuestados estuvo algo o totalmente de acuerdo en que los laboratorios de IAG deberían realizar evaluaciones de riesgos previas al despliegue, evaluaciones de capacidades peligrosas, auditorías de modelos por terceros, restricciones de seguridad en el uso de modelos y pruebas de red teaming. En última instancia, nuestra lista de declaraciones puede servir como una base útil para los esfuerzos de desarrollo de mejores prácticas, estándares y regulaciones para los laboratorios de IAG.