Artículos de investigación en IA seleccionados diariamente con traducciones
En la era de los modelos de lenguaje a gran escala, la arquitectura Mixture-of-Experts (MoE) es una propuesta prometedora para gestionar los costos computacionales al escalar los parámetros del modelo. Sin embargo, las arquitecturas MoE convencionales como GShard, que activan los K expertos principales de un total de N, enfrentan desafíos para garantizar la especialización de los expertos, es decir, que cada experto adquiera conocimientos no superpuestos y enfocados. En respuesta, proponemos la arquitectura DeepSeekMoE con el objetivo de alcanzar la máxima especialización de expertos. Esta implica dos estrategias principales: (1) dividir finamente los expertos en mN y activar mK de ellos, permitiendo una combinación más flexible de expertos activados; (2) aislar K_s expertos como compartidos, con el objetivo de capturar conocimientos comunes y reducir la redundancia en los expertos enrutados. Partiendo de una escala modesta con 2B parámetros, demostramos que DeepSeekMoE 2B logra un rendimiento comparable con GShard 2.9B, que tiene 1.5 veces los parámetros y el cómputo de expertos. Además, DeepSeekMoE 2B se acerca casi al rendimiento de su contraparte densa con el mismo número total de parámetros, lo que establece el límite superior de los modelos MoE. Posteriormente, escalamos DeepSeekMoE a 16B parámetros y mostramos que alcanza un rendimiento comparable con LLaMA2 7B, utilizando solo alrededor del 40% de los cálculos. Además, nuestros esfuerzos preliminares para escalar DeepSeekMoE a 145B parámetros validan consistentemente sus ventajas sustanciales sobre la arquitectura GShard y muestran un rendimiento comparable con DeepSeek 67B, utilizando solo el 28.5% (y posiblemente incluso el 18.2%) de los cálculos.
Los creadores de contenido a menudo buscan generar imágenes personalizadas utilizando sujetos personales que van más allá de las capacidades de los modelos convencionales de texto a imagen. Además, pueden desear que la imagen resultante incluya una ubicación, estilo, ambiente y otros elementos específicos. Los métodos de personalización existentes pueden comprometer la capacidad de personalización o la alineación con indicaciones textuales complejas. Este compromiso puede dificultar el cumplimiento de las indicaciones del usuario y la fidelidad del sujeto. Proponemos un nuevo enfoque centrado en métodos de personalización para una única indicación, al que denominamos personalización alineada con la indicación. Aunque esto puede parecer restrictivo, nuestro método destaca en la mejora de la alineación del texto, permitiendo la creación de imágenes con indicaciones complejas y detalladas, lo que puede representar un desafío para las técnicas actuales. En particular, nuestro método mantiene el modelo personalizado alineado con una indicación objetivo utilizando un término adicional de muestreo por destilación de puntuación. Demostramos la versatilidad de nuestro método en configuraciones de múltiples y únicas tomas, y además mostramos que puede componer múltiples sujetos o inspirarse en imágenes de referencia, como obras de arte. Comparamos nuestro enfoque cuantitativa y cualitativamente con las técnicas de referencia y el estado del arte existentes.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) se ha convertido en una tecnología crucial para alinear los modelos de lenguaje con los valores e intenciones humanas, permitiendo que los modelos generen respuestas más útiles e inofensivas. Los modelos de recompensa se entrenan como proxies de las preferencias humanas para impulsar la optimización del aprendizaje por refuerzo. Aunque los modelos de recompensa suelen considerarse centrales para alcanzar un alto rendimiento, enfrentan los siguientes desafíos en aplicaciones prácticas: (1) Los pares de preferencias incorrectos y ambiguos en el conjunto de datos pueden dificultar que el modelo de recompensa capture con precisión la intención humana. (2) Los modelos de recompensa entrenados con datos de una distribución específica a menudo tienen dificultades para generalizar a ejemplos fuera de esa distribución y no son adecuados para el entrenamiento iterativo de RLHF. En este informe, intentamos abordar estos dos problemas. (1) Desde una perspectiva de datos, proponemos un método para medir la fuerza de las preferencias dentro de los datos, basado en un mecanismo de votación de múltiples modelos de recompensa. Los resultados experimentales confirman que los datos con diferentes fuerzas de preferencia tienen impactos distintos en el rendimiento del modelo de recompensa. Introducimos una serie de métodos novedosos para mitigar la influencia de preferencias incorrectas y ambiguas en el conjunto de datos y aprovechar al máximo los datos de preferencia de alta calidad. (2) Desde un punto de vista algorítmico, introducimos el aprendizaje contrastivo para mejorar la capacidad de los modelos de recompensa de distinguir entre respuestas elegidas y rechazadas, mejorando así la generalización del modelo. Además, empleamos el metaaprendizaje para permitir que el modelo de recompensa mantenga la capacidad de diferenciar sutiles diferencias en muestras fuera de la distribución, y este enfoque puede utilizarse para la optimización iterativa de RLHF.
El renderizado de campos de radiancia basado en puntos ha demostrado resultados impresionantes para la síntesis de nuevas vistas, ofreciendo una combinación convincente de calidad de renderizado y eficiencia computacional. Sin embargo, incluso los enfoques más recientes en este dominio no están exentos de limitaciones. El método de 3D Gaussian Splatting [Kerbl y Kopanas et al. 2023] enfrenta dificultades al renderizar escenas altamente detalladas, debido a artefactos de desenfoque y apariencia nebulosa. Por otro lado, ADOP [Rückert et al. 2022] puede generar imágenes más nítidas, pero la red de reconstrucción neuronal reduce el rendimiento, presenta inestabilidad temporal y no logra abordar eficazmente grandes vacíos en la nube de puntos. En este artículo, presentamos TRIPS (Trilinear Point Splatting), un enfoque que combina ideas tanto de Gaussian Splatting como de ADOP. El concepto fundamental detrás de nuestra novedosa técnica implica rasterizar puntos en una pirámide de imágenes en el espacio de pantalla, donde la selección del nivel de la pirámide se determina por el tamaño proyectado del punto. Este enfoque permite renderizar puntos arbitrariamente grandes utilizando una única escritura trilineal. Luego, se emplea una red neuronal ligera para reconstruir una imagen sin huecos, incluyendo detalles que van más allá de la resolución del splat. Es importante destacar que nuestra canalización de renderizado es completamente diferenciable, lo que permite la optimización automática tanto de los tamaños como de las posiciones de los puntos. Nuestra evaluación demuestra que TRIPS supera a los métodos más avanzados existentes en términos de calidad de renderizado, manteniendo una tasa de fotogramas en tiempo real de 60 fotogramas por segundo en hardware fácilmente disponible. Este rendimiento se extiende a escenarios desafiantes, como escenas con geometría intrincada, paisajes extensos y material con exposición automática.
Trabajos recientes demuestran que el uso de aprendizaje por refuerzo (RL) con recompensas de calidad puede mejorar la calidad de las imágenes generadas en la generación de texto a imagen (T2I). Sin embargo, una simple agregación de múltiples recompensas puede causar una sobreoptimización en ciertas métricas y una degradación en otras, y es un desafío encontrar manualmente los pesos óptimos. Una estrategia efectiva para optimizar conjuntamente múltiples recompensas en RL para la generación T2I es altamente deseable. Este artículo presenta Parrot, un novedoso marco de RL multi-recompensa para la generación T2I. Mediante el uso de la selección óptima de Pareto por lotes, Parrot identifica automáticamente el equilibrio óptimo entre diferentes recompensas durante la optimización de RL en la generación T2I. Además, Parrot emplea un enfoque de optimización conjunta para el modelo T2I y la red de expansión de prompts, facilitando la generación de prompts de texto conscientes de la calidad, lo que mejora aún más la calidad final de la imagen. Para contrarrestar el posible olvido catastrófico del prompt original del usuario debido a la expansión del prompt, introducimos una guía centrada en el prompt original en el momento de la inferencia, asegurando que la imagen generada permanezca fiel a la entrada del usuario. Experimentos extensivos y un estudio de usuario demuestran que Parrot supera varios métodos de referencia en diversos criterios de calidad, incluyendo estética, preferencia humana, sentimiento de la imagen y alineación texto-imagen.
La inspección de la información codificada en las representaciones ocultas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) puede explicar el comportamiento de los modelos y verificar su alineación con los valores humanos. Dadas las capacidades de los LLMs para generar texto comprensible para los humanos, proponemos aprovechar el propio modelo para explicar sus representaciones internas en lenguaje natural. Introducimos un marco llamado Patchscopes y demostramos cómo puede utilizarse para responder a una amplia gama de preguntas de investigación sobre el cálculo de un LLM. Mostramos que los métodos previos de interpretabilidad basados en proyectar representaciones en el espacio del vocabulario e intervenir en el cálculo del LLM pueden verse como casos especiales de este marco. Además, varias de sus limitaciones, como la incapacidad para inspeccionar las capas iniciales o la falta de expresividad, pueden mitigarse mediante un Patchscope. Más allá de unificar las técnicas de inspección previas, Patchscopes también abre nuevas posibilidades, como el uso de un modelo más capaz para explicar las representaciones de un modelo más pequeño, y desbloquea nuevas aplicaciones, como la autocorrección en razonamientos de múltiples pasos.
Los grandes modelos de lenguaje entrenados en corpus masivos de datos de la web pueden memorizar y reproducir información sensible o privada, lo que plantea preocupaciones tanto legales como éticas. El desaprendizaje, o el ajuste de modelos para olvidar información presente en sus datos de entrenamiento, nos proporciona una forma de proteger datos privados después del entrenamiento. Aunque existen varios métodos para este desaprendizaje, no está claro hasta qué punto resultan en modelos equivalentes a aquellos en los que los datos que se desean olvidar nunca se aprendieron en primer lugar. Para abordar este desafío, presentamos TOFU, una Tarea de Desaprendizaje Ficticio, como un punto de referencia destinado a profundizar nuestra comprensión del desaprendizaje. Ofrecemos un conjunto de datos de 200 perfiles de autores sintéticos diversos, cada uno compuesto por 20 pares de preguntas y respuestas, y un subconjunto de estos perfiles llamado conjunto de olvido que sirve como objetivo para el desaprendizaje. Compilamos un conjunto de métricas que trabajan juntas para proporcionar una imagen holística de la eficacia del desaprendizaje. Finalmente, proporcionamos un conjunto de resultados de referencia de algoritmos de desaprendizaje existentes. Es importante destacar que ninguno de los baselines que consideramos muestra un desaprendizaje efectivo, lo que motiva esfuerzos continuos para desarrollar enfoques de desaprendizaje que ajusten los modelos de manera que realmente se comporten como si nunca hubieran sido entrenados con los datos de olvido.
En el corazón de la medicina se encuentra el diálogo médico-paciente, donde una habilidosa toma de historias clínicas allana el camino para un diagnóstico preciso, un manejo efectivo y una confianza duradera. Los sistemas de Inteligencia Artificial (IA) capaces de realizar diálogos diagnósticos podrían aumentar la accesibilidad, consistencia y calidad de la atención. Sin embargo, aproximar la experiencia clínica de los médicos sigue siendo un gran desafío pendiente. Aquí presentamos AMIE (Articulate Medical Intelligence Explorer), un sistema de IA basado en un Modelo de Lenguaje de Gran Escala (LLM) optimizado para diálogos diagnósticos. AMIE utiliza un entorno simulado novedoso basado en autojuego con mecanismos de retroalimentación automatizados para escalar el aprendizaje en diversas condiciones de enfermedad, especialidades y contextos. Diseñamos un marco para evaluar ejes de desempeño clínicamente significativos, incluyendo la toma de historias clínicas, la precisión diagnóstica, el razonamiento de manejo, las habilidades de comunicación y la empatía. Comparamos el desempeño de AMIE con el de médicos de atención primaria (PCPs) en un estudio cruzado, aleatorizado y doble ciego de consultas basadas en texto con actores pacientes validados, siguiendo el estilo de un Examen Clínico Objetivo Estructurado (OSCE). El estudio incluyó 149 escenarios de casos de proveedores clínicos en Canadá, el Reino Unido e India, 20 PCPs para comparación con AMIE, y evaluaciones por parte de médicos especialistas y actores pacientes. AMIE demostró una mayor precisión diagnóstica y un desempeño superior en 28 de 32 ejes según los médicos especialistas y en 24 de 26 ejes según los actores pacientes. Nuestra investigación tiene varias limitaciones y debe interpretarse con la debida precaución. Los clínicos se limitaron a chats de texto sincrónicos con pacientes desconocidos, lo que permite interacciones a gran escala entre LLM y pacientes, pero no es representativo de la práctica clínica habitual. Si bien se requiere más investigación antes de que AMIE pueda trasladarse a entornos del mundo real, los resultados representan un hito hacia la IA diagnóstica conversacional.
Los modelos de lenguaje multimodal de gran escala han demostrado un rendimiento impresionante en diversas tareas y modalidades. Sin embargo, los modelos multimodales existentes se centran principalmente en capturar información global dentro de cada modalidad, descuidando la importancia de percibir información local entre modalidades. Como consecuencia, estos modelos carecen de la capacidad para comprender efectivamente los detalles más finos de los datos de entrada, lo que limita su rendimiento en tareas que requieren una comprensión más matizada. Para abordar esta limitación, existe una necesidad imperiosa de desarrollar modelos que permitan una comprensión detallada a través de múltiples modalidades, mejorando así su aplicabilidad en una amplia gama de tareas. En este artículo, proponemos LEGO, un modelo de anclaje multimodal mejorado con lenguaje. Más allá de capturar información global como otros modelos multimodales, nuestro modelo propuesto sobresale en tareas que exigen una comprensión detallada de la información local dentro de la entrada. Demuestra una identificación y localización precisa de regiones específicas en imágenes o momentos en videos. Para lograr este objetivo, diseñamos una pipeline de construcción de datos diversificada, resultando en un conjunto de datos multimodal y multigranularidad para el entrenamiento del modelo. El código, el conjunto de datos y la demostración de nuestro modelo se pueden encontrar en https://github.com/lzw-lzw/LEGO.
La edición de videos basada en difusión ha alcanzado una calidad impresionante y puede transformar tanto el estilo global, la estructura local como los atributos de las entradas de video dadas, siguiendo indicaciones de edición textual. Sin embargo, tales soluciones suelen incurrir en costos elevados de memoria y computación para generar fotogramas temporalmente coherentes, ya sea en forma de inversión de difusión y/o atención entre fotogramas. En este artículo, realizamos un análisis de estas ineficiencias y sugerimos modificaciones simples pero efectivas que permiten aceleraciones significativas mientras se mantiene la calidad. Además, introducimos la Difusión Centrada en Objetos, denominada OCD, para reducir aún más la latencia al asignar cálculos principalmente hacia las regiones editadas en primer plano, que son argumentablemente más importantes para la calidad perceptual. Logramos esto mediante dos propuestas novedosas: i) Muestreo Centrado en Objetos, que desacopla los pasos de difusión dedicados a regiones destacadas o al fondo, asignando la mayor parte de la capacidad del modelo a las primeras, y ii) Fusión de Tokens 3D Centrada en Objetos, que reduce el costo de la atención entre fotogramas al fusionar tokens redundantes en regiones de fondo poco importantes. Ambas técnicas son aplicables directamente a un modelo de edición de video dado sin necesidad de reentrenamiento, y pueden reducir drásticamente su costo de memoria y computación. Evaluamos nuestras propuestas en flujos de trabajo de edición basados en inversión y en señales de control, y mostramos una reducción de latencia de hasta 10 veces para una calidad de síntesis comparable.
La síntesis dinámica de nuevas vistas tiene como objetivo capturar la evolución temporal del contenido visual en los videos. Los métodos existentes tienen dificultades para distinguir entre movimiento y estructura, particularmente en escenarios donde las poses de la cámara son desconocidas o están restringidas en comparación con el movimiento de los objetos. Además, con información únicamente de imágenes de referencia, es extremadamente desafiante generar regiones no vistas que están ocluidas o parcialmente observadas en los videos dados. Para abordar estos problemas, primero ajustamos un modelo de difusión RGB-D preentrenado en los fotogramas del video utilizando una técnica de personalización. Posteriormente, destilamos el conocimiento del modelo ajustado a una representación 4D que abarca componentes dinámicos y estáticos de Campos de Radiancia Neural (NeRF). La pipeline propuesta logra consistencia geométrica mientras preserva la identidad de la escena. Realizamos experimentos exhaustivos para evaluar la eficacia del método propuesto cualitativa y cuantitativamente. Nuestros resultados demuestran la robustez y utilidad de nuestro enfoque en casos desafiantes, avanzando aún más en la síntesis dinámica de nuevas vistas.
Demostramos que el contenido en la web a menudo se traduce a muchos idiomas, y la baja calidad de estas traducciones multidireccionales sugiere que probablemente fueron creadas mediante Traducción Automática (TA). El contenido paralelo multidireccional generado automáticamente no solo domina las traducciones en idiomas con menos recursos; también constituye una gran fracción del contenido web total en esos idiomas. También encontramos evidencia de un sesgo de selección en el tipo de contenido que se traduce a muchos idiomas, consistente con la traducción masiva de contenido en inglés de baja calidad a muchos idiomas con menos recursos, a través de TA. Nuestro trabajo plantea serias preocupaciones sobre el entrenamiento de modelos, como los modelos de lenguaje multilingües a gran escala, utilizando datos monolingües y bilingües extraídos de la web.
Este artículo presenta instrucciones de alineación contrastiva (AlignInstruct) para abordar dos desafíos en la traducción automática (MT) con modelos de lenguaje de gran escala (LLMs). El primero es la expansión de los idiomas soportados a aquellos no vistos previamente. El segundo se relaciona con la falta de datos en idiomas de bajos recursos. El ajuste fino del modelo mediante instrucciones de traducción automática (MTInstruct) es un enfoque directo para el primer desafío. Sin embargo, MTInstruct está limitado por señales cruzadas débiles inherentes al segundo desafío. AlignInstruct enfatiza la supervisión cruzada a través de un discriminador cruzado construido utilizando alineaciones estadísticas de palabras. Nuestros resultados, basados en el ajuste fino de los modelos BLOOMZ (1b1, 3b y 7b1) en hasta 24 idiomas no vistos, mostraron que: (1) los LLMs pueden traducir efectivamente idiomas no vistos usando MTInstruct; (2) AlignInstruct condujo a mejoras consistentes en la calidad de la traducción en 48 direcciones de traducción que involucran el inglés; (3) las instrucciones basadas en discriminadores superaron a sus contrapartes generativas como instrucciones cruzadas; (4) AlignInstruct mejoró el rendimiento en 30 direcciones de cero disparos.