Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), ejemplificados por ChatGPT, han captado una atención considerable por sus excelentes capacidades de procesamiento de lenguaje natural. Sin embargo, estos LLMs presentan numerosos desafíos, particularmente en el ámbito de la confiabilidad. Por lo tanto, garantizar la confiabilidad de los LLMs surge como un tema importante. Este artículo presenta TrustLLM, un estudio exhaustivo sobre la confiabilidad en los LLMs, que incluye principios para diferentes dimensiones de confiabilidad, un conjunto de benchmarks establecidos, evaluación y análisis de la confiabilidad para los LLMs más destacados, y una discusión sobre los desafíos abiertos y direcciones futuras. Específicamente, primero proponemos un conjunto de principios para LLMs confiables que abarcan ocho dimensiones diferentes. Basándonos en estos principios, establecemos un benchmark que cubre seis dimensiones, incluyendo veracidad, seguridad, equidad, robustez, privacidad y ética de las máquinas. Luego, presentamos un estudio que evalúa 16 LLMs principales en TrustLLM, utilizando más de 30 conjuntos de datos. Nuestros hallazgos muestran, en primer lugar, que, en general, la confiabilidad y la utilidad (es decir, la efectividad funcional) están positivamente relacionadas. En segundo lugar, nuestras observaciones revelan que los LLMs propietarios generalmente superan a la mayoría de sus contrapartes de código abierto en términos de confiabilidad, lo que plantea preocupaciones sobre los riesgos potenciales de los LLMs de código abierto ampliamente accesibles. Sin embargo, algunos LLMs de código abierto se acercan mucho a los propietarios. En tercer lugar, es importante señalar que algunos LLMs pueden estar excesivamente calibrados para exhibir confiabilidad, hasta el punto de comprometer su utilidad al tratar erróneamente indicaciones benignas como dañinas y, en consecuencia, no responder. Finalmente, enfatizamos la importancia de garantizar la transparencia no solo en los modelos mismos, sino también en las tecnologías que sustentan la confiabilidad. Conocer las tecnologías específicas de confiabilidad que se han empleado es crucial para analizar su efectividad.
Este informe técnico presenta PIXART-{\delta}, un marco de síntesis de texto a imagen que integra el Modelo de Consistencia Latente (LCM, por sus siglas en inglés) y ControlNet en el avanzado modelo PIXART-{\alpha}. PIXART-{\alpha} es reconocido por su capacidad para generar imágenes de alta calidad con una resolución de 1024px mediante un proceso de entrenamiento notablemente eficiente. La integración de LCM en PIXART-{\delta} acelera significativamente la velocidad de inferencia, permitiendo la producción de imágenes de alta calidad en tan solo 2-4 pasos. Es destacable que PIXART-{\delta} logra un avance significativo al generar imágenes de 1024x1024 píxeles en 0.5 segundos, lo que representa una mejora de 7 veces en comparación con PIXART-{\alpha}. Además, PIXART-{\delta} está diseñado para ser entrenado de manera eficiente en GPUs V100 de 32GB en un solo día. Con su capacidad de inferencia de 8 bits (von Platen et al., 2023), PIXART-{\delta} puede sintetizar imágenes de 1024px dentro de las limitaciones de memoria de GPU de 8GB, lo que mejora considerablemente su usabilidad y accesibilidad. Asimismo, la incorporación de un módulo similar a ControlNet permite un control detallado sobre los modelos de difusión de texto a imagen. Introducimos una nueva arquitectura ControlNet-Transformer, específicamente diseñada para Transformers, que logra una controlabilidad explícita junto con la generación de imágenes de alta calidad. Como un modelo de generación de imágenes de última generación y de código abierto, PIXART-{\delta} ofrece una alternativa prometedora a la familia de modelos Stable Diffusion, contribuyendo significativamente a la síntesis de texto a imagen.
Los Transformers se consideran conceptualmente diferentes en comparación con la generación anterior de modelos de última generación en PLN: las redes neuronales recurrentes (RNN). En este trabajo, demostramos que los transformers de solo decodificación pueden, de hecho, conceptualizarse como RNNs multiestado infinitas, una variante de RNN con un tamaño de estado oculto ilimitado. Además, mostramos que los transformers preentrenados pueden convertirse en RNNs multiestado finitas al fijar el tamaño de su estado oculto. Observamos que varias técnicas existentes de compresión de caché en transformers pueden enmarcarse como tales políticas de conversión, e introducimos una nueva política, TOVA, que es más simple en comparación con estas políticas. Nuestros experimentos con varias tareas de largo alcance indican que TOVA supera a todas las demás políticas de referencia, estando casi a la par con el modelo completo (infinito), y utilizando en algunos casos solo 1/8 del tamaño original de la caché. Nuestros resultados indican que los modelos de lenguaje basados en decodificadores de transformers a menudo se comportan en la práctica como RNNs. También presentan la opción de mitigar uno de sus cuellos de botella computacionales más problemáticos: el tamaño de su memoria caché. Publicamos nuestro código en https://github.com/schwartz-lab-NLP/TOVA.
Los seres humanos son capaces de comportarse de manera estratégicamente engañosa: actuar de forma útil en la mayoría de las situaciones, pero comportarse de manera muy diferente para perseguir objetivos alternativos cuando se presenta la oportunidad. Si un sistema de IA aprendiera una estrategia engañosa de este tipo, ¿podríamos detectarla y eliminarla utilizando las técnicas de entrenamiento de seguridad más avanzadas actualmente disponibles? Para estudiar esta pregunta, construimos ejemplos de prueba de concepto de comportamiento engañoso en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Por ejemplo, entrenamos modelos que escriben código seguro cuando el prompt indica que el año es 2023, pero insertan código explotable cuando el año indicado es 2024. Descubrimos que este comportamiento con puerta trasera puede hacerse persistente, de modo que no se elimina mediante técnicas estándar de entrenamiento de seguridad, como el ajuste fino supervisado, el aprendizaje por refuerzo y el entrenamiento adversario (provocar comportamientos inseguros y luego entrenar para eliminarlos). El comportamiento con puerta trasera es más persistente en los modelos más grandes y en los modelos entrenados para producir razonamientos en cadena (chain-of-thought) sobre cómo engañar al proceso de entrenamiento, manteniéndose la persistencia incluso cuando el razonamiento en cadena se elimina mediante destilación. Además, en lugar de eliminar las puertas traseras, encontramos que el entrenamiento adversario puede enseñar a los modelos a reconocer mejor sus desencadenantes de puerta trasera, ocultando efectivamente el comportamiento inseguro. Nuestros resultados sugieren que, una vez que un modelo exhibe comportamiento engañoso, las técnicas estándar podrían fallar en eliminar dicho engaño y crear una falsa impresión de seguridad.
Presentamos InseRF, un método novedoso para la inserción generativa de objetos en reconstrucciones NeRF de escenas 3D. Basado en una descripción textual proporcionada por el usuario y un cuadro delimitador 2D en una vista de referencia, InseRF genera nuevos objetos en escenas 3D. Recientemente, los métodos para la edición de escenas 3D han experimentado una transformación profunda, gracias al uso de fuertes priors de modelos de difusión texto-imagen en el modelado generativo 3D. Los métodos existentes son principalmente efectivos para editar escenas 3D mediante cambios de estilo y apariencia o para eliminar objetos existentes. Sin embargo, la generación de nuevos objetos sigue siendo un desafío para estos métodos, el cual abordamos en este estudio. Específicamente, proponemos anclar la inserción de objetos 3D a una inserción de objetos 2D en una vista de referencia de la escena. La edición 2D se eleva luego a 3D utilizando un método de reconstrucción de objetos de una sola vista. El objeto reconstruido se inserta entonces en la escena, guiado por los priors de métodos de estimación de profundidad monocular. Evaluamos nuestro método en varias escenas 3D y proporcionamos un análisis detallado de los componentes propuestos. Nuestros experimentos con la inserción generativa de objetos en varias escenas 3D indican la efectividad de nuestro método en comparación con los métodos existentes. InseRF es capaz de realizar inserciones de objetos controlables y consistentes en 3D sin requerir información 3D explícita como entrada. Visite nuestra página del proyecto en https://mohamad-shahbazi.github.io/inserf.
Los modelos existentes de manos relumbrantes fotorrealistas requieren extensas observaciones específicas de identidad en diferentes vistas, poses e iluminaciones, y enfrentan desafíos para generalizar a iluminaciones naturales e identidades novedosas. Para cerrar esta brecha, presentamos URHand, el primer modelo universal de manos relumbrantes que generaliza a través de puntos de vista, poses, iluminaciones e identidades. Nuestro modelo permite la personalización con pocas muestras utilizando imágenes capturadas con un teléfono móvil, y está listo para ser renderizado fotorrealísticamente bajo iluminaciones novedosas. Para simplificar el proceso de personalización mientras se conserva el fotorrealismo, construimos un poderoso prior universal relumbrante basado en relumbrado neuronal a partir de imágenes multi-vista de manos capturadas en un escenario de iluminación con cientos de identidades. El desafío clave es escalar el entrenamiento cruzado de identidades mientras se mantiene la fidelidad personalizada y los detalles nítidos sin comprometer la generalización bajo iluminaciones naturales. Para ello, proponemos un modelo de iluminación lineal espacialmente variable como el renderizador neuronal que toma el sombreado inspirado en la física como característica de entrada. Al eliminar las activaciones no lineales y el sesgo, nuestro modelo de iluminación específicamente diseñado mantiene explícitamente la linealidad del transporte de luz. Esto permite el entrenamiento en una sola etapa a partir de datos del escenario de iluminación mientras se generaliza a la renderización en tiempo real bajo iluminaciones continuas arbitrarias en diversas identidades. Además, introducimos el aprendizaje conjunto de un modelo basado en la física y nuestro modelo de relumbrado neuronal, lo que mejora aún más la fidelidad y la generalización. Experimentos extensos muestran que nuestro enfoque logra un rendimiento superior sobre los métodos existentes en términos de calidad y generalización. También demostramos la rápida personalización de URHand a partir de un escaneo corto con un teléfono de una identidad no vista.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son agentes de diálogo potentes, pero especializarlos para cumplir una función específica puede ser un desafío. El ajuste por instrucción, es decir, ajustar los modelos en instrucciones y respuestas de ejemplo generadas por humanos (Ouyang et al., 2022), ha demostrado ser un método efectivo para lograrlo, aunque requiere una cantidad de muestras de datos que a) podrían no estar disponibles o b) son costosas de generar. Además, este costo aumenta cuando el objetivo es hacer que el LLM siga un flujo de trabajo específico dentro de un diálogo en lugar de instrucciones individuales. Inspirados por la técnica de autojuego en el aprendizaje por refuerzo y el uso de LLMs para simular agentes humanos, proponemos un método más efectivo para la recopilación de datos mediante LLMs que participan en una conversación en diversos roles. Este enfoque genera datos de entrenamiento a través del "diálogo interno" de los LLMs, que pueden refinarse y utilizarse para el ajuste fino supervisado. Introducimos una forma automatizada de medir el éxito (parcial) de un diálogo. Esta métrica se utiliza para filtrar los datos conversacionales generados que se retroalimentan en el LLM para su entrenamiento. Basándonos en nuestras evaluaciones automatizadas y humanas de la calidad de las conversaciones, demostramos que estos datos de diálogo interno mejoran los resultados. Además, examinamos las diversas características que muestran la calidad de los diálogos generados y cómo pueden estar conectadas a su utilidad potencial como datos de entrenamiento.
La Cadena de Pensamiento (CoT, por sus siglas en inglés) es significativa para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Sin embargo, la correlación entre la efectividad de CoT y la longitud de los pasos de razonamiento en las indicaciones sigue siendo en gran parte desconocida. Para arrojar luz sobre esto, hemos realizado varios experimentos empíricos para explorar estas relaciones. Específicamente, diseñamos experimentos que expanden y comprimen los pasos de razonamiento dentro de las demostraciones de CoT, manteniendo todos los demás factores constantes. Hemos obtenido los siguientes hallazgos clave. Primero, los resultados indican que alargar los pasos de razonamiento en las indicaciones, incluso sin agregar nueva información, mejora considerablemente las capacidades de razonamiento de los LLMs en múltiples conjuntos de datos. Por el contrario, acortar los pasos de razonamiento, incluso preservando la información clave, reduce significativamente las capacidades de razonamiento de los modelos. Este hallazgo resalta la importancia del número de pasos en las indicaciones de CoT y proporciona una guía práctica para aprovechar mejor el potencial de los LLMs en escenarios de resolución de problemas complejos. Segundo, también investigamos la relación entre el rendimiento de CoT y las justificaciones utilizadas en las demostraciones. Sorprendentemente, los resultados muestran que incluso justificaciones incorrectas pueden producir resultados favorables si mantienen la longitud necesaria de inferencia. Tercero, observamos que las ventajas de aumentar los pasos de razonamiento dependen de la tarea: las tareas más simples requieren menos pasos, mientras que las tareas complejas se benefician significativamente de secuencias de inferencia más largas.
El reciente avance en los modelos de visión y lenguaje se atribuye en gran medida a la abundancia de datos de imágenes y texto. Nuestro objetivo es replicar este éxito para los modelos de video y lenguaje, pero simplemente no hay suficientes datos de video-texto curados por humanos disponibles. Por lo tanto, recurrimos a ajustar un modelo de video y lenguaje a partir de una base sólida de imagen y lenguaje con datos instruccionales sintetizados. El modelo de video y lenguaje resultante se utiliza luego para etiquetar automáticamente millones de videos y generar subtítulos de alta calidad. Demostramos que el modelo de video y lenguaje adaptado funciona bien en una amplia gama de benchmarks de video y lenguaje. Por ejemplo, supera el mejor resultado previo en NExT-QA de respuesta abierta en un 2,8%. Además, nuestro modelo genera descripciones detalladas para videos previamente no vistos, lo que proporciona una supervisión textual mejor que los métodos existentes. Los experimentos muestran que un modelo de codificador dual de video y lenguaje entrenado de manera contrastiva con estos subtítulos generados automáticamente es un 3,8% mejor que la línea base más fuerte que también aprovecha los modelos de visión y lenguaje. Nuestro mejor modelo supera a los métodos más avanzados en la recuperación de texto a video sin entrenamiento previo (zero-shot) en MSR-VTT en un 6%.
La abundancia de contenido en Internet, con hasta un 60% publicado en inglés, contrasta marcadamente con la población global, donde solo el 18.8% son hablantes de inglés y apenas el 5.1% lo considera su lengua materna, lo que genera disparidades en el acceso a la información en línea. Lamentablemente, los procesos automatizados para el doblaje de videos —reemplazar la pista de audio de un video con una alternativa traducida— siguen siendo una tarea compleja y desafiante debido a las canalizaciones, que requieren una sincronización precisa de tiempos, movimientos faciales y correspondencia de prosodia. Aunque el doblaje de extremo a extremo ofrece una solución, la escasez de datos sigue obstaculizando el progreso tanto de los métodos basados en canalizaciones como de los de extremo a extremo. En este trabajo, presentamos Anim-400K, un conjunto de datos exhaustivo de más de 425K segmentos de video animados alineados en japonés e inglés que respalda diversas tareas relacionadas con video, incluyendo doblaje automatizado, traducción simultánea, resumen de video guiado y clasificación de género/tema/estilo. Nuestro conjunto de datos está disponible públicamente para fines de investigación en https://github.com/davidmchan/Anim400K.
El Muestreo por Destilación de Puntuaciones (Score Distillation Sampling, SDS) es un método reciente pero ya ampliamente popular que se basa en un modelo de difusión de imágenes para controlar problemas de optimización mediante indicaciones de texto. En este artículo, realizamos un análisis en profundidad de la función de pérdida de SDS, identificamos un problema inherente en su formulación y proponemos una solución sorprendentemente sencilla pero efectiva. Específicamente, descomponemos la pérdida en diferentes factores y aislamos el componente responsable de los gradientes ruidosos. En la formulación original, se utiliza una alta guía de texto para contrarrestar el ruido, lo que genera efectos secundarios no deseados. En su lugar, entrenamos una red superficial que imita la deficiencia de eliminación de ruido dependiente del paso de tiempo del modelo de difusión de imágenes para factorizarla de manera efectiva. Demostramos la versatilidad y la efectividad de nuestra nueva formulación de pérdida a través de varios experimentos cualitativos y cuantitativos, incluyendo la síntesis y edición de imágenes basada en optimización, el entrenamiento de redes de traducción de imágenes en modo cero y la síntesis de texto a 3D.
Los modelos de lenguaje de gran escala (LLMs) basados en Transformers han sido ampliamente utilizados en muchos campos, y la eficiencia de la inferencia de LLMs se ha convertido en un tema candente en aplicaciones reales. Sin embargo, los LLMs suelen estar diseñados de manera compleja en su estructura de modelo, con operaciones masivas, y realizan inferencias en modo auto-regresivo, lo que convierte en un desafío el diseño de un sistema altamente eficiente. En este artículo, proponemos una solución eficiente para la inferencia de LLMs con baja latencia y alto rendimiento. En primer lugar, simplificamos la capa decodificadora del LLM fusionando el movimiento de datos y las operaciones elementales para reducir la frecuencia de acceso a la memoria y disminuir la latencia del sistema. También proponemos una política de caché KV segmentada para mantener las claves/valores de los tokens de solicitud y respuesta en memoria física separada, lo que permite una gestión efectiva de la memoria del dispositivo, ayudando a aumentar el tamaño del lote en tiempo de ejecución y mejorar el rendimiento del sistema. Se diseña un núcleo de atención de producto escalado (Scaled-Dot-Product-Attention) personalizado para coincidir con nuestra política de fusión basada en la solución de caché KV segmentada. Implementamos nuestra solución de inferencia de LLMs en GPU Intel y la publicamos de manera abierta. En comparación con la implementación estándar de HuggingFace, la solución propuesta logra hasta 7 veces menos latencia por token y 27 veces más rendimiento para algunos LLMs populares en GPU Intel.