Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Video-LLaMA, un marco multimodal que capacita a los Modelos de Lenguaje de Gran Escala (LLMs) para comprender tanto el contenido visual como auditivo en videos. Video-LLaMA inicia el entrenamiento multimodal a partir de codificadores visuales y de audio preentrenados y congelados, junto con LLMs también congelados. A diferencia de los modelos previos de visión-LLMs que se centran en la comprensión de imágenes estáticas, como MiniGPT-4~zhu2023minigpt y LLaVA~liu2023visualit, Video-LLaMA aborda dos desafíos en la comprensión de videos: (1) capturar los cambios temporales en las escenas visuales, (2) integrar señales audiovisuales. Para el primer desafío, proponemos Video Q-former para extender el codificador de imágenes preentrenado a un codificador de video e introducimos una tarea de generación de texto a partir de video para aprender la correspondencia entre video y lenguaje. Para el segundo desafío, utilizamos ImageBind~girdhar2023imagebind como el codificador de audio preentrenado, que destaca por su capacidad para alinear diferentes modalidades en un espacio de incrustación común. Luego, introducimos un Audio Q-former para aprender tokens de consulta auditiva. Para alinear la salida de ambos codificadores, visual y de audio, con el espacio de incrustación del LLM, entrenamos Video-LLaMA en un conjunto de datos a gran escala de descripción visual y en un conjunto de datos de alta calidad para ajuste instruccional visual. Descubrimos que Video-LLaMA demuestra la capacidad de percibir y comprender el contenido de los videos, generando respuestas significativas basadas en la información visual y auditiva presente en los videos. Esto resalta el potencial de Video-LLaMA como un prototipo prometedor para asistentes de IA audiovisuales. Nuestro código, modelo preentrenado y demostración están disponibles en https://github.com/DAMO-NLP-SG/Video-LLaMA.
Polyglot es un proyecto pionero destinado a mejorar el rendimiento en idiomas no ingleses de los modelos de lenguaje multilingüe. A pesar de la disponibilidad de varios modelos multilingües como mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) y BLOOM (Scao et al., 2022), investigadores y desarrolladores a menudo recurren a construir modelos monolingües en sus respectivos idiomas debido a la insatisfacción con las capacidades de los modelos multilingües actuales en lenguas no inglesas. Para abordar esta brecha, buscamos desarrollar modelos de lenguaje multilingüe avanzados que ofrezcan un mejor rendimiento en idiomas no ingleses. En este artículo, presentamos los modelos Polyglot Korean, que representan un enfoque específico en lugar de ser multilingües por naturaleza. En colaboración con TUNiB, nuestro equipo recopiló 1.2 TB de datos en coreano meticulosamente curados para nuestra investigación. Tomamos la decisión deliberada de priorizar el desarrollo de modelos en coreano antes de incursionar en modelos multilingües. Esta elección fue motivada por múltiples factores: en primer lugar, los modelos en coreano facilitaron comparaciones de rendimiento con los modelos multilingües existentes; y finalmente, atendieron a las necesidades específicas de empresas e investigadores coreanos. Este artículo presenta nuestro trabajo en el desarrollo de los modelos Polyglot Korean, que proponen algunos pasos hacia la solución de la brecha de rendimiento en idiomas no ingleses en los modelos de lenguaje multilingüe.
Los Modelos de Lenguaje de Gran Escala (LLMs) se benefician significativamente del prompting de Cadena de Pensamiento (CoT) al realizar diversas tareas de razonamiento. Aunque el CoT permite que los modelos produzcan procesos de razonamiento más completos, su énfasis en los pasos intermedios de razonamiento puede introducir inadvertidamente alucinaciones y errores acumulados, limitando así la capacidad de los modelos para resolver tareas de razonamiento complejas. Inspirados en cómo los humanos realizan procesos de razonamiento lógico deductivo cuidadosos y meticulosos para resolver tareas, buscamos permitir que los modelos de lenguaje realicen un razonamiento deductivo explícito y riguroso, y también asegurar la confiabilidad de su proceso de razonamiento mediante la autoverificación. Sin embargo, verificar directamente la validez de un proceso completo de razonamiento deductivo es un desafío, incluso con modelos avanzados como ChatGPT. En vista de esto, proponemos descomponer un proceso de verificación de razonamiento en una serie de subprocesos paso a paso, cada uno de los cuales recibe únicamente su contexto y premisas necesarios. Para facilitar este procedimiento, proponemos el Programa Natural, un formato de razonamiento deductivo basado en lenguaje natural. Nuestro enfoque permite que los modelos generen pasos de razonamiento precisos donde los pasos subsiguientes se basan de manera más rigurosa en los pasos previos. También capacita a los modelos de lenguaje para llevar a cabo la autoverificación del razonamiento de manera paso a paso. Al integrar este proceso de verificación en cada etapa del razonamiento deductivo, mejoramos significativamente el rigor y la confiabilidad de los pasos de razonamiento generados. A lo largo de este proceso, también mejoramos la corrección de las respuestas en tareas de razonamiento complejas. El código se publicará en https://github.com/lz1oceani/verify_cot.
Escalar la síntesis de voz a partir de texto (text-to-speech) a un conjunto de datos grande y diverso ha demostrado ser altamente efectivo para lograr generalización en el timbre y el estilo de habla, particularmente en TTS zero-shot. Sin embargo, trabajos anteriores suelen codificar el habla en latentes utilizando códecs de audio y emplean modelos de lenguaje autoregresivos o modelos de difusión para generarla, lo que ignora la naturaleza intrínseca del habla y puede resultar en resultados inferiores o incontrolables. Argumentamos que el habla puede descomponerse en varios atributos (por ejemplo, contenido, timbre, prosodia y fase) y que cada uno de ellos debe modelarse utilizando un módulo con sesgos inductivos apropiados. Desde esta perspectiva, diseñamos cuidadosamente un sistema novedoso y de gran escala para TTS zero-shot llamado Mega-TTS, el cual se entrena con datos diversos a gran escala y modela diferentes atributos de distintas maneras: 1) En lugar de utilizar latentes codificados por códecs de audio como característica intermedia, elegimos el espectrograma, ya que separa bien la fase de otros atributos. La fase puede construirse adecuadamente mediante un vocoder basado en GAN y no necesita ser modelada por el modelo de lenguaje. 2) Modelamos el timbre utilizando vectores globales, ya que el timbre es un atributo global que cambia lentamente en el tiempo. 3) Además, empleamos un modelo acústico basado en VQGAN para generar el espectrograma y un modelo de lenguaje de códigos latentes para ajustar la distribución de la prosodia, dado que la prosodia cambia rápidamente en el tiempo dentro de una oración, y los modelos de lenguaje pueden capturar dependencias tanto locales como de largo alcance. Escalamos Mega-TTS a conjuntos de datos multidominio con 20,000 horas de habla y evaluamos su rendimiento en hablantes no vistos. Los resultados experimentales demuestran que Mega-TTS supera a los sistemas TTS más avanzados en tareas de TTS zero-shot, edición de habla y TTS multilingüe, con una naturalidad, robustez y similitud de hablante superiores, gracias a los sesgos inductivos adecuados de cada módulo. Las muestras de audio están disponibles en https://mega-tts.github.io/demo-page.
Presentamos MotionDiffuser, una representación basada en difusión para la distribución conjunta de trayectorias futuras de múltiples agentes. Dicha representación ofrece varias ventajas clave: primero, nuestro modelo aprende una distribución altamente multimodal que captura diversos resultados futuros. Segundo, el diseño simple del predictor requiere solo un objetivo de entrenamiento con pérdida L2 y no depende de anclajes de trayectoria. Tercero, nuestro modelo es capaz de aprender la distribución conjunta para el movimiento de múltiples agentes de manera permutación-invariante. Además, utilizamos una representación comprimida de trayectorias mediante PCA, lo que mejora el rendimiento del modelo y permite el cálculo eficiente de la probabilidad logarítmica exacta de las muestras. Posteriormente, proponemos un marco general de muestreo restringido que permite el muestreo controlado de trayectorias basado en funciones de coste diferenciables. Esta estrategia habilita una variedad de aplicaciones, como la imposición de reglas y conocimientos físicos previos, o la creación de escenarios de simulación personalizados. MotionDiffuser puede combinarse con arquitecturas base existentes para lograr resultados de vanguardia en la predicción de movimiento. Obtenemos resultados de última generación en la predicción de movimiento multiagente en el conjunto de datos Waymo Open Motion.
Recientemente, los métodos generativos 3D guiados por texto han logrado avances notables en la producción de texturas y geometrías de alta calidad, aprovechando la proliferación de grandes modelos de visión-lenguaje y difusión de imágenes. Sin embargo, los métodos existentes aún enfrentan dificultades para crear avatares 3D de cabezas de alta fidelidad en dos aspectos: (1) Dependen principalmente de un modelo de difusión de texto a imagen preentrenado, careciendo de la conciencia 3D y los conocimientos previos sobre cabezas necesarios. Esto los hace propensos a inconsistencias y distorsiones geométricas en los avatares generados. (2) Presentan limitaciones en la edición detallada. Esto se debe principalmente a las limitaciones heredadas de los modelos de difusión de imágenes 2D preentrenados, que se vuelven más evidentes al tratar con avatares 3D de cabezas. En este trabajo, abordamos estos desafíos introduciendo una pipeline versátil de coarse-to-fine denominada HeadSculpt para crear (es decir, generar y editar) avatares 3D de cabezas a partir de indicaciones textuales. Específicamente, primero dotamos al modelo de difusión de conciencia 3D mediante el uso de controles basados en puntos de referencia y una incrustación textual aprendida que representa la apariencia de la vista posterior de las cabezas, permitiendo generaciones de avatares 3D consistentes. Además, proponemos una novedosa estrategia de destilación de puntuación de edición consciente de la identidad para optimizar una malla texturizada con una técnica de renderizado diferenciable de alta resolución. Esto permite preservar la identidad mientras se siguen las instrucciones de edición. Demostramos la superior fidelidad y capacidades de edición de HeadSculpt a través de experimentos exhaustivos y comparaciones con métodos existentes.
Proponemos PolyVoice, un marco basado en modelos de lenguaje para sistemas de traducción de voz a voz (S2ST). Nuestro marco consta de dos modelos de lenguaje: un modelo de lenguaje de traducción y un modelo de lenguaje de síntesis de voz. Utilizamos unidades de voz discretizadas, generadas de manera completamente no supervisada, lo que permite que nuestro marco sea aplicable a lenguas no escritas. Para la parte de síntesis de voz, adoptamos el enfoque existente de VALL-E X y construimos un modelo de lenguaje de audio basado en unidades. Esto otorga a nuestro marco la capacidad de preservar las características de la voz y el estilo de habla del discurso original. Evaluamos nuestro sistema en pares de chino → inglés e inglés → español. Los resultados experimentales muestran que nuestro sistema puede generar voz con alta calidad de traducción y calidad de audio. Las muestras de voz están disponibles en https://speechtranslation.github.io/polyvoice.
Los grandes modelos de lenguaje entrenados con código han demostrado un gran potencial para aumentar la productividad de los desarrolladores de software. Se han propuesto varios puntos de referencia basados en ejecución para evaluar la corrección funcional del código generado por modelos en problemas de programación simples. Sin embargo, es costoso realizar la misma evaluación en proyectos complejos del mundo real, considerando el costo de ejecución. Por el contrario, las herramientas de análisis estático, como los linters, que pueden detectar errores sin ejecutar el programa, no han sido bien exploradas para evaluar modelos de generación de código. En este trabajo, proponemos un marco de evaluación estática para cuantificar errores estáticos en completaciones de código Python, aprovechando los Árboles de Sintaxis Abstracta. En comparación con la evaluación basada en ejecución, nuestro método no solo es más eficiente, sino también aplicable a código en entornos reales. Para los experimentos, recopilamos contexto de código de repositorios de código abierto para generar un millón de cuerpos de funciones utilizando modelos públicos. Nuestro análisis estático revela que los errores más comunes entre otros cometidos por los modelos de lenguaje son Nombre No Definido y Variable No Utilizada. A través de estudios exhaustivos, también mostramos el impacto de la temperatura de muestreo, el tamaño del modelo y el contexto en los errores estáticos en las completaciones de código.
Los modelos probabilísticos de difusión para eliminación de ruido han revolucionado la generación de imágenes con su impresionante fidelidad y diversidad. Demostramos que también sobresalen en la estimación de flujo óptico y profundidad monocular, sorprendentemente, sin arquitecturas y funciones de pérdida específicas para estas tareas, que predominan en estos campos. En comparación con las estimaciones puntuales de los métodos convencionales basados en regresión, los modelos de difusión también permiten inferencia de Monte Carlo, por ejemplo, capturando incertidumbre y ambigüedad en el flujo y la profundidad. Con preentrenamiento autosupervisado, el uso combinado de datos sintéticos y reales para el entrenamiento supervisado, e innovaciones técnicas (relleno y entrenamiento de difusión para eliminación de ruido con desenrollado de pasos) para manejar datos de entrenamiento ruidosos e incompletos, y una forma simple de refinamiento de grueso a fino, se pueden entrenar modelos de difusión de vanguardia para la estimación de profundidad y flujo óptico. Experimentos extensos se centran en el rendimiento cuantitativo frente a puntos de referencia, ablaciones, y la capacidad del modelo para capturar incertidumbre y multimodalidad, e imputar valores faltantes. Nuestro modelo, DDVM (Denoising Diffusion Vision Model), obtiene un error relativo de profundidad de vanguardia de 0.074 en el punto de referencia NYU para interiores y una tasa de valores atípicos Fl-all del 3.26\% en el punto de referencia KITTI para flujo óptico, aproximadamente un 25\% mejor que el mejor método publicado. Para una visión general, consulte https://diffusion-vision.github.io.
Las redes neuronales ternarias y binarias permiten cálculos sin multiplicaciones y prometen ganancias de eficiencia de varios órdenes de magnitud en comparación con las redes de precisión completa si se implementan en hardware especializado. Sin embargo, dado que tanto el espacio de parámetros como el de salida están altamente discretizados, estas redes han demostrado ser muy difíciles de optimizar. Las dificultades se agravan en el caso de los modelos de generación de texto basados en transformadores debido a la sensibilidad de la operación de atención a la cuantización y a los efectos de acumulación de ruido en la decodificación autoregresiva dentro del espacio de salida de alta cardinalidad. Abordamos el problema con una combinación de cuantización basada en estadísticas para los pesos y cuantización elástica de las activaciones, y demostramos los primeros modelos de transformadores ternarios y binarios en las tareas de resumen y traducción automática. Nuestro modelo ternario BART base alcanza una puntuación R1 de 41 en el benchmark CNN/DailyMail, lo que está apenas 3.9 puntos por detrás del modelo completo mientras es 16 veces más eficiente. Nuestro modelo binario, aunque menos preciso, logra una puntuación altamente significativa de 35.6. En traducción automática, obtuvimos puntuaciones BLEU de 21.7 y 17.6 en el benchmark WMT16 En-Ro, en comparación con la puntuación de 26.8 del modelo mBART de precisión completa. También comparamos nuestro enfoque en el escenario de activaciones de 8 bits, donde nuestros modelos con pesos ternarios e incluso binarios pueden igualar o superar a los mejores modelos existentes con pesos de 8 bits en la literatura. Nuestro código y modelos están disponibles en: https://github.com/facebookresearch/Ternary_Binary_Transformer.
La eliminación de conceptos tiene como objetivo eliminar características específicas de una representación. Puede utilizarse para mejorar la equidad (por ejemplo, evitar que un clasificador utilice género o raza) y la interpretabilidad (por ejemplo, eliminar un concepto para observar cambios en el comportamiento del modelo). En este artículo, presentamos LEACE (Eliminación de Conceptos por Mínimos Cuadrados), un método de forma cerrada que, de manera demostrable, impide que todos los clasificadores lineales detecten un concepto mientras causa el menor daño posible a la representación. Aplicamos LEACE a modelos de lenguaje extensos con un procedimiento novedoso llamado "limpieza de conceptos", que elimina la información del concepto objetivo de cada capa de la red. Demostramos la utilidad de nuestro método en dos tareas: medir la dependencia de los modelos de lenguaje en la información de categorías gramaticales y reducir el sesgo de género en los embeddings de BERT. El código está disponible en https://github.com/EleutherAI/concept-erasure.
Presentamos Semantic Interpreter, un sistema de IA compatible con lenguaje natural para software de productividad como Microsoft Office que aprovecha los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para ejecutar la intención del usuario a través de las funciones de las aplicaciones. Si bien los LLMs son excelentes para comprender la intención del usuario expresada en lenguaje natural, no son suficientes para cumplir con la intención del usuario específica de la aplicación que requiere más que transformaciones de texto a texto. Por lo tanto, introducimos el Lenguaje Específico del Dominio de Office (ODSL, por sus siglas en inglés), un lenguaje conciso y de alto nivel especializado para realizar acciones e interactuar con entidades en las aplicaciones de Office. Semantic Interpreter utiliza un método de construcción de prompts de Análisis-Recuperación con LLMs para la síntesis de programas, traduciendo las expresiones en lenguaje natural del usuario a programas ODSL que pueden transpilarse a las APIs de las aplicaciones y luego ejecutarse. Centramos nuestra discusión principalmente en una exploración de investigación para Microsoft PowerPoint.
Los grandes modelos de lenguaje para código (Code-LLMs) han logrado avances significativos recientemente en la tarea de completado de código, una característica fundamental de la asistencia en programación y la inteligencia de código. Sin embargo, la mayoría de los trabajos existentes ignoran la posible presencia de errores en el contexto del código utilizado para la generación, los cuales son inevitables en el desarrollo de software. Por ello, introducimos y estudiamos el problema de completado de código con errores, inspirado en el escenario realista de sugerencias de código en tiempo real donde el contexto contiene posibles errores —anti-patrones que pueden convertirse en fallos en el programa completado—. Para estudiar esta tarea de manera sistemática, presentamos dos conjuntos de datos: uno con errores sintéticos derivados de cambios de operadores que alteran la semántica (buggy-HumanEval) y otro con errores realistas extraídos de envíos de usuarios a problemas de programación (buggy-FixEval). Descubrimos que la presencia de posibles errores degrada significativamente el rendimiento de generación de los Code-LLMs de alto desempeño. Por ejemplo, las tasas de aprobación de CodeGen-2B-mono en los casos de prueba de buggy-HumanEval caen más del 50% ante la presencia de un solo error potencial en el contexto. Finalmente, investigamos varios métodos post-hoc para mitigar el efecto adverso de los posibles errores y encontramos que persiste una brecha considerable en el rendimiento después de la mitigación.
La reconstrucción de superficies neuronales ha demostrado ser poderosa para recuperar superficies 3D densas mediante el renderizado neuronal basado en imágenes. Sin embargo, los métodos actuales tienen dificultades para recuperar estructuras detalladas de escenas del mundo real. Para abordar este problema, presentamos Neuralangelo, que combina el poder de representación de las cuadrículas hash 3D de múltiples resoluciones con el renderizado neuronal de superficies. Dos elementos clave permiten nuestro enfoque: (1) gradientes numéricos para calcular derivadas de orden superior como una operación de suavizado y (2) optimización de grueso a fino en las cuadrículas hash que controlan diferentes niveles de detalle. Incluso sin entradas auxiliares como la profundidad, Neuralangelo puede recuperar eficazmente estructuras de superficies 3D densas a partir de imágenes de múltiples vistas con una fidelidad que supera significativamente a los métodos anteriores, permitiendo la reconstrucción detallada de escenas a gran escala a partir de capturas de video RGB.
Con el desarrollo de los modelos de lenguaje de gran escala, muchos sistemas lingüísticos destacados como ChatGPT han prosperado y logrado un éxito asombroso en numerosas tareas, demostrando el increíble poder de los modelos base. Con el espíritu de aprovechar la capacidad de los modelos base en tareas de visión, recientemente se ha propuesto el Segment Anything Model (SAM), un modelo base de visión para la segmentación de imágenes, que presenta una fuerte capacidad de zero-shot en muchas tareas 2D posteriores. Sin embargo, aún no se ha explorado si SAM puede adaptarse a tareas de visión 3D, especialmente en la detección de objetos 3D. Con esta inspiración, en este artículo exploramos la adaptación de la capacidad de zero-shot de SAM a la detección de objetos 3D. Proponemos una pipeline de procesamiento BEV impulsada por SAM para detectar objetos y obtenemos resultados prometedores en el conjunto de datos abierto a gran escala de Waymo. Como un intento inicial, nuestro método da un paso hacia la detección de objetos 3D con modelos base de visión y presenta la oportunidad de aprovechar su poder en tareas de visión 3D. El código se ha publicado en https://github.com/DYZhang09/SAM3D.
Este artículo técnico presenta un sistema de robot conversacional que aprovecha los avances recientes en modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) como GPT-3 y ChatGPT. El sistema está integrado con un generador de gestos co-verbales, que selecciona gestos apropiados basándose en el significado conceptual del habla. Nuestra motivación es explorar formas de utilizar el progreso reciente en LLMs para aplicaciones robóticas prácticas, lo que beneficia el desarrollo tanto de chatbots como de LLMs. En concreto, permite el desarrollo de sistemas de chatbots altamente receptivos al aprovechar los LLMs y añade efectos visuales a la interfaz de usuario de los LLMs como un valor adicional. El código fuente del sistema está disponible en GitHub para nuestro robot interno (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) y en GitHub para el Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).
Los modelos autorregresivos para texto a veces generan resultados repetitivos y de baja calidad debido a que los errores se acumulan durante los pasos de generación. Este problema se atribuye frecuentemente al sesgo de exposición: la diferencia entre cómo se entrena un modelo y cómo se utiliza durante la inferencia. Los modelos de difusión de denoising ofrecen un enfoque alternativo en el que un modelo puede revisar y corregir su salida. Sin embargo, pueden ser computacionalmente costosos, y esfuerzos previos en texto han dado lugar a modelos que producen resultados menos fluidos en comparación con los modelos autorregresivos, especialmente para textos y párrafos más largos. En este artículo, proponemos PLANNER, un modelo que combina la difusión semántica latente con la generación autorregresiva para generar texto fluido mientras ejerce un control global sobre los párrafos. El modelo logra esto al combinar un módulo de "decodificación" autorregresivo con un módulo de "planificación" que utiliza difusión latente para generar embeddings semánticos de párrafos de manera gruesa a fina. El método propuesto se evalúa en diversas tareas de generación condicional, y los resultados en generación semántica, completación de texto y resumen muestran su eficacia para generar texto de alta calidad y extenso de manera eficiente.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) preentrenados de manera discriminativa con pérdidas de emparejamiento imagen-texto contrastivas, como P(emparejamiento|texto, imagen), han sido criticados por carecer de comprensión composicional. Esto significa que podrían generar puntuaciones similares incluso si el texto original se reorganiza en una declaración semántica diferente. Para abordar este problema, proponemos utilizar la {bf Puntuación de Preentrenamiento Generativo Visual} ({bf VisualGPTScore}) de P(texto|imagen), una puntuación generativa multimodal que captura la probabilidad de un texto descriptivo condicionado a una imagen utilizando un modelo de lenguaje condicionado por imágenes. Contrario a la creencia de que los VLMs son meros modelos de "bolsa de palabras", nuestra VisualGPTScore lista para usar demuestra un rendimiento de primer nivel en benchmarks recientemente propuestos para recuperación imagen-texto, como ARO y Crepe, que evalúan el razonamiento composicional. Además, factorizamos VisualGPTScore en un producto de la probabilidad marginal P(texto) y la Información Mutua Puntual (PMI, por sus siglas en inglés). Esto ayuda a (a) diagnosticar conjuntos de datos con un fuerte sesgo lingüístico y (b) reducir el sesgo en los resultados de otros benchmarks como Winoground utilizando un marco teórico de la información. VisualGPTScore proporciona insights valiosos y sirve como una línea base sólida para la futura evaluación de la composicionalidad visio-lingüística.
Los grandes modelos de texto a video entrenados con datos a escala de internet han demostrado capacidades excepcionales para generar videos de alta fidelidad a partir de descripciones textuales arbitrarias. Sin embargo, adaptar estos modelos a tareas con datos específicos de dominio limitados, como animación o videos de robótica, presenta un desafío computacional significativo, ya que el ajuste fino de un modelo grande preentrenado puede ser prohibitivamente costoso. Inspirados por cómo un componente pequeño modificable (por ejemplo, prompts, ajuste de prefijos) puede adaptar un modelo de lenguaje grande para realizar nuevas tareas sin necesidad de acceder a los pesos del modelo, investigamos cómo adaptar un modelo grande preentrenado de texto a video a una variedad de dominios y tareas descendentes sin ajuste fino. Para responder a esta pregunta, proponemos Video Adapter, que aprovecha la función de puntuación de un gran modelo de difusión de video preentrenado como un prior probabilístico para guiar la generación de un modelo de video pequeño específico de la tarea. Nuestros experimentos muestran que Video Adapter es capaz de incorporar el conocimiento amplio y preservar la alta fidelidad de un gran modelo de video preentrenado en un modelo de video pequeño específico de la tarea, que puede generar videos de alta calidad pero especializados en una variedad de tareas como animación, modelado egocéntrico y modelado de datos de robótica simulados y del mundo real. Más videos se pueden encontrar en el sitio web https://video-adapter.github.io/.
Las vulnerabilidades de software generan costos significativos para las empresas. A pesar de los extensos esfuerzos en investigación y desarrollo de métodos de detección de vulnerabilidades de software, las vulnerabilidades no detectadas continúan poniendo en riesgo a los propietarios y usuarios de software. Muchos de los métodos actuales de detección de vulnerabilidades requieren que los fragmentos de código puedan compilarse y construirse antes de intentar la detección. Esto, desafortunadamente, introduce una latencia prolongada entre el momento en que se inyecta una vulnerabilidad y el momento en que se elimina, lo que puede aumentar sustancialmente el costo de corregir una vulnerabilidad. Reconocemos que los avances actuales en aprendizaje automático pueden utilizarse para detectar patrones de código vulnerable en fragmentos de código sintácticamente incompletos mientras el desarrollador escribe el código en tiempo de edición (EditTime). En este artículo presentamos un sistema práctico que aprovecha el aprendizaje profundo en un conjunto de datos a gran escala de patrones de código vulnerable para aprender manifestaciones complejas de más de 250 tipos de vulnerabilidades y detectar patrones de código vulnerable en tiempo de edición. Discutimos enfoques de cero disparos (zero-shot), pocos disparos (few-shot) y ajuste fino (fine-tuning) en modelos de lenguaje preentrenados de última generación (Large Language Models, LLMs). Demostramos que, en comparación con los modelos de detección de vulnerabilidades de última generación, nuestro enfoque mejora el estado del arte en un 10%. También evaluamos nuestro enfoque para detectar vulnerabilidades en código generado automáticamente por LLMs de código. La evaluación en un conjunto de pruebas de escenarios de código de alto riesgo muestra una reducción de hasta el 90% en las vulnerabilidades.