Artículos de investigación en IA seleccionados diariamente con traducciones
La cuantificación posterior al entrenamiento es el método principal para abordar los cuellos de botella relacionados con la memoria en la inferencia de LLM, pero desafortunadamente, sufre de una degradación significativa del rendimiento por debajo de una precisión de 4 bits. Un enfoque alternativo implica entrenar modelos comprimidos directamente a una baja cantidad de bits (por ejemplo, modelos binarios o ternarios). Sin embargo, el rendimiento, la dinámica de entrenamiento y las tendencias de escalado de tales modelos aún no se comprenden bien. Para abordar este problema, entrenamos y publicamos abiertamente el conjunto de modelos LLM Spectra que consta de 54 modelos de lenguaje con parámetros que van desde 99M hasta 3.9B, entrenados en 300B de tokens. Spectra incluye FloatLMs, QuantLMs cuantificados posterior al entrenamiento (3, 4, 6 y 8 bits) y LLMs ternarios (TriLMs) - nuestra arquitectura mejorada para modelado de lenguaje ternario, que supera significativamente a los modelos ternarios previamente propuestos de un tamaño dado (en bits), igualando a los modelos de media precisión a gran escala. Por ejemplo, TriLM 3.9B es (en bits) más pequeño que el FloatLM de media precisión 830M, pero coincide con el FloatLM de media precisión 3.9B en razonamiento común y evaluaciones de conocimiento. Sin embargo, TriLM 3.9B también es tan tóxico y estereotipado como el FloatLM 3.9B, un modelo seis veces más grande en tamaño. Además, TriLM 3.9B se queda atrás del FloatLM en perplejidad en divisiones de validación y corpus basados en la web, pero tiene un mejor rendimiento en conjuntos de datos menos ruidosos como Lambada y PennTreeBank. Para mejorar la comprensión de los modelos de baja cantidad de bits, estamos publicando más de 500 puntos de control intermedios del conjunto Spectra en https://github.com/NolanoOrg/SpectraSuite.
Presentamos GoldFinch, un modelo de secuencia híbrido de Atención Lineal/Transformer que utiliza una nueva técnica para generar de manera eficiente un KV-Cache altamente comprimido y reutilizable en tiempo y espacio lineal con respecto a la longitud de la secuencia. GoldFinch apila nuestro nuevo transformador GOLD sobre una versión mejorada de la arquitectura Finch (RWKV-6). Entrenamos modelos de clase de hasta 1.5 mil millones de parámetros de las arquitecturas Finch, Llama y GoldFinch, y encontramos una mejora drástica en el rendimiento de modelado en comparación con Finch y Llama. Nuestros ahorros en el tamaño de la caché aumentan linealmente con el número de capas del modelo, siendo de 756-2550 veces más pequeños que la caché tradicional del transformer para tamaños comunes, lo que permite inferir longitudes de contexto extremadamente grandes incluso en hardware limitado. Aunque la generación autoregresiva tiene una complejidad temporal de O(n) por token debido a la atención, el cálculo de precarga del estado inicial completo de la caché para un contexto enviado cuesta solo O(1) tiempo por token debido al uso de una red neuronal recurrente (RNN) para generar esta caché. Publicamos nuestros pesos entrenados y código de entrenamiento bajo la licencia Apache 2.0 para uso comunitario.
Los agentes LLM han demostrado un rendimiento notable en diversas aplicaciones, principalmente debido a sus capacidades avanzadas en razonamiento, uso de conocimientos y herramientas externas, llamada a APIs y ejecución de acciones para interactuar con entornos. Los agentes actuales suelen utilizar un módulo de memoria o un mecanismo de generación aumentada por recuperación (RAG), recuperando conocimientos pasados e instancias con incrustaciones similares de bases de conocimiento para informar la planificación y ejecución de tareas. Sin embargo, la dependencia de bases de conocimiento no verificadas plantea preocupaciones significativas sobre su seguridad y confiabilidad. Para descubrir tales vulnerabilidades, proponemos un enfoque novedoso de red teaming llamado AgentPoison, el primer ataque de puerta trasera dirigido a agentes LLM genéricos y basados en RAG al envenenar su memoria a largo plazo o base de conocimiento RAG. En particular, formulamos el proceso de generación de desencadenantes como una optimización restringida para optimizar los desencadenantes de puerta trasera mediante el mapeo de las instancias desencadenadas a un espacio de incrustación único, de modo que cada vez que una instrucción de usuario contenga el desencadenante de puerta trasera optimizado, las demostraciones maliciosas se recuperen de la memoria envenenada o base de conocimiento con alta probabilidad. Mientras tanto, las instrucciones benignas sin el desencadenante seguirán manteniendo un rendimiento normal. A diferencia de los ataques de puerta trasera convencionales, AgentPoison no requiere entrenamiento adicional del modelo ni ajuste fino, y el desencadenante de puerta trasera optimizado muestra una transferibilidad superior, coherencia contextual y sigilo. Experimentos extensos demuestran la efectividad de AgentPoison en atacar tres tipos de agentes LLM del mundo real: un agente de conducción autónoma basado en RAG, un agente de QA intensivo en conocimiento y un agente de EHRAgent en el sector de la salud. En cada agente, AgentPoison logra una tasa de éxito de ataque promedio superior al 80% con un impacto mínimo en el rendimiento benigno (menos del 1%) y una tasa de envenenamiento inferior al 0.1%.
Los modelos de lenguaje grandes multimodales (MLLMs) han mostrado avances prometedores en la comprensión visual y del lenguaje en general. Sin embargo, la representación de información multimodal utilizando MLLMs sigue siendo en gran medida inexplorada. En este trabajo, presentamos un nuevo marco, E5-V, diseñado para adaptar MLLMs con el fin de lograr incrustaciones multimodales universales. Nuestros hallazgos resaltan el potencial significativo de los MLLMs en la representación de entradas multimodales en comparación con enfoques anteriores. Al aprovechar los MLLMs con indicaciones, E5-V supera efectivamente la brecha de modalidad entre diferentes tipos de entradas, demostrando un rendimiento sólido en incrustaciones multimodales incluso sin ajuste fino. Proponemos un enfoque de entrenamiento de una sola modalidad para E5-V, donde el modelo se entrena exclusivamente en pares de texto. Este método muestra mejoras significativas sobre el entrenamiento multimodal tradicional en pares de imagen-texto, al tiempo que reduce los costos de entrenamiento en aproximadamente un 95%. Además, este enfoque elimina la necesidad de costosa recopilación de datos de entrenamiento multimodal. Experimentos extensos en cuatro tipos de tareas demuestran la efectividad de E5-V. Como modelo multimodal universal, E5-V no solo logra, sino que a menudo supera el rendimiento de vanguardia en cada tarea, a pesar de estar entrenado en una sola modalidad.
Los avances de los grandes modelos base requieren benchmarks de amplia cobertura, bajo costo y sin contaminación. A pesar de la continua exploración de evaluaciones de modelos de lenguaje, los estudios exhaustivos sobre la evaluación de Grandes Modelos Multimodales (LMMs) siguen siendo limitados. En este trabajo, presentamos LMMS-EVAL, un marco de referencia multimodal unificado y estandarizado con más de 50 tareas y más de 10 modelos para promover evaluaciones transparentes y reproducibles. Aunque LMMS-EVAL ofrece una cobertura exhaustiva, encontramos que aún no logra alcanzar un bajo costo y cero contaminación. Para abordar este trilema de evaluación, presentamos LMMS-EVAL LITE, un kit de herramientas de evaluación podado que enfatiza tanto la cobertura como la eficiencia. Además, presentamos Multimodal LIVEBENCH que utiliza noticias actualizadas continuamente y foros en línea para evaluar las capacidades de generalización de los modelos en entornos reales, presentando un enfoque de evaluación de bajo costo y sin contaminación. En resumen, nuestro trabajo destaca la importancia de considerar el trilema de evaluación y proporciona soluciones prácticas para navegar por los compromisos en la evaluación de grandes modelos multimodales, allanando el camino para una evaluación de LMMs más efectiva y confiable. Ponemos a disposición nuestro código fuente y mantenemos la tabla de clasificación de LIVEBENCH en https://github.com/EvolvingLMMs-Lab/lmms-eval y https://huggingface.co/spaces/lmms-lab/LiveBench.
A medida que los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) logran un progreso notable en la comprensión y generación de lenguaje, la eficiencia de su entrenamiento se ha convertido en una preocupación crítica. Tradicionalmente, los LLMs se entrenan para predecir el siguiente token en una secuencia. A pesar del éxito del entrenamiento a nivel de token, este método sufre de costos computacionales considerables debido a la necesidad de procesar un gran número de tokens. Para mitigar este problema, este artículo introduce el entrenamiento a nivel de parche para los LLMs, el cual reduce la longitud de la secuencia al comprimir varios tokens en un solo parche. Durante el entrenamiento a nivel de parche, alimentamos al modelo de lenguaje con secuencias más cortas de parches y lo entrenamos para predecir el siguiente parche, procesando así la mayoría de los datos de entrenamiento a un costo computacional significativamente reducido. Posteriormente, el modelo continúa el entrenamiento a nivel de token en los datos restantes para alinearse con el modo de inferencia. Experimentos realizados en una amplia gama de modelos (con parámetros de 370M a 2.7B) demuestran que el entrenamiento a nivel de parche puede reducir los costos computacionales generales a 0.5 veces, sin comprometer el rendimiento del modelo en comparación con el entrenamiento a nivel de token. Código fuente: https://github.com/shaochenze/PatchTrain.
Los modelos modernos de síntesis de texto a video demuestran una generación coherente y fotorrealista de videos complejos a partir de una descripción de texto. Sin embargo, la mayoría de los modelos existentes carecen de un control detallado sobre el movimiento de la cámara, lo cual es crucial para aplicaciones relacionadas con la creación de contenido, efectos visuales y visión 3D. Recientemente, nuevos métodos demuestran la capacidad de generar videos con poses de cámara controlables, estas técnicas aprovechan modelos de difusión basados en U-Net pre-entrenados que desentrelazan explícitamente la generación espacial y temporal. Aún así, ningún enfoque existente permite el control de cámara para nuevos modelos de difusión de video basados en transformadores que procesan información espacial y temporal de manera conjunta. En este trabajo, proponemos domesticar transformadores de video para el control de cámara 3D utilizando un mecanismo de condicionamiento similar a ControlNet que incorpora incrustaciones de cámara espaciotemporales basadas en coordenadas de Plücker. El enfoque demuestra un rendimiento de vanguardia para la generación de video controlable después de un ajuste fino en el conjunto de datos RealEstate10K. Hasta donde llega nuestro conocimiento, nuestro trabajo es el primero en permitir el control de cámara para modelos de difusión de video basados en transformadores.
Los últimos avances han logrado un realista probador virtual (VTON) a través del relleno localizado de prendas utilizando modelos de difusión latente, mejorando significativamente la experiencia de compra en línea de los consumidores. Sin embargo, las tecnologías VTON existentes descuidan la necesidad de que los comerciantes muestren prendas de manera integral, incluyendo un control flexible sobre las prendas, rostros opcionales, poses y escenarios. Para abordar este problema, definimos una tarea de vestimenta virtual (VD) centrada en generar imágenes humanas libremente editables con prendas fijas y condiciones opcionales. Al mismo tiempo, diseñamos un índice métrico de afinidad integral (CAMI) para evaluar la consistencia entre las imágenes generadas y las prendas de referencia. Luego, proponemos IMAGDressing-v1, que incorpora un UNet de prendas que captura características semánticas de CLIP y características de textura de VAE. Presentamos un módulo de atención híbrido, que incluye una autoatención congelada y una atención cruzada entrenable, para integrar las características de las prendas del UNet de prendas en un UNet de desenfoque congelado, asegurando que los usuarios puedan controlar diferentes escenarios a través de texto. IMAGDressing-v1 puede combinarse con otros complementos de extensión, como ControlNet e IP-Adapter, para mejorar la diversidad y la controlabilidad de las imágenes generadas. Además, para abordar la falta de datos, lanzamos el conjunto de datos de emparejamiento interactivo de prendas (IGPair), que contiene más de 300,000 pares de prendas e imágenes vestidas, y establecemos un flujo de trabajo estándar para la recopilación de datos. Experimentos extensos demuestran que nuestro IMAGDressing-v1 logra un rendimiento de síntesis de imágenes humanas de vanguardia bajo diversas condiciones controladas. El código y el modelo estarán disponibles en https://github.com/muzishen/IMAGDressing.
La mayoría de los modelos actuales basados en LLM para la comprensión de videos pueden procesar videos en cuestión de minutos. Sin embargo, enfrentan dificultades con videos extensos debido a desafíos como "ruido y redundancia", así como limitaciones de "memoria y computación". En este documento, presentamos Goldfish, una metodología diseñada para comprender videos de longitudes arbitrarias. También introducimos el benchmark TVQA-long, específicamente diseñado para evaluar las capacidades de los modelos en la comprensión de videos largos con preguntas tanto en contenido visual como textual. Goldfish aborda estos desafíos con un mecanismo eficiente de recuperación que recopila inicialmente los clips de video más relevantes para la instrucción antes de proporcionar la respuesta deseada. Este diseño del mecanismo de recuperación permite que Goldfish procese eficientemente secuencias de video de longitud arbitraria, facilitando su aplicación en contextos como películas o series de televisión. Para facilitar el proceso de recuperación, desarrollamos MiniGPT4-Video que genera descripciones detalladas de los clips de video. Al abordar la escasez de benchmarks para la evaluación de videos largos, adaptamos el benchmark de videos cortos TVQA para un análisis de contenido extendido mediante la agregación de preguntas de episodios completos, trasladando así la evaluación de la comprensión parcial a la comprensión del episodio completo. Logramos una tasa de precisión del 41.78% en el benchmark TVQA-long, superando los métodos anteriores en un 14.94%. Nuestro MiniGPT4-Video también muestra un rendimiento excepcional en la comprensión de videos cortos, superando los métodos existentes más avanzados en un 3.23%, 2.03%, 16.5% y 23.59% en los benchmarks de videos cortos MSVD, MSRVTT, TGIF y TVQA, respectivamente. Estos resultados indican que nuestros modelos tienen mejoras significativas tanto en la comprensión de videos largos como cortos. Nuestros modelos y código están disponibles públicamente en https://vision-cair.github.io/Goldfish_website/
El razonamiento complejo es una habilidad impresionante demostrada por los grandes modelos de lenguaje (LLMs). La mayoría de los LLMs son hábiles en el razonamiento deductivo, como la generación de cadenas de pensamiento o el uso iterativo de herramientas para resolver tareas desafiantes paso a paso. En este documento, esperamos centrarnos en evaluar y enseñar a los LLMs a llevar a cabo el razonamiento inductivo, es decir, se supone que los LLMs deben inferir reglas subyacentes observando ejemplos o transformaciones secuenciales. Sin embargo, recopilar datos inductivos generados por humanos a gran escala y diversos es un desafío. Nos enfocamos en la síntesis de datos en el dominio del código y proponemos una tarea Case2Code aprovechando la expresividad y corrección de los programas. Específicamente, recopilamos un conjunto diverso de programas ejecutables, sintetizamos transformaciones de entrada-salida para cada programa y obligamos a los LLMs a inferir las implementaciones de código subyacentes basadas en los casos de E/S sintéticos. Primero evaluamos LLMs representativos en la tarea sintetizada Case2Code y demostramos que la inducción de caso a código es desafiante para los LLMs. Luego, sintetizamos muestras de entrenamiento de Case2Code a gran escala para entrenar a los LLMs en el razonamiento inductivo. Los resultados experimentales muestran que dicho entrenamiento de inducción beneficia no solo en el rendimiento en Case2Code de distribución, sino que también mejora varias habilidades de codificación de los LLMs entrenados, demostrando el gran potencial del aprendizaje del razonamiento inductivo a través de datos sintéticos.
Mientras que la mayoría de los modelos de generación de música utilizan condicionamiento textual o paramétrico (por ejemplo, tempo, armonía, género musical), proponemos condicionar un sistema de generación de música basado en modelos de lenguaje con entrada de audio. Nuestra exploración involucra dos estrategias distintas. La primera estrategia, denominada inversión textual, aprovecha un modelo de texto a música pre-entrenado para mapear la entrada de audio a "pseudopalabras" correspondientes en el espacio de incrustación textual. Para el segundo modelo, entrenamos un modelo de lenguaje musical desde cero junto con un condicionador de texto y un extractor de características de audio cuantizadas. En el momento de la inferencia, podemos combinar el condicionamiento textual y de audio y equilibrarlos gracias a un novedoso método de guía de doble clasificador libre. Realizamos estudios automáticos y humanos que validan nuestro enfoque. Publicaremos el código y proporcionaremos muestras de música en https://musicgenstyle.github.io para mostrar la calidad de nuestro modelo.
La síntesis de vistas novedosas a partir de colecciones de imágenes no restringidas en la naturaleza sigue siendo una tarea significativa pero desafiante debido a variaciones fotométricas y oclusores transitorios que complican la reconstrucción precisa de escenas. Métodos previos han abordado estos problemas mediante la integración de características de apariencia por imagen en Campos de Radiación Neurales (NeRFs). Aunque el Splatting Gaussiano 3D (3DGS) ofrece un entrenamiento más rápido y renderizado en tiempo real, adaptarlo para colecciones de imágenes no restringidas es no trivial debido a la arquitectura sustancialmente diferente. En este documento, presentamos Splatfacto-W, un enfoque que integra características de color neurales Gaussianas por Gaussiana y anclajes de apariencia por imagen en el proceso de rasterización, junto con un modelo de fondo basado en armónicos esféricos para representar apariencias fotométricas variables y representar mejor los fondos. Nuestras contribuciones clave incluyen modelado de apariencia latente, manejo eficiente de objetos transitorios y modelado preciso de fondos. Splatfacto-W ofrece una síntesis de vistas novedosas de alta calidad y en tiempo real con una consistencia de escena mejorada en escenarios naturales. Nuestro método mejora el Pico de la Relación Señal a Ruido (PSNR) en un promedio de 5.3 dB en comparación con 3DGS, mejora la velocidad de entrenamiento en 150 veces en comparación con los métodos basados en NeRF, y logra una velocidad de renderizado similar a 3DGS. Resultados de video adicionales y código integrado en Nerfstudio están disponibles en https://kevinxu02.github.io/splatfactow/.
La manipulación robótica en entornos con obstáculos sigue siendo un desafío significativo debido a las obstrucciones y a la disposición compleja de los objetos. Hemos desarrollado ThinkGrasp, un sistema de manipulación visión-lenguaje listo para usar que aprovecha el razonamiento contextual avanzado de GPT-4o para estrategias de manipulación en entornos con gran desorden. ThinkGrasp puede identificar y generar eficazmente posturas de agarre para objetos objetivo, incluso cuando están fuertemente obstruidos o casi invisibles, utilizando un lenguaje orientado a objetivos para guiar la eliminación de objetos obstruyentes. Este enfoque descubre progresivamente el objeto objetivo y finalmente lo agarra con unos pocos pasos y una alta tasa de éxito. En experimentos simulados y reales, ThinkGrasp logró una alta tasa de éxito y superó significativamente a los métodos de vanguardia en entornos con gran desorden o con objetos diversos no vistos, demostrando sólidas capacidades de generalización.
La Interfaz Gráfica de Usuario (GUI) es cómo los usuarios interactúan con las aplicaciones móviles. Para garantizar su correcto funcionamiento, los ingenieros de pruebas deben asegurarse de que funcione según lo previsto, basándose en requisitos de prueba que suelen estar redactados en lenguaje natural. Aunque los métodos de prueba manuales ampliamente adoptados y basados en scripts son efectivos, requieren un esfuerzo considerable debido al gran número de páginas de GUI y a las rápidas iteraciones en las aplicaciones móviles modernas. Este documento presenta AUITestAgent, la primera herramienta de prueba automática de GUI para aplicaciones móviles impulsada por lenguaje natural, capaz de automatizar completamente todo el proceso de interacción y verificación de funciones de GUI. Dado que los requisitos de prueba suelen contener comandos de interacción y oráculos de verificación, AUITestAgent puede extraer las interacciones de GUI de los requisitos de prueba a través de agentes organizados dinámicamente. Luego, AUITestAgent emplea una estrategia de extracción de datos multidimensional para recuperar los datos relevantes para los requisitos de prueba del rastro de interacción y realizar la verificación. Experimentos en bancos de pruebas personalizados demuestran que AUITestAgent supera a las herramientas existentes en la calidad de las interacciones de GUI generadas y logra una precisión de verificación del 94%. Además, la implementación en campo en Meituan ha demostrado la usabilidad práctica de AUITestAgent, al detectar 4 nuevos errores funcionales durante 10 pruebas de regresión en dos meses.
Aprovechando los notables avances en los Modelos de Lenguaje de Gran Escala (LLMs), existe una iniciativa creciente para aprovechar los LLMs en la navegación robótica siguiendo instrucciones. Esta tendencia subraya el potencial de los LLMs para generalizar el razonamiento de navegación y la comprensión de lenguajes diversos. Sin embargo, se observa una discrepancia significativa en el rendimiento del agente al integrar LLMs en las tareas de navegación Visión-y-Lenguaje (VLN) en comparación con modelos especializados anteriores. Además, la capacidad inherente del lenguaje para interpretar y facilitar la comunicación en las interacciones del agente a menudo se subutiliza en estas integraciones. En este trabajo, nos esforzamos por cerrar la brecha entre los modelos especializados en VLN y los paradigmas de navegación basados en LLMs, manteniendo la capacidad interpretativa de los LLMs para generar razonamientos de navegación lingüística. Al alinear el contenido visual en un LLM congelado, abarcamos la comprensión de observaciones visuales para los LLMs y explotamos una forma de incorporar LLMs y redes de políticas de navegación para predicciones de acciones efectivas y razonamientos de navegación. Demostramos la eficiencia de datos de los métodos propuestos y eliminamos la brecha entre los agentes basados en LM y los especialistas en VLN de última generación.
Si bien los LLM han demostrado un rendimiento impresionante en diversos dominios y tareas, sus problemas de seguridad se han vuelto cada vez más graves. El desaprendizaje automático (MU) ha surgido como una solución prometedora para abordar estos problemas al eliminar la influencia de datos no deseados en el modelo objetivo sin comprometer su utilidad en otros aspectos. El MU generalmente asume acceso completo a los datos de entrenamiento originales para preservar la utilidad, lo cual es difícil de lograr en el desaprendizaje de LLM. Los métodos de desaprendizaje de LLM existentes a menudo asumen acceso a los datos más afectados por el desaprendizaje de datos no deseados. Sin embargo, esta suposición subestima la interconexión entre varias capacidades de LLM e ignora las limitaciones de acceso a datos debido a diversos problemas. Además, estos métodos de desaprendizaje de LLM no consideran suficientemente que las solicitudes de desaprendizaje en escenarios del mundo real están surgiendo continuamente. Para superar estos desafíos y lograr un desaprendizaje de LLM práctico, proponemos el marco O3. El marco O3 incluye un detector de Fuera de Distribución (OOD) para medir la similitud entre los datos de entrada y de desaprendizaje, y un adaptador ortogonal de rango bajo (LoRA) para desaprender continuamente los datos solicitados. El detector OOD se entrena con una nueva pérdida de entropía contrastiva y utiliza un mecanismo de puntuación agregada de capa local-global. El LoRA ortogonal logra el desenredamiento de parámetros entre las solicitudes de desaprendizaje continuas. Durante la inferencia, nuestro marco O3 puede decidir de manera inteligente si y en qué medida cargar el LoRA de desaprendizaje en función de las predicciones del detector OOD. Es importante destacar que la efectividad de O3 no depende de ningún dato retenido. Realizamos experimentos exhaustivos con O3 y métodos de desaprendizaje de LLM de última generación en tres tareas y siete conjuntos de datos. Los resultados indican que O3 logra consistentemente el mejor equilibrio entre la efectividad de desaprendizaje y la preservación de la utilidad, especialmente cuando se enfrenta a solicitudes de desaprendizaje continuas.
Los modelos de lenguaje basados en chat están diseñados para ser útiles, pero no deben cumplir con cada solicitud del usuario. Mientras que la mayoría de trabajos existentes se centran principalmente en la negativa de consultas "peligrosas", sostenemos que el alcance de la falta de cumplimiento debería ser ampliado. Introducimos una taxonomía exhaustiva de falta de cumplimiento contextual que describe cuándo y cómo los modelos no deben cumplir con las solicitudes de los usuarios. Nuestra taxonomía abarca una amplia gama de categorías que incluyen solicitudes incompletas, no admitidas, indeterminadas y humanizadoras (además de solicitudes peligrosas). Para evaluar las capacidades de falta de cumplimiento de los modelos de lenguaje, utilizamos esta taxonomía para desarrollar un nuevo conjunto de evaluación de 1000 indicaciones de falta de cumplimiento. Descubrimos que la mayoría de los modelos existentes muestran tasas de cumplimiento significativamente altas en ciertas categorías previamente poco estudiadas, con modelos como GPT-4 cumpliendo incorrectamente con hasta un 30% de las solicitudes. Para abordar estas deficiencias, exploramos diferentes estrategias de entrenamiento utilizando un conjunto de entrenamiento de solicitudes generadas de forma sintética y respuestas no conformes esperadas. Nuestros experimentos demuestran que si bien el ajuste fino directo de modelos ajustados a instrucciones puede llevar tanto a una sobre-negativa como a una disminución en las capacidades generales, el uso de métodos eficientes en parámetros como adaptadores de rango bajo ayuda a encontrar un buen equilibrio entre la falta de cumplimiento apropiada y otras capacidades.
Los métodos de Detección de Errores Gramaticales (GED) dependen en gran medida de corpora de errores anotados por humanos. Sin embargo, estas anotaciones no están disponibles en muchos idiomas con recursos limitados. En este artículo, investigamos la GED en este contexto. Aprovechando las capacidades de transferencia multilingüe de cero disparos de modelos de lenguaje pre-entrenados multilingües, entrenamos un modelo utilizando datos de un conjunto diverso de idiomas para generar errores sintéticos en otros idiomas. Estos corpora de errores sintéticos luego se utilizan para entrenar un modelo de GED. Específicamente, proponemos un proceso de ajuste fino de dos etapas donde el modelo de GED se ajusta primero con datos sintéticos multilingües de los idiomas objetivo, seguido por un ajuste fino con corpora de GED anotados por humanos de los idiomas fuente. Este enfoque supera a los métodos actuales de GED sin anotaciones de vanguardia. También analizamos los errores producidos por nuestro método y otros baselines sólidos, encontrando que nuestro enfoque produce errores más diversos y más similares a los errores humanos.
Los modelos de generación de video (VGMs) han demostrado la capacidad de sintetizar resultados de alta calidad. Es importante comprender su potencial para producir contenido inseguro, como videos violentos o aterradores. En este trabajo, proporcionamos una comprensión completa de la generación de videos inseguros. Para confirmar la posibilidad de que estos modelos puedan generar videos inseguros, elegimos indicaciones de generación de contenido inseguro recopiladas de 4chan y Lexica, y tres VGMs de última generación de código abierto para generar videos inseguros. Después de filtrar duplicados y contenido mal generado, creamos un conjunto inicial de 2112 videos inseguros a partir de un grupo original de 5607 videos. A través de un análisis de agrupamiento y codificación temática de estos videos generados, identificamos 5 categorías de videos inseguros: Distorsionados/Raros, Aterradores, Pornográficos, Violentos/Sangrientos y Políticos. Con la aprobación del IRB, reclutamos participantes en línea para ayudar a etiquetar los videos generados. Basándonos en las anotaciones enviadas por 403 participantes, identificamos 937 videos inseguros del conjunto inicial de videos. Con la información etiquetada y las indicaciones correspondientes, creamos el primer conjunto de datos de videos inseguros generados por VGMs. Luego estudiamos posibles mecanismos de defensa para prevenir la generación de videos inseguros. Los métodos de defensa existentes en la generación de imágenes se centran en filtrar ya sea la indicación de entrada o los resultados de salida. Proponemos un nuevo enfoque llamado Defensa de Variable Latente (LVD), que funciona dentro del proceso de muestreo interno del modelo. LVD puede lograr una precisión de defensa del 0.90 mientras reduce el tiempo y los recursos informáticos en 10 veces al muestrear un gran número de indicaciones inseguras.