Artículos de investigación en IA seleccionados diariamente con traducciones
El rendimiento de un modelo de lenguaje grande (LLM, por sus siglas en inglés) depende en gran medida de la calidad y el tamaño de su conjunto de datos de preentrenamiento. Sin embargo, los conjuntos de datos de preentrenamiento para LLMs de última generación y de código abierto, como Llama 3 y Mixtral, no están disponibles públicamente y se sabe muy poco sobre cómo fueron creados. En este trabajo, presentamos FineWeb, un conjunto de datos de 15 billones de tokens derivado de 96 instantáneas de Common Crawl que produce LLMs con un mejor rendimiento que otros conjuntos de datos de preentrenamiento abiertos. Para avanzar en la comprensión de cómo seleccionar mejor conjuntos de datos de preentrenamiento de alta calidad, documentamos y analizamos detalladamente todas las decisiones de diseño utilizadas en FineWeb, incluyendo investigaciones exhaustivas sobre estrategias de deduplicación y filtrado. Además, presentamos FineWeb-Edu, una colección de 1.3 billones de tokens de texto educativo filtrado de FineWeb. Los LLMs preentrenados en FineWeb-Edu muestran un rendimiento notablemente mejor en benchmarks intensivos en conocimiento y razonamiento, como MMLU y ARC. Junto con nuestros conjuntos de datos, publicamos nuestro código de curación de datos y todos los modelos entrenados durante nuestros experimentos de análisis.
La generación 3D guiada por modelos de difusión de texto a imagen permite la creación de recursos visualmente atractivos. Sin embargo, métodos anteriores exploran la generación basada en imágenes o texto. Los límites de la creatividad están restringidos por lo que puede expresarse mediante palabras o las imágenes que pueden obtenerse. Presentamos YouDream, un método para generar animales de alta calidad con control anatómico. YouDream se guía utilizando un modelo de difusión de texto a imagen controlado por vistas 2D de una pose 3D previa. Nuestro método genera animales 3D que no son posibles de crear utilizando métodos generativos previos de texto a 3D. Además, nuestro método es capaz de preservar la consistencia anatómica en los animales generados, un área en la que los enfoques previos de texto a 3D suelen tener dificultades. Asimismo, diseñamos una canalización completamente automatizada para generar animales comúnmente encontrados. Para evitar la necesidad de intervención humana para crear una pose 3D, proponemos un modelo de lenguaje multiagente (LLM) que adapta poses de una biblioteca limitada de poses 3D de animales para representar el animal deseado. Un estudio de usuario realizado sobre los resultados de YouDream demuestra la preferencia por los modelos de animales generados por nuestro método sobre otros. Los resultados en formato giratorio y el código se publican en https://youdream3d.github.io/.
Los modelos de lenguaje (LMs) muestran un rendimiento impresionante y capacidades de generalización. Sin embargo, los LMs enfrentan el desafío persistente del olvido catastrófico, lo que socava su sostenibilidad a largo plazo en el aprendizaje continuo (CL). Los enfoques existentes suelen abordar este problema incorporando datos de tareas antiguas o sesgos inductivos específicos por tarea en los LMs. No obstante, los datos antiguos y la información precisa sobre las tareas a menudo no están disponibles o son costosos de recopilar, lo que dificulta la disponibilidad de los enfoques actuales de CL para LMs. Para abordar esta limitación, presentamos MIGU (MagnItude-based Gradient Updating for continual learning), un método que no requiere repetición ni etiquetas de tareas y que solo actualiza los parámetros del modelo con magnitudes grandes de salida en las capas lineales de los LMs. MIGU se basa en nuestra observación de que la distribución de magnitudes normalizada L1 de la salida en las capas lineales de los LMs es diferente cuando los modelos de lenguaje manejan datos de diferentes tareas. Al imponer esta simple restricción en el proceso de actualización del gradiente, podemos aprovechar los comportamientos inherentes de los LMs, desbloqueando así sus capacidades innatas de CL. Nuestros experimentos demuestran que MIGU es universalmente aplicable a las tres arquitecturas de LMs (T5, RoBERTa y Llama2), ofreciendo un rendimiento de vanguardia o comparable en entornos de ajuste fino continuo y preentrenamiento continuo en cuatro benchmarks de CL. Por ejemplo, MIGU logra una mejora promedio del 15.2% en precisión sobre los baselines convencionales de ajuste fino eficiente en parámetros en un benchmark de CL de 15 tareas. MIGU también puede integrarse sin problemas con los tres tipos existentes de CL para mejorar aún más el rendimiento. El código está disponible en https://github.com/wenyudu/MIGU{this https URL}.
Los recientes avances en la optimización de preferencias humanas, desarrollados inicialmente para modelos de lenguaje (LMs), han mostrado potencial para los modelos de difusión de texto a imagen, mejorando la alineación con el prompt, el atractivo visual y las preferencias del usuario. A diferencia de los LMs, los modelos de difusión suelen optimizar en el espacio de píxeles o VAE, lo cual no se alinea bien con la percepción humana, resultando en un entrenamiento más lento y menos eficiente durante la etapa de alineación de preferencias. Proponemos utilizar un objetivo perceptual en el espacio de incrustación U-Net del modelo de difusión para abordar estos problemas. Nuestro enfoque implica ajustar fino Stable Diffusion 1.5 y XL utilizando Optimización Directa de Preferencias (DPO), Optimización de Preferencias Contrastivas (CPO) y ajuste fino supervisado (SFT) dentro de este espacio de incrustación. Este método supera significativamente las implementaciones estándar en el espacio latente en varias métricas, incluyendo calidad y costo computacional. Para SDXL, nuestro enfoque proporciona un 60.8\% de preferencia general, un 62.2\% de atractivo visual y un 52.1\% de seguimiento del prompt en comparación con el SDXL-DPO de código abierto original en el conjunto de datos PartiPrompts, mientras reduce significativamente el cómputo. Nuestro enfoque no solo mejora la eficiencia y calidad de la alineación de preferencias humanas para modelos de difusión, sino que también es fácilmente integrable con otras técnicas de optimización. El código de entrenamiento y los pesos LoRA estarán disponibles aquí: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
El avance de los modelos de agentes de llamada de funciones requiere conjuntos de datos diversos, confiables y de alta calidad. Este artículo presenta APIGen, una canalización automatizada de generación de datos diseñada para sintetizar conjuntos de datos verificables y de alta calidad para aplicaciones de llamada de funciones. Utilizamos APIGen y recopilamos 3,673 API ejecutables en 21 categorías diferentes para generar conjuntos de datos diversos de llamada de funciones de manera escalable y estructurada. Cada dato en nuestro conjunto se verifica a través de tres etapas jerárquicas: verificación de formato, ejecuciones reales de funciones y verificación semántica, asegurando su confiabilidad y corrección. Demostramos que los modelos entrenados con nuestros conjuntos de datos curados, incluso con solo 7B parámetros, pueden alcanzar un rendimiento de vanguardia en el Berkeley Function-Calling Benchmark, superando a múltiples modelos GPT-4. Además, nuestro modelo de 1B logra un rendimiento excepcional, superando a GPT-3.5-Turbo y Claude-3 Haiku. Publicamos un conjunto de datos que contiene 60,000 entradas de alta calidad, con el objetivo de avanzar en el campo de los dominios de agentes de llamada de funciones. El conjunto de datos está disponible en Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k y en la página principal del proyecto: https://apigen-pipeline.github.io/.
Presentamos un marco general para resolver ecuaciones diferenciales parciales (EDP) utilizando modelos generativos de difusión. En particular, nos enfocamos en los escenarios donde no contamos con el conocimiento completo de la escena necesario para aplicar solucionadores clásicos. La mayoría de los enfoques existentes para EDP directas o inversas tienen un rendimiento deficiente cuando las observaciones sobre los datos o los coeficientes subyacentes son incompletos, lo cual es una suposición común en mediciones del mundo real. En este trabajo, proponemos DiffusionPDE, que puede simultáneamente completar la información faltante y resolver una EDP mediante el modelado de la distribución conjunta de los espacios de solución y coeficientes. Demostramos que los priors generativos aprendidos conducen a un marco versátil para resolver con precisión una amplia gama de EDP bajo observación parcial, superando significativamente los métodos más avanzados tanto en la dirección directa como inversa.
Las capacidades de contexto largo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han sido un tema candente en los últimos años. Para evaluar el rendimiento de los LLMs en diferentes escenarios, han surgido diversos puntos de referencia de evaluación. Sin embargo, dado que la mayoría de estos puntos de referencia se centran en identificar información clave para responder preguntas, lo que principalmente requiere la capacidad de recuperación de los LLMs, estos pueden representar parcialmente el desempeño de razonamiento de los LLMs a partir de grandes cantidades de información. Mientras tanto, aunque los LLMs a menudo afirman tener ventanas de contexto de 32k, 128k, 200k o incluso más largas, estos puntos de referencia no logran revelar la longitud real soportada por estos LLMs. Para abordar estos problemas, proponemos el conjunto de datos de referencia LongIns, un examen desafiante basado en instrucciones de contexto largo para LLMs, que se construye a partir de los conjuntos de datos de instrucciones existentes. Específicamente, en nuestro LongIns, introducimos tres configuraciones de evaluación: Instrucción Global y Tarea Única (GIST), Instrucción Local y Tarea Única (LIST), e Instrucción Local y Múltiples Tareas (LIMT). Basándonos en LongIns, realizamos evaluaciones exhaustivas de los LLMs existentes y obtenemos los siguientes hallazgos importantes: (1) El GPT-4, que es el mejor desempeñante con una longitud de contexto de 128k, tiene un rendimiento deficiente en la ventana de contexto de evaluación de 16k en nuestro LongIns. (2) Para la capacidad de razonamiento de múltiples saltos de muchos LLMs existentes, aún se necesitan esfuerzos significativos bajo ventanas de contexto cortas (menos de 4k).
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos en diversas tareas de comprensión visual. Sin embargo, la mayoría de estos modelos están limitados a procesar imágenes de baja resolución, lo que restringe su eficacia en tareas de percepción que requieren información visual detallada. En nuestro estudio, presentamos MG-LLaVA, un MLLM innovador que mejora las capacidades de procesamiento visual del modelo mediante la incorporación de un flujo visual de múltiples granularidades, que incluye características de baja resolución, alta resolución y centradas en objetos. Proponemos la integración de un codificador visual adicional de alta resolución para capturar detalles finos, los cuales se fusionan con las características visuales base a través de una red de fusión Conv-Gate. Para refinar aún más las habilidades de reconocimiento de objetos del modelo, incorporamos características a nivel de objeto derivadas de cuadros delimitadores identificados por detectores fuera de línea. Entrenado exclusivamente con datos multimodales de acceso público mediante ajuste por instrucciones, MG-LLaVA demuestra habilidades de percepción excepcionales. Implementamos MG-LLaVA con una amplia variedad de codificadores de lenguaje, que van desde 3.8B hasta 34B, para evaluar el rendimiento del modelo de manera integral. Evaluaciones exhaustivas en múltiples benchmarks demuestran que MG-LLaVA supera a los MLLMs existentes de tamaños de parámetros comparables, mostrando una eficacia notable. El código estará disponible en https://github.com/PhoenixZ810/MG-LLaVA.
En este trabajo, presentamos MotionBooth, un marco innovador diseñado para animar sujetos personalizados con un control preciso sobre los movimientos tanto del objeto como de la cámara. Al aprovechar unas pocas imágenes de un objeto específico, ajustamos eficientemente un modelo de texto a video para capturar con precisión la forma y los atributos del objeto. Nuestro enfoque introduce una pérdida de región del sujeto y una pérdida de preservación de video para mejorar el rendimiento de aprendizaje del sujeto, junto con una pérdida de atención cruzada de tokens del sujeto para integrar el sujeto personalizado con señales de control de movimiento. Además, proponemos técnicas libres de entrenamiento para gestionar los movimientos del sujeto y de la cámara durante la inferencia. En particular, utilizamos la manipulación de mapas de atención cruzada para gobernar el movimiento del sujeto e introducimos un novedoso módulo de desplazamiento latente para el control del movimiento de la cámara. MotionBooth destaca por preservar la apariencia de los sujetos mientras controla simultáneamente los movimientos en los videos generados. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran la superioridad y efectividad de nuestro método. Nuestra página del proyecto se encuentra en https://jianzongwu.github.io/projects/motionbooth.
Las capacidades de modelado de contexto largo han captado una atención generalizada, dando lugar a la aparición de Modelos de Lenguaje de Gran Escala (LLMs) con ventanas de contexto ultra extensas. Mientras tanto, los puntos de referencia para evaluar LLMs de contexto largo están gradualmente alcanzando este avance. Sin embargo, los puntos de referencia existentes emplean textos irrelevantes con ruido para extender artificialmente la longitud de los casos de prueba, lo que diverge de los escenarios reales de aplicaciones de contexto largo. Para cerrar esta brecha, proponemos un nuevo punto de referencia de contexto largo, Loong, alineado con escenarios realistas a través de preguntas y respuestas (QA) extendidas de múltiples documentos. A diferencia de la QA típica de documentos, en los casos de prueba de Loong, cada documento es relevante para la respuesta final, y omitir cualquier documento conducirá al fracaso de la respuesta. Además, Loong introduce cuatro tipos de tareas con una variedad de longitudes de contexto: Localización de Foco, Comparación, Agrupamiento y Cadena de Razonamiento, para facilitar una evaluación más realista y completa de la comprensión de contexto largo. Experimentos extensos indican que los modelos de lenguaje de contexto largo existentes aún muestran un potencial considerable de mejora. La generación aumentada con recuperación (RAG) obtiene un rendimiento deficiente, demostrando que Loong puede evaluar de manera confiable las capacidades de modelado de contexto largo del modelo.
La segmentación de texto en oraciones desempeña un papel temprano y crucial en muchos sistemas de Procesamiento del Lenguaje Natural (PLN). Esto se logra comúnmente mediante métodos basados en reglas o estadísticos que dependen de características léxicas como la puntuación. Aunque algunos trabajos recientes ya no dependen exclusivamente de la puntuación, observamos que ningún método anterior logra cumplir con todos los siguientes aspectos: (i) robustez ante la ausencia de puntuación, (ii) adaptabilidad efectiva a nuevos dominios y (iii) alta eficiencia. Introducimos un nuevo modelo, Segment Any Text (SaT), para resolver este problema. Para mejorar la robustez, proponemos un nuevo esquema de preentrenamiento que reduce la dependencia de la puntuación. Para abordar la adaptabilidad, incorporamos una etapa adicional de ajuste fino eficiente en parámetros, logrando un rendimiento de vanguardia en dominios distintos como versos de letras de canciones y documentos legales. En el proceso, introducimos modificaciones arquitectónicas que resultan en una ganancia de velocidad tres veces mayor respecto al estado del arte anterior y solucionan la dependencia espuria de contextos lejanos en el futuro. Finalmente, presentamos una variante de nuestro modelo con ajuste fino en una mezcla diversa y multilingüe de datos segmentados en oraciones, que funciona como un reemplazo directo y una mejora para las herramientas de segmentación existentes. En general, nuestras contribuciones ofrecen un enfoque universal para segmentar cualquier texto. Nuestro método supera a todos los baselines, incluidos modelos de lenguaje grandes (LLMs), en 8 corpus que abarcan diversos dominios e idiomas, especialmente en situaciones prácticas donde el texto está mal formateado. Nuestros modelos y código, junto con la documentación, están disponibles en https://huggingface.co/segment-any-text bajo la licencia MIT.
A pesar de las capacidades generales de los modelos de lenguaje preentrenados de gran escala (LLMs, por sus siglas en inglés), aún requieren una mayor adaptación para servir mejor a aplicaciones prácticas. En este artículo, demostramos la intercambiabilidad de tres herramientas de adaptación populares y distintas: actualización de parámetros, modelado de recompensas y prompting en contexto. Esta intercambiabilidad establece un marco triangular con seis direcciones de transformación, cada una de las cuales facilita una variedad de aplicaciones. Nuestro trabajo ofrece una visión holística que unifica numerosos estudios existentes y sugiere posibles direcciones de investigación. Visualizamos nuestro trabajo como una hoja de ruta útil para futuras investigaciones sobre LLMs.
El modelo de difusión ha demostrado una capacidad notable en la generación de videos, lo que ha despertado aún más interés en introducir control de trayectorias en el proceso de generación. Mientras que los trabajos existentes se centran principalmente en métodos basados en entrenamiento (por ejemplo, adaptadores condicionales), argumentamos que el modelo de difusión en sí permite un control decente sobre el contenido generado sin requerir ningún entrenamiento. En este estudio, introducimos un marco sin ajuste para lograr la generación de videos con trayectorias controlables, aplicando guías tanto en la construcción del ruido como en el cálculo de la atención. Específicamente, 1) primero mostramos varios fenómenos instructivos y analizamos cómo los ruidos iniciales influyen en la trayectoria del movimiento del contenido generado. 2) Posteriormente, proponemos FreeTraj, un enfoque sin ajuste que permite el control de trayectorias mediante la modificación del muestreo de ruido y los mecanismos de atención. 3) Además, extendemos FreeTraj para facilitar la generación de videos más largos y de mayor tamaño con trayectorias controlables. Equipados con estos diseños, los usuarios tienen la flexibilidad de proporcionar trayectorias manualmente o optar por trayectorias generadas automáticamente por el planificador de trayectorias basado en LLM. Experimentos extensos validan la eficacia de nuestro enfoque para mejorar la controlabilidad de las trayectorias en los modelos de difusión de video.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de los agentes conversacionales, haciéndolos aplicables en diversos campos (por ejemplo, la educación). A pesar de su progreso, la evaluación de estos agentes a menudo pasa por alto las complejidades de las conversaciones del mundo real, como las interacciones en tiempo real, los diálogos multipartícipes y las dependencias contextuales extendidas. Para cerrar esta brecha, presentamos DialSim, un simulador de diálogo en tiempo real. En este simulador, a un agente se le asigna el papel de un personaje de series de televisión populares, requiriéndole que responda a preguntas espontáneas utilizando información de diálogos previos y que distinga entre información conocida y desconocida. Las características clave de DialSim incluyen evaluar la capacidad del agente para responder dentro de un límite de tiempo razonable, manejar diálogos multipartícipes a largo plazo y gestionar configuraciones adversas (por ejemplo, intercambiar nombres de personajes) para desafiar la dependencia del agente en el conocimiento preentrenado. Utilizamos este simulador para evaluar los últimos agentes conversacionales y analizar sus limitaciones. Nuestros experimentos destacan tanto las fortalezas como las debilidades de estos agentes, proporcionando insights valiosos para futuras mejoras en el campo de la IA conversacional. DialSim está disponible en https://github.com/jiho283/Simulator.
La producción de cine y animación a menudo requiere técnicas sofisticadas para coordinar transiciones de cámara y movimientos de objetos, lo que típicamente implica capturas en el mundo real que demandan mucho trabajo. A pesar de los avances en la IA generativa para la creación de videos, lograr un control preciso sobre el movimiento para la generación interactiva de recursos de video sigue siendo un desafío. Con este fin, proponemos Image Conductor, un método para el control preciso de transiciones de cámara y movimientos de objetos para generar recursos de video a partir de una sola imagen. Se propone una estrategia de entrenamiento bien desarrollada para separar los movimientos distintivos de la cámara y los objetos mediante pesos LoRA de cámara y pesos LoRA de objeto. Para abordar además las variaciones cinematográficas derivadas de trayectorias mal planteadas, introducimos una técnica de guía sin cámara durante la inferencia, mejorando los movimientos de los objetos mientras se eliminan las transiciones de cámara. Adicionalmente, desarrollamos una canalización de curación de datos de movimiento de video orientada a trayectorias para el entrenamiento. Los experimentos cuantitativos y cualitativos demuestran la precisión y el control detallado de nuestro método en la generación de videos controlables en movimiento a partir de imágenes, avanzando en la aplicación práctica de la síntesis interactiva de video. Página del proyecto disponible en https://liyaowei-stu.github.io/project/ImageConductor/.
El entrenamiento y ajuste fino de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) suelen verse limitados por la memoria limitada de las GPU. Si bien los métodos de optimización basados en proyección existentes abordan este problema al proyectar los gradientes en un subespacio de menor dimensión para reducir la memoria del estado del optimizador, generalmente dependen de matrices de proyección densas, lo que puede introducir sobrecargas computacionales y de memoria. En este trabajo, proponemos Grass (GRAdient Structured Sparsification), un enfoque novedoso que aprovecha proyecciones dispersas para transformar los gradientes en actualizaciones dispersas estructuradas. Este diseño no solo reduce significativamente el uso de memoria para los estados del optimizador, sino que también minimiza la huella de memoria de los gradientes, los costos de cálculo y de comunicación, lo que conduce a mejoras sustanciales en el rendimiento. Experimentos exhaustivos en tareas de preentrenamiento y ajuste fino demuestran que Grass logra un rendimiento competitivo en comparación con el entrenamiento de rango completo y los métodos basados en proyección existentes. Es notable que Grass permite el preentrenamiento en precisión media de un modelo LLaMA de 13B parámetros en una sola GPU A100 de 40 GB, un logro inviable para métodos anteriores, y ofrece una mejora de hasta 2 veces en el rendimiento en un sistema de 8 GPU. El código está disponible en https://github.com/aashiqmuhamed/GRASS.
Se ha demostrado que los métodos de direccionamiento de activaciones son efectivos para condicionar la generación de modelos de lenguaje mediante la intervención aditiva sobre las representaciones intermedias de los modelos. Sin embargo, la evaluación de estas técnicas hasta ahora se ha limitado a propiedades de condicionamiento individuales y entornos sintéticos. En este trabajo, realizamos una evaluación exhaustiva de diversas estrategias de direccionamiento de activaciones, destacando la naturaleza dependiente de la propiedad de los parámetros óptimos para garantizar un efecto robusto durante la generación. Para abordar este problema, proponemos la Composición Dinámica de Activaciones, un enfoque basado en la teoría de la información para modular la intensidad del direccionamiento de una o más propiedades durante la generación. Nuestros experimentos sobre el direccionamiento de múltiples propiedades muestran que nuestro método mantiene exitosamente un alto nivel de condicionamiento mientras minimiza el impacto del condicionamiento en la fluidez de la generación.
Para que los sistemas de IA se comuniquen efectivamente con las personas, deben comprender cómo tomamos decisiones. Sin embargo, las decisiones humanas no siempre son racionales, por lo que los modelos internos implícitos de toma de decisiones humanas en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) deben tener esto en cuenta. Evidencia empírica previa parece sugerir que estos modelos implícitos son precisos: los LLMs ofrecen representaciones creíbles del comportamiento humano, actuando como esperaríamos que lo harían las personas en interacciones cotidianas. Sin embargo, al comparar el comportamiento y las predicciones de los LLMs con un gran conjunto de datos de decisiones humanas, encontramos que esto no es así: al simular y predecir las elecciones de las personas, un conjunto de LLMs de vanguardia (GPT-4o y 4-Turbo, Llama-3-8B y 70B, Claude 3 Opus) asumen que las personas son más racionales de lo que realmente somos. Específicamente, estos modelos se desvían del comportamiento humano y se alinean más estrechamente con un modelo clásico de elección racional: la teoría del valor esperado. Curiosamente, las personas también tienden a asumir que otras personas son racionales al interpretar su comportamiento. Como consecuencia, cuando comparamos las inferencias que los LLMs y las personas extraen de las decisiones de otros utilizando otro conjunto de datos psicológicos, encontramos que estas inferencias están altamente correlacionadas. Por lo tanto, los modelos implícitos de toma de decisiones de los LLMs parecen estar alineados con la expectativa humana de que otras personas actuarán racionalmente, en lugar de con cómo las personas realmente actúan.
A medida que la Inteligencia General Artificial (AGI) se integra cada vez más en diversos aspectos de la vida humana, garantizar la seguridad y la alineación ética de estos sistemas es primordial. Estudios previos se centran principalmente en amenazas de una sola modalidad, lo que puede no ser suficiente dada la naturaleza integrada y compleja de las interacciones entre múltiples modalidades. Introducimos un nuevo desafío de alineación de seguridad llamado Entradas Seguras pero Salidas Inseguras (SIUO, por sus siglas en inglés) para evaluar la alineación de seguridad en contextos de múltiples modalidades. Específicamente, considera casos en los que las modalidades individuales son seguras de forma independiente, pero podrían generar resultados inseguros o poco éticos cuando se combinan. Para investigar empíricamente este problema, desarrollamos SIUO, un punto de referencia de múltiples modalidades que abarca 9 dominios críticos de seguridad, como autolesiones, actividades ilegales y violaciones de privacidad. Nuestros hallazgos revelan vulnerabilidades de seguridad significativas en modelos de lenguaje y visión tanto cerrados como de código abierto, como GPT-4V y LLaVA, destacando la insuficiencia de los modelos actuales para interpretar y responder de manera confiable a escenarios complejos del mundo real.