Artículos de investigación en IA seleccionados diariamente con traducciones
En este artículo, presentamos OtterHD-8B, un modelo multimodal innovador evolucionado a partir de Fuyu-8B, específicamente diseñado para interpretar entradas visuales de alta resolución con precisión granular. A diferencia de los modelos convencionales que están limitados por codificadores visuales de tamaño fijo, OtterHD-8B posee la capacidad de manejar dimensiones de entrada flexibles, asegurando su versatilidad en diversos requisitos de inferencia. Junto con este modelo, introducimos MagnifierBench, un marco de evaluación diseñado para examinar la capacidad de los modelos para discernir detalles minuciosos y relaciones espaciales de objetos pequeños. Nuestro análisis comparativo revela que, mientras los modelos líderes actuales fallan en este punto de referencia, OtterHD-8B, particularmente al procesar directamente entradas de alta resolución, supera a sus contrapartes por un margen considerable. Los hallazgos iluminan las variaciones estructurales en el procesamiento de información visual entre diferentes modelos y la influencia que las diferencias en la resolución de pre-entrenamiento de los codificadores visuales tienen en la efectividad del modelo dentro de tales puntos de referencia. Nuestro estudio destaca el papel crítico de la flexibilidad y las capacidades de entrada de alta resolución en los modelos multimodales grandes, y también ejemplifica el potencial inherente en la simplicidad de la arquitectura Fuyu para manejar datos visuales complejos.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes para seguir instrucciones en diversas tareas de carácter abierto. Sin embargo, los métodos anteriores se han centrado principalmente en mejorar las capacidades multimodales. En este trabajo, presentamos un modelo de lenguaje multimodal versátil, mPLUG-Owl2, que aprovecha eficazmente la colaboración entre modalidades para mejorar el rendimiento tanto en tareas de texto como multimodales. mPLUG-Owl2 utiliza un diseño de red modularizado, donde el decodificador de lenguaje actúa como una interfaz universal para gestionar las diferentes modalidades. Específicamente, mPLUG-Owl2 incorpora módulos funcionales compartidos para facilitar la colaboración entre modalidades e introduce un módulo adaptativo a la modalidad que preserva las características específicas de cada una. Experimentos exhaustivos revelan que mPLUG-Owl2 es capaz de generalizar tanto tareas de texto como multimodales, logrando un rendimiento de vanguardia con un único modelo genérico. Cabe destacar que mPLUG-Owl2 es el primer modelo MLLM que demuestra el fenómeno de colaboración entre modalidades tanto en escenarios de texto puro como multimodales, marcando un camino pionero en el desarrollo de futuros modelos fundamentales multimodales.
Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han revolucionado la toma de decisiones al descomponer problemas complejos en secuencias de lenguaje más manejables, denominadas "pensamientos". Un diseño efectivo de pensamientos debe considerar tres perspectivas clave: rendimiento, eficiencia y flexibilidad. Sin embargo, los pensamientos existentes pueden exhibir, como máximo, dos de estos atributos. Para abordar estas limitaciones, presentamos un nuevo enfoque de generación de pensamientos llamado "Todo sobre Pensamientos" (XoT, por sus siglas en inglés), que desafía la ley del "triángulo de Penrose" de los paradigmas de pensamiento existentes. XoT aprovecha el aprendizaje por refuerzo preentrenado y la Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés) para incorporar conocimiento externo del dominio en los pensamientos, mejorando así las capacidades de los LLMs y permitiéndoles generalizar eficientemente a problemas no vistos. Mediante la utilización del marco de revisión de pensamientos colaborativo MCTS-LLM, este enfoque produce de manera autónoma mapeos cognitivos completos y de alta calidad con interacciones mínimas de los LLMs. Además, XoT capacita a los LLMs para participar en pensamientos sin restricciones, permitiendo mapeos cognitivos flexibles para problemas con múltiples soluciones.
Las propiedades acústicas de una habitación son el resultado de la geometría de la misma, los objetos dentro de la habitación y sus posiciones específicas. Estas propiedades acústicas pueden caracterizarse mediante la respuesta al impulso (RIR, por sus siglas en inglés) entre una fuente y un punto de escucha, o inferirse aproximadamente a partir de grabaciones de señales naturales presentes en la habitación. Las variaciones en las posiciones de los objetos dentro de una habitación pueden provocar cambios medibles en sus propiedades acústicas, tal como se caracteriza mediante la RIR. Los conjuntos de datos existentes de RIRs no varían sistemáticamente las posiciones de los objetos en un entorno, o consisten únicamente en RIRs simuladas. Presentamos SoundCam, el conjunto de datos más grande de RIRs únicas provenientes de habitaciones en entornos reales, publicado hasta la fecha. Incluye 5,000 mediciones de respuestas al impulso de habitaciones en el mundo real con 10 canales, y 2,000 grabaciones de música con 10 canales en tres habitaciones diferentes: un laboratorio acústico controlado, una sala de estar en un entorno real y una sala de conferencias, con diferentes personas ubicadas en distintas posiciones dentro de cada habitación. Demostramos que estas mediciones pueden utilizarse para tareas interesantes, como la detección e identificación de personas, y el seguimiento de sus posiciones.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) se despliegan con responsabilidades cada vez más críticas en el mundo real, es importante poder especificar y restringir el comportamiento de estos sistemas de manera confiable. Los desarrolladores de modelos pueden desear establecer reglas explícitas, como "no generar contenido abusivo", pero estas pueden ser eludidas mediante técnicas de jailbreaking. Evaluar qué tan bien los LLMs siguen las reglas proporcionadas por los desarrolladores frente a entradas adversarias generalmente requiere revisión manual, lo que ralentiza el monitoreo y el desarrollo de métodos. Para abordar este problema, proponemos Escenarios de Evaluación de Lenguaje basados en Reglas (RuLES), un marco programático para medir la capacidad de seguimiento de reglas en LLMs. RuLES consta de 15 escenarios de texto simples en los que se instruye al modelo a obedecer un conjunto de reglas en lenguaje natural mientras interactúa con el usuario humano. Cada escenario tiene un programa de evaluación conciso para determinar si el modelo ha violado alguna regla en una conversación. A través de la exploración manual del comportamiento del modelo en nuestros escenarios, identificamos 6 categorías de estrategias de ataque y recopilamos dos conjuntos de casos de prueba: uno que consiste en conversaciones únicas de pruebas manuales y otro que implementa sistemáticamente estrategias de las 6 categorías. En varios modelos populares, tanto propietarios como de código abierto, como GPT-4 y Llama 2, encontramos que todos los modelos son susceptibles a una amplia variedad de entradas adversarias creadas manualmente por el usuario, aunque GPT-4 es el modelo con mejor rendimiento. Además, evaluamos modelos de código abierto bajo ataques basados en gradientes y encontramos vulnerabilidades significativas. Proponemos RuLES como un nuevo y desafiante entorno de investigación para explorar y defenderse tanto de ataques manuales como automáticos en LLMs.
Neural MMO 2.0 es un entorno masivamente multiagente para la investigación en aprendizaje por refuerzo. La característica principal de esta nueva versión es un sistema de tareas flexible que permite a los usuarios definir una amplia gama de objetivos y señales de recompensa. Desafiamos a los investigadores a entrenar agentes capaces de generalizar a tareas, mapas y oponentes nunca vistos durante el entrenamiento. Neural MMO incluye mapas generados proceduralmente con 128 agentes en la configuración estándar y soporte para hasta. La versión 2.0 es una reescritura completa de su predecesora con un rendimiento tres veces mejorado y compatibilidad con CleanRL. Publicamos la plataforma como software libre y de código abierto con documentación completa disponible en neuralmmo.github.io y una comunidad activa en Discord. Para impulsar la investigación inicial en esta nueva plataforma, estamos organizando simultáneamente una competencia en NeurIPS 2023.
El matteo de video convencional genera un solo alpha matte para todas las instancias presentes en un fotograma de video, por lo que no se distinguen las instancias individuales. Si bien la segmentación de instancias en video proporciona máscaras de instancias consistentes en el tiempo, los resultados son insatisfactorios para aplicaciones de matteo, especialmente debido a la binarización aplicada. Para remediar esta deficiencia, proponemos Video Instance Matting (VIM), es decir, la estimación de alpha mattes para cada instancia en cada fotograma de una secuencia de video. Para abordar este problema desafiante, presentamos MSG-VIM, una red neuronal de Video Instance Matting Guiada por Secuencia de Máscaras, como un nuevo modelo de referencia para VIM. MSG-VIM aprovecha una mezcla de aumentaciones de máscaras para hacer que las predicciones sean robustas frente a guías de máscaras inexactas e inconsistentes. Incorpora guía temporal de máscaras y características temporales para mejorar la consistencia temporal de las predicciones de alpha mattes. Además, construimos un nuevo benchmark para VIM, llamado VIM50, que comprende 50 clips de video con múltiples instancias humanas como objetos en primer plano. Para evaluar el rendimiento en la tarea de VIM, introducimos una métrica adecuada llamada Calidad de Matteo Consciente de Instancias en Video (VIMQ). Nuestro modelo propuesto, MSG-VIM, establece un sólido punto de referencia en el benchmark VIM50 y supera ampliamente a los métodos existentes. El proyecto es de código abierto en https://github.com/SHI-Labs/VIM.
A medida que los modelos de lenguaje grandes se vuelven más prevalentes, sus posibles respuestas dañinas o inapropiadas son motivo de preocupación. Este artículo presenta un conjunto de datos único que contiene ejemplos adversarios en forma de preguntas, al que llamamos AttaQ, diseñado para provocar dichas respuestas dañinas o inapropiadas. Evaluamos la eficacia de nuestro conjunto de datos analizando las vulnerabilidades de varios modelos cuando se someten a él. Además, introducimos un enfoque automático novedoso para identificar y nombrar regiones semánticas vulnerables: áreas semánticas de entrada para las cuales es probable que el modelo produzca resultados dañinos. Esto se logra mediante la aplicación de técnicas de agrupamiento especializadas que consideran tanto la similitud semántica de los ataques de entrada como la nocividad de las respuestas del modelo. La identificación automática de regiones semánticas vulnerables mejora la evaluación de las debilidades del modelo, facilitando mejoras específicas en sus mecanismos de seguridad y su confiabilidad general.
El aprendizaje de representaciones auto-supervisado depende en gran medida de las aumentaciones de datos para especificar las invarianzas codificadas en las representaciones. Trabajos previos han demostrado que aplicar aumentaciones de datos diversas es crucial para el rendimiento en tareas posteriores, pero las técnicas de aumentación siguen siendo poco exploradas. En este trabajo, proponemos una nueva familia de transformaciones locales basadas en campos aleatorios gaussianos para generar aumentaciones de imágenes en el aprendizaje de representaciones auto-supervisado. Estas transformaciones generalizan las bien establecidas transformaciones afines y de color (traslación, rotación, variación de color, etc.) y aumentan significativamente el espacio de aumentaciones al permitir que los valores de los parámetros de transformación varíen de píxel a píxel. Los parámetros se tratan como funciones continuas de las coordenadas espaciales y se modelan como campos aleatorios gaussianos independientes. Los resultados empíricos muestran la efectividad de las nuevas transformaciones para el aprendizaje de representaciones auto-supervisado. Específicamente, logramos una mejora del 1.7% en la precisión top-1 sobre la línea base en la clasificación posterior en ImageNet, y una mejora del 3.6% en la clasificación posterior fuera de distribución en iNaturalist. Sin embargo, debido a la flexibilidad de las nuevas transformaciones, las representaciones aprendidas son sensibles a los hiperparámetros. Mientras que transformaciones suaves mejoran las representaciones, observamos que transformaciones fuertes pueden degradar la estructura de una imagen, lo que indica que equilibrar la diversidad y la fuerza de las aumentaciones es importante para mejorar la generalización de las representaciones aprendidas.
La verificación formal puede garantizar de manera demostrable la corrección del software crítico de sistemas, pero la alta carga de pruebas ha obstaculizado durante mucho tiempo su adopción generalizada. Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mostrado éxito en el análisis y síntesis de código. En este artículo, presentamos una combinación de LLMs y análisis estático para sintetizar invariantes, aserciones y otras estructuras de prueba para un marco de verificación formal basado en Rust llamado Verus. En un entorno de pocos ejemplos, los LLMs demuestran una impresionante capacidad lógica para generar postcondiciones e invariantes de bucle, especialmente al analizar fragmentos de código cortos. Sin embargo, los LLMs carecen de la capacidad para retener y propagar información de contexto, una fortaleza del análisis estático tradicional. Basándonos en estas observaciones, desarrollamos un prototipo basado en el modelo GPT-4 de OpenAI. Nuestro prototipo descompone la tarea de verificación en múltiples subtareas más pequeñas, consulta iterativamente a GPT-4 y combina su salida con un análisis estático ligero. Evaluamos el prototipo con un desarrollador en el bucle de automatización en 20 programas que manipulan vectores. Los resultados demuestran que reduce significativamente el esfuerzo humano en la escritura de código de prueba de nivel básico.