Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos Adam-mini, un optimizador que logra un rendimiento igual o mejor que AdamW con una huella de memoria entre un 45% y un 50% menor. Adam-mini reduce la memoria disminuyendo los recursos de tasa de aprendizaje en Adam (es decir, 1/v). Descubrimos que geq 90% de estas tasas de aprendizaje en v podrían eliminarse sin perjuicio si (1) particionamos cuidadosamente los parámetros en bloques siguiendo nuestro principio propuesto sobre la estructura del Hessiano; (2) asignamos una única pero buena tasa de aprendizaje a cada bloque de parámetros. Además, encontramos que, para cada uno de estos bloques de parámetros, existe una única tasa de aprendizaje de alta calidad que puede superar a Adam, siempre que se disponga de recursos suficientes para encontrarla. Luego, proporcionamos una forma rentable de encontrar buenas tasas de aprendizaje y proponemos Adam-mini. Empíricamente, verificamos que Adam-mini tiene un rendimiento igual o mejor que AdamW en varios modelos de lenguaje que van desde 125M hasta 7B para pre-entrenamiento, ajuste fino supervisado y RLHF. La reducida huella de memoria de Adam-mini también alivia la sobrecarga de comunicación entre GPUs y CPUs, aumentando así el rendimiento. Por ejemplo, Adam-mini logra un 49.6% más de rendimiento que AdamW al pre-entrenar Llama2-7B en 2 veces GPUs A800-80GB, lo que ahorra un 33% del tiempo de reloj en el pre-entrenamiento.
Los agentes de IA han adquirido una importancia creciente en diversos dominios, permitiendo la toma de decisiones autónoma y la resolución de problemas. Para funcionar de manera efectiva, estos agentes requieren un proceso de planificación que determine el mejor curso de acción y luego ejecute las acciones planificadas. En este artículo, presentamos un marco eficiente de Planificador-Acción en el dispositivo que separa la planificación y la ejecución de acciones en dos componentes distintos: un agente planificador basado en Phi-3 Mini, un modelo de lenguaje grande (LLM) de 3.8 mil millones de parámetros optimizado para dispositivos de borde, y un agente de acción que utiliza el modelo Octopus para la ejecución de funciones. El agente planificador responde primero a las consultas del usuario descomponiendo las tareas en una secuencia de subpasos, que luego son ejecutados por el agente de acción. Para optimizar el rendimiento en dispositivos con recursos limitados, empleamos el ajuste fino del modelo en lugar del aprendizaje en contexto, reduciendo los costos computacionales y el consumo de energía mientras mejoramos los tiempos de respuesta. Nuestro enfoque implica el uso de GPT-4 para generar consultas y respuestas de planificación diversas basadas en las funciones disponibles, con validaciones posteriores para garantizar la calidad de los datos. Ajustamos finamente el modelo Phi-3 Mini en este conjunto de datos curado, logrando una tasa de éxito del 97% en nuestro entorno de prueba dentro del dominio. Para abordar los desafíos de planificación en múltiples dominios, desarrollamos un método de entrenamiento multi-LoRA que combina pesos de LoRAs entrenados en subconjuntos de funciones distintos. Este enfoque permite manejar de manera flexible consultas complejas y multi-dominio mientras se mantiene la eficiencia computacional en dispositivos con recursos limitados. Para apoyar investigaciones futuras, hemos liberado los pesos de nuestro modelo en https://huggingface.co/NexaAIDev/octopus-planning. Para la demostración, consulte https://www.nexa4ai.com/octo-planner.
La comprensión de gráficos juega un papel fundamental al aplicar Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) a tareas del mundo real, como el análisis de artículos científicos o informes financieros. Sin embargo, los conjuntos de datos existentes suelen centrarse en gráficos simplificados y homogéneos con preguntas basadas en plantillas, lo que lleva a una medida de progreso excesivamente optimista. Demostramos que, aunque los modelos de código abierto pueden parecer superar a los modelos propietarios más robustos en estos puntos de referencia, una simple prueba de estrés con gráficos o preguntas ligeramente diferentes puede deteriorar el rendimiento hasta en un 34.5%. En este trabajo, proponemos CharXiv, una suite de evaluación integral que incluye 2,323 gráficos naturales, desafiantes y diversos extraídos de artículos de arXiv. CharXiv incluye dos tipos de preguntas: 1) preguntas descriptivas sobre la examinación de elementos básicos del gráfico y 2) preguntas de razonamiento que requieren sintetizar información a través de elementos visuales complejos en el gráfico. Para garantizar la calidad, todos los gráficos y preguntas son seleccionados, curados y verificados manualmente por expertos humanos. Nuestros resultados revelan una brecha sustancial y previamente subestimada entre las habilidades de razonamiento del modelo propietario más fuerte (es decir, GPT-4o), que alcanza un 47.1% de precisión, y el modelo de código abierto más robusto (es decir, InternVL Chat V1.5), que alcanza un 29.2%. Todos los modelos están muy por detrás del rendimiento humano del 80.5%, lo que subraya las debilidades en las capacidades de comprensión de gráficos de los MLLMs existentes. Esperamos que CharXiv facilite futuras investigaciones sobre la comprensión de gráficos en MLLMs al proporcionar una medida más realista y fiel del progreso. Página del proyecto y tabla de clasificación: https://charxiv.github.io/
Proponemos un nuevo punto de referencia para la generación de texto a video (T2V), ChronoMagic-Bench, para evaluar las capacidades temporales y metamórficas de los modelos T2V (por ejemplo, Sora y Lumiere) en la generación de videos time-lapse. A diferencia de los puntos de referencia existentes que se centran en la calidad visual y la relevancia textual de los videos generados, ChronoMagic-Bench se enfoca en la capacidad del modelo para generar videos time-lapse con una amplitud metamórfica significativa y coherencia temporal. El punto de referencia examina las capacidades de física, biología y química de los modelos T2V mediante consultas de texto de forma libre. Para estos fines, ChronoMagic-Bench introduce 1,649 indicaciones y videos del mundo real como referencias, categorizados en cuatro tipos principales de videos time-lapse: fenómenos biológicos, creados por humanos, meteorológicos y físicos, que a su vez se dividen en 75 subcategorías. Esta categorización evalúa de manera integral la capacidad del modelo para manejar transformaciones diversas y complejas. Para alinear con precisión la preferencia humana con el punto de referencia, introducimos dos nuevas métricas automáticas, MTScore y CHScore, para evaluar los atributos metamórficos y la coherencia temporal de los videos. MTScore mide la amplitud metamórfica, reflejando el grado de cambio a lo largo del tiempo, mientras que CHScore evalúa la coherencia temporal, asegurando que los videos generados mantengan una progresión lógica y continuidad. Basándonos en ChronoMagic-Bench, realizamos evaluaciones manuales exhaustivas de diez modelos T2V representativos, revelando sus fortalezas y debilidades en diferentes categorías de indicaciones, y proporcionando un marco de evaluación completo que aborda las brechas actuales en la investigación de generación de videos. Además, creamos un conjunto de datos a gran escala, ChronoMagic-Pro, que contiene 460k pares de alta calidad de videos time-lapse en 720p y descripciones detalladas que aseguran una alta pertinencia física y una gran amplitud metamórfica.
El enfoque de mezcla de expertos (MoE, por sus siglas en inglés) está atrayendo una atención creciente debido a sus propiedades únicas y su rendimiento notable, especialmente en tareas de lenguaje. Al activar de manera dispersa un subconjunto de parámetros para cada token, la arquitectura MoE puede aumentar el tamaño del modelo sin sacrificar la eficiencia computacional, logrando un mejor equilibrio entre el rendimiento y los costos de entrenamiento. Sin embargo, el mecanismo subyacente de MoE aún requiere una mayor exploración, y su grado de modularización sigue siendo cuestionable. En este artículo, realizamos un primer intento por comprender el funcionamiento interno de los modelos de lenguaje grandes basados en MoE. Concretamente, estudiamos de manera exhaustiva las características paramétricas y comportamentales de tres modelos recientes basados en MoE y revelamos algunas observaciones intrigantes, incluyendo (1) Las neuronas actúan como expertos de grano fino. (2) El enrutador de MoE suele seleccionar expertos con normas de salida más grandes. (3) La diversidad de expertos aumenta a medida que se avanza en las capas, aunque la última capa es una excepción. Basándonos en estas observaciones, también proporcionamos sugerencias para una amplia gama de profesionales de MoE, como el diseño de enrutadores y la asignación de expertos. Esperamos que este trabajo pueda arrojar luz sobre futuras investigaciones en el marco de MoE y otras arquitecturas modulares. El código está disponible en https://github.com/kamanphoebe/Look-into-MoEs.
Presentamos WildGuard, una herramienta de moderación ligera y abierta para la seguridad de LLM que cumple tres objetivos: (1) identificar intenciones maliciosas en las indicaciones de los usuarios, (2) detectar riesgos de seguridad en las respuestas del modelo, y (3) determinar la tasa de rechazo del modelo. En conjunto, WildGuard satisface las crecientes necesidades de moderación y evaluación automática de la seguridad en las interacciones con LLM, ofreciendo una herramienta integral con mayor precisión y amplia cobertura en 13 categorías de riesgo. Si bien herramientas de moderación abiertas existentes, como Llama-Guard2, obtienen puntuaciones razonables en la clasificación de interacciones directas con el modelo, se quedan muy atrás de un GPT-4 guiado, especialmente en la identificación de jailbreaks adversarios y en la evaluación de los rechazos del modelo, una métrica clave para evaluar comportamientos de seguridad en las respuestas del modelo. Para abordar estos desafíos, construimos WildGuardMix, un conjunto de datos de moderación de seguridad a gran escala y cuidadosamente equilibrado con 92K ejemplos etiquetados que cubren indicaciones directas (vanilla) y jailbreaks adversarios, junto con diversas respuestas de rechazo y cumplimiento. WildGuardMix es una combinación de WildGuardTrain, los datos de entrenamiento de WildGuard, y WildGuardTest, un conjunto de pruebas de moderación anotado manualmente y de alta calidad con 5K elementos etiquetados que abarcan escenarios de riesgo variados. A través de evaluaciones exhaustivas en WildGuardTest y diez benchmarks públicos existentes, demostramos que WildGuard establece un rendimiento de vanguardia en la moderación de seguridad de código abierto en las tres tareas, en comparación con diez modelos de moderación de código abierto existentes (por ejemplo, una mejora de hasta el 26.4% en la detección de rechazos). Es importante destacar que WildGuard iguala y, en ocasiones, supera el rendimiento de GPT-4 (por ejemplo, una mejora de hasta el 3.9% en la identificación de indicaciones dañinas). WildGuard funciona como un moderador de seguridad altamente efectivo en una interfaz de LLM, reduciendo la tasa de éxito de los ataques de jailbreak del 79.8% al 2.4%.
Los Registros Electrónicos de Salud (EHR, por sus siglas en inglés) son fundamentales para almacenar historiales médicos completos de los pacientes, combinando datos estructurados (por ejemplo, medicamentos) con notas clínicas detalladas (por ejemplo, anotaciones de los médicos). Estos elementos son esenciales para la recuperación directa de datos y proporcionan información contextual profunda sobre la atención al paciente. Sin embargo, a menudo presentan discrepancias debido a diseños poco intuitivos de los sistemas EHR y errores humanos, lo que representa riesgos graves para la seguridad del paciente. Para abordar este problema, desarrollamos EHRCon, un nuevo conjunto de datos y tarea específicamente diseñado para garantizar la consistencia de los datos entre las tablas estructuradas y las notas no estructuradas en los EHR. EHRCon fue creado en colaboración con profesionales de la salud utilizando el conjunto de datos EHR MIMIC-III e incluye anotaciones manuales de 3,943 entidades en 105 notas clínicas verificadas contra entradas de la base de datos para asegurar su consistencia. EHRCon tiene dos versiones, una que utiliza el esquema original de MIMIC-III y otra que emplea el esquema OMOP CDM, con el fin de aumentar su aplicabilidad y generalización. Además, aprovechando las capacidades de los modelos de lenguaje de gran escala, presentamos CheckEHR, un marco novedoso para verificar la consistencia entre las notas clínicas y las tablas de la base de datos. CheckEHR utiliza un proceso de ocho etapas y muestra resultados prometedores tanto en configuraciones de pocos ejemplos (few-shot) como sin ejemplos previos (zero-shot). El código está disponible en https://github.com/dustn1259/EHRCon.
La comunidad de IA ha estado explorando un camino hacia la inteligencia artificial general (IAG) mediante el desarrollo de "agentes de lenguaje", que son pipelines complejos de modelos de lenguaje grandes (LLMs) que involucran tanto técnicas de prompting como métodos de uso de herramientas. Si bien los agentes de lenguaje han demostrado capacidades impresionantes para muchas tareas del mundo real, una limitación fundamental de la investigación actual sobre estos agentes es que son centrados en el modelo o en la ingeniería. Es decir, el progreso en los prompts, herramientas y pipelines de los agentes de lenguaje requiere un esfuerzo de ingeniería manual sustancial por parte de expertos humanos, en lugar de aprender automáticamente de los datos. Creemos que la transición de un enfoque centrado en el modelo o en la ingeniería a uno centrado en los datos, es decir, la capacidad de los agentes de lenguaje para aprender y evolucionar de manera autónoma en entornos, es clave para que posiblemente alcancen la IAG. En este trabajo, presentamos el aprendizaje simbólico de agentes, un marco sistemático que permite a los agentes de lenguaje optimizarse por sí mismos de manera centrada en los datos utilizando optimizadores simbólicos. Específicamente, consideramos a los agentes como redes simbólicas donde los pesos aprendibles están definidos por los prompts, las herramientas y la forma en que se apilan juntos. El aprendizaje simbólico de agentes está diseñado para optimizar la red simbólica dentro de los agentes de lenguaje imitando dos algoritmos fundamentales en el aprendizaje conexionista: la retropropagación y el descenso de gradiente. En lugar de trabajar con pesos numéricos, el aprendizaje simbólico de agentes opera con simulacros en lenguaje natural de pesos, pérdidas y gradientes. Realizamos experimentos de prueba de concepto tanto en benchmarks estándar como en tareas complejas del mundo real y demostramos que el aprendizaje simbólico de agentes permite que los agentes de lenguaje se actualicen después de ser creados y desplegados en entornos reales, resultando en "agentes auto-evolutivos".
El fútbol es un deporte de gran popularidad mundial con una audiencia masiva. En este artículo, consideramos la construcción de un modelo automático de comentarios de partidos de fútbol para mejorar la experiencia de visualización de la audiencia. En general, realizamos las siguientes contribuciones: En primer lugar, al observar la desalineación generalizada entre video y texto en los conjuntos de datos existentes, anotamos manualmente marcas de tiempo para 49 partidos, estableciendo un punto de referencia más sólido para la generación de comentarios de partidos de fútbol, denominado SN-Caption-test-align; En segundo lugar, proponemos una pipeline de alineación temporal multimodal para corregir y filtrar automáticamente el conjunto de datos existente a gran escala, creando un conjunto de datos de comentarios de fútbol de mayor calidad para entrenamiento, denominado MatchTime; En tercer lugar, basándonos en nuestro conjunto de datos curado, entrenamos un modelo automático de generación de comentarios, llamado MatchVoice. Experimentos exhaustivos y estudios de ablación han demostrado la efectividad de nuestra pipeline de alineación, y el entrenamiento del modelo en los conjuntos de datos curados alcanza un rendimiento de vanguardia en la generación de comentarios, mostrando que una mejor alineación puede conducir a mejoras significativas en el rendimiento de tareas posteriores.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento impresionantes, particularmente en la resolución de problemas matemáticos textuales. Sin embargo, los conjuntos de datos de ajuste fino de instrucciones con imágenes de código abierto existentes, que contienen pares de preguntas-respuestas limitados por imagen, no explotan completamente la información visual para mejorar las capacidades de razonamiento matemático multimodal de los LLMs multimodales (MLLMs). Para cerrar esta brecha, abordamos la falta de conjuntos de datos matemáticos multimodales de alta calidad y diversidad mediante la recopilación de 40K imágenes de alta calidad con pares de preguntas-respuestas de 24 conjuntos de datos existentes y la síntesis de 320K pares nuevos, creando el conjunto de datos MathV360K, que mejora tanto la amplitud como la profundidad de las preguntas matemáticas multimodales. Presentamos Math-LLaVA, un modelo basado en LLaVA-1.5 ajustado con MathV360K. Este enfoque novedoso mejora significativamente las capacidades de razonamiento matemático multimodal de LLaVA-1.5, logrando un aumento de 19 puntos y un rendimiento comparable al de GPT-4V en la división minitest de MathVista. Además, Math-LLaVA demuestra una mayor generalización, mostrando mejoras sustanciales en el benchmark MMMU. Nuestra investigación destaca la importancia de la diversidad y síntesis de conjuntos de datos para avanzar en las habilidades de razonamiento matemático de los MLLMs. El código y los datos están disponibles en: https://github.com/HZQ950419/Math-LLaVA.
Presentamos WildTeaming, un marco automático de red-teaming para la seguridad de LLM que extrae interacciones usuario-chatbot en entornos reales para descubrir 5.7K grupos únicos de tácticas novedosas de jailbreak, y luego combina múltiples tácticas para una exploración sistemática de nuevos jailbreaks. En comparación con trabajos anteriores que realizaron red-teaming mediante trabajadores humanos reclutados, optimización basada en gradientes o revisión iterativa con LLMs, nuestro trabajo investiga jailbreaks provenientes de usuarios de chatbots que no fueron específicamente instruidos para vulnerar el sistema. WildTeaming revela vulnerabilidades previamente no identificadas en LLMs de vanguardia, resultando en ataques adversarios hasta 4.6 veces más diversos y exitosos en comparación con los métodos de jailbreak más avanzados. Mientras existen muchos conjuntos de datos para la evaluación de jailbreaks, muy pocos conjuntos de datos de código abierto están disponibles para el entrenamiento de jailbreaks, ya que los datos de entrenamiento de seguridad han sido cerrados incluso cuando los pesos del modelo son abiertos. Con WildTeaming creamos WildJailbreak, un conjunto de datos sintético de seguridad a gran escala y de código abierto con 262K pares de solicitud-respuesta, tanto simples (solicitudes directas) como adversarias (jailbreaks complejos). Para mitigar comportamientos de seguridad exagerados, WildJailbreak proporciona dos tipos contrastantes de consultas: 1) consultas dañinas (simples y adversarias) y 2) consultas benignas que se asemejan en forma a las dañinas pero no contienen ningún daño. Dado que WildJailbreak mejora considerablemente la calidad y escala de los recursos de seguridad existentes, nos permite examinar de manera única los efectos de escalado de los datos y la interacción de las propiedades de los datos con las capacidades del modelo durante el entrenamiento de seguridad. A través de experimentos extensivos, identificamos las propiedades de entrenamiento que permiten un equilibrio ideal de comportamientos de seguridad: protección adecuada sin rechazo excesivo, manejo efectivo de consultas simples y adversarias, y una disminución mínima, si acaso, en las capacidades generales. Todos los componentes de WildJailbreak contribuyen a lograr comportamientos de seguridad equilibrados en los modelos.
Las políticas de redes neuronales profundas se han implementado recientemente en una amplia gama de entornos, desde la biotecnología hasta los sistemas financieros automatizados. Sin embargo, la utilización de redes neuronales profundas para aproximar la función de valor genera preocupaciones sobre la estabilidad del límite de decisión, en particular, con respecto a la sensibilidad de la toma de decisiones de políticas a características imperceptibles y no robustas debido a las variedades profundas de redes neuronales altamente no convexas y complejas. Estas preocupaciones constituyen un obstáculo para comprender el razonamiento realizado por las políticas de redes neuronales profundas y sus limitaciones fundamentales. Por lo tanto, es crucial desarrollar técnicas que busquen entender las sensibilidades en las representaciones aprendidas de las políticas de redes neuronales. Para lograr esto, presentamos un método teóricamente fundamentado que proporciona un análisis sistemático de las direcciones inestables en el límite de decisión de las políticas de redes neuronales profundas a través del tiempo y el espacio. A través de experimentos en el Arcade Learning Environment (ALE), demostramos la efectividad de nuestra técnica para identificar direcciones correlacionadas de inestabilidad y para medir cómo los cambios en las muestras remodelan el conjunto de direcciones sensibles en el panorama de políticas neuronales. Más importante aún, demostramos que las técnicas de entrenamiento robusto de última generación producen el aprendizaje de direcciones inestables disjuntas, con oscilaciones dramáticamente mayores a lo largo del tiempo, en comparación con el entrenamiento estándar. Creemos que nuestros resultados revelan las propiedades fundamentales del proceso de decisión realizado por las políticas de aprendizaje por refuerzo y pueden ayudar en la construcción de políticas de redes neuronales profundas confiables y robustas.
El reciente éxito de los Modelos Multimodales Grandes intercalados (LMMs) en el aprendizaje con pocos ejemplos sugiere que el aprendizaje en contexto (ICL) con muchos ejemplos puede ser prometedor para aprender nuevas tareas. Sin embargo, este enfoque multimodal de ICL con muchos ejemplos tiene un problema crucial: está fundamentalmente limitado por la longitud de contexto del modelo establecida durante el preentrenamiento. Este problema es especialmente destacado en el dominio multimodal, que procesa tanto texto como imágenes, requiriendo tokens adicionales. Esto motiva la necesidad de un método multimodal para comprimir muchos ejemplos en menos tokens sin necesidad de ajuste fino. En este trabajo, habilitamos a los LMMs para realizar aprendizaje en contexto multimodal con muchos ejemplos mediante el uso de Vectores de Tarea Multimodales (MTV, por sus siglas en inglés): representaciones implícitas compactas de ejemplos en contexto comprimidos en las cabezas de atención del modelo. Específicamente, primero demostramos la existencia de dichos MTV en los LMMs y luego aprovechamos estos MTV extraídos para habilitar el aprendizaje en contexto con muchos ejemplos en diversas tareas de visión y lenguaje. Nuestros experimentos sugieren que los MTV pueden escalar en rendimiento con el número de ejemplos comprimidos y generalizar a tareas similares fuera del dominio sin necesidad de longitud de contexto adicional para la inferencia.
El servicio de modelos de lenguaje de gran escala (LLM) ha evolucionado de sistemas sin estado a sistemas con estado, utilizando técnicas como el almacenamiento en caché de contexto y la inferencia desagregada. Estas optimizaciones extienden la vida útil y el dominio de la caché KV, lo que requiere un nuevo enfoque arquitectónico. Presentamos MemServe, un sistema unificado que integra optimizaciones tanto entre solicitudes como dentro de las solicitudes. MemServe introduce MemPool, un grupo de memoria elástico que gestiona la memoria distribuida y las cachés KV entre instancias de servicio. Utilizando las API de MemPool, MemServe combina por primera vez el almacenamiento en caché de contexto con la inferencia desagregada, respaldado por un planificador global que mejora la reutilización de la caché mediante una política consciente de la localidad basada en un árbol de prompts global. Las pruebas muestran que MemServe mejora significativamente el tiempo de finalización de trabajos y el tiempo hasta la primera respuesta.