Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos phi-3-mini, un modelo de lenguaje de 3.8 mil millones de parámetros entrenado con 3.3 billones de tokens, cuyo rendimiento general, medido tanto por benchmarks académicos como por pruebas internas, rivaliza con el de modelos como Mixtral 8x7B y GPT-3.5 (por ejemplo, phi-3-mini alcanza un 69% en MMLU y 8.38 en MT-bench), a pesar de ser lo suficientemente pequeño como para ser implementado en un teléfono. La innovación reside completamente en nuestro conjunto de datos para el entrenamiento, una versión ampliada del utilizado para phi-2, compuesto por datos web altamente filtrados y datos sintéticos. El modelo también está más alineado para garantizar robustez, seguridad y formato de chat. Además, proporcionamos algunos resultados iniciales de escalado de parámetros con modelos de 7B y 14B entrenados con 4.8T tokens, llamados phi-3-small y phi-3-medium, ambos significativamente más capaces que phi-3-mini (por ejemplo, 75% y 78% en MMLU, y 8.7 y 8.9 en MT-bench, respectivamente).
La familia LLaMA de Meta se ha convertido en una de las series de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) de código abierto más potentes. Cabe destacar que los modelos LLaMA3 se han lanzado recientemente y logran un rendimiento impresionante en diversas tareas, gracias a un preentrenamiento a gran escala con más de 15 billones de tokens de datos. Dada la amplia aplicación de la cuantización de bajo bit para LLM en escenarios con recursos limitados, exploramos las capacidades de LLaMA3 cuando se cuantiza a anchos de bit reducidos. Esta exploración tiene el potencial de revelar nuevos conocimientos y desafíos para la cuantización de bajo bit de LLaMA3 y otros LLM futuros, especialmente en la resolución de problemas de degradación del rendimiento que sufren en la compresión de LLM. En concreto, evaluamos los 10 métodos existentes de cuantización post-entrenamiento y ajuste fino con LoRA de LLaMA3 en rangos de 1 a 8 bits y en diversos conjuntos de datos, para revelar de manera integral el rendimiento de cuantización de bajo bit de LLaMA3. Los resultados de nuestros experimentos indican que LLaMA3 aún sufre una degradación no despreciable en estos escenarios, especialmente en anchos de bit ultra bajos. Esto resalta la brecha significativa de rendimiento en anchos de bit reducidos que debe ser superada en desarrollos futuros. Esperamos que este estudio empírico resulte valioso para avanzar en futuros modelos, impulsando los LLM hacia anchos de bit más bajos con mayor precisión para su aplicación práctica. Nuestro proyecto está disponible en https://github.com/Macaronlin/LLaMA3-Quantization y los modelos cuantizados de LLaMA3 se han publicado en https://huggingface.co/LLMQ.
Los LLM actuales son susceptibles a inyecciones de instrucciones, jailbreaks y otros ataques que permiten a los adversarios sobrescribir las instrucciones originales de un modelo con sus propios prompts maliciosos. En este trabajo, argumentamos que una de las principales vulnerabilidades subyacentes a estos ataques es que los LLM a menudo consideran que los prompts del sistema (por ejemplo, texto de un desarrollador de aplicaciones) tienen la misma prioridad que el texto de usuarios no confiables y terceros. Para abordar esto, proponemos una jerarquía de instrucciones que define explícitamente cómo deberían comportarse los modelos cuando las instrucciones de diferentes prioridades entran en conflicto. Luego, proponemos un método de generación de datos para demostrar este comportamiento de seguimiento jerárquico de instrucciones, que enseña a los LLM a ignorar selectivamente las instrucciones de menor privilegio. Aplicamos este método a GPT-3.5, mostrando que aumenta drásticamente la robustez —incluso para tipos de ataques no vistos durante el entrenamiento— mientras impone degradaciones mínimas en las capacidades estándar.
El campo en rápida evolución de la Automatización Robótica de Procesos (RPA) ha logrado avances significativos en la automatización de procesos repetitivos, aunque su efectividad disminuye en escenarios que requieren tareas espontáneas o impredecibles demandadas por los usuarios. Este artículo presenta un enfoque novedoso, FlowMind, que aprovecha las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs), como el Transformer Generativo Preentrenado (GPT), para abordar esta limitación y crear un sistema de generación automática de flujos de trabajo. En FlowMind, proponemos una receta de instrucciones genérica para una "lección" que ayuda a fundamentar el razonamiento de los LLMs con Interfaces de Programación de Aplicaciones (APIs) confiables. Con esto, FlowMind no solo mitiga el problema común de las alucinaciones en los LLMs, sino que también elimina la interacción directa entre los LLMs y datos o códigos propietarios, garantizando así la integridad y confidencialidad de la información, un aspecto fundamental en los servicios financieros. FlowMind simplifica aún más la interacción del usuario al presentar descripciones de alto nivel de los flujos de trabajo generados automáticamente, permitiendo a los usuarios inspeccionarlos y proporcionar retroalimentación de manera efectiva. También presentamos NCEN-QA, un nuevo conjunto de datos en el ámbito financiero para evaluar tareas de respuesta a preguntas basadas en informes N-CEN sobre fondos. Utilizamos NCEN-QA para evaluar el rendimiento de los flujos de trabajo generados por FlowMind en comparación con variantes de referencia y de ablación de FlowMind. Demostramos el éxito de FlowMind, la importancia de cada componente en la receta de lección propuesta y la efectividad de la interacción y retroalimentación del usuario en FlowMind.
Recientemente, ha surgido una serie de algoritmos de destilación conscientes de la difusión para aliviar la sobrecarga computacional asociada con el proceso de inferencia de múltiples pasos de los Modelos de Difusión (DMs). Las técnicas actuales de destilación a menudo se dividen en dos aspectos distintos: i) Preservación de la Trayectoria ODE; y ii) Reformulación de la Trayectoria ODE. Sin embargo, estos enfoques sufren de una degradación severa del rendimiento o cambios de dominio. Para abordar estas limitaciones, proponemos Hyper-SD, un marco novedoso que combina sinérgicamente las ventajas de la Preservación y Reformulación de la Trayectoria ODE, manteniendo un rendimiento casi sin pérdidas durante la compresión de pasos. En primer lugar, introducimos la Destilación de Consistencia Segmentada por Trayectoria para realizar progresivamente una destilación consistente dentro de segmentos de pasos de tiempo predefinidos, lo que facilita la preservación de la trayectoria ODE original desde una perspectiva de orden superior. En segundo lugar, incorporamos el aprendizaje basado en retroalimentación humana para mejorar el rendimiento del modelo en un régimen de pocos pasos y mitigar la pérdida de rendimiento causada por el proceso de destilación. En tercer lugar, integramos la destilación de puntuación para mejorar aún más la capacidad de generación de pocos pasos del modelo y ofrecemos el primer intento de aprovechar un LoRA unificado para apoyar el proceso de inferencia en todos los pasos. Experimentos extensos y estudios de usuarios demuestran que Hyper-SD logra un rendimiento SOTA de 1 a 8 pasos de inferencia tanto para SDXL como para SD1.5. Por ejemplo, Hyper-SDXL supera a SDXL-Lightning en +0.68 en CLIP Score y +0.51 en Aes Score en la inferencia de 1 paso.
Este artículo describe MAIA, un Agente Automatizado de Interpretabilidad Multimodal. MAIA es un sistema que utiliza modelos neuronales para automatizar tareas de comprensión de modelos neuronales, como la interpretación de características y el descubrimiento de modos de fallo. Equipa un modelo de visión-lenguaje preentrenado con un conjunto de herramientas que permiten la experimentación iterativa en subcomponentes de otros modelos para explicar su comportamiento. Estas incluyen herramientas comúnmente utilizadas por investigadores humanos de interpretabilidad: para sintetizar y editar entradas, calcular ejemplares de máxima activación a partir de conjuntos de datos del mundo real, y resumir y describir resultados experimentales. Los experimentos de interpretabilidad propuestos por MAIA combinan estas herramientas para describir y explicar el comportamiento del sistema. Evaluamos aplicaciones de MAIA en modelos de visión por computadora. Primero caracterizamos la capacidad de MAIA para describir características (a nivel de neurona) en representaciones aprendidas de imágenes. A través de varios modelos entrenados y un nuevo conjunto de datos de neuronas visuales sintéticas con descripciones de verdad fundamental emparejadas, MAIA produce descripciones comparables a las generadas por experimentadores humanos expertos. Luego demostramos que MAIA puede ayudar en dos tareas adicionales de interpretabilidad: reducir la sensibilidad a características espurias e identificar automáticamente entradas que probablemente serán mal clasificadas.
La rápida evolución de los modelos fundacionales multimodales ha demostrado avances significativos en la comprensión y generación de lenguaje visual, como nuestro trabajo previo SEED-LLaMA. Sin embargo, aún existe una brecha entre su capacidad y la aplicabilidad en el mundo real, principalmente debido a la limitada capacidad del modelo para responder efectivamente a diversas instrucciones de los usuarios e interactuar con datos visuales variados. En este trabajo, nos enfocamos en cerrar esta brecha mediante la integración de dos características mejoradas: (1) la comprensión de imágenes de tamaños y proporciones arbitrarias, y (2) la habilitación de la generación de imágenes con múltiples niveles de granularidad. Presentamos un modelo fundacional unificado y versátil, denominado SEED-X, capaz de modelar semántica visual multi-granularidad para tareas de comprensión y generación. Además de los resultados competitivos en benchmarks públicos, SEED-X demuestra su eficacia en el manejo de aplicaciones del mundo real en diversos dominios después del ajuste por instrucciones. Esperamos que nuestro trabajo inspire futuras investigaciones sobre lo que se puede lograr con modelos fundacionales multimodales versátiles en aplicaciones del mundo real. Los modelos, códigos y conjuntos de datos estarán disponibles en https://github.com/AILab-CVC/SEED-X.
Los modelos de consistencia han demostrado capacidades notables para facilitar la generación eficiente de imágenes/videos, permitiendo la síntesis con un número mínimo de pasos de muestreo. Han resultado ventajosos para mitigar las cargas computacionales asociadas con los modelos de difusión. Sin embargo, la aplicación de los modelos de consistencia en la generación de música sigue siendo en gran medida inexplorada. Para abordar este vacío, presentamos Music Consistency Models (MusicCM), que aprovecha el concepto de modelos de consistencia para sintetizar de manera eficiente mel-espectrogramas de clips musicales, manteniendo una alta calidad mientras minimiza el número de pasos de muestreo. Basándose en modelos de difusión de texto a música existentes, el modelo MusicCM incorpora destilación de consistencia y entrenamiento de discriminadores adversarios. Además, encontramos beneficioso generar música coherente y extendida mediante la incorporación de múltiples procesos de difusión con restricciones compartidas. Los resultados experimentales revelan la efectividad de nuestro modelo en términos de eficiencia computacional, fidelidad y naturalidad. Notablemente, MusicCM logra una síntesis de música fluida con apenas cuatro pasos de muestreo, por ejemplo, solo un segundo por minuto del clip musical, mostrando el potencial para aplicaciones en tiempo real.
Este artículo presenta MultiBooth, una técnica novedosa y eficiente para la personalización de múltiples conceptos en la generación de imágenes a partir de texto. A pesar de los avances significativos en los métodos de generación personalizada, particularmente con el éxito de los modelos de difusión, los métodos existentes suelen enfrentar dificultades en escenarios de múltiples conceptos debido a la baja fidelidad de los conceptos y el alto costo de inferencia. MultiBooth aborda estos problemas dividiendo el proceso de generación de múltiples conceptos en dos fases: una fase de aprendizaje de un solo concepto y una fase de integración de múltiples conceptos. Durante la fase de aprendizaje de un solo concepto, empleamos un codificador de imágenes multimodal y una técnica eficiente de codificación de conceptos para aprender una representación concisa y discriminativa de cada concepto. En la fase de integración de múltiples conceptos, utilizamos cuadros delimitadores para definir el área de generación de cada concepto dentro del mapa de atención cruzada. Este método permite la creación de conceptos individuales dentro de sus regiones especificadas, facilitando así la formación de imágenes con múltiples conceptos. Esta estrategia no solo mejora la fidelidad de los conceptos, sino que también reduce el costo adicional de inferencia. MultiBooth supera varias líneas de base en evaluaciones cualitativas y cuantitativas, demostrando su rendimiento superior y eficiencia computacional. Página del proyecto: https://multibooth.github.io/
La locomoción estable en entornos abruptos es una capacidad esencial de los robots cuadrúpedos, que exige la habilidad de resistir diversas perturbaciones externas. Sin embargo, las políticas basadas en aprendizaje recientes solo utilizan una aleatorización básica del dominio para mejorar la robustez de las políticas aprendidas, lo que no garantiza que el robot tenga capacidades adecuadas de resistencia a perturbaciones. En este artículo, proponemos modelar el proceso de aprendizaje como una interacción adversarial entre el actor y un nuevo perturbador, asegurando su optimización con una restricción H_{infty}. A diferencia del actor, que maximiza la recompensa total descontada, el perturbador es responsable de generar fuerzas externas efectivas y se optimiza maximizando el error entre la recompensa de la tarea y su oráculo, es decir, el "costo" en cada iteración. Para mantener estable la optimización conjunta entre el actor y el perturbador, nuestra restricción H_{infty} impone un límite en la relación entre el costo y la intensidad de las fuerzas externas. A través de la interacción recíproca durante la fase de entrenamiento, el actor puede adquirir la capacidad de navegar perturbaciones físicas cada vez más complejas. Verificamos la robustez de nuestro enfoque en tareas de locomoción cuadrúpeda con el robot Unitree Aliengo, y también en una tarea más desafiante con el robot Unitree A1, donde se espera que el cuadrúpedo realice locomoción únicamente sobre sus patas traseras, como si fuera un robot bípedo. Los resultados cuantitativos simulados muestran mejoras frente a los baselines, demostrando la efectividad del método y cada elección de diseño. Por otro lado, los experimentos con robots reales exhiben cualitativamente cuán robusta es la política al interferir con diversas perturbaciones en varios terrenos, incluyendo escaleras, plataformas altas, pendientes y terrenos resbaladizos. Todo el código, puntos de control y guías de implementación en el mundo real se harán públicos.
Abordamos la tarea de estimar parámetros de cámara a partir de un conjunto de imágenes que representan una escena. Las herramientas populares de estructura a partir del movimiento (SfM) basadas en características resuelven esta tarea mediante reconstrucción incremental: repiten la triangulación de puntos 3D dispersos y el registro de más vistas de cámara a la nube de puntos dispersa. Reinterpretamos la estructura a partir del movimiento incremental como una aplicación iterativa y refinamiento de un relocalizador visual, es decir, de un método que registra nuevas vistas al estado actual de la reconstrucción. Esta perspectiva nos permite investigar relocalizadores visuales alternativos que no se basan en la coincidencia de características locales. Mostramos que la regresión de coordenadas de escena, un enfoque de relocalización basado en aprendizaje, nos permite construir representaciones de escena implícitas y neuronales a partir de imágenes sin pose. A diferencia de otros métodos de reconstrucción basados en aprendizaje, no requerimos priores de pose ni entradas secuenciales, y optimizamos eficientemente sobre miles de imágenes. Nuestro método, ACE0 (ACE Zero), estima las poses de la cámara con una precisión comparable a la SfM basada en características, como lo demuestra la síntesis de nuevas vistas. Página del proyecto: https://nianticlabs.github.io/acezero/