Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje en contexto (ICL, por sus siglas en inglés) en los Modelos de Lenguaje de Gran Escala (LLMs) ha surgido como un nuevo y poderoso paradigma de aprendizaje. Sin embargo, su mecanismo subyacente aún no se comprende bien. En particular, es un desafío mapearlo al marco de trabajo "estándar" del aprendizaje automático, donde se utiliza un conjunto de entrenamiento S para encontrar una función f(x) que mejor se ajuste dentro de una clase de hipótesis. Aquí avanzamos en este problema al demostrar que las funciones aprendidas por ICL a menudo tienen una estructura muy simple: corresponden al transformador LLM cuyas únicas entradas son la consulta x y un único "vector de tarea" calculado a partir del conjunto de entrenamiento. Por lo tanto, el ICL puede verse como la compresión de S en un solo vector de tarea theta(S) y luego usar este vector para modular el transformador y producir la salida. Respaldamos esta afirmación mediante experimentos exhaustivos en una variedad de modelos y tareas.
El panorama de los modelos fundamentales de visión (VFMs, por sus siglas en inglés) disponibles públicamente, como CLIP y Segment Anything Model (SAM), se está expandiendo rápidamente. Los VFMs están dotados de capacidades distintivas que derivan de sus objetivos de preentrenamiento. Por ejemplo, CLIP sobresale en la comprensión semántica, mientras que SAM se especializa en la comprensión espacial para la segmentación. En este trabajo, presentamos una receta simple para fusionar eficientemente VFMs en un modelo unificado que asimila su experiencia. Nuestro método propuesto integra el aprendizaje multitarea, técnicas de aprendizaje continuo y la destilación maestro-estudiante. Esta estrategia implica un costo computacional significativamente menor en comparación con el entrenamiento multitarea tradicional desde cero. Además, solo requiere una pequeña fracción de los conjuntos de datos de preentrenamiento que se utilizaron inicialmente para entrenar los modelos individuales. Al aplicar nuestro método a SAM y CLIP, derivamos SAM-CLIP: un modelo unificado que amalgama las fortalezas de SAM y CLIP en una sola arquitectura, haciéndolo apto para aplicaciones en dispositivos de borde. Demostramos que SAM-CLIP aprende representaciones visuales más ricas, equipadas tanto con características de localización como semánticas, adecuadas para una amplia gama de tareas de visión. SAM-CLIP obtiene un rendimiento mejorado en varias tareas de sondeo en comparación con SAM y CLIP. Además, mostramos que SAM-CLIP no solo conserva las fortalezas fundamentales de sus modelos precursores, sino que también introduce funcionalidades sinérgicas, destacándose especialmente en la segmentación semántica zero-shot, donde SAM-CLIP establece nuevos resultados de vanguardia en 5 benchmarks. Supera a modelos anteriores específicamente diseñados para esta tarea por un amplio margen, incluyendo mejoras de +6.8% y +5.9% en la media de IoU en los conjuntos de datos Pascal-VOC y COCO-Stuff, respectivamente.
La alucinación es una gran sombra que se cierne sobre los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) en rápida evolución, refiriéndose al fenómeno en el que el texto generado es inconsistente con el contenido de la imagen. Para mitigar las alucinaciones, los estudios existentes recurren principalmente a un enfoque de ajuste por instrucciones que requiere reentrenar los modelos con datos específicos. En este artículo, proponemos un camino diferente, introduciendo un método sin entrenamiento llamado Woodpecker. Al igual que un pájaro carpintero sana los árboles, este método identifica y corrige las alucinaciones en el texto generado. Concretamente, Woodpecker consta de cinco etapas: extracción de conceptos clave, formulación de preguntas, validación de conocimiento visual, generación de afirmaciones visuales y corrección de alucinaciones. Implementado de manera post-remediación, Woodpecker puede servir fácilmente a diferentes MLLMs, mientras que es interpretable al acceder a los resultados intermedios de las cinco etapas. Evaluamos Woodpecker tanto cuantitativa como cualitativamente y demostramos el enorme potencial de este nuevo paradigma. En el benchmark POPE, nuestro método obtiene una mejora del 30.66%/24.33% en precisión sobre la línea base MiniGPT-4/mPLUG-Owl. El código fuente se encuentra disponible en https://github.com/BradyFU/Woodpecker.
La mayoría de los trabajos recientes que aprovechan los Modelos de Lenguaje a Gran Escala (LLMs), como GPT-3, para la Traducción Automática (MT) se han centrado en la selección de ejemplos few-shot para el prompting. En este trabajo, intentamos comprender mejor el papel de los atributos de las demostraciones en el aprendizaje en contexto de traducciones mediante perturbaciones de demostraciones de alta calidad y dentro del dominio. Descubrimos que las perturbaciones asimétricas de las correspondencias fuente-objetivo producen resultados muy diferentes. Mostramos que la perturbación del lado fuente tiene un impacto sorprendentemente pequeño, mientras que la perturbación del lado objetivo puede reducir drásticamente la calidad de la traducción, lo que sugiere que es la distribución del texto de salida la que proporciona la señal de aprendizaje más importante durante el aprendizaje en contexto de traducciones. Proponemos un método llamado Zero-Shot-Context para añadir automáticamente esta señal en el prompting zero-shot. Demostramos que mejora el rendimiento de traducción zero-shot de GPT-3, incluso haciéndolo competitivo con las traducciones obtenidas mediante prompting few-shot.
En este artículo, presentamos el Modelo Recognize Anything Plus (RAM++), un modelo fundamental de reconocimiento de imágenes con capacidades sólidas de reconocimiento en conjuntos abiertos, mediante la inyección de conceptos semánticos en el marco de entrenamiento de etiquetado de imágenes. Los enfoques anteriores son modelos de etiquetado de imágenes limitados por semánticas restringidas, o modelos de visión-lenguaje con interacciones superficiales que resultan en un rendimiento subóptimo en el reconocimiento de múltiples etiquetas. En contraste, RAM++ integra la alineación imagen-texto y el etiquetado de imágenes dentro de un marco unificado de interacción detallada basado en tripletes imagen-etiquetas-texto. Este diseño permite que RAM++ no solo sobresalga en la identificación de categorías predefinidas, sino que también aumente significativamente la capacidad de reconocimiento en categorías de conjuntos abiertos. Además, RAM++ emplea modelos de lenguaje grandes (LLMs) para generar descripciones visuales de etiquetas diversas, siendo pionero en la integración del conocimiento de los LLMs en el entrenamiento de etiquetado de imágenes. Este enfoque capacita a RAM++ para integrar conceptos de descripción visual en el reconocimiento de conjuntos abiertos durante la inferencia. Las evaluaciones en benchmarks exhaustivos de reconocimiento de imágenes demuestran que RAM++ supera a los modelos fundamentales de reconocimiento de imágenes más avanzados (SOTA) en la mayoría de los aspectos. Específicamente, para categorías de etiquetas predefinidas de uso común, RAM++ muestra mejoras de 10.2 mAP y 15.4 mAP sobre CLIP en OpenImages e ImageNet. Para categorías de conjuntos abiertos más allá de las predefinidas, RAM++ registra mejoras de 5 mAP y 6.4 mAP sobre CLIP y RAM respectivamente en OpenImages. Para frases diversas de interacción humano-objeto, RAM++ logra mejoras de 7.8 mAP y 4.7 mAP en el benchmark HICO. El código, conjuntos de datos y modelos preentrenados están disponibles en https://github.com/xinyu1205/recognize-anything.
Estudiamos la capacidad de los modelos de última generación para responder consultas de satisfacción de restricciones en la recuperación de información (por ejemplo, 'una lista de heladerías en San Diego'). En el pasado, este tipo de consultas se consideraban tareas que solo podían resolverse mediante búsquedas web o bases de conocimiento. Recientemente, los modelos de lenguaje de gran escala (LLMs) han demostrado habilidades emergentes iniciales en esta tarea. Sin embargo, muchos puntos de referencia actuales de recuperación están saturados o no miden la satisfacción de restricciones. Motivados por las crecientes preocupaciones sobre la incorrección factual y las alucinaciones de los LLMs, presentamos KITAB, un nuevo conjunto de datos para medir las habilidades de satisfacción de restricciones de los modelos de lenguaje. KITAB consta de datos relacionados con libros de más de 600 autores y 13,000 consultas, y también ofrece un enfoque asociado de recopilación dinámica de datos y verificación de restricciones para adquirir datos de prueba similares para otros autores. Nuestros experimentos extendidos en GPT4 y GPT3.5 caracterizan y desacoplan modos comunes de falla en dimensiones como la popularidad de la información, los tipos de restricciones y la disponibilidad de contexto. Los resultados muestran que, en ausencia de contexto, los modelos exhiben limitaciones severas, medidas por información irrelevante, errores factuales e incompletitud, muchos de los cuales se agravan a medida que disminuye la popularidad de la información. Si bien la disponibilidad de contexto mitiga la información irrelevante, no es útil para satisfacer restricciones, identificando barreras fundamentales para la satisfacción de restricciones. Hacemos públicos nuestros aportes para fomentar más investigaciones sobre la mejora de las habilidades de satisfacción de restricciones en futuros modelos.
La arquitectura Transformer es crucial para numerosos modelos de IA, pero aún enfrenta desafíos en el modelado de lenguaje de largo alcance. Aunque se han diseñado varias arquitecturas Transformer específicas para abordar los problemas de dependencias de largo alcance, métodos existentes como Transformer-XL están afectados por un alto porcentaje de memorias ineficaces. En este estudio, presentamos una estrategia plug-and-play, conocida como Selección de Memoria sin Entrenamiento (TRAMS), que selecciona los tokens que participan en el cálculo de atención basándose en una métrica simple. Esta estrategia nos permite mantener los tokens que probablemente tengan una puntuación de atención alta con las consultas actuales e ignorar los demás. Hemos probado nuestro enfoque en el benchmark de nivel de palabra (WikiText-103) y el benchmark de nivel de carácter (enwik8), y los resultados indican una mejora sin necesidad de entrenamiento adicional ni la adición de parámetros extra.
La teoría de los fundamentos morales (MFT, por sus siglas en inglés) es una herramienta de evaluación psicológica que descompone el razonamiento moral humano en cinco factores, incluyendo cuidado/daño, libertad/opresión y santidad/degradación (Graham et al., 2009). Las personas varían en el peso que asignan a estas dimensiones al tomar decisiones morales, en parte debido a su educación cultural e ideología política. Dado que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se entrenan con conjuntos de datos recopilados de internet, pueden reflejar los sesgos presentes en dichos corpus. Este artículo utiliza la MFT como lente para analizar si los LLMs populares han adquirido un sesgo hacia un conjunto particular de valores morales. Analizamos LLMs conocidos y encontramos que exhiben fundamentos morales específicos, mostrando cómo estos se relacionan con los fundamentos morales humanos y las afiliaciones políticas. También medimos la consistencia de estos sesgos, es decir, si varían fuertemente dependiendo del contexto en el que se solicita al modelo. Finalmente, demostramos que es posible seleccionar de manera adversaria indicaciones que fomentan que el modelo exhiba un conjunto particular de fundamentos morales, y que esto puede afectar el comportamiento del modelo en tareas posteriores. Estos hallazgos ayudan a ilustrar los riesgos potenciales y las consecuencias no deseadas de que los LLMs asuman una postura moral particular.