Artículos de investigación en IA seleccionados diariamente con traducciones
En este artículo, presentamos la Puntuación de Seguimiento de Instrucciones (Instruction Following Score, IFS), una métrica que detecta la capacidad de los modelos de lenguaje para seguir instrucciones. La métrica tiene un doble propósito. En primer lugar, el IFS puede utilizarse para distinguir entre modelos base y modelos de instrucción. Evaluamos modelos base y de instrucción disponibles públicamente, y demostramos que la proporción de respuestas bien formateadas frente a frases parciales y completas puede ser una medida efectiva para diferenciar estas dos clases de modelos. En segundo lugar, la métrica puede utilizarse como criterio de parada temprana para el ajuste de instrucciones. Calculamos el IFS para el Ajuste Supervisado (Supervised Fine-Tuning, SFT) de modelos LLaMA de 7B y 13B, mostrando que los modelos aprenden a seguir instrucciones relativamente pronto en el proceso de entrenamiento, y que un ajuste adicional puede resultar en cambios en la semántica del modelo base subyacente. Como ejemplo de cambio semántico, mostramos la objetividad de las predicciones del modelo, definida por una métrica auxiliar llamada ObjecQA. Demostramos que, en este caso particular, los cambios semánticos son más pronunciados cuando el IFS tiende a estabilizarse. Esperamos que la descomposición del ajuste de instrucciones en factores de IFS y semántica inicie una nueva tendencia hacia un ajuste de instrucciones más controlable y abra posibilidades para diseñar interfaces de instrucción mínimas que consulten modelos fundacionales.
Las operaciones de la cadena de suministro tradicionalmente involucran una variedad de problemas complejos de toma de decisiones. Durante las últimas décadas, las cadenas de suministro se han beneficiado enormemente de los avances en computación, lo que permitió la transición del procesamiento manual a la automatización y la optimización rentable. Sin embargo, los operadores empresariales aún necesitan dedicar esfuerzos considerables para explicar e interpretar los resultados de la optimización a las partes interesadas. Motivados por los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), estudiamos cómo esta tecnología disruptiva puede ayudar a cerrar la brecha entre la automatización de la cadena de suministro y la comprensión y confianza humana en la misma. Diseñamos un marco de trabajo que acepta como entrada consultas en texto plano y genera información sobre los resultados subyacentes de la optimización. Nuestro marco de trabajo no prescinde de la tecnología de optimización combinatoria de última generación, sino que la aprovecha para responder cuantitativamente a escenarios hipotéticos (por ejemplo, ¿cómo cambiaría el costo si utilizáramos al proveedor B en lugar del proveedor A para una demanda dada?). Es importante destacar que nuestro diseño no requiere enviar datos propietarios a los LLMs, lo que puede ser una preocupación de privacidad en algunas circunstancias. Demostramos la efectividad de nuestro marco de trabajo en un escenario real de colocación de servidores dentro de la cadena de suministro en la nube de Microsoft. En el proceso, desarrollamos un punto de referencia de evaluación general, que puede utilizarse para evaluar la precisión de la salida del LLM en otros escenarios.
Los grandes modelos de lenguaje como GPT-4 exhiben capacidades emergentes en tareas de propósito general, como la aritmética básica, cuando se entrenan con extensos datos de texto, a pesar de que estas tareas no están explícitamente codificadas en el objetivo de predicción de siguiente token no supervisado. Este estudio investiga cómo pequeños transformadores, entrenados desde una inicialización aleatoria, pueden aprender eficientemente operaciones aritméticas como la suma, la multiplicación y funciones elementales como la raíz cuadrada, utilizando el objetivo de predicción de siguiente token. Primero demostramos que los datos de entrenamiento convencionales no son los más efectivos para el aprendizaje aritmético, y que simples cambios en el formato pueden mejorar significativamente la precisión. Esto conduce a transiciones de fase abruptas en función de la escala de los datos de entrenamiento, las cuales, en algunos casos, pueden explicarse a través de conexiones con la completación de matrices de bajo rango. Basándonos en trabajos previos, luego entrenamos con datos en estilo cadena de pensamiento que incluyen resultados de pasos intermedios. Incluso en ausencia total de preentrenamiento, este enfoque mejora significativa y simultáneamente la precisión, la complejidad muestral y la velocidad de convergencia. También estudiamos la interacción entre datos aritméticos y de texto durante el entrenamiento y examinamos los efectos del prompting en pocos ejemplos, el preentrenamiento y la escala del modelo. Además, discutimos los desafíos de generalización en longitud. Nuestro trabajo destaca la importancia de datos de alta calidad e instructivos que consideren las características particulares del objetivo de predicción de siguiente palabra para elicitar rápidamente capacidades aritméticas.
El ajuste por instrucciones de modelos de lenguaje de gran escala (LLM) en pares de imagen-texto ha logrado capacidades multimodales de visión y lenguaje sin precedentes. Sin embargo, sus alineaciones visión-lenguaje se construyen únicamente a nivel de imagen, y la falta de alineación a nivel de región limita su avance hacia una comprensión multimodal más detallada. En este artículo, proponemos el ajuste por instrucciones en regiones de interés. El diseño clave consiste en reformular el cuadro delimitador como el formato de instrucción espacial. Las secuencias intercaladas de características visuales extraídas por la instrucción espacial y la incrustación del lenguaje se introducen en el LLM, y se entrenan con datos de región-texto transformados en formato de ajuste por instrucciones. Nuestro modelo de visión-lenguaje a nivel de región, denominado GPT4RoI, ofrece una experiencia conversacional e interactiva completamente nueva que va más allá de la comprensión a nivel de imagen. (1) Controlabilidad: Los usuarios pueden interactuar con nuestro modelo tanto mediante instrucciones de lenguaje como espaciales para ajustar flexiblemente el nivel de detalle de la pregunta. (2) Capacidades: Nuestro modelo no solo admite instrucciones espaciales de una sola región, sino también de múltiples regiones. Esto desbloquea capacidades multimodales a nivel de región, como la descripción detallada de regiones y el razonamiento complejo sobre regiones. (3) Composición: Cualquier detector de objetos disponible puede ser un proveedor de instrucciones espaciales para extraer atributos informativos de objetos de nuestro modelo, como color, forma, material, acción, relación con otros objetos, etc. El código, los datos y la demostración están disponibles en https://github.com/jshilong/GPT4RoI.
Un gran número de personas se ven obligadas a utilizar la web en un idioma en el que tienen un bajo nivel de alfabetización debido a asimetrías tecnológicas. Los textos escritos en el segundo idioma (L2) por estos usuarios suelen contener una gran cantidad de errores influenciados por su idioma nativo (L1). Proponemos un método para identificar confusiones fonémicas (sonidos en L2 que un hablante de L1 tiende a confundir) para pares de L1 y L2. Estas confusiones se integran en un modelo generativo (Bi-Phone) para producir sintéticamente texto corrupto en L2. Mediante evaluaciones humanas, demostramos que Bi-Phone genera corrupciones plausibles que varían según el L1 y que tienen una amplia cobertura en la web. También corrompemos el popular benchmark de comprensión del lenguaje SuperGLUE con nuestra técnica (FunGLUE, por "Phonetically Noised GLUE") y mostramos que los modelos de última generación en comprensión del lenguaje tienen un rendimiento deficiente. Además, introducimos una nueva tarea de pre-entrenamiento de predicción fonémica que ayuda a los modelos basados en bytes a recuperar un rendimiento cercano al de SuperGLUE. Finalmente, también publicamos el benchmark FunGLUE para fomentar más investigaciones en modelos de lenguaje fonéticamente robustos. Hasta donde sabemos, FunGLUE es el primer benchmark que introduce interacciones L1-L2 en texto.
Gracias al surgimiento de los modelos fundacionales, los grandes modelos de lenguaje y visión se han integrado para adquirir la capacidad multimodal de subtitulado visual, diálogo, respuesta a preguntas, etc. Aunque los modelos multimodales existentes presentan un rendimiento impresionante en comprensión y razonamiento visual, sus límites aún están en gran parte sin explorar debido a la escasez de datos de ajuste instruccional de alta calidad. Para superar los límites de la capacidad multimodal, escalamos el Ajuste Instruccional Visual (SVIT) construyendo un conjunto de datos de 3.2 millones de datos de ajuste instruccional visual, que incluyen 1.6 millones de pares de preguntas y respuestas (QA) conversacionales, 1.6 millones de pares de QA de razonamiento complejo y 106 mil descripciones detalladas de imágenes. Además del volumen, el conjunto de datos propuesto también se caracteriza por su alta calidad y rica diversidad, generada mediante la solicitud a GPT-4 con abundantes anotaciones manuales de imágenes. Verificamos empíricamente que entrenar modelos multimodales en SVIT puede mejorar significativamente el rendimiento multimodal en términos de percepción visual, razonamiento y planificación.
Trabajos recientes han analizado empíricamente el aprendizaje en contexto y han demostrado que los transformadores entrenados en tareas sintéticas de regresión lineal pueden aprender a implementar la regresión de ridge, que es el predictor óptimo de Bayes, dada suficiente capacidad [Akyürek et al., 2023], mientras que los transformadores de una sola capa con autoatención lineal y sin capa MLP aprenderán a implementar un paso de descenso de gradiente (GD) sobre un objetivo de regresión lineal de mínimos cuadrados [von Oswald et al., 2022]. Sin embargo, la teoría detrás de estas observaciones sigue siendo poco comprendida. Estudiamos teóricamente transformadores con una sola capa de autoatención lineal, entrenados en datos sintéticos de regresión lineal ruidosa. Primero, demostramos matemáticamente que cuando las covariables se extraen de una distribución gaussiana estándar, el transformador de una capa que minimiza la pérdida de preentrenamiento implementará un paso de GD sobre el objetivo de regresión lineal de mínimos cuadrados. Luego, encontramos que cambiar la distribución de las covariables y el vector de pesos a una distribución gaussiana no isotrópica tiene un fuerte impacto en el algoritmo aprendido: el minimizador global de la pérdida de preentrenamiento ahora implementa un paso de GD precondicionado. Sin embargo, si solo se cambia la distribución de las respuestas, esto no tiene un gran efecto en el algoritmo aprendido: incluso cuando la respuesta proviene de una familia más general de funciones no lineales, el minimizador global de la pérdida de preentrenamiento sigue implementando un paso de GD sobre un objetivo de regresión lineal de mínimos cuadrados.
¿Qué hace que la generalización sea difícil en el aprendizaje por imitación para la manipulación robótica visual? Esta pregunta es difícil de abordar de manera directa, pero el entorno desde la perspectiva de un robot a menudo puede descomponerse en factores enumerables de variación, como las condiciones de iluminación o la ubicación de la cámara. Empíricamente, la generalización a algunos de estos factores ha presentado un obstáculo mayor que otros, pero el trabajo existente arroja poca luz sobre cuánto contribuye exactamente cada factor a la brecha de generalización. Para responder a esta pregunta, estudiamos políticas de aprendizaje por imitación en simulación y en una tarea de manipulación condicionada por lenguaje en un robot real, con el fin de cuantificar la dificultad de generalización a diferentes (conjuntos de) factores. También diseñamos un nuevo punto de referencia simulado de 19 tareas con 11 factores de variación para facilitar evaluaciones más controladas de la generalización. A partir de nuestro estudio, determinamos un orden de factores basado en la dificultad de generalización, que es consistente tanto en la simulación como en nuestra configuración de robot real.
Los modelos avanzados de IA prometen enormes beneficios para la humanidad, pero la sociedad necesita gestionar proactivamente los riesgos asociados. En este artículo, nos centramos en lo que denominamos modelos de "IA frontera": modelos base altamente capaces que podrían poseer capacidades peligrosas suficientes para representar riesgos graves para la seguridad pública. Los modelos de IA frontera plantean un desafío regulatorio distintivo: las capacidades peligrosas pueden surgir de manera inesperada; es difícil prevenir de manera robusta que un modelo implementado sea mal utilizado; y es difícil evitar que las capacidades de un modelo se proliferen ampliamente. Para abordar estos desafíos, se necesitan al menos tres pilares fundamentales para la regulación de los modelos frontera: (1) procesos de establecimiento de estándares para identificar los requisitos apropiados para los desarrolladores de IA frontera, (2) requisitos de registro y reporte para proporcionar a los reguladores visibilidad sobre los procesos de desarrollo de IA frontera, y (3) mecanismos para garantizar el cumplimiento de los estándares de seguridad en el desarrollo e implementación de modelos de IA frontera. La autorregulación de la industria es un primer paso importante. Sin embargo, se necesitarán discusiones sociales más amplias e intervención gubernamental para crear estándares y asegurar su cumplimiento. Consideramos varias opciones para este fin, incluyendo otorgar poderes de ejecución a autoridades supervisoras y regímenes de licenciamiento para modelos de IA frontera. Finalmente, proponemos un conjunto inicial de estándares de seguridad. Estos incluyen realizar evaluaciones de riesgo previas a la implementación; escrutinio externo del comportamiento del modelo; utilizar evaluaciones de riesgo para informar decisiones de implementación; y monitorear y responder a nueva información sobre las capacidades y usos del modelo después de su implementación. Esperamos que esta discusión contribuya a la conversación más amplia sobre cómo equilibrar los riesgos para la seguridad pública y los beneficios de la innovación derivados de los avances en el desarrollo de la IA frontera.