Artículos de investigación en IA seleccionados diariamente con traducciones
Investigaciones recientes se han centrado en mejorar la capacidad de modelos más pequeños mediante el aprendizaje por imitación, basándose en los resultados generados por modelos fundacionales grandes (LFMs, por sus siglas en inglés). Varios factores afectan la calidad de estos modelos, que van desde señales de imitación limitadas debido a salidas superficiales de los LFMs; datos de entrenamiento homogéneos y de pequeña escala; y, más notablemente, la falta de una evaluación rigurosa que resulta en una sobreestimación de la capacidad del modelo pequeño, ya que tienden a aprender a imitar el estilo, pero no el proceso de razonamiento de los LFMs. Para abordar estos desafíos, desarrollamos Orca (estamos trabajando con nuestro equipo legal para liberar públicamente un diff de los pesos del modelo de acuerdo con la política de liberación de LLaMA, que se publicará en https://aka.ms/orca-lm), un modelo de 13 mil millones de parámetros que aprende a imitar el proceso de razonamiento de los LFMs. Orca aprende de señales enriquecidas de GPT-4, incluyendo trazas de explicaciones; procesos de pensamiento paso a paso; y otras instrucciones complejas, guiadas por la asistencia de ChatGPT como profesor. Para fomentar este aprendizaje progresivo, aprovechamos datos de imitación a gran escala y diversos, con un muestreo y selección juiciosos. Orca supera a modelos convencionales ajustados por instrucciones de última generación, como Vicuna-13B, en más del 100% en benchmarks complejos de razonamiento zero-shot como Big-Bench Hard (BBH) y en un 42% en AGIEval. Además, Orca alcanza paridad con ChatGPT en el benchmark BBH y muestra un rendimiento competitivo (con una brecha de 4 puntos con un mensaje de sistema optimizado) en exámenes profesionales y académicos como el SAT, LSAT, GRE y GMAT, tanto en configuraciones zero-shot sin CoT; mientras que se sitúa por detrás de GPT-4. Nuestra investigación indica que aprender a partir de explicaciones paso a paso, ya sean generadas por humanos o por modelos de IA más avanzados, es una dirección prometedora para mejorar las capacidades y habilidades de los modelos.
Los modelos de lenguaje de gran tamaño comúnmente se entrenan con una mezcla de datos web filtrados y corpus de alta calidad seleccionados, como conversaciones de redes sociales, libros o artículos técnicos. Se cree que este proceso de selección es necesario para producir modelos eficientes con amplias capacidades de generalización en escenarios de zero-shot. Sin embargo, a medida que se consideran modelos más grandes que requieren preentrenamiento con billones de tokens, no está claro qué tan escalable es la selección de datos y si pronto nos quedaremos sin datos únicos de alta calidad. Contrario a creencias anteriores, demostramos que los datos web adecuadamente filtrados y deduplicados por sí solos pueden dar lugar a modelos potentes; incluso superando significativamente a los modelos de última generación entrenados en The Pile. A pesar de un filtrado extenso, los datos de alta calidad que extraemos de la web siguen siendo abundantes, y logramos obtener cinco billones de tokens de CommonCrawl. Publicamos un extracto de 600 mil millones de tokens de nuestro conjunto de datos RefinedWeb, junto con modelos de lenguaje de 1.3/7.5 mil millones de parámetros entrenados en él.
El reciente Segment Anything Model (SAM) representa un gran avance en la escalabilidad de modelos de segmentación, permitiendo capacidades de zero-shot potentes y un sistema de indicaciones flexible. A pesar de haber sido entrenado con 1.100 millones de máscaras, la calidad de predicción de máscaras de SAM se queda corta en muchos casos, especialmente al tratar con objetos que tienen estructuras intrincadas. Proponemos HQ-SAM, dotando a SAM de la capacidad de segmentar cualquier objeto con precisión, manteniendo el diseño indicable original de SAM, su eficiencia y su generalización zero-shot. Nuestro diseño cuidadoso reutiliza y preserva los pesos preentrenados del modelo SAM, introduciendo solo parámetros y cálculos adicionales mínimos. Diseñamos un Token de Salida de Alta Calidad entrenable, que se inyecta en el decodificador de máscaras de SAM y es responsable de predecir la máscara de alta calidad. En lugar de aplicarlo solo en las características del decodificador de máscaras, primero las fusionamos con características tempranas y finales de ViT para mejorar los detalles de la máscara. Para entrenar los parámetros entrenables introducidos, compilamos un conjunto de datos de 44.000 máscaras de grano fino de varias fuentes. HQ-SAM solo se entrena en el conjunto de datos introducido de 44.000 máscaras, lo que toma solo 4 horas en 8 GPUs. Mostramos la eficacia de HQ-SAM en un conjunto de 9 diversos conjuntos de datos de segmentación en diferentes tareas posteriores, donde 7 de ellos se evalúan en un protocolo de transferencia zero-shot. Nuestro código y modelos se publicarán en https://github.com/SysCV/SAM-HQ.
Presentamos LLM-Blender, un marco de ensamblaje diseñado para alcanzar un rendimiento consistentemente superior aprovechando las diversas fortalezas de múltiples modelos de lenguaje grandes (LLMs) de código abierto. Nuestro marco consta de dos módulos: PairRanker y GenFuser, abordando la observación de que los LLMs óptimos para diferentes ejemplos pueden variar significativamente. PairRanker emplea un método especializado de comparación por pares para distinguir diferencias sutiles entre las salidas candidatas. Codifica conjuntamente el texto de entrada y un par de candidatos, utilizando codificadores de atención cruzada para determinar cuál es superior. Nuestros resultados demuestran que PairRanker exhibe la mayor correlación con el ranking basado en ChatGPT. Luego, GenFuser tiene como objetivo fusionar los candidatos mejor clasificados, generando una salida mejorada al capitalizar sus fortalezas y mitigar sus debilidades. Para facilitar la evaluación a gran escala, introducimos un conjunto de datos de referencia, MixInstruct, que es una mezcla de múltiples conjuntos de datos de instrucciones que incluyen comparaciones por pares oráculo. Nuestro LLM-Blender supera significativamente a los LLMs individuales y a los métodos de referencia en diversas métricas, estableciendo una brecha de rendimiento sustancial.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son seguidores de instrucciones, pero puede ser un desafío encontrar la mejor instrucción para diferentes situaciones, especialmente para LLMs de caja negra en los que está prohibido el uso de retropropagación. En lugar de optimizar directamente la instrucción discreta, optimizamos un prompt suave de baja dimensionalidad aplicado a un LLM de código abierto para generar la instrucción para el LLM de caja negra. En cada iteración del método propuesto, que llamamos InstructZero, un prompt suave se convierte en una instrucción utilizando el LLM de código abierto, la cual se envía al LLM de caja negra para su evaluación en modo zero-shot, y el rendimiento se envía a la optimización bayesiana para producir nuevos prompts suaves que mejoren el rendimiento zero-shot. Evaluamos InstructZero en diferentes combinaciones de LLMs de código abierto y APIs, incluyendo Vicuna y ChatGPT. Nuestros resultados muestran que InstructZero supera a los métodos de auto-instrucción más avanzados (SOTA) en una variedad de tareas posteriores. Nuestro código y datos están disponibles públicamente en https://github.com/Lichang-Chen/InstructZero.
Los modelos de lenguaje (LM, por sus siglas en inglés) suelen exhibir comportamientos indeseables en la generación de texto, como producir salidas falsas, tóxicas o irrelevantes. El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés), donde los juicios de preferencia humana sobre las salidas de los LM se transforman en una señal de aprendizaje, ha mostrado recientemente ser prometedor para abordar estos problemas. Sin embargo, esta retroalimentación holística transmite información limitada sobre salidas de texto extensas; no indica qué aspectos de las salidas influyeron en la preferencia del usuario; por ejemplo, qué partes contienen qué tipo(s) de errores. En este artículo, utilizamos retroalimentación humana detallada (por ejemplo, qué oración es falsa, qué suboración es irrelevante) como una señal de entrenamiento explícita. Introducimos Fine-Grained RLHF, un marco que permite entrenar y aprender a partir de funciones de recompensa que son detalladas en dos aspectos: (1) densidad, proporcionando una recompensa después de generar cada segmento (por ejemplo, una oración); y (2) incorporación de múltiples modelos de recompensa asociados con diferentes tipos de retroalimentación (por ejemplo, incorrección fáctica, irrelevancia e incompletitud de la información). Realizamos experimentos en desintoxicación y respuestas a preguntas de formato extenso para ilustrar cómo el aprendizaje con estas funciones de recompensa conduce a un mejor rendimiento, respaldado tanto por evaluaciones automáticas como humanas. Además, demostramos que los comportamientos de los LM pueden personalizarse utilizando diferentes combinaciones de modelos de recompensa detallados. Publicamos todos los datos, la retroalimentación humana recopilada y los códigos en https://FineGrainedRLHF.github.io.
Los métodos de entrenamiento con privacidad diferencial (DP, por sus siglas en inglés), como DP-SGD, pueden proteger datos sensibles de entrenamiento al garantizar que los modelos de aprendizaje automático no revelen información privada. Un enfoque alternativo, que este artículo estudia, es utilizar un conjunto de datos sensibles para generar un nuevo conjunto de datos sintético que sea diferencialmente privado con respecto a los datos originales. Hacerlo tiene varias ventajas: los datos sintéticos pueden reutilizarse para otras tareas (incluyendo la optimización de hiperparámetros), conservarse indefinidamente o compartirse con terceros sin sacrificar la privacidad. Sin embargo, obtener datos con DP es mucho más difícil que introducir DP durante el entrenamiento. Para hacerlo factible en el caso de texto, trabajos recientes han utilizado datos públicos partiendo de un modelo generativo de lenguaje preentrenado y ajustándolo de manera privada con datos sensibles. Este modelo puede usarse para muestrear un conjunto de datos sintético con DP. Aunque esta estrategia parece sencilla, su ejecución ha demostrado ser problemática. Enfoques anteriores muestran una pérdida significativa de rendimiento o, como demostramos, tienen fallos críticos en su diseño. En este artículo demostramos que un objetivo de entrenamiento adecuado junto con el ajuste de menos parámetros resulta en una excelente calidad de datos sintéticos con DP. Nuestro enfoque es competitivo con el entrenamiento directo con DP de clasificadores en términos de rendimiento en tareas posteriores. También demostramos que nuestros datos sintéticos con DP no solo son útiles para entrenar clasificadores, sino también para ajustar esos mismos modelos.
El recientemente lanzado modelo ChatGPT demuestra capacidades sin precedentes en la respuesta a preguntas en modo zero-shot. En este trabajo, exploramos la comprensión conversacional de ChatGPT e introducimos un marco (protocolo) conversacional que puede adoptarse en estudios futuros. El universo Pok\'emon sirve como un terreno de prueba ideal para auditar las capacidades de razonamiento de ChatGPT debido a su supuesto de mundo cerrado. Tras revelar el conocimiento previo de ChatGPT sobre el universo Pok\'emon, probamos su proceso de razonamiento al utilizar estos conceptos en escenarios de batalla. Luego evaluamos su capacidad para adquirir nuevos conocimientos e incorporarlos en su proceso de razonamiento. Nuestro objetivo final es evaluar la capacidad de ChatGPT para generalizar, combinar características, y adquirir y razonar sobre conocimientos recién introducidos a partir de la retroalimentación humana. Descubrimos que ChatGPT posee conocimientos previos sobre el universo Pok\'emon, sobre los cuales puede razonar en gran medida en escenarios de batalla, incluso cuando se introduce nueva información. El modelo funciona mejor con retroalimentación colaborativa y si hay una fase inicial de recuperación de información, pero también alucina ocasionalmente y es susceptible a ataques adversarios.
La metodología estándar de evaluación de modelos de lenguaje de gran escala (LLMs) basada en pares estáticos de entradas y salidas es insuficiente para desarrollar asistentes: este tipo de evaluaciones no tiene en cuenta el elemento interactivo esencial en su despliegue y, por lo tanto, limita nuestra comprensión de las capacidades de los modelos de lenguaje. Presentamos CheckMate, una plataforma prototipo adaptable para que los humanos interactúen y evalúen LLMs. Realizamos un estudio con CheckMate para evaluar tres modelos de lenguaje (InstructGPT, ChatGPT y GPT-4) como asistentes en la demostración de matemáticas a nivel universitario, con un grupo mixto de participantes que incluye desde estudiantes universitarios hasta profesores de matemáticas. Publicamos el conjunto de datos resultante de interacciones y calificaciones, MathConverse. Al analizar MathConverse, derivamos una taxonomía preliminar de comportamientos humanos y descubrimos que, a pesar de una correlación generalmente positiva, hay casos notables de divergencia entre la corrección y la utilidad percibida en las generaciones de LLMs, entre otros hallazgos. Además, identificamos escenarios útiles y problemas existentes de GPT-4 en el razonamiento matemático a través de una serie de estudios de caso aportados por expertos matemáticos. Concluimos con conclusiones prácticas para profesionales de ML y matemáticos: los modelos que comunican incertidumbre, responden bien a las correcciones del usuario, son más interpretables y concisos pueden constituir mejores asistentes; la evaluación interactiva es una forma prometedora de explorar continuamente la capacidad de estos modelos; los humanos deben ser conscientes de la falibilidad algebraica de los modelos de lenguaje y, por ello, discernir dónde deben ser utilizados.
El reciente éxito de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) representa un avance impresionante hacia la inteligencia artificial general. Han demostrado un panorama prometedor al completar automáticamente tareas siguiendo instrucciones del usuario, funcionando como coordinadores similares a un cerebro. Los riesgos asociados se revelarán a medida que deleguemos un número creciente de tareas a las máquinas para su finalización automatizada. Surge una gran pregunta: ¿cómo podemos hacer que las máquinas se comporten de manera responsable al ayudar a los humanos a automatizar tareas como copilotos personales? En este artículo, exploramos esta pregunta en profundidad desde las perspectivas de viabilidad, completitud y seguridad. En concreto, presentamos la Automatización Responsable de Tareas (ResponsibleTA) como un marco fundamental para facilitar la colaboración responsable entre coordinadores y ejecutores basados en LLMs para la automatización de tareas, con tres capacidades potenciadas: 1) predecir la viabilidad de los comandos para los ejecutores; 2) verificar la completitud de los ejecutores; 3) mejorar la seguridad (por ejemplo, la protección de la privacidad de los usuarios). Además, proponemos y comparamos dos paradigmas para implementar las dos primeras capacidades. Uno es aprovechar el conocimiento genérico de los propios LLMs mediante ingeniería de prompts, mientras que el otro es adoptar modelos aprendibles específicos del dominio. Asimismo, introducimos un mecanismo de memoria local para lograr la tercera capacidad. Evaluamos nuestra propuesta ResponsibleTA en la automatización de tareas de interfaz de usuario (UI) y esperamos que pueda atraer más atención hacia la garantía de que los LLMs sean más responsables en diversos escenarios. La página principal del proyecto de investigación se encuentra en https://task-automation-research.github.io/responsible_task_automation.
Observando la estrecha relación entre las tareas de segmentación panóptica, semántica y de instancias, proponemos entrenar un modelo universal de segmentación multi-dataset y multi-tarea: DaTaSeg. Utilizamos una representación compartida (propuestas de máscaras con predicciones de clase) para todas las tareas. Para abordar la discrepancia entre tareas, adoptamos diferentes operaciones de fusión y post-procesamiento para cada tarea. También aprovechamos la supervisión débil, permitiendo que nuestro modelo de segmentación se beneficie de anotaciones más económicas en forma de cajas delimitadoras. Para compartir conocimiento entre datasets, utilizamos embeddings de texto del mismo espacio semántico de embeddings como clasificadores y compartimos todos los parámetros de la red entre los datasets. Entrenamos DaTaSeg en los datasets ADE semántico, COCO panóptico y Objects365 de detección. DaTaSeg mejora el rendimiento en todos los datasets, especialmente en los de menor escala, logrando 54.0 mIoU en ADE semántico y 53.5 PQ en COCO panóptico. DaTaSeg también permite la transferencia de conocimiento con supervisión débil en la segmentación panóptica de ADE y la segmentación de instancias de Objects365. Los experimentos muestran que DaTaSeg escala con el número de datasets de entrenamiento y permite la segmentación de vocabulario abierto mediante transferencia directa. Además, anotamos un conjunto de segmentación de instancias de Objects365 con 1,000 imágenes y lo publicaremos como un benchmark público.
El empleo de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) para abordar problemas matemáticos constituye un esfuerzo de investigación fascinante, dado la abundancia de problemas matemáticos expresados en lenguaje natural en numerosos campos de la ciencia y la ingeniería. Si bien varios trabajos previos han investigado la resolución de matemáticas elementales utilizando LLMs, este trabajo explora la frontera del uso de GPT-4 para resolver problemas matemáticos más complejos y desafiantes. Evaluamos diversas formas de utilizar GPT-4. Algunas de ellas están adaptadas de trabajos existentes, y una de ellas es \MathChat, un marco de resolución de problemas conversacional propuesto recientemente en este trabajo. Realizamos la evaluación en problemas difíciles de competencias de nivel secundario del conjunto de datos MATH, lo que demuestra la ventaja del enfoque conversacional propuesto.
Los modelos de lenguaje basados en Transformers han encontrado diversas aplicaciones que requieren procesar secuencias de longitud creciente. Para estas aplicaciones, la atención causal auto-referencial —que es el único componente que escala cuadráticamente respecto a la longitud de la secuencia— se convierte en un aspecto central de preocupación. Aunque muchos trabajos han propuesto esquemas para esparcir los patrones de atención y reducir la sobrecarga computacional de la atención auto-referencial, estos suelen estar limitados por problemas de implementación y terminan imponiendo una estructura simple y estática sobre la matriz de atención. Por el contrario, implementar atenciones dispersas más dinámicas a menudo resulta en tiempos de ejecución significativamente más lentos que calcular la atención completa utilizando la implementación Flash de Dao et al. (2022). Extendemos FlashAttention para acomodar una amplia clase de patrones de atención dispersa que, en particular, incluyen el descarte de claves/consultas y la atención basada en hashing. Esto conduce a implementaciones sin sobrecarga de complejidad computacional y a una aceleración múltiple en el tiempo de ejecución sobre FlashAttention. Incluso con grados relativamente bajos de dispersión, nuestro método mejora visiblemente sobre FlashAttention a medida que aumenta la longitud de la secuencia. Sin sacrificar la perplejidad, aumentamos la velocidad de entrenamiento de un modelo de lenguaje Transformer en 2.0 veces y 3.3 veces para secuencias de 8k y 16k tokens, respectivamente.
Presentamos una evaluación realista sobre los modelos de lenguaje de gran escala y examinamos, en comparación, las promesas de los modelos de lenguaje aumentados con recuperación. Dichos modelos de lenguaje son semi-paramétricos, donde los modelos integran parámetros del modelo y conocimiento de fuentes de datos externas para realizar sus predicciones, a diferencia de la naturaleza paramétrica de los modelos de lenguaje de gran escala convencionales. Proporcionamos hallazgos experimentales iniciales que indican que las arquitecturas semi-paramétricas pueden mejorarse con vistas, un analizador/planificador de consultas y trazabilidad para crear un sistema significativamente más potente en términos de precisión y eficiencia para tareas de respuesta a preguntas, y potencialmente para otras tareas de procesamiento del lenguaje natural (NLP).