Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de los avances de los modelos de lenguaje de gran escala (LLMs) de código abierto y sus variantes, como LLaMA y Vicuna, siguen siendo significativamente limitados en la realización de tareas de mayor nivel, como seguir instrucciones humanas para utilizar herramientas externas (APIs). Esto se debe a que el ajuste por instrucción actual se centra principalmente en tareas lingüísticas básicas en lugar del dominio de uso de herramientas. Esto contrasta con los LLMs de última generación (SOTA), como ChatGPT, que han demostrado excelentes capacidades de uso de herramientas pero que, lamentablemente, son de código cerrado. Para facilitar las capacidades de uso de herramientas en LLMs de código abierto, presentamos ToolLLM, un marco general de uso de herramientas que abarca la construcción de datos, el entrenamiento del modelo y la evaluación. Primero presentamos ToolBench, un conjunto de datos de ajuste por instrucción para el uso de herramientas, creado automáticamente utilizando ChatGPT. Específicamente, recopilamos 16,464 APIs RESTful del mundo real que abarcan 49 categorías de RapidAPI Hub, luego solicitamos a ChatGPT que genere diversas instrucciones humanas que involucren estas APIs, cubriendo tanto escenarios de una sola herramienta como de múltiples herramientas. Finalmente, utilizamos ChatGPT para buscar una ruta de solución válida (cadena de llamadas API) para cada instrucción. Para hacer el proceso de búsqueda más eficiente, desarrollamos un novedoso árbol de decisiones basado en búsqueda en profundidad (DFSDT), que permite a los LLMs evaluar múltiples trazas de razonamiento y expandir el espacio de búsqueda. Demostramos que DFSDT mejora significativamente las capacidades de planificación y razonamiento de los LLMs. Para una evaluación eficiente del uso de herramientas, desarrollamos un evaluador automático: ToolEval. Ajustamos LLaMA en ToolBench y obtenemos ToolLLaMA. Nuestro ToolEval revela que ToolLLaMA demuestra una capacidad notable para ejecutar instrucciones complejas y generalizar a APIs no vistas, y exhibe un rendimiento comparable al de ChatGPT. Para hacer la canalización más práctica, diseñamos un recuperador de APIs neuronal para recomendar APIs apropiadas para cada instrucción, eliminando la necesidad de selección manual de APIs.
Este trabajo tiene como objetivo reducir la latencia de generación de extremo a extremo en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Una de las principales causas de la alta latencia de generación es el enfoque de decodificación secuencial adoptado por casi todos los LLMs de vanguardia. En este trabajo, motivados por el proceso de pensamiento y escritura de los seres humanos, proponemos "Esqueleto-del-Pensamiento" (SoT, por sus siglas en inglés), que guía a los LLMs a generar primero el esqueleto de la respuesta y luego realiza llamadas API en paralelo o decodificación por lotes para completar el contenido de cada punto del esqueleto de manera paralela. SoT no solo proporciona una aceleración considerable (hasta 2.39x en 11 LLMs diferentes), sino que también puede mejorar potencialmente la calidad de las respuestas en varias categorías de preguntas en términos de diversidad y relevancia. SoT es un intento inicial de optimización centrada en datos para la eficiencia y revela el potencial de impulsar a los LLMs a pensar más como un ser humano para mejorar la calidad de las respuestas.
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) es una técnica para entrenar sistemas de IA con el fin de alinearlos con los objetivos humanos. RLHF ha surgido como el método central utilizado para ajustar modelos de lenguaje de última generación (LLMs). A pesar de su popularidad, ha habido relativamente poco trabajo público que sistematice sus defectos. En este artículo, (1) examinamos problemas abiertos y limitaciones fundamentales de RLHF y métodos relacionados; (2) presentamos una visión general de técnicas para comprender, mejorar y complementar RLHF en la práctica; y (3) proponemos estándares de auditoría y divulgación para mejorar la supervisión social de los sistemas RLHF. Nuestro trabajo enfatiza las limitaciones de RLHF y destaca la importancia de un enfoque multifacético para el desarrollo de sistemas de IA más seguros.
La medicina, por su naturaleza, es un dominio multifacético que requiere la síntesis de información a través de diversas modalidades. Los modelos generativos de visión y lenguaje (VLMs) en medicina dan un primer paso en esta dirección y prometen muchas aplicaciones clínicas emocionantes. Sin embargo, los modelos existentes generalmente deben ajustarse en conjuntos de datos considerables de tareas específicas, lo que representa una limitación significativa, ya que en muchas aplicaciones médicas los datos son escasos, lo que exige modelos capaces de aprender a partir de pocos ejemplos en tiempo real. Aquí proponemos Med-Flamingo, un aprendiz multimodal de pocos ejemplos adaptado al dominio médico. Basado en OpenFlamingo-9B, continuamos el preentrenamiento con datos de imágenes y texto médico emparejados e intercalados provenientes de publicaciones y libros de texto. Med-Flamingo desbloquea habilidades generativas de respuesta a preguntas visuales (VQA) médicas con pocos ejemplos, las cuales evaluamos en varios conjuntos de datos, incluyendo un nuevo y desafiante conjunto de datos de preguntas abiertas de estilo USMLE. Además, realizamos la primera evaluación humana para VQA médica generativa, donde los médicos revisan los problemas y las respuestas generadas de manera ciega en una aplicación interactiva. Med-Flamingo mejora el rendimiento en VQA médica generativa hasta en un 20\% según la calificación de los clínicos y, por primera vez, permite adaptaciones médicas multimodales con pocos ejemplos, como la generación de razonamientos. Publicamos nuestro modelo, código y aplicación de evaluación en https://github.com/snap-stanford/med-flamingo.
En un espacio conjunto de visión y lenguaje, una característica de texto (por ejemplo, de "una foto de un perro") podría representar efectivamente sus características de imagen relevantes (por ejemplo, de fotos de perros). Inspirados por esto, proponemos PromptStyler, que simula varios cambios de distribución en el espacio conjunto mediante la síntesis de diversos estilos a través de prompts, sin utilizar ninguna imagen, para abordar la generalización de dominio sin fuente. Nuestro método aprende a generar una variedad de características de estilo (de "un estilo S* de un") mediante vectores de palabras de estilo aprendibles para pseudo-palabras S*. Para asegurar que los estilos aprendidos no distorsionen la información de contenido, forzamos a que las características de estilo-contenido (de "un estilo S* de un [clase]") se ubiquen cerca de sus características de contenido correspondientes (de "[clase]") en el espacio conjunto de visión y lenguaje. Después de aprender los vectores de palabras de estilo, entrenamos un clasificador lineal utilizando características de estilo-contenido sintetizadas. PromptStyler logra el estado del arte en PACS, VLCS, OfficeHome y DomainNet, aunque no requiere ninguna imagen y toma solo ~30 minutos para el entrenamiento utilizando una sola GPU.
Proponemos una metodología para incrustar marcas de agua en texto generado por un modelo de lenguaje autorregresivo que sean robustas a perturbaciones sin alterar la distribución del texto hasta un cierto presupuesto máximo de generación. Generamos texto con marca de agua mapeando una secuencia de números aleatorios —que calculamos utilizando una clave de marca de agua aleatoria— a una muestra del modelo de lenguaje. Para detectar texto con marca de agua, cualquier parte que conozca la clave puede alinear el texto con la secuencia de números aleatorios. Implementamos nuestra metodología de marca de agua con dos esquemas de muestreo: muestreo por transformación inversa y muestreo mínimo exponencial. Aplicamos estas marcas de agua a tres modelos de lenguaje —OPT-1.3B, LLaMA-7B y Alpaca-7B— para validar experimentalmente su poder estadístico y robustez frente a diversos ataques de paráfrasis. En particular, para los modelos OPT-1.3B y LLaMA-7B, encontramos que podemos detectar de manera confiable texto con marca de agua (p ≤ 0.01) a partir de 35 tokens, incluso después de corromper entre el 40-50% de los tokens mediante ediciones aleatorias (es decir, sustituciones, inserciones o eliminaciones). Para el modelo Alpaca-7B, realizamos un estudio de caso sobre la viabilidad de marcar respuestas a instrucciones típicas de usuario. Debido a la menor entropía de las respuestas, la detección es más difícil: alrededor del 25% de las respuestas —cuya longitud mediana es de aproximadamente 100 tokens— son detectables con p ≤ 0.01, y la marca de agua también es menos robusta frente a ciertos ataques de paráfrasis automatizados que implementamos.
El ajuste por instrucciones ha surgido como un enfoque prometedor para mejorar los modelos de lenguaje grandes en el seguimiento de instrucciones humanas. Se ha demostrado que aumentar la diversidad y el número de instrucciones en los datos de entrenamiento puede mejorar consistentemente el rendimiento de generalización, lo que facilita un esfuerzo reciente para recopilar diversas instrucciones e integrar conjuntos de datos existentes de ajuste por instrucciones en colecciones más grandes. Sin embargo, diferentes usuarios tienen formas únicas de expresar instrucciones, y a menudo existen variaciones entre los distintos conjuntos de datos en los estilos y formatos de las instrucciones, es decir, inconsistencia de formato. En este trabajo, estudiamos cómo la inconsistencia de formato puede afectar el rendimiento del ajuste por instrucciones. Proponemos un marco llamado "Ajuste por Instrucciones Unificado" (UIT, por sus siglas en inglés), que utiliza las API de OpenAI para la transferencia automática de formato entre diferentes conjuntos de datos de ajuste por instrucciones. Demostramos que UIT mejora con éxito el rendimiento de generalización en instrucciones no vistas, lo que resalta la importancia de la consistencia de formato para el ajuste por instrucciones. Para hacer que el marco UIT sea más práctico, proponemos además un novedoso método de eliminación de ruido basado en perplejidad para reducir el ruido de la transferencia automática de formato. También entrenamos un modelo más pequeño y fuera de línea que logra una capacidad de transferencia de formato comparable a las API de OpenAI, con el fin de reducir costos en la práctica.
Con la popularidad de las representaciones neuronales implícitas, o campos de radiancia neuronal (NeRF), existe una necesidad urgente de métodos de edición para interactuar con los modelos 3D implícitos en tareas como el posprocesamiento de escenas reconstruidas y la creación de contenido 3D. Si bien trabajos anteriores han explorado la edición de NeRF desde diversas perspectivas, están limitados en flexibilidad, calidad y velocidad de edición, sin ofrecer una respuesta directa a las modificaciones ni una vista previa instantánea. El desafío clave es concebir una representación neuronal editable localmente que pueda reflejar directamente las instrucciones de edición y actualizarse al instante. Para cerrar esta brecha, proponemos un nuevo método y sistema de edición interactiva para representaciones implícitas, llamado Seal-3D, que permite a los usuarios editar modelos NeRF de manera libre y a nivel de píxel utilizando una amplia gama de arquitecturas similares a NeRF, y previsualizar los efectos de la edición de forma instantánea. Para lograr estos efectos, abordamos los desafíos mediante una función proxy propuesta que mapea las instrucciones de edición al espacio original de los modelos NeRF, junto con una estrategia de entrenamiento de tipo maestro-estudiante que combina preentrenamiento local y ajuste fino global. Se ha construido un sistema de edición de NeRF para demostrar diversos tipos de edición. Nuestro sistema puede lograr efectos de edición convincentes con una velocidad interactiva de aproximadamente 1 segundo.