Artículos de investigación en IA seleccionados diariamente con traducciones
Existe un número creciente de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) que los usuarios pueden consultar mediante un pago. Revisamos los costos asociados con la consulta de APIs populares de LLMs, como GPT-4, ChatGPT y J1-Jumbo, y encontramos que estos modelos tienen estructuras de precios heterogéneas, con tarifas que pueden variar en dos órdenes de magnitud. En particular, el uso de LLMs en grandes colecciones de consultas y textos puede resultar costoso. Motivados por esto, delineamos y discutimos tres tipos de estrategias que los usuarios pueden aprovechar para reducir el costo de inferencia asociado con el uso de LLMs: 1) adaptación de prompts, 2) aproximación de LLMs y 3) cascada de LLMs. Como ejemplo, proponemos FrugalGPT, una instanciación simple pero flexible de la cascada de LLMs que aprende qué combinaciones de LLMs utilizar para diferentes consultas con el fin de reducir costos y mejorar la precisión. Nuestros experimentos muestran que FrugalGPT puede igualar el rendimiento del mejor LLM individual (por ejemplo, GPT-4) con una reducción de costos de hasta el 98% o mejorar la precisión sobre GPT-4 en un 4% con el mismo costo. Las ideas y hallazgos presentados aquí sientan las bases para el uso sostenible y eficiente de los LLMs.
Si bien los modelos generativos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ajustados mediante instrucciones han demostrado una capacidad impresionante para generalizar a nuevas tareas, las fases de entrenamiento dependen en gran medida de grandes cantidades de datos de instrucciones diversos y de alta calidad (como en el caso de ChatGPT y GPT-4). Desafortunadamente, la adquisición de datos de alta calidad, especialmente cuando se trata de datos escritos por humanos, puede presentar desafíos significativos tanto en términos de coste como de accesibilidad. Además, las preocupaciones relacionadas con la privacidad pueden limitar aún más el acceso a dichos datos, convirtiendo el proceso de obtención en una tarea compleja y matizada. En consecuencia, esto dificulta la generalidad de los modelos ajustados y puede restringir su eficacia en ciertos contextos. Para abordar este problema, nuestro estudio introduce un nuevo enfoque llamado Ajuste de Instrucciones Federado (FedIT, por sus siglas en inglés), que aprovecha el aprendizaje federado (FL, por sus siglas en inglés) como marco de aprendizaje para el ajuste de instrucciones de LLMs. Esto marca la primera exploración del ajuste de instrucciones basado en FL para LLMs. Esto es especialmente importante dado que los datos de texto son generados predominantemente por los usuarios finales. Por lo tanto, es imperativo diseñar y adaptar enfoques de FL para aprovechar de manera efectiva las diversas instrucciones de estos usuarios almacenadas en dispositivos locales, preservando la privacidad y garantizando la seguridad de los datos. En el presente artículo, mediante la realización de una evaluación automática ampliamente utilizada con GPT-4, demostramos que al explotar los conjuntos de instrucciones heterogéneos y diversos en el lado del cliente con el marco propuesto FedIT, mejoramos el rendimiento de los LLMs en comparación con el entrenamiento centralizado utilizando solo instrucciones locales limitadas. Además, en este artículo, desarrollamos un repositorio de Github llamado Shepherd. Este repositorio ofrece un marco fundamental para explorar el ajuste fino federado de LLMs utilizando instrucciones heterogéneas en diversas categorías.
Presentamos un marco visual interactivo llamado InternChat, o iChat para abreviar. Este marco integra chatbots con capacidades de planificación y razonamiento, como ChatGPT, con instrucciones no verbales como movimientos de apuntar que permiten a los usuarios manipular directamente imágenes o videos en la pantalla. Los movimientos de apuntar (incluyendo gestos, cursores, etc.) pueden proporcionar mayor flexibilidad y precisión en la realización de tareas centradas en la visión que requieren control detallado, edición y generación de contenido visual. El nombre InternChat representa interacción, no verbal y chatbots. A diferencia de los sistemas interactivos existentes que dependen únicamente del lenguaje, al incorporar instrucciones de apuntar, el iChat propuesto mejora significativamente la eficiencia de la comunicación entre los usuarios y los chatbots, así como la precisión de los chatbots en tareas centradas en la visión, especialmente en escenarios visuales complejos donde el número de objetos es mayor que 2. Además, en iChat, se utiliza un mecanismo de control auxiliar para mejorar la capacidad de control del LLM, y se ajusta un gran modelo de visión-lenguaje llamado Husky para diálogos multimodales de alta calidad (impresionando a ChatGPT-3.5-turbo con un 93.89% de calidad GPT-4). Esperamos que este trabajo pueda inspirar nuevas ideas y direcciones para futuros sistemas visuales interactivos. Bienvenidos a ver el código en https://github.com/OpenGVLab/InternChat.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente un rendimiento impresionante en diversas tareas de procesamiento del lenguaje natural (NLP). Para abordar tareas de razonamiento de múltiples pasos, el enfoque de few-shot chain-of-thought (CoT) incluye algunas demostraciones manualmente elaboradas de razonamiento paso a paso, lo que permite a los LLMs generar explícitamente pasos de razonamiento y mejorar su precisión en tareas de razonamiento. Para eliminar el esfuerzo manual, Zero-shot-CoT concatena el enunciado del problema objetivo con "Pensemos paso a paso" como indicación de entrada para los LLMs. A pesar del éxito de Zero-shot-CoT, aún enfrenta tres problemas: errores de cálculo, errores de pasos faltantes y errores de malentendido semántico. Para abordar los errores de pasos faltantes, proponemos Plan-and-Solve (PS) Prompting. Este enfoque consta de dos componentes: primero, elaborar un plan para dividir la tarea completa en subtareas más pequeñas, y luego ejecutar las subtareas según el plan. Para abordar los errores de cálculo y mejorar la calidad de los pasos de razonamiento generados, extendemos PS Prompting con instrucciones más detalladas y derivamos PS+ Prompting. Evaluamos nuestra estrategia de indicación propuesta en diez conjuntos de datos que abarcan tres problemas de razonamiento. Los resultados experimentales con GPT-3 muestran que nuestra propuesta de indicación zero-shot supera consistentemente a Zero-shot-CoT en todos los conjuntos de datos por un amplio margen, es comparable o supera a Zero-shot-Program-of-Thought Prompting, y tiene un rendimiento comparable con 8-shot CoT Prompting en el problema de razonamiento matemático. El código se puede encontrar en https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
Los modelos de difusión, que han surgido como modelos populares para la generación de imágenes a partir de texto, pueden producir imágenes de alta calidad y ricas en contenido guiadas por indicaciones textuales. Sin embargo, existen limitaciones en la comprensión semántica y el razonamiento de sentido común en los modelos existentes cuando las indicaciones de entrada son narrativas concisas, lo que resulta en una generación de imágenes de baja calidad. Para mejorar las capacidades ante indicaciones narrativas, proponemos un enfoque de ajuste fino eficiente en parámetros, simple pero efectivo, llamado adaptador de Comprensión Semántica y Razonamiento (SUR-adapter) para modelos de difusión preentrenados. Para lograr este objetivo, primero recopilamos y anotamos un nuevo conjunto de datos, SURD, que consta de más de 57,000 muestras multimodales corregidas semánticamente. Cada muestra contiene una indicación narrativa simple, una indicación compleja basada en palabras clave y una imagen de alta calidad. Luego, alineamos la representación semántica de las indicaciones narrativas con las indicaciones complejas y transferimos el conocimiento de modelos de lenguaje grandes (LLMs) a nuestro SUR-adapter mediante destilación de conocimiento, para que pueda adquirir capacidades poderosas de comprensión semántica y razonamiento, construyendo así una representación semántica textual de alta calidad para la generación de imágenes a partir de texto. Realizamos experimentos integrando múltiples LLMs y modelos de difusión preentrenados populares para demostrar la efectividad de nuestro enfoque al permitir que los modelos de difusión comprendan y razonen lenguaje natural conciso sin degradación en la calidad de la imagen. Nuestro enfoque puede hacer que los modelos de difusión de texto a imagen sean más fáciles de usar con una mejor experiencia de usuario, lo que demuestra que nuestro método tiene el potencial de avanzar aún más en el desarrollo de modelos de generación de imágenes a partir de texto fáciles de usar, cerrando la brecha semántica entre indicaciones narrativas simples e indicaciones complejas basadas en palabras clave.
El ajuste de prompts (prompt tuning) es uno de los enfoques exitosos para el ajuste eficiente en parámetros de modelos de lenguaje preentrenados. A pesar de ser posiblemente el método más eficiente en términos de parámetros (los prompts ajustados constituyen <0.1% del total de parámetros), generalmente tiene un rendimiento inferior a otros métodos de ajuste eficiente y es bastante sensible a los hiperparámetros. En este trabajo, presentamos el Ajuste de Prompts Residual (Residual Prompt Tuning), un método simple y eficiente que mejora significativamente el rendimiento y la estabilidad del ajuste de prompts. Proponemos reparametrizar los embeddings de los prompts suaves utilizando una red superficial con una conexión residual. Nuestros experimentos muestran que el Ajuste de Prompts Residual supera significativamente al ajuste de prompts en el benchmark SuperGLUE. En particular, nuestro método alcanza una mejora de +7 puntos sobre el ajuste de prompts con T5-Base y permite reducir la longitud del prompt en 10 veces sin afectar el rendimiento. Además, demostramos que nuestro enfoque es robusto a la elección de la tasa de aprendizaje y la inicialización del prompt, y es efectivo en escenarios de pocos ejemplos (few-shot).
Presentamos un modelo de visión y lenguaje llamado MultiModal-GPT para llevar a cabo diálogos de múltiples turnos con humanos. MultiModal-GPT puede seguir diversas instrucciones de los usuarios, como generar descripciones detalladas, contar el número de objetos de interés y responder preguntas generales. MultiModal-GPT se ajusta de manera eficiente en parámetros a partir de OpenFlamingo, incorporando Low-rank Adapter (LoRA) tanto en la parte de atención cruzada como en la de auto-atención del modelo de lenguaje. Primero construimos plantillas de instrucciones con datos de visión y lenguaje para el ajuste de instrucciones multimodales, permitiendo que el modelo comprenda y siga las instrucciones humanas. Descubrimos que la calidad de los datos de entrenamiento es crucial para el rendimiento del diálogo, ya que pocos datos con respuestas breves pueden llevar al modelo a responder de manera concisa a cualquier instrucción. Para mejorar aún más la capacidad de MultiModal-GPT de conversar con humanos, utilizamos datos de seguimiento de instrucciones basados únicamente en lenguaje para entrenar conjuntamente el modelo. El entrenamiento conjunto de instrucciones basadas solo en lenguaje y en lenguaje visual con la misma plantilla de instrucciones mejora efectivamente el rendimiento del diálogo. Diversas demostraciones muestran la capacidad de MultiModal-GPT para mantener diálogos continuos con humanos. El código y las demostraciones están disponibles en https://github.com/open-mmlab/Multimodal-GPT.
Presentamos AvatarReX, un nuevo método para aprender avatares de cuerpo completo basados en NeRF a partir de datos de video. El avatar aprendido no solo proporciona un control expresivo del cuerpo, las manos y el rostro en conjunto, sino que también admite animación y renderizado en tiempo real. Para ello, proponemos una representación composicional del avatar, donde el cuerpo, las manos y el rostro se modelan por separado de manera que se aprovecha adecuadamente el conocimiento estructural de plantillas de mallas paramétricas sin comprometer la flexibilidad de la representación. Además, desenredamos la geometría y la apariencia de cada parte. Con estos diseños técnicos, proponemos una canalización de renderizado diferido dedicada, que puede ejecutarse a una velocidad de fotogramas en tiempo real para sintetizar imágenes de alta calidad desde cualquier ángulo. El desenredo de la geometría y la apariencia también nos permite diseñar una estrategia de entrenamiento en dos pasos que combina el renderizado volumétrico y el renderizado de superficie para el entrenamiento de la red. De esta manera, se puede aplicar supervisión a nivel de parches para obligar a la red a aprender detalles nítidos de apariencia basados en la estimación de la geometría. En general, nuestro método permite la construcción automática de avatares de cuerpo completo expresivos con capacidad de renderizado en tiempo real, y puede generar imágenes fotorrealistas con detalles dinámicos para nuevos movimientos corporales y expresiones faciales.
Los Modelos de Lenguaje de Gran Escala (LLMs) pueden alcanzar un rendimiento sólido en muchas tareas al producir razonamientos paso a paso antes de dar una salida final, un enfoque conocido como razonamiento en cadena de pensamiento (CoT, por sus siglas en inglés). Es tentador interpretar estas explicaciones CoT como el proceso que sigue el LLM para resolver una tarea. Sin embargo, encontramos que las explicaciones CoT pueden tergiversar sistemáticamente la verdadera razón detrás de la predicción del modelo. Demostramos que las explicaciones CoT pueden verse fuertemente influenciadas al agregar características sesgadas a las entradas del modelo —por ejemplo, reordenando las opciones de respuesta múltiple en un prompt de pocos ejemplos para que la respuesta sea siempre "(A)"—, algo que los modelos no mencionan sistemáticamente en sus explicaciones. Cuando sesgamos los modelos hacia respuestas incorrectas, estos frecuentemente generan explicaciones CoT que respaldan dichas respuestas. Esto provoca una caída en la precisión de hasta un 36% en un conjunto de 13 tareas de BIG-Bench Hard, al probar con GPT-3.5 de OpenAI y Claude 1.0 de Anthropic. En una tarea de sesgo social, las explicaciones del modelo justifican respuestas alineadas con estereotipos sin mencionar la influencia de estos sesgos sociales. Nuestros hallazgos indican que las explicaciones CoT pueden ser plausibles pero engañosas, lo que aumenta el riesgo de confiar en los LLMs sin garantizar su seguridad. Aunque el CoT es prometedor para la explicabilidad, nuestros resultados resaltan la necesidad de esfuerzos específicos para evaluar y mejorar la fidelidad de las explicaciones.
Los métodos existentes de Campos de Radiancia Neural (NeRF) presentan dificultades con la presencia de objetos reflectantes, lo que a menudo resulta en renderizados borrosos o distorsionados. En lugar de calcular un único campo de radiancia, proponemos un campo de radiancia neural multi-espacio (MS-NeRF) que representa la escena utilizando un grupo de campos de características en sub-espacios paralelos, lo que permite una mejor comprensión por parte de la red neuronal de la presencia de objetos reflectantes y refractantes. Nuestro esquema multi-espacio funciona como una mejora a los métodos NeRF existentes, requiriendo solo un pequeño sobrecosto computacional para entrenar e inferir las salidas de los espacios adicionales. Demostramos la superioridad y compatibilidad de nuestro enfoque utilizando tres modelos representativos basados en NeRF, es decir, NeRF, Mip-NeRF y Mip-NeRF 360. Las comparaciones se realizan en un conjunto de datos recientemente construido que consta de 25 escenas sintéticas y 7 escenas reales capturadas con reflexiones y refracciones complejas, todas con puntos de vista de 360 grados. Experimentos extensivos muestran que nuestro enfoque supera significativamente a los métodos NeRF de un solo espacio existentes para renderizar escenas de alta calidad que involucran trayectorias de luz complejas a través de objetos similares a espejos. Nuestro código y conjunto de datos estarán disponibles públicamente en https://zx-yin.github.io/msnerf.
Los modelos Transformer son fundamentales para el procesamiento del lenguaje natural (PLN) y la visión por computadora. A pesar de varios trabajos recientes dedicados a reducir el costo cuadrático de estos modelos (en función de la longitud de la secuencia n), manejar secuencias extremadamente largas de manera eficiente (por ejemplo, con más de 16K tokens) sigue siendo un desafío. Aplicaciones como responder preguntas basadas en un libro completo o resumir un artículo científico son ineficientes o inviables. En este artículo, proponemos reducir significativamente la dependencia de la complejidad de un modelo Transformer respecto a n, comprimiendo la entrada en una representación cuyo tamaño r es independiente de n en cada capa. Específicamente, al aprovechar el hecho de que en muchas tareas solo un pequeño subconjunto de tokens especiales (que llamamos VIP-tokens) son más relevantes para la predicción final, proponemos un esquema de compresión centrado en VIP-tokens (Vcc) que comprime selectivamente la secuencia de entrada según su impacto en la aproximación de la representación de estos VIP-tokens. En comparación con líneas base competitivas, el algoritmo propuesto no solo es eficiente (logrando una mejora de eficiencia de más de 3 veces en comparación con las líneas base en longitudes de 4K y 16K), sino que también alcanza un rendimiento competitivo o superior en una gran cantidad de tareas. Además, demostramos que nuestro algoritmo puede escalar a 128K tokens (o más) mientras ofrece consistentemente mejoras en la precisión.
ELECTRA, el marco de preentrenamiento generador-discriminador, ha logrado una impresionante capacidad de construcción semántica en diversas tareas posteriores. A pesar de su rendimiento convincente, ELECTRA aún enfrenta los desafíos de un entrenamiento monótono y una interacción deficiente. El generador con solo modelado de lenguaje enmascarado (MLM) conduce a un aprendizaje sesgado y a un desequilibrio de etiquetas para el discriminador, disminuyendo la eficiencia del aprendizaje; la falta de un bucle de retroalimentación explícito del discriminador al generador resulta en una brecha entre estos dos componentes, subutilizando el aprendizaje progresivo. En este estudio, se propone un método de aprendizaje progresivo multiperspectiva (MCL) para obtener múltiples grados y ángulos visuales para un preentrenamiento eficiente en muestras, y para aprovechar plenamente la relación entre el generador y el discriminador. Concretamente, se diseñan tres cursos de autosupervisión para aliviar los defectos inherentes del MLM y equilibrar las etiquetas de manera multiperspectiva. Además, se proponen dos cursos de autocorrección para cerrar la brecha entre los dos codificadores creando un "cuaderno de correcciones" para una supervisión secundaria. Además, se realiza una prueba de "sopa de cursos" para resolver el problema dinámico de "tira y afloja" del MCL, evolucionando un modelo preentrenado más fuerte. Los resultados experimentales muestran que nuestro método mejora significativamente el rendimiento promedio de ELECTRA en 2.8% y 3.2% puntos absolutos respectivamente en los benchmarks GLUE y SQuAD 2.0, y supera a los modelos avanzados recientes de estilo ELECTRA bajo las mismas configuraciones. El modelo preentrenado MCL está disponible en https://huggingface.co/McmanusChen/MCL-base.