Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje realmente solo necesitan usar una fracción exponencial de sus neuronas para inferencias individuales. Como prueba, presentamos FastBERT, una variante de BERT que utiliza el 0.3\% de sus neuronas durante la inferencia mientras ofrece un rendimiento comparable a modelos BERT similares. FastBERT activa selectivamente solo 12 de 4095 neuronas para cada inferencia de capa. Esto se logra reemplazando las redes feedforward con redes feedforward rápidas (FFFs). Aunque actualmente no existe una implementación verdaderamente eficiente que desbloquee todo el potencial de aceleración de la ejecución neuronal condicional, proporcionamos código de alto nivel para CPU que logra una aceleración de 78x sobre la implementación optimizada de referencia feedforward, y una implementación en PyTorch que ofrece una aceleración de 40x sobre la inferencia feedforward equivalente por lotes. Publicamos nuestro código de entrenamiento, configuración de evaluación y pesos del modelo.
Orca 1 aprende a partir de señales enriquecidas, como trazas de explicación, lo que le permite superar a los modelos convencionales ajustados por instrucciones en benchmarks como BigBench Hard y AGIEval. En Orca 2, continuamos explorando cómo las señales de entrenamiento mejoradas pueden potenciar las habilidades de razonamiento de modelos de lenguaje (LM) más pequeños. La investigación sobre el entrenamiento de LM pequeños a menudo se ha basado en el aprendizaje por imitación para replicar la salida de modelos más capaces. Sostenemos que un énfasis excesivo en la imitación puede limitar el potencial de los modelos más pequeños. Buscamos enseñar a los LM pequeños a emplear diferentes estrategias de solución para distintas tareas, potencialmente diferentes a las utilizadas por el modelo más grande. Por ejemplo, mientras que los modelos más grandes podrían proporcionar una respuesta directa a una tarea compleja, los modelos más pequeños podrían no tener la misma capacidad. En Orca 2, enseñamos al modelo diversas técnicas de razonamiento (paso a paso, recordar y luego generar, recordar-razonar-generar, respuesta directa, etc.). Más crucialmente, buscamos ayudar al modelo a aprender a determinar la estrategia de solución más efectiva para cada tarea. Evaluamos Orca 2 utilizando un conjunto integral de 15 benchmarks diversos (correspondientes a aproximadamente 100 tareas y más de 36,000 prompts únicos). Orca 2 supera significativamente a modelos de tamaño similar y alcanza niveles de rendimiento similares o mejores a los de modelos 5-10 veces más grandes, según se evalúa en tareas complejas que prueban habilidades avanzadas de razonamiento en entornos de zero-shot. Hemos liberado el código de Orca 2 para fomentar más investigación sobre el desarrollo, evaluación y alineación de LM más pequeños.
La creación de videos de alto dinamismo, como acciones ricas en movimiento y efectos visuales sofisticados, representa un desafío significativo en el campo de la inteligencia artificial. Lamentablemente, los métodos actuales más avanzados de generación de videos, que se centran principalmente en la generación de texto a video, tienden a producir clips con movimientos mínimos a pesar de mantener una alta fidelidad. Argumentamos que confiar únicamente en instrucciones de texto es insuficiente y subóptimo para la generación de videos. En este artículo, presentamos PixelDance, un enfoque novedoso basado en modelos de difusión que incorpora instrucciones de imagen tanto para el primer como para el último fotograma, junto con instrucciones de texto para la generación de videos. Los resultados experimentales exhaustivos demuestran que PixelDance, entrenado con datos públicos, exhibe una capacidad significativamente mejor para sintetizar videos con escenas complejas y movimientos intrincados, estableciendo un nuevo estándar en la generación de videos.
La atención suave en los modelos de lenguaje de gran escala (LLMs) basados en Transformers es propensa a incorporar información irrelevante del contexto en sus representaciones latentes, lo que afecta negativamente la generación de los siguientes tokens. Para ayudar a corregir estos problemas, presentamos System 2 Attention (S2A), que aprovecha la capacidad de los LLMs para razonar en lenguaje natural y seguir instrucciones con el fin de decidir a qué prestar atención. S2A regenera el contexto de entrada para incluir únicamente las porciones relevantes, antes de atender al contexto regenerado para obtener la respuesta final. En experimentos, S2A supera a los LLMs basados en atención estándar en tres tareas que contienen opiniones o información irrelevante: preguntas y respuestas, problemas de matemáticas verbales y generación de texto extenso, donde S2A aumenta la factualidad y la objetividad, y reduce la adulación.
LoRA logra una eficiencia de recursos notable y un rendimiento comparable al adaptar LLMs para tareas específicas. Desde que ChatGPT demostró un rendimiento superior en diversas tareas, ha crecido el deseo de adaptar un solo modelo para todas las tareas. Sin embargo, el rango bajo explícito de LoRA limita el rendimiento de adaptación en escenarios complejos de múltiples tareas. LoRA está dominado por un pequeño número de vectores singulares principales, mientras que el ajuste fino se descompone en un conjunto de transformaciones unitarias menos importantes. En este artículo, proponemos MultiLoRA para una mejor adaptación multi-tarea al reducir el dominio de los vectores singulares principales observado en LoRA. MultiLoRA escala los módulos de LoRA horizontalmente y cambia la inicialización de parámetros de las matrices de adaptación para reducir la dependencia de parámetros, lo que produce subespacios unitarios más equilibrados. Sin precedentes, construimos datos de entrenamiento especializados mezclando conjuntos de datos de seguimiento de instrucciones, comprensión del lenguaje natural y conocimiento del mundo, para cubrir muestras semántica y sintácticamente diferentes. Con solo un 2.5% de parámetros adicionales, MultiLoRA supera a las contrapartes de LoRA única y al ajuste fino en múltiples benchmarks y escalas de modelos. Una investigación más profunda sobre las matrices de actualización de pesos de MultiLoRA muestra una menor dependencia de los vectores singulares principales y contribuciones más democráticas de las transformaciones unitarias.
Presentamos GPQA, un conjunto de datos desafiante de 448 preguntas de opción múltiple elaboradas por expertos en biología, física y química. Nos aseguramos de que las preguntas sean de alta calidad y extremadamente difíciles: expertos que tienen o están cursando doctorados en los dominios correspondientes alcanzan un 65% de precisión (74% al descartar errores claros que los expertos identificaron retrospectivamente), mientras que validadores altamente capacitados pero no expertos solo alcanzan un 34% de precisión, a pesar de dedicar en promedio más de 30 minutos con acceso ilimitado a la web (es decir, las preguntas son "a prueba de Google"). Las preguntas también son difíciles para los sistemas de IA de vanguardia, con nuestra línea de base más fuerte basada en GPT-4 logrando un 39% de precisión. Si queremos utilizar futuros sistemas de IA para ayudarnos a responder preguntas muy difíciles, por ejemplo, al desarrollar nuevos conocimientos científicos, necesitamos desarrollar métodos de supervisión escalables que permitan a los humanos supervisar sus resultados, lo cual puede ser difícil incluso si los supervisores son expertos y conocedores. La dificultad de GPQA tanto para no expertos capacitados como para sistemas de IA de frontera debería permitir experimentos realistas de supervisión escalable, lo que esperamos pueda ayudar a idear formas para que los expertos humanos obtengan información veraz de manera confiable de sistemas de IA que superan las capacidades humanas.
Presentamos Adapters, una biblioteca de código abierto que unifica el aprendizaje transferible eficiente en parámetros y modular en modelos de lenguaje a gran escala. Al integrar 10 métodos diversos de adaptadores en una interfaz unificada, Adapters ofrece facilidad de uso y configuración flexible. Nuestra biblioteca permite a investigadores y profesionales aprovechar la modularidad de los adaptadores mediante bloques de composición, posibilitando el diseño de configuraciones complejas de adaptadores. Demostramos la eficacia de la biblioteca evaluando su rendimiento frente al ajuste fino completo en diversas tareas de PLN. Adapters proporciona una herramienta poderosa para abordar los desafíos de los paradigmas convencionales de ajuste fino y promover un aprendizaje transferible más eficiente y modular. La biblioteca está disponible en https://adapterhub.ml/adapters.
Presentamos Style Tailoring, una metodología para ajustar finamente Modelos de Difusión Latente (LDMs) en un dominio específico con alta calidad visual, alineación de indicaciones y diversidad de escenas. Elegimos la generación de imágenes de pegatinas como el dominio objetivo, ya que estas imágenes difieren significativamente de las muestras fotorrealistas típicamente generadas por LDMs a gran escala. Comenzamos con un modelo competente de texto a imagen, como Emu, y demostramos que depender de la ingeniería de indicaciones con un modelo fotorrealista para generar pegatinas resulta en una pobre alineación de indicaciones y diversidad de escenas. Para superar estos inconvenientes, primero ajustamos finamente Emu en millones de imágenes similares a pegatinas recolectadas utilizando supervisión débil para fomentar la diversidad. Luego, seleccionamos conjuntos de datos de Alineación y Estilo con intervención humana (HITL) a partir de generaciones del modelo, y ajustamos finamente para mejorar la alineación de indicaciones y la alineación de estilo, respectivamente. El ajuste secuencial en estos conjuntos de datos presenta un equilibrio entre una mejor alineación de estilo y las ganancias en alineación de indicaciones. Para abordar este equilibrio, proponemos un nuevo método de ajuste fino llamado Style Tailoring, que ajusta conjuntamente la distribución de contenido y estilo y logra el mejor equilibrio. Los resultados de evaluación muestran que nuestro método mejora la calidad visual en un 14%, la alineación de indicaciones en un 16.2% y la diversidad de escenas en un 15.3%, en comparación con la ingeniería de indicaciones en el modelo base Emu para la generación de pegatinas.
Los recientes avances en la generación de texto a 3D marcan un hito significativo en los modelos generativos, desbloqueando nuevas posibilidades para la creación de activos 3D imaginativos en diversos escenarios del mundo real. Aunque los avances recientes en la generación de texto a 3D han mostrado promesa, a menudo se quedan cortos en la representación de modelos 3D detallados y de alta calidad. Este problema es especialmente prevalente, ya que muchos métodos se basan en el Muestreo de Distilación de Puntajes (SDS, por sus siglas en inglés). Este artículo identifica una deficiencia notable en el SDS: proporciona una dirección de actualización inconsistente y de baja calidad para el modelo 3D, lo que provoca un efecto de sobresuavizado. Para abordar este problema, proponemos un enfoque novedoso llamado Emparejamiento de Puntajes por Intervalos (ISM, por sus siglas en inglés). El ISM emplea trayectorias de difusión deterministas y utiliza un emparejamiento de puntajes basado en intervalos para contrarrestar el sobresuavizado. Además, incorporamos el Splatting Gaussiano 3D en nuestra canalización de generación de texto a 3D. Experimentos exhaustivos demuestran que nuestro modelo supera ampliamente al estado del arte en calidad y eficiencia de entrenamiento.
Ampliar el número de parámetros de los modelos de lenguaje ha demostrado ser un enfoque efectivo para mejorar el rendimiento. En los modelos densos, aumentar el tamaño del modelo incrementa proporcionalmente la huella computacional. En este trabajo, buscamos desacoplar de manera agresiva la capacidad de aprendizaje y los FLOPs mediante modelos de tipo Mezcla de Expertos (MoE) con funciones de enrutamiento basadas en un vocabulario amplio y rico en conocimiento, junto con expertos. Nuestro enfoque propuesto, denominado Mezcla de Expertos de Palabras (MoWE), puede verse como un modelo aumentado con memoria, donde un gran conjunto de expertos específicos para palabras desempeña el papel de una memoria dispersa. Demostramos que MoWE supera significativamente a la familia de modelos T5 con un número similar de FLOPs en una variedad de tareas de PLN. Además, MoWE supera a los modelos MoE regulares en tareas intensivas en conocimiento y tiene un rendimiento similar a enfoques más complejos aumentados con memoria que a menudo requieren invocar mecanismos personalizados para buscar en la memoria dispersa.
La visualización de historias tiene como objetivo generar una serie de imágenes que coincidan con la historia descrita en textos, y requiere que las imágenes generadas cumplan con altos estándares de calidad, alineación con la descripción textual y consistencia en las identidades de los personajes. Dada la complejidad de la visualización de historias, los métodos existentes simplifican drásticamente el problema al considerar solo unos pocos personajes y escenarios específicos, o al requerir que los usuarios proporcionen condiciones de control por imagen, como bocetos. Sin embargo, estas simplificaciones hacen que estos métodos sean inadecuados para aplicaciones reales. Con este fin, proponemos un sistema automatizado de visualización de historias que puede generar de manera efectiva conjuntos de imágenes de historias diversas, de alta calidad y consistentes, con interacciones humanas mínimas. Específicamente, utilizamos las capacidades de comprensión y planificación de los modelos de lenguaje de gran escala para la planificación del diseño, y luego aprovechamos los modelos de texto a imagen a gran escala para generar imágenes sofisticadas de la historia basadas en el diseño. Empíricamente, encontramos que las condiciones de control dispersas, como los cuadros delimitadores, son adecuadas para la planificación del diseño, mientras que las condiciones de control densas, como bocetos y puntos clave, son adecuadas para generar contenido de imagen de alta calidad. Para obtener lo mejor de ambos mundos, diseñamos un módulo de generación de condiciones densas para transformar diseños simples de cuadros delimitadores en condiciones de control de bocetos o puntos clave para la generación final de imágenes, lo que no solo mejora la calidad de la imagen, sino que también permite interacciones fáciles e intuitivas con el usuario. Además, proponemos un método simple pero efectivo para generar imágenes de personajes consistentes en múltiples vistas, eliminando la dependencia del trabajo humano para recopilar o dibujar imágenes de personajes.
Desde las antiguas ruedas hidráulicas hasta la automatización robótica de procesos (RPA), la tecnología de automatización ha evolucionado a lo largo de la historia para liberar a los seres humanos de tareas arduas. Sin embargo, la RPA enfrenta dificultades con tareas que requieren inteligencia similar a la humana, especialmente en el diseño elaborado de la construcción de flujos de trabajo y la toma de decisiones dinámica durante la ejecución de dichos flujos. A medida que los Modelos de Lenguaje de Gran Escala (LLMs) han desarrollado una inteligencia similar a la humana, este artículo presenta la Automatización de Procesos Agéntica (APA), un paradigma revolucionario de automatización que utiliza agentes basados en LLMs para lograr una automatización avanzada, delegando el trabajo humano a agentes asociados con la construcción y ejecución. Luego, instanciamos ProAgent, un agente basado en LLMs diseñado para crear flujos de trabajo a partir de instrucciones humanas y tomar decisiones complejas coordinando agentes especializados. Se realizan experimentos empíricos para detallar su procedimiento de construcción y ejecución de flujos de trabajo, demostrando la viabilidad de APA y revelando la posibilidad de un nuevo paradigma de automatización impulsado por agentes. Nuestro código está disponible públicamente en https://github.com/OpenBMB/ProAgent.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado competencia en abordar tareas que requieren una combinación de planificación de tareas y el uso de herramientas externas, como APIs. Sin embargo, los sistemas complejos del mundo real presentan tres desafíos prevalentes en relación con la planificación de tareas y el uso de herramientas: (1) El sistema real suele tener una amplia variedad de APIs, por lo que es imposible incluir las descripciones de todas ellas en el prompt de los LLMs debido a la limitación en la longitud de tokens; (2) el sistema real está diseñado para manejar tareas complejas, y los LLMs base difícilmente pueden planificar un orden correcto de subtareas y llamadas a APIs para tales tareas; (3) La similitud semántica y funcional entre las APIs en los sistemas reales crea desafíos tanto para los LLMs como incluso para los humanos al distinguirlas. En respuesta, este artículo introduce un marco integral destinado a mejorar las capacidades de Planificación de Tareas y Uso de Herramientas (TPTU, por sus siglas en inglés) de los agentes basados en LLMs que operan en sistemas del mundo real. Nuestro marco consta de tres componentes clave diseñados para abordar estos desafíos: (1) el Recuperador de APIs selecciona las APIs más relevantes para la tarea del usuario entre la amplia gama disponible; (2) el Ajustador de LLMs ajusta un LLM base para que el LLM ajustado sea más competente en la planificación de tareas y llamadas a APIs; (3) el Selector de Demostraciones recupera de manera adaptativa diferentes demostraciones relacionadas con APIs difíciles de distinguir, las cuales se utilizan para el aprendizaje en contexto y mejorar el rendimiento final. Validamos nuestros métodos utilizando un sistema comercial del mundo real, así como un conjunto de datos académico de código abierto, y los resultados muestran claramente la eficacia de cada componente individual, así como del marco integrado.
Presentamos una canalización que mejora un Modelo de Lenguaje Visual de propósito general, GPT-4V(isión), mediante la integración de observaciones de acciones humanas para facilitar la manipulación robótica. Este sistema analiza videos de humanos realizando tareas y crea programas ejecutables para robots que incorporan conocimientos sobre afordancias. El proceso comienza analizando los videos con GPT-4V para convertir los detalles ambientales y de acción en texto, seguido de un planificador de tareas potenciado por GPT-4. En los análisis posteriores, los sistemas de visión vuelven a analizar el video con el plan de tareas. Los nombres de los objetos se fundamentan utilizando un detector de objetos de vocabulario abierto, mientras que el enfoque en la relación mano-objeto ayuda a detectar el momento de agarre y liberación. Esta fundamentación espacio-temporal permite que los sistemas de visión recopilen más datos sobre afordancias (por ejemplo, tipo de agarre, puntos de referencia y posturas corporales). Los experimentos en diversos escenarios demuestran la eficacia de este método para lograr operaciones en robots reales a partir de demostraciones humanas de manera zero-shot. Los prompts de GPT-4V/GPT-4 están disponibles en la página del proyecto: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
El panorama actual de investigación que aprovecha los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) está experimentando un auge significativo. Muchos trabajos aprovechan las potentes capacidades de razonamiento de estos modelos para comprender diversas modalidades, como texto, habla, imágenes, videos, etc. También utilizan los LLMs para entender la intención humana y generar resultados deseados, como imágenes, videos y música. Sin embargo, la investigación que combina tanto la comprensión como la generación utilizando LLMs sigue siendo limitada y se encuentra en una etapa incipiente. Para abordar esta brecha, presentamos un marco de Comprensión y Generación Musical Multimodal (M^{2}UGen) que integra las capacidades de los LLMs para comprender y generar música en diferentes modalidades. El marco M^{2}UGen está diseñado específicamente para desbloquear el potencial creativo a partir de diversas fuentes de inspiración, abarcando música, imagen y video, mediante el uso de modelos preentrenados como MERT, ViT y ViViT, respectivamente. Para habilitar la generación de música, exploramos el uso de AudioLDM 2 y MusicGen. La conexión entre la comprensión multimodal y la generación musical se logra mediante la integración del modelo LLaMA 2. Además, utilizamos el modelo MU-LLaMA para generar conjuntos de datos extensos que respaldan la generación de música a partir de texto/imagen/video, facilitando el entrenamiento de nuestro marco M^{2}UGen. Realizamos una evaluación exhaustiva de nuestro marco propuesto. Los resultados experimentales demuestran que nuestro modelo alcanza o supera el rendimiento de los modelos más avanzados actualmente disponibles.