Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos un método escalable para construir un modelo de lenguaje de alta calidad que siga instrucciones, mediante el etiquetado automático de textos escritos por humanos con las instrucciones correspondientes. Nuestro enfoque, denominado retro-traducción de instrucciones, comienza con un modelo de lenguaje ajustado en una pequeña cantidad de datos iniciales y un corpus web dado. El modelo inicial se utiliza para construir ejemplos de entrenamiento generando indicaciones de instrucciones para documentos web (auto-aumento), y luego seleccionando ejemplos de alta calidad entre estos candidatos (auto-curación). Estos datos se utilizan luego para ajustar un modelo más potente. Al ajustar LLaMa en dos iteraciones de nuestro enfoque, se obtiene un modelo que supera a todos los demás modelos basados en LLaMa en el ranking de Alpaca sin depender de datos de destilación, demostrando una auto-alineación altamente efectiva.
Con el surgimiento de modelos de lenguaje cada vez más potentes, existe un creciente interés en aprovechar estos modelos para aplicaciones de conversación casual y juegos de rol. Sin embargo, los conjuntos de datos existentes para conversaciones y juegos de rol a menudo no logran capturar las interacciones diversas y matizadas que suelen exhibir los participantes de juegos de rol en el mundo real. Para abordar esta limitación y contribuir a este campo en rápido crecimiento, presentamos un conjunto de datos parcialmente sintético llamado PIPPA (Pares de Interacción Personal entre Personas e IA). PIPPA es el resultado de un esfuerzo de crowdsourcing impulsado por la comunidad que involucra a un grupo de entusiastas de los juegos de rol. El conjunto de datos comprende más de 1 millón de enunciados distribuidos en 26,000 sesiones de conversación y ofrece un recurso valioso para que investigadores y desarrolladores de IA exploren y perfeccionen sistemas de IA conversacional en el contexto de escenarios de juegos de rol.
Entrenar redes neuronales de última generación conlleva un alto costo en términos de computación y tiempo. Se reconoce que la escala del modelo es un factor crítico para alcanzar y mejorar el estado del arte. Aumentar la escala de una red neuronal normalmente requiere comenzar desde cero, inicializando aleatoriamente todos los parámetros del modelo, ya que esto implica un cambio en los parámetros de la arquitectura que no permite una transferencia directa de conocimiento desde modelos de menor tamaño. En este trabajo, proponemos seis transformaciones componibles para incrementar gradualmente el tamaño de redes neuronales basadas en transformadores mientras se preserva su funcionalidad, permitiendo expandir la capacidad del modelo según sea necesario. Proporcionamos pruebas de preservación exacta de la función bajo restricciones mínimas de inicialización para cada transformación. Los métodos propuestos podrían habilitar flujos de entrenamiento eficientes para modelos más grandes y potentes al expandir progresivamente la arquitectura durante el entrenamiento.
Los enormes éxitos de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) fomentan la exploración emergente de Agentes Autónomos Aumentados con LLMs (LAAs, por sus siglas en inglés). Un LAA es capaz de generar acciones mediante su LLM central e interactuar con entornos, lo que facilita la capacidad de resolver tareas complejas al condicionarse en interacciones pasadas, como observaciones y acciones. Dado que la investigación sobre los LAAs es aún muy reciente, existen exploraciones limitadas. Por lo tanto, ofrecemos una comparación exhaustiva de los LAAs en términos tanto de arquitecturas de agentes como de modelos de lenguaje subyacentes. Además, proponemos una nueva estrategia para orquestar múltiples LAAs, de modo que cada LAA se enfoque en un tipo de acción específico, es decir, BOLAA, donde un controlador gestiona la comunicación entre múltiples agentes. Realizamos simulaciones en entornos tanto de toma de decisiones como de razonamiento de múltiples pasos, lo que justifica de manera integral la capacidad de los LAAs. Nuestros resultados de rendimiento ofrecen sugerencias cuantitativas para el diseño de arquitecturas de LAAs y la elección óptima de LLMs, así como la compatibilidad de ambos. Publicamos nuestro código de implementación de LAAs en https://github.com/salesforce/BOLAA.
El último año ha sido testigo de un progreso asombroso en la generación de imágenes basadas en texto, fundamentado en la idea de un espacio de representación multimodal en el que los dominios de texto e imagen se representan de manera conjunta. En el reconocimiento automático del habla (ASR), esta idea ha encontrado aplicación en codificadores conjuntos de habla y texto que pueden escalar a las capacidades de modelos con un número muy grande de parámetros al ser entrenados tanto con habla como con texto no emparejados. Aunque estos métodos muestran potencial, han requerido un tratamiento especial del desajuste inherente en la longitud de secuencias entre el habla y el texto, ya sea mediante heurísticas de sobremuestreo o un modelo de alineación explícito. En este trabajo, presentamos evidencia de que los codificadores conjuntos de habla y texto logran naturalmente representaciones consistentes entre modalidades al ignorar la longitud de las secuencias, y argumentamos que las funciones de pérdida de consistencia podrían perdonar las diferencias de longitud y simplemente asumir la mejor alineación. Demostramos que dicha función de pérdida mejora la tasa de error de palabras (WER) en sistemas tanto monolingües como multilingües con un gran número de parámetros.
El análisis de topologías de red y grafos de comunicación desempeña un papel crucial en la gestión de redes contemporánea. Sin embargo, la ausencia de un enfoque cohesivo conlleva una curva de aprendizaje desafiante, un aumento de errores e ineficiencias. En este artículo, presentamos un enfoque novedoso para facilitar una experiencia de gestión de redes basada en lenguaje natural, utilizando modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para generar código específico para tareas a partir de consultas en lenguaje natural. Este método aborda los desafíos de explicabilidad, escalabilidad y privacidad al permitir que los operadores de red inspeccionen el código generado, eliminando la necesidad de compartir datos de red con los LLMs y centrándose en solicitudes específicas de aplicaciones combinadas con técnicas generales de síntesis de programas. Diseñamos y evaluamos un sistema prototipo utilizando aplicaciones de referencia, demostrando alta precisión, rentabilidad y el potencial para mejoras adicionales mediante el uso de técnicas complementarias de síntesis de programas.