Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos um método escalável para construir um modelo de linguagem de alta qualidade que segue instruções, rotulando automaticamente textos escritos por humanos com as instruções correspondentes. Nossa abordagem, denominada retro-tradução de instruções, começa com um modelo de linguagem ajustado em uma pequena quantidade de dados iniciais e um corpus da web fornecido. O modelo inicial é usado para construir exemplos de treinamento gerando prompts de instrução para documentos da web (auto-aumento) e, em seguida, selecionando exemplos de alta qualidade entre esses candidatos (auto-curadoria). Esses dados são então usados para ajustar um modelo mais robusto. O ajuste fino do LLaMa em duas iterações da nossa abordagem resulta em um modelo que supera todos os outros modelos baseados em LLaMa no ranking Alpaca que não dependem de dados de destilação, demonstrando um auto-alinhamento altamente eficaz.
Com o surgimento de modelos de linguagem cada vez mais poderosos, há um crescente interesse em aproveitar esses modelos para aplicações de conversação casual e role-play. No entanto, os conjuntos de dados existentes para conversação e role-play frequentemente não capturam as interações diversas e nuances típicas exibidas por participantes de role-play no mundo real. Para abordar essa limitação e contribuir para o campo em rápido crescimento, introduzimos um conjunto de dados parcialmente sintético chamado PIPPA (Personal Interaction Pairs between People and AI). O PIPPA é resultado de um esforço colaborativo de crowdsourcing envolvendo um grupo de entusiastas de role-play. O conjunto de dados compreende mais de 1 milhão de enunciados, distribuídos em 26.000 sessões de conversação, e oferece um recurso valioso para pesquisadores e desenvolvedores de IA explorarem e refinarem sistemas de IA conversacional no contexto de cenários de role-play.
O treinamento de redes neurais de última geração exige um alto custo em termos de computação e tempo. A escala do modelo é reconhecida como um fator crítico para alcançar e melhorar o estado da arte. Aumentar a escala de uma rede neural normalmente requer reiniciar do zero, inicializando aleatoriamente todos os parâmetros do modelo, pois isso implica uma mudança nos parâmetros da arquitetura que não permite uma transferência direta de conhecimento de modelos menores. Neste trabalho, propomos seis transformações combináveis para aumentar incrementalmente o tamanho de redes neurais baseadas em transformadores, preservando a funcionalidade e permitindo expandir a capacidade do modelo conforme necessário. Fornecemos provas de preservação exata da função sob restrições mínimas de inicialização para cada transformação. Os métodos propostos podem permitir pipelines de treinamento eficientes para modelos maiores e mais poderosos, expandindo progressivamente a arquitetura ao longo do treinamento.
Os grandes sucessos dos modelos de linguagem de grande escala (LLMs) incentivam a exploração emergente de Agentes Autônomos Aumentados por LLMs (LAAs). Um LAA é capaz de gerar ações com seu LLM central e interagir com ambientes, o que facilita a capacidade de resolver tarefas complexas ao se condicionar a interações passadas, como observações e ações. Como a investigação de LAAs ainda é muito recente, há explorações limitadas disponíveis. Portanto, fornecemos uma comparação abrangente de LAAs em termos de arquiteturas de agentes e modelos de LLM. Além disso, propomos uma nova estratégia para orquestrar múltiplos LAAs, de modo que cada LAA de trabalho se concentre em um tipo de ação, ou seja, BOLAA, onde um controlador gerencia a comunicação entre múltiplos agentes. Realizamos simulações em ambientes de tomada de decisão e raciocínio de múltiplos passos, que justificam de forma abrangente a capacidade dos LAAs. Nossos resultados de desempenho fornecem sugestões quantitativas para o design de arquiteturas de LAAs e a escolha ideal de LLMs, bem como a compatibilidade de ambos. Disponibilizamos nosso código de implementação de LAAs publicamente em https://github.com/salesforce/BOLAA.
O último ano testemunhou um progresso surpreendente na geração de imagens a partir de prompts de texto, baseada na ideia de um espaço de representação multimodal em que os domínios de texto e imagem são representados de forma conjunta. No reconhecimento automático de fala (ASR), essa ideia encontrou aplicação como codificadores conjuntos de fala e texto, que podem escalar para as capacidades de modelos com um número muito grande de parâmetros ao serem treinados tanto com fala quanto com texto não pareados. Embora esses métodos mostrem potencial, eles têm exigido um tratamento especial para a incompatibilidade inerente no comprimento das sequências de fala e texto, seja por meio de heurísticas de superamostragem ou de um modelo explícito de alinhamento. Neste trabalho, apresentamos evidências de que codificadores conjuntos de fala e texto naturalmente alcançam representações consistentes entre modalidades ao desconsiderar o comprimento da sequência, e argumentamos que perdas de consistência poderiam perdoar as diferenças de comprimento e simplesmente assumir o melhor alinhamento. Mostramos que tal perda melhora a taxa de erro de palavras (WER) em sistemas monolíngues e multilíngues com grande número de parâmetros.
A análise de topologias de rede e grafos de comunicação desempenha um papel crucial na gestão de redes contemporânea. No entanto, a ausência de uma abordagem coesa resulta em uma curva de aprendizado desafiadora, aumento de erros e ineficiências. Neste artigo, introduzimos uma nova abordagem para facilitar uma experiência de gerenciamento de rede baseada em linguagem natural, utilizando modelos de linguagem de grande escala (LLMs) para gerar código específico para tarefas a partir de consultas em linguagem natural. Este método aborda os desafios de explicabilidade, escalabilidade e privacidade, permitindo que operadores de rede inspecionem o código gerado, eliminando a necessidade de compartilhar dados da rede com LLMs e concentrando-se em solicitações específicas de aplicações combinadas com técnicas gerais de síntese de programas. Projetamos e avaliamos um sistema protótipo utilizando aplicações de referência, demonstrando alta precisão, custo-efetividade e o potencial para aprimoramentos adicionais com o uso de técnicas complementares de síntese de programas.