Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm se concentrado em um pequeno número de idiomas ricos em dados. O que é necessário para ampliar o acesso a esses avanços além dos idiomas considerados de primeira classe? Nosso trabalho apresenta o Aya, um modelo de linguagem generativo massivamente multilíngue que segue instruções em 101 idiomas, dos quais mais de 50% são considerados de baixo recurso. O Aya supera o mT0 e o BLOOMZ na maioria das tarefas, enquanto cobre o dobro do número de idiomas. Introduzimos novos e extensos conjuntos de avaliação que ampliam o estado da arte para avaliação multilíngue em 99 idiomas — incluindo tarefas discriminativas e generativas, avaliação humana e taxas de vitória simuladas que abrangem tanto tarefas retidas quanto desempenho em distribuição. Além disso, conduzimos investigações detalhadas sobre a composição ideal da mistura de ajuste fino, poda de dados, bem como a toxicidade, viés e segurança de nossos modelos. Disponibilizamos publicamente nossos conjuntos de dados de instrução e nosso modelo em https://hf.co/CohereForAI/aya-101.
A interação autônoma com o computador tem sido um desafio de longa data com grande potencial, e a recente proliferação de modelos de linguagem de grande escala (LLMs) acelerou significativamente o progresso na construção de agentes digitais. No entanto, a maioria desses agentes é projetada para interagir com um domínio restrito, como um software ou site específico. Esse foco limitado restringe sua aplicabilidade para tarefas gerais de computador. Para esse fim, introduzimos o OS-Copilot, uma estrutura para construir agentes generalistas capazes de interagir com elementos abrangentes de um sistema operacional (OS), incluindo a web, terminais de código, arquivos, multimídia e diversos aplicativos de terceiros. Utilizamos o OS-Copilot para criar o FRIDAY, um agente incorporado que se autoaperfeiçoa para automatizar tarefas gerais de computador. No GAIA, um benchmark de assistentes de IA geral, o FRIDAY supera métodos anteriores em 35%, demonstrando forte generalização para aplicativos não vistos por meio de habilidades acumuladas de tarefas anteriores. Também apresentamos evidências numéricas e quantitativas de que o FRIDAY aprende a controlar e se autoaperfeiçoar no Excel e no Powerpoint com supervisão mínima. Nossa estrutura OS-Copilot e descobertas empíricas fornecem infraestrutura e insights para pesquisas futuras visando agentes de computador mais capazes e de propósito geral.
Modelos de linguagem de grande escala (LLMs) têm feito progressos impressionantes em aplicações de química, incluindo previsão de propriedades moleculares, geração molecular, design de protocolos experimentais, entre outros. No entanto, a comunidade carece de um modelo baseado em diálogo especificamente projetado para química. O desafio surge do fato de que a maioria dos dados químicos e do conhecimento científico estão principalmente armazenados em bancos de dados estruturados, e o uso direto desses dados estruturados compromete a capacidade do modelo de manter um diálogo coerente. Para enfrentar esse problema, desenvolvemos um novo método de construção de instruções baseado em templates que transforma o conhecimento estruturado em diálogos simples, tornando-o adequado para o treinamento de modelos de linguagem. Ao aproveitar essa abordagem, desenvolvemos o ChemLLM, o primeiro modelo de linguagem de grande escala dedicado à química, capaz de realizar várias tarefas em diferentes disciplinas químicas com interação de diálogo fluida. O ChemLLM supera o GPT-3.5 em todas as três principais tarefas em química, ou seja, conversão de nomes, descrição molecular e previsão de reações, e ultrapassa o GPT-4 em duas delas. Notavelmente, o ChemLLM também mostra uma adaptabilidade excepcional a tarefas relacionadas de matemática e física, apesar de ter sido treinado principalmente em corpora centrados em química. Além disso, o ChemLLM demonstra proficiência em tarefas especializadas de PLN dentro da química, como tradução de literatura e programação quimioinformática. O ChemLLM abre um novo caminho para exploração dentro dos estudos químicos, enquanto nosso método de integrar conhecimento químico estruturado em sistemas de diálogo estabelece uma nova fronteira para o desenvolvimento de LLMs em vários campos científicos. Códigos, conjuntos de dados e pesos do modelo estão publicamente acessíveis em hf.co/AI4Chem/ChemLLM-7B-Chat.
Modelos de Linguagem de Grande Escala (LLMs) baseados na arquitetura Mixture-of-Experts (MoE) estão demonstrando desempenho promissor em diversas tarefas. No entanto, executá-los em ambientes com recursos limitados, onde a memória da GPU não é abundante, é desafiador devido ao tamanho enorme dos modelos. Sistemas existentes que transferem os pesos do modelo para a memória da CPU sofrem com a sobrecarga significativa de mover dados frequentemente entre a CPU e a GPU. Neste artigo, propomos o Fiddler, um mecanismo de inferência eficiente em termos de recursos com orquestração CPU-GPU para modelos MoE. A ideia central do Fiddler é utilizar a capacidade de computação da CPU para minimizar o movimento de dados entre a CPU e a GPU. Nossa avaliação mostra que o Fiddler pode executar o modelo Mixtral-8x7B não compactado, que excede 90GB em parâmetros, gerando mais de 3 tokens por segundo em uma única GPU com 24GB de memória, demonstrando uma melhoria de uma ordem de magnitude em relação aos métodos existentes. O código do Fiddler está disponível publicamente em https://github.com/efeslab/fiddler.
À medida que o tamanho dos modelos de IA cresce, as leis de escalonamento neural tornaram-se uma ferramenta crucial para prever as melhorias dos modelos grandes ao aumentar a capacidade e o tamanho dos dados de treinamento originais (humanos ou naturais). No entanto, o uso generalizado de modelos populares significa que o ecossistema de dados e textos online co-evoluirá para conter progressivamente quantidades crescentes de dados sintetizados. Neste artigo, perguntamos: Como as leis de escalonamento mudarão no regime inevitável em que os dados sintéticos fazem parte do corpus de treinamento? Os modelos futuros ainda melhorarão ou estarão condenados a degenerar até o colapso total (do modelo)? Desenvolvemos uma estrutura teórica de colapso do modelo através da lente das leis de escalonamento. Descobrimos uma ampla gama de fenômenos de decaimento, analisando a perda de escalonamento, o escalonamento deslocado com o número de gerações, o "desaprendizado" de habilidades e o "grokking" ao misturar dados humanos e sintetizados. Nossa teoria é validada por experimentos em larga escala com um transformer em uma tarefa aritmética e geração de texto usando o modelo de linguagem grande Llama2.
Modelos de linguagem visual (VLMs) têm demonstrado capacidades impressionantes em uma variedade de tarefas, desde raciocínio lógico até compreensão visual. Isso abre portas para interações mais ricas com o mundo, como, por exemplo, o controle robótico. No entanto, os VLMs produzem apenas saídas textuais, enquanto o controle robótico e outras tarefas espaciais exigem a geração de coordenadas contínuas, ações ou trajetórias. Como podemos capacitar os VLMs a lidar com tais cenários sem ajuste fino em dados específicos da tarefa? Neste artigo, propomos uma nova abordagem de prompt visual para VLMs, que chamamos de *Prompting with Iterative Visual Optimization* (PIVOT), que transforma tarefas em questionamentos visuais iterativos. Em cada iteração, a imagem é anotada com uma representação visual de propostas às quais o VLM pode se referir (por exemplo, ações robóticas candidatas, localizações ou trajetórias). O VLM então seleciona as melhores para a tarefa. Essas propostas são refinadas iterativamente, permitindo que o VLM eventualmente encontre a melhor resposta disponível. Investigamos o PIVOT em navegação robótica no mundo real, manipulação a partir de imagens, seguimento de instruções em simulação e tarefas adicionais de inferência espacial, como localização. Descobrimos, talvez surpreendentemente, que nossa abordagem permite o controle *zero-shot* de sistemas robóticos sem qualquer dado de treinamento robótico, navegação em uma variedade de ambientes e outras capacidades. Embora o desempenho atual esteja longe de ser perfeito, nosso trabalho destaca os potenciais e limitações desse novo regime e mostra uma abordagem promissora para VLMs em escala da Internet em domínios de raciocínio robótico e espacial. Website: pivot-prompt.github.io e HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
O riso é um dos aspectos mais expressivos e naturais da fala humana, transmitindo emoções, sinais sociais e humor. No entanto, a maioria dos sistemas de conversão de texto em fala (TTS) não possui a capacidade de produzir sons de riso realistas e apropriados, limitando suas aplicações e a experiência do usuário. Embora existam trabalhos anteriores para gerar risos naturais, eles não conseguiram controlar adequadamente o tempo e a variedade do riso a ser gerado. Neste trabalho, propomos o ELaTE, um TTS zero-shot que pode gerar fala com riso natural de qualquer falante com base em um prompt de áudio curto, com controle preciso do tempo e da expressão do riso. Especificamente, o ELaTE utiliza o prompt de áudio para imitar as características da voz, o prompt de texto para indicar o conteúdo da fala gerada e a entrada para controlar a expressão do riso, que pode ser o tempo de início e fim do riso ou um prompt de áudio adicional que contenha o riso a ser imitado. Desenvolvemos nosso modelo com base na fundação de um TTS zero-shot baseado em fluxo condicional, e o ajustamos com representações em nível de quadro de um detector de riso como condicionamento adicional. Com um esquema simples para misturar dados em pequena escala condicionados ao riso com dados de pré-treinamento em grande escala, demonstramos que um modelo TTS zero-shot pré-treinado pode ser facilmente ajustado para gerar risos naturais com controle preciso, sem perder a qualidade do modelo TTS zero-shot pré-treinado. Por meio de avaliações, mostramos que o ELaTE pode gerar fala com riso com qualidade e controle significativamente superiores em comparação com modelos convencionais. Veja https://aka.ms/elate/ para exemplos de demonstração.
Para aprimorar a proficiência de modelos de linguagem no raciocínio matemático por meio de pré-treinamento contínuo, introduzimos uma estratégia inovadora que aproveita modelos de linguagem base para a seleção autônoma de dados. Diferentemente dos métodos convencionais de ajuste fino supervisionado ou classificadores treinados com dados anotados manualmente, nossa abordagem utiliza modelos de linguagem meta-promptados como verificadores zero-shot para avaliar e selecionar de forma autônoma conteúdos matemáticos de alta qualidade, e disponibilizamos o conjunto de dados AutoMathText, uma coleção curada e de código aberto que abrange mais de 200GB de dados. Para demonstrar a eficácia do nosso método, realizamos o pré-treinamento contínuo de um modelo de linguagem Mistral com 7 bilhões de parâmetros no conjunto de dados AutoMathText, alcançando melhorias significativas no desempenho downstream no conjunto de dados MATH, com uma quantidade de tokens reduzida em ordens de magnitude em comparação com trabalhos anteriores de pré-treinamento contínuo. Nosso método demonstra um aumento de 2 vezes na eficiência de tokens durante o pré-treinamento em relação às abordagens baselines, destacando o potencial da nossa estratégia para aprimorar as capacidades de raciocínio matemático dos modelos. O conjunto de dados AutoMathText está disponível em https://huggingface.co/datasets/math-ai/AutoMathText. O código está disponível em https://github.com/yifanzhang-pro/AutoMathText.
Modelos de linguagem condicionados visualmente (VLMs) têm visto uma adoção crescente em aplicações como diálogo visual, compreensão de cenas e planejamento de tarefas robóticas; uma adoção que tem impulsionado uma variedade de novos modelos, como LLaVa, InstructBLIP e PaLI-3. Apesar do volume de novos lançamentos, decisões-chave de design em torno de pré-processamento de imagens, arquitetura e otimização são pouco exploradas, tornando desafiador entender quais fatores contribuem para o desempenho do modelo — um desafio ainda mais complicado pela falta de avaliações objetivas e consistentes. Para abordar essas lacunas, primeiro compilamos um conjunto de avaliações padronizadas que abrangem respostas a perguntas visuais, localização de objetos a partir de linguagem e conjuntos de desafios específicos que investigam propriedades como alucinação; avaliações que fornecem insights calibrados e detalhados sobre as capacidades de um VLM. Em segundo lugar, investigamos rigorosamente os VLMs ao longo de eixos-chave de design, incluindo representações visuais pré-treinadas e a quantificação das compensações entre o uso de modelos de linguagem base versus ajustados por instrução, entre outros. Acompanhamos nossa análise com três contribuições de recursos: (1) um framework unificado para avaliação de VLMs, (2) código otimizado e flexível para treinamento de VLMs, e (3) checkpoints para todos os modelos, incluindo uma família de VLMs na escala de 7-13B que superam estritamente o InstructBLIP e o LLaVa v1.5, o estado da arte em VLMs de código aberto.
Modelos de Mistura de Especialistas (MoE, na sigla em inglês) surgiram como uma solução primária para reduzir o custo computacional de Modelos de Linguagem de Grande Escala. Neste trabalho, analisamos suas propriedades de escalonamento, incorporando uma gama ampliada de variáveis. Especificamente, introduzimos um novo hiperparâmetro, a granularidade, cujo ajuste permite um controle preciso sobre o tamanho dos especialistas. Com base nisso, estabelecemos leis de escalonamento para MoE de granularidade fina, levando em consideração o número de tokens de treinamento, o tamanho do modelo e a granularidade. Aproveitando essas leis, derivamos a configuração de treinamento ideal para um determinado orçamento computacional. Nossos resultados não apenas mostram que os modelos MoE superam consistentemente os Transformers densos, mas também destacam que a diferença de eficiência entre modelos densos e MoE aumenta à medida que escalamos o tamanho do modelo e o orçamento de treinamento. Além disso, demonstramos que a prática comum de definir o tamanho dos especialistas em MoE para espelhar a camada feed-forward não é ideal em quase nenhum orçamento computacional.
Neste trabalho, estudamos o problema do "reward hacking" no comprimento da resposta, um desafio que surge no Aprendizado por Reforço com Feedback Humano (RLHF) em LLMs. Uma resposta bem formatada, verbosa, mas menos útil dos LLMs pode frequentemente enganar os próprios LLMs ou até mesmo avaliadores humanos, resultando em pontuações altas. O mesmo problema também ocorre em alguns modelos de recompensa no RL. Para abordar os desafios tanto no treinamento quanto na avaliação, estabelecemos um protocolo de avaliação mais confiável para comparar diferentes configurações de treinamento, que examina a relação de troca entre a pontuação de avaliação do LLM e o comprimento da resposta obtido ao variar os hiperparâmetros de treinamento. Com base nessa avaliação, conduzimos estudos em larga escala, cujos resultados fornecem insights sobre a eficácia dos hiperparâmetros e técnicas usadas no RL para mitigar o viés de comprimento. Propomos ainda melhorar o modelo de recompensa treinando conjuntamente duas cabeças lineares em representações de características compartilhadas para prever as recompensas: uma treinada para correlacionar-se com o comprimento e outra treinada para descorrelacionar-se com o comprimento e, portanto, focar mais no conteúdo real. Em seguida, descartamos a cabeça de comprimento no RL para evitar o "reward hacking" no comprimento. Experimentos demonstram que nossa abordagem quase elimina a correlação da recompensa com o comprimento e melhora a política obtida de forma significativa.
Apresentamos o LiRank, um framework de classificação em larga escala no LinkedIn que leva à produção arquiteturas de modelagem e métodos de otimização de última geração. Revelamos diversas melhorias de modelagem, incluindo o Residual DCN, que adiciona conexões de atenção e residuais à famosa arquitetura DCNv2. Compartilhamos insights sobre como combinar e ajustar arquiteturas SOTA para criar um modelo unificado, incluindo Dense Gating, Transformers e Residual DCN. Também propomos técnicas inovadoras para calibração e descrevemos como colocamos em produção métodos de exploração/exploração baseados em aprendizado profundo. Para permitir a veiculação eficaz e em nível de produção de grandes modelos de classificação, detalhamos como treinar e comprimir modelos usando quantização e compressão de vocabulário. Fornecemos detalhes sobre a configuração de implantação para casos de uso em larga escala de classificação do Feed, recomendações de Vagas e previsão de taxa de cliques (CTR) em Anúncios. Resumimos nossos aprendizados de vários testes A/B, elucidando as abordagens técnicas mais eficazes. Essas ideias contribuíram para melhorias relativas em métricas em todo o LinkedIn: +0,5% nas sessões dos membros no Feed, +1,76% em candidaturas qualificadas para busca e recomendações de Vagas, e +4,3% no CTR de Anúncios. Esperamos que este trabalho possa fornecer insights práticos e soluções para profissionais interessados em aproveitar sistemas de classificação profunda em larga escala.
Apresentamos o GALA3D, Gaussianas 3D generativas com controle guiado por layout, para uma geração composicional eficaz de texto para 3D. Primeiro, utilizamos modelos de linguagem de grande escala (LLMs) para gerar o layout inicial e introduzimos uma representação de Gaussianas 3D guiada por layout para a geração de conteúdo 3D com restrições geométricas adaptativas. Em seguida, propomos um mecanismo de otimização composicional objeto-cena com difusão condicionada para gerar colaborativamente cenas 3D realistas com geometria, textura, escala e interações precisas entre múltiplos objetos, enquanto ajustamos simultaneamente os priors de layout grosseiros extraídos dos LLMs para alinhá-los com a cena gerada. Experimentos mostram que o GALA3D é uma estrutura amigável ao usuário e de ponta a ponta para a geração de conteúdo 3D em nível de cena e edição controlável, garantindo a alta fidelidade das entidades em nível de objeto dentro da cena. Códigos-fonte e modelos estarão disponíveis em https://gala3d.github.io/.
O alinhamento automático é uma maneira eficaz de reduzir o custo da anotação humana enquanto garante uma capacidade promissora do modelo. No entanto, a maioria dos métodos atuais completa as etapas de coleta de dados e treinamento em uma única rodada, o que pode negligenciar a capacidade continuamente aprimorada dos modelos autoalinhados. Isso levanta uma questão crucial: E se fizermos o alinhamento automático com múltiplas rodadas de bootstrapping? Essa estratégia melhora o desempenho do modelo ou leva a uma rápida degradação? Neste artigo, nossa exploração pioneira investiga o impacto do alinhamento automático com bootstrapping em modelos de linguagem de grande escala. Nossas descobertas revelam que o alinhamento automático com bootstrapping supera significativamente a abordagem de rodada única, garantindo a diversidade de dados por meio da aprendizagem em contexto. Para explorar ainda mais as capacidades do bootstrapping, investigamos e ajustamos a ordem de treinamento dos dados, o que resulta em um desempenho aprimorado do modelo. Com base nessas descobertas, propomos o Step-On-Feet Tuning (SOFT), que aproveita a capacidade continuamente aprimorada do modelo em poucos exemplos para impulsionar o desempenho em zero ou um exemplo. Com base na receita de treinamento do fácil para o difícil, propomos o SOFT+, que aumenta ainda mais o desempenho do alinhamento automático. Nossos experimentos demonstram a eficiência do SOFT (SOFT+) em várias tarefas de classificação e geração, destacando o potencial do alinhamento automático com bootstrapping para aprimorar continuamente o desempenho de alinhamento do modelo.
Apresentamos os Modelos de Feedback de Linguagem (LFMs, na sigla em inglês) que identificam comportamentos desejáveis - ações que ajudam a alcançar tarefas especificadas na instrução - para o aprendizado por imitação no seguimento de instruções. Para treinar os LFMs, obtemos feedback de Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) sobre trajetórias visuais verbalizadas em descrições linguísticas. Primeiro, ao usar LFMs para identificar comportamentos desejáveis a serem imitados, melhoramos a taxa de conclusão de tarefas em relação a fortes baselines de clonagem comportamental em três ambientes distintos de fundamentação linguística (Touchdown, ScienceWorld e ALFWorld). Segundo, os LFMs superam o uso de LLMs como especialistas para prever ações diretamente, quando controlado o número de tokens de saída dos LLMs. Terceiro, os LFMs generalizam para ambientes não vistos, melhorando a taxa de conclusão de tarefas em 3,5-12,0% após uma rodada de adaptação. Por fim, o LFM pode ser modificado para fornecer feedback interpretável por humanos sem perda de desempenho, permitindo a verificação humana de comportamentos desejáveis para o aprendizado por imitação.