Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala surgiram como uma ferramenta versátil, mas são desafiadores de aplicar em tarefas que carecem de grandes orçamentos de inferência e grandes conjuntos de treinamento no domínio específico. Este trabalho formaliza essas restrições e distingue quatro variáveis importantes: o orçamento de pré-treinamento (para treinamento antes que o domínio alvo seja conhecido), o orçamento de especialização (para treinamento após o domínio alvo ser conhecido), o orçamento de inferência e o tamanho do conjunto de treinamento no domínio específico. Em meio a essas configurações, comparamos diferentes abordagens da literatura de aprendizado de máquina. Limitados pelo custo de inferência, encontramos alternativas melhores à prática padrão de treinar modelos muito grandes de transformadores convencionais. Em particular, demonstramos que hiper-redes e misturas de especialistas apresentam melhor perplexidade para grandes orçamentos de pré-treinamento, enquanto modelos pequenos treinados em conjuntos de dados amostrados por importância são atraentes para grandes orçamentos de especialização.
O avanço dos modelos de linguagem de grande escala (LLMs) impulsionou significativamente o campo da geração de código. Trabalhos anteriores integraram o aprendizado por reforço (RL) com feedback de compiladores para explorar o espaço de saída dos LLMs, visando melhorar a qualidade da geração de código. No entanto, o código extenso gerado pelos LLMs em resposta a requisitos humanos complexos torna a exploração via RL um desafio. Além disso, como os testes unitários podem não cobrir o código complicado, otimizar os LLMs usando esses trechos de código não executados é ineficaz. Para enfrentar esses desafios, apresentamos o StepCoder, um novo framework de RL para geração de código, composto por dois componentes principais: o CCCS aborda o desafio da exploração ao dividir a tarefa de geração de sequências longas de código em um Currículo de Subtarefas de Conclusão de Código, enquanto o FGO otimiza o modelo apenas mascarando os segmentos de código não executados para fornecer uma Otimização de Granularidade Fina. Adicionalmente, construímos o conjunto de dados APPS+ para treinamento de RL, que é verificado manualmente para garantir a correção dos testes unitários. Os resultados experimentais mostram que nosso método melhora a capacidade de explorar o espaço de saída e supera abordagens state-of-the-art nos benchmarks correspondentes.
O planejamento tem sido parte central da busca pela inteligência artificial desde sua concepção, mas os agentes de IA anteriores focavam principalmente em cenários restritos, pois muitos dos substratos cognitivos necessários para o planejamento em nível humano estavam ausentes. Recentemente, agentes de linguagem impulsionados por modelos de linguagem de grande escala (LLMs) demonstraram capacidades interessantes, como o uso de ferramentas e raciocínio. Esses agentes de linguagem são capazes de planejar em cenários mais complexos, que estavam além do alcance dos agentes de IA anteriores? Para avançar essa investigação, propomos o TravelPlanner, um novo benchmark de planejamento focado no planejamento de viagens, um cenário comum de planejamento no mundo real. Ele oferece um ambiente sandbox rico, diversas ferramentas para acessar quase quatro milhões de registros de dados e 1.225 intenções de planejamento e planos de referência meticulosamente elaborados. Avaliações abrangentes mostram que os atuais agentes de linguagem ainda não são capazes de lidar com tarefas de planejamento tão complexas - mesmo o GPT-4 alcança uma taxa de sucesso de apenas 0,6%. Os agentes de linguagem têm dificuldade em manter o foco na tarefa, usar as ferramentas certas para coletar informações ou acompanhar múltiplas restrições. No entanto, observamos que a mera possibilidade de agentes de linguagem abordarem um problema tão complexo já representa um progresso não trivial. O TravelPlanner oferece um ambiente de teste desafiador, porém significativo, para futuros agentes de linguagem.
Apresentamos o Pok\'eLLMon, o primeiro agente incorporado em LLM que alcança desempenho equivalente ao humano em jogos de batalha tática, como demonstrado em batalhas de Pok\'emon. O design do Pok\'eLLMon incorpora três estratégias principais: (i) Aprendizado por reforço em contexto, que consome instantaneamente feedback baseado em texto derivado de batalhas para refinar iterativamente a política; (ii) Geração aumentada por conhecimento, que recupera conhecimento externo para combater alucinações e permite que o agente aja de maneira oportuna e adequada; (iii) Geração consistente de ações para mitigar o fenômeno de troca em pânico, quando o agente enfrenta um oponente poderoso e deseja evitar a batalha. Demonstramos que batalhas online contra humanos evidenciam as estratégias de batalha semelhantes às humanas e a tomada de decisão em tempo real do Pok\'eLLMon, alcançando uma taxa de vitória de 49% nas competições Ladder e 56% nas batalhas convidadas. Nossa implementação e registros de batalhas jogáveis estão disponíveis em: https://github.com/git-disl/PokeLLMon.
Gerar movimentos ricos e controláveis é um desafio fundamental na síntese de vídeo. Propomos o Boximator, uma nova abordagem para controle de movimento de alta granularidade. O Boximator introduz dois tipos de restrições: caixa rígida e caixa flexível. Os usuários selecionam objetos no quadro condicional usando caixas rígidas e, em seguida, utilizam qualquer um dos tipos de caixas para definir de forma aproximada ou rigorosa a posição, forma ou trajetória do objeto em quadros futuros. O Boximator funciona como um plug-in para modelos de difusão de vídeo existentes. Seu processo de treinamento preserva o conhecimento do modelo base ao congelar os pesos originais e treinar apenas o módulo de controle. Para lidar com os desafios de treinamento, introduzimos uma nova técnica de autorrastreamento que simplifica significativamente o aprendizado das correlações entre caixas e objetos. Empiricamente, o Boximator alcança pontuações de qualidade de vídeo (FVD) de última geração, superando dois modelos base, e apresenta melhorias adicionais após a incorporação de restrições de caixa. Sua robusta capacidade de controle de movimento é validada por aumentos drásticos na métrica de alinhamento de caixas delimitadoras. A avaliação humana também mostra que os usuários preferem os resultados gerados pelo Boximator em comparação com o modelo base.
Transformers são a arquitetura dominante para modelagem de sequências, mas há um interesse crescente em modelos que utilizam um estado latente de tamanho fixo que não depende do comprimento da sequência, os quais chamamos de "modelos de espaço de estado generalizados" (GSSMs, na sigla em inglês). Neste artigo, mostramos que, embora os GSSMs sejam promissores em termos de eficiência no tempo de inferência, eles são limitados em comparação com os modelos transformers em tarefas que exigem a cópia do contexto de entrada. Começamos com uma análise teórica da tarefa simples de cópia de strings e provamos que um transformer de duas camadas pode copiar strings de comprimento exponencial, enquanto os GSSMs são fundamentalmente limitados pelo seu estado latente de tamanho fixo. Empiricamente, descobrimos que os transformers superam os GSSMs em termos de eficiência e generalização em tarefas sintéticas que exigem a cópia do contexto. Por fim, avaliamos grandes modelos de linguagem pré-treinados e constatamos que os modelos transformers superam dramaticamente os modelos de espaço de estado na cópia e recuperação de informações do contexto. Em conjunto, esses resultados sugerem uma lacuna fundamental entre transformers e GSSMs em tarefas de interesse prático.
Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado proficiência em tarefas de raciocínio complexo, seu desempenho em cenários dinâmicos, interativos e competitivos - como estratégia de negócios e análise do mercado de ações - permanece pouco explorado. Para preencher essa lacuna, exploramos formalmente as capacidades de raciocínio dinâmico dos LLMs para tomada de decisão em ambientes em rápida evolução. Introduzimos dois desafios piloto baseados em teoria dos jogos que refletem as complexidades da tomada de decisão dinâmica do mundo real. Esses desafios são bem definidos, permitindo uma avaliação clara, controlável e precisa das habilidades de raciocínio dinâmico dos LLMs. Por meio de experimentos extensivos, descobrimos que os métodos de raciocínio existentes tendem a falhar em configurações dinâmicas que exigem pensamento de nível k - um conceito-chave não abordado por trabalhos anteriores. Para resolver isso, propomos uma nova abordagem de raciocínio para LLMs, denominada "Raciocínio de Nível K". Essa abordagem adota a perspectiva dos rivais para empregar recursivamente o pensamento de nível k com base em informações históricas disponíveis, o que melhora significativamente a precisão da previsão dos movimentos subsequentes dos rivais e informa uma tomada de decisão mais estratégica. Esta pesquisa não apenas estabelece um benchmark quantitativo robusto para a avaliação do raciocínio dinâmico, mas também melhora marcadamente a proficiência dos LLMs em contextos dinâmicos.
Este relatório técnico descreve o treinamento do nomic-embed-text-v1, o primeiro modelo de incorporação de texto em inglês totalmente reproduzível, de código aberto, com pesos abertos e dados abertos, com comprimento de contexto de 8192, que supera tanto o OpenAI Ada-002 quanto o OpenAI text-embedding-3-small em tarefas de contexto curto e longo. Disponibilizamos o código de treinamento e os pesos do modelo sob uma licença Apache 2. Em contraste com outros modelos de código aberto, liberamos um carregador de dados de treinamento com 235 milhões de pares de textos curados que permite a replicação completa do nomic-embed-text-v1. O código e os dados para replicar o modelo podem ser encontrados em https://github.com/nomic-ai/contrastors.
O advento dos Modelos de Grande Escala marca uma nova era no aprendizado de máquina, superando significativamente modelos menores ao aproveitar vastos conjuntos de dados para capturar e sintetizar padrões complexos. Apesar desses avanços, a exploração do escalonamento, especialmente no domínio da geração de áudio, permanece limitada, com esforços anteriores não se estendendo ao domínio de alta fidelidade (HiFi) de 44,1 kHz e sofrendo tanto com descontinuidades espectrais quanto com borrões no domínio de alta frequência, além de uma falta de robustez contra dados fora do domínio. Essas limitações restringem a aplicabilidade dos modelos a diversos casos de uso, incluindo a geração de música e canto. Nosso trabalho introduz a Geração Aprimorada de Áudio Variado por meio de Redes Generativas Adversariais Escaláveis (EVA-GAN), que proporciona melhorias significativas em relação ao estado da arte anterior na reconstrução espectral e de alta frequência, bem como na robustez do desempenho com dados fora do domínio, permitindo a geração de áudios HiFi ao empregar um extenso conjunto de dados de 36.000 horas de áudio em 44,1 kHz, um módulo sensível ao contexto, um kit de ferramentas de medição de artefatos com Humanos no Loop, e expandindo o modelo para aproximadamente 200 milhões de parâmetros. Demonstrações do nosso trabalho estão disponíveis em https://double-blind-eva-gan.cc.