Artigos de pesquisa em IA selecionados diariamente com traduções
Conjuntos de dados são fundamentais para muitos avanços na inteligência artificial moderna. Muitas conquistas recentes no campo do processamento de linguagem natural (PLN) podem ser atribuídas ao ajuste fino de modelos pré-treinados em um conjunto diversificado de tarefas que permite a um modelo de linguagem de grande escala (LLM) responder a instruções. O ajuste fino por instrução (IFT) requer conjuntos de dados especificamente construídos e anotados. No entanto, os conjuntos de dados existentes são quase todos em inglês. Neste trabalho, nosso principal objetivo é preencher a lacuna linguística criando um conjunto de dados de seguimento de instruções, curado por humanos, abrangendo 65 idiomas. Trabalhamos com falantes fluentes de idiomas de todo o mundo para coletar exemplos naturais de instruções e suas conclusões. Além disso, criamos a coleção multilíngue mais extensa até o momento, compreendendo 513 milhões de instâncias, por meio da modelagem e tradução de conjuntos de dados existentes em 114 idiomas. No total, contribuímos com quatro recursos principais: desenvolvemos e disponibilizamos publicamente a Plataforma de Anotação Aya, o Conjunto de Dados Aya, a Coleção Aya e o Suíte de Avaliação Aya. A iniciativa Aya também serve como um valioso estudo de caso em pesquisa participativa, envolvendo colaboradores de 119 países. Vemos isso como um valioso modelo para futuras colaborações de pesquisa que visam preencher lacunas em recursos.
As habilidades matemáticas de grandes modelos de linguagem podem representar sua capacidade de raciocínio abstrato. Neste artigo, apresentamos e disponibilizamos em código aberto nossos modelos de raciocínio matemático LLMs, o InternLM-Math, que foi pré-treinado continuamente a partir do InternLM2. Unificamos o raciocínio em cadeia de pensamento, modelagem de recompensa, raciocínio formal, aumento de dados e interpretação de código em um formato seq2seq unificado e supervisionamos nosso modelo para ser um solucionador, verificador, provador e ampliador de problemas matemáticos versátil. Essas habilidades podem ser usadas para desenvolver os próximos LLMs matemáticos ou para auto-iteração. O InternLM-Math alcança desempenho de ponta em código aberto sob a configuração de aprendizado em contexto, ajuste fino supervisionado e raciocínio assistido por código em diversos benchmarks informais e formais, incluindo GSM8K, MATH, exame de matemática da Hungria, MathBench-ZH e MiniF2F. Nosso modelo pré-treinado atinge 30,3 no conjunto de testes MiniF2F sem ajuste fino. Exploramos ainda como usar o LEAN para resolver problemas matemáticos e estudamos seu desempenho sob a configuração de aprendizado multitarefa, o que mostra a possibilidade de usar o LEAN como uma plataforma unificada para resolver e provar em matemática. Nossos modelos, códigos e dados estão disponíveis em https://github.com/InternLM/InternLM-Math.
A criação de avatares digitais a partir de prompts textuais tem sido uma tarefa desejável, porém desafiadora. Apesar dos resultados promissores obtidos por meio de priors de difusão 2D em trabalhos recentes, os métodos atuais enfrentam dificuldades para alcançar avatares de alta qualidade e animados de forma eficaz. Neste artigo, apresentamos o HeadStudio, um framework inovador que utiliza o splatting de Gaussianas 3D para gerar avatares realistas e animados a partir de prompts textuais. Nosso método direciona semanticamente as Gaussianas 3D para criar uma aparência flexível e alcançável por meio da representação intermediária FLAME. Especificamente, incorporamos o FLAME tanto na representação 3D quanto na destilação de scores: 1) Splatting de Gaussianas 3D baseado em FLAME, direcionando pontos de Gaussianas 3D ao vincular cada ponto a uma malha FLAME. 2) Amostragem de destilação de scores baseada em FLAME, utilizando um sinal de controle refinado baseado em FLAME para guiar a destilação de scores a partir do prompt textual. Experimentos extensivos demonstram a eficácia do HeadStudio na geração de avatares animáveis a partir de prompts textuais, exibindo aparências visualmente atraentes. Os avatares são capazes de renderizar novas visões de alta qualidade em tempo real (≥ 40 fps) com uma resolução de 1024. Eles podem ser controlados de forma suave por fala e vídeo do mundo real. Esperamos que o HeadStudio avance a criação de avatares digitais e que o método apresentado possa ser amplamente aplicado em diversos domínios.
Os avanços recentes nos modelos de geração de música a partir de texto abriram novas possibilidades na criatividade musical. No entanto, a geração de música geralmente envolve refinamentos iterativos, e como editar a música gerada continua sendo um desafio significativo. Este artigo apresenta uma abordagem inovadora para a edição de música gerada por esses modelos, permitindo a modificação de atributos específicos, como gênero, humor e instrumento, enquanto mantém outros aspectos inalterados. Nosso método transforma a edição de texto em manipulação do espaço latente, adicionando uma restrição extra para garantir consistência. Ele se integra perfeitamente com modelos de difusão de texto para música pré-treinados existentes, sem a necessidade de treinamento adicional. Os resultados experimentais demonstram um desempenho superior em comparação com abordagens zero-shot e certas baselines supervisionadas em avaliações de transferência de estilo e timbre. Além disso, destacamos a aplicabilidade prática de nossa abordagem em cenários reais de edição musical.
Ao combinar a compreensão de linguagem natural e as capacidades de geração e amplitude de conhecimento dos grandes modelos de linguagem com a percepção de imagens, os recentes grandes modelos de visão e linguagem (LVLMs, na sigla em inglês) demonstraram capacidades de raciocínio sem precedentes no mundo real. No entanto, o texto gerado frequentemente sofre com a falta de precisão no enraizamento visual, resultando em erros como a alucinação de elementos inexistentes na cena, a omissão de partes significativas da cena e a inferência incorreta de atributos e relações entre objetos. Para abordar esses problemas, introduzimos uma nova estrutura, o ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), que utiliza modelagem de recompensa em nível granular para aprimorar significativamente o enraizamento visual dos LVLMs em relação às linhas de base pré-treinadas. Essa melhoria é alcançada de forma eficiente utilizando avaliações humanas muito mais baratas em vez de supervisão completa, bem como métodos automatizados. Demonstramos a eficácia de nossa abordagem por meio de diversas métricas em vários benchmarks. Além disso, construímos um conjunto de dados abrangente e desafiador especificamente projetado para validar as capacidades de enraizamento visual dos LVLMs. Por fim, planejamos disponibilizar nossas anotações humanas, que compreendem aproximadamente 16.000 pares de imagens e textos gerados com avaliações granulares, para contribuir com pesquisas relacionadas na comunidade.
Modelos de linguagem de grande escala (LLMs) têm o potencial de impactar uma ampla gama de domínios criativos, mas a aplicação de LLMs à animação é pouco explorada e apresenta desafios novos, como a forma como os usuários podem descrever efetivamente o movimento em linguagem natural. Neste artigo, apresentamos o Keyframer, uma ferramenta de design para animar imagens estáticas (SVGs) com linguagem natural. Baseado em entrevistas com designers de animação e engenheiros profissionais, o Keyframer suporta a exploração e o refinamento de animações por meio da combinação de prompts e edição direta da saída gerada. O sistema também permite que os usuários solicitem variantes de design, apoiando a comparação e a ideação. Por meio de um estudo de usuário com 13 participantes, contribuímos com uma caracterização das estratégias de prompting dos usuários, incluindo uma taxonomia de tipos de prompts semânticos para descrever movimento e um estilo de prompting 'decomposto', onde os usuários adaptam continuamente seus objetivos em resposta à saída gerada. Compartilhamos como a edição direta, juntamente com o prompting, permite iterações além das interfaces de prompting único comuns em ferramentas generativas atuais. Por meio deste trabalho, propomos como os LLMs podem capacitar uma variedade de públicos a se envolverem com a criação de animações.
Apresentamos a edição de modelos com exemplos canônicos, um cenário em que (1) um único exemplo de aprendizado é fornecido para cada comportamento desejado, (2) a avaliação é realizada exclusivamente fora da distribuição, e (3) o desvio de um modelo inicial é estritamente limitado. Um exemplo canônico é uma instância simples de bom comportamento, por exemplo, "A capital de Maurício é Port Louis", ou de mau comportamento, por exemplo, "Um aspecto dos pesquisadores é a frieza". O conjunto de avaliação contém exemplos mais complexos de cada comportamento (como um parágrafo em que a capital de Maurício é solicitada). Criamos três conjuntos de dados e modificamos mais três para a edição de modelos com exemplos canônicos, abrangendo melhorias intensivas em conhecimento, mitigação de viés social e casos extremos sintáticos. Em nossos experimentos com modelos de linguagem Pythia, descobrimos que o LoRA supera o ajuste fino completo e o MEMIT. Em seguida, voltamos nossa atenção para a arquitetura do modelo de linguagem Backpack, pois ela foi projetada para permitir melhorias direcionadas. O Backpack define um grande banco de vetores de sentido—uma decomposição dos diferentes usos de cada palavra—que são ponderados e somados para formar os logits de saída do modelo. Propomos o ajuste fino de sentido, que seleciona e ajusta alguns (aproximadamente 10) vetores de sentido para cada exemplo canônico, e descobrimos que ele supera outros métodos de ajuste fino, por exemplo, uma melhoria de 4,8% contra 0,3%. Por fim, melhoramos o GPT-J-6B por meio de um ensemble em tempo de inferência com apenas as alterações do ajuste fino de sentido de um Backpack 35 vezes menor, em um cenário superando a edição do próprio GPT-J (4,1% vs 1,0%).
Apresentamos os adesivos animados, um modelo de difusão de vídeo que gera uma animação condicionada a um prompt de texto e uma imagem estática de adesivo. Nosso modelo é construído sobre o estado da arte do modelo Emu de texto para imagem, com a adição de camadas temporais para modelar movimento. Devido à lacuna de domínio, ou seja, diferenças no estilo visual e de movimento, um modelo que teve bom desempenho na geração de vídeos naturais não consegue mais gerar vídeos vívidos quando aplicado a adesivos. Para superar essa lacuna, empregamos um pipeline de ajuste fino em duas etapas: primeiro com dados fracamente dentro do domínio, seguido por uma estratégia de humano no loop (HITL) que denominamos conjunto-de-professores. Ela destila as melhores qualidades de múltiplos professores em um modelo estudante menor. Mostramos que essa estratégia nos permite direcionar especificamente melhorias na qualidade do movimento, mantendo o estilo da imagem estática. Com otimizações de inferência, nosso modelo é capaz de gerar um vídeo de oito quadros com movimento de alta qualidade, interessante e relevante em menos de um segundo.
Apresentamos o Premier-TACO, uma abordagem de aprendizado de representação de características multitarefa projetada para melhorar a eficiência do aprendizado de políticas com poucos exemplos em tarefas de tomada de decisão sequencial. O Premier-TACO utiliza um subconjunto de conjuntos de dados offline multitarefa para pré-treinar uma representação de características geral, que captura dinâmicas ambientais críticas e é ajustada com o uso de demonstrações especializadas mínimas. Ele avança o objetivo de aprendizado contrastivo de ação temporal (TACO), conhecido por resultados de ponta em tarefas de controle visual, ao incorporar uma nova estratégia de amostragem de exemplos negativos. Essa estratégia é crucial para aumentar significativamente a eficiência computacional do TACO, tornando viável o pré-treinamento offline em larga escala e multitarefa. Nossa extensa avaliação empírica em um conjunto diversificado de benchmarks de controle contínuo, incluindo o Deepmind Control Suite, MetaWorld e LIBERO, demonstra a eficácia do Premier-TACO no pré-treinamento de representações visuais, melhorando significativamente o aprendizado de imitação com poucos exemplos em novas tarefas. Nosso código, dados de pré-treinamento, bem como checkpoints de modelos pré-treinados, serão disponibilizados em https://github.com/PremierTACO/premier-taco.
Apesar do sucesso significativo dos grandes modelos de linguagem (LLMs), seus extensos requisitos de memória apresentam desafios para sua implantação na geração de tokens de contexto longo. A pegada de memória substancial dos decodificadores de LLMs surge da necessidade de armazenar todos os tokens anteriores no módulo de atenção, uma exigência imposta pelo cache de chave-valor (KV). Neste trabalho, nosso foco está no desenvolvimento de uma técnica de compressão eficiente para o cache KV. Evidências empíricas indicam uma tendência significativa de agrupamento nos embeddings de chave no módulo de atenção. Com base nessa percepção fundamental, desenvolvemos um novo método de cache com complexidade sublinear, empregando agrupamento online em tokens de chave e amostragem online ell_2 em valores. O resultado é um algoritmo de decodificação de atenção comprovadamente preciso e eficiente, denominado SubGen. Este algoritmo não apenas garante uma pegada de memória sublinear e uma complexidade de tempo sublinear, mas também estabelecemos um limite de erro rigoroso para nossa abordagem. Avaliações empíricas em tarefas de resposta a perguntas de contexto longo demonstram que o SubGen supera significativamente os métodos existentes e de última geração de compressão de cache KV em termos de desempenho e eficiência.
Os métodos existentes para controlar modelos de linguagem, como RLHF e Constitutional AI, envolvem determinar quais comportamentos de LLM são desejáveis e treiná-los em um modelo de linguagem. No entanto, em muitos casos, é desejável que os LLMs sejam controláveis no momento da inferência, para que possam ser usados em múltiplos contextos com necessidades diversas. Ilustramos isso com o Problema do Elefante Rosa: instruir um LLM a evitar discutir uma certa entidade (um "Elefante Rosa") e, em vez disso, discutir uma entidade preferida ("Elefante Cinza"). Aplicamos uma nova simplificação do Constitutional AI, o Feedback Direto de Princípios (Direct Principle Feedback - DPF), que ignora a classificação de respostas e usa DPO diretamente em críticas e revisões. Nossos resultados mostram que, após o ajuste fino com DPF em nosso conjunto de dados sintético de Elefantes Rosa, nosso modelo LLaMA 2 de 13B ajustado supera significativamente o Llama-2-13B-Chat e uma linha de base com prompts, e tem um desempenho tão bom quanto o GPT-4 em nosso conjunto de testes curados que avalia o Problema do Elefante Rosa.
Grandes Modelos de Linguagem (LLMs) são atualmente esperados para gerar conteúdo alinhado com as preferências humanas. O trabalho atual foca no alinhamento durante o treinamento do modelo, através de técnicas como Aprendizado por Reforço com Feedback Humano (RLHF). No entanto, não está claro se tais métodos são uma escolha eficaz para ensinar objetivos de alinhamento ao modelo. Primeiro, a incapacidade de incorporar múltiplas recompensas personalizadas e a dependência da visão do desenvolvedor do modelo sobre princípios universais e estáticos são limitações-chave. Segundo, as lacunas residuais no treinamento do modelo e a confiabilidade de tais abordagens também são questionáveis (por exemplo, suscetibilidade a jail-breaking mesmo após o treinamento de segurança). Para abordar esses problemas, propomos o DeAL, um framework que permite ao usuário personalizar funções de recompensa e possibilita o Alinhamento no Tempo de Decodificação de LLMs (DeAL). Em sua essência, vemos a decodificação como um processo de busca guiada por heurísticas e facilitamos o uso de uma ampla variedade de objetivos de alinhamento. Nossos experimentos com restrições programáticas, como restrições de palavras-chave e de comprimento (amplamente estudadas na era pré-LLM), e objetivos abstratos, como inofensividade e utilidade (propostos na era pós-LLM), mostram que podemos lidar com trade-offs refinados, melhorar a adesão aos objetivos de alinhamento e abordar lacunas residuais em LLMs. Por fim, embora o DeAL possa ser efetivamente combinado com técnicas de RLHF e prompting, sua generalidade torna a decodificação mais lenta, uma otimização que deixamos para trabalhos futuros.
Os avanços recentes nas aplicações do mundo real do aprendizado por reforço (RL, do inglês *Reinforcement Learning*) têm dependido da capacidade de simular sistemas com precisão em grande escala. No entanto, domínios como os sistemas de dinâmica de fluidos exibem fenômenos dinâmicos complexos que são difíceis de simular em altas taxas de integração, limitando a aplicação direta de algoritmos modernos de RL profundo em hardware frequentemente caro ou crítico para a segurança. Neste trabalho, apresentamos o "Box o Flows", um novo sistema experimental de controle em bancada para avaliar sistematicamente algoritmos de RL em cenários dinâmicos do mundo real. Descrevemos os principais componentes do Box o Flows e, por meio de uma série de experimentos, demonstramos como algoritmos de RL *model-free* de última geração podem sintetizar uma variedade de comportamentos complexos por meio de especificações simples de recompensa. Além disso, exploramos o papel do RL offline em testes de hipóteses com eficiência de dados, reutilizando experiências passadas. Acreditamos que os insights obtidos neste estudo preliminar e a disponibilidade de sistemas como o Box o Flows apoiam o caminho para o desenvolvimento de algoritmos de RL sistemáticos que possam ser aplicados de forma geral a sistemas complexos e dinâmicos. Material suplementar e vídeos dos experimentos estão disponíveis em https://sites.google.com/view/box-o-flows/home.