Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) são rotineiramente pré-treinados em bilhões de tokens, apenas para reiniciar o processo novamente quando novos dados se tornam disponíveis. Uma solução muito mais eficiente é pré-treinar continuamente esses modelos, economizando um poder computacional significativo em comparação com o retreinamento. No entanto, a mudança de distribuição induzida por novos dados geralmente resulta em desempenho degradado em dados anteriores ou em uma adaptação inadequada aos novos dados. Neste trabalho, mostramos que uma combinação simples e escalável de reaquecimento da taxa de aprendizado (LR), redecadência da LR e replay de dados anteriores é suficiente para igualar o desempenho do retreinamento completo a partir do zero em todos os dados disponíveis, conforme medido pela perda final e benchmarks de avaliação de modelos de linguagem (LM). Especificamente, mostramos isso para uma mudança de distribuição fraca, mas realista, entre dois conjuntos de dados comumente usados para pré-treinamento de LLMs (Inglês→Inglês) e uma mudança de distribuição mais forte (Inglês→Alemão) na escala de modelo de 405M parâmetros com grandes tamanhos de conjuntos de dados (centenas de bilhões de tokens). Selecionando a mudança fraca, mas realista, para experimentos em maior escala, também descobrimos que nossas estratégias de aprendizado contínuo igualam a linha de base de retreinamento para um LLM de 10B parâmetros. Nossos resultados demonstram que LLMs podem ser atualizados com sucesso por meio de estratégias simples e escaláveis de aprendizado contínuo, igualando a linha de base de retreinamento usando apenas uma fração do poder computacional. Por fim, inspirados por trabalhos anteriores, propomos alternativas ao cronograma de taxa de aprendizado cosseno que ajudam a contornar o esquecimento induzido pelo reaquecimento da LR e que não estão vinculados a um orçamento fixo de tokens.
Este trabalho apresenta a Gemma, uma família de modelos abertos leves e de última geração, desenvolvidos a partir da pesquisa e tecnologia utilizadas para criar os modelos Gemini. Os modelos Gemma demonstram um desempenho robusto em benchmarks acadêmicos para compreensão de linguagem, raciocínio e segurança. Lançamos dois tamanhos de modelos (2 bilhões e 7 bilhões de parâmetros) e disponibilizamos checkpoints tanto pré-treinados quanto ajustados. A Gemma supera modelos abertos de tamanho semelhante em 11 de 18 tarefas baseadas em texto, e apresentamos avaliações abrangentes dos aspectos de segurança e responsabilidade dos modelos, juntamente com uma descrição detalhada do desenvolvimento do modelo. Acreditamos que o lançamento responsável de LLMs (Modelos de Linguagem de Grande Escala) é crucial para melhorar a segurança dos modelos de fronteira e para impulsionar a próxima onda de inovações em LLMs.
Propomos o VLOGGER, um método para geração de vídeos humanos dirigidos por áudio a partir de uma única imagem de entrada de uma pessoa, que se baseia no sucesso dos recentes modelos generativos de difusão. Nosso método consiste em 1) um modelo estocástico de difusão de movimento humano para 3D, e 2) uma nova arquitetura baseada em difusão que amplia os modelos de texto para imagem com controles espaciais e temporais. Isso permite a geração de vídeos de alta qualidade com duração variável, facilmente controláveis por meio de representações de alto nível de rostos e corpos humanos. Em contraste com trabalhos anteriores, nosso método não requer treinamento para cada pessoa, não depende de detecção e recorte de rostos, gera a imagem completa (não apenas o rosto ou os lábios) e considera um amplo espectro de cenários (por exemplo, torso visível ou identidades diversas dos sujeitos) que são críticos para sintetizar corretamente humanos que se comunicam. Também criamos o MENTOR, um novo e diversificado conjunto de dados com anotações de poses 3D e expressões, uma ordem de grandeza maior do que os anteriores (800.000 identidades) e com gestos dinâmicos, no qual treinamos e avaliamos nossas principais contribuições técnicas. O VLOGGER supera os métodos state-of-the-art em três benchmarks públicos, considerando qualidade de imagem, preservação de identidade e consistência temporal, enquanto também gera gestos da parte superior do corpo. Analisamos o desempenho do VLOGGER em relação a múltiplas métricas de diversidade, mostrando que nossas escolhas arquitetônicas e o uso do MENTOR beneficiam o treinamento de um modelo justo e imparcial em escala. Por fim, mostramos aplicações em edição de vídeo e personalização.
Os seres humanos aprendem habilidades sociais tanto por imitação quanto por interação social. Esse processo de aprendizado social é amplamente pouco estudado pelas pesquisas existentes sobre a construção de agentes de linguagem. Motivados por essa lacuna, propomos um método de aprendizado interativo, SOTOPIA-pi, que melhora a inteligência social de agentes de linguagem. Esse método aproveita a clonagem de comportamento e o treinamento de autorreforço em dados de interação social filtrados de acordo com avaliações de modelos de linguagem de grande escala (LLMs). Demonstramos que nosso método de treinamento permite que um LLM de 7B alcance a capacidade de conclusão de metas sociais de um modelo especialista (agente baseado em GPT-4), ao mesmo tempo em que melhora a segurança dos agentes de linguagem e mantém a capacidade geral de resposta a perguntas no benchmark MMLU. Também descobrimos que esse paradigma de treinamento revela algumas dificuldades na avaliação baseada em LLMs da inteligência social: os avaliadores baseados em LLMs superestimam as habilidades dos agentes de linguagem treinados especificamente para interação social.
Modelos de base são tecnologias poderosas: a forma como são lançados publicamente molda diretamente seu impacto social. Neste artigo de posicionamento, focamos em modelos de base abertos, definidos aqui como aqueles com pesos de modelo amplamente disponíveis (por exemplo, Llama 2, Stable Diffusion XL). Identificamos cinco propriedades distintas (por exemplo, maior personalização, monitoramento deficiente) dos modelos de base abertos que levam tanto a seus benefícios quanto a seus riscos. Os modelos de base abertos apresentam benefícios significativos, com algumas ressalvas, que abrangem inovação, competição, a distribuição do poder de decisão e transparência. Para entender seus riscos de uso indevido, projetamos uma estrutura de avaliação de riscos para analisar seu risco marginal. Em vários vetores de uso indevido (por exemplo, ciberataques, armas biológicas), descobrimos que a pesquisa atual é insuficiente para caracterizar efetivamente o risco marginal dos modelos de base abertos em relação às tecnologias pré-existentes. A estrutura ajuda a explicar por que o risco marginal é baixo em alguns casos, esclarece discordâncias sobre os riscos de uso indevido ao revelar que trabalhos anteriores se concentraram em diferentes subconjuntos da estrutura com diferentes suposições e articula um caminho a seguir para um debate mais construtivo. No geral, nosso trabalho ajuda a apoiar uma avaliação mais fundamentada do impacto social dos modelos de base abertos ao delinear quais pesquisas são necessárias para validar empiricamente seus benefícios e riscos teóricos.
As leis de escalonamento são guias úteis para o desenvolvimento de modelos de linguagem, mas ainda existem lacunas entre os estudos atuais de escalonamento e a forma como os modelos de linguagem são, em última instância, treinados e avaliados. Por exemplo, o escalonamento é geralmente estudado no regime de treinamento ótimo em termos de computação (ou seja, o regime "ótimo de Chinchilla"); no entanto, na prática, os modelos são frequentemente supertreinados para reduzir os custos de inferência. Além disso, as leis de escalonamento preveem principalmente a perda na previsão do próximo token, mas, em última análise, os modelos são comparados com base no desempenho em tarefas subsequentes. Neste artigo, abordamos ambas as deficiências. Para isso, criamos um conjunto de testes com 104 modelos, variando de 0,011B a 6,9B de parâmetros, treinados com diferentes quantidades de tokens em três distribuições de dados. Primeiro, investigamos o escalonamento no regime de supertreinamento. Ajustamos leis de escalonamento que extrapolam tanto o número de parâmetros do modelo quanto a razão entre tokens de treinamento e parâmetros. Isso nos permite prever a perda de validação de uma execução com 1,4B de parâmetros e 900B de tokens (ou seja, 32 vezes supertreinada) e de uma execução com 6,9B de parâmetros e 138B de tokens—cada uma a partir de experimentos que consomem 300 vezes menos computação. Segundo, relacionamos a perplexidade de um modelo de linguagem ao seu desempenho em tarefas subsequentes por meio de uma lei de potência. Usamos essa lei para prever o erro top-1 médio em tarefas subsequentes para os dois modelos mencionados anteriormente, utilizando experimentos que consomem 20 vezes menos computação. Nossos experimentos estão disponíveis em https://github.com/mlfoundations/scaling.
Enfrentando os desafios da escassez de dados e da síntese avançada de movimentos na modelagem de interações humano-cena, apresentamos o conjunto de dados TRUMANS juntamente com um novo método de síntese de movimentos HSI. O TRUMANS se destaca como o conjunto de dados HSI capturado por movimento mais abrangente atualmente disponível, abrangendo mais de 15 horas de interações humanas em 100 cenas internas. Ele captura detalhadamente os movimentos humanos de corpo inteiro e a dinâmica de objetos em nível de partes, com foco no realismo do contato. Esse conjunto de dados é ainda ampliado pela transformação de ambientes físicos em modelos virtuais exatos e pela aplicação de extensas ampliações na aparência e no movimento tanto de humanos quanto de objetos, mantendo a fidelidade da interação. Utilizando o TRUMANS, desenvolvemos um modelo autoregressivo baseado em difusão que gera eficientemente sequências HSI de qualquer comprimento, levando em consideração tanto o contexto da cena quanto as ações pretendidas. Nos experimentos, nossa abordagem demonstra uma notável generalização zero-shot em uma variedade de conjuntos de dados de cenas 3D (por exemplo, PROX, Replica, ScanNet, ScanNet++), produzindo movimentos que imitam de perto as sequências originais capturadas por movimento, conforme confirmado por experimentos quantitativos e estudos com humanos.
Apesar dos recentes avanços na geração de vídeos a partir de imagens, a melhor controlabilidade e a animação local são menos exploradas. A maioria dos métodos existentes de imagem para vídeo não são localmente conscientes e tendem a mover a cena inteira. No entanto, artistas humanos podem precisar controlar o movimento de diferentes objetos ou regiões. Além disso, os métodos atuais de I2V exigem que os usuários não apenas descrevam o movimento desejado, mas também forneçam descrições detalhadas redundantes do conteúdo dos quadros. Esses dois problemas dificultam a utilização prática das ferramentas atuais de I2V. Neste artigo, propomos uma estrutura prática, chamada Follow-Your-Click, para alcançar a animação de imagens com um simples clique do usuário (para especificar o que mover) e um breve prompt de movimento (para especificar como mover). Tecnicamente, propomos a estratégia de mascaramento do primeiro quadro, que melhora significativamente a qualidade da geração de vídeo, e um módulo de aumento de movimento equipado com um conjunto de dados de prompts curtos de movimento para melhorar as habilidades de seguimento de prompts curtos do nosso modelo. Para controlar ainda mais a velocidade do movimento, propomos o controle de magnitude de movimento baseado em fluxo para controlar a velocidade do movimento alvo com maior precisão. Nossa estrutura tem um controle do usuário mais simples, porém preciso, e um desempenho de geração melhor do que os métodos anteriores. Experimentos extensivos comparados com 7 linhas de base, incluindo ferramentas comerciais e métodos de pesquisa em 8 métricas, sugerem a superioridade da nossa abordagem. Página do Projeto: https://follow-your-click.github.io/
As representações neurais implícitas (INRs, do inglês Implicit Neural Representations) recentemente alcançaram grande sucesso na representação e compressão de imagens, oferecendo alta qualidade visual e velocidades de renderização rápidas, variando entre 10 e 1000 FPS, desde que haja recursos suficientes de GPU disponíveis. No entanto, essa exigência frequentemente limita seu uso em dispositivos de baixo desempenho com memória limitada. Em resposta, propomos um paradigma inovador de representação e compressão de imagens por meio de *2D Gaussian Splatting*, denominado GaussianImage. Primeiramente, introduzimos a Gaussiana 2D para representar a imagem, onde cada Gaussiana possui 8 parâmetros, incluindo posição, covariância e cor. Em seguida, apresentamos um novo algoritmo de renderização baseado em soma acumulada. Notavelmente, nosso método, com um uso de memória GPU pelo menos 3 vezes menor e tempo de ajuste 5 vezes mais rápido, não apenas rivaliza com INRs (por exemplo, WIRE, I-NGP) em desempenho de representação, mas também oferece uma velocidade de renderização mais rápida, variando entre 1500 e 2000 FPS, independentemente do tamanho dos parâmetros. Além disso, integramos uma técnica existente de quantização vetorial para construir um codec de imagem. Resultados experimentais demonstram que nosso codec atinge um desempenho de taxa-distorção comparável a INRs baseados em compressão, como COIN e COIN++, ao mesmo tempo em que facilita velocidades de decodificação de aproximadamente 1000 FPS. Adicionalmente, uma prova de conceito preliminar mostra que nosso codec supera COIN e COIN++ em desempenho ao utilizar codificação parcial de bits de retorno (*partial bits-back coding*).