Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm feito grandes avanços nos últimos anos, alcançando desempenho sem precedentes em diversas tarefas. No entanto, devido a interesses comerciais, os modelos mais competitivos, como GPT, Gemini e Claude, têm sido restritos a interfaces proprietárias, sem a divulgação dos detalhes de treinamento. Recentemente, muitas instituições disponibilizaram em código aberto vários LLMs robustos, como o LLaMA-3, comparáveis aos LLMs de código fechado existentes. Contudo, apenas os pesos dos modelos são fornecidos, com a maioria dos detalhes (por exemplo, checkpoints intermediários, corpus de pré-treinamento e código de treinamento) não divulgados. Para melhorar a transparência dos LLMs, a comunidade de pesquisa tem se mobilizado para disponibilizar LLMs verdadeiramente abertos (por exemplo, Pythia, Amber, OLMo), nos quais mais detalhes (como o corpus de pré-treinamento e o código de treinamento) estão sendo fornecidos. Esses modelos têm avançado significativamente o estudo científico desses grandes modelos, incluindo seus pontos fortes, fraquezas, vieses e riscos. No entanto, observamos que os LLMs verdadeiramente abertos existentes ainda são inferiores aos LLMs de ponta atuais com tamanhos de modelo semelhantes em tarefas de raciocínio, conhecimento e codificação. Para isso, disponibilizamos o MAP-Neo, um modelo de linguagem bilíngue altamente capaz e transparente com 7 bilhões de parâmetros, treinado do zero com 4,5 trilhões de tokens de alta qualidade. Nosso MAP-Neo é o primeiro LLM bilíngue totalmente aberto com desempenho comparável aos LLMs de ponta existentes. Além disso, disponibilizamos todos os detalhes para reproduzir nosso MAP-Neo, incluindo o corpus de pré-treinamento limpo, o pipeline de limpeza de dados, os checkpoints e o framework de treinamento/avaliação bem otimizado. Por fim, esperamos que nosso MAP-Neo fortaleça e enriqueça a comunidade de pesquisa aberta, inspirando mais inovações e criatividades para facilitar melhorias futuras nos LLMs.
A otimização de preferências, particularmente através do Aprendizado por Reforço com Feedback Humano (RLHF), alcançou sucesso significativo no alinhamento de Modelos de Linguagem de Grande Escala (LLMs) para aderir às intenções humanas. Diferente do alinhamento offline com um conjunto de dados fixo, a coleta de feedback online de humanos ou de IA sobre as gerações do modelo geralmente leva a modelos de recompensa mais capazes e LLMs melhor alinhados por meio de um processo iterativo. No entanto, alcançar um modelo de recompensa globalmente preciso requer exploração sistemática para gerar respostas diversas que abrangem o vasto espaço da linguagem natural. A amostragem aleatória de LLMs padrão que maximizam a recompensa por si só é insuficiente para atender a essa necessidade. Para resolver esse problema, propomos um objetivo bilevel com viés otimista em direção a respostas potencialmente de alta recompensa para explorar ativamente regiões fora da distribuição. Ao resolver o problema de nível interno com a função de recompensa reparametrizada, o algoritmo resultante, denominado Modelos de Linguagem de Autoexploração (SELM), elimina a necessidade de um RM separado e atualiza iterativamente o LLM com um objetivo direto. Em comparação com a Otimização Direta de Preferências (DPO), o objetivo do SELM reduz a favor indiscriminada de extrapolações não vistas e aumenta a eficiência da exploração. Nossos resultados experimentais demonstram que, quando ajustados nos modelos Zephyr-7B-SFT e Llama-3-8B-Instruct, o SELM aumenta significativamente o desempenho em benchmarks de seguimento de instruções, como MT-Bench e AlpacaEval 2.0, bem como em vários benchmarks acadêmicos padrão em diferentes configurações. Nosso código e modelos estão disponíveis em https://github.com/shenao-zhang/SELM.
Modelos de texto para vídeo (T2V) baseados em difusão têm alcançado sucesso significativo, mas continuam a ser limitados pela velocidade lenta de amostragem de seus processos iterativos. Para enfrentar esse desafio, modelos de consistência foram propostos para facilitar inferência rápida, embora à custa da qualidade das amostras. Neste trabalho, buscamos superar o gargalo de qualidade de um modelo de consistência de vídeo (VCM) para alcançar geração de vídeo rápida e de alta qualidade. Apresentamos o T2V-Turbo, que integra feedback de uma mistura de modelos de recompensa diferenciáveis no processo de destilação de consistência (CD) de um modelo T2V pré-treinado. Notavelmente, otimizamos diretamente recompensas associadas a gerações de passo único que surgem naturalmente ao calcular a perda de CD, efetivamente contornando as restrições de memória impostas pela retropropagação de gradientes através de um processo de amostragem iterativo. De forma impressionante, as gerações de 4 passos do nosso T2V-Turbo alcançam a pontuação total mais alta no VBench, superando até mesmo o Gen-2 e o Pika. Realizamos ainda avaliações humanas para corroborar os resultados, validando que as gerações de 4 passos do nosso T2V-Turbo são preferidas em relação às amostras de 50 passos do DDIM de seus modelos de referência, representando uma aceleração de mais de dez vezes enquanto melhoram a qualidade da geração de vídeo.
Este artigo examina até que ponto os grandes modelos de linguagem (LLMs) desenvolveram uma teoria da mente (ToM) de ordem superior; a capacidade humana de raciocinar sobre múltiplos estados mentais e emocionais de forma recursiva (por exemplo, eu acho que você acredita que ela sabe). Este artigo se baseia em trabalhos anteriores ao introduzir um conjunto de testes manuscritos -- Multi-Order Theory of Mind Q&A -- e utilizá-lo para comparar o desempenho de cinco LLMs com um novo benchmark coletado de adultos humanos. Descobrimos que o GPT-4 e o Flan-PaLM atingem desempenho em nível adulto e próximo ao adulto em tarefas de ToM no geral, e que o GPT-4 supera o desempenho adulto em inferências de 6ª ordem. Nossos resultados sugerem que há uma interação entre o tamanho do modelo e o ajuste fino para a realização de habilidades de ToM, e que os LLMs de melhor desempenho desenvolveram uma capacidade generalizada para ToM. Dado o papel que a ToM de ordem superior desempenha em uma ampla gama de comportamentos humanos cooperativos e competitivos, essas descobertas têm implicações significativas para aplicações de LLMs voltadas para o usuário.
The dominant framework for alignment of large language models (LLM), whether through reinforcement learning from human feedback or direct preference optimisation, is to learn from preference data. This involves building datasets where each element is a quadruplet composed of a prompt, two independent responses (completions of the prompt) and a human preference between the two independent responses, yielding a preferred and a dis-preferred response. Such data is typically scarce and expensive to collect. On the other hand, single-trajectory datasets where each element is a triplet composed of a prompt, a response and a human feedback is naturally more abundant. The canonical element of such datasets is for instance an LLM's response to a user's prompt followed by a user's feedback such as a thumbs-up/down. Consequently, in this work, we propose DRO, or Direct Reward Optimisation, as a framework and associated algorithms that do not require pairwise preferences. DRO uses a simple mean-squared objective that can be implemented in various ways. We validate our findings empirically, using T5 encoder-decoder language models, and show DRO's performance over selected baselines such as Kahneman-Tversky Optimization (KTO). Thus, we confirm that DRO is a simple and empirically compelling method for single-trajectory policy optimisation.
Modelos de linguagem de grande escala (LLMs) frequentemente alucinam e carecem da capacidade de fornecer atribuição para suas gerações. Modelos de linguagem semi-paramétricos, como o kNN-LM, abordam essas limitações refinando a saída de um LM para um prompt específico usando suas correspondências de vizinhos mais próximos em um armazenamento de dados não paramétrico. No entanto, esses modelos frequentemente exibem velocidades de inferência lentas e produzem textos não fluentes. Neste artigo, introduzimos o Nearest Neighbor Speculative Decoding (NEST), uma nova abordagem de modelagem de linguagem semi-paramétrica que é capaz de incorporar trechos de texto do mundo real de comprimento arbitrário nas gerações do LM e fornecer atribuição às suas fontes. O NEST realiza recuperação em nível de token em cada etapa de inferência para calcular uma distribuição de mistura semi-paramétrica e identificar continuações de trechos promissores em um corpus. Em seguida, ele usa um procedimento de decodificação especulativa aproximada que aceita um prefixo do trecho recuperado ou gera um novo token. O NEST melhora significativamente a qualidade da geração e a taxa de atribuição do LM base em uma variedade de tarefas intensivas em conhecimento, superando o método convencional kNN-LM e competindo de forma competitiva com a ampliação de recuperação em contexto. Além disso, o NEST melhora substancialmente a velocidade de geração, alcançando um aumento de 1,8x no tempo de inferência quando aplicado ao Llama-2-Chat 70B.
Este artigo apresenta o EasyAnimate, um método avançado para geração de vídeos que aproveita o poder da arquitetura transformer para obter resultados de alto desempenho. Expandimos o framework DiT, originalmente projetado para síntese de imagens 2D, para acomodar as complexidades da geração de vídeos 3D, incorporando um bloco de módulo de movimento. Esse módulo é utilizado para capturar a dinâmica temporal, garantindo assim a produção de quadros consistentes e transições de movimento suaves. O módulo de movimento pode ser adaptado a diversos métodos baselines do DiT para gerar vídeos com diferentes estilos. Ele também pode gerar vídeos com diferentes taxas de quadros e resoluções durante as fases de treinamento e inferência, sendo adequado tanto para imagens quanto para vídeos. Além disso, introduzimos o slice VAE, uma abordagem inovadora para condensar o eixo temporal, facilitando a geração de vídeos de longa duração. Atualmente, o EasyAnimate demonstra a capacidade de gerar vídeos com 144 quadros. Oferecemos um ecossistema holístico para produção de vídeos baseado no DiT, abrangendo aspectos como pré-processamento de dados, treinamento de VAE, treinamento de modelos DiT (tanto o modelo baseline quanto o modelo LoRA) e inferência de vídeo de ponta a ponta. O código está disponível em: https://github.com/aigc-apps/EasyAnimate. Estamos continuamente trabalhando para aprimorar o desempenho do nosso método.
Integrar múltiplos modelos generativos de base, especialmente aqueles treinados em diferentes modalidades, em algo maior do que a soma de suas partes apresenta desafios significativos. Dois obstáculos principais são a disponibilidade de dados alinhados (conceitos que contêm significado semelhante, mas são expressos de maneira diferente em diferentes modalidades) e a capacidade de aproveitar efetivamente as representações unimodais em tarefas generativas de domínio cruzado, sem comprometer suas capacidades unimodais originais. Propomos o Zipper, uma arquitetura de decodificador multi-torre que aborda essas preocupações ao usar atenção cruzada para compor de forma flexível modelos generativos multimodais a partir de decodificadores unimodais pré-treinados de forma independente. Em nossos experimentos que fundem as modalidades de fala e texto, mostramos que a arquitetura proposta tem um desempenho muito competitivo em cenários com dados limitados de texto-fala alinhados. Também demonstramos a flexibilidade do nosso modelo para manter seletivamente o desempenho de geração unimodal (por exemplo, geração de texto para texto) ao congelar a torre modal correspondente (por exemplo, texto). Em tarefas de modalidade cruzada, como reconhecimento automático de fala (ASR), onde a modalidade de saída é texto, mostramos que congelar o backbone de texto resulta em uma degradação de desempenho insignificante. Em tarefas de modalidade cruzada, como geração de texto para fala (TTS), onde a modalidade de saída é fala, mostramos que o uso de um backbone de fala pré-treinado resulta em um desempenho superior ao baseline.
A criação de versões digitais de alta fidelidade de cabeças humanas é um passo importante no processo de integrar ainda mais componentes virtuais em nosso cotidiano. Construir tais avatares é um problema de pesquisa desafiador, devido à alta demanda por fotorrealismo e desempenho de renderização em tempo real. Neste trabalho, propomos os Avatares Gaussianos Paramétricos Neurais (Neural Parametric Gaussian Avatars - NPGA), uma abordagem baseada em dados para criar avatares de alta fidelidade e controláveis a partir de gravações de vídeo multi-visão. Construímos nosso método em torno do 3D Gaussian Splatting devido à sua renderização altamente eficiente e para herdar a flexibilidade topológica de nuvens de pontos. Em contraste com trabalhos anteriores, condicionamos a dinâmica de nossos avatares no espaço rico de expressões dos modelos de cabeça paramétricos neurais (Neural Parametric Head Models - NPHM), em vez de modelos 3DMM baseados em malhas. Para isso, destilamos o campo de deformação reversa do nosso NPHM subjacente em deformações diretas que são compatíveis com a renderização baseada em rasterização. Todos os detalhes finos dependentes de expressão são aprendidos a partir dos vídeos multi-visão. Para aumentar a capacidade representacional de nossos avatares, aumentamos a nuvem de pontos Gaussianos canônica usando características latentes por primitiva que governam seu comportamento dinâmico. Para regular essa maior expressividade dinâmica, propomos termos Laplacianos nas características latentes e nas dinâmicas previstas. Avaliamos nosso método no conjunto de dados público NeRSemble, demonstrando que o NPGA supera significativamente os avatares de última geração anteriores na tarefa de auto-reencenação por 2,6 PSNR. Além disso, demonstramos capacidades precisas de animação a partir de vídeos monoculares do mundo real.
O aprendizado por reforço com feedback humano (RLHF, na sigla em inglês) tem demonstrado grande potencial no alinhamento de grandes modelos de linguagem (LLMs, na sigla em inglês) com as preferências humanas. Dependendo da disponibilidade de dados de preferência, tanto o RLHF online quanto o offline são áreas ativas de investigação. Um gargalo importante é entender como incorporar a estimativa de incerteza na função de recompensa aprendida a partir dos dados de preferência para o RLHF, independentemente de como esses dados são coletados. Embora os princípios de otimismo ou pessimismo sob incerteza sejam bem estabelecidos no aprendizado por reforço (RL) padrão, uma forma praticamente implementável e teoricamente fundamentada, adequada para grandes modelos de linguagem, ainda não está disponível, pois as técnicas padrão para construir intervalos de confiança tornam-se intratáveis sob parametrizações arbitrárias de políticas. Neste artigo, introduzimos uma abordagem unificada para RLHF online e offline -- a otimização de preferências com incentivo de valor (VPO, na sigla em inglês) -- que regulariza a estimativa de máxima verossimilhança da função de recompensa com a função de valor correspondente, modulada por um sinal para indicar se o otimismo ou o pessimismo é escolhido. A VPO também otimiza diretamente a política com modelagem implícita de recompensa e, portanto, compartilha um pipeline de RLHF mais simples, semelhante à otimização direta de preferências. Garantias teóricas da VPO são fornecidas para ambos os cenários, online e offline, correspondendo às taxas de suas contrapartes de RL padrão. Além disso, experimentos em sumarização de texto e diálogo verificam a praticidade e eficácia da VPO.
O conteúdo sonoro é um elemento indispensável para obras multimídia, como videogames, música e filmes. Modelos recentes de geração de som baseados em difusão de alta qualidade podem servir como ferramentas valiosas para os criadores. No entanto, apesar de produzirem sons de alta qualidade, esses modelos frequentemente sofrem com velocidades de inferência lentas. Essa desvantagem sobrecarrega os criadores, que normalmente refinam seus sons por meio de tentativa e erro para alinhá-los com suas intenções artísticas. Para resolver esse problema, introduzimos os Modelos de Trajetória de Consistência Sonora (SoundCTM). Nosso modelo permite uma transição flexível entre a geração de som de alta qualidade em uma etapa e uma qualidade sonora superior por meio de geração em múltiplas etapas. Isso permite que os criadores controlem inicialmente os sons com amostras de uma etapa antes de refiná-los por meio de geração em múltiplas etapas. Embora o CTM fundamentalmente alcance uma geração flexível em uma e múltiplas etapas, seu desempenho impressionante depende fortemente de um extrator de características pré-treinado adicional e de uma perda adversarial, que são caros para treinar e nem sempre estão disponíveis em outros domínios. Assim, reformulamos o framework de treinamento do CTM e introduzimos uma nova distância de características utilizando a rede do professor para uma perda de destilação. Além disso, ao destilar trajetórias guiadas sem classificador, treinamos modelos de estudante condicionais e incondicionais simultaneamente e interpolamos entre esses modelos durante a inferência. Também propomos frameworks de controle sem treinamento para o SoundCTM, aproveitando sua capacidade de amostragem flexível. O SoundCTM alcança tanto uma geração de som em tempo real promissora em uma etapa quanto em múltiplas etapas, sem usar nenhuma rede adicional pronta para uso. Além disso, demonstramos a capacidade do SoundCTM de gerar sons controláveis de maneira sem treinamento.
Os métodos existentes de geração de texto para 3D baseados em difusão concentram-se principalmente na produção de formas e aparências visualmente realistas, muitas vezes negligenciando as restrições físicas necessárias para tarefas subsequentes. Os modelos gerados frequentemente falham em manter o equilíbrio quando colocados em simulações baseadas em física ou impressos em 3D. Esse equilíbrio é crucial para satisfazer as intenções de design do usuário em jogos interativos, IA incorporada e robótica, onde modelos estáveis são necessários para interações confiáveis. Além disso, modelos estáveis garantem que objetos impressos em 3D, como estatuetas para decoração doméstica, possam ficar em pé por conta própria, sem a necessidade de suportes adicionais. Para preencher essa lacuna, apresentamos o Atlas3D, um método automático e de fácil implementação que aprimora as ferramentas existentes de texto para 3D baseadas em Amostragem de Destilação de Pontuação (SDS). O Atlas3D garante a geração de modelos 3D autossustentáveis que aderem às leis físicas de estabilidade sob gravidade, contato e atrito. Nossa abordagem combina uma nova função de perda baseada em simulação diferenciável com regularização inspirada na física, servindo como um módulo de refinamento ou pós-processamento para frameworks existentes. Verificamos a eficácia do Atlas3D por meio de extensas tarefas de geração e validamos os modelos 3D resultantes em ambientes simulados e no mundo real.