Artigos de pesquisa em IA selecionados diariamente com traduções
O raciocínio matemático representa um desafio significativo para modelos de linguagem devido à sua natureza complexa e estruturada. Neste artigo, apresentamos o DeepSeekMath 7B, que continua o pré-treinamento do DeepSeek-Coder-Base-v1.5 7B com 120 bilhões de tokens relacionados à matemática obtidos do Common Crawl, juntamente com dados de linguagem natural e código. O DeepSeekMath 7B alcançou uma pontuação impressionante de 51,7% no benchmark MATH de nível competitivo, sem depender de ferramentas externas ou técnicas de votação, aproximando-se do desempenho do Gemini-Ultra e do GPT-4. A auto-consistência em 64 amostras do DeepSeekMath 7B atingiu 60,9% no MATH. A capacidade de raciocínio matemático do DeepSeekMath é atribuída a dois fatores principais: primeiro, aproveitamos o potencial significativo dos dados públicos da web por meio de um pipeline de seleção de dados meticulosamente projetado. Segundo, introduzimos o Group Relative Policy Optimization (GRPO), uma variante do Proximal Policy Optimization (PPO), que aprimora as habilidades de raciocínio matemático enquanto otimiza simultaneamente o uso de memória do PPO.
Modelos de texto para imagem oferecem um novo nível de flexibilidade criativa, permitindo que os usuários guiem o processo de geração de imagens por meio de linguagem natural. No entanto, usar esses modelos para retratar consistentemente o mesmo assunto em diversos prompts continua sendo um desafio. As abordagens existentes ajustam o modelo para ensinar novas palavras que descrevem assuntos específicos fornecidos pelo usuário ou adicionam condicionamento de imagem ao modelo. Esses métodos exigem uma longa otimização por assunto ou pré-treinamento em larga escala. Além disso, eles lutam para alinhar as imagens geradas com os prompts de texto e enfrentam dificuldades ao retratar múltiplos assuntos. Aqui, apresentamos o ConsiStory, uma abordagem livre de treinamento que permite a geração consistente de assuntos ao compartilhar as ativações internas do modelo pré-treinado. Introduzimos um bloco de atenção compartilhada orientado por assunto e injeção de características baseada em correspondência para promover a consistência do assunto entre as imagens. Adicionalmente, desenvolvemos estratégias para incentivar a diversidade de layout enquanto mantemos a consistência do assunto. Comparamos o ConsiStory a uma variedade de baselines e demonstramos desempenho de ponta em consistência de assunto e alinhamento de texto, sem exigir um único passo de otimização. Por fim, o ConsiStory pode se estender naturalmente para cenários com múltiplos assuntos e até mesmo permitir personalização livre de treinamento para objetos comuns.
Para ajudar a comunidade de código aberto a ter um melhor entendimento dos modelos de linguagem de grande escala (LLMs) baseados em Mistura de Especialistas (MoE), treinamos e lançamos o OpenMoE, uma série de LLMs MoE decodificadores totalmente de código aberto e reproduzíveis, variando de 650M a 34B de parâmetros e treinados com até mais de 1T de tokens. Nossa investigação confirma que os LLMs baseados em MoE podem oferecer uma relação custo-benefício mais favorável do que os LLMs densos, destacando a eficácia potencial para o desenvolvimento futuro de LLMs. Outra contribuição importante deste estudo é uma análise aprofundada dos mecanismos de roteamento dentro de nossos modelos OpenMoE, levando a três descobertas significativas: Especialização Independente do Contexto, Aprendizado de Roteamento Precoce e Queda em Direção ao Fim. Descobrimos que as decisões de roteamento em modelos MoE são predominantemente baseadas em IDs de tokens, com relevância mínima do contexto. As atribuições de tokens para especialistas são determinadas precocemente na fase de pré-treinamento e permanecem praticamente inalteradas. Esse roteamento imperfeito pode resultar em degradação de desempenho, especialmente em tarefas sequenciais como conversas de múltiplos turnos, onde tokens que aparecem mais tarde em uma sequência têm maior probabilidade de serem descartados. Por fim, repensamos nosso design com base nas observações e análises mencionadas acima. Para facilitar o desenvolvimento futuro de LLMs MoE, propomos estratégias potenciais para mitigar os problemas que encontramos e aprimorar ainda mais os designs de LLMs MoE prontos para uso.
Modelos de espaço de estados (SSMs, na sigla em inglês) recentemente demonstraram desempenho competitivo em relação aos transformers em benchmarks de modelagem de linguagem em grande escala, ao mesmo tempo em que alcançam complexidade linear de tempo e memória em função do comprimento da sequência. Mamba, um modelo SSM lançado recentemente, mostra desempenho impressionante tanto em modelagem de linguagem quanto em tarefas de processamento de sequências longas. Simultaneamente, modelos de mistura de especialistas (MoE, na sigla em inglês) têm demonstrado desempenho notável enquanto reduzem significativamente os custos computacionais e de latência da inferência, às custas de uma maior pegada de memória. Neste artigo, apresentamos o BlackMamba, uma arquitetura inovadora que combina o SSM Mamba com o MoE para obter os benefícios de ambos. Demonstramos que o BlackMamba tem desempenho competitivo em relação tanto ao Mamba quanto aos baselines de transformers, e supera em FLOPs de inferência e treinamento. Treinamos totalmente e disponibilizamos publicamente modelos BlackMamba de 340M/1.5B e 630M/2.8B em 300B de tokens de um conjunto de dados personalizado. Mostramos que o BlackMamba herda e combina os benefícios das arquiteturas SSM e MoE, unindo a geração de complexidade linear do SSM com a inferência rápida e econômica do MoE. Disponibilizamos todos os pesos, checkpoints e código de inferência como código aberto. Código de inferência em: https://github.com/Zyphra/BlackMamba
O aprendizado de máquina interpretável explodiu como uma área de interesse na última década, impulsionado pelo surgimento de conjuntos de dados cada vez maiores e redes neurais profundas. Simultaneamente, os modelos de linguagem de grande escala (LLMs, na sigla em inglês) demonstraram capacidades notáveis em uma ampla gama de tarefas, oferecendo uma oportunidade para repensar as possibilidades no campo do aprendizado de máquina interpretável. Notavelmente, a capacidade de explicar em linguagem natural permite que os LLMs expandam a escala e a complexidade dos padrões que podem ser apresentados a um ser humano. No entanto, essas novas capacidades trazem novos desafios, como explicações alucinadas e custos computacionais imensos. Neste artigo de posicionamento, começamos revisando os métodos existentes para avaliar o campo emergente da interpretação de LLMs (tanto interpretar LLMs quanto usar LLMs para explicações). Argumentamos que, apesar de suas limitações, os LLMs têm o potencial de redefinir a interpretabilidade com um escopo mais ambicioso em muitas aplicações, incluindo na auditoria dos próprios LLMs. Destacamos duas prioridades de pesquisa emergentes para a interpretação de LLMs: usar LLMs para analisar diretamente novos conjuntos de dados e para gerar explicações interativas.
Alinhar modelos de linguagem (LMs) com feedback humano curado é crucial para controlar seus comportamentos em aplicações do mundo real. Vários métodos recentes de otimização de políticas, como DPO e SLiC, servem como alternativas promissoras à abordagem tradicional de Aprendizado por Reforço com Feedback Humano (RLHF). Na prática, o feedback humano frequentemente vem no formato de uma lista ordenada de múltiplas respostas para amortizar o custo de leitura do prompt. Múltiplas respostas também podem ser classificadas por modelos de recompensa ou feedback de IA. Faltam estudos sobre o ajuste direto a uma lista de respostas. Neste trabalho, formulamos o alinhamento de LM como um problema de ordenação listwise e descrevemos o framework de Otimização de Preferências Listwise (LiPO), onde a política pode potencialmente aprender de forma mais eficaz a partir de uma lista ordenada de respostas plausíveis dado o prompt. Essa visão estabelece uma conexão explícita com Aprendizado para Ordenação (LTR), onde a maioria dos trabalhos existentes de otimização de preferências pode ser mapeada para objetivos de ordenação existentes, especialmente os pares. Seguindo essa conexão, fornecemos uma análise de objetivos de ordenação que não são bem estudados para o alinhamento de LM, com DPO e SLiC como casos especiais quando o tamanho da lista é dois. Em particular, destacamos um método específico, LiPO-{\lambda}, que aproveita um objetivo de ordenação listwise de última geração e pondera cada par de preferências de uma maneira mais avançada. Mostramos que LiPO-{\lambda} pode superar DPO e SLiC por uma margem clara em duas tarefas de alinhamento de preferências.
Modelos recentes de difusão de texto para vídeo têm alcançado progressos impressionantes. Na prática, os usuários frequentemente desejam a capacidade de controlar o movimento de objetos e a movimentação da câmera de forma independente para a criação de vídeos personalizados. No entanto, os métodos atuais não focam no controle separado do movimento de objetos e da movimentação da câmera de maneira desacoplada, o que limita a controlabilidade e a flexibilidade dos modelos de texto para vídeo. Neste artigo, apresentamos o Direct-a-Video, um sistema que permite aos usuários especificar de forma independente movimentos para um ou vários objetos e/ou movimentações da câmera, como se estivessem dirigindo um vídeo. Propomos uma estratégia simples, porém eficaz, para o controle desacoplado do movimento de objetos e da movimentação da câmera. O movimento dos objetos é controlado por meio da modulação de atenção cruzada espacial utilizando os priors inerentes do modelo, sem a necessidade de otimização adicional. Para a movimentação da câmera, introduzimos novas camadas de atenção cruzada temporal para interpretar parâmetros quantitativos de movimentação da câmera. Além disso, empregamos uma abordagem baseada em aumento para treinar essas camadas de forma auto-supervisionada em um conjunto de dados de pequena escala, eliminando a necessidade de anotação explícita de movimento. Ambos os componentes operam de forma independente, permitindo controle individual ou combinado, e podem generalizar para cenários de domínio aberto. Experimentos extensivos demonstram a superioridade e a eficácia do nosso método. Página do projeto: https://direct-a-video.github.io/.
Apresentamos o InteractiveVideo, uma estrutura centrada no usuário para geração de vídeos. Diferente das abordagens generativas tradicionais que operam com base em imagens ou textos fornecidos pelo usuário, nossa estrutura foi projetada para interação dinâmica, permitindo que os usuários instruam o modelo generativo por meio de diversos mecanismos intuitivos durante todo o processo de geração, como prompts de texto e imagem, pintura, arrastar e soltar, etc. Propomos um mecanismo de Instrução Multimodal Sinérgica, projetado para integrar de forma contínua as instruções multimodais dos usuários em modelos generativos, facilitando assim uma interação cooperativa e responsiva entre as entradas do usuário e o processo generativo. Essa abordagem permite o refinamento iterativo e granular do resultado da geração por meio de instruções precisas e eficazes do usuário. Com o InteractiveVideo, os usuários têm a flexibilidade de ajustar meticulosamente aspectos-chave de um vídeo. Eles podem pintar a imagem de referência, editar semânticas e ajustar os movimentos do vídeo até que seus requisitos sejam totalmente atendidos. Código, modelos e demonstração estão disponíveis em https://github.com/invictus717/InteractiveVideo.
A poda estruturada de modelos de linguagem grandes (LLMs) modernos surgiu como uma forma de reduzir suas altas demandas computacionais. A poda em largura diminui o tamanho das matrizes de pesos de projeção (por exemplo, removendo cabeças de atenção) enquanto mantém o número de camadas. A poda em profundidade, por outro lado, remove camadas ou blocos inteiros, mantendo o tamanho dos pesos restantes inalterado. A maior parte da pesquisa atual se concentra apenas na poda em largura ou em uma combinação de poda em largura e profundidade, com pouca análise comparativa entre as duas unidades (largura versus profundidade) em relação ao seu impacto na eficiência de inferência de LLMs. Neste trabalho, mostramos que uma abordagem simples de poda em profundidade pode competir com métodos recentes de poda em largura em termos de desempenho em tarefas zero-shot. Nosso método de poda aumenta a velocidade de inferência, especialmente em condições com restrições de memória que exigem tamanhos de lote limitados para executar LLMs, onde a poda em largura é ineficaz. Esperamos que este trabalho possa ajudar a implantar LLMs em dispositivos locais e de borda.
Aprimorar grandes modelos de linguagem (LLMs) para compreender áudio — incluindo sons não verbais e fala não verbal — é de extrema importância para diversas aplicações reais desses modelos. Neste artigo, propomos o Audio Flamingo, um novo modelo de linguagem de áudio que apresenta: 1) fortes habilidades de compreensão de áudio, 2) a capacidade de se adaptar rapidamente a tarefas não vistas por meio de aprendizado em contexto e recuperação, e 3) habilidades robustas de diálogo multi-turn. Introduzimos uma série de técnicas de treinamento, design de arquitetura e estratégias de dados para aprimorar nosso modelo com essas capacidades. Avaliações extensas em diversas tarefas de compreensão de áudio confirmam a eficácia do nosso método, estabelecendo novos benchmarks de estado da arte.
Existe um abismo sensorial entre a Terra que os humanos habitam e os domínios digitais nos quais os agentes de IA modernos são criados. Para desenvolver agentes de IA que possam sentir, pensar e agir com a mesma flexibilidade que os humanos em ambientes do mundo real, é imperativo preencher a lacuna de realismo entre os mundos digital e físico. Como podemos incorporar agentes em um ambiente tão rico e diverso quanto aquele que habitamos, sem as limitações impostas por hardware e controle reais? Com esse objetivo, apresentamos o V-IRL: uma plataforma que permite que os agentes interajam de forma escalável com o mundo real em um ambiente virtual, porém realista. Nossa plataforma serve como um campo de testes para o desenvolvimento de agentes capazes de realizar diversas tarefas práticas e como um vasto ambiente de avaliação para medir o progresso em habilidades que abrangem percepção, tomada de decisão e interação com dados do mundo real em todo o globo.
Diante dos recentes avanços em modelos de linguagem de grande escala (LLMs) multimodais, há uma atenção crescente em escaloná-los de dados de imagem-texto para vídeos do mundo real mais informativos. Em comparação com imagens estáticas, o vídeo apresenta desafios únicos para o pré-treinamento em larga escala eficaz devido à modelagem de suas dinâmicas espaço-temporais. Neste artigo, abordamos essas limitações no pré-treinamento de vídeo-linguagem com uma decomposição eficiente de vídeo que representa cada vídeo como quadros-chave e movimentos temporais. Esses são então adaptados a um LLM usando tokenizadores bem projetados que discretizam informações visuais e temporais em alguns tokens, permitindo assim o pré-treinamento generativo unificado de vídeos, imagens e texto. Na inferência, os tokens gerados pelo LLM são cuidadosamente recuperados para o espaço de pixels contínuo original para criar diversos conteúdos de vídeo. Nosso framework proposto é capaz tanto de compreender quanto de gerar conteúdo de imagem e vídeo, conforme demonstrado por seu desempenho competitivo em 13 benchmarks multimodais de compreensão e geração de imagem e vídeo. Nosso código e modelos estarão disponíveis em https://video-lavit.github.io.
O poder dos grandes modelos de linguagem (LLMs) tem sido demonstrado por meio de numerosos recursos de dados e computação. No entanto, a aplicação de modelos de linguagem em dispositivos móveis enfrenta um grande desafio em relação aos custos de computação e memória, ou seja, modelos de linguagem compactos com alto desempenho são urgentemente necessários. Limitados pelo processo de treinamento altamente complexo, há muitos detalhes para otimizar modelos de linguagem que raramente são estudados cuidadosamente. Neste estudo, com base em um modelo de linguagem compacto com 1 bilhão de parâmetros, projetamos cuidadosamente uma série de estudos empíricos para analisar o efeito de cada componente. Três perspectivas são principalmente discutidas, ou seja, arquitetura neural, inicialização de parâmetros e estratégia de otimização. Várias fórmulas de design são empiricamente comprovadas como especialmente eficazes para modelos de linguagem compactos, incluindo compressão de tokenizador, ajustes de arquitetura, herança de parâmetros e treinamento em múltiplas rodadas. Em seguida, treinamos o PanGu-pi-1B Pro e o PanGu-pi-1.5B Pro em corpora multilingues de 1,6T, seguindo as fórmulas estabelecidas. Os resultados experimentais demonstram que a otimização e a arquitetura aprimoradas resultam em uma melhoria média notável de 8,87 em conjuntos de avaliação de benchmark para o PanGu-pi-1B Pro. Além disso, o PanGu-pi-1.5B Pro supera uma série de modelos SOTA com tamanhos maiores, validando seu desempenho superior. O código será lançado em breve (https://github.com/YuchuanTian/RethinkTinyLM).
Estudos recentes mostraram que modelos de linguagem de código em grande escala demonstram ganhos significativos de desempenho em tarefas subsequentes, como a geração de código. No entanto, a maioria dos trabalhos existentes sobre aprendizado de representação de código treina modelos em uma escala de centenas de milhões de parâmetros usando corpora de pré-treinamento muito limitados. Neste trabalho, impulsionamos o aprendizado de representação de código com uma vasta quantidade de dados de código por meio de um esquema de pré-treinamento em duas etapas. Primeiro, treinamos os codificadores usando uma mistura que aproveita tanto a aleatoriedade na modelagem de linguagem com mascaramento quanto o aspecto estrutural das linguagens de programação. Em seguida, aprimoramos as representações por meio de aprendizado contrastivo com negativos difíceis e positivos difíceis construídos de maneira não supervisionada. Estabelecemos um modelo de codificador pronto para uso que supera consistentemente os modelos existentes em uma ampla variedade de tarefas subsequentes por grandes margens. Para compreender os fatores que contribuem para o sucesso do aprendizado de representação de código, realizamos ablações detalhadas e compartilhamos nossas descobertas sobre (i) um esquema personalizado e eficaz de remoção de ruído em nível de token para código-fonte; (ii) a importância de negativos difíceis e positivos difíceis; (iii) como o aprendizado contrastivo bimodal proposto impulsiona o desempenho da busca semântica cross-lingual; e (iv) como os esquemas de pré-treinamento determinam a escala de desempenho das tarefas subsequentes com o tamanho do modelo.
Modelos de difusão Texto-para-Imagem (T2I) em larga escala revolucionaram a geração de imagens nos últimos anos. Embora possuam capacidades de geração diversas e de alta qualidade, traduzir essas habilidades para a edição de imagens em nível refinado continua sendo um desafio. Neste artigo, propomos o DiffEditor para corrigir duas fraquezas na edição de imagens baseada em difusão existente: (1) em cenários complexos, os resultados da edição frequentemente carecem de precisão e exibem artefatos inesperados; (2) falta de flexibilidade para harmonizar operações de edição, por exemplo, imaginar novo conteúdo. Em nossa solução, introduzimos prompts de imagem na edição de imagens em nível refinado, cooperando com o prompt de texto para descrever melhor o conteúdo da edição. Para aumentar a flexibilidade enquanto mantemos a consistência do conteúdo, combinamos localmente a equação diferencial estocástica (SDE) na amostragem da equação diferencial ordinária (ODE). Além disso, incorporamos orientação de gradiente baseada em pontuação regional e uma estratégia de viagem no tempo na amostragem de difusão, melhorando ainda mais a qualidade da edição. Experimentos extensivos demonstram que nosso método pode alcançar eficientemente desempenho de última geração em várias tarefas de edição de imagens em nível refinado, incluindo edição dentro de uma única imagem (por exemplo, movimentação de objetos, redimensionamento e arrastamento de conteúdo) e entre imagens (por exemplo, substituição de aparência e colagem de objetos). Nosso código-fonte está disponível em https://github.com/MC-E/DragonDiffusion.