Artigos de pesquisa em IA selecionados diariamente com traduções
O rápido desenvolvimento de modelos de linguagem de grande escala (LLMs) de código aberto tem sido verdadeiramente notável. No entanto, a lei de escalonamento descrita na literatura anterior apresenta conclusões variadas, o que lança uma nuvem sombria sobre o escalonamento de LLMs. Nós nos aprofundamos no estudo das leis de escalonamento e apresentamos nossas descobertas distintas que facilitam o escalonamento de modelos em grande escala em duas configurações comumente usadas em código aberto, 7B e 67B. Guiados pelas leis de escalonamento, introduzimos o DeepSeek LLM, um projeto dedicado ao avanço de modelos de linguagem de código aberto com uma perspectiva de longo prazo. Para apoiar a fase de pré-treinamento, desenvolvemos um conjunto de dados que atualmente consiste em 2 trilhões de tokens e está em constante expansão. Além disso, realizamos ajuste fino supervisionado (SFT) e Otimização de Preferência Direta (DPO) nos modelos base do DeepSeek LLM, resultando na criação dos modelos DeepSeek Chat. Nossos resultados de avaliação demonstram que o DeepSeek LLM 67B supera o LLaMA-2 70B em vários benchmarks, particularmente nos domínios de código, matemática e raciocínio. Além disso, avaliações de resposta aberta revelam que o DeepSeek LLM 67B Chat exibe desempenho superior em comparação com o GPT-3.5.
Avanços na Compreensão de Documentos Visualmente Complexos (VrDU) têm possibilitado a extração de informações e a resposta a perguntas sobre documentos com layouts intrincados. Dois tipos de arquiteturas emergiram — modelos baseados em transformers inspirados por LLMs (Large Language Models) e Redes Neurais de Grafos (Graph Neural Networks). Neste artigo, apresentamos o DocGraphLM, uma estrutura inovadora que combina modelos de linguagem pré-treinados com semântica de grafos. Para isso, propomos 1) uma arquitetura de codificador conjunta para representar documentos e 2) uma nova abordagem de previsão de links para reconstruir grafos de documentos. O DocGraphLM prevê tanto direções quanto distâncias entre nós usando uma função de perda conjunta convergente que prioriza a restauração da vizinhança e reduz a importância da detecção de nós distantes. Nossos experimentos em três conjuntos de dados state-of-the-art (SotA) mostram uma melhoria consistente em tarefas de extração de informações (IE) e resposta a perguntas (QA) com a adoção de características de grafos. Além disso, observamos que a incorporação dessas características acelera a convergência no processo de aprendizado durante o treinamento, apesar de serem construídas exclusivamente por meio de previsão de links.
Nós nos aprofundamos em um desafio sutil, mas significativo, inerente aos Vision Transformers (ViTs): os mapas de características desses modelos exibem artefatos em forma de grade, o que prejudica o desempenho dos ViTs em tarefas subsequentes. Nossas investigações rastreiam essa questão fundamental até os embeddings posicionais na etapa de entrada. Para resolver isso, propomos um novo modelo de ruído, que é universalmente aplicável a todos os ViTs. Especificamente, o modelo de ruído decompõe as saídas dos ViTs em três componentes: um termo semântico livre de artefatos de ruído e dois termos relacionados a artefatos que são condicionados às localizações dos pixels. Essa decomposição é alcançada ao impor consistência de características entre diferentes visões com campos neurais em uma base por imagem. Esse processo de otimização por imagem extrai características livres de artefatos das saídas brutas dos ViTs, fornecendo características limpas para aplicações offline. Expandindo o escopo de nossa solução para suportar funcionalidade online, introduzimos um denoiser aprendível para prever características livres de artefatos diretamente das saídas não processadas dos ViTs, o que mostra capacidades notáveis de generalização para novos dados sem a necessidade de otimização por imagem. Nossa abordagem em duas etapas, denominada Denoising Vision Transformers (DVT), não requer o retreinamento de ViTs pré-treinados existentes e é imediatamente aplicável a qualquer arquitetura baseada em Transformers. Avaliamos nosso método em uma variedade de ViTs representativos (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Avaliações extensas demonstram que nosso DVT melhora consistentemente e de forma significativa os modelos de propósito geral mais avançados existentes em tarefas semânticas e geométricas em vários conjuntos de dados (por exemplo, +3,84 mIoU). Esperamos que nosso estudo incentive uma reavaliação do design dos ViTs, especialmente em relação ao uso ingênuo de embeddings posicionais.
O Stable Diffusion XL (SDXL) tornou-se o melhor modelo de texto para imagem (T2I) de código aberto devido à sua versatilidade e qualidade de imagem de alto nível. Abordar de forma eficiente as demandas computacionais dos modelos SDXL é crucial para ampliar seu alcance e aplicabilidade. Neste trabalho, introduzimos duas variantes reduzidas, o Segmind Stable Diffusion (SSD-1B) e o Segmind-Vega, com UNets de 1,3 bilhões e 0,74 bilhões de parâmetros, respectivamente, alcançados por meio da remoção progressiva utilizando perdas em nível de camada, focando na redução do tamanho do modelo enquanto preservamos a qualidade gerativa. Disponibilizamos os pesos desses modelos em https://hf.co/Segmind. Nossa metodologia envolve a eliminação de redes residuais e blocos de transformadores da estrutura U-Net do SDXL, resultando em reduções significativas de parâmetros e latência. Nossos modelos compactos emulam efetivamente o SDXL original ao aproveitar o conhecimento transferido, alcançando resultados competitivos em comparação com o SDXL maior, que possui bilhões de parâmetros. Nosso trabalho destaca a eficácia da destilação de conhecimento combinada com perdas em nível de camada na redução do tamanho do modelo, mantendo as capacidades gerativas de alta qualidade do SDXL, facilitando assim uma implantação mais acessível em ambientes com recursos limitados.
O CLIP e o Segment Anything Model (SAM) são modelos fundamentais de visão (VFMs) notáveis. O SAM se destaca em tarefas de segmentação em diversos domínios, enquanto o CLIP é reconhecido por suas capacidades de reconhecimento zero-shot. Este artigo apresenta uma exploração detalhada da integração desses dois modelos em um framework unificado. Especificamente, introduzimos o Open-Vocabulary SAM, um modelo inspirado no SAM projetado para segmentação interativa e reconhecimento simultâneos, aproveitando dois módulos únicos de transferência de conhecimento: SAM2CLIP e CLIP2SAM. O primeiro adapta o conhecimento do SAM para o CLIP por meio de destilação e adaptadores de transformadores aprendíveis, enquanto o segundo transfere o conhecimento do CLIP para o SAM, aprimorando suas capacidades de reconhecimento. Experimentos extensos em diversos conjuntos de dados e detectores mostram a eficácia do Open-Vocabulary SAM tanto em tarefas de segmentação quanto de reconhecimento, superando significativamente as abordagens básicas de simplesmente combinar o SAM e o CLIP. Além disso, com o auxílio de treinamento em dados de classificação de imagens, nosso método pode segmentar e reconhecer aproximadamente 22.000 classes.
Nos últimos anos, a geração de fala tem apresentado avanços notáveis, alcançando agora a capacidade de geração one-shot que muitas vezes é virtualmente indistinguível da voz humana real. A integração desses avanços na geração de fala com modelos de linguagem de grande escala pode revolucionar uma ampla gama de aplicações. No entanto, certas aplicações, como sistemas conversacionais assistivos, exigem ferramentas de geração de fala natural e conversacional que também operem com eficiência em tempo real. Os modelos state-of-the-art atuais, como VALL-E e SoundStorm, alimentados por codecs de áudio neurais hierárquicos, exigem grandes componentes neurais e extensos dados de treinamento para funcionar bem. Em contraste, o MQTTS visa construir modelos TTS conversacionais mais compactos, aproveitando dados de fala conversacional em menor escala da vida real. No entanto, sua natureza autoregressiva resulta em alta latência de inferência, limitando assim seu uso em tempo real. Para mitigar as limitações atuais dos modelos TTS state-of-the-art, ao mesmo tempo em que aproveitamos seus pontos fortes, neste trabalho introduzimos a série de modelos Pheme que 1) oferece modelos compactos, mas de alto desempenho, 2) permite a geração paralela de fala 3) natural e conversacional, e 4) pode ser treinada de forma eficiente com dados conversacionais em menor escala, reduzindo a demanda de dados em mais de 10 vezes, mas ainda assim correspondendo à qualidade dos modelos TTS autoregressivos. Também mostramos que, por meio de uma simples destilação professor-aluno, podemos alcançar melhorias significativas na qualidade da voz para configurações de um único falante, com base em checkpoints pré-treinados do Pheme, utilizando apenas fala sintética gerada por modelos professores muito maiores. Amostras de áudio e modelos pré-treinados estão disponíveis online.