Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório, apresentamos o modelo mais recente da família Gemini, o Gemini 1.5 Pro, um modelo multimodal de mistura de especialistas altamente eficiente em termos de computação, capaz de recuperar e raciocinar sobre informações detalhadas a partir de milhões de tokens de contexto, incluindo múltiplos documentos extensos e horas de vídeo e áudio. O Gemini 1.5 Pro alcança uma recuperação quase perfeita em tarefas de recuperação de contexto longo em várias modalidades, melhora o estado da arte em QA (Question Answering) de documentos longos, QA de vídeos longos e ASR (Automatic Speech Recognition) de contexto longo, e iguala ou supera o desempenho de ponta do Gemini 1.0 Ultra em um amplo conjunto de benchmarks. Ao estudar os limites da capacidade de contexto longo do Gemini 1.5 Pro, observamos uma melhoria contínua na previsão do próximo token e uma recuperação quase perfeita (>99%) em até pelo menos 10 milhões de tokens, um salto geracional em relação a modelos existentes como o Claude 2.1 (200k) e o GPT-4 Turbo (128k). Por fim, destacamos novas capacidades surpreendentes de modelos de linguagem de grande escala na fronteira; quando fornecido com um manual de gramática para o Kalamang, uma língua com menos de 200 falantes em todo o mundo, o modelo aprende a traduzir do inglês para o Kalamang em um nível semelhante ao de uma pessoa que aprendeu a partir do mesmo conteúdo.
Apresentamos o DeepSeek-VL, um Modelo de Visão e Linguagem (VL) de código aberto projetado para aplicações práticas de compreensão visual e linguística. Nossa abordagem é estruturada em torno de três dimensões principais: Buscamos garantir que nossos dados sejam diversos, escaláveis e cubram extensivamente cenários do mundo real, incluindo capturas de tela da web, PDFs, OCR, gráficos e conteúdo baseado em conhecimento, visando uma representação abrangente de contextos práticos. Além disso, criamos uma taxonomia de casos de uso a partir de cenários reais de usuários e construímos um conjunto de dados de ajuste de instruções de acordo. O ajuste fino com esse conjunto de dados melhora substancialmente a experiência do usuário do modelo em aplicações práticas. Considerando a eficiência e as demandas da maioria dos cenários do mundo real, o DeepSeek-VL incorpora um codificador visual híbrido que processa eficientemente imagens de alta resolução (1024 x 1024), mantendo um custo computacional relativamente baixo. Essa escolha de design garante a capacidade do modelo de capturar informações semânticas críticas e detalhadas em diversas tarefas visuais. Postulamos que um Modelo de Visão e Linguagem proficiente deve, antes de tudo, possuir fortes habilidades linguísticas. Para garantir a preservação das capacidades do LLM durante o pré-treinamento, investigamos uma estratégia eficaz de pré-treinamento VL, integrando o treinamento do LLM desde o início e gerenciando cuidadosamente a dinâmica competitiva observada entre as modalidades de visão e linguagem. A família DeepSeek-VL (tanto os modelos de 1,3B quanto 7B) demonstra experiências de usuário superiores como um chatbot de visão e linguagem em aplicações do mundo real, alcançando desempenho de ponta ou competitivo em uma ampla gama de benchmarks visuais e linguísticos no mesmo tamanho de modelo, enquanto mantém um desempenho robusto em benchmarks centrados em linguagem. Disponibilizamos publicamente os modelos de 1,3B e 7B para fomentar inovações baseadas nesse modelo de fundação.
Os modelos de difusão têm demonstrado desempenho notável no domínio de geração de texto para imagem. No entanto, a maioria dos modelos amplamente utilizados ainda emprega o CLIP como seu codificador de texto, o que limita sua capacidade de compreender prompts densos, abrangendo múltiplos objetos, atributos detalhados, relacionamentos complexos, alinhamento de texto longo, etc. Neste artigo, introduzimos um Adaptador Eficiente de Modelo de Linguagem Grande, denominado ELLA, que equipa modelos de difusão de texto para imagem com poderosos Modelos de Linguagem Grande (LLM) para melhorar o alinhamento de texto sem o treinamento de U-Net ou LLM. Para conectar de forma contínua dois modelos pré-treinados, investigamos uma variedade de designs de conectores de alinhamento semântico e propomos um novo módulo, o Conector Semântico Consciente do Timestep (TSC), que extrai dinamicamente condições dependentes do timestep do LLM. Nossa abordagem adapta características semânticas em diferentes estágios do processo de remoção de ruído, auxiliando os modelos de difusão na interpretação de prompts longos e intrincados ao longo dos timesteps de amostragem. Além disso, o ELLA pode ser facilmente incorporado a modelos e ferramentas da comunidade para melhorar suas capacidades de seguir prompts. Para avaliar modelos de texto para imagem no seguimento de prompts densos, introduzimos o Benchmark de Grafo de Prompt Denso (DPG-Bench), um benchmark desafiador composto por 1K prompts densos. Experimentos extensivos demonstram a superioridade do ELLA no seguimento de prompts densos em comparação com métodos state-of-the-art, particularmente em composições de múltiplos objetos envolvendo diversos atributos e relacionamentos.
No cenário em constante evolução do áudio digital, o Spotify, conhecido por seu conteúdo musical e de podcasts, recentemente introduziu audiolivros para sua vasta base de usuários. Embora promissora, essa iniciativa apresenta desafios significativos para as recomendações personalizadas. Diferente de músicas e podcasts, os audiolivros, inicialmente disponíveis mediante pagamento, não podem ser facilmente "folheados" antes da compra, o que eleva a importância da relevância das recomendações. Além disso, a introdução de um novo tipo de conteúdo em uma plataforma existente enfrenta uma extrema escassez de dados, já que a maioria dos usuários não está familiarizada com esse novo formato. Por fim, recomendar conteúdo para milhões de usuários exige que o modelo seja rápido e escalável. Para enfrentar esses desafios, utilizamos as preferências dos usuários em relação a podcasts e músicas e introduzimos o 2T-HGNN, um sistema de recomendação escalável que combina Redes Neurais em Grafos Heterogêneos (HGNNs) e um modelo Two Tower (2T). Essa abordagem inovadora revela relações sutis entre os itens, garantindo baixa latência e complexidade. Desacoplamos os usuários do grafo HGNN e propomos um amostrador de vizinhos multi-link inovador. Essas escolhas, juntamente com o componente 2T, reduzem significativamente a complexidade do modelo HGNN. Avaliações empíricas envolvendo milhões de usuários mostram uma melhoria significativa na qualidade das recomendações personalizadas, resultando em um aumento de +46% na taxa de início de novos audiolivros e um crescimento de +23% nas taxas de streaming. Curiosamente, o impacto do nosso modelo vai além dos audiolivros, beneficiando produtos consolidados, como podcasts.
Os avanços recentes em sistemas generativos de texto para imagem têm sido amplamente impulsionados por modelos de difusão. No entanto, os modelos de difusão de estágio único ainda enfrentam desafios em termos de eficiência computacional e refinamento de detalhes da imagem. Para abordar essa questão, propomos o CogView3, uma estrutura inovadora em cascata que aprimora o desempenho da difusão de texto para imagem. O CogView3 é o primeiro modelo a implementar a difusão em retransmissão no domínio da geração de texto para imagem, executando a tarefa primeiro criando imagens de baixa resolução e, em seguida, aplicando super-resolução baseada em retransmissão. Essa metodologia não apenas resulta em saídas competitivas de texto para imagem, mas também reduz significativamente os custos de treinamento e inferência. Nossos resultados experimentais demonstram que o CogView3 supera o SDXL, o atual modelo de difusão de texto para imagem de código aberto mais avançado, em 77,0% nas avaliações humanas, tudo isso exigindo apenas cerca de metade do tempo de inferência. A variante destilada do CogView3 alcança desempenho comparável enquanto utiliza apenas 1/10 do tempo de inferência do SDXL.
Modelos generativos 3D feed-forward, como o Large Reconstruction Model (LRM), demonstraram uma velocidade de geração excepcional. No entanto, os métodos baseados em transformers não aproveitam os priors geométricos do componente triplane em sua arquitetura, frequentemente resultando em qualidade subótima devido ao tamanho limitado dos dados 3D e ao treinamento lento. Neste trabalho, apresentamos o Convolutional Reconstruction Model (CRM), um modelo generativo feed-forward de alta fidelidade que gera uma imagem única para 3D. Reconhecendo as limitações impostas pelos dados 3D esparsos, destacamos a necessidade de integrar priors geométricos no design da rede. O CRM se baseia na observação fundamental de que a visualização do triplane exibe correspondência espacial de seis imagens ortográficas. Primeiro, ele gera seis imagens de vista ortográfica a partir de uma única imagem de entrada, em seguida, alimenta essas imagens em uma U-Net convolucional, aproveitando suas fortes capacidades de alinhamento em nível de pixel e sua largura de banda significativa para criar um triplane de alta resolução. O CRM ainda emprega Flexicubes como representação geométrica, facilitando a otimização direta de malhas texturizadas de ponta a ponta. No geral, nosso modelo produz uma malha texturizada de alta fidelidade a partir de uma imagem em apenas 10 segundos, sem qualquer otimização em tempo de teste.
Modelos de difusão texto-para-imagem (T2I) demonstraram capacidades sem precedentes na criação de imagens realistas e esteticamente agradáveis. Em contraste, modelos de difusão texto-para-vídeo (T2V) ainda estão muito atrás em termos de qualidade de quadro e alinhamento de texto, devido à insuficiência na qualidade e quantidade de vídeos de treinamento. Neste artigo, apresentamos o VideoElevator, um método sem necessidade de treinamento e plug-and-play, que eleva o desempenho de T2V utilizando as capacidades superiores de T2I. Diferente da amostragem convencional de T2V (ou seja, modelagem temporal e espacial), o VideoElevator decompõe explicitamente cada etapa de amostragem em refinamento de movimento temporal e elevação de qualidade espacial. Especificamente, o refinamento de movimento temporal utiliza T2V encapsulado para melhorar a consistência temporal, seguido pela inversão para a distribuição de ruído exigida por T2I. Em seguida, a elevação de qualidade espacial aproveita T2I inflado para prever diretamente latentes menos ruidosos, adicionando detalhes mais foto-realistas. Realizamos experimentos com uma ampla variedade de prompts sob a combinação de diversos T2V e T2I. Os resultados mostram que o VideoElevator não apenas melhora o desempenho das linhas de base de T2V com T2I fundamentais, mas também facilita a síntese de vídeos estilizados com T2I personalizados. Nosso código está disponível em https://github.com/YBYBZhang/VideoElevator.