Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de áudio musical de ponta a ponta utilizando técnicas de aprendizado profundo tem testemunhado uma explosão de atividade recentemente. No entanto, a maioria dos modelos concentra-se em gerar música totalmente mixada em resposta a informações de condicionamento abstratas. Neste trabalho, apresentamos um paradigma alternativo para produzir modelos de geração musical que podem ouvir e responder ao contexto musical. Descrevemos como tal modelo pode ser construído usando uma arquitetura baseada em transformadores não autoregressivos e apresentamos uma série de melhorias arquiteturais e de amostragem inovadoras. Treinamos a arquitetura descrita tanto em um conjunto de dados de código aberto quanto em um conjunto de dados proprietário. Avaliamos os modelos produzidos utilizando métricas de qualidade padrão e uma nova abordagem baseada em descritores de recuperação de informações musicais. O modelo resultante atinge a qualidade de áudio dos modelos de última geração condicionados por texto, além de exibir uma forte coerência musical com seu contexto.
Modelos em pequena escala oferecem diversas vantagens computacionais, mas até que ponto o tamanho é crucial para habilidades de resolução de problemas ainda é uma questão em aberto. Especificamente para resolver matemática do ensino fundamental, o menor tamanho de modelo necessário até agora para superar a barreira de 80\% no benchmark GSM8K permanece sendo 34B. Nosso trabalho investiga como conjuntos de dados de alta qualidade podem ser a chave para que modelos de linguagem pequenos adquiram raciocínio matemático. Apresentamos o TinyGSM, um conjunto de dados sintético de 12,3 milhões de problemas de matemática do ensino fundamental emparelhados com soluções em Python, gerados integralmente pelo GPT-3.5. Após o ajuste fino no TinyGSM, descobrimos que um duo composto por um modelo de geração de 1,3B e um modelo verificador de 1,3B pode alcançar 81,5\% de precisão, superando modelos existentes que são ordens de magnitude maiores. Isso também rivaliza com o desempenho do modelo "professor" GPT-3.5 (77,4\%), a partir do qual os dados de treinamento do nosso modelo foram gerados. Nossa abordagem é simples e possui dois componentes principais: 1) o conjunto de dados de alta qualidade TinyGSM, 2) o uso de um verificador, que seleciona as saídas finais a partir de múltiplas gerações candidatas.
As pessoas estão gastando uma quantidade enorme de tempo em dispositivos digitais por meio de interfaces gráficas de usuário (GUIs), como telas de computador ou smartphones. Modelos de linguagem de grande escala (LLMs), como o ChatGPT, podem auxiliar as pessoas em tarefas como escrever e-mails, mas têm dificuldade em compreender e interagir com GUIs, limitando assim seu potencial para aumentar os níveis de automação. Neste artigo, apresentamos o CogAgent, um modelo de linguagem visual (VLM) com 18 bilhões de parâmetros especializado em compreensão e navegação de GUIs. Ao utilizar codificadores de imagem de baixa e alta resolução, o CogAgent suporta entradas com uma resolução de 1120*1120, permitindo que reconheça elementos de página e textos minúsculos. Como um modelo de linguagem visual generalista, o CogAgent alcança o estado da arte em cinco benchmarks ricos em texto e quatro benchmarks gerais de VQA, incluindo VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet e POPE. O CogAgent, utilizando apenas capturas de tela como entrada, supera métodos baseados em LLMs que consomem texto HTML extraído em tarefas de navegação de GUI tanto em PC quanto em Android — Mind2Web e AITW, avançando o estado da arte. O modelo e os códigos estão disponíveis em https://github.com/THUDM/CogVLM.
Os modelos de consistência têm demonstrado uma capacidade poderosa na geração eficiente de imagens, permitindo a síntese em poucas etapas de amostragem, o que reduz o alto custo computacional dos modelos de difusão. No entanto, o modelo de consistência na geração de vídeos, que é mais desafiador e consome mais recursos, ainda é pouco explorado. Neste relatório, apresentamos o framework VideoLCM para preencher essa lacuna, que aproveita o conceito de modelos de consistência da geração de imagens para sintetizar vídeos de forma eficiente com um número mínimo de etapas, mantendo alta qualidade. O VideoLCM é construído sobre modelos de difusão latente de vídeo existentes e incorpora técnicas de destilação de consistência para treinar o modelo de consistência latente. Os resultados experimentais revelam a eficácia do nosso VideoLCM em termos de eficiência computacional, fidelidade e consistência temporal. Notavelmente, o VideoLCM alcança uma síntese de vídeo de alta fidelidade e suavidade com apenas quatro etapas de amostragem, mostrando o potencial para síntese em tempo real. Esperamos que o VideoLCM possa servir como uma linha de base simples, porém eficaz, para pesquisas subsequentes. O código-fonte e os modelos estarão publicamente disponíveis.
Métodos de curadoria para grandes conjuntos de dados visão-linguagem envolvem um equilíbrio entre o tamanho e a qualidade do conjunto de dados. No entanto, mesmo as legendas curadas de mais alta qualidade disponíveis são muito curtas para capturar os detalhes visuais ricos de uma imagem. Para demonstrar o valor de pares imagem-texto densos e altamente alinhados, coletamos o conjunto de dados Densely Captioned Images (DCI), contendo 8.012 imagens naturais anotadas manualmente com descrições alinhadas a máscaras, com uma média de mais de 1.000 palavras cada. Com legendas precisas e confiáveis associadas a partes específicas de uma imagem, podemos avaliar a compreensão de modelos visão-linguagem (VLMs) sobre o conteúdo da imagem com uma nova tarefa que associa cada legenda ao seu sub-recorte correspondente. Como os modelos atuais geralmente são limitados a 77 tokens de texto, também introduzimos uma versão resumida (sDCI) na qual o comprimento de cada legenda é limitado. Mostramos que técnicas modernas que avançam em benchmarks padrão não correspondem a melhorias significativas em nosso benchmark baseado no sDCI. Por fim, ajustamos o CLIP usando o sDCI e mostramos melhorias significativas em relação à linha de base, apesar de um conjunto de treinamento pequeno. Ao liberar o primeiro conjunto de dados de legendagem densa de imagens anotado manualmente, esperamos possibilitar o desenvolvimento de novos benchmarks ou receitas de ajuste fino para a próxima geração de VLMs.
Os modelos generativos atuais baseados em difusão ou fluxo para formas 3D se dividem em duas abordagens: destilar modelos de difusão de imagens 2D pré-treinados e treinar diretamente em formas 3D. Ao treinar modelos de difusão ou fluxo em formas 3D, uma escolha crucial de projeto é a representação da forma. Uma representação eficaz da forma precisa aderir a três princípios de projeto: deve permitir uma conversão eficiente de grandes conjuntos de dados 3D para a forma de representação; deve oferecer um bom equilíbrio entre poder de aproximação e número de parâmetros; e deve ter uma forma tensorial simples que seja compatível com arquiteturas neurais poderosas existentes. Embora representações padrão de formas 3D, como grades volumétricas e nuvens de pontos, não atendam a todos esses princípios simultaneamente, defendemos neste artigo uma nova representação que o faz. Apresentamos o Mosaic-SDF (M-SDF): uma representação simples de formas 3D que aproxima a Função de Distância com Sinal (SDF) de uma forma dada, utilizando um conjunto de grades locais distribuídas próximo à fronteira da forma. A representação M-SDF é rápida de calcular para cada forma individual, tornando-a facilmente paralelizável; é eficiente em termos de parâmetros, pois cobre apenas o espaço ao redor da fronteira da forma; e possui uma forma matricial simples, compatível com arquiteturas baseadas em Transformers. Demonstramos a eficácia da representação M-SDF ao utilizá-la para treinar um modelo generativo de fluxo 3D, incluindo geração condicionada por classe com o conjunto de dados 3D Warehouse, e geração de texto para 3D utilizando um conjunto de dados de aproximadamente 600 mil pares de legenda-forma.
Modelos de linguagem de grande escala têm alcançado grande sucesso nos últimos anos, assim como suas variantes na área de visão. Os modelos existentes de visão e linguagem são capazes de descrever imagens em linguagem natural, responder a perguntas relacionadas a aspectos visuais ou realizar raciocínios complexos sobre a imagem. No entanto, ainda não está claro como tarefas de localização, como a ancoragem de palavras ou a localização referencial, podem ser realizadas usando modelos de linguagem de grande escala. Neste trabalho, nosso objetivo é desenvolver um modelo de visão e linguagem que possa utilizar localizações, como um conjunto de pontos ou caixas delimitadoras, tanto como entradas quanto como saídas. Quando as localizações são usadas como entradas, o modelo realiza legendagem condicionada à localização, gerando legendas para o objeto ou região indicada. Ao gerar localizações como saídas, nosso modelo regride coordenadas de pixels para cada palavra de saída gerada pelo modelo de linguagem, realizando assim a ancoragem densa de palavras. Nosso modelo é pré-treinado no conjunto de dados Localized Narrative, que contém legendas alinhadas a pixels com base na atenção humana. Demonstramos que nosso modelo pode ser aplicado a diversas tarefas de visão e linguagem com consciência de localização, incluindo localização referencial, legendagem condicionada à localização e legendagem densa de objetos, alcançando desempenho de ponta em RefCOCO e Visual Genome. Página do projeto: https://jerryxu.net/PixelLLM.
Impulsionada por modelos de geração de imagem a partir de texto em grande escala, a geração de avatares 3D a partir de texto tem feito progressos promissores. No entanto, a maioria dos métodos falha em produzir resultados fotorealísticos, limitados por geometria imprecisa e aparência de baixa qualidade. Visando uma geração de avatares mais prática, apresentamos o SEEAvatar, um método para gerar avatares 3D fotorealísticos a partir de texto com restrições de SElf-Evolving (Auto-Evolução) para geometria e aparência desacopladas. Para a geometria, propomos restringir o avatar otimizado em uma forma global adequada com um avatar modelo. O avatar modelo é inicializado com um conhecimento prévio humano e pode ser atualizado pelo avatar otimizado periodicamente como um modelo em evolução, o que permite uma geração de formas mais flexível. Além disso, a geometria também é restringida pelo conhecimento prévio humano estático em partes locais, como rosto e mãos, para manter estruturas delicadas. Para a geração de aparência, usamos um modelo de difusão aprimorado por engenharia de prompt para guiar um pipeline de renderização baseado em física, gerando texturas realistas. A restrição de luminosidade é aplicada na textura de albedo para suprimir efeitos de iluminação incorretos. Experimentos mostram que nosso método supera métodos anteriores tanto na qualidade global quanto local da geometria e aparência por uma grande margem. Como nosso método pode produzir malhas e texturas de alta qualidade, esses ativos podem ser aplicados diretamente no pipeline gráfico clássico para renderização realista sob qualquer condição de iluminação. Página do projeto: https://seeavatar3d.github.io.
Este artigo introduz uma abordagem inovadora para aprimorar as capacidades dos Modelos de Linguagem de Grande Escala (LLMs) no processamento e compreensão de sequências extensas de texto, um aspecto crítico em aplicações que exigem profunda compreensão e síntese de grandes volumes de informação. Reconhecendo os desafios inerentes à extensão da janela de contexto para LLMs, principalmente construídos sobre a arquitetura Transformer, propomos uma nova arquitetura de modelo, denominada Zebra. Essa arquitetura gerencia de forma eficiente os problemas de complexidade quadrática de tempo e memória associados à atenção completa no Transformer, empregando camadas de atenção local-global agrupadas. Nosso modelo, semelhante às listras alternadas de uma zebra, equilibra camadas de atenção local e global, reduzindo significativamente os requisitos computacionais e o consumo de memória. Experimentos abrangentes, incluindo pré-treinamento do zero, continuação do treinamento de adaptação de contexto longo e ajuste fino de instruções longas, são conduzidos para avaliar o desempenho do Zebra. Os resultados mostram que o Zebra alcança desempenho comparável ou superior em benchmarks de sequências curtas e longas, ao mesmo tempo em que melhora a eficiência de treinamento e inferência.
Recently introduced ControlNet has the ability to steer the text-driven image generation process with geometric input such as human 2D pose, or edge features. While ControlNet provides control over the geometric form of the instances in the generated image, it lacks the capability to dictate the visual appearance of each instance. We present FineControlNet to provide fine control over each instance's appearance while maintaining the precise pose control capability. Specifically, we develop and demonstrate FineControlNet with geometric control via human pose images and appearance control via instance-level text prompts. The spatial alignment of instance-specific text prompts and 2D poses in latent space enables the fine control capabilities of FineControlNet. We evaluate the performance of FineControlNet with rigorous comparison against state-of-the-art pose-conditioned text-to-image diffusion models. FineControlNet achieves superior performance in generating images that follow the user-provided instance-specific text prompts and poses compared with existing methods. Project webpage: https://samsunglabs.github.io/FineControlNet-project-page
A construção de agentes generalistas capazes de realizar diversos objetivos em ambientes ricos e abertos é uma das fronteiras de pesquisa no aprendizado por reforço. Um fator limitante chave para a construção de agentes generalistas com RL tem sido a necessidade de um grande número de funções de recompensa para alcançar diferentes objetivos. Investigamos a viabilidade de usar modelos visão-linguagem (VLMs) prontos para uso como fontes de recompensas para agentes de aprendizado por reforço. Mostramos como recompensas para a realização visual de uma variedade de objetivos linguísticos podem ser derivadas da família de modelos CLIP e usadas para treinar agentes de RL que podem alcançar uma variedade de objetivos linguísticos. Demonstramos essa abordagem em dois domínios visuais distintos e apresentamos uma tendência de escalonamento mostrando como VLMs maiores levam a recompensas mais precisas para a realização de objetivos visuais, o que, por sua vez, produz agentes de RL mais capazes.
Modelos de difusão (DMs) têm ganhado destaque devido à sua capacidade de gerar imagens de alta qualidade e variadas, com avanços recentes na geração de imagens a partir de texto. O foco da pesquisa está agora se voltando para a controlabilidade dos DMs. Um desafio significativo nesse domínio é a edição localizada, onde áreas específicas de uma imagem são modificadas sem afetar o restante do conteúdo. Este artigo apresenta o LIME para edição localizada de imagens em modelos de difusão que não exigem regiões de interesse (RoI) especificadas pelo usuário ou entradas de texto adicionais. Nosso método emprega características de métodos pré-treinados e uma técnica simples de agrupamento para obter mapas de segmentação semântica precisos. Em seguida, ao aproveitar mapas de atenção cruzada, ele refina esses segmentos para edições localizadas. Por fim, propomos uma nova técnica de regularização de atenção cruzada que penaliza pontuações de atenção cruzada não relacionadas na RoI durante as etapas de redução de ruído, garantindo edições localizadas. Nossa abordagem, sem retreinamento ou ajuste fino, melhora consistentemente o desempenho de métodos existentes em diversos benchmarks de edição.
Apresentamos o GLEE neste trabalho, um modelo de base em nível de objeto para localizar e identificar objetos em imagens e vídeos. Por meio de um framework unificado, o GLEE realiza detecção, segmentação, rastreamento, ancoragem e identificação de objetos arbitrários em cenários de mundo aberto para diversas tarefas de percepção de objetos. Adotando uma estratégia de aprendizado coesa, o GLEE adquire conhecimento a partir de diversas fontes de dados com diferentes níveis de supervisão para formular representações gerais de objetos, destacando-se na transferência zero-shot para novos dados e tarefas. Especificamente, empregamos um codificador de imagem, um codificador de texto e um prompt visual para lidar com entradas multimodais, permitindo resolver simultaneamente várias tarefas subsequentes centradas em objetos enquanto mantém um desempenho de ponta. Demonstrado por meio de um extenso treinamento em mais de cinco milhões de imagens de diversos benchmarks, o GLEE exibe uma versatilidade notável e um desempenho de generalização aprimorado, abordando eficientemente tarefas subsequentes sem a necessidade de adaptação específica para cada tarefa. Ao integrar grandes volumes de dados rotulados automaticamente, aprimoramos ainda mais suas capacidades de generalização zero-shot. Além disso, o GLEE é capaz de ser integrado a Modelos de Linguagem de Grande Escala, servindo como um modelo de base para fornecer informações universais em nível de objeto para tarefas multimodais. Esperamos que a versatilidade e universalidade do nosso método marquem um passo significativo no desenvolvimento de modelos de base visuais eficientes para sistemas de AGI. O modelo e o código serão disponibilizados em https://glee-vision.github.io.
Os recentes avanços na tecnologia de geração de texto para 3D têm avançado significativamente a conversão de descrições textuais em objetos 3D imaginativos, com geometria bem definida e texturas refinadas. Apesar desses desenvolvimentos, uma limitação prevalente surge do uso de dados RGB em modelos de difusão ou reconstrução, que frequentemente resultam em modelos com efeitos intrínsecos de iluminação e sombras que prejudicam o realismo, limitando assim sua usabilidade em aplicações que exigem capacidades precisas de reiluminação. Para preencher essa lacuna, apresentamos o UniDream, um framework de geração de texto para 3D que incorpora priors de difusão unificados. Nossa abordagem consiste em três componentes principais: (1) um processo de treinamento em duas fases para obter modelos de difusão e reconstrução multi-visão alinhados com albedo-normal, (2) um procedimento de geração progressiva para geometria e texturas de albedo baseado em Amostragem de Destilação de Pontuação (SDS) utilizando os modelos de reconstrução e difusão treinados, e (3) uma aplicação inovadora de SDS para finalizar a geração de PBR mantendo um albedo fixo com base no modelo Stable Diffusion. Avaliações extensivas demonstram que o UniDream supera os métodos existentes na geração de objetos 3D com texturas de albedo mais claras, superfícies mais suaves, realismo aprimorado e capacidades superiores de reiluminação.
Este estudo examina métodos de quantização de 4 bits, como o GPTQ, em modelos de linguagem de grande escala (LLMs), destacando o overfitting do GPTQ e a melhoria limitada em tarefas Zero-Shot. Enquanto trabalhos anteriores se concentravam apenas na medição zero-shot, ampliamos o escopo das tarefas para categorias mais generativas, como geração de código e sumarização abstrativa, nas quais descobrimos que a quantização INT4 pode ter um desempenho significativamente inferior. No entanto, a simples mudança para formatos de maior precisão, como FP6, tem sido particularmente desafiadora e, portanto, negligenciada, devido ao baixo desempenho causado pela falta de integração sofisticada e estratégias de aceleração de sistema no hardware atual de IA. Nossos resultados mostram que o FP6, mesmo com um esquema de quantização de grão grosso, apresenta um desempenho robusto em vários algoritmos e tarefas, demonstrando sua superioridade em precisão e versatilidade. Notavelmente, com a quantização FP6, o modelo \codestar-15B apresenta um desempenho comparável ao seu equivalente FP16 na geração de código, e para modelos menores, como o 406M, ele se aproxima de suas linhas de base na sumarização. Nenhum desses resultados pode ser alcançado com INT4. Para melhor acomodar diversos hardwares de IA e alcançar o melhor desempenho do sistema, propomos um novo design 4+2 para FP6, a fim de atingir uma latência semelhante à quantização de grão fino INT4 de última geração. Com nosso design, o FP6 pode se tornar uma solução promissora para os métodos atuais de quantização de 4 bits utilizados em LLMs.
Neste trabalho, apresentamos o Vision-Language Generative Pre-trained Transformer (VL-GPT), um modelo baseado em transformadores capaz de perceber e gerar dados visuais e linguísticos de forma simultânea. O VL-GPT alcança uma abordagem unificada de pré-treinamento para as modalidades de imagem e texto ao empregar um objetivo auto-regressivo simples, permitindo que o modelo processe imagens e textos de maneira tão fluida quanto um modelo de linguagem processa texto. Para isso, propomos inicialmente uma nova estrutura de tokenização e detokenização de imagens para dados visuais, projetada especificamente para transformar imagens brutas em uma sequência de embeddings contínuos e reconstruí-las de forma correspondente. Combinada com os tokenizadores e detokenizadores de texto existentes, essa estrutura permite a codificação de dados intercalados de imagem e texto em uma sequência multimodal, que pode então ser alimentada no modelo de transformadores. Como resultado, o VL-GPT pode realizar pré-treinamento em larga escala em corpora multimodais utilizando um objetivo auto-regressivo unificado (ou seja, a previsão do próximo token). Após o pré-treinamento, o VL-GPT demonstra desempenho notável em tarefas de zero-shot e few-shot em uma variedade de atividades de compreensão e geração de visão e linguagem, incluindo legendagem de imagens, resposta a perguntas visuais, geração de texto para imagem e muito mais. Além disso, o modelo pré-treinado mantém capacidades de aprendizado em contexto quando fornecido com prompts multimodais. Realizamos ainda o ajuste por instrução em nosso VL-GPT, destacando seu potencial excepcional para assistência multimodal. O código-fonte e os pesos do modelo serão disponibilizados.
Modelos de recompensa desempenham um papel fundamental no alinhamento de aplicações de modelos de linguagem com as preferências humanas. No entanto, essa configuração cria um incentivo para o modelo de linguagem explorar erros no modelo de recompensa para alcançar uma recompensa estimada alta, um fenômeno frequentemente chamado de "hacking de recompensa". Uma mitigação natural é treinar um conjunto de modelos de recompensa, agregando as saídas dos modelos para obter uma estimativa de recompensa mais robusta. Exploramos a aplicação de conjuntos de recompensa no alinhamento tanto durante o treinamento (através de aprendizado por reforço) quanto durante a inferência (através de reclassificação). Primeiro, mostramos que os modelos de recompensa são subespecificados: modelos de recompensa que têm desempenho semelhante dentro da distribuição podem gerar recompensas muito diferentes quando usados no alinhamento, devido à mudança de distribuição. Segundo, a subespecificação resulta em superotimização, onde o alinhamento a um modelo de recompensa não melhora a recompensa medida por outro modelo de recompensa treinado nos mesmos dados. Terceiro, a superotimização é mitigada pelo uso de conjuntos de recompensa, e conjuntos que variam por suas sementes de pré-treinamento levam a uma melhor generalização do que conjuntos que diferem apenas por suas sementes de ajuste fino, com ambos superando modelos de recompensa individuais. No entanto, mesmo conjuntos de recompensa de pré-treinamento não eliminam o hacking de recompensa: mostramos vários fenômenos qualitativos de hacking de recompensa que não são mitigados pela formação de conjuntos, pois todos os modelos de recompensa no conjunto exibem padrões de erro semelhantes.
Propomos uma nova estrutura de edição 3D feed-forward chamada Shap-Editor. Pesquisas anteriores sobre edição de objetos 3D concentraram-se principalmente na edição de objetos individuais, aproveitando redes de edição de imagens 2D prontas para uso. Isso é alcançado por meio de um processo chamado destilação, que transfere conhecimento da rede 2D para ativos 3D. A destilação requer pelo menos dezenas de minutos por ativo para obter resultados de edição satisfatórios e, portanto, não é muito prática. Em contraste, questionamos se a edição 3D pode ser realizada diretamente por uma rede feed-forward, evitando a otimização em tempo de teste. Em particular, hipotetizamos que a edição pode ser bastante simplificada ao codificar primeiro objetos 3D em um espaço latente adequado. Validamos essa hipótese construindo sobre o espaço latente do Shap-E. Demonstramos que a edição 3D direta nesse espaço é possível e eficiente, construindo uma rede de edição feed-forward que requer apenas aproximadamente um segundo por edição. Nossos experimentos mostram que o Shap-Editor generaliza bem para ativos 3D dentro e fora da distribuição com diferentes prompts, exibindo desempenho comparável a métodos que realizam otimização em tempo de teste para cada instância editada.
Apresentamos e lançamos a família de modelos de linguagem de grande escala (LLMs) TigerBot, composta por modelos base e de chat, com tamanhos variando de 7, 13, 70 e 180 bilhões de parâmetros. Desenvolvemos nossos modelos partindo de Llama-2 e BLOOM, e avançamos ainda mais as fronteiras em dados, algoritmos de treinamento, infraestrutura e ferramentas de aplicação. Nossos modelos apresentam ganhos significativos de desempenho em relação aos modelos de código aberto mais avançados (SOTA), como o Llama-2, especificamente um ganho de 6% em inglês e 20% em chinês. A família de modelos TigerBot também alcança desempenho líder em benchmarks e rankings acadêmicos e industriais importantes. Acreditamos que o TigerBot representa apenas um instantâneo do progresso extremamente rápido na comunidade de LLMs de código aberto. Portanto, estamos entusiasmados em contribuir, liberando publicamente nossos modelos e relatando nossa abordagem, com ênfase adicional na construção de LLMs SOTA de forma democratizada e na aplicação prática de LLMs em cenários do mundo real.