Artigos de pesquisa em IA selecionados diariamente com traduções
Trabalhos recentes propuseram a hipótese da representação linear: que modelos de linguagem realizam computações manipulando representações unidimensionais de conceitos ("características") no espaço de ativação. Em contraste, exploramos se algumas representações de modelos de linguagem podem ser intrinsecamente multidimensionais. Começamos desenvolvendo uma definição rigorosa de características multidimensionais irredutíveis, baseada na possibilidade de serem decompostas em características de menor dimensão, sejam elas independentes ou não co-ocorrentes. Motivados por essas definições, projetamos um método escalável que utiliza autoencoders esparsos para encontrar automaticamente características multidimensionais em GPT-2 e Mistral 7B. Essas características descobertas automaticamente incluem exemplos notavelmente interpretáveis, como características circulares que representam dias da semana e meses do ano. Identificamos tarefas em que esses círculos exatos são usados para resolver problemas computacionais envolvendo aritmética modular em dias da semana e meses do ano. Por fim, fornecemos evidências de que essas características circulares são de fato a unidade fundamental de computação nessas tarefas, por meio de experimentos de intervenção em Mistral 7B e Llama 3 8B, e encontramos representações circulares adicionais ao decompor os estados ocultos dessas tarefas em componentes interpretáveis.
Assistentes de prova como o Lean revolucionaram a verificação de provas matemáticas, garantindo alta precisão e confiabilidade. Embora os grandes modelos de linguagem (LLMs) mostrem potencial no raciocínio matemático, seu avanço na prova formal de teoremas é limitado pela escassez de dados de treinamento. Para abordar essa questão, introduzimos uma abordagem para gerar dados extensivos de provas no Lean 4 derivados de problemas de competições matemáticas de nível médio e superior. Essa abordagem envolve a tradução de problemas em linguagem natural para declarações formais, a filtragem de declarações de baixa qualidade e a geração de provas para criar dados sintéticos. Após ajustar o modelo DeepSeekMath 7B nesse conjunto de dados sintéticos, que compreende 8 milhões de declarações formais com provas, nosso modelo alcançou acurácias de geração de provas completas de 46,3% com 64 amostras e 52% cumulativamente no teste Lean 4 miniF2F, superando o GPT-4 de referência em 23,0% com 64 amostras e um método de aprendizado por reforço com busca em árvore em 41,0%. Além disso, nosso modelo provou com sucesso 5 de 148 problemas no benchmark Lean 4 Formalized International Mathematical Olympiad (FIMO), enquanto o GPT-4 não conseguiu provar nenhum. Esses resultados demonstram o potencial de aproveitar dados sintéticos em larga escala para aprimorar as capacidades de prova de teoremas em LLMs. Tanto o conjunto de dados sintéticos quanto o modelo serão disponibilizados para facilitar pesquisas adicionais nesse campo promissor.
Apesar dos avanços significativos na geração e edição de vídeos utilizando modelos de difusão, alcançar uma edição de vídeo precisa e localizada continua sendo um desafio substancial. Além disso, a maioria dos métodos existentes de edição de vídeo concentra-se principalmente na alteração do conteúdo visual, com pesquisas limitadas dedicadas à edição de movimento. Neste artigo, apresentamos uma nova abordagem para Remake a Video (ReVideo), que se destaca dos métodos existentes ao permitir a edição precisa de vídeos em áreas específicas por meio da especificação tanto do conteúdo quanto do movimento. A edição de conteúdo é facilitada pela modificação do primeiro quadro, enquanto o controle de movimento baseado em trajetória oferece uma experiência intuitiva de interação do usuário. O ReVideo aborda uma nova tarefa envolvendo o acoplamento e o desequilíbrio de treinamento entre o controle de conteúdo e movimento. Para lidar com isso, desenvolvemos uma estratégia de treinamento em três estágios que progressivamente desacopla esses dois aspectos, do grosseiro ao refinado. Além disso, propomos um módulo de fusão espaço-temporal adaptativa para integrar o controle de conteúdo e movimento em várias etapas de amostragem e localizações espaciais. Experimentos extensivos demonstram que o nosso ReVideo tem um desempenho promissor em várias aplicações de edição de vídeo precisas, ou seja, (1) alterar localmente o conteúdo do vídeo mantendo o movimento constante, (2) manter o conteúdo inalterado e personalizar novas trajetórias de movimento, (3) modificar tanto o conteúdo quanto as trajetórias de movimento. O nosso método também pode estender essas aplicações de forma contínua para edição em múltiplas áreas sem treinamento específico, demonstrando sua flexibilidade e robustez.
Estamos a aproveitar plenamente o potencial do codificador visual nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs)? O desempenho excepcional recente dos MLLMs na compreensão multimodal tem atraído ampla atenção tanto da academia quanto da indústria. Na atual corrida pelos MLLMs, o foco parece estar predominantemente no aspecto linguístico. Testemunhamos o surgimento de conjuntos de dados de instrução maiores e de maior qualidade, bem como o envolvimento de LLMs de maior dimensão. No entanto, pouca atenção tem sido direcionada para os sinais visuais utilizados pelos MLLMs, frequentemente assumidos como sendo as características de alto nível finais extraídas por um codificador visual congelado. Neste artigo, introduzimos o Conector Denso - um conector visão-linguagem simples, eficaz e plug-and-play que melhora significativamente os MLLMs existentes ao aproveitar características visuais multicamadas, com um mínimo de sobrecarga computacional adicional. Além disso, o nosso modelo, treinado exclusivamente em imagens, demonstra capacidades notáveis de zero-shot na compreensão de vídeos. Resultados experimentais em vários codificadores visuais, resoluções de imagem, escalas de conjuntos de dados de treino, tamanhos variados de LLMs (2.7B->70B) e diversas arquiteturas de MLLMs (por exemplo, LLaVA e Mini-Gemini) validam a versatilidade e escalabilidade da nossa abordagem, alcançando desempenho de ponta em 19 benchmarks de imagem e vídeo. Esperamos que este trabalho forneça uma experiência valiosa e sirva como um módulo básico para o desenvolvimento futuro de MLLMs.
Os avanços nos modelos de difusão latente (LDMs) revolucionaram a geração de imagens de alta resolução, mas o espaço de design do autoencoder, que é central para esses sistemas, permanece pouco explorado. Neste artigo, apresentamos o LiteVAE, uma família de autoencoders para LDMs que aproveita a transformada discreta de wavelets 2D para melhorar a escalabilidade e a eficiência computacional em relação aos autoencoders variacionais (VAEs) padrão, sem sacrificar a qualidade da saída. Também investigamos as metodologias de treinamento e a arquitetura do decodificador do LiteVAE, propondo várias melhorias que aprimoram a dinâmica de treinamento e a qualidade da reconstrução. Nosso modelo base LiteVAE iguala a qualidade dos VAEs estabelecidos nos LDMs atuais com uma redução de seis vezes nos parâmetros do codificador, resultando em treinamento mais rápido e menores requisitos de memória GPU, enquanto nosso modelo maior supera VAEs de complexidade comparável em todas as métricas avaliadas (rFID, LPIPS, PSNR e SSIM).
Acelerar a inferência de grandes modelos de linguagem (LLMs) é um desafio importante na inteligência artificial. Este artigo introduz a inferência especulativa distribuída (DSI), um novo algoritmo de inferência distribuída que é comprovadamente mais rápido do que a inferência especulativa (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] e a inferência autoregressiva tradicional (não-SI). Como outros algoritmos de SI, a DSI funciona em LLMs congelados, não requerendo treinamento ou modificações arquitetônicas, e preserva a distribuição alvo. Estudos anteriores sobre SI demonstraram acelerações empíricas (em comparação com a não-SI), mas exigem um LLM rascunhador rápido e preciso. Na prática, LLMs prontos para uso muitas vezes não possuem rascunhadores correspondentes que sejam suficientemente rápidos e precisos. Mostramos uma lacuna: a SI fica mais lenta do que a não-SI ao usar rascunhadores mais lentos ou menos precisos. Fechamos essa lacuna ao provar que a DSI é mais rápida do que tanto a SI quanto a não-SI, independentemente dos rascunhadores utilizados. Ao orquestrar múltiplas instâncias do modelo alvo e dos rascunhadores, a DSI não só é mais rápida do que a SI, mas também suporta LLMs que não podem ser acelerados com a SI. Nossas simulações mostram acelerações de LLMs prontos para uso em cenários realistas: a DSI é 1,29-1,92x mais rápida do que a SI.
Os modelos de difusão têm alcançado grande sucesso na geração de imagens, com a arquitetura evoluindo de U-Net para Vision Transformers. No entanto, o custo computacional dos Transformers é quadrático em relação ao número de tokens, o que representa desafios significativos ao lidar com imagens de alta resolução. Neste trabalho, propomos o Diffusion Mamba (DiM), que combina a eficiência do Mamba, um modelo de sequência baseado em State Space Models (SSM), com o poder expressivo dos modelos de difusão para a síntese eficiente de imagens de alta resolução. Para enfrentar o desafio de que o Mamba não pode generalizar para sinais 2D, realizamos vários projetos de arquitetura, incluindo varreduras multidirecionais, tokens de preenchimento aprendíveis no final de cada linha e coluna, e aprimoramento leve de características locais. Nossa arquitetura DiM alcança eficiência no tempo de inferência para imagens de alta resolução. Além disso, para melhorar ainda mais a eficiência do treinamento na geração de imagens de alta resolução com o DiM, investigamos uma estratégia de treinamento "fraco para forte" que pré-treina o DiM em imagens de baixa resolução (256x256) e, em seguida, o ajusta em imagens de alta resolução (512x512). Exploramos ainda estratégias de upsampling sem treinamento para permitir que o modelo gere imagens de resolução ainda maior (por exemplo, 1024x1024 e 1536x1536) sem a necessidade de ajuste adicional. Experimentos demonstram a eficácia e eficiência do nosso DiM.
Métodos de treinamento de segunda ordem possuem propriedades de convergência superiores ao gradiente descendente, mas raramente são utilizados na prática para treinamento em larga escala devido à sua sobrecarga computacional. Isso pode ser visto como uma limitação de hardware (imposta por computadores digitais). Aqui, mostramos que o gradiente descendente natural (NGD, na sigla em inglês), um método de segunda ordem, pode ter uma complexidade computacional por iteração semelhante a um método de primeira ordem, quando empregamos hardware apropriado. Apresentamos um novo algoritmo híbrido digital-analógico para treinamento de redes neurais que é equivalente ao NGD em um determinado regime de parâmetros, mas evita a resolução de sistemas lineares proibitivamente custosos. Nosso algoritmo explora as propriedades termodinâmicas de um sistema analógico em equilíbrio e, portanto, requer um computador termodinâmico analógico. O treinamento ocorre em um loop híbrido digital-analógico, onde o gradiente e a matriz de informação de Fisher (ou qualquer outra matriz de curvatura semidefinida positiva) são calculados em intervalos de tempo específicos, enquanto a dinâmica analógica ocorre. Demonstramos numericamente a superioridade dessa abordagem em relação aos métodos de treinamento digitais de primeira e segunda ordem mais avançados em tarefas de classificação e de ajuste fino de modelos de linguagem.
Abordagens recentes têm mostrado promessas ao destilar modelos de difusão em geradores eficientes de uma única etapa. Entre elas, a Distilação por Correspondência de Distribuição (DMD) produz geradores de uma etapa que correspondem à distribuição de seus modelos professores, sem impor uma correspondência um-para-um com as trajetórias de amostragem de seus professores. No entanto, para garantir um treinamento estável, o DMD requer uma perda de regressão adicional calculada usando um grande conjunto de pares ruído-imagem gerados pelo professor com muitas etapas de um amostrador determinístico. Isso é custoso para a síntese de texto para imagem em larga escala e limita a qualidade do modelo estudante, vinculando-o muito de perto aos caminhos de amostragem originais do professor. Introduzimos o DMD2, um conjunto de técnicas que supera essa limitação e melhora o treinamento do DMD. Primeiro, eliminamos a perda de regressão e a necessidade de construção de conjuntos de dados caros. Mostramos que a instabilidade resultante se deve ao crítico falso não estimar com precisão a distribuição das amostras geradas e propomos uma regra de atualização em duas escalas de tempo como solução. Segundo, integramos uma perda GAN no procedimento de destilação, discriminando entre amostras geradas e imagens reais. Isso nos permite treinar o modelo estudante com dados reais, mitigando a estimativa imperfeita da pontuação real do modelo professor e melhorando a qualidade. Por último, modificamos o procedimento de treinamento para permitir amostragem em múltiplas etapas. Identificamos e resolvemos o problema de incompatibilidade de entrada entre treinamento e inferência nesse cenário, simulando amostras do gerador durante o tempo de treinamento. Juntas, nossas melhorias estabelecem novos benchmarks na geração de imagens de uma única etapa, com pontuações FID de 1,28 no ImageNet-64x64 e 8,35 no COCO 2014 zero-shot, superando o professor original apesar de uma redução de 500X no custo de inferência. Além disso, mostramos que nossa abordagem pode gerar imagens de megapixels ao destilar o SDXL, demonstrando qualidade visual excepcional entre métodos de poucas etapas.
Nos últimos anos, com resultados de geração realistas e uma ampla gama de aplicações personalizadas, os modelos generativos baseados em difusão ganharam grande atenção tanto na geração visual quanto na geração de áudio. Em comparação com os avanços consideráveis na geração de texto para imagem ou texto para áudio, a pesquisa em geração de áudio para visual ou visual para áudio tem sido relativamente lenta. Os métodos recentes de geração áudio-visual geralmente recorrem a grandes modelos de linguagem ou modelos de difusão composicionais. Em vez de projetar outro modelo gigante para geração áudio-visual, neste artigo damos um passo atrás, mostrando que um transformador generativo simples e leve, que não foi totalmente explorado na geração multimodal, pode alcançar excelentes resultados na geração de imagem para áudio. O transformador opera no espaço discreto de áudio e visual do Vector-Quantized GAN e é treinado de maneira a desnaturar máscaras. Após o treinamento, a orientação sem classificador pode ser implementada prontamente, alcançando melhor desempenho, sem qualquer treinamento ou modificação adicional. Como o modelo de transformador é simétrico em termos de modalidade, ele também pode ser diretamente implantado para geração de áudio para imagem e co-geração. Nos experimentos, mostramos que nosso método simples supera os métodos recentes de geração de imagem para áudio. Amostras de áudio geradas podem ser encontradas em https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são amplamente considerados cruciais na exploração da Inteligência Artificial Geral (AGI). O cerne dos MLLMs reside em sua capacidade de alcançar o alinhamento entre modalidades. Para atingir esse objetivo, os MLLMs atuais geralmente seguem um paradigma de treinamento em duas fases: a fase de pré-treinamento e a fase de ajuste por instrução. Apesar de seu sucesso, há deficiências na modelagem das capacidades de alinhamento nesses modelos. Primeiramente, durante a fase de pré-treinamento, o modelo geralmente assume que todos os pares imagem-texto estão uniformemente alinhados, mas, na verdade, o grau de alinhamento entre diferentes pares imagem-texto é inconsistente. Em segundo lugar, as instruções atualmente usadas para o ajuste fino incorporam uma variedade de tarefas, e as instruções de diferentes tarefas geralmente exigem diferentes níveis de capacidade de alinhamento, mas os MLLMs anteriores ignoram essas necessidades diferenciadas de alinhamento. Para abordar essas questões, propomos um novo modelo de linguagem multimodal de grande escala, o AlignGPT. Na etapa de pré-treinamento, em vez de tratar todos os pares imagem-texto de forma igual, atribuímos diferentes níveis de capacidade de alinhamento a diferentes pares imagem-texto. Em seguida, na fase de ajuste por instrução, combinamos adaptativamente esses diferentes níveis de capacidade de alinhamento para atender às necessidades dinâmicas de alinhamento de diferentes instruções. Resultados experimentais extensivos mostram que nosso modelo alcança desempenho competitivo em 12 benchmarks.
Personalizar modelos de difusão para gerar imagens que preservem a identidade a partir de imagens de referência fornecidas pelo usuário é um problema novo e intrigante. As abordagens predominantes geralmente exigem treinamento em um extenso conjunto de imagens específicas do domínio para alcançar a preservação da identidade, o que carece de flexibilidade em diferentes casos de uso. Para resolver essa questão, exploramos a orientação por classificador, uma técnica livre de treinamento que direciona modelos de difusão utilizando um classificador existente, para a geração de imagens personalizadas. Nosso estudo demonstra que, com base em um recente framework de fluxo retificado, a principal limitação da orientação por classificador tradicional, que requer um classificador especial, pode ser resolvida com uma simples solução de ponto fixo, permitindo personalização flexível com discriminadores de imagem prontamente disponíveis. Além disso, o procedimento de resolução se mostra estável quando ancorado a uma trajetória de fluxo de referência, com uma garantia de convergência. O método derivado é implementado em fluxo retificado com diferentes discriminadores de imagem prontos para uso, entregando resultados vantajosos de personalização para rostos humanos, sujeitos vivos e certos objetos. O código está disponível em https://github.com/feifeiobama/RectifID.
Estendemos os transformadores multimodais para incluir o movimento de câmera 3D como um sinal de condicionamento para a tarefa de geração de vídeo. Os modelos generativos de vídeo estão se tornando cada vez mais poderosos, direcionando os esforços de pesquisa para métodos de controle da saída desses modelos. Propomos adicionar controles virtuais de câmera 3D a métodos generativos de vídeo, condicionando o vídeo gerado a uma codificação do movimento tridimensional da câmera ao longo do vídeo gerado. Os resultados demonstram que (1) somos capazes de controlar com sucesso a câmera durante a geração de vídeo, partindo de um único quadro e de um sinal de câmera, e (2) demonstramos a precisão das trajetórias de câmera 3D geradas utilizando métodos tradicionais de visão computacional.
Investigamos a tarefa de adaptar modelos generativos de imagens a diferentes conjuntos de dados sem a necessidade de ajuste fino. Para isso, introduzimos o Semantica, um modelo de difusão condicionado por imagem capaz de gerar imagens com base na semântica de uma imagem de condicionamento. O Semantica é treinado exclusivamente em pares de imagens em escala da web, ou seja, ele recebe uma imagem aleatória de uma página da web como entrada condicional e modela outra imagem aleatória da mesma página. Nossos experimentos destacam a expressividade de codificadores de imagem pré-treinados e a necessidade de filtragem de dados baseada em semântica para alcançar geração de imagens de alta qualidade. Uma vez treinado, ele pode gerar adaptativamente novas imagens de um conjunto de dados simplesmente utilizando imagens desse conjunto como entrada. Estudamos as propriedades de transferência do Semantica no ImageNet, LSUN Churches, LSUN Bedroom e SUN397.
Campos de Radiação Neural (NeRFs) geralmente enfrentam dificuldades para reconstruir e renderizar objetos altamente especulares, cuja aparência varia rapidamente com mudanças no ponto de vista. Trabalhos recentes melhoraram a capacidade do NeRF de renderizar a aparência especular detalhada da iluminação do ambiente distante, mas são incapazes de sintetizar reflexos consistentes de conteúdos mais próximos. Além disso, essas técnicas dependem de grandes redes neurais computacionalmente caras para modelar a radiância emitida, o que limita severamente a velocidade de otimização e renderização. Abordamos esses problemas com uma técnica baseada em ray tracing: em vez de consultar uma rede neural cara para obter a radiância dependente da visão em pontos ao longo de cada raio da câmera, nosso modelo lança raios de reflexão a partir desses pontos e os rastreia através da representação NeRF para renderizar vetores de características que são decodificados em cores usando uma rede pequena e de baixo custo. Demonstramos que nosso modelo supera métodos anteriores para síntese de visão de cenas contendo objetos brilhantes e que é o único método NeRF existente capaz de sintetizar aparência especular e reflexos fotorealísticos em cenas do mundo real, enquanto requer um tempo de otimização comparável aos modelos de síntese de visão mais avançados atualmente.
A síntese de novas visões de objetos especulares, como metais brilhantes ou tintas lustrosas, continua sendo um desafio significativo. Não apenas a aparência brilhante, mas também os efeitos de iluminação global, incluindo reflexões de outros objetos no ambiente, são componentes críticos para reproduzir fielmente uma cena. Neste artigo, apresentamos a Codificação Neural Direcional (Neural Directional Encoding - NDE), uma codificação de aparência dependente da visão para campos de radiação neural (NeRF) destinada à renderização de objetos especulares. A NDE transfere o conceito de codificação espacial baseada em grade de características para o domínio angular, melhorando significativamente a capacidade de modelar sinais angulares de alta frequência. Em contraste com métodos anteriores que utilizam funções de codificação com apenas entrada angular, nós adicionalmente rastreamos características espaciais em forma de cone para obter uma codificação direcional variável espacialmente, o que aborda os desafiadores efeitos de inter-reflexão. Experimentos extensivos em conjuntos de dados sintéticos e reais mostram que um modelo NeRF com NDE (1) supera o estado da arte na síntese de visões de objetos especulares e (2) funciona com redes pequenas para permitir inferência rápida (em tempo real). A página do projeto e o código-fonte estão disponíveis em: https://lwwu2.github.io/nde/.
Neste artigo, apresentamos um sistema de telepresença bidirecional de baixo custo e alta autenticidade, denominado Tele-Aloha, voltado para cenários de comunicação ponto a ponto. Em comparação com sistemas anteriores, o Tele-Aloha utiliza apenas quatro câmeras RGB esparsas, uma GPU de nível consumidor e uma tela autoestereoscópica para alcançar comunicação remota de alta resolução (2048x2048), em tempo real (30 fps), com baixa latência (menos de 150 ms) e robusta. Como núcleo do Tele-Aloha, propomos um algoritmo eficiente de síntese de novas visões para a parte superior do corpo. Primeiramente, projetamos um estimador de disparidade em cascata para obter uma indicação geométrica robusta. Além disso, introduzimos um rasterizador neural via *Gaussian Splatting* para projetar características latentes na visão alvo e decodificá-las em uma resolução reduzida. Adicionalmente, com base nos dados capturados de alta qualidade, empregamos um mecanismo de mesclagem ponderada para refinar a imagem decodificada até a resolução final de 2K. Aproveitando uma tela autoestereoscópica de ponta e rastreamento de íris de baixa latência, os usuários podem experimentar uma forte sensação tridimensional sem a necessidade de qualquer dispositivo de exibição montado na cabeça. Em conjunto, nosso sistema de telepresença demonstra a sensação de copresença em experimentos da vida real, inspirando a próxima geração de comunicação.