Artigos de pesquisa em IA selecionados diariamente com traduções
A complexidade do problema de alinhamento decorre do fato de que os métodos existentes são instáveis. Pesquisadores continuamente inventam diversos truques para abordar essa deficiência. Por exemplo, na técnica fundamental de Aprendizado por Reforço com Feedback Humano (RLHF) para alinhamento de Modelos de Linguagem, além da maximização da recompensa, a divergência de Kullback-Leibler entre a política treinável e a política SFT é minimizada. Essa adição impede que o modelo se ajuste excessivamente ao Modelo de Recompensa (RM) e gere textos que estejam fora do domínio do RM. O método de Otimização Direta de Preferências (DPO) reformula a tarefa de otimização do RLHF e elimina o Modelo de Recompensa, mantendo tacitamente a exigência de que a política permaneça próxima da política SFT. Em nosso artigo, argumentamos que essa limitação implícita no método DPO leva a resultados subótimos. Propomos um novo método chamado DPO com Região de Confiança (TR-DPO), que atualiza a política de referência durante o treinamento. Com essa atualização direta, demonstramos a eficácia do TR-DPO em comparação ao DPO nos conjuntos de dados Anthropic HH e TLDR. Mostramos que o TR-DPO supera o DPO em até 19%, medido por avaliação automática com GPT-4. A nova abordagem de alinhamento que propomos nos permite melhorar a qualidade dos modelos em vários parâmetros simultaneamente, como coerência, correção, nível de detalhe, utilidade e inofensividade.
A complexidade quadrática e a fraca extrapolação de comprimento dos Transformadores limitam sua capacidade de escalar para sequências longas, e embora soluções sub-quadráticas, como atenção linear e modelos de espaço de estados, existam, elas empiricamente apresentam desempenho inferior aos Transformadores em eficiência de pré-treinamento e precisão em tarefas subsequentes. Apresentamos o Megalodon, uma arquitetura neural para modelagem eficiente de sequências com comprimento de contexto ilimitado. O Megalodon herda a arquitetura do Mega (média móvel exponencial com atenção com portas) e introduz ainda vários componentes técnicos para melhorar sua capacidade e estabilidade, incluindo média móvel exponencial complexa (CEMA), camada de normalização de timestep, mecanismo de atenção normalizada e pré-norma com configuração residual de dois saltos. Em uma comparação controlada direta com o Llama2, o Megalodon alcança melhor eficiência do que o Transformer na escala de 7 bilhões de parâmetros e 2 trilhões de tokens de treinamento. O Megalodon atinge uma perda de treinamento de 1,70, posicionando-se no meio do caminho entre o Llama2-7B (1,75) e o 13B (1,67). Código: https://github.com/XuezheMax/megalodon
Embora os Transformers tenham revolucionado o aprendizado profundo, sua complexidade quadrática de atenção limita sua capacidade de processar entradas infinitamente longas. Propomos o Feedback Attention Memory (FAM), uma nova arquitetura Transformer que utiliza um loop de feedback para permitir que a rede atenda às suas próprias representações latentes. Esse design promove o surgimento de uma memória de trabalho dentro do Transformer, permitindo que ele processe sequências indefinidamente longas. O TransformerFAM não requer pesos adicionais, possibilitando uma integração perfeita com modelos pré-treinados. Nossos experimentos mostram que o TransformerFAM melhora significativamente o desempenho do Transformer em tarefas de contexto longo em vários tamanhos de modelo (1B, 8B e 24B). Esses resultados demonstram o potencial de capacitar Modelos de Linguagem de Grande Escala (LLMs) a processar sequências de comprimento ilimitado.
A criação de ambientes virtuais de alta qualidade e interativos, como jogos e simuladores, frequentemente envolve processos manuais de modelagem complexos e custosos. Neste artigo, apresentamos o Video2Game, uma abordagem inovadora que converte automaticamente vídeos de cenas do mundo real em ambientes de jogos realistas e interativos. No cerne do nosso sistema estão três componentes principais: (i) um módulo de campos de radiação neural (NeRF) que captura eficazmente a geometria e a aparência visual da cena; (ii) um módulo de malha que destila o conhecimento do NeRF para renderização mais rápida; e (iii) um módulo de física que modela as interações e a dinâmica física entre os objetos. Seguindo o pipeline cuidadosamente projetado, é possível construir uma réplica digital interativa e acionável do mundo real. Avaliamos nosso sistema em cenas internas e externas de grande escala. Demonstramos que não apenas podemos produzir renderizações altamente realistas em tempo real, mas também construir jogos interativos sobre elas.
Existe uma crença de que aprender a comprimir bem levará à inteligência. Recentemente, demonstrou-se que a modelagem de linguagem é equivalente à compressão, o que oferece uma justificativa convincente para o sucesso dos grandes modelos de linguagem (LLMs): o desenvolvimento de modelos de linguagem mais avançados está essencialmente melhorando a compressão, o que facilita a inteligência. Apesar de discussões tão atraentes, há pouca evidência empírica sobre a interação entre compressão e inteligência. Neste trabalho, examinamos sua relação no contexto dos LLMs, tratando os LLMs como compressores de dados. Dado o conceito abstrato de "inteligência", adotamos as pontuações médias de benchmarks subsequentes como um substituto, especificamente visando inteligência relacionada a conhecimento e senso comum, codificação e raciocínio matemático. Em 12 benchmarks, nosso estudo reúne 30 LLMs públicos que se originam de diversas organizações. Notavelmente, descobrimos que a inteligência dos LLMs — refletida pelas pontuações médias dos benchmarks — quase linearmente correlaciona-se com sua capacidade de comprimir corpora de texto externos. Esses resultados fornecem evidências concretas que apoiam a crença de que uma compressão superior indica maior inteligência. Além disso, nossas descobertas sugerem que a eficiência de compressão, como uma métrica não supervisionada derivada de corpora de texto brutos, serve como uma medida de avaliação confiável que está linearmente associada às capacidades do modelo. Disponibilizamos nossos conjuntos de dados de compressão, bem como nossos pipelines de coleta de dados, para facilitar que pesquisadores futuros avaliem a compressão adequadamente.
Os ControlNets são amplamente utilizados para adicionar controle espacial na geração de imagens com diferentes condições, como mapas de profundidade, bordas canny e poses humanas. No entanto, existem vários desafios ao aproveitar os ControlNets pré-treinados para geração controlada de vídeos. Primeiro, o ControlNet pré-treinado não pode ser diretamente integrado a novos modelos de backbone devido à incompatibilidade de espaços de características, e o custo de treinar ControlNets para novos backbones é um grande fardo. Segundo, as características do ControlNet para diferentes quadros podem não lidar efetivamente com a consistência temporal. Para abordar esses desafios, introduzimos o Ctrl-Adapter, uma estrutura eficiente e versátil que adiciona diversos controles a qualquer modelo de difusão de imagem/vídeo, adaptando ControlNets pré-treinados (e melhorando o alinhamento temporal para vídeos). O Ctrl-Adapter oferece diversas capacidades, incluindo controle de imagem, controle de vídeo, controle de vídeo com quadros esparsos, controle multi-condição, compatibilidade com diferentes backbones, adaptação a condições de controle não vistas e edição de vídeo. No Ctrl-Adapter, treinamos camadas de adaptação que fundem características de ControlNets pré-treinados a diferentes modelos de difusão de imagem/vídeo, mantendo os parâmetros dos ControlNets e dos modelos de difusão congelados. O Ctrl-Adapter consiste em módulos temporais e espaciais para que possa lidar efetivamente com a consistência temporal dos vídeos. Também propomos o salto latente e a amostragem inversa de timesteps para adaptação robusta e controle esparso. Além disso, o Ctrl-Adapter permite o controle a partir de múltiplas condições simplesmente tomando a média (ponderada) das saídas do ControlNet. Com diversos backbones de difusão de imagem/vídeo (SDXL, Hotshot-XL, I2VGen-XL e SVD), o Ctrl-Adapter iguala o ControlNet para controle de imagem e supera todas as baselines para controle de vídeo (alcançando a precisão SOTA no conjunto de dados DAVIS 2017) com custos computacionais significativamente menores (menos de 10 horas de GPU).
Este estudo apresenta o HQ-Edit, um conjunto de dados de edição de imagens baseado em instruções de alta qualidade, contendo aproximadamente 200.000 edições. Diferentemente de abordagens anteriores que dependiam de orientação por atributos ou feedback humano para a construção de conjuntos de dados, nós desenvolvemos um pipeline escalável de coleta de dados que aproveita modelos de base avançados, especificamente GPT-4V e DALL-E 3. Para garantir sua alta qualidade, exemplos diversos são inicialmente coletados online, expandidos e, em seguida, utilizados para criar dípticos de alta qualidade que apresentam imagens de entrada e saída com prompts de texto detalhados, seguidos por um alinhamento preciso assegurado por meio de pós-processamento. Além disso, propomos duas métricas de avaliação, Alinhamento e Coerência, para quantificar a qualidade de pares de edição de imagens usando o GPT-4V. As imagens de alta resolução do HQ-Edit, ricas em detalhes e acompanhadas por prompts de edição abrangentes, aprimoram substancialmente as capacidades dos modelos existentes de edição de imagens. Por exemplo, um InstructPix2Pix ajustado com HQ-Edit pode alcançar desempenho de ponta em edição de imagens, superando até mesmo modelos ajustados com dados anotados por humanos. A página do projeto está disponível em https://thefllood.github.io/HQEdit_web.
A inferência com Modelos de Linguagem Multimodais de Grande Escala (MLLMs) é lenta devido ao seu núcleo de modelo de linguagem de grande escala, que sofre com o gargalo de largura de banda de memória e gera tokens de forma autoregressiva. Neste artigo, exploramos a aplicação da decodificação especulativa para melhorar a eficiência da inferência de MLLMs, especificamente o modelo LLaVA 7B. Mostramos que um modelo de linguagem puro pode servir como um bom modelo de rascunho para a decodificação especulativa com o LLaVA 7B, dispensando a necessidade de tokens de imagem e seus componentes de processamento associados no modelo de rascunho. Nossos experimentos em três tarefas diferentes mostram que a decodificação especulativa pode alcançar um aumento de velocidade limitado pela memória de até 2,37 vezes usando um modelo de linguagem de 115M de parâmetros que treinamos do zero. Além disso, introduzimos um modelo de rascunho compacto do LLaVA que incorpora um adaptador de imagem, o qual mostra ganhos marginais de desempenho na tarefa de legendagem de imagens, mantendo resultados comparáveis em outras tarefas.
O conteúdo generativo multimodal está se tornando cada vez mais prevalente em grande parte do cenário de criação de conteúdo, pois tem o potencial de permitir que artistas e profissionais de mídia criem protótipos de pré-produção, trazendo suas ideias à vida de forma rápida. A geração de áudio a partir de prompts de texto é um aspecto importante desses processos na indústria da música e do cinema. Muitos dos recentes modelos de texto para áudio baseados em difusão concentram-se no treinamento de modelos de difusão cada vez mais sofisticados em um grande conjunto de dados de pares prompt-áudio. Esses modelos não se concentram explicitamente na presença de conceitos ou eventos e em sua ordenação temporal no áudio gerado em relação ao prompt de entrada. Nossa hipótese é que focar nesses aspectos da geração de áudio poderia melhorar o desempenho da geração de áudio na presença de dados limitados. Assim, neste trabalho, utilizando o modelo existente de texto para áudio Tango, criamos sinteticamente um conjunto de dados de preferência onde cada prompt tem uma saída de áudio vencedora e algumas saídas de áudio perdedoras para o modelo de difusão aprender. As saídas perdedoras, em teoria, têm alguns conceitos do prompt ausentes ou em uma ordem incorreta. Ajustamos o modelo Tango de texto para áudio, disponível publicamente, usando a função de perda de otimização direta de preferência (diffusion-DPO) em nosso conjunto de dados de preferência e mostramos que isso leva a uma melhoria na saída de áudio em relação ao Tango e ao AudioLDM2, tanto em termos de métricas de avaliação automática quanto manual.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado resultados impressionantes em diversas tarefas multimodais. No entanto, a maioria dos MLLMs existentes não é bem adequada para tarefas orientadas a documentos, que exigem percepção de imagem em nível detalhado e compressão de informações. Neste artigo, apresentamos o TextHawk, um MLLM especificamente projetado para tarefas orientadas a documentos, mantendo as capacidades gerais dos MLLMs. O TextHawk visa explorar a percepção detalhada eficiente por meio do design de quatro componentes dedicados. Primeiramente, um módulo de Reamostragem e Reorganização (ReSA) é proposto para reduzir a redundância nos textos dos documentos e diminuir o custo computacional do MLLM. Exploramos a codificação das posições de cada recurso local apresentando Codificações Posicionais Escaláveis (SPEs), que podem preservar a escalabilidade de vários tamanhos de imagem. Uma Rede de Proposta de Consultas (QPN) é então adotada para inicializar as consultas dinamicamente entre diferentes subimagens. Para aprimorar ainda mais a capacidade de percepção visual detalhada do MLLM, projetamos um mecanismo de Atenção Cruzada Multinível (MLCA) que captura a estrutura hierárquica e as relações semânticas das imagens de documentos. Além disso, criamos um novo conjunto de dados de ajuste de instruções para tarefas orientadas a documentos, enriquecendo os dados multimodais de documentos com o Gemini Pro. Realizamos extensos experimentos em benchmarks gerais e orientados a documentos para MLLMs, e mostramos que o TextHawk supera os métodos state-of-the-art, demonstrando sua eficácia e superioridade na percepção detalhada de documentos e em habilidades gerais.
Neural Radiance Field (NeRF) é uma representação para reconstrução 3D a partir de imagens de múltiplas perspectivas. Apesar de alguns trabalhos recentes mostrarem sucesso preliminar na edição de um NeRF reconstruído com prior de difusão, eles ainda enfrentam dificuldades para sintetizar geometrias razoáveis em regiões completamente descobertas. Uma das principais razões é a alta diversidade de conteúdos sintéticos gerados pelo modelo de difusão, o que impede o campo de radiação de convergir para uma geometria nítida e determinística. Além disso, a aplicação de modelos de difusão latente em dados reais frequentemente resulta em uma mudança textural incoerente com a condição da imagem devido a erros de auto-codificação. Esses dois problemas são ainda mais reforçados com o uso de perdas baseadas em distância de pixels. Para abordar essas questões, propomos temperar a estocasticidade do modelo de difusão com personalização por cena e mitigar a mudança textural com treinamento adversário mascarado. Durante as análises, também descobrimos que as perdas de pixel e perceptual comumente usadas são prejudiciais na tarefa de preenchimento de NeRF. Por meio de experimentos rigorosos, nosso framework produz resultados de preenchimento de NeRF de última geração em diversas cenas do mundo real. Página do projeto: https://hubert0527.github.io/MALD-NeRF
O Gaussian splatting, conhecido por sua excepcional qualidade de renderização e eficiência, emergiu como uma técnica proeminente na representação de cenas 3D. No entanto, o volume substancial de dados do Gaussian splatting impede sua utilidade prática em aplicações do mundo real. Aqui, propomos uma representação eficiente de cenas 3D, denominada Compressed Gaussian Splatting (CompGS), que utiliza primitivas Gaussianas compactas para modelar fielmente cenas 3D com um tamanho de dados significativamente reduzido. Para garantir a compactação das primitivas Gaussianas, desenvolvemos uma estrutura híbrida de primitivas que captura relações preditivas entre si. Em seguida, exploramos um pequeno conjunto de primitivas âncoras para predição, permitindo que a maioria das primitivas seja encapsulada em formas residuais altamente compactas. Além disso, desenvolvemos um esquema de otimização com restrição de taxa para eliminar redundâncias dentro dessas primitivas híbridas, direcionando nosso CompGS para um equilíbrio ideal entre consumo de bitrate e eficácia de representação. Resultados experimentais mostram que o CompGS proposto supera significativamente os métodos existentes, alcançando uma compactação superior na representação de cenas 3D sem comprometer a precisão do modelo e a qualidade de renderização. Nosso código será disponibilizado no GitHub para pesquisas futuras.