Artigos de pesquisa em IA selecionados diariamente com traduções
Aumentar o tamanho de um modelo Transformer nem sempre leva a um desempenho aprimorado. Esse fenômeno não pode ser explicado pelas leis de escalonamento empíricas. Além disso, a capacidade de generalização melhorada ocorre à medida que o modelo memoriza as amostras de treinamento. Apresentamos uma estrutura teórica que esclarece o processo de memorização e a dinâmica de desempenho dos modelos de linguagem baseados em Transformers. Modelamos o comportamento dos Transformers com memórias associativas usando redes de Hopfield, de modo que cada bloco do Transformer efetivamente realiza uma busca aproximada do vizinho mais próximo. Com base nisso, projetamos uma função de energia análoga à da rede de Hopfield contínua moderna, que fornece uma explicação perspicaz para o mecanismo de atenção. Utilizando a técnica de majorização-minimização, construímos uma função de energia global que captura a arquitetura em camadas do Transformer. Sob condições específicas, mostramos que a perda de entropia cruzada mínima alcançável é limitada inferiormente por uma constante aproximadamente igual a 1. Validamos nossos resultados teóricos realizando experimentos com o GPT-2 em vários tamanhos de dados, bem como treinando Transformers simples em um conjunto de dados de 2 milhões de tokens.
Como seres humanos, aspiramos criar conteúdo de mídia que seja tanto livremente desejado quanto facilmente controlado. Graças ao desenvolvimento proeminente de técnicas generativas, agora podemos facilmente utilizar métodos de difusão 2D para sintetizar imagens controladas por esboços brutos ou poses humanas designadas, e até mesmo editar/regenerar progressivamente regiões locais com preenchimento mascarado. No entanto, fluxos de trabalho semelhantes em tarefas de modelagem 3D ainda não estão disponíveis devido à falta de controlabilidade e eficiência na geração 3D. Neste artigo, apresentamos uma nova estrutura de modelagem de ativos 3D controlável e interativa, denominada Coin3D. O Coin3D permite que os usuários controlem a geração 3D usando um proxy de geometria grosseira montado a partir de formas básicas, e introduz um fluxo de trabalho de geração interativa para suportar a edição contínua de partes locais enquanto fornece uma visualização responsiva de objetos 3D em poucos segundos. Para isso, desenvolvemos várias técnicas, incluindo o adaptador 3D que aplica controle volumétrico de forma grosseira ao modelo de difusão, estratégia de edição limitada por proxy para edição precisa de partes, cache de volume progressivo para suportar visualização responsiva, e volume-SDS para garantir reconstrução consistente de malhas. Experimentos extensivos de geração e edição interativa em diversos proxies de forma demonstram que nosso método alcança superior controlabilidade e flexibilidade na tarefa de geração de ativos 3D.
Apresentamos o Hunyuan-DiT, um transformador de difusão de texto para imagem com compreensão refinada tanto do inglês quanto do chinês. Para construir o Hunyuan-DiT, projetamos cuidadosamente a estrutura do transformador, o codificador de texto e a codificação posicional. Também desenvolvemos do zero um pipeline completo de dados para atualizar e avaliar os dados para a otimização iterativa do modelo. Para a compreensão refinada da linguagem, treinamos um Modelo de Linguagem Multimodal de Grande Escala para refinar as legendas das imagens. Por fim, o Hunyuan-DiT é capaz de realizar diálogos multimodais de múltiplas interações com os usuários, gerando e refinando imagens de acordo com o contexto. Através do nosso protocolo holístico de avaliação humana com mais de 50 avaliadores profissionais, o Hunyuan-DiT estabelece um novo estado da arte na geração de imagens a partir do chinês em comparação com outros modelos de código aberto. O código e os modelos pré-treinados estão disponíveis publicamente em github.com/Tencent/HunyuanDiT.
O aprendizado por reforço com feedback humano (RLHF) é o framework canônico para o alinhamento de modelos de linguagem de grande escala. No entanto, a crescente popularidade de algoritmos de alinhamento offline desafia a necessidade de amostragem on-policy no RLHF. No contexto da superotimização de recompensas, iniciamos com um conjunto inicial de experimentos que demonstram a clara vantagem dos métodos online sobre os métodos offline. Isso nos leva a investigar as causas da discrepância de desempenho por meio de uma série de ablações experimentais cuidadosamente projetadas. Mostramos empiricamente que hipóteses como cobertura de dados offline e qualidade dos dados por si só não conseguem explicar de forma convincente a diferença de desempenho. Também descobrimos que, embora os algoritmos offline treinem a política para se tornarem bons em classificação pareada, eles são piores em gerações; enquanto isso, as políticas treinadas por algoritmos online são boas em gerações, mas piores em classificação pareada. Isso sugere uma interação única entre capacidades discriminativas e generativas, que é grandemente impactada pelo processo de amostragem. Por fim, observamos que a discrepância de desempenho persiste tanto para funções de perda contrastivas quanto não contrastivas, e parece não ser resolvida simplesmente escalando as redes de políticas. Em conjunto, nosso estudo lança luz sobre o papel crucial da amostragem on-policy no alinhamento de IA e sugere certos desafios fundamentais dos algoritmos de alinhamento offline.
Modelos de linguagem de grande escala (LLMs) têm demonstrado uma proficiência incrível na execução de tarefas que exigem compreensão semântica de instruções em linguagem natural. Recentemente, muitos trabalhos expandiram ainda mais essa capacidade para perceber entradas multimodais de áudio e texto, mas suas capacidades são frequentemente limitadas a tarefas específicas ajustadas, como reconhecimento automático de fala e tradução. Portanto, desenvolvemos o SpeechVerse, uma estrutura robusta de treinamento multitarefa e aprendizado curricular que combina modelos de base pré-treinados de fala e texto por meio de um pequeno conjunto de parâmetros aprendíveis, mantendo os modelos pré-treinados congelados durante o treinamento. Os modelos são ajustados por instruções usando representações latentes contínuas extraídas do modelo de base de fala para alcançar desempenho zero-shot ideal em uma ampla gama de tarefas de processamento de fala usando instruções em linguagem natural. Realizamos extensos benchmarks que incluem a comparação do desempenho do nosso modelo com linhas de base tradicionais em vários conjuntos de dados e tarefas. Além disso, avaliamos a capacidade do modelo para seguir instruções generalizadas testando em conjuntos de dados fora do domínio, prompts novos e tarefas não vistas. Nossos experimentos empíricos revelam que nosso modelo multitarefa SpeechVerse é ainda superior às linhas de base convencionais específicas para tarefas em 9 das 11 tarefas.
Os modelos existentes de texto para imagem enfrentam dificuldades em seguir instruções textuais complexas, destacando a necessidade de entradas adicionais para melhorar a controlabilidade. Neste trabalho, propomos decompor uma cena em primitivos visuais - denominados como representações de blobs densos - que contêm detalhes refinados da cena, ao mesmo tempo que são modulares, interpretáveis por humanos e fáceis de construir. Com base nas representações de blobs, desenvolvemos um modelo de difusão de texto para imagem fundamentado em blobs, denominado BlobGEN, para geração composicional. Especificamente, introduzimos um novo módulo de atenção cruzada mascarada para desembaraçar a fusão entre as representações de blobs e as características visuais. Para aproveitar a composicionalidade dos modelos de linguagem de grande escala (LLMs), introduzimos uma nova abordagem de aprendizado em contexto para gerar representações de blobs a partir de instruções textuais. Nossos experimentos extensivos mostram que o BlobGEN alcança uma qualidade superior de geração zero-shot e uma melhor controlabilidade guiada por layout no MS-COCO. Quando aumentado por LLMs, nosso método exibe superior correção numérica e espacial em benchmarks de geração composicional de imagens. Página do projeto: https://blobgen-2d.github.io.
As arquiteturas atuais para compreensão de vídeo baseiam-se principalmente em blocos convolucionais 3D ou convoluções 2D com operações adicionais para modelagem temporal. No entanto, esses métodos tratam o eixo temporal como uma dimensão separada da sequência de vídeo, o que exige grandes recursos de computação e memória, limitando assim seu uso em dispositivos móveis. Neste artigo, propomos comprimir o eixo temporal de uma sequência de vídeo na dimensão dos canais e apresentamos uma rede leve de reconhecimento de vídeo, denominada SqueezeTime, para compreensão de vídeo em dispositivos móveis. Para aprimorar a capacidade de modelagem temporal da rede proposta, projetamos um Bloco de Aprendizado Canal-Tempo (CTL) para capturar a dinâmica temporal da sequência. Este módulo possui dois ramos complementares, em que um ramo é dedicado ao aprendizado da importância temporal e outro ramo, com capacidade de restauração da posição temporal, visa aprimorar a capacidade de modelagem de objetos intertemporais. O SqueezeTime proposto é muito leve e rápido, com alta precisão para compreensão de vídeo em dispositivos móveis. Experimentos extensivos em vários benchmarks de reconhecimento de vídeo e detecção de ações, como Kinetics400, Kinetics600, HMDB51, AVA2.1 e THUMOS14, demonstram a superioridade do nosso modelo. Por exemplo, nosso SqueezeTime alcança um ganho de +1,2% em precisão e +80% em taxa de transferência de GPU no Kinetics400 em comparação com métodos anteriores. Os códigos estão publicamente disponíveis em https://github.com/xinghaochen/SqueezeTime e https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
Modelos Integrados de Fala e Linguagem de Grande Escala (SLMs) que podem seguir instruções de fala e gerar respostas textuais relevantes têm ganhado popularidade recentemente. No entanto, a segurança e a robustez desses modelos permanecem amplamente desconhecidas. Neste trabalho, investigamos as potenciais vulnerabilidades desses modelos de linguagem de fala que seguem instruções a ataques adversariais e jailbreaking. Especificamente, projetamos algoritmos que podem gerar exemplos adversariais para realizar jailbreaking em SLMs tanto em cenários de ataque de caixa branca quanto de caixa preta, sem envolvimento humano. Além disso, propomos contramedidas para impedir tais ataques de jailbreaking. Nossos modelos, treinados em dados de diálogo com instruções de fala, alcançam desempenho de ponta na tarefa de resposta a perguntas faladas, obtendo mais de 80% em ambas as métricas de segurança e utilidade. Apesar das salvaguardas de segurança, experimentos de jailbreaking demonstram a vulnerabilidade dos SLMs a perturbações adversariais e ataques de transferência, com taxas médias de sucesso de ataque de 90% e 10%, respectivamente, quando avaliados em um conjunto de dados de perguntas prejudiciais cuidadosamente projetadas, abrangendo 12 categorias tóxicas diferentes. No entanto, demonstramos que nossas contramedidas propostas reduzem significativamente a taxa de sucesso dos ataques.