Artigos de pesquisa em IA selecionados diariamente com traduções
A criação de conteúdo para uma identidade específica (ID) tem despertado grande interesse no campo dos modelos generativos. Na área de geração de texto para imagem (T2I), a geração de conteúdo orientada por sujeitos alcançou progressos significativos, com a ID nas imagens sendo controlável. No entanto, sua extensão para a geração de vídeo ainda não foi amplamente explorada. Neste trabalho, propomos uma estrutura simples, porém eficaz, para geração de vídeo com controle de identidade do sujeito, denominada Video Custom Diffusion (VCD). Com uma ID de sujeito especificada por algumas imagens, o VCD reforça a extração de informações de identidade e injeta correlação entre quadros na fase de inicialização, produzindo vídeos estáveis com a identidade preservada em grande parte. Para isso, propomos três componentes novos que são essenciais para a preservação de alta qualidade da ID: 1) um módulo de ID treinado com a identidade recortada por segmentação baseada em prompt, para separar as informações da ID e o ruído de fundo, permitindo um aprendizado mais preciso dos tokens de ID; 2) um módulo de texto para vídeo (T2V) VCD com Prior de Ruído Gaussiano 3D para melhor consistência entre quadros; e 3) módulos de vídeo para vídeo (V2V) Face VCD e Tiled VCD para desfocar o rosto e aumentar a resolução do vídeo. Apesar de sua simplicidade, realizamos experimentos extensivos para verificar que o VCD é capaz de gerar vídeos estáveis e de alta qualidade com melhor preservação de ID em comparação com as linhas de base selecionadas. Além disso, devido à transferibilidade do módulo de ID, o VCD também funciona bem com modelos de texto para imagem ajustados disponíveis publicamente, melhorando ainda mais sua usabilidade. Os códigos estão disponíveis em https://github.com/Zhen-Dong/Magic-Me.
Modelos de linguagem de grande escala (LLMs) alcançaram desempenhos notáveis em tarefas de raciocínio em diversos domínios. No entanto, no âmbito de tarefas de raciocínio, descobrimos uma fragilidade: os LLMs são surpreendentemente sensíveis à ordem das premissas, apesar de essa ordem não alterar a natureza subjacente da tarefa. Em particular, observamos que os LLMs obtêm o melhor desempenho quando a ordem das premissas está alinhada com o contexto necessário nas etapas intermediárias de raciocínio. Por exemplo, em tarefas de raciocínio dedutivo, apresentar as premissas na mesma ordem da prova verdadeira no prompt (em vez de uma ordem aleatória) aumenta drasticamente a precisão do modelo. Primeiro, examinamos o efeito da ordem das premissas no raciocínio dedutivo em uma variedade de LLMs, e nossa avaliação mostra que permutar a ordem das premissas pode causar uma queda de desempenho superior a 30%. Além disso, lançamos o benchmark R-GSM, baseado no GSM8K, para examinar o efeito da ordem na resolução de problemas matemáticos, e novamente observamos uma queda significativa na precisão em relação ao benchmark GSM8K original.
Modelos de geração de imagens baseados em difusão, como o DALL-E 3 e o Stable Diffusion-XL, demonstram capacidades impressionantes na criação de imagens com composições realistas e únicas. No entanto, esses modelos não são robustos ao raciocinar precisamente sobre configurações físicas e espaciais de objetos, especialmente quando instruídos com descrições não convencionais e, portanto, fora da distribuição, como "uma cadeira com cinco pernas". Neste artigo, propomos um agente de linguagem com cadeia de pensamentos 3D (L3GO), uma abordagem em tempo de inferência que pode raciocinar sobre a geração de malhas 3D baseadas em partes para objetos não convencionais com os quais os modelos de difusão orientados por dados atuais têm dificuldade. Mais concretamente, usamos modelos de linguagem de grande escala como agentes para compor um objeto desejado por meio de tentativa e erro dentro de um ambiente de simulação 3D. Para facilitar nossa investigação, desenvolvemos um novo benchmark, Objetos Não Convencionalmente Viáveis (UFO), bem como o SimpleBlenv, um ambiente encapsulado construído sobre o Blender, onde agentes de linguagem podem construir e compor blocos atômicos por meio de chamadas de API. Avaliações humanas e automáticas com GPT-4V mostram que nossa abordagem supera o GPT-4 padrão e outros agentes de linguagem (por exemplo, ReAct e Reflexion) na geração de malhas 3D no ShapeNet. Além disso, quando testada em nosso benchmark UFO, nossa abordagem supera outros modelos state-of-the-art de texto para imagem 2D e texto para 3D com base em avaliação humana.
O ajuste fino baseado em recompensas surgiu como uma abordagem promissora para alinhar modelos de base com objetivos específicos. Sucessos notáveis foram alcançados no domínio da linguagem ao usar aprendizado por reforço (RL) para maximizar recompensas que refletem preferências humanas. No entanto, no domínio da visão, os métodos existentes de ajuste fino baseados em RL são limitados por sua instabilidade em treinamentos em larga escala, tornando-os incapazes de generalizar para prompts complexos e não vistos. Neste artigo, propomos a Predição de Diferença de Recompensa Proximal (PRDP), permitindo pela primeira vez o ajuste fino estável de recompensas em modelos de difusão em grandes conjuntos de dados de prompts com mais de 100 mil prompts. Nossa principal inovação é o objetivo de Predição de Diferença de Recompensa (RDP), que tem a mesma solução ótima que o objetivo de RL, mas com maior estabilidade no treinamento. Especificamente, o objetivo RDP é uma tarefa de regressão supervisionada que exige que o modelo de difusão preveja a diferença de recompensa entre pares de imagens geradas a partir de suas trajetórias de remoção de ruído. Provamos teoricamente que o modelo de difusão que obtém uma predição perfeita da diferença de recompensa é exatamente o maximizador do objetivo de RL. Desenvolvemos ainda um algoritmo online com atualizações proximais para otimizar de forma estável o objetivo RDP. Nos experimentos, demonstramos que o PRDP pode igualar a capacidade de maximização de recompensa de métodos bem estabelecidos baseados em RL em treinamentos em pequena escala. Além disso, por meio de treinamento em larga escala em prompts de texto do Human Preference Dataset v2 e do Pick-a-Pic v1, o PRDP alcança qualidade de geração superior em um conjunto diversificado de prompts complexos e não vistos, enquanto métodos baseados em RL falham completamente.
O poder de computação, ou "compute", é crucial para o desenvolvimento e implantação de capacidades de inteligência artificial (IA). Como resultado, governos e empresas começaram a utilizar o compute como um meio para governar a IA. Por exemplo, os governos estão investindo em capacidade de compute doméstica, controlando o fluxo de compute para países concorrentes e subsidiando o acesso ao compute para determinados setores. No entanto, esses esforços apenas arranham a superfície de como o compute pode ser usado para governar o desenvolvimento e a implantação da IA. Em relação a outros insumos-chave da IA (dados e algoritmos), o compute relevante para a IA é um ponto de intervenção particularmente eficaz: é detectável, excluível e quantificável, e é produzido por meio de uma cadeia de suprimentos extremamente concentrada. Essas características, juntamente com a importância singular do compute para modelos de IA de ponta, sugerem que governar o compute pode contribuir para alcançar objetivos políticos comuns, como garantir a segurança e o uso benéfico da IA. Mais precisamente, os formuladores de políticas poderiam usar o compute para facilitar a visibilidade regulatória da IA, alocar recursos para promover resultados benéficos e impor restrições contra o desenvolvimento e uso irresponsável ou malicioso da IA. No entanto, embora políticas e tecnologias baseadas em compute tenham o potencial de auxiliar nessas áreas, há uma variação significativa em sua prontidão para implementação. Algumas ideias estão atualmente sendo testadas, enquanto outras são prejudicadas pela necessidade de pesquisa fundamental. Além disso, abordagens ingênuas ou mal dimensionadas para a governança do compute carregam riscos significativos em áreas como privacidade, impactos econômicos e centralização de poder. Concluímos sugerindo guardrails para minimizar esses riscos da governança do compute.
A generalização de comprimento, definida como a capacidade de extrapolar de sequências de treinamento mais curtas para sequências de teste mais longas, é um desafio significativo para modelos de linguagem. Esse problema persiste mesmo com Transformers em grande escala lidando com tarefas relativamente simples. Neste artigo, testamos a capacidade de generalização de comprimento do Transformer usando a tarefa de adição de dois números inteiros. Mostramos que o sucesso da generalização de comprimento está intrinsecamente ligado ao formato dos dados e ao tipo de codificação posicional. Usando a combinação correta de formato de dados e codificações posicionais, demonstramos pela primeira vez que Transformers padrão podem extrapolar para um comprimento de sequência que é 2,5 vezes o comprimento da entrada. No entanto, ao contrário da generalização dentro da distribuição, a generalização de comprimento permanece frágil, sendo significativamente influenciada por fatores como a inicialização aleatória dos pesos e a ordem dos dados de treinamento, resultando em grandes variações entre diferentes sementes aleatórias.
A necessidade imperativa de escalar a computação em diversos nós destaca a importância da computação paralela eficiente, particularmente no âmbito da integração da Interface de Passagem de Mensagens (MPI). A tarefa desafiadora de programação paralela de gerar programas paralelos baseados em MPI permaneceu inexplorada. Este estudo investiga inicialmente o desempenho de modelos de linguagem state-of-the-art na geração de programas paralelos baseados em MPI. Os resultados revelam que modelos amplamente utilizados, como GPT-3.5 e PolyCoder (modelos especializados em código multilíngue), apresentam uma degradação significativa de desempenho ao gerar programas baseados em MPI em comparação com programas de propósito geral. Em contraste, modelos específicos de domínio, como o MonoCoder, que são pré-treinados em linguagens de programação relacionadas a MPI, como C e C++, superam modelos maiores. Posteriormente, introduzimos uma tarefa dedicada de geração de programas baseados em MPI, ajustando o MonoCoder no HPCorpusMPI. Chamamos o modelo resultante de MPIrigen. Propomos um pré-processamento inovador para completar o código apenas após observar todo o contexto, permitindo uma melhor conclusão com um contexto mais amplo. A análise comparativa com o desempenho zero-shot do GPT-3.5, utilizando um novo método de avaliação orientado para HPC, demonstra que o MPIrigen se destaca na geração de funções MPI precisas, com até 0,8 de precisão em previsões de localização e função, e mais de 0,9 de precisão para previsões de argumentos. O sucesso dessa solução personalizada ressalta a importância do ajuste fino específico do domínio na otimização de modelos de linguagem para geração de código de computação paralela, abrindo caminho para uma nova geração de ferramentas de paralelização automática. As fontes deste trabalho estão disponíveis em nosso repositório GitHub MPIrigen: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.
Modelos de linguagem de grande escala (LLMs) estão se tornando cada vez mais prevalentes e têm encontrado um uso ubíquo na prestação de diferentes formas de assistência à escrita. No entanto, sistemas de escrita baseados em LLMs podem frustrar os usuários devido à sua personalização e controle limitados, o que pode ser exacerbado quando os usuários não têm experiência com engenharia de prompts. Vemos o design como uma forma de abordar esses desafios e apresentamos o GhostWriter, uma sonda de design de escrita aprimorada por IA, onde os usuários podem exercer maior agência e personalização. O GhostWriter utiliza LLMs para aprender implicitamente o estilo de escrita pretendido pelo usuário enquanto ele escreve, ao mesmo tempo que permite momentos de ensino explícito por meio de edições e anotações manuais de estilo. Estudamos 18 participantes que usaram o GhostWriter em duas tarefas de escrita diferentes, observando que ele ajuda os usuários a criar gerações de texto personalizadas e os capacita ao fornecer múltiplas formas de controlar o estilo de escrita do sistema. A partir desse estudo, apresentamos insights sobre a relação das pessoas com a escrita assistida por IA e oferecemos recomendações de design para trabalhos futuros.
Com o aumento da complexidade dos modelos de IA generativa, a quantização pós-treinamento (PTQ, do inglês Post-Training Quantization) surgiu como uma solução promissora para a implantação de modelos hiperdimensionados em dispositivos de borda, como celulares e TVs. No entanto, os esquemas de PTQ existentes consomem tempo e recursos consideráveis, o que pode se tornar um gargalo em situações reais onde atualizações frequentes de modelos e ajustes múltiplos de hiperparâmetros são necessários. Como uma alternativa econômica, esquemas de PTQ de única passagem (one-shot) foram propostos. Ainda assim, o desempenho é um tanto limitado, pois eles não conseguem considerar a dependência intercamadas dentro do módulo de atenção, uma característica muito importante dos Transformers. Neste artigo, propomos, portanto, um novo algoritmo de PTQ que equilibra precisão e eficiência. A ideia central do algoritmo proposto, chamado aespa, é realizar a quantização camada por camada para eficiência, ao mesmo tempo em que considera a dependência entre camadas para preservar a pontuação de atenção. Por meio de extensos experimentos em vários modelos de linguagem e análises de complexidade, demonstramos que o aespa é preciso e eficiente na quantização de modelos Transformer.