Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes modelos de linguagem (LLMs), exemplificados pelo ChatGPT, têm recebido considerável atenção por suas excelentes capacidades de processamento de linguagem natural. No entanto, esses LLMs apresentam muitos desafios, particularmente no âmbito da confiabilidade. Portanto, garantir a confiabilidade dos LLMs surge como um tópico importante. Este artigo introduz o TrustLLM, um estudo abrangente sobre a confiabilidade em LLMs, incluindo princípios para diferentes dimensões da confiabilidade, um benchmark estabelecido, avaliação e análise da confiabilidade para LLMs mainstream, e uma discussão sobre desafios abertos e direções futuras. Especificamente, primeiro propomos um conjunto de princípios para LLMs confiáveis que abrangem oito dimensões diferentes. Com base nesses princípios, estabelecemos ainda um benchmark em seis dimensões, incluindo veracidade, segurança, justiça, robustez, privacidade e ética das máquinas. Em seguida, apresentamos um estudo avaliando 16 LLMs mainstream no TrustLLM, consistindo de mais de 30 conjuntos de dados. Nossas descobertas mostram, em primeiro lugar, que, em geral, a confiabilidade e a utilidade (ou seja, a eficácia funcional) estão positivamente relacionadas. Em segundo lugar, nossas observações revelam que LLMs proprietários geralmente superam a maioria de suas contrapartes de código aberto em termos de confiabilidade, levantando preocupações sobre os riscos potenciais de LLMs de código aberto amplamente acessíveis. No entanto, alguns LLMs de código aberto se aproximam muito dos proprietários. Em terceiro lugar, é importante notar que alguns LLMs podem estar excessivamente calibrados para exibir confiabilidade, a ponto de comprometerem sua utilidade ao tratar erroneamente prompts benignos como prejudiciais e, consequentemente, não responderem. Por fim, enfatizamos a importância de garantir a transparência não apenas nos próprios modelos, mas também nas tecnologias que sustentam a confiabilidade. Conhecer as tecnologias específicas de confiabilidade que foram empregadas é crucial para analisar sua eficácia.
Este relatório técnico apresenta o PIXART-{\delta}, um framework de síntese de texto para imagem que integra o Modelo de Consistência Latente (LCM) e o ControlNet ao avançado modelo PIXART-{\alpha}. O PIXART-{\alpha} é reconhecido por sua capacidade de gerar imagens de alta qualidade com resolução de 1024px por meio de um processo de treinamento notavelmente eficiente. A integração do LCM no PIXART-{\delta} acelera significativamente a velocidade de inferência, permitindo a produção de imagens de alta qualidade em apenas 2-4 passos. Notavelmente, o PIXART-{\delta} alcança um marco de 0,5 segundos para gerar imagens de 1024x1024 pixels, representando uma melhoria de 7x em relação ao PIXART-{\alpha}. Além disso, o PIXART-{\delta} foi projetado para ser eficientemente treinável em GPUs V100 de 32GB em um único dia. Com sua capacidade de inferência de 8 bits (von Platen et al., 2023), o PIXART-{\delta} pode sintetizar imagens de 1024px dentro de restrições de memória GPU de 8GB, aumentando consideravelmente sua usabilidade e acessibilidade. Adicionalmente, a incorporação de um módulo semelhante ao ControlNet permite um controle refinado sobre modelos de difusão de texto para imagem. Introduzimos uma nova arquitetura ControlNet-Transformer, especificamente adaptada para Transformers, alcançando controlabilidade explícita juntamente com a geração de imagens de alta qualidade. Como um modelo de geração de imagens de código aberto e estado da arte, o PIXART-{\delta} oferece uma alternativa promissora à família de modelos Stable Diffusion, contribuindo significativamente para a síntese de texto para imagem.
Os Transformers são considerados conceitualmente diferentes em comparação com a geração anterior de modelos de última geração em PLN - redes neurais recorrentes (RNNs). Neste trabalho, demonstramos que os Transformers apenas com decodificador podem, de fato, ser conceitualizados como RNNs multi-estado infinitas - uma variante de RNN com tamanho ilimitado de estado oculto. Além disso, mostramos que Transformers pré-treinados podem ser convertidos em RNNs multi-estado finitas ao fixar o tamanho de seu estado oculto. Observamos que várias técnicas existentes de compressão de cache de Transformers podem ser enquadradas como tais políticas de conversão e introduzimos uma nova política, TOVA, que é mais simples em comparação com essas políticas. Nossos experimentos com várias tarefas de longo alcance indicam que o TOVA supera todas as outras políticas de linha de base, estando quase em pé de igualdade com o modelo completo (infinito) e usando, em alguns casos, apenas 1/8 do tamanho original do cache. Nossos resultados indicam que os LLMs de decodificador Transformer frequentemente se comportam na prática como RNNs. Eles também apresentam a opção de mitigar um de seus gargalos computacionais mais problemáticos - o tamanho de sua memória cache. Disponibilizamos publicamente nosso código em https://github.com/schwartz-lab-NLP/TOVA.
Os seres humanos são capazes de comportamentos estrategicamente enganosos: agindo de forma útil na maioria das situações, mas se comportando de maneira muito diferente para perseguir objetivos alternativos quando surge a oportunidade. Se um sistema de IA aprendesse tal estratégia enganosa, poderíamos detectá-la e removê-la usando as técnicas atuais de treinamento de segurança? Para estudar essa questão, construímos exemplos de prova de conceito de comportamento enganoso em grandes modelos de linguagem (LLMs). Por exemplo, treinamos modelos que escrevem código seguro quando o prompt indica que o ano é 2023, mas inserem código explorável quando o ano indicado é 2024. Descobrimos que tal comportamento com backdoor pode se tornar persistente, de modo que não é removido pelas técnicas padrão de treinamento de segurança, incluindo ajuste fino supervisionado, aprendizado por reforço e treinamento adversário (induzindo comportamento inseguro e, em seguida, treinando para removê-lo). O comportamento com backdoor é mais persistente nos maiores modelos e em modelos treinados para produzir raciocínio em cadeia (chain-of-thought) sobre como enganar o processo de treinamento, com a persistência permanecendo mesmo quando o raciocínio em cadeia é eliminado. Além disso, em vez de remover backdoors, descobrimos que o treinamento adversário pode ensinar os modelos a reconhecer melhor seus gatilhos de backdoor, efetivamente ocultando o comportamento inseguro. Nossos resultados sugerem que, uma vez que um modelo exibe comportamento enganoso, as técnicas padrão podem falhar em remover tal engano e criar uma falsa impressão de segurança.
Apresentamos o InseRF, um método inovador para inserção generativa de objetos em reconstruções NeRF de cenas 3D. Com base em uma descrição textual fornecida pelo usuário e em uma caixa delimitadora 2D em um ponto de vista de referência, o InseRF gera novos objetos em cenas 3D. Recentemente, os métodos para edição de cenas 3D foram profundamente transformados, graças ao uso de fortes priors de modelos de difusão texto-para-imagem na modelagem generativa 3D. Os métodos existentes são principalmente eficazes na edição de cenas 3D por meio de mudanças de estilo e aparência ou na remoção de objetos existentes. No entanto, a geração de novos objetos continua sendo um desafio para tais métodos, que abordamos neste estudo. Especificamente, propomos ancorar a inserção de objetos 3D a uma inserção de objetos 2D em uma visão de referência da cena. A edição 2D é então elevada para 3D usando um método de reconstrução de objetos de visão única. O objeto reconstruído é então inserido na cena, guiado pelos priors de métodos de estimativa de profundidade monoculares. Avaliamos nosso método em várias cenas 3D e fornecemos uma análise detalhada dos componentes propostos. Nossos experimentos com a inserção generativa de objetos em várias cenas 3D indicam a eficácia do nosso método em comparação com os métodos existentes. O InseRF é capaz de realizar inserções de objetos controláveis e consistentes em 3D sem exigir informações 3D explícitas como entrada. Visite nossa página do projeto em https://mohamad-shahbazi.github.io/inserf.
Os modelos fotorealísticos de mãos reluzentes existentes exigem extensas observações específicas para cada identidade em diferentes ângulos, poses e iluminações, e enfrentam desafios para generalizar em iluminações naturais e novas identidades. Para preencher essa lacuna, apresentamos o URHand, o primeiro modelo universal de mãos reluzentes que generaliza entre pontos de vista, poses, iluminações e identidades. Nosso modelo permite a personalização com poucas amostras usando imagens capturadas com um telefone celular e está pronto para ser renderizado fotorealisticamente sob novas iluminações. Para simplificar o processo de personalização enquanto mantém o fotorealismo, construímos um poderoso prior universal reluzente baseado em reluzimento neural a partir de imagens multi-visão de mãos capturadas em um estágio de luz com centenas de identidades. O principal desafio é escalar o treinamento cruzado entre identidades enquanto mantém a fidelidade personalizada e detalhes nítidos sem comprometer a generalização sob iluminações naturais. Para isso, propomos um modelo de iluminação linear espacialmente variável como o renderizador neural que toma o sombreamento inspirado na física como característica de entrada. Ao remover ativações não lineares e viés, nosso modelo de iluminação especificamente projetado mantém explicitamente a linearidade do transporte de luz. Isso permite o treinamento em estágio único a partir de dados de estágio de luz enquanto generaliza para renderização em tempo real sob iluminações contínuas arbitrárias em diversas identidades. Além disso, introduzimos a aprendizagem conjunta de um modelo baseado em física e nosso modelo de reluzimento neural, o que melhora ainda mais a fidelidade e a generalização. Experimentos extensivos mostram que nossa abordagem alcança desempenho superior em relação aos métodos existentes em termos de qualidade e generalizabilidade. Também demonstramos a rápida personalização do URHand a partir de uma breve varredura de telefone de uma identidade não vista.
A Cadeia de Pensamento (Chain of Thought, CoT) é significativa para melhorar as habilidades de raciocínio dos grandes modelos de linguagem (Large Language Models, LLMs). No entanto, a correlação entre a eficácia da CoT e o comprimento das etapas de raciocínio nos prompts permanece amplamente desconhecida. Para esclarecer isso, realizamos vários experimentos empíricos para explorar essas relações. Especificamente, projetamos experimentos que expandem e comprimem as etapas de raciocínio dentro das demonstrações de CoT, mantendo todos os outros fatores constantes. Temos as seguintes descobertas principais. Primeiro, os resultados indicam que alongar as etapas de raciocínio nos prompts, mesmo sem adicionar novas informações ao prompt, melhora consideravelmente as habilidades de raciocínio dos LLMs em vários conjuntos de dados. Alternativamente, encurtar as etapas de raciocínio, mesmo preservando as informações-chave, diminui significativamente as habilidades de raciocínio dos modelos. Essa descoberta destaca a importância do número de etapas nos prompts de CoT e fornece orientações práticas para aproveitar melhor o potencial dos LLMs em cenários de resolução de problemas complexos. Segundo, também investigamos a relação entre o desempenho da CoT e as justificativas usadas nas demonstrações. Surpreendentemente, o resultado mostra que mesmo justificativas incorretas podem produzir resultados favoráveis se mantiverem o comprimento necessário de inferência. Terceiro, observamos que as vantagens de aumentar as etapas de raciocínio dependem da tarefa: tarefas mais simples exigem menos etapas, enquanto tarefas complexas se beneficiam significativamente de sequências de inferência mais longas.
Modelos de linguagem de grande escala (LLMs) são agentes de diálogo poderosos, mas especializá-los para cumprir uma função específica pode ser desafiador. O ajuste por instrução, ou seja, o ajuste de modelos em instruções e respostas de exemplo geradas por humanos (Ouyang et al., 2022), mostrou-se um método eficaz para isso, mas requer uma quantidade de amostras de dados que a) podem não estar disponíveis ou b) são custosas de gerar. Além disso, esse custo aumenta quando o objetivo é fazer o LLM seguir um fluxo de trabalho específico dentro de um diálogo, em vez de instruções isoladas. Inspirados pela técnica de auto-jogo no aprendizado por reforço e pelo uso de LLMs para simular agentes humanos, propomos um método mais eficaz para coleta de dados por meio de LLMs que se envolvem em uma conversa em vários papéis. Essa abordagem gera dados de treinamento por meio do "auto-diálogo" de LLMs, que podem ser refinados e utilizados para ajuste supervisionado. Introduzimos uma maneira automatizada de medir o (parcial) sucesso de um diálogo. Essa métrica é usada para filtrar os dados conversacionais gerados que são realimentados no LLM para treinamento. Com base em nossas avaliações automatizadas e humanas da qualidade das conversas, demonstramos que esses dados de auto-diálogo melhoram os resultados. Além disso, examinamos as várias características que demonstram a qualidade dos diálogos gerados e como elas podem estar conectadas à sua utilidade potencial como dados de treinamento.
O recente avanço em modelos de visão e linguagem é amplamente atribuído à abundância de dados de imagem-texto. Nosso objetivo é replicar esse sucesso para modelos de vídeo e linguagem, mas simplesmente não há dados suficientes de vídeo-texto curados por humanos disponíveis. Assim, recorremos ao ajuste fino de um modelo de vídeo e linguagem a partir de uma base sólida de imagem e linguagem com dados instrucionais sintetizados. O modelo de vídeo e linguagem resultante é então usado para rotular automaticamente milhões de vídeos, gerando legendas de alta qualidade. Mostramos que o modelo de vídeo e linguagem adaptado tem um bom desempenho em uma ampla gama de benchmarks de vídeo e linguagem. Por exemplo, ele supera o melhor resultado anterior no NExT-QA de resposta aberta em 2,8%. Além disso, nosso modelo gera descrições detalhadas para vídeos previamente não vistos, que fornecem uma supervisão textual melhor do que os métodos existentes. Experimentos mostram que um modelo de codificador duplo de vídeo e linguagem treinado de forma contrastiva nessas legendas geradas automaticamente é 3,8% melhor do que a linha de base mais forte que também aproveita modelos de visão e linguagem. Nosso melhor modelo supera os métodos state-of-the-art na tarefa de recuperação de texto para vídeo zero-shot do MSR-VTT em 6%.
O Score Distillation Sampling (SDS) é um método recente, mas já amplamente popular, que utiliza um modelo de difusão de imagens para controlar problemas de otimização por meio de prompts de texto. Neste artigo, realizamos uma análise aprofundada da função de perda do SDS, identificamos um problema inerente à sua formulação e propomos uma correção surpreendentemente simples, mas eficaz. Especificamente, decompomos a perda em diferentes fatores e isolamos o componente responsável pelos gradientes ruidosos. Na formulação original, uma alta orientação textual é usada para compensar o ruído, o que leva a efeitos colaterais indesejados. Em vez disso, treinamos uma rede rasa que imita a deficiência de remoção de ruído dependente do passo de tempo do modelo de difusão de imagens, a fim de fatorá-la de forma eficaz. Demonstramos a versatilidade e a eficácia de nossa nova formulação de perda por meio de vários experimentos qualitativos e quantitativos, incluindo síntese e edição de imagens baseadas em otimização, treinamento de redes de tradução de imagens zero-shot e síntese de texto para 3D.
A riqueza de conteúdo da Internet, com até 60% publicado em inglês, contrasta fortemente com a população global, onde apenas 18,8% são falantes de inglês, e apenas 5,1% o consideram sua língua nativa, resultando em disparidades no acesso à informação online. Infelizmente, os processos automatizados de dublagem de vídeo - substituição da trilha sonora de um vídeo por uma alternativa traduzida - continuam sendo uma tarefa complexa e desafiadora devido aos pipelines, que exigem sincronização precisa de tempo, movimentos faciais e correspondência de prosódia. Embora a dublagem de ponta a ponta ofereça uma solução, a escassez de dados continua a impedir o progresso tanto dos métodos de ponta a ponta quanto dos baseados em pipelines. Neste trabalho, apresentamos o Anim-400K, um conjunto de dados abrangente de mais de 425 mil segmentos de vídeos animados alinhados em japonês e inglês, que suporta diversas tarefas relacionadas a vídeo, incluindo dublagem automatizada, tradução simultânea, sumarização guiada de vídeo e classificação de gênero/tema/estilo. Nosso conjunto de dados está disponível publicamente para fins de pesquisa em https://github.com/davidmchan/Anim400K.
Os modelos de linguagem de grande escala (LLMs) baseados em Transformers têm sido amplamente utilizados em diversos campos, e a eficiência da inferência de LLMs tornou-se um tópico relevante em aplicações reais. No entanto, os LLMs geralmente possuem uma estrutura de modelo complexa, com operações massivas, e realizam inferência no modo auto-regressivo, o que torna desafiador projetar um sistema com alta eficiência. Neste artigo, propomos uma solução eficiente para inferência de LLMs com baixa latência e alta taxa de transferência. Primeiramente, simplificamos a camada decodificadora do LLM ao fundir movimentações de dados e operações elementares, reduzindo a frequência de acesso à memória e diminuindo a latência do sistema. Também propomos uma política de cache KV segmentado para manter as chaves/valores dos tokens de requisição e resposta em memória física separada, permitindo um gerenciamento eficaz da memória do dispositivo, o que ajuda a aumentar o tamanho do lote em tempo de execução e melhorar a taxa de transferência do sistema. Um kernel personalizado de Scaled-Dot-Product-Attention foi projetado para corresponder à nossa política de fusão com base na solução de cache KV segmentado. Implementamos nossa solução de inferência de LLMs em GPU Intel e a disponibilizamos publicamente. Em comparação com a implementação padrão do HuggingFace, a solução proposta alcança até 7x menos latência por token e 27x maior taxa de transferência para alguns LLMs populares em GPU Intel.