Artigos de pesquisa em IA selecionados diariamente com traduções
Métodos de ajuste fino eficiente em parâmetros (PEFT) buscam adaptar modelos grandes por meio de atualizações em um pequeno número de pesos. No entanto, muito trabalho prévio em interpretabilidade mostrou que as representações codificam informações semânticas ricas, sugerindo que a edição de representações pode ser uma alternativa mais poderosa. Aqui, exploramos essa hipótese desenvolvendo uma família de métodos de Ajuste Fino de Representações (ReFT). Os métodos ReFT operam em um modelo base congelado e aprendem intervenções específicas para tarefas nas representações ocultas. Definimos uma instância robusta da família ReFT, o ReFT de Subespaço Linear de Baixa Dimensão (LoReFT). O LoReFT é uma substituição direta para os PEFTs existentes e aprende intervenções que são 10x a 50x mais eficientes em parâmetros do que os PEFTs de última geração anteriores. Demonstramos o LoReFT em oito tarefas de raciocínio de senso comum, quatro tarefas de raciocínio aritmético, Alpaca-Eval v1.0 e GLUE. Em todas essas avaliações, o LoReFT oferece o melhor equilíbrio entre eficiência e desempenho, e quase sempre supera os PEFTs de última geração. Lançamos publicamente uma biblioteca genérica de treinamento ReFT em https://github.com/stanfordnlp/pyreft.
Os modelos de difusão têm demonstrado grande sucesso no campo de geração de texto para imagem. No entanto, mitigar o desalinhamento entre os prompts de texto e as imagens ainda é um desafio. A razão fundamental por trás desse desalinhamento não foi extensivamente investigada. Observamos que o desalinhamento é causado por uma ativação inadequada da atenção aos tokens. Atribuímos ainda esse fenômeno à utilização insuficiente da condição pelo modelo de difusão, que é causada por seu paradigma de treinamento. Para resolver o problema, propomos o CoMat, uma estratégia de ajuste fino de modelo de difusão de ponta a ponta com um mecanismo de correspondência de conceitos de imagem para texto. Utilizamos um modelo de legendagem de imagens para medir o alinhamento imagem-texto e guiar o modelo de difusão a revisitar tokens ignorados. Um módulo inovador de concentração de atributos também é proposto para abordar o problema de vinculação de atributos. Sem utilizar dados de imagens ou preferências humanas, usamos apenas 20 mil prompts de texto para ajustar o SDXL e obter o CoMat-SDXL. Experimentos extensivos mostram que o CoMat-SDXL supera significativamente o modelo de referência SDXL em dois benchmarks de alinhamento texto-imagem e alcança desempenho de ponta.
Este artigo apresenta o MiniGPT4-Video, um modelo de linguagem de grande escala (LLM) multimodal projetado especificamente para a compreensão de vídeos. O modelo é capaz de processar tanto dados visuais temporais quanto textuais, tornando-o apto a entender as complexidades dos vídeos. Com base no sucesso do MiniGPT-v2, que se destacou na tradução de características visuais para o espaço LLM em imagens únicas e obteve resultados impressionantes em vários benchmarks de imagem-texto, este artigo estende as capacidades do modelo para processar uma sequência de quadros, permitindo que ele compreenda vídeos. O MiniGPT4-Video não apenas considera o conteúdo visual, mas também incorpora conversas textuais, permitindo que o modelo responda efetivamente a consultas que envolvem componentes visuais e textuais. O modelo proposto supera os métodos state-of-the-art existentes, registrando ganhos de 4,22%, 1,13%, 20,82% e 13,1% nos benchmarks MSVD, MSRVTT, TGIF e TVQA, respectivamente. Nossos modelos e código estão disponíveis publicamente em https://vision-cair.github.io/MiniGPT4-video/.
No cenário em rápida evolução da inteligência artificial, os modelos de linguagem multimodal de grande escala estão emergindo como uma área de significativo interesse. Esses modelos, que combinam diversas formas de entrada de dados, estão se tornando cada vez mais populares. No entanto, compreender seus mecanismos internos continua sendo uma tarefa complexa. Numerosos avanços foram feitos no campo de ferramentas e mecanismos de explicabilidade, mas ainda há muito a ser explorado. Neste trabalho, apresentamos uma nova aplicação interativa voltada para a compreensão dos mecanismos internos de grandes modelos de visão e linguagem. Nossa interface foi projetada para aprimorar a interpretabilidade dos patches de imagem, que são fundamentais para gerar uma resposta, e avaliar a eficácia do modelo de linguagem em fundamentar sua saída na imagem. Com nossa aplicação, um usuário pode investigar sistematicamente o modelo e descobrir limitações do sistema, abrindo caminho para melhorias nas capacidades do sistema. Por fim, apresentamos um estudo de caso de como nossa aplicação pode auxiliar na compreensão dos mecanismos de falha em um popular modelo multimodal de grande escala: o LLaVA.
Neste artigo, exploramos a ideia de treinar grandes modelos de linguagem (LLMs) sobre texto altamente comprimido. Enquanto os tokenizadores padrão de subpalavras comprimem o texto por um fator pequeno, os compressores neurais de texto podem alcançar taxas de compressão muito maiores. Se fosse possível treinar LLMs diretamente sobre texto neuralmente comprimido, isso traria vantagens em eficiência de treinamento e serviço, além de facilitar o tratamento de trechos longos de texto. O principal obstáculo para esse objetivo é que a compressão forte tende a produzir saídas opacas que não são adequadas para aprendizado. Em particular, descobrimos que o texto comprimido de forma ingênua via Codificação Aritmética não é facilmente aprendível por LLMs. Para superar isso, propomos Janelas de Informação Igual, uma nova técnica de compressão na qual o texto é segmentado em blocos que comprimem para o mesmo comprimento em bits. Usando esse método, demonstramos um aprendizado eficaz sobre texto neuralmente comprimido que melhora com a escala e supera as linhas de base em nível de byte por uma ampla margem em benchmarks de perplexidade e velocidade de inferência. Embora nosso método entregue uma perplexidade pior do que os tokenizadores de subpalavras para modelos treinados com a mesma contagem de parâmetros, ele tem o benefício de comprimentos de sequência mais curtos. Comprimentos de sequência mais curtos exigem menos etapas de geração autoregressiva e reduzem a latência. Por fim, fornecemos uma análise extensa das propriedades que contribuem para a capacidade de aprendizado e oferecemos sugestões concretas sobre como melhorar ainda mais o desempenho de tokenizadores de alta compressão.
Os Modelos de Linguagem de Grande Escala (LLMs) para código estão evoluindo rapidamente, com a edição de código emergindo como uma capacidade crítica. Apresentamos o CodeEditorBench, uma estrutura de avaliação projetada para avaliar rigorosamente o desempenho de LLMs em tarefas de edição de código, incluindo depuração, tradução, refinamento e mudança de requisitos. Diferente dos benchmarks existentes que se concentram apenas na geração de código, o CodeEditorBench enfatiza cenários do mundo real e aspectos práticos do desenvolvimento de software. Selecionamos diversos desafios e cenários de codificação de cinco fontes, abrangendo várias linguagens de programação, níveis de complexidade e tarefas de edição. A avaliação de 19 LLMs revela que modelos de código fechado (particularmente o Gemini-Ultra e o GPT-4) superam os modelos de código aberto no CodeEditorBench, destacando diferenças no desempenho dos modelos com base nos tipos de problemas e na sensibilidade aos prompts. O CodeEditorBench visa catalisar avanços nos LLMs ao fornecer uma plataforma robusta para avaliar capacidades de edição de código. Liberaremos todos os prompts e conjuntos de dados para permitir que a comunidade expanda o conjunto de dados e avalie LLMs emergentes. Ao introduzir o CodeEditorBench, contribuímos para o avanço dos LLMs na edição de código e fornecemos um recurso valioso para pesquisadores e profissionais.
Apresentamos o PointInfinity, uma família eficiente de modelos de difusão para nuvens de pontos. Nossa ideia central é utilizar uma arquitetura baseada em transformers com uma representação latente de tamanho fixo e invariante à resolução. Isso permite um treinamento eficiente com nuvens de pontos de baixa resolução, ao mesmo tempo que possibilita a geração de nuvens de pontos de alta resolução durante a inferência. Mais importante ainda, mostramos que escalar a resolução no momento do teste além da resolução de treinamento melhora a fidelidade das nuvens de pontos e superfícies geradas. Analisamos esse fenômeno e estabelecemos uma ligação com a orientação sem classificador, comumente usada em modelos de difusão, demonstrando que ambos permitem equilibrar fidelidade e variabilidade durante a inferência. Experimentos no CO3D mostram que o PointInfinity pode gerar de forma eficiente nuvens de pontos de alta resolução (até 131k pontos, 31 vezes mais que o Point-E) com qualidade de ponta.
Diversos ataques de jailbreak foram propostos para testar a segurança de Modelos de Linguagem de Grande Escala (LLMs) e revelaram as salvaguardas vulneráveis desses modelos. Além disso, alguns métodos não se limitam à modalidade textual e estendem o ataque de jailbreak para Modelos de Linguagem Multimodais de Grande Escala (MLLMs) por meio da perturbação da entrada visual. No entanto, a ausência de um benchmark universal de avaliação complica a reprodução de desempenho e a comparação justa. Além disso, há uma falta de avaliação abrangente de modelos proprietários de última geração (SOTA), especialmente MLLMs, como o GPT-4V. Para abordar essas questões, este trabalho primeiro constrói um conjunto de dados abrangente de avaliação de jailbreak com 1445 perguntas prejudiciais cobrindo 11 políticas de segurança diferentes. Com base nesse conjunto de dados, extensos experimentos de red-teaming são conduzidos em 11 diferentes LLMs e MLLMs, incluindo tanto modelos proprietários SOTA quanto modelos de código aberto. Em seguida, realizamos uma análise profunda dos resultados avaliados e descobrimos que (1) GPT-4 e GPT-4V demonstram maior robustez contra ataques de jailbreak em comparação com LLMs e MLLMs de código aberto. (2) Llama2 e Qwen-VL-Chat são mais robustos em comparação com outros modelos de código aberto. (3) A transferibilidade dos métodos de jailbreak visual é relativamente limitada em comparação com os métodos de jailbreak textual. O conjunto de dados e o código podem ser encontrados aqui: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
Apresentamos o RALL-E, um método robusto de modelagem de linguagem para síntese de texto-para-fala (TTS). Embora trabalhos anteriores baseados em grandes modelos de linguagem (LLMs) demonstrem desempenho impressionante em TTS zero-shot, tais métodos frequentemente sofrem com baixa robustez, como prosódia instável (tom e ritmo/duração estranhos) e alta taxa de erro de palavras (WER), devido ao estilo de previsão autoregressivo dos modelos de linguagem. A ideia central por trás do RALL-E é o prompting de cadeia de pensamento (CoT), que decompõe a tarefa em etapas mais simples para aumentar a robustez do TTS baseado em LLM. Para realizar essa ideia, o RALL-E primeiro prevê características de prosódia (tom e duração) do texto de entrada e as utiliza como condições intermediárias para prever tokens de fala em um estilo CoT. Em segundo lugar, o RALL-E utiliza o prompt de duração previsto para guiar o cálculo dos pesos de autoatenção no Transformer, forçando o modelo a focar nos fonemas e características de prosódia correspondentes ao prever os tokens de fala. Os resultados de avaliações objetivas e subjetivas abrangentes demonstram que, em comparação com um método de linha de base poderoso, o VALL-E, o RALL-E melhora significativamente o WER do TTS zero-shot de 6,3% (sem reclassificação) e 2,1% (com reclassificação) para 2,8% e 1,0%, respectivamente. Além disso, demonstramos que o RALL-E sintetiza corretamente frases que são difíceis para o VALL-E e reduz a taxa de erro de 68% para 4%.