Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) estão agora implantados para uso cotidiano e posicionados para produzir grandes quantidades de texto na próxima década. O texto gerado por máquina pode substituir o texto escrito por humanos na internet e tem o potencial de ser usado para fins maliciosos, como ataques de spearphishing e bots de mídia social. A marcação d'água é uma estratégia simples e eficaz para mitigar esses danos, permitindo a detecção e documentação de texto gerado por LLMs. No entanto, uma questão crucial permanece: Quão confiável é a marcação d'água em cenários realistas no mundo real? Lá, o texto marcado pode ser misturado com outras fontes de texto, parafraseado por escritores humanos ou outros modelos de linguagem, e usado em uma ampla variedade de domínios, tanto sociais quanto técnicos. Neste artigo, exploramos diferentes esquemas de detecção, quantificamos sua eficácia na detecção de marcas d'água e determinamos quanto texto gerado por máquina precisa ser observado em cada cenário para detectar a marca d'água de forma confiável. Destacamos especialmente nosso estudo com humanos, onde investigamos a confiabilidade da marcação d'água quando confrontada com paráfrases humanas. Comparamos a detecção baseada em marca d'água com outras estratégias de detecção, concluindo que a marcação d'água é uma solução confiável, especialmente devido à sua complexidade de amostragem - para todos os ataques que consideramos, a evidência da marca d'água se acumula à medida que mais exemplos são fornecidos, e a marca d'água é eventualmente detectada.
Modelos de linguagem de grande escala ajustados por instruções revolucionaram o processamento de linguagem natural e demonstraram grande potencial em aplicações como agentes conversacionais. Esses modelos, como o GPT-4, não apenas dominam a linguagem, mas também resolvem tarefas complexas em áreas como matemática, programação, medicina e direito. Apesar de suas capacidades impressionantes, ainda há uma falta de compreensão abrangente sobre seu potencial total, principalmente devido à natureza de "caixa preta" de muitos modelos e à ausência de estudos de avaliação holísticos. Para enfrentar esses desafios, apresentamos o INSTRUCTEVAL, uma suíte de avaliação mais abrangente projetada especificamente para modelos de linguagem de grande escala ajustados por instruções. Diferente de trabalhos anteriores, nossa avaliação envolve uma análise rigorosa dos modelos com base na resolução de problemas, capacidade de escrita e alinhamento com valores humanos. Adotamos uma abordagem holística para analisar diversos fatores que afetam o desempenho dos modelos, incluindo a base de pré-treinamento, os dados de ajuste por instruções e os métodos de treinamento. Nossos resultados revelam que a qualidade dos dados de instrução é o fator mais crucial para escalar o desempenho dos modelos. Embora os modelos de código aberto demonstrem habilidades impressionantes de escrita, há um espaço significativo para melhorias na resolução de problemas e no alinhamento. Estamos encorajados pelo rápido desenvolvimento de modelos pela comunidade de código aberto, mas também destacamos a necessidade de avaliações rigorosas para respaldar as afirmações feitas sobre esses modelos. Por meio do INSTRUCTEVAL, buscamos promover uma compreensão mais profunda dos modelos ajustados por instruções e avanços em suas capacidades. O INSTRUCTEVAL está disponível publicamente em https://github.com/declare-lab/instruct-eval.
O ajuste por instrução de grandes modelos de linguagem (LLMs) continua sendo uma tarefa desafiadora, devido à complexidade da seleção de hiperparâmetros e à dificuldade envolvida na avaliação dos modelos ajustados. Para determinar os hiperparâmetros ideais, um benchmark de avaliação automático, robusto e confiável é essencial. No entanto, estabelecer tal benchmark não é uma tarefa trivial devido aos desafios associados à precisão da avaliação e à proteção de privacidade. Em resposta a esses desafios, introduzimos um modelo de linguagem grande como juiz, denominado PandaLM, que é treinado para distinguir o modelo superior entre vários LLMs. O foco do PandaLM vai além da correção objetiva das respostas, que é o principal foco dos conjuntos de dados de avaliação tradicionais. Ele aborda fatores subjetivos cruciais, como concisão relativa, clareza, aderência às instruções, abrangência e formalidade. Para garantir a confiabilidade do PandaLM, coletamos um conjunto de dados de teste diversificado e anotado por humanos, onde todos os contextos são gerados por humanos e os rótulos estão alinhados com as preferências humanas. Nossos resultados indicam que o PandaLM-7B alcança 93,75% da capacidade de avaliação do GPT-3.5 e 88,28% do GPT-4 em termos de pontuação F1 em nosso conjunto de dados de teste. O PandaLM permite que a avaliação de LLMs seja mais justa, mas com menor custo, evidenciado por melhorias significativas alcançadas por modelos ajustados por meio do PandaLM em comparação com seus equivalentes treinados com os hiperparâmetros padrão do Alpaca. Além disso, o PandaLM não depende de avaliações baseadas em API, evitando assim possíveis vazamentos de dados. Todos os recursos do PandaLM são disponibilizados em https://github.com/WeOpenML/PandaLM.
Fornecemos novas estimativas de um limite superior assintótico para a entropia do inglês utilizando o modelo de linguagem de grande escala LLaMA-7B como um preditor para o próximo token, dado uma janela de tokens anteriores. Essa estimativa é significativamente menor do que as atualmente disponíveis em cover1978convergent e lutati2023focus. Um subproduto natural é um algoritmo para compressão sem perdas de texto em inglês que combina a previsão do modelo de linguagem de grande escala com um esquema de compressão sem perdas. Resultados preliminares de experimentos limitados sugerem que nosso esquema supera os esquemas de compressão de texto state-of-the-art, como BSC, ZPAQ e paq8h.
Neste trabalho, exploramos os avanços recentes no ajuste fino de modelos de linguagem para seguir instruções, utilizando uma variedade de conjuntos de dados abertos. Apesar das alegações recentes de que modelos abertos podem ser equivalentes aos modelos proprietários de última geração, essas afirmações são frequentemente acompanhadas por avaliações limitadas, tornando difícil comparar os modelos de forma abrangente e determinar a utilidade de vários recursos. Fornecemos um amplo conjunto de modelos ajustados para seguir instruções, variando de 6,7B a 65B parâmetros, treinados em 12 conjuntos de dados de instruções que vão desde dados manualmente curados (por exemplo, OpenAssistant) até dados sintéticos e destilados (por exemplo, Alpaca), e os avaliamos sistematicamente em relação ao seu conhecimento factual, raciocínio, multilinguismo, codificação e habilidades de seguir instruções abertas, por meio de uma coleção de métricas automáticas, baseadas em modelos e humanas. Além disso, apresentamos T\"ulu, nosso conjunto de modelos ajustados para seguir instruções com melhor desempenho, refinado em uma combinação de recursos abertos de alta qualidade. Nossos experimentos mostram que diferentes conjuntos de dados de ajuste fino para instruções podem revelar ou aprimorar habilidades específicas, enquanto nenhum conjunto de dados único (ou combinação) oferece o melhor desempenho em todas as avaliações. Curiosamente, descobrimos que as avaliações baseadas em preferências de modelos e humanos não refletem as diferenças nas capacidades dos modelos reveladas por avaliações baseadas em benchmarks, sugerindo a necessidade do tipo de avaliação sistêmica realizada neste trabalho. Nossas avaliações mostram que o melhor modelo em qualquer avaliação específica atinge, em média, 83% do desempenho do ChatGPT e 68% do desempenho do GPT-4, indicando que mais investimentos na construção de modelos base e dados de ajuste fino para instruções são necessários para reduzir essa lacuna. Disponibilizamos nossos modelos ajustados para seguir instruções, incluindo um T\"ulu de 65B totalmente refinado, juntamente com nosso código, dados e estrutura de avaliação em https://github.com/allenai/open-instruct para facilitar pesquisas futuras.
Estimar formas articuladas 3D, como corpos de animais, a partir de imagens monoculares é intrinsecamente desafiador devido às ambiguidades de ponto de vista da câmera, pose, textura, iluminação, etc. Propomos o ARTIC3D, uma estrutura auto-supervisionada para reconstruir formas 3D por instância a partir de uma coleção esparsa de imagens capturadas em ambientes não controlados. Especificamente, o ARTIC3D é construído sobre uma representação de superfície baseada em esqueleto e é ainda guiado por priors de difusão 2D do Stable Diffusion. Primeiro, aprimoramos as imagens de entrada com oclusões/truncamentos via difusão 2D para obter estimativas de máscaras mais limpas e características semânticas. Segundo, realizamos uma otimização 3D guiada por difusão para estimar forma e textura que sejam de alta fidelidade e fiéis às imagens de entrada. Também propomos uma nova técnica para calcular gradientes em nível de imagem mais estáveis via modelos de difusão em comparação com alternativas existentes. Finalmente, produzimos animações realistas ao ajustar finamente a forma e a textura renderizadas sob transformações rígidas das partes. Avaliações extensas em múltiplos conjuntos de dados existentes, bem como em novas coleções de imagens da web com ruído, oclusões e truncamentos, demonstram que as saídas do ARTIC3D são mais robustas a imagens ruidosas, de maior qualidade em termos de detalhes de forma e textura, e mais realistas quando animadas. Página do projeto: https://chhankyao.github.io/artic3d/
A implantação de modelos de Tradução Automática Neural (NMT) em dispositivos móveis é essencial para privacidade, baixa latência e cenários offline. Para alta capacidade de modelo, os modelos NMT são bastante grandes. Executar esses modelos em dispositivos é desafiador devido ao armazenamento, memória, computação e consumo de energia limitados. Trabalhos existentes focam apenas em uma única métrica, como FLOPs, ou em um mecanismo geral que não é eficiente na decodificação autoregressiva. Neste artigo, apresentamos o MobileNMT, um sistema que pode traduzir em 15MB e 30ms em dispositivos. Propomos uma série de princípios para compressão de modelos quando combinada com quantização. Além disso, implementamos um mecanismo que é amigável ao INT8 e à decodificação. Com o co-design de modelo e mecanismo, em comparação com o sistema existente, aceleramos em 47,0x e economizamos 99,5% da memória com apenas 11,6% de perda no BLEU. O código está disponível publicamente em https://github.com/zjersey/Lightseq-ARM.
A crescente dependência de Modelos de Linguagem de Grande Escala (LLMs) na academia e na indústria exige uma compreensão abrangente de sua robustez em relação a prompts. Em resposta a essa necessidade crucial, apresentamos o PromptBench, um benchmark de robustez projetado para medir a resiliência dos LLMs a prompts adversariais. Este estudo utiliza uma variedade de ataques textuais adversariais direcionados a prompts em múltiplos níveis: caractere, palavra, frase e semântico. Esses prompts são então empregados em diversas tarefas, como análise de sentimentos, inferência em linguagem natural, compreensão de leitura, tradução automática e resolução de problemas matemáticos. Nosso estudo gera 4.032 prompts adversariais, meticulosamente avaliados em 8 tarefas e 13 conjuntos de dados, totalizando 567.084 amostras de teste. Nossas descobertas demonstram que os LLMs contemporâneos são vulneráveis a prompts adversariais. Além disso, apresentamos uma análise abrangente para entender o mistério por trás da robustez dos prompts e sua transferibilidade. Em seguida, oferecemos uma análise perspicaz de robustez e recomendações pragmáticas para a composição de prompts, benéficas tanto para pesquisadores quanto para usuários cotidianos. Disponibilizamos publicamente nosso código, prompts e metodologias para gerar prompts adversariais, permitindo e incentivando a exploração colaborativa neste campo crucial: https://github.com/microsoft/promptbench.
O StableDiffusion é um gerador revolucionário de texto para imagem que está causando impacto no mundo da geração e edição de imagens. Diferente dos métodos tradicionais que aprendem um modelo de difusão no espaço de pixels, o StableDiffusion aprende um modelo de difusão no espaço latente por meio de um VQGAN, garantindo eficiência e qualidade. Ele não apenas suporta tarefas de geração de imagens, mas também permite a edição de imagens reais, como preenchimento de imagens e edição local. No entanto, observamos que o VQGAN padrão usado no StableDiffusion resulta em uma perda significativa de informação, causando artefatos de distorção mesmo em regiões da imagem não editadas. Para isso, propomos um novo VQGAN assimétrico com dois designs simples. Primeiramente, além da entrada do codificador, o decodificador contém um ramo condicional que incorpora informações de prévias específicas da tarefa, como a região não mascarada da imagem no preenchimento. Em segundo lugar, o decodificador é muito mais robusto que o codificador, permitindo uma recuperação mais detalhada enquanto aumenta apenas ligeiramente o custo total de inferência. O custo de treinamento do nosso VQGAN assimétrico é baixo, e precisamos apenas retreinar um novo decodificador assimétrico, mantendo o codificador VQGAN padrão e o StableDiffusion inalterados. Nosso VQGAN assimétrico pode ser amplamente utilizado em métodos de preenchimento e edição local baseados no StableDiffusion. Experimentos extensivos demonstram que ele pode melhorar significativamente o desempenho de preenchimento e edição, mantendo a capacidade original de texto para imagem. O código está disponível em https://github.com/buxiangzhiren/Asymmetric_VQGAN.
Para promover o desenvolvimento de pré-treinamento visão-linguagem (VLP) e modelos de linguagem multimodal de grande escala (LLM) na comunidade chinesa, lançamos inicialmente o maior conjunto de dados público de alta qualidade em vídeo e linguagem chinesa, denominado Youku-mPLUG. Este conjunto foi coletado do Youku, um conhecido site chinês de compartilhamento de vídeos, com critérios rigorosos de segurança, diversidade e qualidade. O Youku-mPLUG contém 10 milhões de pares vídeo-texto em chinês, filtrados de 400 milhões de vídeos brutos, abrangendo uma ampla gama de 45 categorias diversas para pré-treinamento em larga escala. Além disso, para facilitar uma avaliação abrangente de modelos de vídeo e linguagem, construímos cuidadosamente os maiores benchmarks chineses anotados por humanos, cobrindo três tarefas populares de vídeo e linguagem: recuperação multimodal, legendagem de vídeos e classificação de categorias de vídeos. O Youku-mPLUG permite que pesquisadores conduzam pesquisas multimodais mais aprofundadas e desenvolvam melhores aplicações no futuro. Adicionalmente, lançamos modelos populares de pré-treinamento em vídeo e linguagem, ALPRO e mPLUG-2, e nosso modelo proposto de decodificador modularizado, mPLUG-video, pré-treinado no Youku-mPLUG. Experimentos mostram que modelos pré-treinados no Youku-mPLUG obtêm uma melhoria de até 23,1% na classificação de categorias de vídeos. Além disso, o mPLUG-video alcança um novo estado da arte nesses benchmarks, com 80,5% de precisão top-1 na classificação de categorias de vídeos e 68,9 de pontuação CIDEr na legendagem de vídeos. Por fim, escalamos o mPLUG-video com base no Bloomz congelado, utilizando apenas 1,7% dos parâmetros treináveis como LLM multimodal chinês, e demonstramos uma impressionante capacidade de compreensão de instruções e vídeos. O experimento de compreensão de instruções em zero-shot indica que o pré-treinamento com o Youku-mPLUG pode aprimorar a capacidade de compreender semântica visual geral e detalhada, reconhecer texto de cena e aproveitar conhecimento de domínio aberto.