HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

10 papers found

Sobre a Confiabilidade de Marcas d'Água para Modelos de Linguagem de Grande Escala
On the Reliability of Watermarks for Large Language Models

Jun 7

ByJohn Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein

Modelos de linguagem de grande escala (LLMs) estão agora implantados para uso cotidiano e posicionados para produzir grandes quantidades de texto na próxima década. O texto gerado por máquina pode substituir o texto escrito por humanos na internet e tem o potencial de ser usado para fins maliciosos, como ataques de spearphishing e bots de mídia social. A marcação d'água é uma estratégia simples e eficaz para mitigar esses danos, permitindo a detecção e documentação de texto gerado por LLMs. No entanto, uma questão crucial permanece: Quão confiável é a marcação d'água em cenários realistas no mundo real? Lá, o texto marcado pode ser misturado com outras fontes de texto, parafraseado por escritores humanos ou outros modelos de linguagem, e usado em uma ampla variedade de domínios, tanto sociais quanto técnicos. Neste artigo, exploramos diferentes esquemas de detecção, quantificamos sua eficácia na detecção de marcas d'água e determinamos quanto texto gerado por máquina precisa ser observado em cada cenário para detectar a marca d'água de forma confiável. Destacamos especialmente nosso estudo com humanos, onde investigamos a confiabilidade da marcação d'água quando confrontada com paráfrases humanas. Comparamos a detecção baseada em marca d'água com outras estratégias de detecção, concluindo que a marcação d'água é uma solução confiável, especialmente devido à sua complexidade de amostragem - para todos os ataques que consideramos, a evidência da marca d'água se acumula à medida que mais exemplos são fornecidos, e a marca d'água é eventualmente detectada.

INSTRUCTEVAL: Rumo a uma Avaliação Holística de Grandes Modelos de Linguagem Ajustados por Instrução
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

Jun 7

ByYew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria

Modelos de linguagem de grande escala ajustados por instruções revolucionaram o processamento de linguagem natural e demonstraram grande potencial em aplicações como agentes conversacionais. Esses modelos, como o GPT-4, não apenas dominam a linguagem, mas também resolvem tarefas complexas em áreas como matemática, programação, medicina e direito. Apesar de suas capacidades impressionantes, ainda há uma falta de compreensão abrangente sobre seu potencial total, principalmente devido à natureza de "caixa preta" de muitos modelos e à ausência de estudos de avaliação holísticos. Para enfrentar esses desafios, apresentamos o INSTRUCTEVAL, uma suíte de avaliação mais abrangente projetada especificamente para modelos de linguagem de grande escala ajustados por instruções. Diferente de trabalhos anteriores, nossa avaliação envolve uma análise rigorosa dos modelos com base na resolução de problemas, capacidade de escrita e alinhamento com valores humanos. Adotamos uma abordagem holística para analisar diversos fatores que afetam o desempenho dos modelos, incluindo a base de pré-treinamento, os dados de ajuste por instruções e os métodos de treinamento. Nossos resultados revelam que a qualidade dos dados de instrução é o fator mais crucial para escalar o desempenho dos modelos. Embora os modelos de código aberto demonstrem habilidades impressionantes de escrita, há um espaço significativo para melhorias na resolução de problemas e no alinhamento. Estamos encorajados pelo rápido desenvolvimento de modelos pela comunidade de código aberto, mas também destacamos a necessidade de avaliações rigorosas para respaldar as afirmações feitas sobre esses modelos. Por meio do INSTRUCTEVAL, buscamos promover uma compreensão mais profunda dos modelos ajustados por instruções e avanços em suas capacidades. O INSTRUCTEVAL está disponível publicamente em https://github.com/declare-lab/instruct-eval.

PandaLM: Um Benchmark de Avaliação Automática para Otimização de Ajuste de Instruções em LLMs
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

Jun 8

ByYidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang

O ajuste por instrução de grandes modelos de linguagem (LLMs) continua sendo uma tarefa desafiadora, devido à complexidade da seleção de hiperparâmetros e à dificuldade envolvida na avaliação dos modelos ajustados. Para determinar os hiperparâmetros ideais, um benchmark de avaliação automático, robusto e confiável é essencial. No entanto, estabelecer tal benchmark não é uma tarefa trivial devido aos desafios associados à precisão da avaliação e à proteção de privacidade. Em resposta a esses desafios, introduzimos um modelo de linguagem grande como juiz, denominado PandaLM, que é treinado para distinguir o modelo superior entre vários LLMs. O foco do PandaLM vai além da correção objetiva das respostas, que é o principal foco dos conjuntos de dados de avaliação tradicionais. Ele aborda fatores subjetivos cruciais, como concisão relativa, clareza, aderência às instruções, abrangência e formalidade. Para garantir a confiabilidade do PandaLM, coletamos um conjunto de dados de teste diversificado e anotado por humanos, onde todos os contextos são gerados por humanos e os rótulos estão alinhados com as preferências humanas. Nossos resultados indicam que o PandaLM-7B alcança 93,75% da capacidade de avaliação do GPT-3.5 e 88,28% do GPT-4 em termos de pontuação F1 em nosso conjunto de dados de teste. O PandaLM permite que a avaliação de LLMs seja mais justa, mas com menor custo, evidenciado por melhorias significativas alcançadas por modelos ajustados por meio do PandaLM em comparação com seus equivalentes treinados com os hiperparâmetros padrão do Alpaca. Além disso, o PandaLM não depende de avaliações baseadas em API, evitando assim possíveis vazamentos de dados. Todos os recursos do PandaLM são disponibilizados em https://github.com/WeOpenML/PandaLM.

LLMZip: Compressão de Texto sem Perdas utilizando Modelos de Linguagem de Grande Escala
LLMZip: Lossless Text Compression using Large Language Models

Jun 6

ByChandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai

Fornecemos novas estimativas de um limite superior assintótico para a entropia do inglês utilizando o modelo de linguagem de grande escala LLaMA-7B como um preditor para o próximo token, dado uma janela de tokens anteriores. Essa estimativa é significativamente menor do que as atualmente disponíveis em cover1978convergent e lutati2023focus. Um subproduto natural é um algoritmo para compressão sem perdas de texto em inglês que combina a previsão do modelo de linguagem de grande escala com um esquema de compressão sem perdas. Resultados preliminares de experimentos limitados sugerem que nosso esquema supera os esquemas de compressão de texto state-of-the-art, como BSC, ZPAQ e paq8h.

Até Onde os Camelos Podem Ir? Explorando o Estado do Ajuste Fino de Instruções em Recursos Abertos
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

Jun 7

ByYizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

Neste trabalho, exploramos os avanços recentes no ajuste fino de modelos de linguagem para seguir instruções, utilizando uma variedade de conjuntos de dados abertos. Apesar das alegações recentes de que modelos abertos podem ser equivalentes aos modelos proprietários de última geração, essas afirmações são frequentemente acompanhadas por avaliações limitadas, tornando difícil comparar os modelos de forma abrangente e determinar a utilidade de vários recursos. Fornecemos um amplo conjunto de modelos ajustados para seguir instruções, variando de 6,7B a 65B parâmetros, treinados em 12 conjuntos de dados de instruções que vão desde dados manualmente curados (por exemplo, OpenAssistant) até dados sintéticos e destilados (por exemplo, Alpaca), e os avaliamos sistematicamente em relação ao seu conhecimento factual, raciocínio, multilinguismo, codificação e habilidades de seguir instruções abertas, por meio de uma coleção de métricas automáticas, baseadas em modelos e humanas. Além disso, apresentamos T\"ulu, nosso conjunto de modelos ajustados para seguir instruções com melhor desempenho, refinado em uma combinação de recursos abertos de alta qualidade. Nossos experimentos mostram que diferentes conjuntos de dados de ajuste fino para instruções podem revelar ou aprimorar habilidades específicas, enquanto nenhum conjunto de dados único (ou combinação) oferece o melhor desempenho em todas as avaliações. Curiosamente, descobrimos que as avaliações baseadas em preferências de modelos e humanos não refletem as diferenças nas capacidades dos modelos reveladas por avaliações baseadas em benchmarks, sugerindo a necessidade do tipo de avaliação sistêmica realizada neste trabalho. Nossas avaliações mostram que o melhor modelo em qualquer avaliação específica atinge, em média, 83% do desempenho do ChatGPT e 68% do desempenho do GPT-4, indicando que mais investimentos na construção de modelos base e dados de ajuste fino para instruções são necessários para reduzir essa lacuna. Disponibilizamos nossos modelos ajustados para seguir instruções, incluindo um T\"ulu de 65B totalmente refinado, juntamente com nosso código, dados e estrutura de avaliação em https://github.com/allenai/open-instruct para facilitar pesquisas futuras.

ARTIC3D: Aprendizado de Formas Articuladas 3D Robustas a partir de Coleções de Imagens Web Ruidosas
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Jun 7

ByChun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani

Estimar formas articuladas 3D, como corpos de animais, a partir de imagens monoculares é intrinsecamente desafiador devido às ambiguidades de ponto de vista da câmera, pose, textura, iluminação, etc. Propomos o ARTIC3D, uma estrutura auto-supervisionada para reconstruir formas 3D por instância a partir de uma coleção esparsa de imagens capturadas em ambientes não controlados. Especificamente, o ARTIC3D é construído sobre uma representação de superfície baseada em esqueleto e é ainda guiado por priors de difusão 2D do Stable Diffusion. Primeiro, aprimoramos as imagens de entrada com oclusões/truncamentos via difusão 2D para obter estimativas de máscaras mais limpas e características semânticas. Segundo, realizamos uma otimização 3D guiada por difusão para estimar forma e textura que sejam de alta fidelidade e fiéis às imagens de entrada. Também propomos uma nova técnica para calcular gradientes em nível de imagem mais estáveis via modelos de difusão em comparação com alternativas existentes. Finalmente, produzimos animações realistas ao ajustar finamente a forma e a textura renderizadas sob transformações rígidas das partes. Avaliações extensas em múltiplos conjuntos de dados existentes, bem como em novas coleções de imagens da web com ruído, oclusões e truncamentos, demonstram que as saídas do ARTIC3D são mais robustas a imagens ruidosas, de maior qualidade em termos de detalhes de forma e textura, e mais realistas quando animadas. Página do projeto: https://chhankyao.github.io/artic3d/

MobileNMT: Habilitando Tradução em 15MB e 30ms
MobileNMT: Enabling Translation in 15MB and 30ms

Jun 7

ByYe Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo Zhu

A implantação de modelos de Tradução Automática Neural (NMT) em dispositivos móveis é essencial para privacidade, baixa latência e cenários offline. Para alta capacidade de modelo, os modelos NMT são bastante grandes. Executar esses modelos em dispositivos é desafiador devido ao armazenamento, memória, computação e consumo de energia limitados. Trabalhos existentes focam apenas em uma única métrica, como FLOPs, ou em um mecanismo geral que não é eficiente na decodificação autoregressiva. Neste artigo, apresentamos o MobileNMT, um sistema que pode traduzir em 15MB e 30ms em dispositivos. Propomos uma série de princípios para compressão de modelos quando combinada com quantização. Além disso, implementamos um mecanismo que é amigável ao INT8 e à decodificação. Com o co-design de modelo e mecanismo, em comparação com o sistema existente, aceleramos em 47,0x e economizamos 99,5% da memória com apenas 11,6% de perda no BLEU. O código está disponível publicamente em https://github.com/zjersey/Lightseq-ARM.

PromptBench: Rumo à Avaliação da Robustez de Modelos de Linguagem de Grande Escala em Prompts Adversariais
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Jun 7

ByKaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie

A crescente dependência de Modelos de Linguagem de Grande Escala (LLMs) na academia e na indústria exige uma compreensão abrangente de sua robustez em relação a prompts. Em resposta a essa necessidade crucial, apresentamos o PromptBench, um benchmark de robustez projetado para medir a resiliência dos LLMs a prompts adversariais. Este estudo utiliza uma variedade de ataques textuais adversariais direcionados a prompts em múltiplos níveis: caractere, palavra, frase e semântico. Esses prompts são então empregados em diversas tarefas, como análise de sentimentos, inferência em linguagem natural, compreensão de leitura, tradução automática e resolução de problemas matemáticos. Nosso estudo gera 4.032 prompts adversariais, meticulosamente avaliados em 8 tarefas e 13 conjuntos de dados, totalizando 567.084 amostras de teste. Nossas descobertas demonstram que os LLMs contemporâneos são vulneráveis a prompts adversariais. Além disso, apresentamos uma análise abrangente para entender o mistério por trás da robustez dos prompts e sua transferibilidade. Em seguida, oferecemos uma análise perspicaz de robustez e recomendações pragmáticas para a composição de prompts, benéficas tanto para pesquisadores quanto para usuários cotidianos. Disponibilizamos publicamente nosso código, prompts e metodologias para gerar prompts adversariais, permitindo e incentivando a exploração colaborativa neste campo crucial: https://github.com/microsoft/promptbench.

Projetando um VQGAN Assimétrico Melhor para StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion

Jun 7

ByZixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua

O StableDiffusion é um gerador revolucionário de texto para imagem que está causando impacto no mundo da geração e edição de imagens. Diferente dos métodos tradicionais que aprendem um modelo de difusão no espaço de pixels, o StableDiffusion aprende um modelo de difusão no espaço latente por meio de um VQGAN, garantindo eficiência e qualidade. Ele não apenas suporta tarefas de geração de imagens, mas também permite a edição de imagens reais, como preenchimento de imagens e edição local. No entanto, observamos que o VQGAN padrão usado no StableDiffusion resulta em uma perda significativa de informação, causando artefatos de distorção mesmo em regiões da imagem não editadas. Para isso, propomos um novo VQGAN assimétrico com dois designs simples. Primeiramente, além da entrada do codificador, o decodificador contém um ramo condicional que incorpora informações de prévias específicas da tarefa, como a região não mascarada da imagem no preenchimento. Em segundo lugar, o decodificador é muito mais robusto que o codificador, permitindo uma recuperação mais detalhada enquanto aumenta apenas ligeiramente o custo total de inferência. O custo de treinamento do nosso VQGAN assimétrico é baixo, e precisamos apenas retreinar um novo decodificador assimétrico, mantendo o codificador VQGAN padrão e o StableDiffusion inalterados. Nosso VQGAN assimétrico pode ser amplamente utilizado em métodos de preenchimento e edição local baseados no StableDiffusion. Experimentos extensivos demonstram que ele pode melhorar significativamente o desempenho de preenchimento e edição, mantendo a capacidade original de texto para imagem. O código está disponível em https://github.com/buxiangzhiren/Asymmetric_VQGAN.

Youku-mPLUG: Um Conjunto de Dados em Larga Escala de Vídeo e Linguagem em Chinês com 10 Milhões de Amostras para Pré-treinamento e Benchmarking
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Jun 7

ByHaiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang

Para promover o desenvolvimento de pré-treinamento visão-linguagem (VLP) e modelos de linguagem multimodal de grande escala (LLM) na comunidade chinesa, lançamos inicialmente o maior conjunto de dados público de alta qualidade em vídeo e linguagem chinesa, denominado Youku-mPLUG. Este conjunto foi coletado do Youku, um conhecido site chinês de compartilhamento de vídeos, com critérios rigorosos de segurança, diversidade e qualidade. O Youku-mPLUG contém 10 milhões de pares vídeo-texto em chinês, filtrados de 400 milhões de vídeos brutos, abrangendo uma ampla gama de 45 categorias diversas para pré-treinamento em larga escala. Além disso, para facilitar uma avaliação abrangente de modelos de vídeo e linguagem, construímos cuidadosamente os maiores benchmarks chineses anotados por humanos, cobrindo três tarefas populares de vídeo e linguagem: recuperação multimodal, legendagem de vídeos e classificação de categorias de vídeos. O Youku-mPLUG permite que pesquisadores conduzam pesquisas multimodais mais aprofundadas e desenvolvam melhores aplicações no futuro. Adicionalmente, lançamos modelos populares de pré-treinamento em vídeo e linguagem, ALPRO e mPLUG-2, e nosso modelo proposto de decodificador modularizado, mPLUG-video, pré-treinado no Youku-mPLUG. Experimentos mostram que modelos pré-treinados no Youku-mPLUG obtêm uma melhoria de até 23,1% na classificação de categorias de vídeos. Além disso, o mPLUG-video alcança um novo estado da arte nesses benchmarks, com 80,5% de precisão top-1 na classificação de categorias de vídeos e 68,9 de pontuação CIDEr na legendagem de vídeos. Por fim, escalamos o mPLUG-video com base no Bloomz congelado, utilizando apenas 1,7% dos parâmetros treináveis como LLM multimodal chinês, e demonstramos uma impressionante capacidade de compreensão de instruções e vídeos. O experimento de compreensão de instruções em zero-shot indica que o pré-treinamento com o Youku-mPLUG pode aprimorar a capacidade de compreender semântica visual geral e detalhada, reconhecer texto de cena e aproveitar conhecimento de domínio aberto.

Até Onde os Camelos Podem Ir? Explorando o Estado do Ajuste Fino de Instruções em Recursos Abertos
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

Jun 7

ByYizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi