Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos Generative Pre-trained Transformer (GPT) têm demonstrado progressos empolgantes em suas capacidades, capturando o interesse tanto de profissionais quanto do público em geral. No entanto, embora a literatura sobre a confiabilidade dos modelos GPT ainda seja limitada, profissionais têm proposto a utilização de modelos GPT avançados em aplicações sensíveis, como saúde e finanças — áreas onde erros podem ser custosos. Diante disso, este trabalho propõe uma avaliação abrangente da confiabilidade de grandes modelos de linguagem, com foco no GPT-4 e GPT-3.5, considerando diversas perspectivas — incluindo toxicidade, viés de estereótipos, robustez adversarial, robustez fora da distribuição, robustez em demonstrações adversariais, privacidade, ética em máquinas e justiça. Com base em nossas avaliações, descobrimos vulnerabilidades anteriormente não documentadas a ameaças à confiabilidade. Por exemplo, constatamos que os modelos GPT podem ser facilmente induzidos a gerar saídas tóxicas e tendenciosas e a vazar informações privadas, tanto dos dados de treinamento quanto do histórico de conversas. Também observamos que, embora o GPT-4 geralmente seja mais confiável que o GPT-3.5 em benchmarks padrão, o GPT-4 é mais vulnerável diante de sistemas de jailbreaking ou prompts de usuários, possivelmente porque o GPT-4 segue as instruções (enganosas) com maior precisão. Nosso trabalho ilustra uma avaliação abrangente da confiabilidade dos modelos GPT e lança luz sobre as lacunas de confiabilidade. Nosso benchmark está publicamente disponível em https://decodingtrust.github.io/.