Artigos de pesquisa em IA selecionados diariamente com traduções
Hoje, os grandes modelos de linguagem (LLMs) são ensinados a usar novas ferramentas fornecendo algumas demonstrações do uso da ferramenta. Infelizmente, as demonstrações são difíceis de adquirir e podem resultar em um uso tendencioso indesejado se a demonstração errada for escolhida. Mesmo no raro cenário em que as demonstrações estão prontamente disponíveis, não há um protocolo de seleção fundamentado para determinar quantas e quais fornecer. À medida que as tarefas se tornam mais complexas, a busca de seleção cresce de forma combinatória e invariavelmente se torna intratável. Nosso trabalho oferece uma alternativa às demonstrações: a documentação da ferramenta. Defendemos o uso da documentação da ferramenta, descrições para o uso individual da ferramenta, em vez de demonstrações. Fundamentamos nossa afirmação por meio de três principais descobertas empíricas em 6 tarefas abrangendo as modalidades de visão e linguagem. Primeiro, em benchmarks existentes, prompts zero-shot com apenas a documentação da ferramenta são suficientes para eliciar o uso adequado da ferramenta, alcançando desempenho equivalente a prompts few-shot. Segundo, em um novo conjunto de dados realista de uso de ferramentas com centenas de APIs de ferramentas disponíveis, mostramos que a documentação da ferramenta é significativamente mais valiosa do que as demonstrações, com a documentação zero-shot superando significativamente o few-shot sem documentação. Terceiro, destacamos os benefícios da documentação de ferramentas ao abordar a geração de imagens e o rastreamento de vídeo usando modelos state-of-the-art recém-lançados e não vistos como ferramentas. Por fim, destacamos a possibilidade de usar a documentação da ferramenta para habilitar automaticamente novas aplicações: usando nada mais do que a documentação de GroundingDino, Stable Diffusion, XMem e SAM, os LLMs podem reinventar as funcionalidades dos modelos Grounded-SAM e Track Anything recém-lançados.
Consideramos o problema de eliciar capacidades de generalização composicional em grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) com uma nova estratégia de *prompting*. A generalização composicional capacita os LLMs a resolver problemas mais complexos do que aqueles que já foram vistos (ou seja, generalização de fácil para difícil), uma habilidade de raciocínio crítica para uma inteligência semelhante à humana. No entanto, mesmo os LLMs mais avançados atualmente ainda enfrentam dificuldades com essa forma de raciocínio. Para preencher essa lacuna, propomos o *prompting* de habilidades em contexto (SKiC, do inglês *Skills-in-Context*), que instrui os LLMs sobre como compor habilidades básicas para resolver problemas mais complexos. Descobrimos que é crucial demonstrar tanto as habilidades quanto os exemplos composicionais dentro do mesmo contexto de *prompting*. Com apenas dois exemplos, nosso SKiC *prompting* inicia fortes sinergias entre as habilidades e suas capacidades de composição. Notavelmente, ele capacita os LLMs a resolver problemas não vistos que exigem composições inovadoras de habilidades, alcançando generalização quase perfeita em uma ampla gama de tarefas desafiadoras de composicionalidade. Intrigantemente, o SKiC *prompting* desbloqueia o potencial latente dos LLMs, permitindo que eles aproveitem habilidades internas pré-existentes adquiridas durante estágios anteriores de pré-treinamento, mesmo quando essas habilidades não são explicitamente apresentadas no contexto de *prompting*. Isso resulta na capacidade dos LLMs de resolver problemas complexos não vistos, ativando e compondo competências internas. Com essas características proeminentes, o SKiC *prompting* é capaz de alcançar desempenho de ponta em benchmarks desafiadores de raciocínio matemático (por exemplo, MATH).
O recente avanço em modelos de linguagem de grande escala (LLMs), especialmente a invenção do prompting de cadeia de pensamentos (CoT), tornou possível resolver problemas de raciocínio. No entanto, mesmo os LLMs mais poderosos ainda enfrentam dificuldades com problemas mais complexos que exigem pensamento não linear e raciocínio em múltiplas etapas. Neste trabalho, exploramos se os LLMs têm a capacidade de reconhecer seus próprios erros, sem recorrer a recursos externos. Em particular, investigamos se eles podem ser usados para identificar erros individuais dentro de um raciocínio passo a passo. Para isso, propomos um esquema de verificação zero-shot para reconhecer tais erros. Em seguida, usamos esse esquema de verificação para melhorar o desempenho em tarefas de perguntas e respostas, utilizando-o para realizar uma votação ponderada em diferentes respostas geradas. Testamos o método em três conjuntos de dados matemáticos—GSM8K, MathQA e MATH—e descobrimos que ele reconhece erros com sucesso e, por sua vez, aumenta o desempenho preditivo final.
O aprendizado auto-supervisionado é um paradigma promissor no campo de aprendizado profundo que permite aprender a partir de dados não rotulados por meio da construção de tarefas pretexto que exigem a aprendizagem de representações úteis. No processamento de linguagem natural, a tarefa pretexto dominante tem sido o modelo de linguagem mascarada (MLM), enquanto na visão computacional existe um equivalente chamado Modelagem de Imagem Mascarada (MIM). No entanto, a MIM é desafiadora porque requer a previsão de conteúdo semântico em locais precisos. Por exemplo, dada uma imagem incompleta de um cachorro, podemos adivinhar que há uma cauda, mas não podemos determinar sua localização exata. Neste trabalho, propomos o FlexPredict, um modelo estocástico que aborda esse desafio ao incorporar incerteza de localização no modelo. Especificamente, condicionamos o modelo em posições estocásticas de tokens mascarados para orientar o modelo a aprender características mais robustas às incertezas de localização. Nossa abordagem melhora o desempenho em tarefas subsequentes; por exemplo, em comparação com as linhas de base da MIM, o FlexPredict aumenta a sondagem linear no ImageNet em 1,6% com o ViT-B e em 2,5% para a segmentação de vídeo semi-supervisionada usando o ViT-L.
A tarefa de discernir entre textos gerados e naturais está se tornando cada vez mais desafiadora. Nesse contexto, a marcação d'água surge como uma técnica promissora para atribuir textos gerados a um modelo específico. Ela altera o processo de geração por amostragem de modo a deixar um traço invisível no texto gerado, facilitando sua detecção posterior. Esta pesquisa consolida as marcações d'água para modelos de linguagem de grande escala com base em três considerações teóricas e empíricas. Primeiro, introduzimos novos testes estatísticos que oferecem garantias teóricas robustas, que permanecem válidas mesmo em taxas de falsos positivos extremamente baixas (menores que 10^{-6}). Segundo, comparamos a eficácia das marcações d'água utilizando benchmarks clássicos no campo do processamento de linguagem natural, obtendo insights sobre sua aplicabilidade no mundo real. Terceiro, desenvolvemos esquemas avançados de detecção para cenários em que há acesso ao modelo de linguagem, bem como marcação d'água de múltiplos bits.