Artigos de pesquisa em IA selecionados diariamente com traduções
Pesquisas recentes têm se concentrado em aprimorar a capacidade de modelos menores por meio de aprendizado por imitação, utilizando as saídas geradas por grandes modelos de base (LFMs). Vários fatores impactam a qualidade desses modelos, desde sinais limitados de imitação provenientes de saídas superficiais de LFMs; dados de treinamento homogêneos e em pequena escala; e, mais notavelmente, a falta de avaliação rigorosa, resultando na superestimação da capacidade dos modelos menores, que tendem a aprender a imitar o estilo, mas não o processo de raciocínio dos LFMs. Para enfrentar esses desafios, desenvolvemos o Orca (estamos trabalhando com nossa equipe jurídica para liberar publicamente um diff dos pesos do modelo de acordo com a política de liberação do LLaMA, a ser publicado em https://aka.ms/orca-lm), um modelo de 13 bilhões de parâmetros que aprende a imitar o processo de raciocínio dos LFMs. O Orca aprende a partir de sinais ricos do GPT-4, incluindo traços de explicação; processos de pensamento passo a passo; e outras instruções complexas, guiado pela assistência do ChatGPT como professor. Para promover esse aprendizado progressivo, utilizamos dados de imitação em grande escala e diversificados, com amostragem e seleção criteriosas. O Orca supera modelos convencionais ajustados por instrução de última geração, como o Vicuna-13B, em mais de 100% em benchmarks complexos de raciocínio zero-shot, como o Big-Bench Hard (BBH), e 42% no AGIEval. Além disso, o Orca alcança paridade com o ChatGPT no benchmark BBH e apresenta desempenho competitivo (4 pontos de diferença com mensagem de sistema otimizada) em exames profissionais e acadêmicos como SAT, LSAT, GRE e GMAT, ambos em configurações zero-shot sem CoT; enquanto fica atrás do GPT-4. Nossa pesquisa indica que aprender a partir de explicações passo a passo, sejam elas geradas por humanos ou por modelos de IA mais avançados, é uma direção promissora para melhorar as capacidades e habilidades dos modelos.
Modelos de linguagem de grande escala são comumente treinados em uma mistura de dados da web filtrados e corpora de alta qualidade curados, como conversas em mídias sociais, livros ou artigos técnicos. Acredita-se que esse processo de curadoria seja necessário para produzir modelos de alto desempenho com amplas habilidades de generalização zero-shot. No entanto, à medida que modelos maiores que exigem pré-treinamento em trilhões de tokens são considerados, não está claro quão escalável é a curadoria e se em breve ficaremos sem dados únicos de alta qualidade. Contrariando crenças anteriores, mostramos que dados da web devidamente filtrados e deduplicados podem, por si só, levar a modelos poderosos; superando significativamente até mesmo modelos de última geração treinados no The Pile. Apesar da filtragem extensiva, os dados de alta qualidade que extraímos da web ainda são abundantes, e conseguimos obter cinco trilhões de tokens do CommonCrawl. Disponibilizamos publicamente um extrato de 600 bilhões de tokens de nosso conjunto de dados RefinedWeb, além de modelos de linguagem com 1,3/7,5 bilhões de parâmetros treinados nele.
O recente Segment Anything Model (SAM) representa um grande avanço na escalabilidade de modelos de segmentação, permitindo capacidades poderosas de zero-shot e promptagem flexível. Apesar de ter sido treinado com 1,1 bilhão de máscaras, a qualidade da previsão de máscaras do SAM fica aquém em muitos casos, especialmente ao lidar com objetos que possuem estruturas complexas. Propomos o HQ-SAM, equipando o SAM com a capacidade de segmentar qualquer objeto com precisão, mantendo o design promptável original do SAM, sua eficiência e generalizabilidade zero-shot. Nosso design cuidadoso reutiliza e preserva os pesos do modelo pré-treinado do SAM, introduzindo apenas parâmetros e computação adicionais mínimos. Projetamos um Token de Saída de Alta Qualidade aprendível, que é injetado no decodificador de máscaras do SAM e é responsável por prever a máscara de alta qualidade. Em vez de aplicá-lo apenas nas features do decodificador de máscaras, primeiro as fundimos com as features iniciais e finais do ViT para melhorar os detalhes da máscara. Para treinar os parâmetros aprendíveis introduzidos, compilamos um conjunto de dados de 44 mil máscaras refinadas de várias fontes. O HQ-SAM é treinado apenas no conjunto de dados introduzido de 44 mil máscaras, o que leva apenas 4 horas em 8 GPUs. Demonstramos a eficácia do HQ-SAM em um conjunto de 9 conjuntos de dados de segmentação diversos em diferentes tarefas de downstream, onde 7 deles são avaliados em um protocolo de transferência zero-shot. Nosso código e modelos serão liberados em https://github.com/SysCV/SAM-HQ.
Apresentamos o LLM-Blender, uma estrutura de ensemble projetada para alcançar desempenho consistentemente superior ao aproveitar os diversos pontos fortes de múltiplos modelos de linguagem de grande escala (LLMs) de código aberto. Nossa estrutura consiste em dois módulos: PairRanker e GenFuser, abordando a observação de que os LLMs ideais para diferentes exemplos podem variar significativamente. O PairRanker emprega um método especializado de comparação pareada para distinguir diferenças sutis entre saídas candidatas. Ele codifica conjuntamente o texto de entrada e um par de candidatos, utilizando codificadores de atenção cruzada para determinar o superior. Nossos resultados demonstram que o PairRanker exibe a maior correlação com a classificação baseada no ChatGPT. Em seguida, o GenFuser visa mesclar os candidatos mais bem classificados, gerando uma saída aprimorada ao capitalizar seus pontos fortes e mitigar suas fraquezas. Para facilitar a avaliação em larga escala, introduzimos um conjunto de dados de referência, o MixInstruct, que é uma mistura de múltiplos conjuntos de dados de instrução com comparações pareadas oráculo. Nosso LLM-Blender supera significativamente os LLMs individuais e métodos de linha de base em várias métricas, estabelecendo uma lacuna substancial de desempenho.
Modelos de linguagem de grande escala (LLMs) são seguidores de instruções, mas pode ser desafiador encontrar a melhor instrução para diferentes situações, especialmente para LLMs de caixa preta nos quais a retropropagação é proibida. Em vez de otimizar diretamente a instrução discreta, otimizamos um prompt suave de baixa dimensão aplicado a um LLM de código aberto para gerar a instrução para o LLM de caixa preta. Em cada iteração do método proposto, que chamamos de InstructZero, um prompt suave é convertido em uma instrução usando o LLM de código aberto, que é então submetido ao LLM de caixa preta para avaliação zero-shot, e o desempenho é enviado para otimização bayesiana para produzir novos prompts suaves que melhoram o desempenho zero-shot. Avaliamos o InstructZero em diferentes combinações de LLMs de código aberto e APIs, incluindo Vicuna e ChatGPT. Nossos resultados mostram que o InstructZero supera os métodos de auto-instrução de última geração (SOTA) em uma variedade de tarefas subsequentes. Nosso código e dados estão publicamente disponíveis em https://github.com/Lichang-Chen/InstructZero.
Métodos de treinamento com privacidade diferencial (DP), como o DP-SGD, podem proteger dados sensíveis de treinamento, garantindo que modelos de ML não revelem informações privadas. Uma abordagem alternativa, que este artigo estuda, é usar um conjunto de dados sensível para gerar um novo conjunto de dados sintético que seja diferencialmente privado em relação aos dados originais. Isso traz várias vantagens: os dados sintéticos podem ser reutilizados para outras tarefas (incluindo ajuste de hiperparâmetros), mantidos indefinidamente ou compartilhados com terceiros sem sacrificar a privacidade. No entanto, obter dados com DP é muito mais difícil do que introduzir DP durante o treinamento. Para torná-lo viável para texto, trabalhos recentes utilizaram dados públicos, começando com um modelo de linguagem generativo pré-treinado e ajustando-o de forma privada em dados sensíveis. Esse modelo pode ser usado para amostrar um conjunto de dados sintético com DP. Embora essa estratégia pareça direta, sua execução tem se mostrado problemática. Abordagens anteriores ou apresentam perda significativa de desempenho ou têm, como mostramos, falhas críticas de design. Neste artigo, demonstramos que um objetivo de treinamento adequado, juntamente com o ajuste de menos parâmetros, resulta em uma excelente qualidade de dados sintéticos com DP. Nossa abordagem é competitiva com o treinamento direto com DP de classificadores de tarefas subsequentes em termos de desempenho nessas tarefas. Também demonstramos que nossos dados sintéticos com DP não são apenas úteis para o treinamento de classificadores subsequentes, mas também para ajustar esses mesmos modelos.
Modelos de linguagem (MLs) frequentemente exibem comportamentos indesejáveis na geração de textos, incluindo a produção de saídas falsas, tóxicas ou irrelevantes. O aprendizado por reforço com base em feedback humano (RLHF, do inglês *Reinforcement Learning from Human Feedback*) — no qual julgamentos de preferência humana sobre as saídas dos MLs são transformados em um sinal de aprendizado — tem mostrado recentemente potencial para abordar esses problemas. No entanto, esse tipo de feedback holístico transmite informações limitadas sobre saídas de texto longas; ele não indica quais aspectos das saídas influenciaram a preferência do usuário; por exemplo, quais partes contêm quais tipos de erros. Neste artigo, utilizamos feedback humano detalhado (por exemplo, qual frase é falsa, qual subfrase é irrelevante) como um sinal de treinamento explícito. Introduzimos o *Fine-Grained RLHF*, uma estrutura que permite o treinamento e o aprendizado a partir de funções de recompensa que são detalhadas em dois aspectos: (1) densidade, fornecendo uma recompensa após cada segmento (por exemplo, uma frase) ser gerado; e (2) incorporação de múltiplos modelos de recompensa associados a diferentes tipos de feedback (por exemplo, incorreção factual, irrelevância e incompletude de informações). Realizamos experimentos em detoxificação e respostas a perguntas de longa extensão para ilustrar como o aprendizado com tais funções de recompensa leva a um desempenho aprimorado, apoiado tanto por avaliações automáticas quanto humanas. Além disso, mostramos que os comportamentos dos MLs podem ser personalizados usando diferentes combinações de modelos de recompensa detalhados. Disponibilizamos todos os dados, feedback humano coletado e códigos em https://FineGrainedRLHF.github.io.
A metodologia padrão de avaliação de grandes modelos de linguagem (LLMs) com base em pares estáticos de entradas e saídas é insuficiente para o desenvolvimento de assistentes: esse tipo de avaliação não leva em consideração o elemento interativo essencial em sua implantação e, portanto, limita nossa compreensão das capacidades dos modelos de linguagem. Apresentamos o CheckMate, uma plataforma protótipo adaptável para humanos interagirem e avaliarem LLMs. Realizamos um estudo com o CheckMate para avaliar três modelos de linguagem (InstructGPT, ChatGPT e GPT-4) como assistentes na prova de matemática de nível universitário, com um grupo misto de participantes, desde estudantes de graduação até professores de matemática. Disponibilizamos o conjunto de dados resultante de interações e avaliações, o MathConverse. Ao analisar o MathConverse, derivamos uma taxonomia preliminar de comportamentos humanos e descobrimos que, apesar de uma correlação geralmente positiva, há casos notáveis de divergência entre a correção e a percepção de utilidade nas gerações dos LLMs, entre outros achados. Além disso, identificamos cenários úteis e problemas existentes do GPT-4 no raciocínio matemático por meio de uma série de estudos de caso contribuídos por matemáticos especialistas. Concluímos com insights práticos para profissionais de aprendizado de máquina e matemáticos: modelos que comunicam incerteza, respondem bem a correções do usuário, são mais interpretáveis e concisos podem constituir melhores assistentes; a avaliação interativa é uma maneira promissora de explorar continuamente a capacidade desses modelos; os humanos devem estar cientes da falibilidade algébrica dos modelos de linguagem e, por isso, discernir onde eles devem ser usados.
O modelo ChatGPT, recentemente lançado, demonstra capacidades sem precedentes em tarefas de questionamento e resposta em cenários de zero-shot. Neste trabalho, investigamos o ChatGPT quanto à sua compreensão conversacional e introduzimos um framework (protocolo) conversacional que pode ser adotado em estudos futuros. O universo Pokémon serve como um terreno ideal para auditar as capacidades de raciocínio do ChatGPT devido à sua suposição de mundo fechado. Após revelar o conhecimento prévio do ChatGPT sobre o universo Pokémon, testamos seu processo de raciocínio ao utilizar esses conceitos em cenários de batalha. Em seguida, avaliamos sua capacidade de adquirir novos conhecimentos e incorporá-los em seu processo de raciocínio. Nosso objetivo final é avaliar a capacidade do ChatGPT de generalizar, combinar características e adquirir e raciocinar sobre novos conhecimentos introduzidos a partir de feedback humano. Descobrimos que o ChatGPT possui conhecimento prévio do universo Pokémon, sobre o qual consegue raciocinar em cenários de batalha em grande medida, mesmo quando novas informações são introduzidas. O modelo apresenta melhor desempenho com feedback colaborativo e se houver uma fase inicial de recuperação de informações, mas também alucina ocasionalmente e é suscetível a ataques adversariais.
Empregar Modelos de Linguagem de Grande Escala (LLMs) para abordar problemas matemáticos é uma empreitada de pesquisa intrigante, considerando a abundância de problemas matemáticos expressos em linguagem natural em diversos campos da ciência e engenharia. Embora vários trabalhos anteriores tenham investigado a resolução de matemática elementar usando LLMs, este trabalho explora a fronteira do uso do GPT-4 para resolver problemas matemáticos mais complexos e desafiadores. Avaliamos diversas formas de utilizar o GPT-4. Algumas delas são adaptadas de trabalhos existentes, e uma delas é o \MathChat, uma estrutura de resolução de problemas conversacional proposta neste trabalho. Realizamos a avaliação em problemas difíceis de competições do ensino médio do conjunto de dados MATH, o que demonstra a vantagem da abordagem conversacional proposta.
O recente sucesso dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) representa um avanço impressionante em direção à inteligência artificial geral. Eles têm demonstrado uma perspectiva promissora na conclusão automática de tarefas com base nas instruções dos usuários, funcionando como coordenadores semelhantes ao cérebro humano. Os riscos associados serão revelados à medida que delegamos um número crescente de tarefas às máquinas para conclusão automatizada. Surge então uma grande questão: como podemos fazer com que as máquinas ajam de forma responsável ao ajudar os humanos a automatizar tarefas como copilotos pessoais? Neste artigo, exploramos essa questão em profundidade sob as perspectivas de viabilidade, completude e segurança. Especificamente, apresentamos a Automação de Tarefas Responsável (ResponsibleTA, em inglês) como um framework fundamental para facilitar a colaboração responsável entre coordenadores baseados em LLMs e executores para a automação de tarefas, com três capacidades habilitadas: 1) prever a viabilidade dos comandos para os executores; 2) verificar a completude dos executores; 3) aprimorar a segurança (por exemplo, a proteção da privacidade dos usuários). Além disso, propomos e comparamos dois paradigmas para implementar as duas primeiras capacidades. Um deles é aproveitar o conhecimento genérico dos próprios LLMs por meio de engenharia de prompts, enquanto o outro é adotar modelos específicos de domínio que podem ser aprendidos. Adicionalmente, introduzimos um mecanismo de memória local para alcançar a terceira capacidade. Avaliamos nossa proposta de ResponsibleTA na automação de tarefas de interface do usuário (UI) e esperamos que ela possa atrair mais atenção para garantir que os LLMs sejam mais responsáveis em diversos cenários. A página inicial do projeto de pesquisa está disponível em https://task-automation-research.github.io/responsible_task_automation.
Apresentamos uma avaliação realista sobre modelos de linguagem de grande escala e examinamos a promessa dos modelos de linguagem aumentados por recuperação em comparação. Tais modelos de linguagem são semiparamétricos, onde os modelos integram parâmetros do modelo e conhecimento de fontes de dados externas para fazer suas previsões, em contraste com a natureza paramétrica dos modelos de linguagem de grande escala convencionais. Fornecemos resultados experimentais iniciais que mostram que arquiteturas semiparamétricas podem ser aprimoradas com visões, um analisador/planejador de consultas e proveniência para criar um sistema significativamente mais poderoso para tarefas de resposta a perguntas em termos de precisão e eficiência, e potencialmente para outras tarefas de PLN.
Observando a estreita relação entre as tarefas de segmentação panóptica, semântica e de instâncias, propomos treinar um modelo universal de segmentação multi-tarefa e multi-dataset: o DaTaSeg. Utilizamos uma representação compartilhada (propostas de máscaras com previsões de classe) para todas as tarefas. Para lidar com a discrepância entre as tarefas, adotamos diferentes operações de fusão e pós-processamento para cada tarefa. Também aproveitamos a supervisão fraca, permitindo que nosso modelo de segmentação se beneficie de anotações mais baratas de caixas delimitadoras. Para compartilhar conhecimento entre datasets, utilizamos embeddings de texto do mesmo espaço semântico de embeddings como classificadores e compartilhamos todos os parâmetros da rede entre os datasets. Treinamos o DaTaSeg nos datasets ADE semântico, COCO panóptico e Objects365 de detecção. O DaTaSeg melhora o desempenho em todos os datasets, especialmente em datasets de pequena escala, alcançando 54.0 mIoU no ADE semântico e 53.5 PQ no COCO panóptico. O DaTaSeg também permite a transferência de conhecimento com supervisão fraca na segmentação panóptica do ADE e na segmentação de instâncias do Objects365. Experimentos mostram que o DaTaSeg escala com o número de datasets de treinamento e permite a segmentação de vocabulário aberto por meio de transferência direta. Além disso, anotamos um conjunto de segmentação de instâncias do Objects365 com 1.000 imagens e o disponibilizaremos como um benchmark público.
Modelos de linguagem baseados em Transformers têm encontrado diversas aplicações que exigem o processamento de sequências de comprimento crescente. Para essas aplicações, a auto-atenção causal — que é o único componente que escala quadraticamente em relação ao comprimento da sequência — torna-se uma preocupação central. Embora muitos trabalhos tenham proposto esquemas para esparsificar os padrões de atenção e reduzir a sobrecarga computacional da auto-atenção, esses métodos frequentemente são limitados por questões de implementação e acabam impondo uma estrutura simples e estática sobre a matriz de atenção. Por outro lado, a implementação de atenções esparsas mais dinâmicas geralmente resulta em tempos de execução significativamente mais lentos do que o cálculo da atenção completa usando a implementação Flash de Dao et al. (2022). Nós estendemos o FlashAttention para acomodar uma grande classe de padrões de esparsidade de atenção que, em particular, englobam o descarte de chaves/consultas e a atenção baseada em hashing. Isso resulta em implementações sem sobrecarga de complexidade computacional e com um aumento múltiplo na velocidade de execução em relação ao FlashAttention. Mesmo com graus relativamente baixos de esparsidade, nosso método melhora visivelmente o desempenho do FlashAttention à medida que o comprimento da sequência aumenta. Sem sacrificar a perplexidade, aumentamos a velocidade de treinamento de um modelo de linguagem Transformer em 2,0 vezes e 3,3 vezes para sequências de, respectivamente, 8k e 16k tokens.