Artigos de pesquisa em IA selecionados diariamente com traduções
Há um número crescente de grandes modelos de linguagem (LLMs) que os usuários podem consultar mediante pagamento. Revisamos o custo associado à consulta de APIs populares de LLMs, como GPT-4, ChatGPT, J1-Jumbo, e constatamos que esses modelos possuem estruturas de preços heterogêneas, com taxas que podem variar em até duas ordens de magnitude. Em particular, o uso de LLMs em grandes coleções de consultas e textos pode ser caro. Motivados por isso, delineamos e discutimos três tipos de estratégias que os usuários podem explorar para reduzir o custo de inferência associado ao uso de LLMs: 1) adaptação de prompt, 2) aproximação de LLM e 3) cascata de LLM. Como exemplo, propomos o FrugalGPT, uma instanciação simples, porém flexível, de cascata de LLM que aprende quais combinações de LLMs usar para diferentes consultas a fim de reduzir custos e melhorar a precisão. Nossos experimentos mostram que o FrugalGPT pode igualar o desempenho do melhor LLM individual (por exemplo, GPT-4) com uma redução de custo de até 98% ou melhorar a precisão em relação ao GPT-4 em 4% com o mesmo custo. As ideias e descobertas apresentadas aqui estabelecem uma base para o uso sustentável e eficiente de LLMs.
Embora os modelos generativos de linguagem de grande escala (LLMs) ajustados por instruções tenham demonstrado uma capacidade impressionante de generalizar para novas tarefas, as fases de treinamento dependem fortemente de grandes quantidades de dados de instrução diversos e de alta qualidade (como no caso do ChatGPT e GPT-4). Infelizmente, a aquisição de dados de alta qualidade, especialmente quando se trata de dados escritos por humanos, pode apresentar desafios significativos em termos de custo e acessibilidade. Além disso, preocupações relacionadas à privacidade podem limitar ainda mais o acesso a esses dados, tornando o processo de obtenção uma tarefa complexa e cheia de nuances. Consequentemente, isso prejudica a generalidade dos modelos ajustados e pode restringir sua eficácia em determinados contextos. Para enfrentar esse problema, nosso estudo introduz uma nova abordagem chamada Ajuste de Instrução Federado (FedIT), que utiliza o aprendizado federado (FL) como estrutura de aprendizado para o ajuste de instruções de LLMs. Isso marca a primeira exploração do ajuste de instruções baseado em FL para LLMs. Isso é especialmente importante, já que os dados de texto são predominantemente gerados pelos usuários finais. Portanto, é imperativo projetar e adaptar abordagens de FL para aproveitar efetivamente as diversas instruções desses usuários armazenadas em dispositivos locais, preservando a privacidade e garantindo a segurança dos dados. No presente artigo, ao realizar uma avaliação automática amplamente utilizada com o GPT-4, demonstramos que, ao explorar os conjuntos heterogêneos e diversos de instruções no lado do cliente com o framework proposto FedIT, melhoramos o desempenho dos LLMs em comparação com o treinamento centralizado com apenas instruções locais limitadas. Além disso, neste artigo, desenvolvemos um repositório no Github chamado Shepherd. Esse repositório oferece uma estrutura fundamental para explorar o ajuste fino federado de LLMs usando instruções heterogêneas em diversas categorias.
Apresentamos um framework visual interativo chamado InternChat, ou iChat para abreviar. O framework integra chatbots com capacidades de planejamento e raciocínio, como o ChatGPT, com instruções não verbais, como movimentos de apontar, que permitem aos usuários manipular diretamente imagens ou vídeos na tela. Movimentos de apontar (incluindo gestos, cursores, etc.) podem oferecer mais flexibilidade e precisão na execução de tarefas centradas em visão que exigem controle refinado, edição e geração de conteúdo visual. O nome InternChat representa interação, não verbal e chatbots. Diferente dos sistemas interativos existentes que dependem apenas de linguagem, ao incorporar instruções de apontar, o iChat proposto melhora significativamente a eficiência da comunicação entre usuários e chatbots, bem como a precisão dos chatbots em tarefas centradas em visão, especialmente em cenários visuais complexos onde o número de objetos é maior que 2. Além disso, no iChat, um mecanismo de controle auxiliar é utilizado para melhorar a capacidade de controle do LLM, e um grande modelo de visão e linguagem chamado Husky é ajustado para diálogos multimodais de alta qualidade (impressionando o ChatGPT-3.5-turbo com 93,89% da qualidade do GPT-4). Esperamos que este trabalho possa inspirar novas ideias e direções para futuros sistemas visuais interativos. Seja bem-vindo para conferir o código em https://github.com/OpenGVLab/InternChat.
Modelos de linguagem de grande escala (LLMs) recentemente demonstraram desempenho impressionante em diversas tarefas de PLN. Para lidar com tarefas de raciocínio em múltiplas etapas, o prompting few-shot de cadeia de pensamento (CoT) inclui algumas demonstrações manuais de raciocínio passo a passo, que permitem que os LLMs gerem explicitamente etapas de raciocínio e melhorem sua precisão em tarefas de raciocínio. Para eliminar o esforço manual, o Zero-shot-CoT concatena a declaração do problema alvo com "Vamos pensar passo a passo" como um prompt de entrada para os LLMs. Apesar do sucesso do Zero-shot-CoT, ele ainda sofre de três problemas: erros de cálculo, erros de etapas ausentes e erros de má interpretação semântica. Para abordar os erros de etapas ausentes, propomos o Prompting de Planejar e Resolver (PS). Ele consiste em dois componentes: primeiro, elaborar um plano para dividir a tarefa inteira em subtarefas menores e, em seguida, executar as subtarefas de acordo com o plano. Para abordar os erros de cálculo e melhorar a qualidade das etapas de raciocínio geradas, estendemos o prompting PS com instruções mais detalhadas e derivamos o prompting PS+. Avaliamos nossa estratégia de prompting proposta em dez conjuntos de dados abrangendo três problemas de raciocínio. Os resultados experimentais com o GPT-3 mostram que nosso prompting zero-shot proposto supera consistentemente o Zero-shot-CoT em todos os conjuntos de dados por uma grande margem, é comparável ou superior ao Prompting Zero-shot-Program-of-Thought e tem desempenho comparável ao prompting CoT de 8-shot no problema de raciocínio matemático. O código pode ser encontrado em https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
Os modelos de difusão, que surgiram como modelos populares de geração de texto para imagem, podem produzir imagens de alta qualidade e ricas em conteúdo guiadas por prompts textuais. No entanto, há limitações na compreensão semântica e no raciocínio de senso comum nos modelos existentes quando os prompts de entrada são narrativas concisas, resultando em geração de imagens de baixa qualidade. Para melhorar as capacidades para prompts narrativos, propomos uma abordagem simples, porém eficiente, de ajuste fino com eficiência de parâmetros chamada de adaptador de Compreensão Semântica e Raciocínio (SUR-adapter) para modelos de difusão pré-treinados. Para atingir esse objetivo, primeiro coletamos e anotamos um novo conjunto de dados SURD, que consiste em mais de 57.000 amostras multimodais semanticamente corrigidas. Cada amostra contém um prompt narrativo simples, um prompt complexo baseado em palavras-chave e uma imagem de alta qualidade. Em seguida, alinhamos a representação semântica dos prompts narrativos aos prompts complexos e transferimos o conhecimento de modelos de linguagem de grande escala (LLMs) para nosso SUR-adapter por meio de destilação de conhecimento, para que ele possa adquirir poderosas capacidades de compreensão semântica e raciocínio para construir uma representação semântica textual de alta qualidade para a geração de texto para imagem. Realizamos experimentos integrando múltiplos LLMs e modelos de difusão pré-treinados populares para mostrar a eficácia de nossa abordagem em permitir que os modelos de difusão compreendam e raciocinem a linguagem natural concisa sem degradação da qualidade da imagem. Nossa abordagem pode tornar os modelos de difusão de texto para imagem mais fáceis de usar com uma melhor experiência do usuário, o que demonstra que nossa abordagem tem o potencial de avançar ainda mais o desenvolvimento de modelos de geração de texto para imagem amigáveis ao usuário, ao preencher a lacuna semântica entre prompts narrativos simples e prompts complexos baseados em palavras-chave.
O ajuste de prompts (prompt tuning) é uma das abordagens bem-sucedidas para o ajuste eficiente em parâmetros de modelos de linguagem pré-treinados. Apesar de ser indiscutivelmente o método mais eficiente em termos de parâmetros (os prompts ajustados constituem <0,1% do total de parâmetros), ele geralmente tem desempenho inferior a outros métodos de ajuste eficiente e é bastante sensível à escolha de hiperparâmetros. Neste trabalho, introduzimos o Ajuste de Prompts Residual (Residual Prompt Tuning) - um método simples e eficiente que melhora significativamente o desempenho e a estabilidade do ajuste de prompts. Propomos reparametrizar os embeddings de prompts suaves usando uma rede rasa com uma conexão residual. Nossos experimentos mostram que o Ajuste de Prompts Residual supera significativamente o ajuste de prompts tradicional no benchmark SuperGLUE. Notavelmente, nosso método alcança uma melhoria de +7 pontos em relação ao ajuste de prompts com o modelo T5-Base e permite reduzir o comprimento do prompt em 10 vezes sem prejudicar o desempenho. Além disso, demonstramos que nossa abordagem é robusta à escolha da taxa de aprendizado e da inicialização do prompt, e é eficaz em cenários de poucos exemplos (few-shot).
Apresentamos um modelo de visão e linguagem chamado MultiModal-GPT para conduzir diálogos multi-turnos com humanos. O MultiModal-GPT pode seguir várias instruções de humanos, como gerar uma descrição detalhada, contar o número de objetos de interesse e responder a perguntas gerais dos usuários. O MultiModal-GPT é ajustado de forma eficiente em parâmetros a partir do OpenFlamingo, com o Low-rank Adapter (LoRA) adicionado tanto na parte de atenção cruzada quanto na parte de auto-atenção do modelo de linguagem. Primeiro, construímos templates de instruções com dados de visão e linguagem para o ajuste de instruções multi-modais, a fim de fazer o modelo entender e seguir as instruções humanas. Descobrimos que a qualidade dos dados de treinamento é crucial para o desempenho do diálogo, onde poucos dados contendo respostas curtas podem levar o modelo a responder de forma breve a qualquer instrução. Para aprimorar ainda mais a capacidade de conversar com humanos do MultiModal-GPT, utilizamos dados de instruções apenas de linguagem para treinar o MultiModal-GPT de forma conjunta. O treinamento conjunto de instruções apenas de linguagem e instruções visuais-linguísticas com o mesmo template de instrução melhora efetivamente o desempenho do diálogo. Várias demonstrações mostram a capacidade de diálogo contínuo do MultiModal-GPT com humanos. O código e a demonstração estão disponíveis em https://github.com/open-mmlab/Multimodal-GPT.
Modelos de Linguagem de Grande Escala (LLMs) podem alcançar um desempenho forte em muitas tarefas ao produzir raciocínios passo a passo antes de fornecer uma saída final, frequentemente referido como raciocínio em cadeia de pensamento (CoT). É tentador interpretar essas explicações CoT como o processo do LLM para resolver uma tarefa. No entanto, descobrimos que as explicações CoT podem sistematicamente deturpar a verdadeira razão por trás da previsão de um modelo. Demonstramos que as explicações CoT podem ser fortemente influenciadas pela adição de características tendenciosas às entradas do modelo — por exemplo, ao reordenar as opções de múltipla escolha em um prompt de poucos exemplos para que a resposta seja sempre "(A)" — o que os modelos falham sistematicamente em mencionar em suas explicações. Quando enviesamos os modelos para respostas incorretas, eles frequentemente geram explicações CoT que apoiam essas respostas. Isso faz com que a precisão caia em até 36% em um conjunto de 13 tarefas do BIG-Bench Hard, ao testar com GPT-3.5 da OpenAI e Claude 1.0 da Anthropic. Em uma tarefa de viés social, as explicações dos modelos justificam respostas alinhadas com estereótipos sem mencionar a influência desses vieses sociais. Nossas descobertas indicam que as explicações CoT podem ser plausíveis, mas enganosas, o que corre o risco de aumentar nossa confiança nos LLMs sem garantir sua segurança. O CoT é promissor para explicabilidade, mas nossos resultados destacam a necessidade de esforços direcionados para avaliar e melhorar a fidelidade das explicações.
O framework de pré-treinamento gerador-discriminador ELECTRA demonstrou impressionante capacidade de construção semântica em diversas tarefas subsequentes. Apesar do desempenho convincente, o ELECTRA ainda enfrenta desafios de treinamento monótono e interação deficiente. O gerador, que utiliza apenas modelagem de linguagem mascarada (MLM), resulta em aprendizado tendencioso e desequilíbrio de rótulos para o discriminador, reduzindo a eficiência do aprendizado; a ausência de um loop de feedback explícito do discriminador para o gerador cria uma lacuna entre esses dois componentes, subutilizando o aprendizado progressivo. Neste estudo, propomos um método de aprendizado progressivo multiperspectivo (MCL) para obter múltiplos graus e ângulos visuais para um pré-treinamento eficiente em termos de amostras, e para aproveitar plenamente a relação entre gerador e discriminador. Concretamente, três cursos de auto-supervisão são projetados para mitigar falhas inerentes da MLM e equilibrar os rótulos de forma multiperspectiva. Além disso, dois cursos de autocorreção são propostos para preencher a lacuna entre os dois codificadores, criando um "caderno de correções" para supervisão secundária. Adicionalmente, é conduzido um teste de "sopa de cursos" para resolver o problema dinâmico de "cabo de guerra" do MCL, evoluindo para um modelo pré-treinado mais robusto. Resultados experimentais mostram que nosso método melhora significativamente o desempenho médio do ELECTRA em 2,8% e 3,2% pontos absolutos, respectivamente, nos benchmarks GLUE e SQuAD 2.0, e supera modelos recentes no estilo ELECTRA sob as mesmas configurações. O modelo MCL pré-treinado está disponível em https://huggingface.co/McmanusChen/MCL-base.
Os métodos existentes de Campos de Radiosidade Neural (NeRF) sofrem com a presença de objetos reflexivos, frequentemente resultando em renderizações borradas ou distorcidas. Em vez de calcular um único campo de radiosidade, propomos um campo de radiosidade neural multi-espaço (MS-NeRF) que representa a cena utilizando um grupo de campos de características em subespaços paralelos, o que leva a uma melhor compreensão da rede neural em relação à existência de objetos reflexivos e refrativos. Nosso esquema multi-espaço funciona como um aprimoramento para os métodos NeRF existentes, com apenas pequenos custos computacionais adicionais necessários para treinar e inferir as saídas do espaço extra. Demonstramos a superioridade e compatibilidade de nossa abordagem utilizando três modelos representativos baseados em NeRF, ou seja, NeRF, Mip-NeRF e Mip-NeRF 360. As comparações são realizadas em um conjunto de dados recém-construído, consistindo de 25 cenas sintéticas e 7 cenas reais capturadas com reflexão e refração complexas, todas com pontos de vista de 360 graus. Experimentos extensivos mostram que nossa abordagem supera significativamente os métodos NeRF de espaço único existentes para renderizar cenas de alta qualidade envolvendo caminhos de luz complexos através de objetos semelhantes a espelhos. Nosso código e conjunto de dados estarão publicamente disponíveis em https://zx-yin.github.io/msnerf.
Apresentamos o AvatarReX, um novo método para aprender avatares de corpo inteiro baseados em NeRF a partir de dados de vídeo. O avatar aprendido não apenas oferece controle expressivo do corpo, mãos e rosto em conjunto, mas também suporta animação e renderização em tempo real. Para isso, propomos uma representação composicional de avatar, onde o corpo, as mãos e o rosto são modelados separadamente de forma que o prior estrutural de modelos de malha paramétricos seja adequadamente utilizado sem comprometer a flexibilidade da representação. Além disso, desacoplamos a geometria e a aparência de cada parte. Com esses projetos técnicos, propomos um pipeline de renderização diferida dedicado, que pode ser executado em taxas de quadros em tempo real para sintetizar imagens de alta qualidade em visão livre. O desacoplamento de geometria e aparência também nos permite projetar uma estratégia de treinamento em duas etapas que combina renderização volumétrica e renderização de superfície para o treinamento da rede. Dessa forma, a supervisão em nível de patch pode ser aplicada para forçar a rede a aprender detalhes nítidos de aparência com base na estimativa de geometria. No geral, nosso método permite a construção automática de avatares expressivos de corpo inteiro com capacidade de renderização em tempo real, e pode gerar imagens foto-realistas com detalhes dinâmicos para novos movimentos corporais e expressões faciais.
Os modelos Transformer são fundamentais para o processamento de linguagem natural (NLP) e a visão computacional. Apesar de vários trabalhos recentes dedicados a reduzir o custo quadrático desses modelos (em função do comprimento da sequência n), lidar com sequências ultra longas de forma eficiente (por exemplo, com mais de 16K tokens) continua sendo um desafio. Aplicações como responder a perguntas com base em um livro inteiro ou resumir um artigo científico são ineficientes ou inviáveis. Neste artigo, propomos reduzir significativamente a dependência da complexidade de um modelo Transformer em n, comprimindo a entrada em uma representação cujo tamanho r é independente de n em cada camada. Especificamente, ao explorar o fato de que, em muitas tarefas, apenas um pequeno subconjunto de tokens especiais (que chamamos de VIP-tokens) é mais relevante para a previsão final, propomos um esquema de compressão centrado em VIP-tokens (Vcc) que comprime seletivamente a sequência de entrada com base em seu impacto na aproximação da representação desses VIP-tokens. Em comparação com baselines competitivas, o algoritmo proposto não apenas é eficiente (alcançando uma melhoria de eficiência de mais de 3 vezes em relação às baselines em comprimentos de 4K e 16K), mas também alcança desempenho competitivo ou superior em um grande número de tarefas. Além disso, mostramos que nosso algoritmo pode ser escalado para 128K tokens (ou mais) enquanto oferece consistentemente melhoria de precisão.