Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar dos avanços dos modelos de linguagem de grande escala (LLMs) de código aberto e suas variantes, como LLaMA e Vicuna, eles ainda são significativamente limitados na execução de tarefas de nível superior, como seguir instruções humanas para usar ferramentas externas (APIs). Isso ocorre porque o ajuste de instruções atual foca principalmente em tarefas básicas de linguagem, em vez do domínio de uso de ferramentas. Isso contrasta com os LLMs de última geração (SOTA), como o ChatGPT, que demonstraram excelentes capacidades de uso de ferramentas, mas, infelizmente, são de código fechado. Para facilitar as capacidades de uso de ferramentas em LLMs de código aberto, introduzimos o ToolLLM, um framework geral de uso de ferramentas que abrange construção de dados, treinamento de modelos e avaliação. Primeiro, apresentamos o ToolBench, um conjunto de dados de ajuste de instruções para uso de ferramentas, criado automaticamente usando o ChatGPT. Especificamente, coletamos 16.464 APIs RESTful do mundo real, abrangendo 49 categorias do RapidAPI Hub, e então solicitamos ao ChatGPT que gere diversas instruções humanas envolvendo essas APIs, cobrindo cenários de uso de uma única ferramenta e de múltiplas ferramentas. Por fim, usamos o ChatGPT para buscar um caminho de solução válido (cadeia de chamadas de API) para cada instrução. Para tornar o processo de busca mais eficiente, desenvolvemos uma árvore de decisão baseada em busca em profundidade (DFSDT), permitindo que os LLMs avaliem múltiplos traços de raciocínio e expandam o espaço de busca. Mostramos que o DFSDT melhora significativamente as capacidades de planejamento e raciocínio dos LLMs. Para uma avaliação eficiente do uso de ferramentas, desenvolvemos um avaliador automático: o ToolEval. Ajustamos o LLaMA no ToolBench e obtemos o ToolLLaMA. Nosso ToolEval revela que o ToolLLaMA demonstra uma capacidade notável de executar instruções complexas e generalizar para APIs não vistas, além de exibir desempenho comparável ao ChatGPT. Para tornar o pipeline mais prático, projetamos um recuperador neural de APIs para recomendar as APIs apropriadas para cada instrução, eliminando a necessidade de seleção manual de APIs.
O aprendizado por reforço com feedback humano (RLHF) é uma técnica para treinar sistemas de IA para se alinharem com objetivos humanos. O RLHF emergiu como o método central utilizado para ajustar modelos de linguagem de última geração (LLMs). Apesar dessa popularidade, houve relativamente pouco trabalho público sistematizando suas falhas. Neste artigo, nós (1) examinamos problemas em aberto e limitações fundamentais do RLHF e métodos relacionados; (2) apresentamos uma visão geral de técnicas para compreender, melhorar e complementar o RLHF na prática; e (3) propomos padrões de auditoria e divulgação para melhorar a supervisão social dos sistemas RLHF. Nosso trabalho enfatiza as limitações do RLHF e destaca a importância de uma abordagem multifacetada para o desenvolvimento de sistemas de IA mais seguros.
Este trabalho tem como objetivo reduzir a latência de geração de ponta a ponta em modelos de linguagem de grande escala (LLMs, na sigla em inglês). Uma das principais causas da alta latência de geração é a abordagem de decodificação sequencial adotada por quase todos os LLMs de última geração. Neste trabalho, motivados pelo processo de pensamento e escrita dos seres humanos, propomos o "Skeleton-of-Thought" (SoT), que orienta os LLMs a gerar primeiro o esqueleto da resposta e, em seguida, realiza chamadas paralelas de API ou decodificação em lote para completar o conteúdo de cada ponto do esqueleto em paralelo. O SoT não apenas proporciona uma aceleração considerável (até 2,39x em 11 LLMs diferentes), mas também pode potencialmente melhorar a qualidade das respostas em várias categorias de perguntas em termos de diversidade e relevância. O SoT é uma tentativa inicial de otimização centrada em dados para eficiência e revela o potencial de fazer com que os LLMs pensem mais como humanos para melhorar a qualidade das respostas.
A medicina, por sua natureza, é um domínio multifacetado que requer a síntese de informações de várias modalidades. Os modelos generativos visão-linguagem (VLMs) médicos dão um primeiro passo nessa direção e prometem muitas aplicações clínicas empolgantes. No entanto, os modelos existentes geralmente precisam ser ajustados em conjuntos de dados substanciais de tarefas específicas, o que representa uma limitação significativa, já que em muitas aplicações médicas os dados são escassos, exigindo modelos capazes de aprender com poucos exemplos em tempo real. Aqui, propomos o Med-Flamingo, um aprendiz multimodal de poucos exemplos adaptado ao domínio médico. Com base no OpenFlamingo-9B, continuamos o pré-treinamento com dados intercalados e pareados de imagens e textos médicos de publicações e livros didáticos. O Med-Flamingo desbloqueia habilidades generativas de resposta a perguntas visuais (VQA) médicas com poucos exemplos, que avaliamos em vários conjuntos de dados, incluindo um novo e desafiador conjunto de dados VQA de problemas abertos no estilo USMLE. Além disso, realizamos a primeira avaliação humana para VQA médica generativa, onde médicos revisam os problemas e gerações cegas em um aplicativo interativo. O Med-Flamingo melhora o desempenho em VQA médica generativa em até 20% na avaliação dos clínicos e, pela primeira vez, permite adaptações médicas multimodais com poucos exemplos, como a geração de justificativas. Disponibilizamos nosso modelo, código e aplicativo de avaliação em https://github.com/snap-stanford/med-flamingo.
Em um espaço conjunto de visão e linguagem, uma característica de texto (por exemplo, de "uma foto de um cachorro") poderia representar efetivamente suas características de imagem relevantes (por exemplo, de fotos de cachorros). Inspirados por isso, propomos o PromptStyler, que simula várias mudanças de distribuição no espaço conjunto ao sintetizar diversos estilos por meio de prompts, sem utilizar qualquer imagem, para lidar com a generalização de domínio sem fonte. Nosso método aprende a gerar uma variedade de características de estilo (de "um estilo S* de um") por meio de vetores de palavras de estilo aprendíveis para pseudo-palavras S*. Para garantir que os estilos aprendidos não distorçam as informações de conteúdo, forçamos as características de estilo-conteúdo (de "um estilo S* de um [classe]") a estarem próximas de suas características de conteúdo correspondentes (de "[classe]") no espaço conjunto de visão e linguagem. Após aprender os vetores de palavras de estilo, treinamos um classificador linear utilizando características de estilo-conteúdo sintetizadas. O PromptStyler alcança o estado da arte em PACS, VLCS, OfficeHome e DomainNet, embora não requeira qualquer imagem e leve apenas ~30 minutos para treinamento utilizando uma única GPU.
Propomos uma metodologia para inserir marcas d'água em textos gerados por modelos de linguagem autorregressivos que sejam robustas a perturbações sem alterar a distribuição do texto até um determinado orçamento máximo de geração. Geramos textos com marca d'água mapeando uma sequência de números aleatórios -- que calculamos usando uma chave de marca d'água randomizada -- para uma amostra do modelo de linguagem. Para detectar textos com marca d'água, qualquer parte que conheça a chave pode alinhar o texto à sequência de números aleatórios. Instanciamos nossa metodologia de marca d'água com dois esquemas de amostragem: amostragem por transformação inversa e amostragem mínima exponencial. Aplicamos essas marcas d'água a três modelos de linguagem -- OPT-1.3B, LLaMA-7B e Alpaca-7B -- para validar experimentalmente seu poder estatístico e robustez a vários ataques de paráfrase. Notavelmente, tanto para os modelos OPT-1.3B quanto LLaMA-7B, descobrimos que podemos detectar de forma confiável textos com marca d'água (p ≤ 0,01) a partir de 35 tokens, mesmo após corromper entre 40-50% dos tokens por meio de edições aleatórias (ou seja, substituições, inserções ou exclusões). Para o modelo Alpaca-7B, realizamos um estudo de caso sobre a viabilidade de marcar respostas a instruções típicas do usuário. Devido à entropia mais baixa das respostas, a detecção é mais difícil: cerca de 25% das respostas -- cujo comprimento médio é de aproximadamente 100 tokens -- são detectáveis com p ≤ 0,01, e a marca d'água também é menos robusta a certos ataques de paráfrase automatizados que implementamos.
O ajuste por instruções surgiu como uma abordagem promissora para aprimorar modelos de linguagem de grande escala no seguimento de instruções humanas. Demonstrou-se que aumentar a diversidade e o número de instruções nos dados de treinamento pode consistentemente melhorar o desempenho de generalização, o que impulsiona um esforço recente para coletar várias instruções e integrar conjuntos de dados de ajuste por instruções em coleções maiores. No entanto, diferentes usuários têm suas próprias maneiras de expressar instruções, e frequentemente existem variações entre diferentes conjuntos de dados nos estilos e formatos das instruções, ou seja, inconsistência de formato. Neste trabalho, estudamos como a inconsistência de formato pode impactar o desempenho do ajuste por instruções. Propomos uma estrutura chamada "Unified Instruction Tuning" (UIT), que utiliza APIs da OpenAI para transferência automática de formato entre diferentes conjuntos de dados de ajuste por instruções. Mostramos que o UIT melhora com sucesso o desempenho de generalização em instruções não vistas, destacando a importância da consistência de formato para o ajuste por instruções. Para tornar a estrutura UIT mais prática, propomos ainda um novo método de redução de ruído baseado em perplexidade para diminuir o ruído da transferência automática de formato. Também treinamos um modelo offline menor que alcança capacidade de transferência de formato comparável às APIs da OpenAI para reduzir custos na prática.
Com a popularidade das representações neurais implícitas, ou campos de radiação neural (NeRF), há uma necessidade urgente de métodos de edição para interagir com modelos 3D implícitos em tarefas como pós-processamento de cenas reconstruídas e criação de conteúdo 3D. Embora trabalhos anteriores tenham explorado a edição de NeRF sob diversas perspectivas, eles são limitados em flexibilidade, qualidade e velocidade de edição, falhando em oferecer resposta direta à edição e visualização instantânea. O principal desafio é conceber uma representação neural editável localmente que possa refletir diretamente as instruções de edição e atualizar instantaneamente. Para preencher essa lacuna, propomos um novo método e sistema de edição interativa para representações implícitas, chamado Seal-3D, que permite aos usuários editar modelos NeRF de maneira livre e em nível de pixel com uma ampla gama de backbones semelhantes a NeRF e visualizar os efeitos da edição instantaneamente. Para alcançar esses efeitos, os desafios são abordados por nossa função proxy proposta, que mapeia as instruções de edição para o espaço original dos modelos NeRF, e por uma estratégia de treinamento professor-aluno com pré-treinamento local e ajuste fino global. Um sistema de edição NeRF foi construído para demonstrar diversos tipos de edição. Nosso sistema pode alcançar efeitos de edição impressionantes com uma velocidade interativa de cerca de 1 segundo.