Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de linguagem realmente só precisam usar uma fração exponencial de seus neurônios para inferências individuais. Como prova, apresentamos o FastBERT, uma variante do BERT que utiliza 0,3\% de seus neurônios durante a inferência, enquanto apresenta desempenho equivalente a modelos BERT similares. O FastBERT engaja seletivamente apenas 12 dos 4095 neurônios para cada inferência de camada. Isso é alcançado substituindo redes feedforward por redes feedforward rápidas (FFFs). Embora ainda não exista uma implementação verdadeiramente eficiente para desbloquear todo o potencial de aceleração da execução neural condicional, fornecemos um código de alto nível para CPU que alcança um ganho de velocidade de 78x em relação à implementação otimizada de feedforward de referência, e uma implementação em PyTorch que oferece um ganho de 40x em relação à inferência feedforward em batch equivalente. Publicamos nosso código de treinamento, configuração de benchmarking e pesos do modelo.
A Orca 1 aprende a partir de sinais ricos, como traços de explicação, permitindo que ela supere modelos convencionais ajustados por instrução em benchmarks como BigBench Hard e AGIEval. Na Orca 2, continuamos explorando como sinais de treinamento aprimorados podem melhorar as habilidades de raciocínio de modelos de linguagem (LMs) menores. Pesquisas sobre o treinamento de LMs menores frequentemente dependem de aprendizado por imitação para replicar a saída de modelos mais capazes. Argumentamos que uma ênfase excessiva na imitação pode limitar o potencial dos modelos menores. Buscamos ensinar LMs menores a empregar diferentes estratégias de solução para diferentes tarefas, potencialmente distintas daquelas usadas pelo modelo maior. Por exemplo, enquanto modelos maiores podem fornecer uma resposta direta para uma tarefa complexa, modelos menores podem não ter a mesma capacidade. Na Orca 2, ensinamos o modelo várias técnicas de raciocínio (passo a passo, lembrar e depois gerar, lembrar-raciocinar-gerar, resposta direta, etc.). Mais crucialmente, buscamos ajudar o modelo a aprender a determinar a estratégia de solução mais eficaz para cada tarefa. Avaliamos a Orca 2 usando um conjunto abrangente de 15 benchmarks diversos (correspondendo a aproximadamente 100 tarefas e mais de 36.000 prompts únicos). A Orca 2 supera significativamente modelos de tamanho similar e atinge níveis de desempenho semelhantes ou melhores aos de modelos 5-10 vezes maiores, conforme avaliado em tarefas complexas que testam habilidades avançadas de raciocínio em configurações zero-shot. Disponibilizamos a Orca 2 em código aberto para incentivar mais pesquisas sobre o desenvolvimento, avaliação e alinhamento de LMs menores.
A criação de vídeos de alta dinâmica, como ações ricas em movimento e efeitos visuais sofisticados, representa um desafio significativo no campo da inteligência artificial. Infelizmente, os métodos atuais de geração de vídeo de última geração, que se concentram principalmente na geração de texto para vídeo, tendem a produzir clipes com movimentos mínimos, apesar de manterem alta fidelidade. Argumentamos que confiar apenas em instruções de texto é insuficiente e subótimo para a geração de vídeo. Neste artigo, apresentamos o PixelDance, uma abordagem inovadora baseada em modelos de difusão que incorpora instruções de imagem para o primeiro e o último quadro, juntamente com instruções de texto para a geração de vídeo. Resultados experimentais abrangentes demonstram que o PixelDance, treinado com dados públicos, exibe uma proficiência significativamente maior na síntese de vídeos com cenas complexas e movimentos intrincados, estabelecendo um novo padrão para a geração de vídeo.
A atenção suave em modelos de linguagem de grande escala (LLMs) baseados em Transformers é suscetível a incorporar informações irrelevantes do contexto em suas representações latentes, o que afeta negativamente a geração dos próximos tokens. Para ajudar a corrigir esses problemas, introduzimos o Sistema 2 de Atenção (S2A), que aproveita a capacidade dos LLMs de raciocinar em linguagem natural e seguir instruções para decidir a que prestar atenção. O S2A regenera o contexto de entrada para incluir apenas as partes relevantes, antes de atender ao contexto regenerado para eliciar a resposta final. Em experimentos, o S2A supera os LLMs baseados em atenção padrão em três tarefas que contêm opiniões ou informações irrelevantes: perguntas e respostas (QA), problemas de matemática em linguagem natural e geração de textos longos, onde o S2A aumenta a factualidade e a objetividade e reduz a siconia.
O LoRA alcança uma eficiência notável de recursos e desempenho comparável ao adaptar LLMs para tarefas específicas. Desde que o ChatGPT demonstrou desempenho superior em várias tarefas, tem havido um crescente desejo de adaptar um único modelo para todas as tarefas. No entanto, o baixo posto explícito do LoRA limita o desempenho da adaptação em cenários complexos de múltiplas tarefas. O LoRA é dominado por um pequeno número de vetores singulares principais, enquanto o ajuste fino se decompõe em um conjunto de transformações unitárias menos importantes. Neste artigo, propomos o MultiLoRA para uma melhor adaptação a múltiplas tarefas, reduzindo a dominância dos vetores singulares principais observada no LoRA. O MultiLoRA dimensiona os módulos LoRA horizontalmente e altera a inicialização dos parâmetros das matrizes de adaptação para reduzir a dependência de parâmetros, resultando em subespaços unitários mais equilibrados. Construímos, de forma inédita, dados de treinamento especializados misturando conjuntos de dados de seguimento de instruções, compreensão de linguagem natural e conhecimento mundial, para cobrir amostras semanticamente e sintaticamente diferentes. Com apenas 2,5% de parâmetros adicionais, o MultiLoRA supera as contrapartes de LoRA único e o ajuste fino em múltiplos benchmarks e escalas de modelos. Uma investigação mais aprofundada das matrizes de atualização de pesos do MultiLoRA exibe uma dependência reduzida dos vetores singulares principais e contribuições mais democráticas das transformações unitárias.
Apresentamos o GPQA, um conjunto de dados desafiador composto por 448 questões de múltipla escolha elaboradas por especialistas em biologia, física e química. Garantimos que as questões são de alta qualidade e extremamente difíceis: especialistas que possuem ou estão cursando doutorado nas áreas correspondentes atingem 65% de precisão (74% ao desconsiderar erros claros que os especialistas identificaram retrospectivamente), enquanto validadores altamente qualificados, mas não especialistas, alcançam apenas 34% de precisão, apesar de gastarem em média mais de 30 minutos com acesso irrestrito à web (ou seja, as questões são "à prova de Google"). As questões também são difíceis para sistemas de IA de ponta, com nossa linha de base mais forte baseada no GPT-4 atingindo 39% de precisão. Se quisermos usar futuros sistemas de IA para nos ajudar a responder perguntas muito difíceis, por exemplo, ao desenvolver novos conhecimentos científicos, precisamos desenvolver métodos de supervisão escaláveis que permitam aos humanos supervisionar suas saídas, o que pode ser difícil mesmo que os supervisores sejam habilidosos e experientes. A dificuldade do GPQA tanto para não especialistas qualificados quanto para sistemas de IA de fronteira deve permitir experimentos realistas de supervisão escalável, o que esperamos que possa ajudar a criar maneiras para que especialistas humanos obtenham informações confiáveis e verdadeiras de sistemas de IA que superam as capacidades humanas.
Apresentamos o Adapters, uma biblioteca de código aberto que unifica o aprendizado de transferência modular e eficiente em parâmetros em modelos de linguagem de grande escala. Ao integrar 10 métodos diversos de adaptadores em uma interface unificada, o Adapters oferece facilidade de uso e configuração flexível. Nossa biblioteca permite que pesquisadores e profissionais aproveitem a modularidade dos adaptadores por meio de blocos de composição, possibilitando o design de configurações complexas de adaptadores. Demonstramos a eficácia da biblioteca avaliando seu desempenho em comparação com o ajuste fino completo em várias tarefas de PLN. O Adapters fornece uma ferramenta poderosa para enfrentar os desafios dos paradigmas convencionais de ajuste fino e promover um aprendizado de transferência mais eficiente e modular. A biblioteca está disponível em https://adapterhub.ml/adapters.
Apresentamos o Style Tailoring, uma abordagem para ajustar finamente Modelos de Difusão Latente (LDMs) em um domínio distinto com alta qualidade visual, alinhamento de prompt e diversidade de cenas. Escolhemos a geração de imagens de adesivos como o domínio alvo, pois essas imagens diferem significativamente das amostras fotorrealísticas tipicamente geradas por LDMs em larga escala. Começamos com um modelo competente de texto para imagem, como o Emu, e mostramos que depender da engenharia de prompt com um modelo fotorrealístico para gerar adesivos resulta em um alinhamento de prompt e diversidade de cenas insatisfatórios. Para superar essas limitações, primeiro ajustamos finamente o Emu em milhões de imagens semelhantes a adesivos coletadas usando supervisão fraca para eliciar diversidade. Em seguida, curamos conjuntos de dados de Alinhamento e Estilo com intervenção humana (HITL) a partir de gerações do modelo, e ajustamos finamente para melhorar o alinhamento de prompt e o alinhamento de estilo, respectivamente. O ajuste fino sequencial nesses conjuntos de dados apresenta uma troca entre ganhos de melhor alinhamento de estilo e alinhamento de prompt. Para abordar essa troca, propomos um novo método de ajuste fino chamado Style Tailoring, que ajusta conjuntamente a distribuição de conteúdo e estilo e alcança o melhor equilíbrio. Os resultados de avaliação mostram que nosso método melhora a qualidade visual em 14%, o alinhamento de prompt em 16,2% e a diversidade de cenas em 15,3%, em comparação com a engenharia de prompt do modelo base Emu para geração de adesivos.
Os recentes avanços na geração de texto para 3D marcam um marco significativo nos modelos generativos, abrindo novas possibilidades para a criação de ativos 3D imaginativos em diversos cenários do mundo real. Embora os progressos recentes na geração de texto para 3D tenham mostrado potencial, eles frequentemente falham em renderizar modelos 3D detalhados e de alta qualidade. Esse problema é especialmente prevalente, pois muitos métodos se baseiam na Amostragem por Distilação de Pontuação (Score Distillation Sampling - SDS). Este artigo identifica uma deficiência notável no SDS: ele traz uma direção de atualização inconsistente e de baixa qualidade para o modelo 3D, causando o efeito de super-suavização. Para resolver isso, propomos uma nova abordagem chamada Correspondência de Pontuação por Intervalo (Interval Score Matching - ISM). O ISM emprega trajetórias de difusão determinísticas e utiliza correspondência de pontuação baseada em intervalos para combater a super-suavização. Além disso, incorporamos o Splatting Gaussiano 3D em nosso pipeline de geração de texto para 3D. Experimentos extensivos mostram que nosso modelo supera amplamente o estado da arte em qualidade e eficiência de treinamento.
Aumentar o número de parâmetros de modelos de linguagem tem se mostrado uma abordagem eficaz para melhorar o desempenho. Para modelos densos, aumentar o tamanho do modelo aumenta proporcionalmente a pegada computacional do modelo. Neste trabalho, buscamos desacoplar agressivamente a capacidade de aprendizado e os FLOPs por meio de modelos do tipo Mixture-of-Experts (MoE) com funções de roteamento baseadas em vocabulário rico em conhecimento e especialistas. Nossa abordagem proposta, denominada Mixture of Word Experts (MoWE), pode ser vista como um modelo aumentado por memória, onde um grande conjunto de especialistas específicos para palavras desempenha o papel de uma memória esparsa. Demonstramos que o MoWE tem um desempenho significativamente melhor do que a família de modelos T5 com um número similar de FLOPs em uma variedade de tarefas de NLP. Além disso, o MoWE supera modelos MoE regulares em tarefas intensivas em conhecimento e tem um desempenho similar a abordagens mais complexas aumentadas por memória que frequentemente exigem a invocação de mecanismos personalizados para buscar a memória esparsa.
A visualização de histórias tem como objetivo gerar uma série de imagens que correspondam à história descrita em textos, exigindo que as imagens geradas atendam a critérios de alta qualidade, alinhamento com a descrição textual e consistência nas identidades dos personagens. Dada a complexidade da visualização de histórias, os métodos existentes simplificam drasticamente o problema ao considerar apenas alguns personagens e cenários específicos, ou exigindo que os usuários forneçam condições de controle por imagem, como esboços. No entanto, essas simplificações tornam esses métodos inadequados para aplicações reais. Para isso, propomos um sistema automatizado de visualização de histórias que pode gerar de forma eficaz conjuntos de imagens diversificados, de alta qualidade e consistentes, com interações humanas mínimas. Especificamente, utilizamos as capacidades de compreensão e planejamento de modelos de linguagem de grande escala para o planejamento de layout e, em seguida, aproveitamos modelos de texto para imagem em grande escala para gerar imagens sofisticadas da história com base no layout. Empiricamente, descobrimos que condições de controle esparsas, como caixas delimitadoras, são adequadas para o planejamento de layout, enquanto condições de controle densas, como esboços e pontos-chave, são adequadas para gerar conteúdo de imagem de alta qualidade. Para obter o melhor dos dois mundos, desenvolvemos um módulo de geração de condições densas para transformar layouts simples de caixas delimitadoras em condições de controle de esboço ou pontos-chave para a geração final de imagens, o que não apenas melhora a qualidade da imagem, mas também permite interações fáceis e intuitivas do usuário. Além disso, propomos um método simples, porém eficaz, para gerar imagens de personagens consistentes em múltiplas visões, eliminando a dependência de trabalho humano para coletar ou desenhar imagens de personagens.
Desde as antigas rodas d'água até a automação de processos robóticos (RPA), a tecnologia de automação evoluiu ao longo da história para libertar os seres humanos de tarefas árduas. No entanto, a RPA enfrenta dificuldades com tarefas que exigem inteligência semelhante à humana, especialmente no design elaborado da construção de fluxos de trabalho e na tomada de decisões dinâmicas durante a execução desses fluxos. Com o surgimento dos Modelos de Linguagem de Grande Escala (LLMs) que apresentam inteligência semelhante à humana, este artigo introduz a Automação de Processos Agênticos (APA), um paradigma revolucionário de automação que utiliza agentes baseados em LLMs para automação avançada, transferindo o trabalho humano para agentes associados à construção e execução. Em seguida, instanciamos o ProAgent, um agente baseado em LLM projetado para criar fluxos de trabalho a partir de instruções humanas e tomar decisões complexas coordenando agentes especializados. Experimentos empíricos são conduzidos para detalhar seu procedimento de construção e execução de fluxos de trabalho, demonstrando a viabilidade da APA e revelando a possibilidade de um novo paradigma de automação impulsionado por agentes. Nosso código está disponível publicamente em https://github.com/OpenBMB/ProAgent.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram proficiência na resolução de tarefas que exigem uma combinação de planejamento de tarefas e o uso de ferramentas externas, como APIs. No entanto, sistemas complexos do mundo real apresentam três desafios prevalentes em relação ao planejamento de tarefas e ao uso de ferramentas: (1) O sistema real geralmente possui uma vasta gama de APIs, tornando impossível fornecer as descrições de todas as APIs no prompt dos LLMs, já que o comprimento dos tokens é limitado; (2) o sistema real é projetado para lidar com tarefas complexas, e os LLMs básicos dificilmente conseguem planejar uma ordem correta de subtarefas e chamadas de API para tais tarefas; (3) Semânticas e funcionalidades semelhantes entre as APIs em sistemas reais criam desafios tanto para os LLMs quanto até mesmo para humanos em distingui-las. Em resposta, este artigo introduz um framework abrangente voltado para aprimorar as habilidades de Planejamento de Tarefas e Uso de Ferramentas (TPTU) de agentes baseados em LLMs que operam em sistemas do mundo real. Nosso framework compreende três componentes principais projetados para abordar esses desafios: (1) o API Retriever seleciona as APIs mais pertinentes para a tarefa do usuário entre a extensa gama disponível; (2) o LLM Finetuner ajusta um LLM básico para que o LLM ajustado seja mais capaz de planejar tarefas e chamar APIs; (3) o Demo Selector recupera adaptativamente diferentes demonstrações relacionadas a APIs difíceis de distinguir, que são posteriormente usadas para aprendizado em contexto para impulsionar o desempenho final. Validamos nossos métodos utilizando um sistema comercial do mundo real, bem como um conjunto de dados acadêmico de código aberto, e os resultados demonstram claramente a eficácia de cada componente individual, bem como do framework integrado.
O cenário atual de pesquisa que utiliza grandes modelos de linguagem (LLMs, na sigla em inglês) está passando por um crescimento significativo. Muitos trabalhos aproveitam as poderosas capacidades de raciocínio desses modelos para compreender várias modalidades, como texto, fala, imagens, vídeos, entre outros. Eles também utilizam LLMs para entender a intenção humana e gerar saídas desejadas, como imagens, vídeos e música. No entanto, pesquisas que combinam tanto a compreensão quanto a geração usando LLMs ainda são limitadas e estão em estágio inicial. Para abordar essa lacuna, introduzimos um framework de Compreensão e Geração de Música Multimodal (M^{2}UGen) que integra as habilidades dos LLMs para compreender e gerar música em diferentes modalidades. O framework M^{2}UGen foi projetado especificamente para desbloquear o potencial criativo a partir de diversas fontes de inspiração, abrangendo música, imagem e vídeo, por meio do uso dos modelos pré-treinados MERT, ViT e ViViT, respectivamente. Para possibilitar a geração de música, exploramos o uso do AudioLDM 2 e do MusicGen. A ponte entre a compreensão multimodal e a geração de música é realizada por meio da integração do modelo LLaMA 2. Além disso, utilizamos o modelo MU-LLaMA para gerar extensos conjuntos de dados que suportam a geração de música a partir de texto/imagem/vídeo, facilitando o treinamento do nosso framework M^{2}UGen. Realizamos uma avaliação detalhada do framework proposto. Os resultados experimentais demonstram que nosso modelo alcança ou supera o desempenho dos modelos state-of-the-art atuais.
Apresentamos um pipeline que aprimora um Modelo de Linguagem Visual de propósito geral, GPT-4V(ision), ao integrar observações de ações humanas para facilitar a manipulação robótica. Este sistema analisa vídeos de humanos realizando tarefas e cria programas robóticos executáveis que incorporam insights de affordance. A computação começa analisando os vídeos com o GPT-4V para converter detalhes ambientais e de ação em texto, seguido por um planejador de tarefas capacitado pelo GPT-4. Nas análises subsequentes, sistemas de visão reanalisam o vídeo com o plano de tarefa. Os nomes dos objetos são fundamentados usando um detector de objetos de vocabulário aberto, enquanto o foco na relação mão-objeto ajuda a detectar o momento de agarrar e soltar. Esse fundamento espaço-temporal permite que os sistemas de visão coletem dados adicionais de affordance (por exemplo, tipo de agarramento, pontos de trajetória e posturas corporais). Experimentos em vários cenários demonstram a eficácia desse método na realização de operações de robôs reais a partir de demonstrações humanas de maneira zero-shot. Os prompts do GPT-4V/GPT-4 estão disponíveis na página do projeto: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/