Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Florence-2, um novo modelo de base visual com uma representação unificada baseada em prompts para uma variedade de tarefas de visão computacional e visão-linguagem. Embora os grandes modelos visuais existentes se destaquem no aprendizado por transferência, eles têm dificuldade em realizar uma diversidade de tarefas com instruções simples, uma capacidade que implica lidar com a complexidade de várias hierarquias espaciais e granularidades semânticas. O Florence-2 foi projetado para receber prompts de texto como instruções de tarefa e gerar resultados desejáveis em forma de texto, seja em legendagem, detecção de objetos, localização ou segmentação. Essa configuração de aprendizado multitarefa exige dados anotados em grande escala e de alta qualidade. Para isso, co-desenvolvemos o FLD-5B, que consiste em 5,4 bilhões de anotações visuais abrangentes em 126 milhões de imagens, utilizando uma estratégia iterativa de anotação automática de imagens e refinamento do modelo. Adotamos uma estrutura de sequência para sequência para treinar o Florence-2 a realizar tarefas visuais versáteis e abrangentes. Avaliações extensas em diversas tarefas demonstraram que o Florence-2 é um forte candidato a modelo de base visual, com capacidades inéditas de zero-shot e ajuste fino.
Alcançar planejamento e controle semelhantes aos humanos com observações multimodais em um mundo aberto é um marco fundamental para agentes generalistas mais funcionais. As abordagens existentes conseguem lidar com certas tarefas de longo prazo em um mundo aberto. No entanto, elas ainda enfrentam dificuldades quando o número de tarefas no mundo aberto pode ser potencialmente infinito e carecem da capacidade de aprimorar progressivamente a conclusão de tarefas à medida que o tempo do jogo avança. Apresentamos o JARVIS-1, um agente de mundo aberto que pode perceber entradas multimodais (observações visuais e instruções humanas), gerar planos sofisticados e realizar controle incorporado, tudo dentro do popular e desafiador universo aberto do Minecraft. Especificamente, desenvolvemos o JARVIS-1 com base em modelos de linguagem multimodal pré-treinados, que mapeiam observações visuais e instruções textuais para planos. Os planos serão finalmente enviados para controladores condicionados por objetivos. Equipamos o JARVIS-1 com uma memória multimodal, que facilita o planejamento usando tanto o conhecimento pré-treinado quanto suas experiências reais de sobrevivência no jogo. Em nossos experimentos, o JARVIS-1 exibe desempenhos quase perfeitos em mais de 200 tarefas variadas do Minecraft Universe Benchmark, variando de níveis iniciais a intermediários. O JARVIS-1 alcançou uma taxa de conclusão de 12,5% na tarefa de longo prazo de obter uma picareta de diamante. Isso representa um aumento significativo de até 5 vezes em comparação com os registros anteriores. Além disso, mostramos que o JARVIS-1 é capaz de se autoaperfeiçoar seguindo um paradigma de aprendizado contínuo, graças à memória multimodal, despertando uma inteligência mais geral e uma autonomia aprimorada. A página do projeto está disponível em https://craftjarvis-jarvis1.github.io.
Text-to-3D com modelos de difusão tem alcançado progressos notáveis nos últimos anos. No entanto, os métodos existentes ou dependem de otimização baseada em destilação de pontuação, que sofrem com inferência lenta, baixa diversidade e problemas de Janus, ou são métodos feed-forward que geram resultados de baixa qualidade devido à escassez de dados de treinamento 3D. Neste artigo, propomos o Instant3D, um método novo que gera ativos 3D de alta qualidade e diversificados a partir de prompts de texto de maneira feed-forward. Adotamos um paradigma de dois estágios, que primeiro gera um conjunto esparso de quatro vistas estruturadas e consistentes a partir do texto em uma única passagem com um modelo de difusão 2D text-to-image ajustado, e então regride diretamente o NeRF a partir das imagens geradas com um reconstrutor baseado em transformer para vistas esparsas. Através de extensos experimentos, demonstramos que nosso método pode gerar ativos 3D de alta qualidade, diversificados e livres de Janus em até 20 segundos, o que é duas ordens de magnitude mais rápido do que os métodos baseados em otimização anteriores, que podem levar de 1 a 10 horas. Nossa página do projeto: https://jiahao.ai/instant3d/.
Apresentamos o Lumos, um novo framework para treinar agentes de linguagem que emprega um formato de dados unificado e uma arquitetura modular baseada em modelos de linguagem de grande escala (LLMs) de código aberto. O Lumos consiste em três módulos distintos: planejamento, fundamentação e execução. O módulo de planejamento divide uma tarefa em uma série de subobjetivos de alto nível, independentes de ferramentas, que são então especificados pelo módulo de fundamentação por meio de um conjunto de ações de baixo nível. Essas ações são subsequentemente executadas pelo módulo de execução, utilizando uma variedade de ferramentas e APIs prontas para uso. Para treinar esses módulos de forma eficaz, anotações de alta qualidade de subobjetivos e ações foram coletadas e estão disponíveis para ajuste fino de LLMs de código aberto para diversas tarefas, como respostas a perguntas complexas, tarefas na web e problemas matemáticos. Aproveitando esses dados unificados e o design modular, o Lumos não apenas alcança desempenho comparável ou superior aos agentes mais avançados atuais, mas também exibe várias vantagens-chave: (1) O Lumos supera agentes baseados em GPT-4/3.5 em tarefas de resposta a perguntas complexas e na web, enquanto iguala o desempenho de agentes LLMs significativamente maiores em tarefas matemáticas; (2) O Lumos supera agentes de código aberto criados por métodos convencionais de treinamento e aqueles que utilizam treinamento de cadeia de pensamentos; e (3) O Lumos é capaz de generalizar efetivamente para tarefas interativas não vistas, superando agentes baseados em LLMs maiores e até mesmo excedendo o desempenho de agentes especializados.
Modelos de linguagem de grande escala (LLMs) se destacam em muitas tarefas de PLN e além, mas a maioria dos modelos abertos tem uma cobertura muito limitada de idiomas menores, e o trabalho com LLMs tende a se concentrar em idiomas onde há dados quase ilimitados disponíveis para pré-treinamento. Neste trabalho, estudamos os desafios de criar LLMs para o finlandês, um idioma falado por menos de 0,1% da população mundial. Compilamos um extenso conjunto de dados em finlandês, combinando rastreamentos da web, notícias, mídias sociais e e-books. Seguimos duas abordagens para pré-treinar modelos: 1) treinamos sete modelos monolíngues do zero (com 186M a 13B parâmetros), chamados FinGPT, e 2) continuamos o pré-treinamento do modelo multilíngue BLOOM com uma mistura de seus dados de treinamento originais e dados em finlandês, resultando em um modelo de 176 bilhões de parâmetros que chamamos de BLUUMI. Para avaliação dos modelos, introduzimos o FIN-bench, uma versão do BIG-bench com tarefas em finlandês. Também avaliamos outras qualidades dos modelos, como toxicidade e viés. Nossos modelos e ferramentas estão disponíveis publicamente em https://turkunlp.org/gpt3-finnish.
A engenharia de prompts é uma tarefa desafiadora, porém crucial, para otimizar o desempenho de modelos de linguagem de grande escala (LLMs, na sigla em inglês). Ela requer raciocínio complexo para analisar os erros do modelo, formular hipóteses sobre o que está faltando ou sendo mal interpretado no prompt atual e comunicar a tarefa com clareza. Embora trabalhos recentes indiquem que LLMs podem ser meta-promptados para realizar engenharia de prompts automática, seu potencial pode não estar totalmente explorado devido à falta de orientação suficiente para eliciar capacidades de raciocínio complexo nos LLMs no meta-prompt. Neste trabalho, investigamos o problema de "engenharia de prompts para um engenheiro de prompts" — a construção de um meta-prompt que orienta os LLMs de forma mais eficaz para realizar engenharia de prompts automática. Introduzimos e analisamos componentes-chave, como um modelo de raciocínio passo a passo e especificação de contexto, que levam a um desempenho aprimorado. Além disso, inspirados por conceitos comuns de otimização, como tamanho do lote, tamanho do passo e momento, introduzimos suas contrapartes verbalizadas no meta-prompt e investigamos seus efeitos. Nosso método final, denominado PE2, encontra um prompt que supera "vamos pensar passo a passo" em 6,3% no conjunto de dados MultiArith e 3,1% no conjunto de dados GSM8K. Para demonstrar sua versatilidade, aplicamos o PE2 ao benchmark de Indução de Instruções, a um conjunto de tarefas contrafactuais e a um prompt industrial longo e do mundo real. Nessas configurações, o PE2 alcança um desempenho robusto e supera as linhas de base anteriores de engenharia de prompts automática. Além disso, mostramos que o PE2 faz edições de prompts significativas e direcionadas, corrige prompts errôneos ou incompletos e apresenta habilidades não triviais de raciocínio contrafactual.
O raciocínio lógico é um aspecto fundamental da inteligência humana e um componente chave de tarefas como resolução de problemas e tomada de decisões. Avanços recentes permitiram que Modelos de Linguagem de Grande Escala (LLMs) potencialmente exibissem capacidades de raciocínio, mas o raciocínio lógico complexo continua sendo um desafio. O estado da arte, modelos de linguagem aumentados por solucionadores, utiliza LLMs para analisar questões lógicas em linguagem natural em representações simbólicas primeiro e, em seguida, adota solucionadores lógicos externos para processar as representações simbólicas e gerar as respostas. Apesar de seu desempenho impressionante, qualquer erro de análise inevitavelmente resultará na falha da execução do solucionador lógico externo e na ausência de resposta para as questões lógicas. Neste artigo, apresentamos o LoGiPT, um novo modelo de linguagem que emula diretamente os processos de raciocínio dos solucionadores lógicos e contorna os erros de análise ao aprender a aderir estritamente à sintaxe e gramática dos solucionadores. O LoGiPT é ajustado em um novo conjunto de dados de ajuste de instruções construído a partir da revelação e refinamento do processo de raciocínio invisível de solucionadores dedutivos. Resultados experimentais em dois conjuntos de dados públicos de raciocínio dedutivo demonstram que o LoGiPT supera os modelos de linguagem aumentados por solucionadores de última geração e métodos de prompt de poucos exemplos em LLMs competitivos como ChatGPT ou GPT-4.
Modelos de base grandes estão se tornando onipresentes, mas treiná-los do zero é proibitivamente caro. Portanto, adaptar de forma eficiente esses modelos poderosos para tarefas subsequentes é cada vez mais importante. Neste artigo, estudamos um paradigma de ajuste fino fundamentado -- Ajuste Fino Ortogonal (OFT) -- para adaptação a tarefas subsequentes. Apesar de demonstrar boa generalização, o OFT ainda utiliza um número considerável de parâmetros treináveis devido à alta dimensionalidade das matrizes ortogonais. Para abordar isso, começamos examinando o OFT a partir de uma perspectiva de transmissão de informação e, em seguida, identificamos alguns requisitos-chave que permitem uma melhor eficiência de parâmetros. Inspirados pela forma como o algoritmo de transformada rápida de Fourier de Cooley-Tukey permite uma transmissão eficiente de informação, propomos uma parametrização ortogonal eficiente usando estruturas de borboleta. Aplicamos essa parametrização ao OFT, criando um novo método de ajuste fino eficiente em parâmetros, chamado Borboleta Ortogonal (BOFT). Ao englobar o OFT como um caso especial, o BOFT introduz uma estrutura generalizada de ajuste fino ortogonal. Por fim, realizamos um estudo empírico extenso de adaptação de grandes transformadores de visão, grandes modelos de linguagem e modelos de difusão de texto para imagem a várias tarefas subsequentes em visão e linguagem.
Modelos convolucionais com filtros longos demonstraram capacidades de raciocínio de última geração em muitas tarefas de sequências longas, mas ficam atrás dos Transformers mais otimizados em termos de tempo de execução. Um grande gargalo é a Transformada Rápida de Fourier (FFT) - que permite que convoluções longas sejam executadas em tempo O(N logN) para uma sequência de comprimento N, mas tem baixa utilização de hardware. Neste artigo, estudamos como otimizar a convolução FFT. Identificamos dois gargalos principais: a FFT não utiliza efetivamente unidades especializadas de multiplicação de matrizes, e incorre em operações de I/O caras entre as camadas da hierarquia de memória. Em resposta, propomos o FlashFFTConv. O FlashFFTConv utiliza uma decomposição matricial que calcula a FFT usando unidades de multiplicação de matrizes e permite a fusão de kernels para sequências longas, reduzindo o I/O. Também apresentamos dois algoritmos de convolução esparsa - 1) convoluções parciais e 2) convoluções esparsas em frequência - que podem ser implementados simplesmente pulando blocos na decomposição matricial, permitindo mais oportunidades de economia de memória e computação. O FlashFFTConv acelera convoluções FFT exatas em até 7,93 vezes em relação ao PyTorch e alcança um ganho de velocidade de até 4,4 vezes de ponta a ponta. Com o mesmo orçamento de computação, o FlashFFTConv permite que o Hyena-GPT-s alcance 2,3 pontos a menos de perplexidade no PILE e que o M2-BERT-base alcance 3,3 pontos a mais no GLUE score - igualando modelos com o dobro do número de parâmetros. O FlashFFTConv também alcança 96,1% de precisão no Path-512, uma tarefa de visão de alta resolução onde nenhum modelo havia alcançado anteriormente mais de 50%. Além disso, as convoluções parciais permitem modelos de sequências mais longas - produzindo o primeiro modelo de DNA que pode processar os genes humanos mais longos (2,3 milhões de pares de bases) - e as convoluções esparsas em frequência aceleram modelos pré-treinados enquanto mantêm ou melhoram a qualidade do modelo.
Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais utilizados para tarefas interativas de tomada de decisão que exigem planejamento e adaptação ao ambiente. Trabalhos recentes empregam LLMs como agentes de duas maneiras principais: determinando iterativamente a próxima ação (executores iterativos) ou gerando planos e executando sub-tarefas usando LLMs (planejar-e-executar). No entanto, esses métodos enfrentam dificuldades com a complexidade das tarefas, pois a incapacidade de executar qualquer sub-tarefa pode levar à falha da tarefa. Para abordar essas limitações, introduzimos a Decomposição e Planejamento Conforme Necessário para Tarefas Complexas (ADaPT), uma abordagem que planeja e decompõe explicitamente sub-tarefas complexas conforme necessário, ou seja, quando o LLM não consegue executá-las. O ADaPT decompõe recursivamente sub-tarefas para se adaptar tanto à complexidade da tarefa quanto à capacidade do LLM. Nossos resultados demonstram que o ADaPT supera substancialmente as linhas de base estabelecidas, alcançando taxas de sucesso até 28,3% maiores no ALFWorld, 27% no WebShop e 33% no TextCraft -- um novo conjunto de dados composicional que introduzimos. Por meio de uma análise extensa, ilustramos a importância da decomposição multinível e estabelecemos que o ADaPT ajusta-se dinamicamente às capacidades do LLM executor, bem como à complexidade da tarefa.
Um dos principais desafios da aprendizagem multimodal é a necessidade de combinar modalidades heterogêneas (por exemplo, vídeo, áudio, texto). Por exemplo, vídeo e áudio são obtidos em taxas muito mais altas do que o texto e estão aproximadamente alinhados no tempo. Eles frequentemente não estão sincronizados com o texto, que vem como um contexto global, por exemplo, um título ou uma descrição. Além disso, as entradas de vídeo e áudio têm volumes muito maiores e aumentam conforme a duração do vídeo cresce, o que naturalmente requer mais capacidade computacional dedicada a essas modalidades e torna a modelagem de dependências de longo alcance mais difícil. Aqui, desacoplamos a modelagem multimodal, dividindo-a em modelos autorregressivos separados e focados, processando as entradas de acordo com as características das modalidades. Propomos um modelo multimodal, chamado Mirasol3B, composto por um componente autorregressivo para as modalidades sincronizadas no tempo (áudio e vídeo) e um componente autorregressivo para as modalidades de contexto, que não estão necessariamente alinhadas no tempo, mas ainda são sequenciais. Para lidar com as sequências longas das entradas de vídeo e áudio, propomos particionar ainda mais as sequências de vídeo e áudio em trechos consecutivos e processar suas representações de forma autorregressiva. Para isso, propomos um mecanismo Combiner, que modela as informações de áudio e vídeo conjuntamente dentro de um intervalo de tempo. O Combiner aprende a extrair características de áudio e vídeo a partir de sinais espaço-temporais brutos e, em seguida, aprende a fundir essas características, produzindo representações compactas, mas expressivas, por trecho. Nossa abordagem alcança o estado da arte em benchmarks multimodais bem estabelecidos, superando modelos muito maiores. Ela aborda efetivamente a alta demanda computacional das entradas de mídia, tanto aprendendo representações compactas, controlando o comprimento da sequência das representações de características de áudio e vídeo, quanto modelando suas dependências no tempo.
Tarefas de predição densa, como segmentação semântica, estimativa de profundidade e predição de normais de superfície, podem ser facilmente formuladas como classificação por pixel (saídas discretas) ou regressão (saídas contínuas). Esse paradigma de predição por pixel permanece popular devido à prevalência de redes totalmente convolucionais. No entanto, na fronteira recente da tarefa de segmentação, a comunidade tem testemunhado uma mudança de paradigma, da predição por pixel para a predição por cluster, com o surgimento de arquiteturas de transformadores, particularmente os transformadores de máscara, que preveem diretamente um rótulo para uma máscara em vez de um pixel. Apesar dessa mudança, métodos baseados no paradigma de predição por pixel ainda dominam os benchmarks em outras tarefas de predição densa que exigem saídas contínuas, como estimativa de profundidade e predição de normais de superfície. Motivados pelo sucesso de DORN e AdaBins na estimativa de profundidade, alcançado pela discretização do espaço de saída contínuo, propomos generalizar o método baseado em predição por cluster para tarefas gerais de predição densa. Isso nos permite unificar tarefas de predição densa com o framework de transformadores de máscara. Notavelmente, o modelo resultante, PolyMaX, demonstra desempenho de última geração em três benchmarks do conjunto de dados NYUD-v2. Esperamos que nosso design simples, porém eficaz, inspire mais pesquisas sobre a exploração de transformadores de máscara para mais tarefas de predição densa. O código e o modelo serão disponibilizados.
A aprendizagem de interações entre características é o pilar fundamental para a construção de sistemas de recomendação. Em aplicações de escala web, aprender essas interações é extremamente desafiador devido ao espaço esparso e amplo das características de entrada; além disso, a criação manual de interações eficazes é inviável devido ao espaço exponencial de soluções. Propomos utilizar uma arquitetura baseada em Transformer com camadas de atenção para capturar automaticamente as interações entre características. As arquiteturas Transformer têm obtido grande sucesso em diversos domínios, como processamento de linguagem natural e visão computacional. No entanto, ainda há pouca adoção da arquitetura Transformer para modelagem de interações de características na indústria. Nosso objetivo é preencher essa lacuna. Identificamos dois desafios principais para aplicar a arquitetura Transformer padrão em sistemas de recomendação de escala web: (1) a arquitetura Transformer falha em capturar as interações heterogêneas de características na camada de autoatenção; (2) a latência de serviço da arquitetura Transformer pode ser muito alta para ser implantada em sistemas de recomendação de escala web. Primeiro, propomos uma camada de autoatenção heterogênea, uma modificação simples, porém eficaz, na camada de autoatenção do Transformer, para considerar a heterogeneidade das interações de características. Em seguida, introduzimos o Hiformer (Transformer de Interação Heterogênea) para melhorar ainda mais a expressividade do modelo. Com aproximação de baixo posto e poda de modelo, o Hiformer oferece inferência rápida para implantação online. Resultados extensivos de experimentos offline corroboram a eficácia e eficiência do modelo Hiformer. Implantamos com sucesso o modelo Hiformer em um sistema de classificação de aplicativos em larga escala do Google Play, com melhorias significativas nas métricas-chave de engajamento (até +2,66%).
O modelo Transformer tem ganhado ampla adoção em tarefas de visão computacional nos últimos tempos. No entanto, devido à complexidade quadrática de tempo e memória da autoatenção, que é proporcional ao número de tokens de entrada, a maioria dos Vision Transformers (ViTs) existentes enfrenta desafios para alcançar desempenho eficiente em cenários práticos de implantação industrial, como TensorRT e CoreML, onde as CNNs tradicionais se destacam. Embora algumas tentativas recentes tenham sido feitas para projetar arquiteturas híbridas CNN-Transformer para resolver esse problema, seu desempenho geral não atendeu às expectativas. Para enfrentar esses desafios, propomos uma arquitetura híbrida eficiente de ViT chamada FMViT. Essa abordagem aumenta o poder expressivo do modelo ao combinar características de alta frequência e baixa frequência com diferentes frequências, permitindo que ele capture informações locais e globais de forma eficaz. Além disso, introduzimos mecanismos amigáveis à implantação, como Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) e Convolutional Fusion Block (CFB), para melhorar ainda mais o desempenho do modelo e reduzir a sobrecarga computacional. Nossos experimentos demonstram que o FMViT supera as CNNs, ViTs e arquiteturas híbridas CNN-Transformer existentes em termos de compensação entre latência e precisão para várias tarefas de visão. Na plataforma TensorRT, o FMViT supera o Resnet101 em 2,5% (83,3% vs. 80,8%) na precisão top-1 no conjunto de dados ImageNet, mantendo uma latência de inferência semelhante. Além disso, o FMViT alcança desempenho comparável ao EfficientNet-B5, mas com uma melhoria de 43% na velocidade de inferência. No CoreML, o FMViT supera o MobileOne em 2,6% na precisão top-1 no conjunto de dados ImageNet, com latência de inferência comparável ao MobileOne (78,5% vs. 75,9%). Nosso código pode ser encontrado em https://github.com/tany0699/FMViT.