Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) treinados em corpora de domínio geral demonstraram resultados notáveis em tarefas de processamento de linguagem natural (NLP). No entanto, pesquisas anteriores mostraram que LLMs treinados com corpora focados em domínios específicos têm desempenho superior em tarefas especializadas. Inspirados por essa percepção fundamental, desenvolvemos o INDUS, um conjunto abrangente de LLMs projetados para os domínios de ciências da Terra, biologia, física, heliofísica, ciências planetárias e astrofísica, treinados com corpora científicos curados provenientes de diversas fontes de dados. O conjunto de modelos inclui: (1) um modelo codificador treinado com vocabulário e corpora específicos do domínio para abordar tarefas de compreensão de linguagem natural, (2) um modelo de incorporação de texto geral baseado em aprendizado contrastivo, treinado com um conjunto diversificado de conjuntos de dados extraídos de múltiplas fontes para abordar tarefas de recuperação de informação, e (3) versões menores desses modelos criadas usando técnicas de destilação de conhecimento para atender aplicações com restrições de latência ou recursos. Também criamos três novos conjuntos de dados de referência científica, denominados CLIMATE-CHANGE-NER (reconhecimento de entidades), NASA-QA (QA extrativo) e NASA-IR (IR), para acelerar a pesquisa nesses campos multidisciplinares. Por fim, demonstramos que nossos modelos superam tanto codificadores de propósito geral (RoBERTa) quanto codificadores específicos de domínio existentes (SciBERT) nessas novas tarefas, bem como em tarefas de referência existentes nos domínios de interesse.
O alto consumo de memória tem sido um grande gargalo para a implantação de modelos de linguagem de grande escala com alta taxa de transferência em aplicações do mundo real. Além do grande número de parâmetros, o cache de chave-valor (KV) para o mecanismo de atenção na arquitetura transformer consome uma quantidade significativa de memória, especialmente quando o número de camadas é grande em modelos de linguagem profundos. Neste artigo, propomos um método inovador que calcula e armazena em cache os KVs de apenas um pequeno número de camadas, economizando significativamente o consumo de memória e melhorando a taxa de transferência na inferência. Nossos experimentos com modelos de linguagem de grande escala mostram que nosso método alcança até 26 vezes mais taxa de transferência do que transformers padrão e desempenho competitivo em modelagem de linguagem e tarefas subsequentes. Além disso, nosso método é ortogonal às técnicas existentes de economia de memória em transformers, portanto, é simples integrá-las ao nosso modelo, alcançando uma melhoria adicional na eficiência da inferência. Nosso código está disponível em https://github.com/whyNLP/LCKV.
Compreender como o desempenho dos modelos de linguagem varia com a escala é crucial para o desenvolvimento de benchmarks e algoritmos. As leis de escalonamento são uma abordagem para construir esse entendimento, mas a necessidade de treinar modelos em várias escalas diferentes limitou seu uso. Propomos uma abordagem alternativa, observacional, que contorna o treinamento de modelos e, em vez disso, constrói leis de escalonamento a partir de ~80 modelos publicamente disponíveis. Construir uma única lei de escalonamento a partir de múltiplas famílias de modelos é desafiador devido às grandes variações em suas eficiências e capacidades de computação de treinamento. No entanto, mostramos que essas variações são consistentes com uma lei de escalonamento generalizada e simples, onde o desempenho do modelo de linguagem é uma função de um espaço de capacidades de baixa dimensionalidade, e as famílias de modelos variam apenas em sua eficiência em converter computação de treinamento em capacidades. Usando essa abordagem, mostramos a surpreendente previsibilidade de fenômenos complexos de escalonamento: mostramos que vários fenômenos emergentes seguem um comportamento suave e sigmoidal e são previsíveis a partir de modelos pequenos; mostramos que o desempenho de agentes de modelos como o GPT-4 pode ser previsto com precisão a partir de benchmarks não agentes mais simples; e mostramos como prever o impacto de intervenções pós-treinamento, como Chain-of-Thought e Self-Consistency, à medida que as capacidades dos modelos de linguagem continuam a melhorar.
Estudos anteriores sobre compreensão de cenas 3D desenvolveram principalmente modelos especializados para tarefas específicas ou exigiram ajustes finos específicos para cada tarefa. Neste estudo, propomos o Grounded 3D-LLM, que explora o potencial dos grandes modelos multimodais 3D (3D LMMs) para consolidar várias tarefas de visão 3D em um framework generativo unificado. O modelo utiliza tokens de referência de cena como frases nominais especiais para referenciar cenas 3D, permitindo o processamento de sequências que intercalam dados 3D e textuais. Ele oferece uma abordagem natural para traduzir tarefas de visão 3D em formatos de linguagem usando modelos de instrução específicos para cada tarefa. Para facilitar o uso de tokens de referência na modelagem de linguagem subsequente, organizamos grandes conjuntos de dados de linguagem fundamentada que oferecem correspondência mais detalhada entre cena e texto no nível de frases, aproveitando rótulos de objetos existentes. Posteriormente, introduzimos o Pré-treinamento Contrastivo de Linguagem-Cena (CLASP) para aproveitar efetivamente esses dados, integrando assim a visão 3D com modelos de linguagem. Nossa avaliação abrangente cobre tarefas de resposta aberta, como legendagem densa e QA 3D, juntamente com tarefas de resposta fechada, como detecção de objetos e fundamentação de linguagem. Experimentos em vários benchmarks 3D revelam o desempenho líder e a ampla aplicabilidade do Grounded 3D-LLM. Códigos e conjuntos de dados serão disponibilizados na página do projeto: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
Os Modelos de Linguagem de Grande Escala (LLMs) têm ganhado atenção significativa no campo de processamento de linguagem natural (NLP) devido à sua ampla gama de aplicações. No entanto, o treinamento de LLMs para idiomas diferentes do inglês apresenta desafios consideráveis, principalmente devido à dificuldade em adquirir corpora em grande escala e os recursos computacionais necessários. Neste artigo, propomos o ChatFlow, um LLM baseado em transferência de linguagem cruzada, para abordar esses desafios e treinar modelos de linguagem chinesa de grande escala de forma econômica. Empregamos uma mistura de corpora em chinês, inglês e paralelos para treinar continuamente o modelo LLaMA2, com o objetivo de alinhar representações de linguagem cruzada e facilitar a transferência de conhecimento especificamente para o modelo de linguagem chinesa. Além disso, utilizamos um amostrador dinâmico de dados para transicionar progressivamente o modelo do pré-treinamento não supervisionado para o ajuste fino supervisionado. Os resultados experimentais demonstram que nossa abordagem acelera a convergência do modelo e alcança um desempenho superior. Avaliamos o ChatFlow em benchmarks populares de chinês e inglês, e os resultados indicam que ele supera outros modelos chineses pós-treinados no LLaMA-2-7B.