Artigos de pesquisa em IA selecionados diariamente com traduções
Descrevemos o desenvolvimento e as capacidades do Meltemi 7B, o primeiro Modelo de Linguagem Grande aberto para a língua grega. O Meltemi 7B possui 7 bilhões de parâmetros e é treinado em um corpus grego de 40 bilhões de tokens. Para o desenvolvimento do Meltemi 7B, adaptamos o Mistral, por meio de pré-treinamento contínuo no Corpus Grego. O Meltemi 7B contém informações atualizadas até setembro de 2023. Além disso, traduzimos e organizamos um corpus de instruções gregas, que foi utilizado para o ajuste de instruções de um modelo de chat, chamado Meltemi 7B Instruct. Foi dada atenção especial ao alinhamento e à remoção de conteúdo tóxico para o Meltemi 7B Instruct. Os modelos desenvolvidos são avaliados em um amplo conjunto de corpora de avaliação coletados, e exemplos de estímulos e respostas são apresentados. Tanto o Meltemi 7B quanto o Meltemi 7B Instruct estão disponíveis em https://huggingface.co/ilsp sob a licença Apache 2.0.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o campo do processamento de linguagem natural, alcançando um desempenho sem precedentes em uma variedade de aplicações, aproveitando tamanhos de modelo maiores e comprimentos de sequência aumentados. No entanto, o aumento associado nos custos computacionais e de memória apresenta desafios significativos, especialmente na gestão de sequências longas devido à complexidade quadrática do mecanismo de atenção do transformador. Este artigo concentra-se no cenário de longo contexto, abordando as ineficiências no consumo de memória cache KV durante a inferência. Ao contrário das abordagens existentes que otimizam a memória com base nos comprimentos das sequências, descobrimos que a dimensão do canal do cache KV apresenta uma redundância significativa, caracterizada por uma distribuição de magnitude desequilibrada e uma estrutura de baixa classificação nos pesos de atenção. Com base nessas observações, propomos o ThinK, um novo método de poda de cache KV dependente de consulta projetado para minimizar a perda de peso de atenção enquanto poda seletivamente os canais menos significativos. Nossa abordagem não apenas mantém ou aprimora a precisão do modelo, mas também alcança uma redução nos custos de memória em mais de 20% em comparação com métodos convencionais de evicção de cache KV. Avaliações extensivas nos modelos LLaMA3 e Mistral em vários conjuntos de dados de sequências longas confirmam a eficácia do ThinK, estabelecendo um novo precedente para a implantação eficiente de LLM sem comprometer o desempenho. Também delineamos o potencial de estender nosso método para a poda de cache de valor, demonstrando a versatilidade e ampla aplicabilidade do ThinK na redução tanto dos custos de memória quanto dos custos computacionais.
Metodologias de pré-treinamento em larga escala para modelos de linguagem química representam um avanço na quimioinformática. Esses métodos se destacam em tarefas como previsão de propriedades e geração de moléculas ao aprender representações contextualizadas de tokens de entrada por meio de aprendizado auto-supervisionado em grandes corpora não rotulados. Tipicamente, isso envolve pré-treinamento em dados não rotulados seguido por ajustes finos em tarefas específicas, reduzindo a dependência de conjuntos de dados anotados e ampliando a compreensão da representação da linguagem química. Este artigo apresenta modelos de base química codificador-decodificador em larga escala pré-treinados em um conjunto de dados curado de 91 milhões de amostras SMILES obtidas do PubChem, equivalente a 4 bilhões de tokens moleculares. O modelo de base proposto suporta diferentes tarefas complexas, incluindo previsão de propriedades quânticas, e oferece flexibilidade com duas variantes principais (289M e 8vezes289M). Nossos experimentos em múltiplos conjuntos de dados de referência validam a capacidade do modelo proposto em fornecer resultados de ponta para diferentes tarefas. Também fornecemos uma avaliação preliminar da composicionalidade do espaço de incorporação como um pré-requisito para as tarefas de raciocínio. Demonstramos que o espaço latente produzido é separável em comparação com o estado da arte, com capacidades de aprendizado com poucas amostras.
À medida que os modelos de linguagem grandes (LLMs) são cada vez mais integrados aos fluxos operacionais (LLM-Ops), há uma necessidade urgente de diretrizes eficazes para garantir interações seguras e alinhadas, incluindo a capacidade de detectar conteúdo potencialmente inseguro ou inadequado em diferentes idiomas. No entanto, os classificadores seguros para o ambiente de trabalho existentes estão principalmente focados em texto em inglês. Para preencher essa lacuna para a língua malaia, apresentamos um novo classificador de texto seguro para o ambiente de trabalho, adaptado especificamente para conteúdo em língua malaia. Ao criar e anotar um conjunto de dados inédito de texto malaio abrangendo várias categorias de conteúdo, treinamos um modelo de classificação capaz de identificar material potencialmente inseguro usando técnicas de processamento de linguagem natural de ponta. Este trabalho representa um passo importante para possibilitar interações mais seguras e filtragem de conteúdo para mitigar riscos potenciais e garantir a implantação responsável de LLMs. Para maximizar a acessibilidade e promover pesquisas adicionais para aprimorar o alinhamento em LLM-Ops para o contexto malaio, o modelo é publicamente disponibilizado em https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
Apresentamos os Agentes com Difusão Aprimorada (DAAG), um novo framework que aproveita grandes modelos de linguagem, modelos de visão linguística e modelos de difusão para melhorar a eficiência de amostragem e a aprendizagem por transferência no aprendizado por reforço para agentes incorporados. O DAAG revisa retrospectivamente a experiência passada do agente usando modelos de difusão para transformar vídeos de maneira temporal e geometricamente consistente, alinhando-os com instruções-alvo com uma técnica que chamamos de Ampliação da Experiência Retrospectiva. Um grande modelo de linguagem orquestra esse processo autônomo sem exigir supervisão humana, tornando-o adequado para cenários de aprendizado contínuo. O framework reduz a quantidade de dados rotulados com recompensa necessários para 1) ajustar finamente um modelo de linguagem visual que atua como detector de recompensa e 2) treinar agentes de RL em novas tarefas. Demonstramos os ganhos de eficiência de amostragem do DAAG em ambientes de robótica simulados envolvendo manipulação e navegação. Nossos resultados mostram que o DAAG melhora a aprendizagem de detectores de recompensa, a transferência de experiências passadas e a aquisição de novas tarefas - habilidades-chave para o desenvolvimento de agentes eficientes de aprendizado contínuo. Material suplementar e visualizações estão disponíveis em nosso site https://sites.google.com/view/diffusion-augmented-agents/
Apresentamos o Knesset-DictaBERT, um grande modelo de linguagem em hebraico ajustado no Corpus do Knesset, que compreende os procedimentos parlamentares israelenses. O modelo é baseado na arquitetura do DictaBERT e demonstra melhorias significativas na compreensão da linguagem parlamentar de acordo com a tarefa de MLM. Fornecemos uma avaliação detalhada do desempenho do modelo, mostrando melhorias na perplexidade e na precisão em relação ao modelo base DictaBERT.
Este artigo apresenta uma abordagem inovadora para o matting de imagens que redefine a tarefa tradicional baseada em regressão como um desafio de modelagem generativa. Nosso método aproveita as capacidades de modelos de difusão latente, enriquecidos com um extenso conhecimento pré-treinado, para regularizar o processo de matting. Apresentamos inovações arquiteturais que capacitam nosso modelo a produzir máscaras com resolução e detalhes superiores. O método proposto é versátil e pode realizar tanto o matting de imagens sem orientação quanto baseado em orientação, acomodando uma variedade de pistas adicionais. Nossa avaliação abrangente em três conjuntos de dados de referência demonstra o desempenho superior de nossa abordagem, tanto quantitativamente quanto qualitativamente. Os resultados não apenas refletem a eficácia robusta de nosso método, mas também destacam sua capacidade de gerar máscaras visualmente atraentes que se aproximam da qualidade fotorrealística. A página do projeto para este artigo está disponível em https://lightchaserx.github.io/matting-by-generation/
Os métodos existentes de legenda de música estão limitados a gerar descrições globais concisas de trechos curtos de música, o que falha em capturar características musicais detalhadas e mudanças musicais conscientes do tempo. Para lidar com essas limitações, propomos FUTGA, um modelo equipado com capacidades de compreensão musical detalhadas por meio de aprendizado a partir de ampliação generativa com composições temporais. Utilizamos conjuntos de dados de legendas de música existentes e grandes modelos de linguagem (LLMs) para sintetizar legendas de música detalhadas com descrições estruturais e limites temporais para músicas completas. Aumentado pelo conjunto de dados sintético proposto, FUTGA é capaz de identificar as mudanças temporais da música em pontos de transição chave e suas funções musicais, além de gerar descrições detalhadas para cada segmento musical. Introduzimos ainda um conjunto de dados de legenda de música completo gerado por FUTGA, como a ampliação dos conjuntos de dados MusicCaps e Song Describer. Avaliamos as legendas geradas automaticamente em várias tarefas secundárias, incluindo geração e recuperação de música. Os experimentos demonstram a qualidade das legendas geradas e o melhor desempenho em várias tarefas secundárias alcançado pela abordagem proposta de legenda de música. Nosso código e conjuntos de dados podem ser encontrados em https://huggingface.co/JoshuaW1997/FUTGA.
A recuperação de informações neurais avançou rapidamente em idiomas de alto recurso, mas o progresso em idiomas de baixo recurso, como o japonês, foi prejudicado pela escassez de dados, entre outros desafios. Consequentemente, modelos multilíngues têm dominado a recuperação em japonês, apesar de suas ineficiências computacionais e incapacidade de capturar nuances linguísticas. Embora modelos monolíngues recentes de múltiplos vetores, como o JaColBERT, tenham reduzido essa lacuna, ainda estão atrás dos métodos multilíngues em avaliações em larga escala. Este trabalho aborda os métodos de treinamento subótimos dos recuperadores de múltiplos vetores em ambientes de baixo recurso, com foco no japonês. Avaliamos e melhoramos sistematicamente aspectos-chave das configurações de inferência e treinamento do JaColBERT e, de forma mais ampla, dos modelos de múltiplos vetores. Ainda melhoramos o desempenho por meio de uma etapa de mesclagem de pontos de verificação inovadora, demonstrando ser uma maneira eficaz de combinar os benefícios do ajuste fino com as capacidades de generalização do ponto de verificação original. Com base em nossa análise, introduzimos uma nova receita de treinamento, resultando no modelo JaColBERTv2.5. O JaColBERTv2.5, com apenas 110 milhões de parâmetros e treinado em menos de 15 horas em 4 GPUs A100, supera significativamente todos os métodos existentes em todos os benchmarks comuns, alcançando uma pontuação média de 0,754, significativamente acima do melhor anterior de 0,720. Para apoiar pesquisas futuras, disponibilizamos publicamente nossos modelos finais, pontos de verificação intermediários e todos os dados utilizados.
O HAL (Hyper Articles en Ligne) é o repositório nacional de publicações da França, utilizado pela maioria das organizações de ensino superior e pesquisa para suas políticas de ciência aberta. Como uma biblioteca digital, é um rico repositório de documentos acadêmicos, porém seu potencial para pesquisas avançadas tem sido subutilizado. Apresentamos o HALvest, um conjunto de dados único que preenche a lacuna entre as redes de citações e o texto completo dos artigos submetidos no HAL. Construímos nosso conjunto de dados filtrando o HAL para publicações acadêmicas, resultando em aproximadamente 700.000 documentos, abrangendo 34 idiomas em 13 domínios identificados, adequados para treinamento de modelos de linguagem e resultando em aproximadamente 16,5 bilhões de tokens (com 8 bilhões em francês e 7 bilhões em inglês, os idiomas mais representados). Transformamos os metadados de cada artigo em uma rede de citações, produzindo um grafo heterogêneo direcionado. Esse grafo inclui autores identificados de forma única no HAL, bem como todos os artigos submetidos e suas citações. Fornecemos uma linha de base para atribuição de autoria usando o conjunto de dados, implementamos uma variedade de modelos de ponta em aprendizado de representação de grafos para previsão de links, e discutimos a utilidade da estrutura do nosso grafo de conhecimento gerado.