Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Meltemi: O primeiro Modelo de Linguagem Grande aberto para o Grego
Meltemi: The first open Large Language Model for Greek

Jul 30

ByLeon Voukoutis, Dimitris Roussis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros

Descrevemos o desenvolvimento e as capacidades do Meltemi 7B, o primeiro Modelo de Linguagem Grande aberto para a língua grega. O Meltemi 7B possui 7 bilhões de parâmetros e é treinado em um corpus grego de 40 bilhões de tokens. Para o desenvolvimento do Meltemi 7B, adaptamos o Mistral, por meio de pré-treinamento contínuo no Corpus Grego. O Meltemi 7B contém informações atualizadas até setembro de 2023. Além disso, traduzimos e organizamos um corpus de instruções gregas, que foi utilizado para o ajuste de instruções de um modelo de chat, chamado Meltemi 7B Instruct. Foi dada atenção especial ao alinhamento e à remoção de conteúdo tóxico para o Meltemi 7B Instruct. Os modelos desenvolvidos são avaliados em um amplo conjunto de corpora de avaliação coletados, e exemplos de estímulos e respostas são apresentados. Tanto o Meltemi 7B quanto o Meltemi 7B Instruct estão disponíveis em https://huggingface.co/ilsp sob a licença Apache 2.0.

Uma Grande Família de Modelos Fundamentais Codificador-Decodificador para Linguagem Química
A Large Encoder-Decoder Family of Foundation Models For Chemical Language

Jul 24

ByEduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt

Metodologias de pré-treinamento em larga escala para modelos de linguagem química representam um avanço na quimioinformática. Esses métodos se destacam em tarefas como previsão de propriedades e geração de moléculas ao aprender representações contextualizadas de tokens de entrada por meio de aprendizado auto-supervisionado em grandes corpora não rotulados. Tipicamente, isso envolve pré-treinamento em dados não rotulados seguido por ajustes finos em tarefas específicas, reduzindo a dependência de conjuntos de dados anotados e ampliando a compreensão da representação da linguagem química. Este artigo apresenta modelos de base química codificador-decodificador em larga escala pré-treinados em um conjunto de dados curado de 91 milhões de amostras SMILES obtidas do PubChem, equivalente a 4 bilhões de tokens moleculares. O modelo de base proposto suporta diferentes tarefas complexas, incluindo previsão de propriedades quânticas, e oferece flexibilidade com duas variantes principais (289M e 8vezes289M). Nossos experimentos em múltiplos conjuntos de dados de referência validam a capacidade do modelo proposto em fornecer resultados de ponta para diferentes tarefas. Também fornecemos uma avaliação preliminar da composicionalidade do espaço de incorporação como um pré-requisito para as tarefas de raciocínio. Demonstramos que o espaço latente produzido é separável em comparação com o estado da arte, com capacidades de aprendizado com poucas amostras.

ThinK: Cache de Chave Mais Fina Através de Poda Orientada por Consulta
ThinK: Thinner Key Cache by Query-Driven Pruning

Jul 30

ByYuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o campo do processamento de linguagem natural, alcançando um desempenho sem precedentes em uma variedade de aplicações, aproveitando tamanhos de modelo maiores e comprimentos de sequência aumentados. No entanto, o aumento associado nos custos computacionais e de memória apresenta desafios significativos, especialmente na gestão de sequências longas devido à complexidade quadrática do mecanismo de atenção do transformador. Este artigo concentra-se no cenário de longo contexto, abordando as ineficiências no consumo de memória cache KV durante a inferência. Ao contrário das abordagens existentes que otimizam a memória com base nos comprimentos das sequências, descobrimos que a dimensão do canal do cache KV apresenta uma redundância significativa, caracterizada por uma distribuição de magnitude desequilibrada e uma estrutura de baixa classificação nos pesos de atenção. Com base nessas observações, propomos o ThinK, um novo método de poda de cache KV dependente de consulta projetado para minimizar a perda de peso de atenção enquanto poda seletivamente os canais menos significativos. Nossa abordagem não apenas mantém ou aprimora a precisão do modelo, mas também alcança uma redução nos custos de memória em mais de 20% em comparação com métodos convencionais de evicção de cache KV. Avaliações extensivas nos modelos LLaMA3 e Mistral em vários conjuntos de dados de sequências longas confirmam a eficácia do ThinK, estabelecendo um novo precedente para a implantação eficiente de LLM sem comprometer o desempenho. Também delineamos o potencial de estender nosso método para a poda de cache de valor, demonstrando a versatilidade e ampla aplicabilidade do ThinK na redução tanto dos custos de memória quanto dos custos computacionais.

Adaptação de Classificador Seguro para o Trabalho para Texto em Língua Malaia: Melhorando o Alinhamento no Framework LLM-Ops
Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework

Jul 30

ByAisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman

À medida que os modelos de linguagem grandes (LLMs) são cada vez mais integrados aos fluxos operacionais (LLM-Ops), há uma necessidade urgente de diretrizes eficazes para garantir interações seguras e alinhadas, incluindo a capacidade de detectar conteúdo potencialmente inseguro ou inadequado em diferentes idiomas. No entanto, os classificadores seguros para o ambiente de trabalho existentes estão principalmente focados em texto em inglês. Para preencher essa lacuna para a língua malaia, apresentamos um novo classificador de texto seguro para o ambiente de trabalho, adaptado especificamente para conteúdo em língua malaia. Ao criar e anotar um conjunto de dados inédito de texto malaio abrangendo várias categorias de conteúdo, treinamos um modelo de classificação capaz de identificar material potencialmente inseguro usando técnicas de processamento de linguagem natural de ponta. Este trabalho representa um passo importante para possibilitar interações mais seguras e filtragem de conteúdo para mitigar riscos potenciais e garantir a implantação responsável de LLMs. Para maximizar a acessibilidade e promover pesquisas adicionais para aprimorar o alinhamento em LLM-Ops para o contexto malaio, o modelo é publicamente disponibilizado em https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.

Geração de Máscaras
Matting by Generation

Jul 30

ByZhixiang Wang, Baiang Li, Jian Wang, Yu-Lun Liu, Jinwei Gu, Yung-Yu Chuang, Shin'ichi Satoh

Este artigo apresenta uma abordagem inovadora para o matting de imagens que redefine a tarefa tradicional baseada em regressão como um desafio de modelagem generativa. Nosso método aproveita as capacidades de modelos de difusão latente, enriquecidos com um extenso conhecimento pré-treinado, para regularizar o processo de matting. Apresentamos inovações arquiteturais que capacitam nosso modelo a produzir máscaras com resolução e detalhes superiores. O método proposto é versátil e pode realizar tanto o matting de imagens sem orientação quanto baseado em orientação, acomodando uma variedade de pistas adicionais. Nossa avaliação abrangente em três conjuntos de dados de referência demonstra o desempenho superior de nossa abordagem, tanto quantitativamente quanto qualitativamente. Os resultados não apenas refletem a eficácia robusta de nosso método, mas também destacam sua capacidade de gerar máscaras visualmente atraentes que se aproximam da qualidade fotorrealística. A página do projeto para este artigo está disponível em https://lightchaserx.github.io/matting-by-generation/

Knesset-DictaBERT: Um Modelo de Linguagem Hebraico para Processos Parlamentares
Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings

Jul 30

ByGili Goldin, Shuly Wintner

Apresentamos o Knesset-DictaBERT, um grande modelo de linguagem em hebraico ajustado no Corpus do Knesset, que compreende os procedimentos parlamentares israelenses. O modelo é baseado na arquitetura do DictaBERT e demonstra melhorias significativas na compreensão da linguagem parlamentar de acordo com a tarefa de MLM. Fornecemos uma avaliação detalhada do desempenho do modelo, mostrando melhorias na perplexidade e na precisão em relação ao modelo base DictaBERT.

Agentes com Difusão Aumentada: Um Framework para Exploração Eficiente e Aprendizado por Transferência
Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Jul 30

ByNorman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan

Apresentamos os Agentes com Difusão Aprimorada (DAAG), um novo framework que aproveita grandes modelos de linguagem, modelos de visão linguística e modelos de difusão para melhorar a eficiência de amostragem e a aprendizagem por transferência no aprendizado por reforço para agentes incorporados. O DAAG revisa retrospectivamente a experiência passada do agente usando modelos de difusão para transformar vídeos de maneira temporal e geometricamente consistente, alinhando-os com instruções-alvo com uma técnica que chamamos de Ampliação da Experiência Retrospectiva. Um grande modelo de linguagem orquestra esse processo autônomo sem exigir supervisão humana, tornando-o adequado para cenários de aprendizado contínuo. O framework reduz a quantidade de dados rotulados com recompensa necessários para 1) ajustar finamente um modelo de linguagem visual que atua como detector de recompensa e 2) treinar agentes de RL em novas tarefas. Demonstramos os ganhos de eficiência de amostragem do DAAG em ambientes de robótica simulados envolvendo manipulação e navegação. Nossos resultados mostram que o DAAG melhora a aprendizagem de detectores de recompensa, a transferência de experiências passadas e a aquisição de novas tarefas - habilidades-chave para o desenvolvimento de agentes eficientes de aprendizado contínuo. Material suplementar e visualizações estão disponíveis em nosso site https://sites.google.com/view/diffusion-augmented-agents/

Futga: Rumo a uma Compreensão Musical Detalhada por meio de Ampliação Generativa Temporalmente Aprimorada
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

Jul 29

ByJunda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley

Os métodos existentes de legenda de música estão limitados a gerar descrições globais concisas de trechos curtos de música, o que falha em capturar características musicais detalhadas e mudanças musicais conscientes do tempo. Para lidar com essas limitações, propomos FUTGA, um modelo equipado com capacidades de compreensão musical detalhadas por meio de aprendizado a partir de ampliação generativa com composições temporais. Utilizamos conjuntos de dados de legendas de música existentes e grandes modelos de linguagem (LLMs) para sintetizar legendas de música detalhadas com descrições estruturais e limites temporais para músicas completas. Aumentado pelo conjunto de dados sintético proposto, FUTGA é capaz de identificar as mudanças temporais da música em pontos de transição chave e suas funções musicais, além de gerar descrições detalhadas para cada segmento musical. Introduzimos ainda um conjunto de dados de legenda de música completo gerado por FUTGA, como a ampliação dos conjuntos de dados MusicCaps e Song Describer. Avaliamos as legendas geradas automaticamente em várias tarefas secundárias, incluindo geração e recuperação de música. Os experimentos demonstram a qualidade das legendas geradas e o melhor desempenho em várias tarefas secundárias alcançado pela abordagem proposta de legenda de música. Nosso código e conjuntos de dados podem ser encontrados em https://huggingface.co/JoshuaW1997/FUTGA.

JaColBERTv2.5: Otimizando Recuperadores Multi-Vetor para Criar Recuperadores Japoneses de Última Geração com Recursos Limitados
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

Jul 30

ByBenjamin Clavié

A recuperação de informações neurais avançou rapidamente em idiomas de alto recurso, mas o progresso em idiomas de baixo recurso, como o japonês, foi prejudicado pela escassez de dados, entre outros desafios. Consequentemente, modelos multilíngues têm dominado a recuperação em japonês, apesar de suas ineficiências computacionais e incapacidade de capturar nuances linguísticas. Embora modelos monolíngues recentes de múltiplos vetores, como o JaColBERT, tenham reduzido essa lacuna, ainda estão atrás dos métodos multilíngues em avaliações em larga escala. Este trabalho aborda os métodos de treinamento subótimos dos recuperadores de múltiplos vetores em ambientes de baixo recurso, com foco no japonês. Avaliamos e melhoramos sistematicamente aspectos-chave das configurações de inferência e treinamento do JaColBERT e, de forma mais ampla, dos modelos de múltiplos vetores. Ainda melhoramos o desempenho por meio de uma etapa de mesclagem de pontos de verificação inovadora, demonstrando ser uma maneira eficaz de combinar os benefícios do ajuste fino com as capacidades de generalização do ponto de verificação original. Com base em nossa análise, introduzimos uma nova receita de treinamento, resultando no modelo JaColBERTv2.5. O JaColBERTv2.5, com apenas 110 milhões de parâmetros e treinado em menos de 15 horas em 4 GPUs A100, supera significativamente todos os métodos existentes em todos os benchmarks comuns, alcançando uma pontuação média de 0,754, significativamente acima do melhor anterior de 0,720. Para apoiar pesquisas futuras, disponibilizamos publicamente nossos modelos finais, pontos de verificação intermediários e todos os dados utilizados.

Coleta de Dados Textuais e Estruturados do Repositório de Publicações da HAL
Harvesting Textual and Structured Data from the HAL Publication Repository

Jul 30

ByFrancis Kulumba, Wissam Antoun, Guillaume Vimont, Laurent Romary

O HAL (Hyper Articles en Ligne) é o repositório nacional de publicações da França, utilizado pela maioria das organizações de ensino superior e pesquisa para suas políticas de ciência aberta. Como uma biblioteca digital, é um rico repositório de documentos acadêmicos, porém seu potencial para pesquisas avançadas tem sido subutilizado. Apresentamos o HALvest, um conjunto de dados único que preenche a lacuna entre as redes de citações e o texto completo dos artigos submetidos no HAL. Construímos nosso conjunto de dados filtrando o HAL para publicações acadêmicas, resultando em aproximadamente 700.000 documentos, abrangendo 34 idiomas em 13 domínios identificados, adequados para treinamento de modelos de linguagem e resultando em aproximadamente 16,5 bilhões de tokens (com 8 bilhões em francês e 7 bilhões em inglês, os idiomas mais representados). Transformamos os metadados de cada artigo em uma rede de citações, produzindo um grafo heterogêneo direcionado. Esse grafo inclui autores identificados de forma única no HAL, bem como todos os artigos submetidos e suas citações. Fornecemos uma linha de base para atribuição de autoria usando o conjunto de dados, implementamos uma variedade de modelos de ponta em aprendizado de representação de grafos para previsão de links, e discutimos a utilidade da estrutura do nosso grafo de conhecimento gerado.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Meltemi: O primeiro Modelo de Linguagem Grande aberto para o Grego
Meltemi: The first open Large Language Model for Greek

Jul 30

ByLeon Voukoutis, Dimitris Roussis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros

Uma Grande Família de Modelos Fundamentais Codificador-Decodificador para Linguagem Química
A Large Encoder-Decoder Family of Foundation Models For Chemical Language

Jul 24

ByEduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt

ThinK: Cache de Chave Mais Fina Através de Poda Orientada por Consulta
ThinK: Thinner Key Cache by Query-Driven Pruning

Jul 30

ByYuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo

Adaptação de Classificador Seguro para o Trabalho para Texto em Língua Malaia: Melhorando o Alinhamento no Framework LLM-Ops
Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework

Jul 30

ByAisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman

Geração de Máscaras
Matting by Generation

Jul 30

ByZhixiang Wang, Baiang Li, Jian Wang, Yu-Lun Liu, Jinwei Gu, Yung-Yu Chuang, Shin'ichi Satoh

Knesset-DictaBERT: Um Modelo de Linguagem Hebraico para Processos Parlamentares
Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings

Jul 30

ByGili Goldin, Shuly Wintner

Agentes com Difusão Aumentada: Um Framework para Exploração Eficiente e Aprendizado por Transferência
Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Jul 30

ByNorman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan

Futga: Rumo a uma Compreensão Musical Detalhada por meio de Ampliação Generativa Temporalmente Aprimorada
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

Jul 29

ByJunda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley

JaColBERTv2.5: Otimizando Recuperadores Multi-Vetor para Criar Recuperadores Japoneses de Última Geração com Recursos Limitados
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

Jul 30

ByBenjamin Clavié

Coleta de Dados Textuais e Estruturados do Repositório de Publicações da HAL
Harvesting Textual and Structured Data from the HAL Publication Repository

Jul 30

ByFrancis Kulumba, Wissam Antoun, Guillaume Vimont, Laurent Romary