Artigos de pesquisa em IA selecionados diariamente com traduções
A compreensão da literatura científica é crucial para extrair informações direcionadas e obter insights, avançando significativamente a descoberta científica. Apesar do notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs), eles enfrentam desafios na compreensão da literatura científica, principalmente devido a (1) falta de conhecimento científico e (2) familiaridade com tarefas científicas especializadas. Para desenvolver um LLM especializado em compreensão da literatura científica, propomos uma estratégia híbrida que integra o pré-treinamento contínuo (CPT) e o ajuste fino supervisionado (SFT), para simultaneamente infundir conhecimento do domínio científico e aprimorar as capacidades de seguir instruções para tarefas específicas do domínio. Nesse processo, identificamos dois desafios principais: (1) construir corpora de CPT de alta qualidade e (2) gerar instruções diversas de SFT. Abordamos esses desafios por meio de um pipeline meticuloso, incluindo extração de texto de PDF, correção de erros de conteúdo, filtragem de qualidade e criação de instruções sintéticas. Aplicando essa estratégia, apresentamos uma série de LLMs: SciLitLLM, especializado em compreensão da literatura científica. Esses modelos demonstram desempenho promissor em benchmarks de compreensão da literatura científica. Nossas contribuições são triplas: (1) Apresentamos um framework eficaz que integra CPT e SFT para adaptar LLMs à compreensão da literatura científica, que também pode ser facilmente adaptado a outros domínios. (2) Propomos um método de síntese baseado em LLM para gerar instruções científicas diversas e de alta qualidade, resultando em um novo conjunto de instruções - SciLitIns - para ajuste fino supervisionado em domínios científicos menos representados. (3) SciLitLLM alcança melhorias promissoras de desempenho em benchmarks de compreensão da literatura científica.
Avanços recentes na personalização de texto para imagem têm possibilitado a síntese de imagens de alta qualidade e controláveis para conceitos fornecidos pelo usuário. No entanto, os métodos existentes ainda enfrentam dificuldades para equilibrar a preservação da identidade com o alinhamento do texto. Nossa abordagem baseia-se no fato de que a geração de imagens alinhadas com o texto requer uma compreensão semântica precisa do texto, o que envolve processar com precisão as interações entre o novo conceito e seus tokens de contexto circundantes dentro do codificador de texto CLIP. Para lidar com isso, nosso objetivo é incorporar adequadamente o novo conceito no espaço de incorporação de entrada do codificador de texto, permitindo a integração perfeita com os tokens existentes. Introduzimos a Regularização de Contexto (CoRe), que aprimora a aprendizagem da incorporação de texto do novo conceito ao regularizar seus tokens de contexto no texto. Isso se baseia na percepção de que vetores de saída apropriados do codificador de texto para os tokens de contexto só podem ser alcançados se a incorporação de texto do novo conceito for aprendida corretamente. CoRe pode ser aplicado a prompts arbitrários sem exigir a geração de imagens correspondentes, melhorando assim a generalização da incorporação de texto aprendida. Além disso, CoRe pode servir como uma técnica de otimização no momento do teste para aprimorar ainda mais as gerações para prompts específicos. Experimentos abrangentes demonstram que nosso método supera vários métodos de referência tanto na preservação da identidade quanto no alinhamento do texto. O código será disponibilizado publicamente.
Avaliações recentes de Modelos Multimodais de Grande Escala (LMMs) têm explorado suas capacidades em vários domínios, com apenas alguns benchmarks focados especificamente em ambientes urbanos. Além disso, os benchmarks urbanos existentes têm sido limitados a avaliar LMMs com tarefas urbanas básicas ao nível da região sob visões singulares, resultando em avaliações incompletas das habilidades dos LMMs em ambientes urbanos. Para abordar essas questões, apresentamos UrBench, um benchmark abrangente projetado para avaliar LMMs em cenários urbanos complexos de múltiplas visualizações. UrBench contém 11,6 mil perguntas meticulosamente selecionadas em níveis de região e papel, abrangendo 4 dimensões de tarefas: Geo-Localização, Raciocínio de Cena, Compreensão de Cena e Compreensão de Objetos, totalizando 14 tipos de tarefas. Ao construir o UrBench, utilizamos dados de conjuntos de dados existentes e coletamos dados adicionais de 11 cidades, criando novas anotações usando um método de detecção e correspondência entre visualizações. Com essas imagens e anotações, integramos métodos baseados em LMM, baseados em regras e baseados em humanos para construir perguntas de alta qualidade em larga escala. Nossas avaliações em 21 LMMs mostram que os LMMs atuais têm dificuldades em ambientes urbanos em vários aspectos. Mesmo o melhor desempenho do GPT-4o fica atrás dos humanos na maioria das tarefas, desde tarefas simples como contagem até tarefas complexas como orientação, localização e reconhecimento de atributos de objetos, com uma lacuna média de desempenho de 17,4%. Nosso benchmark também revela que os LMMs exibem comportamentos inconsistentes com diferentes visualizações urbanas, especialmente no que diz respeito à compreensão de relações entre visualizações. Os conjuntos de dados e resultados do benchmark UrBench estarão disponíveis publicamente em https://opendatalab.github.io/UrBench/.
A síntese de vista de satélite para vista de rua tem como objetivo gerar uma imagem realista da vista de rua a partir da sua imagem correspondente de vista de satélite. Embora os modelos de difusão estáveis tenham apresentado um desempenho notável em uma variedade de aplicações de geração de imagens, sua dependência de entradas de vista semelhante para controlar a estrutura ou textura gerada restringe sua aplicação à desafiadora tarefa de síntese entre vistas. Neste trabalho, propomos o CrossViewDiff, um modelo de difusão entre vistas para a síntese de vista de satélite para vista de rua. Para lidar com os desafios impostos pela grande discrepância entre vistas, projetamos os módulos de estimativa de estrutura da cena de satélite e mapeamento de textura entre vistas para construir os controles estruturais e texturais para a síntese da imagem de vista de rua. Além disso, projetamos um processo de remoção de ruído guiado por controle entre vistas que incorpora os controles acima por meio de um módulo de atenção entre vistas aprimorado. Para obter uma avaliação mais abrangente dos resultados de síntese, projetamos adicionalmente um método de pontuação baseado em GPT como um complemento às métricas de avaliação padrão. Também exploramos o efeito de diferentes fontes de dados (por exemplo, texto, mapas, alturas de edifícios e imagens de satélite multitemporais) nesta tarefa. Os resultados em três conjuntos de dados públicos de vistas entre vistas mostram que o CrossViewDiff supera o estado da arte atual em ambas as métricas de avaliação padrão e baseadas em GPT, gerando panoramas de vista de rua de alta qualidade com estruturas e texturas mais realistas em cenas rurais, suburbanas e urbanas. O código e os modelos deste trabalho serão disponibilizados em https://opendatalab.github.io/CrossViewDiff/.
Os modelos de linguagem de alta capacidade frequentemente não atendem às necessidades do contexto africano, onde há uma necessidade crítica de modelos eficientes, acessíveis e localmente relevantes, mesmo diante de significativas restrições de computação e dados. Este artigo apresenta o InkubaLM, um pequeno modelo de linguagem com 0,4 bilhões de parâmetros, que alcança desempenho comparável a modelos com contagens de parâmetros significativamente maiores e dados de treinamento mais extensos em tarefas como tradução automática, question-answering, AfriMMLU e a tarefa AfriXnli. Notavelmente, o InkubaLM supera muitos modelos maiores na análise de sentimentos e demonstra uma notável consistência em múltiplos idiomas. Este trabalho representa um avanço fundamental ao desafiar o paradigma convencional de que modelos de linguagem eficazes devem depender de recursos substanciais. Nosso modelo e conjuntos de dados estão publicamente disponíveis em \url{https://huggingface.co/lelapa} para incentivar a pesquisa e desenvolvimento em idiomas de baixos recursos.
Os Modelos de Transformadores de Difusão (DiTs) fizeram a transição da arquitetura de rede dos UNets tradicionais para os transformers, demonstrando capacidades excepcionais na geração de imagens. Embora os DiTs tenham sido amplamente aplicados em tarefas de geração de vídeo em alta definição, seu grande tamanho de parâmetro dificulta a inferência em dispositivos de borda. A quantização vetorial (VQ) pode decompor o peso do modelo em um livro de códigos e atribuições, permitindo uma quantização extrema do peso e reduzindo significativamente o uso de memória. Neste artigo, propomos o VQ4DiT, um método de quantização vetorial pós-treinamento rápido para os DiTs. Descobrimos que os métodos tradicionais de VQ calibram apenas o livro de códigos sem calibrar as atribuições. Isso faz com que subvetores de peso sejam atribuídos incorretamente à mesma atribuição, fornecendo gradientes inconsistentes para o livro de códigos e resultando em um resultado subótimo. Para enfrentar esse desafio, o VQ4DiT calcula o conjunto de atribuições candidatas para cada subvetor de peso com base na distância euclidiana e reconstrói o subvetor com base na média ponderada. Em seguida, usando o método de calibração por dados zero e por blocos, a atribuição ótima do conjunto é selecionada de forma eficiente enquanto calibra o livro de códigos. O VQ4DiT quantiza um modelo DiT XL/2 em uma única GPU NVIDIA A100 em 20 minutos a 5 horas, dependendo das diferentes configurações de quantização. Experimentos mostram que o VQ4DiT estabelece um novo estado da arte em trocas de tamanho de modelo e desempenho, quantizando pesos com precisão de 2 bits enquanto mantém uma qualidade aceitável na geração de imagens.
Os Desafios de Reconhecimento de Oradores VoxCeleb (VoxSRC) foram uma série de desafios e workshops realizados anualmente de 2019 a 2023. Os desafios avaliaram principalmente as tarefas de reconhecimento de oradores e diarização em diversos cenários, incluindo: dados de treinamento fechados e abertos; bem como treinamento supervisionado, auto-supervisionado e semi-supervisionado para adaptação de domínio. Os desafios também disponibilizaram conjuntos de dados de treinamento e avaliação publicamente para cada tarefa e cenário, com novos conjuntos de teste lançados a cada ano. Neste artigo, fornecemos uma revisão desses desafios que abrange: o que eles exploraram; os métodos desenvolvidos pelos participantes do desafio e como evoluíram; e também o estado atual do campo para verificação de oradores e diarização. Nós acompanhamos o progresso no desempenho ao longo das cinco edições do desafio em um conjunto de dados de avaliação comum e fornecemos uma análise detalhada de como o foco especial de cada ano afetou o desempenho dos participantes. Este artigo é destinado tanto a pesquisadores que desejam ter uma visão geral do campo de reconhecimento de oradores e diarização, quanto a organizadores de desafios que desejam se beneficiar dos sucessos e evitar os erros dos desafios VoxSRC. Concluímos com uma discussão sobre os pontos fortes atuais do campo e os desafios em aberto. Página do projeto: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
Modelos densos multivetoriais, como o ColBERT, têm se mostrado altamente eficazes em recuperação de informações. A pontuação de interação tardia do ColBERT aproxima-se da atenção conjunta entre consulta e documento vista em codificadores cruzados, mantendo a eficiência de inferência mais próxima de modelos tradicionais de recuperação densa, graças à sua arquitetura de biencoders e otimizações recentes em indexação e busca. Neste artigo, introduzimos várias melhorias na arquitetura do modelo ColBERT e no pipeline de treinamento, aproveitando técnicas bem-sucedidas no paradigma de modelos de incorporação de vetor único mais estabelecido, especialmente aquelas adequadas para dados multilíngues heterogêneos. Nosso novo modelo, Jina-ColBERT-v2, demonstra um desempenho sólido em uma variedade de tarefas de recuperação em inglês e multilíngues, reduzindo também os requisitos de armazenamento em até 50% em comparação com modelos anteriores.
A sumarização de documentos é uma tarefa para encurtar textos em resumos concisos e informativos. Este artigo apresenta um novo conjunto de dados projetado para resumir vários artigos científicos em uma seção de uma pesquisa. Nossas contribuições são: (1) SurveySum, um novo conjunto de dados que aborda a lacuna em ferramentas de sumarização específicas do domínio; (2) duas pipelines específicas para resumir artigos científicos em uma seção de uma pesquisa; e (3) a avaliação dessas pipelines usando múltiplas métricas para comparar seu desempenho. Nossos resultados destacam a importância de estágios de recuperação de alta qualidade e o impacto de diferentes configurações na qualidade dos resumos gerados.
As imagens estão se tornando cada vez mais a moeda para documentar a biodiversidade no planeta, proporcionando novas oportunidades para acelerar descobertas científicas no campo da biologia de organismos, especialmente com o surgimento de grandes modelos de visão-linguagem (VLMs). Questionamos se os VLMs pré-treinados podem auxiliar os cientistas a responder a uma variedade de questões biologicamente relevantes sem qualquer ajuste fino adicional. Neste artigo, avaliamos a eficácia de 12 modelos de última geração (SOTA) no campo da biologia de organismos usando um conjunto de dados inovador, VLM4Bio, composto por 469 mil pares pergunta-resposta envolvendo 30 mil imagens de três grupos de organismos: peixes, aves e borboletas, abrangendo cinco tarefas biologicamente relevantes. Também exploramos os efeitos da aplicação de técnicas de sugestão e testes para alucinação de raciocínio no desempenho dos VLMs, lançando nova luz sobre as capacidades dos atuais VLMs de última geração em responder a questões biologicamente relevantes usando imagens. O código e os conjuntos de dados para executar todas as análises relatadas neste artigo podem ser encontrados em https://github.com/sammarfy/VLM4Bio.
Detectar e atribuir aumentos de temperatura devido às mudanças climáticas é crucial para compreender o aquecimento global e orientar estratégias de adaptação. A complexidade de distinguir sinais climáticos induzidos pelo ser humano da variabilidade natural tem desafiado abordagens tradicionais de detecção e atribuição (D&A), que buscam identificar "impressões digitais" específicas em variáveis de resposta climática. A aprendizagem profunda oferece potencial para discernir esses padrões complexos em extensos conjuntos de dados espaciais. No entanto, a falta de protocolos padrão tem dificultado comparações consistentes entre estudos. Apresentamos o ClimDetect, um conjunto de dados padronizado com mais de 816 mil instantâneos climáticos diários, projetado para aprimorar a precisão do modelo na identificação de sinais de mudanças climáticas. O ClimDetect integra várias variáveis de entrada e alvo usadas em pesquisas anteriores, garantindo comparabilidade e consistência. Também exploramos a aplicação de transformadores de visão (ViT) a dados climáticos, uma abordagem inovadora e modernizadora nesse contexto. Nossos dados e código de acesso aberto servem como referência para avançar a ciência climática por meio de avaliações de modelos aprimoradas. O ClimDetect é publicamente acessível por meio do repositório de dados Huggingface em: https://huggingface.co/datasets/ClimDetect/ClimDetect.
Este artigo apresenta o CURLoRA, uma abordagem inovadora para ajuste fino de grandes modelos de linguagem (LLMs) que aproveita a decomposição da matriz CUR no contexto da Adaptação de Baixa Ordem (LoRA). Nosso método aborda dois desafios críticos no ajuste fino de LLMs: mitigar o esquecimento catastrófico durante a aprendizagem contínua e reduzir o número de parâmetros treináveis. Propomos uma modificação única no processo de decomposição CUR, utilizando probabilidades invertidas para seleção de colunas e linhas, o que atua como uma regularização implícita, e inicializando a matriz U como uma matriz zero, e apenas ajustando-a finamente. Demonstramos por meio de experimentos em vários conjuntos de dados que o CURLoRA supera o LoRA padrão na mitigação do esquecimento catastrófico. Ele mantém a estabilidade e o desempenho do modelo em várias tarefas, ao mesmo tempo em que reduz significativamente o número de parâmetros treináveis. Nossos resultados mostram que o CURLoRA alcança uma precisão de tarefa muito boa e estável, mantendo os escores de perplexidade do modelo base fixos em comparação com o LoRA durante o ajuste fino contínuo, especialmente em cenários com dados limitados.
À medida que o campo da inteligência artificial avança, as tecnologias assistivas estão se tornando mais amplamente utilizadas em todas as indústrias. A indústria da saúde não é exceção, com inúmeros estudos sendo realizados para desenvolver ferramentas assistivas para profissionais de saúde. Sistemas de diagnóstico automático são uma dessas ferramentas benéficas que podem auxiliar em uma variedade de tarefas, incluindo coleta de informações do paciente, análise de resultados de testes e diagnóstico de pacientes. No entanto, a ideia de desenvolver sistemas que possam fornecer um diagnóstico diferencial tem sido amplamente negligenciada na maioria desses estudos de pesquisa. Neste estudo, propomos uma abordagem baseada em transformadores para fornecer diagnósticos diferenciais com base na idade, sexo, histórico médico e sintomas de um paciente. Utilizamos o conjunto de dados DDXPlus, que fornece informações de diagnóstico diferencial para pacientes com base em 49 tipos de doenças. Em primeiro lugar, propomos um método para processar os dados tabulares do paciente do conjunto de dados e transformá-los em relatórios de pacientes para torná-los adequados para nossa pesquisa. Além disso, introduzimos dois módulos de modificação de dados para diversificar os dados de treinamento e, consequentemente, melhorar a robustez dos modelos. Abordamos a tarefa como um problema de classificação multi-rótulo e realizamos experimentos extensivos usando quatro modelos de transformadores. Todos os modelos apresentaram resultados promissores, alcançando mais de 97% de pontuação F1 no conjunto de teste retido. Além disso, projetamos testes comportamentais adicionais para obter uma compreensão mais ampla dos modelos. Em particular, para um de nossos casos de teste, preparamos um conjunto de testes personalizado com 100 amostras com a assistência de um médico. Os resultados no conjunto personalizado mostraram que nossos módulos de modificação de dados propostos melhoraram as capacidades de generalização do modelo. Esperamos que nossas descobertas forneçam insights valiosos para futuros pesquisadores e os inspirem a desenvolver sistemas confiáveis para diagnóstico diferencial automático.
A arquitetura transformer revolucionou a bioinformática e impulsionou o progresso na compreensão e previsão das propriedades de biomoléculas. Quase toda a pesquisa em transformers de biosequências em larga escala tem se concentrado em um domínio por vez (único-ômico), geralmente nucleotídeos ou peptídeos. Esses modelos têm obtido um sucesso incrível em tarefas subsequentes em cada domínio e alcançaram avanços particularmente notáveis em sequências de peptídeos e modelagem estrutural. No entanto, esses modelos único-ômicos são naturalmente incapazes de modelar tarefas multi-ômicas, sendo uma das mais criticamente biológicas a interação nucleotídeo-peptídeo. Apresentamos nosso trabalho no treinamento dos primeiros modelos fundamentais multi-ômicos nucleotídeo-peptídeo. Mostramos que esses modelos multi-ômicos (MOMs) podem aprender representações conjuntas entre várias distribuições único-ômicas que emergem consistentes com o Dogma Central da biologia molecular, apesar de serem treinados apenas em biosequências não rotuladas. Demonstramos ainda que os MOMs podem ser ajustados finamente para alcançar resultados de ponta em tarefas de interação peptídeo-nucleotídeo, especificamente na previsão da mudança na energia livre de Gibbs ({\Delta}G) da interação de ligação entre um oligonucleotídeo dado e um peptídeo, bem como o efeito dessa interação de ligação devido a mutações na sequência do oligonucleotídeo ({\Delta}{\Delta}G). De forma notável, mostramos que os transformers de biosequências multi-ômicos aprendem emergentemente informações estruturais úteis sem nenhum treinamento estrutural prévio, permitindo-nos prever quais resíduos de peptídeo estão mais envolvidos na interação de ligação peptídeo-nucleotídeo. Por fim, fornecemos evidências de que os modelos de biosequências multi-ômicos não são inferiores aos modelos fundamentais treinados em distribuições único-ômicas, sugerindo uma abordagem mais generalizada ou fundamental para a construção desses modelos.
Os métodos de Ajuste Fino Eficiente de Parâmetros (PEFT) ganharam popularidade e democratizaram o uso de Modelos de Linguagem Grandes (LLMs). Estudos recentes mostraram que um pequeno subconjunto de pesos impacta significativamente no desempenho. Com base nessa observação, apresentamos um novo método PEFT, chamado de Ajuste Fino Injetado com Ruído Gaussiano de Pesos Salientes (GIFT-SW). Nosso método atualiza apenas colunas salientes, enquanto injeta ruído gaussiano nas não salientes. Para identificar essas colunas, desenvolvemos uma métrica de sensibilidade generalizada que estende e unifica métricas de estudos anteriores. Experimentos com modelos LLaMA demonstram que o GIFT-SW supera o ajuste fino completo e os métodos modernos de PEFT sob o mesmo orçamento computacional. Além disso, o GIFT-SW oferece vantagens práticas para recuperar o desempenho de modelos submetidos à quantização de precisão mista mantendo os pesos salientes em plena precisão.
Ao comprimir narrativas diversas, os LLMs vão além da memorização, alcançando inteligência ao capturar relações causais generalizáveis. No entanto, eles sofrem com 'lacunas de representação' locais devido à diversidade insuficiente nos dados de treinamento, limitando sua utilidade no mundo real, especialmente em tarefas que exigem alinhamento estrito com regras. Métodos tradicionais de alinhamento que dependem de anotações humanas extensas são ineficientes e não escaláveis. Técnicas recentes de autoalinhamento também deixam a desejar, pois frequentemente dependem de seleção própria com base em estímulos e aprendizado baseado em memorização. Para lidar com esses problemas, apresentamos o Alinhamento Gráfico Iterativo (IGA), um algoritmo de alinhamento baseado em regras sem necessidade de anotações. Um modelo professor (VLM) emprega o Estímulo Gráfico Iterativo (IGP) para criar grafos lógicos e respostas de referência. O modelo aluno (LLM) identifica lacunas locais de conhecimento ao tentar alinhar suas respostas com essas referências, colaborando com modelos auxiliares para gerar respostas diversas. Essas respostas alinhadas são então usadas para um ajuste fino supervisionado iterativo (SFT). Nossas avaliações em cinco cenários baseados em regras demonstram a eficácia do IGP, com uma melhoria de 73,12% no alinhamento em Claude Sonnet 3.5, e Llama3-8B-Instruct alcançando uma melhoria de 86,20%, superando Claude Sonnet 3.5 no alinhamento baseado em regras.