Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório técnico, propomos o ChemVLM, o primeiro modelo de linguagem grande multimodal de código aberto dedicado aos campos da química, projetado para lidar com a incompatibilidade entre a compreensão de imagens químicas e a análise de texto. Construído com base na arquitetura VIT-MLP-LLM, aproveitamos o ChemLLM-20B como modelo grande fundamental, dotando nosso modelo com capacidades robustas na compreensão e utilização do conhecimento de texto químico. Além disso, empregamos o InternVIT-6B como um codificador de imagem poderoso. Curamos dados de alta qualidade do domínio químico, incluindo moléculas, fórmulas de reações e dados de exames de química, e compilamos esses em um conjunto de dados bilíngue multimodal de perguntas e respostas. Testamos o desempenho de nosso modelo em vários benchmarks de código aberto e três conjuntos de avaliação personalizados. Os resultados experimentais demonstram que nosso modelo alcança um excelente desempenho, garantindo resultados de ponta em cinco das seis tarefas envolvidas. Nosso modelo pode ser encontrado em https://huggingface.co/AI4Chem/ChemVLM-26B.
Os modelos de texto para imagem são ferramentas poderosas para a criação de imagens. No entanto, o processo de geração é semelhante a um lançamento de dados e torna difícil alcançar uma única imagem que capture tudo o que o usuário deseja. Neste artigo, propomos um framework para criar a imagem desejada compondo-a a partir de várias partes de imagens geradas, essencialmente formando um Fotomontagem Generativo. Dado um conjunto de imagens geradas pelo ControlNet usando a mesma condição de entrada e diferentes sementes, permitimos que os usuários selecionem partes desejadas dos resultados gerados usando uma interface de pincel. Introduzimos uma técnica inovadora que leva em consideração os traços do pincel do usuário, segmenta as imagens geradas usando uma otimização baseada em grafo no espaço de características de difusão e, em seguida, compõe as regiões segmentadas por meio de um novo método de mistura de espaço de características. Nosso método preserva fielmente as regiões selecionadas pelo usuário enquanto as compõe harmoniosamente. Demonstramos que nosso framework flexível pode ser usado para muitas aplicações, incluindo a geração de novas combinações de aparência, correção de formas e artefatos incorretos e melhoria no alinhamento da solicitação. Mostramos resultados convincentes para cada aplicação e demonstramos que nosso método supera os métodos existentes de mistura de imagens e várias linhas de base.
Este artigo apresenta a série Aquila2, que compreende uma ampla gama de modelos bilíngues com tamanhos de parâmetros de 7, 34 e 70 bilhões. Esses modelos são treinados com base em uma estrutura inovadora chamada HeuriMentor (HM), que oferece insights em tempo real sobre a convergência do modelo e aprimora o processo de treinamento e gerenciamento de dados. O Sistema HM, composto pelo Motor de Treinamento Adaptativo (ATE), Monitor de Estado de Treinamento (TSM) e Unidade de Gerenciamento de Dados (DMU), permite o monitoramento preciso do progresso de treinamento do modelo e possibilita a otimização eficiente da distribuição de dados, melhorando assim a eficácia do treinamento. Avaliações extensas mostram que a série de modelos Aquila2 tem um desempenho comparativamente bom tanto em benchmarks em inglês quanto em chinês. Especificamente, Aquila2-34B demonstra apenas uma leve diminuição no desempenho quando quantizado para Int4. Além disso, disponibilizamos publicamente nosso código de treinamento (https://github.com/FlagOpen/FlagScale) e pesos do modelo (https://github.com/FlagAI-Open/Aquila2) para apoiar pesquisas em andamento e o desenvolvimento de aplicações.
Descrevemos um conjunto de dados em grande escala - DeepSpeak - de vídeos reais e deepfakes de pessoas falando e gesticulando na frente de suas webcams. Os vídeos reais nesta primeira versão do conjunto de dados consistem em 9 horas de filmagens de 220 indivíduos diversos. Com mais de 25 horas de filmagens, os vídeos falsos consistem em uma variedade de deepfakes de troca de rosto e sincronização labial de última geração com vozes naturais e geradas por IA. Esperamos lançar futuras versões deste conjunto de dados com tecnologias de deepfake diferentes e atualizadas. Este conjunto de dados está disponível gratuitamente para fins de pesquisa e não comerciais; solicitações de uso comercial serão consideradas.
Os avanços recentes nos métodos Chain-of-Thoughts (CoT) e Program-of-Thoughts (PoT) têm melhorado significativamente as capacidades de raciocínio matemático dos modelos de linguagem, facilitando sua integração em conjuntos de dados de ajuste de instruções com LLMs. No entanto, os métodos existentes para a criação de conjuntos de dados em grande escala requerem dados iniciais substanciais e altos custos computacionais para a síntese de dados, apresentando desafios significativos em termos de escalabilidade. Apresentamos o InfinityMATH, um conjunto de dados escalável para ajuste de instruções para raciocínio matemático programático. O pipeline de construção enfatiza a desvinculação de números de problemas matemáticos para sintetizar programas independentes de números, permitindo escalabilidade eficiente e flexível, ao mesmo tempo que minimiza a dependência de valores numéricos específicos. Experimentos de ajuste fino com modelos de linguagem e código de código aberto, como Llama2 e CodeLlama, demonstram os benefícios práticos do InfinityMATH. Esses modelos ajustados mostraram melhorias relativas significativas em benchmarks tanto dentro quanto fora do domínio, variando de 184,7% a 514,3% em média. Além disso, esses modelos apresentaram alta robustez nos benchmarks GSM8K+ e MATH+, que são versões aprimoradas de conjuntos de testes com simples variações numéricas. O InfinityMATH garante que os modelos sejam mais versáteis e eficazes em uma gama mais ampla de problemas matemáticos. Os dados estão disponíveis em https://huggingface.co/datasets/flagopen/InfinityMATH.
A modelagem e manipulação de cenas 3D capturadas do mundo real são fundamentais em várias aplicações, atraindo crescente interesse de pesquisa. Enquanto trabalhos anteriores em edição alcançaram resultados interessantes por meio da manipulação de malhas 3D, frequentemente exigem malhas reconstruídas com precisão para realizar a edição, o que limita sua aplicação na geração de conteúdo 3D. Para abordar essa lacuna, introduzimos uma nova abordagem de edição de cenas 3D impulsionada por uma única imagem, baseada em Espalhamento Gaussiano 3D, permitindo manipulação intuitiva por meio da edição direta do conteúdo em um plano de imagem 2D. Nosso método aprende a otimizar os Gaussianos 3D para se alinharem com uma versão editada da imagem renderizada a partir de um ponto de vista especificado pelo usuário da cena original. Para capturar deformações de objetos em longas distâncias, introduzimos perda posicional no processo de otimização do Espalhamento Gaussiano 3D e possibilitamos a propagação de gradientes por meio de reparametrização. Para lidar com Gaussianos 3D ocultos ao renderizar a partir do ponto de vista especificado, construímos uma estrutura baseada em âncoras e empregamos uma estratégia de otimização de baixa para alta resolução capaz de lidar com deformações em longas distâncias mantendo a estabilidade estrutural. Além disso, projetamos uma nova estratégia de máscara para identificar adaptativamente regiões de deformação não rígida para modelagem em pequena escala. Experimentos extensivos mostram a eficácia de nosso método no tratamento de detalhes geométricos, deformações em longas distâncias e não rígidas, demonstrando flexibilidade e qualidade de edição superiores em comparação com abordagens anteriores.
Recentemente, tarefas de geração de forma de onda universal têm sido investigadas condicionadas a vários cenários fora da distribuição. Embora os métodos baseados em GAN tenham mostrado sua força na geração rápida de formas de onda, eles são vulneráveis a cenários de discrepância entre treinamento e inferência, como no caso de conversão de texto em fala em duas etapas. Enquanto isso, os modelos baseados em difusão têm mostrado seu poderoso desempenho generativo em outros domínios; no entanto, eles permanecem fora dos holofotes devido à lentidão na velocidade de inferência em tarefas de geração de formas de onda. Acima de tudo, não há uma arquitetura geradora que possa explicitamente separar as características periódicas naturais de sinais de forma de onda de alta resolução. Neste artigo, propomos o PeriodWave, um novo modelo de geração de forma de onda universal. Primeiramente, introduzimos um estimador de correspondência de fluxo consciente do período que pode capturar as características periódicas do sinal de forma de onda ao estimar os campos vetoriais. Além disso, utilizamos um estimador multi-período que evita sobreposições para capturar diferentes características periódicas de sinais de forma de onda. Embora aumentar o número de períodos possa melhorar significativamente o desempenho, isso requer mais custos computacionais. Para reduzir esse problema, também propomos um estimador universal condicional de único período que pode avançar por alimentação paralela por inferência em lote por período. Além disso, utilizamos a transformada wavelet discreta para separar sem perdas as informações de frequência de sinais de forma de onda para modelagem de alta frequência, e introduzimos o FreeU para reduzir o ruído de alta frequência para geração de formas de onda. Os resultados experimentais demonstraram que nosso modelo supera os modelos anteriores tanto na reconstrução de Mel-espectrograma quanto nas tarefas de conversão de texto em fala. Todo o código fonte estará disponível em https://github.com/sh-lee-prml/PeriodWave.
Compreender a semântica 3D de uma cena é um problema fundamental para vários cenários, como agentes incorporados. Enquanto NeRFs e 3DGS se destacam na síntese de visualizações inéditas, os métodos anteriores para entender sua semântica têm sido limitados a uma compreensão 3D incompleta: seus resultados de segmentação são máscaras 2D e sua supervisão está ancorada em pixels 2D. Este artigo revisita o conjunto de problemas para buscar uma melhor compreensão 3D de uma cena modelada por NeRFs e 3DGS da seguinte forma. 1) Supervisionamos diretamente os pontos 3D para treinar o campo de incorporação de linguagem. Isso alcança uma precisão de ponta sem depender de incorporações de linguagem em múltiplas escalas. 2) Transferimos o campo de linguagem pré-treinado para 3DGS, alcançando a primeira velocidade de renderização em tempo real sem sacrificar o tempo de treinamento ou a precisão. 3) Introduzimos um protocolo de consulta e avaliação 3D para avaliar a geometria e a semântica reconstruídas juntas. Código, pontos de verificação e anotações estarão disponíveis online. Página do projeto: https://hyunji12.github.io/Open3DRF