Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem pré-treinados são a base de várias aplicações de IA, mas seu alto custo computacional para treinamento limita a acessibilidade. Iniciativas como BLOOM e StarCoder visam democratizar o acesso a modelos pré-treinados para o desenvolvimento colaborativo da comunidade. No entanto, esses modelos existentes enfrentam desafios: capacidades multilíngues limitadas, pré-treinamento contínuo causando esquecimento catastrófico, enquanto o pré-treinamento a partir do zero é computacionalmente caro, e a conformidade com as leis de segurança e desenvolvimento de IA. Este artigo apresenta o Aurora-M, um modelo multilíngue de código aberto com 15 bilhões de parâmetros, treinado em inglês, finlandês, hindi, japonês, vietnamita e código. Pré-treinado continuamente a partir do StarCoderPlus em 435 bilhões de tokens adicionais, o Aurora-M ultrapassa 2 trilhões de tokens no total de tokens de treinamento. É o primeiro modelo multilíngue de código aberto ajustado com instruções de segurança revisadas por humanos, alinhando seu desenvolvimento não apenas com considerações convencionais de red-teaming, mas também com as preocupações específicas articuladas na Ordem Executiva Biden-Harris sobre o Desenvolvimento e Uso Seguro, Seguro e Confiável da Inteligência Artificial. O Aurora-M é rigorosamente avaliado em várias tarefas e idiomas, demonstrando robustez contra o esquecimento catastrófico e superando alternativas em configurações multilíngues, particularmente em avaliações de segurança. Para promover o desenvolvimento responsável de LLMs de código aberto, o Aurora-M e suas variantes são lançados em https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.
Uma das principais deficiências dos modelos atuais de texto para imagem (T2I) é a incapacidade de gerar consistentemente imagens que sigam fielmente as relações espaciais especificadas no prompt de texto. Neste artigo, oferecemos uma investigação abrangente dessa limitação, ao mesmo tempo em que desenvolvemos conjuntos de dados e métodos que alcançam desempenho de ponta. Primeiro, descobrimos que os conjuntos de dados atuais de visão e linguagem não representam bem as relações espaciais; para aliviar esse gargalo, criamos o SPRIGHT, o primeiro conjunto de dados em grande escala focado em aspectos espaciais, ao recaptar 6 milhões de imagens de 4 conjuntos de dados de visão amplamente utilizados. Por meio de um pipeline de avaliação e análise tripla, constatamos que o SPRIGHT melhora significativamente os conjuntos de dados existentes na captura de relações espaciais. Para demonstrar sua eficácia, utilizamos apenas ~0,25% do SPRIGHT e alcançamos uma melhoria de 22% na geração de imagens espacialmente precisas, além de melhorar as pontuações FID e CMMD. Em segundo lugar, descobrimos que o treinamento em imagens contendo um grande número de objetos resulta em melhorias substanciais na consistência espacial. Notavelmente, alcançamos o estado da arte no T2I-CompBench com uma pontuação espacial de 0,2133, ao ajustar finamente menos de 500 imagens. Por fim, por meio de um conjunto de experimentos controlados e ablações, documentamos várias descobertas que acreditamos que aprimorarão a compreensão dos fatores que afetam a consistência espacial em modelos de texto para imagem. Disponibilizamos publicamente nosso conjunto de dados e modelo para fomentar pesquisas adicionais nessa área.
A geração de conteúdo 3D a partir de prompts de texto ou imagens únicas tem feito progressos notáveis em qualidade e velocidade recentemente. Um dos paradigmas dominantes envolve a geração de imagens multi-visão consistentes, seguidas por uma reconstrução de visão esparsa. No entanto, devido ao desafio de deformar diretamente a representação de malha para se aproximar da topologia alvo, a maioria das metodologias aprende uma representação implícita (como NeRF) durante a reconstrução de visão esparsa e adquire a malha alvo por meio de uma extração pós-processamento. Embora a representação implícita possa modelar efetivamente informações 3D ricas, seu treinamento normalmente envolve um longo tempo de convergência. Além disso, a operação de pós-extração do campo implícito também leva a artefatos visuais indesejáveis. Neste artigo, propomos o FlexiDreamer, uma nova estrutura de geração de imagem única para 3D que reconstrói a malha alvo de maneira end-to-end. Ao aproveitar uma extração flexível baseada em gradiente conhecida como FlexiCubes, nosso método contorna os defeitos trazidos pelo pós-processamento e facilita a aquisição direta da malha alvo. Além disso, incorporamos um esquema de codificação de grade de hash multi-resolução que ativa progressivamente os níveis de codificação no campo implícito do FlexiCubes para ajudar a capturar detalhes geométricos para otimização por etapa. Notavelmente, o FlexiDreamer recupera uma estrutura 3D densa a partir de uma imagem de visão única em aproximadamente 1 minuto em uma única GPU NVIDIA A100, superando as metodologias anteriores por uma grande margem.
A geração de cenas 3D a partir de condições especificadas pelo usuário oferece uma abordagem promissora para aliviar o fardo de produção em aplicações 3D. Estudos anteriores exigiam um esforço significativo para realizar a cena desejada, devido às condições de controle limitadas. Propomos um método para controlar e gerar cenas 3D sob condições multimodais utilizando imagens parciais, informações de layout representadas na vista superior e prompts de texto. Combinar essas condições para gerar uma cena 3D envolve as seguintes dificuldades significativas: (1) a criação de grandes conjuntos de dados, (2) a consideração da interação de condições multimodais e (3) a dependência de domínio das condições de layout. Decompomos o processo de geração de cenas 3D em geração de imagens 2D a partir das condições dadas e geração de cenas 3D a partir de imagens 2D. A geração de imagens 2D é alcançada por meio do ajuste fino de um modelo pré-treinado de texto para imagem com um pequeno conjunto de dados artificiais de imagens parciais e layouts, e a geração de cenas 3D é realizada por meio de estimativa de profundidade condicionada ao layout e campos de radiação neural (NeRF), evitando assim a criação de grandes conjuntos de dados. O uso de uma representação comum de informações espaciais utilizando imagens de 360 graus permite a consideração das interações de condições multimodais e reduz a dependência de domínio do controle de layout. Os resultados experimentais demonstraram qualitativa e quantitativamente que o método proposto pode gerar cenas 3D em diversos domínios, de ambientes internos a externos, de acordo com condições multimodais.
Modelos generativos são agora amplamente utilizados por designers gráficos e artistas. Trabalhos anteriores demonstraram que esses modelos memorizam e frequentemente replicam conteúdo de seus dados de treinamento durante a geração. Portanto, à medida que sua proliferação aumenta, tornou-se importante realizar uma busca em banco de dados para determinar se as propriedades da imagem são atribuíveis a dados específicos de treinamento, sempre antes que uma imagem gerada seja usada para fins profissionais. As ferramentas existentes para esse propósito focam na recuperação de imagens com conteúdo semântico similar. Enquanto isso, muitos artistas estão preocupados com a replicação de estilo em modelos de texto para imagem. Apresentamos um framework para compreender e extrair descritores de estilo de imagens. Nosso framework compreende um novo conjunto de dados curado utilizando a percepção de que o estilo é uma propriedade subjetiva de uma imagem que captura interações complexas, mas significativas, de fatores incluindo, mas não se limitando a cores, texturas, formas, etc. Também propomos um método para extrair descritores de estilo que podem ser usados para atribuir o estilo de uma imagem gerada às imagens utilizadas no conjunto de treinamento de um modelo de texto para imagem. Demonstramos resultados promissores em várias tarefas de recuperação de estilo. Também analisamos quantitativa e qualitativamente a atribuição e correspondência de estilo no modelo Stable Diffusion. Código e artefatos estão disponíveis em https://github.com/learn2phoenix/CSD.
Apresentamos o CosmicMan, um modelo de base text-to-image especializado na geração de imagens humanas de alta fidelidade. Diferente dos modelos de base de propósito geral atuais, que enfrentam o dilema de qualidade inferior e desalinhamento texto-imagem para humanos, o CosmicMan permite a geração de imagens humanas foto-realistas com aparência meticulosa, estrutura razoável e alinhamento preciso entre texto e imagem, acompanhadas de descrições densas e detalhadas. No cerne do sucesso do CosmicMan estão novas reflexões e perspectivas sobre dados e modelos: (1) Descobrimos que a qualidade dos dados e um fluxo escalável de produção de dados são essenciais para os resultados finais dos modelos treinados. Portanto, propomos um novo paradigma de produção de dados, Annotate Anyone, que serve como um volante perpétuo de dados para produzir dados de alta qualidade com anotações precisas e custo-efetivas ao longo do tempo. Com base nisso, construímos um conjunto de dados em larga escala, o CosmicMan-HQ 1.0, com 6 milhões de imagens humanas reais de alta qualidade em uma resolução média de 1488x1255, acompanhadas de anotações textuais precisas derivadas de 115 milhões de atributos em diversas granularidades. (2) Argumentamos que um modelo de base text-to-image especializado para humanos deve ser pragmático — fácil de integrar em tarefas subsequentes, ao mesmo tempo eficaz na produção de imagens humanas de alta qualidade. Assim, propomos modelar a relação entre descrições textuais densas e pixels de imagem de maneira decomposta, e apresentamos o framework de treinamento Decomposed-Attention-Refocusing (Daring). Ele decompõe de forma contínua as características de atenção cruzada em modelos de difusão text-to-image existentes e reforça o redirecionamento de atenção sem adicionar módulos extras. Através do Daring, mostramos que a discretização explícita do espaço textual contínuo em vários grupos básicos que se alinham com a estrutura do corpo humano é a chave para resolver o problema de desalinhamento com facilidade.
Apresentamos a Rede Neural Condicionalmente Consciente (CAN), um novo método para adicionar controle a modelos generativos de imagens. Paralelamente aos métodos de controle condicional anteriores, a CAN controla o processo de geração de imagens manipulando dinamicamente o peso da rede neural. Isso é alcançado pela introdução de um módulo de geração de pesos condicionalmente consciente, que gera pesos condicionais para camadas de convolução/linear com base na condição de entrada. Testamos a CAN na geração de imagens condicionadas por classe no ImageNet e na geração de imagens a partir de texto no COCO. A CAN consistentemente oferece melhorias significativas para modelos de transformadores de difusão, incluindo DiT e UViT. Em particular, a CAN combinada com o EfficientViT (CaT) alcança 2,78 de FID no ImageNet 512x512, superando o DiT-XL/2 enquanto requer 52 vezes menos MACs por etapa de amostragem.
Um modelo ideal para descrição densa de vídeos -- prever legendas localizadas temporalmente em um vídeo -- deve ser capaz de lidar com vídeos longos, prever descrições textuais ricas e detalhadas, e gerar saídas antes de processar o vídeo inteiro. No entanto, os modelos atuais de última geração processam um número fixo de quadros reduzidos e fazem uma única previsão completa após ver o vídeo inteiro. Propomos um modelo de descrição densa de vídeos em fluxo contínuo que consiste em dois novos componentes: Primeiro, propomos um novo módulo de memória, baseado no agrupamento de tokens recebidos, que pode lidar com vídeos arbitrariamente longos, pois a memória tem um tamanho fixo. Segundo, desenvolvemos um algoritmo de decodificação em fluxo contínuo que permite ao nosso modelo fazer previsões antes que o vídeo inteiro seja processado. Nosso modelo alcança essa capacidade de fluxo contínuo e melhora significativamente o estado da arte em três benchmarks de descrição densa de vídeos: ActivityNet, YouCook2 e ViTT. Nosso código está disponível em https://github.com/google-research/scenic.
Técnicas de modelagem de preferências, como a otimização direta de preferências (DPO), têm se mostrado eficazes para aprimorar as habilidades de generalização de modelos de linguagem de grande escala (LLM). No entanto, em tarefas que envolvem a execução de instruções baseadas em vídeo, fornecer feedback informativo, especialmente para detectar alucinações em respostas geradas, continua sendo um desafio significativo. Estudos anteriores exploraram o uso de grandes modelos multimodais (LMMs) como modelos de recompensa para orientar a modelagem de preferências, mas sua capacidade de avaliar com precisão a factualidade das respostas geradas em comparação com os vídeos correspondentes ainda não foi conclusivamente estabelecida. Este artigo introduz uma nova estrutura que utiliza legendas detalhadas de vídeo como um proxy do conteúdo do vídeo, permitindo que modelos de linguagem incorporem essas informações como evidências de suporte para pontuar previsões em tarefas de Questionamento e Resposta (QA) baseadas em vídeo. Nossa abordagem demonstra uma forte alinhamento com o mecanismo de recompensa do modelo GPT-4V da OpenAI, que utiliza diretamente quadros de vídeo como entrada. Além disso, mostramos que a aplicação dessa recompensa personalizada por meio da DPO melhora significativamente o desempenho de LMMs em tarefas de QA baseadas em vídeo.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) revolucionaram o campo do processamento de linguagem natural, ampliando progressivamente seu escopo para percepção e geração multimodal. No entanto, integrar efetivamente capacidades de escuta em LLMs apresenta desafios significativos, particularmente no que diz respeito à generalização em contextos variados e à execução de tarefas auditivas complexas. Neste trabalho, apresentamos o WavLLM, um modelo robusto e adaptável de linguagem de grande escala para fala com codificadores duplos e um adaptador de pesos LoRA consciente de prompts, otimizado por uma abordagem de aprendizado curricular em duas etapas. Aproveitando os codificadores duplos, desacoplamos diferentes tipos de informações de fala, utilizando um codificador Whisper para processar o conteúdo semântico da fala e um codificador WavLM para capturar as características únicas da identidade do falante. Dentro do framework de aprendizado curricular, o WavLLM primeiro constrói suas capacidades fundamentais otimizando em tarefas elementares únicas mistas, seguido por treinamento avançado em múltiplas tarefas mais complexas, como combinações das tarefas elementares. Para aumentar a flexibilidade e aderência a diferentes tarefas e instruções, um adaptador de pesos LoRA consciente de prompts é introduzido na segunda etapa avançada de treinamento em múltiplas tarefas. Validamos o modelo proposto em benchmarks universais de fala, incluindo tarefas como ASR, ST, SV, ER, e também o aplicamos a conjuntos de dados especializados, como o conjunto de compreensão auditiva de inglês do Gaokao para SQA e o conjunto de avaliação de Chain-of-Thought (CoT) em fala. Os experimentos demonstram que o modelo proposto alcança desempenho de ponta em uma variedade de tarefas de fala com o mesmo tamanho de modelo, exibindo capacidades robustas de generalização na execução de tarefas complexas usando a abordagem CoT. Além disso, nosso modelo completa com sucesso tarefas do Gaokao sem treinamento especializado. Os códigos, modelos, áudios e o conjunto de avaliação do Gaokao podem ser acessados em aka.ms/wavllm.
Um documento visualmente rico (VRD) utiliza características visuais juntamente com pistas linguísticas para disseminar informações. Treinar um extrator personalizado que identifica entidades nomeadas a partir de um documento requer um grande número de instâncias do tipo de documento alvo anotadas nas modalidades textual e visual. Isso representa um gargalo caro em cenários empresariais, onde desejamos treinar extratores personalizados para milhares de diferentes tipos de documentos de forma escalável. Pré-treinar um modelo extrator em instâncias não rotuladas do tipo de documento alvo, seguido por uma etapa de ajuste fino em instâncias rotuladas por humanos, não funciona nesses cenários, pois excede o tempo máximo de treinamento permitido alocado para o extrator. Abordamos esse cenário propondo um método de Treinamento Consciente de Ruído, ou NAT, neste artigo. Em vez de adquirir documentos caros rotulados por humanos, o NAT utiliza documentos fracamente rotulados para treinar um extrator de forma escalável. Para evitar a degradação na qualidade do modelo devido a amostras ruidosas e fracamente rotuladas, o NAT estima a confiança de cada amostra de treinamento e a incorpora como medida de incerteza durante o treinamento. Treinamos vários modelos extrator de última geração usando o NAT. Experimentos em diversos conjuntos de dados disponíveis publicamente e internos mostram que os modelos treinados com NAT não apenas são robustos em desempenho — superando uma linha de base de transferência de aprendizado em até 6% em termos de pontuação macro-F1 — mas também são mais eficientes em termos de rótulos — reduzindo a quantidade de esforço humano necessário para obter desempenho comparável em até 73%.
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm demonstrado capacidades impressionantes na compreensão e geração de texto, impulsionando esforços de pesquisa em direção a LLMs de vídeo para facilitar a interação humano-IA no nível de vídeo. No entanto, como codificar e entender vídeos de forma eficaz em sistemas de diálogo baseados em vídeo ainda é um desafio a ser resolvido. Neste artigo, investigamos uma questão simples, mas ainda não explorada: Podemos alimentar todos os tokens espaço-temporais no LLM, delegando assim a tarefa de modelagem de sequência de vídeo aos LLMs? Surpreendentemente, essa abordagem simples resulta em melhorias significativas na compreensão de vídeos. Com base nisso, propomos o ST-LLM, uma linha de base eficaz de LLM de vídeo com modelagem de sequência Espaço-Temporal dentro do LLM. Além disso, para lidar com os problemas de sobrecarga e estabilidade introduzidos pelos tokens de vídeo não compactados dentro dos LLMs, desenvolvemos uma estratégia de mascaramento dinâmico com objetivos de treinamento personalizados. Para vídeos particularmente longos, também projetamos um módulo de entrada global-local para equilibrar eficiência e eficácia. Consequentemente, aproveitamos o LLM para uma modelagem espaço-temporal proficiente, mantendo a eficiência e a estabilidade. Resultados experimentais extensivos atestam a eficácia do nosso método. Por meio de um modelo e pipeline de treinamento mais concisos, o ST-LLM estabelece um novo estado da arte no VideoChatGPT-Bench e no MVBench. Os códigos estão disponíveis em https://github.com/TencentARC/ST-LLM.