Artigos de pesquisa em IA selecionados diariamente com traduções
No ano passado, as arquiteturas multimodais trouxeram uma revolução nas abordagens e soluções baseadas em IA, expandindo as capacidades dos grandes modelos de linguagem (LLM). Propomos um modelo OmniFusion baseado em um LLM pré-treinado e adaptadores para a modalidade visual. Avaliamos e comparamos vários princípios de design de arquitetura para um melhor acoplamento de dados textuais e visuais: adaptadores MLP e transformer, diversos codificadores baseados em CLIP ViT (SigLIP, InternVIT, etc.), sua abordagem de fusão, método de codificação de imagens (codificação da imagem inteira ou em blocos) e dois LLMs de 7B (um proprietário e o Mistral de código aberto). Experimentos em 8 benchmarks de linguagem visual mostram a pontuação máxima para a melhor configuração do OmniFusion em termos de diferentes tarefas de VQA em comparação com soluções de código aberto semelhantes ao LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Também propomos uma variedade de situações em que o OmniFusion fornece respostas altamente detalhadas em diferentes domínios: tarefas domésticas, turismo, cultura, medicina, reconhecimento de equações manuscritas e digitalizadas, etc. O modelo OmniFusion baseado no Mistral é uma solução de código aberto com pesos, scripts de treinamento e inferência disponíveis em https://github.com/AIRI-Institute/OmniFusion.
Grandes modelos de linguagem apenas de decodificação (LLMs) são os modelos de última geração na maioria das tarefas e benchmarks atuais de PLN. No entanto, a comunidade está adotando esses modelos lentamente para tarefas de incorporação de texto, que exigem representações contextualizadas ricas. Neste trabalho, introduzimos o LLM2Vec, uma abordagem simples e não supervisionada que pode transformar qualquer LLM apenas de decodificação em um forte codificador de texto. O LLM2Vec consiste em três etapas simples: 1) habilitação de atenção bidirecional, 2) previsão mascarada do próximo token e 3) aprendizado contrastivo não supervisionado. Demonstramos a eficácia do LLM2Vec aplicando-o a três LLMs populares, variando de 1,3B a 7B parâmetros, e avaliamos os modelos transformados em tarefas de nível de palavra e sequência em inglês. Superamos modelos apenas de codificação por uma grande margem em tarefas de nível de palavra e alcançamos um novo desempenho de última geração não supervisionado no Massive Text Embeddings Benchmark (MTEB). Além disso, ao combinar o LLM2Vec com aprendizado contrastivo supervisionado, alcançamos o desempenho de última geração no MTEB entre os modelos que treinam apenas com dados publicamente disponíveis. Nossos fortes resultados empíricos e análise extensa demonstram que os LLMs podem ser efetivamente transformados em codificadores de texto universais de maneira eficiente em termos de parâmetros, sem a necessidade de adaptação cara ou dados sintéticos gerados pelo GPT-4.
Apresentamos Eagle (RWKV-5) e Finch (RWKV-6), modelos de sequência que aprimoram a arquitetura RWKV (RWKV-4). Nossos avanços no design arquitetônico incluem estados matriciais multi-head e um mecanismo de recorrência dinâmica que melhoram a expressividade enquanto mantêm as características de eficiência de inferência das RNNs. Introduzimos um novo corpus multilíngue com 1,12 trilhão de tokens e um tokenizador rápido baseado em correspondência gananciosa para aprimorar a multilingualidade. Treinamos quatro modelos Eagle, variando de 0,46 a 7,5 bilhões de parâmetros, e dois modelos Finch com 1,6 e 3,1 bilhões de parâmetros, e constatamos que eles alcançam desempenho competitivo em uma ampla variedade de benchmarks. Disponibilizamos todos os nossos modelos no HuggingFace sob a licença Apache 2.0. Modelos em: https://huggingface.co/RWKV Código de treinamento em: https://github.com/RWKV/RWKV-LM Código de inferência em: https://github.com/RWKV/ChatRWKV Código de treinamento paralelo no tempo em: https://github.com/RWKV/RWKV-infctx-trainer
O campo dos Grandes Modelos de Visão e Linguagem (LVLM, na sigla em inglês) tem testemunhado avanços significativos, mas seu progresso tem sido limitado por desafios na compreensão de conteúdo visual detalhado devido à resolução limitada. Esforços recentes têm buscado aprimorar as capacidades de entendimento em alta resolução dos LVLMs, mas eles ainda estão limitados a aproximadamente 1500 x 1500 pixels e restritos a uma faixa de resolução relativamente estreita. Este artigo apresenta o InternLM-XComposer2-4KHD, uma exploração inovadora que eleva as capacidades de resolução dos LVLMs para até 4K HD (3840 x 1600) e além. Ao mesmo tempo, considerando que a resolução ultra-alta pode não ser necessária em todos os cenários, ele suporta uma ampla gama de resoluções diversas, de 336 pixels até o padrão 4K, ampliando significativamente seu escopo de aplicabilidade. Especificamente, esta pesquisa avança o paradigma de divisão de patches ao introduzir uma nova extensão: resolução dinâmica com configuração automática de patches. Ele mantém as proporções de aspecto das imagens de treinamento enquanto varia automaticamente a contagem de patches e configura os layouts com base em um Vision Transformer (ViT) pré-treinado (336 x 336), resultando em uma resolução de treinamento dinâmica que varia de 336 pixels até o padrão 4K. Nossa pesquisa demonstra que escalar a resolução de treinamento até 4K HD leva a melhorias consistentes de desempenho sem atingir um limite de potencial de aprimoramento. O InternLM-XComposer2-4KHD exibe uma capacidade excepcional que iguala ou até supera o GPT-4V e o Gemini Pro em 10 dos 16 benchmarks. A série de modelos InternLM-XComposer2-4KHD com 7 bilhões de parâmetros está disponível publicamente em https://github.com/InternLM/InternLM-XComposer.
O crescente interesse no desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) com até trilhões de parâmetros tem sido acompanhado por preocupações em relação à eficiência de recursos e ao custo prático, especialmente considerando o imenso custo de experimentação. Esse cenário ressalta a importância de explorar o potencial dos Modelos de Linguagem de Pequena Escala (SLMs) como uma alternativa eficiente em termos de recursos. Nesse contexto, apresentamos o MiniCPM, especificamente as variantes de 1,2B e 2,4B de parâmetros não incorporados, que não apenas se destacam em suas respectivas categorias, mas também demonstram capacidades comparáveis a LLMs de 7B-13B. Embora nosso foco esteja nos SLMs, nossa abordagem exibe escalabilidade tanto na dimensão do modelo quanto na de dados para futuras pesquisas em LLMs. Em relação à escalabilidade do modelo, empregamos extensos experimentos em túnel de vento para garantir uma escalabilidade estável e ótima. Para a escalabilidade de dados, introduzimos um agendador de taxa de aprendizado (LRS) Warmup-Stable-Decay (WSD), propício para treinamento contínuo e adaptação de domínio. Apresentamos uma análise detalhada das intrigantes dinâmicas de treinamento que ocorreram no LRS WSD. Com o LRS WSD, agora somos capazes de estudar eficientemente a lei de escalabilidade de dados-modelo sem a necessidade de extensos experimentos de retreinamento em ambos os eixos de modelo e dados, a partir dos quais derivamos uma razão ótima de dados-modelo muito superior à Ótima de Chinchilla. Além disso, introduzimos a família MiniCPM, incluindo MiniCPM-DPO, MiniCPM-MoE e MiniCPM-128K, cujo excelente desempenho consolida ainda mais a base do MiniCPM em diversas aplicações de SLM. Os modelos MiniCPM estão disponíveis publicamente em https://github.com/OpenBMB/MiniCPM.
O ajuste por instrução emergiu como a chave para alinhar grandes modelos de linguagem (LLMs) com instruções específicas de tarefas, mitigando assim a discrepância entre o objetivo de previsão do próximo token e as metas reais dos usuários. Para reduzir o custo de mão de obra e tempo necessário para coletar ou anotar dados manualmente, os pesquisadores começaram a explorar o uso de LLMs para gerar dados sintéticos alinhados com instruções. Trabalhos recentes focam na geração de instruções diversas e na aplicação de LLMs para aumentar a complexidade das instruções, muitas vezes negligenciando os casos de uso downstream. Ainda não está claro como adaptar dados de alta qualidade para elicitar melhores habilidades de seguimento de instruções em diferentes distribuições de instruções alvo e LLMs. Para isso, introduzimos o CodecLM, um framework geral para gerar dados sintéticos de alta qualidade de forma adaptativa, alinhando LLMs com diferentes distribuições de instruções downstream e LLMs. Baseando-se nos princípios de Codificação-Decodificação, usamos LLMs como codecs para guiar o processo de geração de dados. Primeiro, codificamos instruções iniciais em metadados, que são palavras-chave concisas geradas dinamicamente para capturar a distribuição de instruções alvo, e então decodificamos os metadados para criar instruções personalizadas. Também introduzimos Auto-Rubricas e Filtragem Contrastiva durante a decodificação para adaptar amostras de dados eficientes. Experimentos extensivos em quatro benchmarks de seguimento de instruções de domínio aberto validam a eficácia do CodecLM em relação aos métodos state-of-the-art atuais.
Neste artigo, exploramos a aplicação de Modelos de Linguagem de Grande Escala (LLMs) ao pré-treinamento de música. Embora o uso predominante de MIDI na modelagem musical seja bem estabelecido, nossos achados sugerem que os LLMs são intrinsecamente mais compatíveis com a Notação ABC, que se alinha mais de perto com seu design e pontos fortes, melhorando assim o desempenho do modelo na composição musical. Para abordar os desafios associados a medidas desalinhadas de diferentes faixas durante a geração, propomos o desenvolvimento de uma Notação ABC Multi-Faixa Sincronizada (SMT-ABC Notation), que visa preservar a coerência entre múltiplas faixas musicais. Nossas contribuições incluem uma série de modelos capazes de lidar com até 8192 tokens, cobrindo 90\% dos dados de música simbólica em nosso conjunto de treinamento. Além disso, exploramos as implicações da Lei de Escalonamento de Música Simbólica (SMS Law) no desempenho do modelo. Os resultados indicam uma direção promissora para pesquisas futuras em geração musical, oferecendo recursos extensivos para pesquisas lideradas pela comunidade por meio de nossas contribuições de código aberto.
A evolução da modelagem generativa 3D tem sido notavelmente impulsionada pela adoção de modelos de difusão 2D. Apesar desse progresso, o processo de otimização em si representa um obstáculo crítico para a eficiência. Neste artigo, apresentamos o Hash3D, uma aceleração universal para geração 3D sem treinamento de modelos. O cerne do Hash3D é a percepção de que a redundância de mapas de características é prevalente em imagens renderizadas a partir de posições de câmera e intervalos de tempo de difusão próximos. Ao efetivamente hashear e reutilizar esses mapas de características em intervalos de tempo e ângulos de câmera vizinhos, o Hash3D previne substancialmente cálculos redundantes, acelerando assim a inferência do modelo de difusão em tarefas de geração 3D. Isso é alcançado por meio de uma técnica de hashing baseada em grade adaptativa. Surpreendentemente, esse mecanismo de compartilhamento de características não apenas acelera a geração, mas também melhora a suavidade e a consistência visual dos objetos 3D sintetizados. Nossos experimentos, abrangendo 5 modelos de texto-para-3D e 3 modelos de imagem-para-3D, demonstram a versatilidade do Hash3D em acelerar a otimização, aumentando a eficiência em 1,3 a 4 vezes. Além disso, a integração do Hash3D com o splatting de Gaussianas 3D acelera significativamente a criação de modelos 3D, reduzindo o processamento de texto-para-3D para cerca de 10 minutos e a conversão de imagem-para-3D para aproximadamente 30 segundos. A página do projeto está em https://adamdad.github.io/hash3D/.
Apesar da ampla disponibilidade de LLMs (Modelos de Linguagem de Grande Escala), ainda existe uma lacuna significativa em suas capacidades e disponibilidade em diversos idiomas. Uma abordagem para lidar com esses problemas tem sido pegar um LLM pré-treinado existente e continuar a treiná-lo em novos idiomas. Embora trabalhos anteriores tenham experimentado com adaptação de idiomas, muitas questões sobre as melhores práticas e metodologias ainda não foram abordadas. Neste artigo, apresentamos uma investigação abrangente sobre a adaptação de LLMs a novos idiomas. Nosso estudo cobre os componentes-chave desse processo, incluindo extensão de vocabulário, otimização direta de preferências e o problema de escassez de dados para alinhamento humano em idiomas de baixos recursos. Escalonamos esses experimentos em 9 idiomas e 2 escalas de parâmetros (7B e 70B). Comparamos nossos modelos com Llama 2, Aya-101, XGLM, BLOOM e especialistas linguísticos existentes, superando todas as linhas de base publicadas anteriormente. Além disso, todo o código de avaliação e checkpoints são disponibilizados publicamente para facilitar pesquisas futuras.
A geração de texto-para-3D alcançou sucesso notável por meio de modelos de difusão em larga escala de texto-para-imagem. No entanto, não existe um paradigma para escalar a metodologia para o nível urbano. Cenas urbanas, caracterizadas por numerosos elementos, relações de arranjo intrincadas e escala vasta, apresentam uma barreira formidável à interpretabilidade de descrições textuais ambíguas para uma otimização eficaz do modelo. Neste trabalho, superamos essas limitações ao introduzir uma representação composicional de layout 3D no paradigma texto-para-3D, servindo como um prior adicional. Ela compreende um conjunto de primitivos semânticos com estruturas geométricas simples e relações de arranjo explícitas, complementando descrições textuais e permitindo geração direcionável. Com base nisso, propomos duas modificações — (1) Introduzimos a Distilação de Pontuação Variacional Guiada por Layout para abordar inadequações na otimização do modelo. Ela condiciona o processo de amostragem de distilação de pontuação com restrições geométricas e semânticas de layouts 3D. (2) Para lidar com a natureza ilimitada das cenas urbanas, representamos a cena 3D com uma estrutura de Grade de Hash Escalável, adaptando-se incrementalmente à escala crescente das cenas urbanas. Experimentos extensivos comprovam a capacidade de nossa estrutura de escalar a geração texto-para-3D para cenas urbanas em larga escala que cobrem mais de 1000m de distância de condução pela primeira vez. Também apresentamos várias demonstrações de edição de cena, mostrando os poderes da geração direcionável de cenas urbanas. Website: https://urbanarchitect.github.io.
Neste artigo, abordamos as limitações do Controle Adaptativo de Densidade (ADC) no Splatting Gaussiano 3D (3DGS), um método de representação de cena que alcança resultados fotorealísticos de alta qualidade para síntese de novas visões. O ADC foi introduzido para o gerenciamento automático de primitivas de pontos 3D, controlando a densificação e a poda, porém com certas limitações na lógica de densificação. Nossa principal contribuição é uma formulação mais fundamentada e orientada por erro de pixel para o controle de densidade no 3DGS, utilizando uma função auxiliar de erro por pixel como critério para densificação. Além disso, introduzimos um mecanismo para controlar o número total de primitivas geradas por cena e corrigimos um viés na estratégia atual de manipulação de opacidade do ADC durante operações de clonagem. Nossa abordagem resulta em melhorias consistentes de qualidade em uma variedade de cenas de benchmark, sem sacrificar a eficiência do método.
Beneficiando-se do rápido desenvolvimento dos modelos de difusão 2D, a criação de conteúdo 3D tem feito progressos significativos recentemente. Uma solução promissora envolve o ajuste fino de modelos de difusão 2D pré-treinados para aproveitar sua capacidade de produzir imagens multi-visão, que são então convertidas em modelos 3D precisos por meio de métodos como fast-NeRFs ou grandes modelos de reconstrução. No entanto, como ainda existem inconsistências e a resolução gerada é limitada, os resultados gerados por esses métodos ainda carecem de texturas intrincadas e geometrias complexas. Para resolver esse problema, propomos o Magic-Boost, um modelo de difusão condicionado a multi-visão que refina significativamente os resultados gerativos grosseiros por meio de um breve período de otimização SDS (sim15min). Comparado aos modelos de difusão baseados em texto ou imagem única anteriores, o Magic-Boost exibe uma capacidade robusta de gerar imagens com alta consistência a partir de imagens multi-visão pseudo-sintetizadas. Ele fornece uma orientação SDS precisa que se alinha bem com a identidade das imagens de entrada, enriquecendo os detalhes locais tanto na geometria quanto na textura dos resultados gerativos iniciais. Experimentos extensivos mostram que o Magic-Boost melhora significativamente as entradas grosseiras e gera ativos 3D de alta qualidade com ricos detalhes geométricos e texturais. (Página do Projeto: https://magic-research.github.io/magic-boost/)
Objetos manipulados pela mão (ou seja, manipulanda) são particularmente desafiadores de reconstruir a partir de imagens ou vídeos RGB capturados em ambientes reais. Não apenas a mão oclui grande parte do objeto, mas também o objeto frequentemente é visível apenas em um pequeno número de pixels da imagem. Ao mesmo tempo, dois fortes pontos de referência surgem nesse cenário: (1) mãos 3D estimadas ajudam a desambiguar a localização e a escala do objeto, e (2) o conjunto de manipulanda é pequeno em relação a todos os objetos possíveis. Com esses insights em mente, apresentamos um paradigma escalável para a reconstrução de objetos segurados pela mão, que se baseia em avanços recentes em modelos de linguagem/visão de grande escala e conjuntos de dados de objetos 3D. Nosso modelo, MCC-Hand-Object (MCC-HO), reconstrói conjuntamente a geometria da mão e do objeto a partir de uma única imagem RGB e de uma mão 3D inferida como entradas. Posteriormente, usamos o GPT-4(V) para recuperar um modelo 3D do objeto que corresponda ao objeto na imagem e alinhamos rigidamente o modelo à geometria inferida pela rede; chamamos esse alinhamento de Reconstrução Aumentada por Recuperação (RAR). Experimentos demonstram que o MCC-HO alcança desempenho de ponta em conjuntos de dados de laboratório e da Internet, e mostramos como o RAR pode ser usado para obter automaticamente rótulos 3D para imagens de interações mão-objeto capturadas em ambientes reais.
Embora muitos tenham demonstrado como os Modelos de Linguagem de Grande Escala (LLMs) podem ser aplicados a uma diversidade de tarefas, as questões críticas de contaminação de dados e memorização são frequentemente negligenciadas. Neste trabalho, abordamos essa preocupação especificamente para dados tabulares. Introduzimos uma variedade de técnicas diferentes para avaliar se um modelo de linguagem foi exposto a um conjunto de dados tabulares durante o treinamento. Essa investigação revela que os LLMs memorizaram muitos conjuntos de dados tabulares populares de forma literal. Em seguida, comparamos o desempenho de aprendizado few-shot dos LLMs em conjuntos de dados que foram vistos durante o treinamento com o desempenho em conjuntos de dados lançados após o treinamento. Descobrimos que os LLMs têm um desempenho melhor em conjuntos de dados vistos durante o treinamento, indicando que a memorização leva ao overfitting. Ao mesmo tempo, os LLMs mostram um desempenho não trivial em conjuntos de dados novos e são surpreendentemente robustos a transformações de dados. Também investigamos as habilidades de aprendizado estatístico in-context dos LLMs. Sem fine-tuning, descobrimos que elas são limitadas. Isso sugere que grande parte do desempenho few-shot em conjuntos de dados novos se deve ao conhecimento de mundo do LLM. No geral, nossos resultados destacam a importância de testar se um LLM foi exposto a um conjunto de dados de avaliação durante o pré-treinamento. Disponibilizamos os testes de exposição que desenvolvemos como o pacote Python tabmemcheck em https://github.com/interpretml/LLM-Tabular-Memorization-Checker.