Artigos de pesquisa em IA selecionados diariamente com traduções
O rápido desenvolvimento de grandes modelos de linguagem e visão (LLVMs) tem sido impulsionado por avanços no ajuste fino de instruções visuais. Recentemente, LLVMs de código aberto têm curado conjuntos de dados de alta qualidade para ajuste fino de instruções visuais e utilizado codificadores de visão adicionais ou múltiplos modelos de visão computacional para reduzir a lacuna de desempenho em relação aos poderosos LLVMs de código fechado. Esses avanços são atribuídos às informações multifacetadas necessárias para diversas capacidades, incluindo compreensão fundamental de imagens, conhecimento do mundo real sobre conceitos de senso comum e não objetos (por exemplo, gráficos, diagramas, símbolos, sinais e problemas matemáticos), e procedimentos passo a passo para resolver questões complexas. Com base nessas informações multifacetadas, apresentamos um novo LLVM eficiente, o Mamba-based traversal of rationales (Meteor), que aproveita racionais multifacetados para aprimorar as capacidades de compreensão e resposta. Para incorporar racionais extensos contendo informações abundantes, empregamos a arquitetura Mamba, capaz de processar dados sequenciais com complexidade de tempo linear. Introduzimos um novo conceito de travessia de racional que facilita a incorporação eficiente de racionais. Posteriormente, o modelo multimodal de linguagem (MLM) principal é treinado para gerar respostas com o auxílio de racionais. Por meio dessas etapas, o Meteor alcança melhorias significativas no desempenho de linguagem visual em diversos benchmarks de avaliação que exigem múltiplas capacidades, sem aumentar o tamanho do modelo ou empregar codificadores de visão e modelos de visão computacional adicionais.
Modelos Multimodais de Grande Escala de Alta Resolução (LMMs) enfrentam os desafios de tokens visuais excessivos e complexidade visual quadrática. Os LMMs de alta resolução atuais abordam a complexidade quadrática, mas ainda geram tokens visuais excessivos. No entanto, a redundância nos tokens visuais é o principal problema, pois leva a um custo computacional mais substancial. Para mitigar essa questão, propomos o ConvLLaVA, que emprega o ConvNeXt, uma arquitetura hierárquica, como o codificador visual do LMM para substituir o Vision Transformer (ViT). O ConvLLaVA comprime imagens de alta resolução em características visuais ricas em informação, prevenindo efetivamente a geração de tokens visuais excessivos. Para aprimorar as capacidades do ConvLLaVA, propomos duas otimizações críticas. Como o ConvNeXt pré-treinado em baixa resolução tem desempenho inferior quando aplicado diretamente em alta resolução, o atualizamos para reduzir essa lacuna. Além disso, como a taxa de compressão original do ConvNeXt é inadequada para entradas de resolução muito mais alta, treinamos um estágio sucessivo para comprimir ainda mais os tokens visuais, reduzindo assim a redundância. Essas otimizações permitem que o ConvLLaVA suporte entradas de resolução 1536x1536, gerando apenas 576 tokens visuais, capazes de lidar com imagens de proporções arbitrárias. Resultados experimentais demonstram que nosso método alcança desempenho competitivo com os modelos state-of-the-art em benchmarks principais. A série de modelos ConvLLaVA está disponível publicamente em https://github.com/alibaba/conv-llava.
Investigamos se os transformadores podem aprender a raciocinar implicitamente sobre conhecimento paramétrico, uma habilidade com a qual até os modelos de linguagem mais capazes lutam. Focando em dois tipos representativos de raciocínio, composição e comparação, consistentemente descobrimos que os transformadores podem aprender raciocínio implícito, mas apenas através do fenômeno de "grokking", ou seja, treinamento prolongado muito além do ponto de sobreajuste. Os níveis de generalização também variam entre os tipos de raciocínio: ao enfrentar exemplos fora da distribuição, os transformadores falham em generalizar sistematicamente para a composição, mas têm sucesso na comparação. Investigamos os mecanismos internos do modelo ao longo do treinamento, conduzindo experimentos analíticos que revelam: 1) o mecanismo por trás do grokking, como a formação do circuito generalizador e sua relação com a eficiência relativa dos circuitos de generalização e memorização, e 2) a conexão entre a sistematicidade e a configuração do circuito generalizador. Nossas descobertas orientam a configuração de dados e treinamento para melhor induzir o raciocínio implícito e sugerem melhorias potenciais na arquitetura do transformador, como o incentivo ao compartilhamento de conhecimento entre camadas. Além disso, demonstramos que, para uma tarefa desafiadora de raciocínio com um grande espaço de busca, o GPT-4-Turbo e o Gemini-1.5-Pro, baseados em memória não paramétrica, falham drasticamente, independentemente dos estilos de prompt ou da ampliação de recuperação, enquanto um transformador totalmente "grokked" pode alcançar precisão quase perfeita, destacando o poder da memória paramétrica para raciocínios complexos.
Este relatório técnico apresenta o Aya 23, uma família de modelos de linguagem multilíngue. O Aya 23 se baseia no lançamento recente do modelo Aya (\"Ust\"un et al., 2024), com foco na combinação de um modelo pré-treinado de alto desempenho com a coleção Aya recentemente lançada (Singh et al., 2024). O resultado é um poderoso modelo de linguagem de grande escala que atende a 23 idiomas, expandindo as capacidades de modelagem de linguagem de ponta para aproximadamente metade da população mundial. Enquanto o modelo Aya cobria 101 idiomas, o Aya 23 é um experimento em profundidade versus abrangência, explorando o impacto de alocar mais capacidade a um número menor de idiomas incluídos durante o pré-treinamento. O Aya 23 supera tanto os modelos massivamente multilíngues anteriores, como o Aya 101, para os idiomas que cobre, quanto modelos amplamente utilizados, como Gemma, Mistral e Mixtral, em uma ampla gama de tarefas discriminativas e generativas. Disponibilizamos os pesos abertos para os modelos de 8B e 35B como parte de nosso compromisso contínuo em expandir o acesso ao progresso multilíngue.
LLMs são computacionalmente caros de pré-treinar devido à sua grande escala. O crescimento de modelos surge como uma abordagem promissora ao aproveitar modelos menores para acelerar o treinamento de modelos maiores. No entanto, a viabilidade desses métodos de crescimento de modelos no pré-treinamento eficiente de LLMs ainda é pouco explorada. Este trabalho identifica três obstáculos críticos: (O1) falta de avaliação abrangente, (O2) viabilidade não testada para escalonamento e (O3) falta de diretrizes empíricas. Para abordar O1, resumimos as abordagens existentes em quatro operadores atômicos de crescimento e os avaliamos sistematicamente em um ambiente padronizado de pré-treinamento de LLM. Nossos resultados revelam que um operador de empilhamento em profundidade, chamado G_{stack}, exibe uma aceleração notável no treinamento, levando a uma redução da perda e a uma melhoria no desempenho geral em oito benchmarks padrão de NLP em comparação com baselines fortes. Motivados por esses resultados promissores, realizamos experimentos extensos para investigar mais profundamente o G_{stack} a fim de abordar O2 e O3. Para O2 (escalonabilidade não testada), nosso estudo mostra que o G_{stack} é escalável e tem um desempenho consistente, com experimentos em LLMs de até 7B após o crescimento e pré-treinamento de LLMs com 750B de tokens. Por exemplo, em comparação com um modelo de 7B treinado convencionalmente usando 300B de tokens, nosso modelo G_{stack} converge para a mesma perda com 194B de tokens, resultando em uma aceleração de 54,6%. Abordamos ainda O3 (falta de diretrizes empíricas) ao formalizar diretrizes para determinar o momento do crescimento e o fator de crescimento para o G_{stack}, tornando-o prático no pré-treinamento geral de LLMs. Também fornecemos discussões detalhadas e estudos abrangentes de ablação do G_{stack}. Nosso código e modelo pré-treinado estão disponíveis em https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
Os cronogramas de taxa de aprendizagem existentes que não exigem a especificação do passo de parada da otimização T são significativamente superados por cronogramas de taxa de aprendizagem que dependem de T. Propomos uma abordagem que evita a necessidade desse tempo de parada ao abandonar completamente o uso de cronogramas, ao mesmo tempo em que exibe desempenho de ponta em comparação com cronogramas em uma ampla família de problemas, desde problemas convexos até problemas de aprendizado profundo em larga escala. Nossa abordagem "Schedule-Free" não introduz hiperparâmetros adicionais em relação aos otimizadores padrão com momento. Nosso método é uma consequência direta de uma nova teoria que desenvolvemos, que unifica o agendamento e a média de iterações. Uma implementação de código aberto do nosso método está disponível (https://github.com/facebookresearch/schedule_free).
Apresentamos o AutoCoder, o primeiro Modelo de Linguagem de Grande Porte a superar o GPT-4 Turbo (abril de 2024) e o GPT-4o em pass@1 no teste de referência Human Eval (90,9% vs. 90,2%). Além disso, o AutoCoder oferece um interpretador de código mais versátil em comparação com o GPT-4 Turbo e o GPT-4o. Seu interpretador de código pode instalar pacotes externos, em vez de se limitar a pacotes embutidos. Os dados de treinamento do AutoCoder são um conjunto de dados de diálogo multietapa criado por um sistema que combina interação de agentes e verificação de execução de código externo, um método que denominamos \textsc{AIEV-Instruct} (Ajuste de Instruções com Interação de Agentes e Verificação de Execução). Em comparação com métodos anteriores de geração de grandes conjuntos de dados de código, o AIEV-Instruct reduz a dependência de modelos grandes proprietários e fornece um conjunto de dados de código validado por execução. O código e o vídeo de demonstração estão disponíveis em https://github.com/bin123apple/AutoCoder.
Apresentamos um novo sistema de modelagem 3D generativo, denominado CraftsMan, que pode gerar geometrias 3D de alta fidelidade com formas altamente variadas, topologias de malha regulares e superfícies detalhadas, e, notavelmente, permite refinar a geometria de maneira interativa. Apesar dos avanços significativos na geração 3D, os métodos existentes ainda enfrentam desafios com processos de otimização demorados, topologias de malha irregulares, superfícies ruidosas e dificuldades em acomodar edições do usuário, consequentemente impedindo sua adoção generalizada e implementação em softwares de modelagem 3D. Nosso trabalho é inspirado no artesão, que geralmente esboça a figura holística da obra primeiro e elabora os detalhes da superfície posteriormente. Especificamente, empregamos um modelo de difusão 3D nativo, que opera em um espaço latente aprendido a partir de representações 3D baseadas em conjuntos latentes, para gerar geometrias grosseiras com topologia de malha regular em segundos. Em particular, esse processo recebe como entrada um prompt de texto ou uma imagem de referência e aproveita um poderoso modelo de difusão multi-visão (MV) para gerar múltiplas visões da geometria grosseira, que são alimentadas em nosso modelo de difusão 3D condicionado por MV para gerar a geometria 3D, melhorando significativamente a robustez e a generalização. Em seguida, um refinador de geometria baseado em normais é usado para aprimorar significativamente os detalhes da superfície. Esse refinamento pode ser realizado automaticamente ou de forma interativa com edições fornecidas pelo usuário. Experimentos extensivos demonstram que nosso método alcança alta eficácia na produção de ativos 3D de qualidade superior em comparação com os métodos existentes. Página inicial: https://craftsman3d.github.io/, Código: https://github.com/wyysf-98/CraftsMan
As características auto-supervisionadas são a base dos sistemas modernos de aprendizado de máquina. Elas são tipicamente pré-treinadas em coleções de dados cuja construção e curadoria geralmente exigem um esforço humano extensivo. Esse processo manual apresenta limitações semelhantes às encontradas no aprendizado supervisionado, por exemplo, a seleção de dados por meio de crowdsourcing é custosa e demorada, impedindo a escalabilidade do tamanho do conjunto de dados. Neste trabalho, consideramos o problema da curadoria automática de conjuntos de dados de alta qualidade para pré-treinamento auto-supervisionado. Postulamos que tais conjuntos de dados devem ser grandes, diversificados e balanceados, e propomos uma abordagem baseada em agrupamento para construir conjuntos que atendam a todos esses critérios. Nosso método envolve aplicações sucessivas e hierárquicas de k-means em um repositório de dados grande e diversificado para obter agrupamentos que se distribuam uniformemente entre os conceitos de dados, seguido por uma etapa de amostragem hierárquica e balanceada desses agrupamentos. Experimentos extensivos em três domínios de dados diferentes, incluindo imagens da web, imagens de satélite e texto, mostram que as características treinadas em nossos conjuntos de dados curados automaticamente superam aquelas treinadas em dados não curados, enquanto se equiparam ou superam as treinadas em dados curados manualmente.
Modelos de mundo capacitam agentes baseados em modelos a explorar, raciocinar e planejar de forma interativa dentro de ambientes imaginados para a tomada de decisões no mundo real. No entanto, a alta demanda por interatividade apresenta desafios na utilização dos avanços recentes em modelos generativos de vídeo para o desenvolvimento de modelos de mundo em escala. Este trabalho introduz o Interactive VideoGPT (iVideoGPT), uma estrutura escalável de transformadores autoregressivos que integra sinais multimodais—observações visuais, ações e recompensas—em uma sequência de tokens, facilitando uma experiência interativa dos agentes por meio da previsão do próximo token. O iVideoGPT apresenta uma técnica inovadora de tokenização compressiva que discretiza eficientemente observações visuais de alta dimensionalidade. Aproveitando sua arquitetura escalável, conseguimos pré-treinar o iVideoGPT em milhões de trajetórias de manipulação humana e robótica, estabelecendo uma base versátil que é adaptável para servir como modelos de mundo interativos para uma ampla gama de tarefas subsequentes. Estas incluem previsão de vídeo condicionada por ações, planejamento visual e aprendizado por reforço baseado em modelo, onde o iVideoGPT alcança desempenho competitivo em comparação com métodos de ponta. Nosso trabalho avança o desenvolvimento de modelos de mundo gerais interativos, reduzindo a lacuna entre modelos generativos de vídeo e aplicações práticas de aprendizado por reforço baseado em modelo.
Modelos de linguagem (LMs) têm sido usados há muito tempo para melhorar os resultados de sistemas de reconhecimento automático de fala (ASR), mas eles não têm conhecimento dos erros que os sistemas ASR cometem. Modelos de correção de erros são projetados para corrigir erros de ASR, no entanto, eles mostraram pouca melhoria em relação aos LMs tradicionais, principalmente devido à falta de dados de treinamento supervisionados. Neste artigo, apresentamos o Denoising LM (DLM), que é um modelo de correção de erros em escala treinado com grandes quantidades de dados sintéticos, superando significativamente tentativas anteriores e alcançando um novo estado da arte em desempenho de ASR. Usamos sistemas de texto-para-fala (TTS) para sintetizar áudio, que é alimentado em um sistema ASR para produzir hipóteses ruidosas, que são então pareadas com os textos originais para treinar o DLM. O DLM tem vários ingredientes-chave: (i) modelo e dados em escala ampliada; (ii) uso de sistemas TTS multi-falantes; (iii) combinação de múltiplas estratégias de aumento de ruído; e (iv) novas técnicas de decodificação. Com um ASR Transformer-CTC, o DLM alcança uma taxa de erro de palavras (WER) de 1,5% no test-clean e 3,3% WER no test-other do Librispeech, que, até onde sabemos, são os melhores números relatados no cenário onde nenhum dado de áudio externo é usado, e até mesmo se equiparam a métodos auto-supervisionados que usam dados de áudio externos. Além disso, um único DLM é aplicável a diferentes ASRs, superando amplamente o desempenho da reavaliação convencional baseada em busca por feixe com LM. Esses resultados indicam que modelos de correção de erros devidamente investigados têm o potencial de substituir os LMs convencionais, mantendo a chave para um novo nível de precisão em sistemas ASR.
Modelos de linguagem de grande escala exibem capacidades excepcionais de generalização, atribuídas principalmente à utilização de dados provenientes de fontes diversas. No entanto, as práticas convencionais de integração desses dados diversos dependem fortemente de esquemas heurísticos, carecendo de orientação teórica. Esta pesquisa aborda essas limitações ao investigar estratégias baseadas em proxies de baixo custo para misturas de dados, com o objetivo de simplificar a curadoria de dados para melhorar a eficiência do treinamento. Especificamente, propomos uma lei de escalonamento unificada, denominada BiMix, que modela com precisão os comportamentos de escalonamento bivariado tanto da quantidade de dados quanto das proporções de mistura. Realizamos experimentos sistemáticos e fornecemos evidências empíricas para o poder preditivo e os princípios fundamentais do BiMix. Notavelmente, nossos resultados revelam que misturas de dados sem treinamento, guiadas por entropia, podem alcançar desempenho comparável ou até superior a métodos mais intensivos em recursos. Esperamos que nossas análises quantitativas possam iluminar pesquisas e desenvolvimentos futuros em modelagem de linguagem com custo-benefício.
A síntese de novas vistas (NVS) de alta faixa dinâmica (HDR) visa criar imagens fotorrealistas a partir de novos pontos de vista utilizando técnicas de imagem HDR. As imagens HDR renderizadas capturam uma faixa mais ampla de níveis de brilho, contendo mais detalhes da cena do que as imagens normais de baixa faixa dinâmica (LDR). Os métodos existentes de NVS HDR são baseados principalmente em NeRF. Eles sofrem com tempos de treinamento longos e velocidade de inferência lenta. Neste artigo, propomos um novo framework, High Dynamic Range Gaussian Splatting (HDR-GS), que pode renderizar eficientemente novas vistas HDR e reconstruir imagens LDR com um tempo de exposição fornecido pelo usuário. Especificamente, projetamos um modelo de nuvem de pontos Gaussianos de Dupla Faixa Dinâmica (DDR) que utiliza harmônicos esféricos para ajustar a cor HDR e emprega um mapeador de tons baseado em MLP para renderizar a cor LDR. As cores HDR e LDR são então alimentadas em dois processos de Rasterização Diferenciável Paralela (PDR) para reconstruir as vistas HDR e LDR. Para estabelecer a base de dados para a pesquisa de métodos baseados em splatting de Gaussianos 3D em NVS HDR, recalibramos os parâmetros da câmera e calculamos as posições iniciais para as nuvens de pontos Gaussianos. Experimentos demonstram que nosso HDR-GS supera o método baseado em NeRF de última geração em 3,84 e 1,91 dB em NVS LDR e HDR, respectivamente, enquanto desfruta de uma velocidade de inferência 1000 vezes maior e requer apenas 6,3% do tempo de treinamento.