Artigos de pesquisa em IA selecionados diariamente com traduções
A capacidade de interpretar com precisão informações visuais complexas é um tópico crucial dos modelos de linguagem multimodais de grande escala (MLLMs). Trabalhos recentes indicam que uma percepção visual aprimorada reduz significativamente alucinações e melhora o desempenho em tarefas sensíveis à resolução, como reconhecimento óptico de caracteres e análise de documentos. Vários MLLMs recentes alcançam esse objetivo usando uma combinação de codificadores visuais. Apesar de seu sucesso, há uma falta de comparações sistemáticas e estudos de ablação detalhados que abordem aspectos críticos, como seleção de especialistas e integração de múltiplos especialistas em visão. Este estudo fornece uma exploração extensiva do espaço de design para MLLMs usando uma mistura de codificadores visuais e resoluções. Nossas descobertas revelam vários princípios subjacentes comuns a várias estratégias existentes, levando a uma abordagem de design simplificada, porém eficaz. Descobrimos que simplesmente concatenar tokens visuais de um conjunto de codificadores visuais complementares é tão eficaz quanto arquiteturas ou estratégias de mistura mais complexas. Além disso, introduzimos o Pré-Alinhamento para preencher a lacuna entre codificadores focados em visão e tokens de linguagem, aprimorando a coerência do modelo. A família resultante de MLLMs, Eagle, supera outros modelos de código aberto líderes em importantes benchmarks de MLLM. Modelos e código: https://github.com/NVlabs/Eagle
As capacidades gerais dos Modelos de Linguagem de Grande Escala (LLM) dependem fortemente da composição e seleção de extensos conjuntos de dados de pré-treinamento, tratados como segredos comerciais por várias instituições. Para mitigar esse problema, tornamos públicos os detalhes de um pipeline de processamento de dados universalmente aplicável e validamos sua eficácia e potencial ao introduzir uma linha de base competitiva de LLM. Especificamente, o pipeline de processamento de dados consiste em uma ampla coleta para aumentar a escala e reponderação para melhorar a qualidade. Em seguida, pré-treinamos um modelo 7B BaichuanSEED com 3T tokens processados pelo nosso pipeline sem nenhuma otimização deliberada relacionada à tarefa downstream, seguido por uma etapa de ajuste fino supervisionado simples, mas eficaz. O BaichuanSEED demonstra consistência e previsibilidade ao longo do treinamento e alcança desempenho comparável em benchmarks abrangentes com vários modelos de linguagem grandes avançados comerciais, como o Qwen1.5 e o Llama3. Também realizamos vários experimentos heurísticos para discutir o potencial de otimização adicional de tarefas downstream, como matemática e codificação.
Este artigo apresenta o Dolphin, uma arquitetura inovadora de decodificador-decodificador para processamento eficiente de longos contextos em modelos de linguagem. Nossa abordagem aborda os significativos desafios de consumo de energia e latência inerentes aos modelos em dispositivos. O Dolphin emprega um decodificador compacto de 0.5B parâmetros para destilar informações contextuais extensas em uma incorporação de memória, reduzindo substancialmente o comprimento de entrada para o modelo principal de decodificador de 7B parâmetros. Inspirados em modelos de visão-linguagem, reaproveitamos o projetor de incorporação de imagem para codificar contextos textuais longos, tratando efetivamente o contexto estendido como uma modalidade distinta. Este método inovador permite o processamento de contextos substancialmente mais longos sem o sobrecusto computacional típico associado a sequências de entrada estendidas. Avaliações empíricas demonstram uma melhoria de 10 vezes na eficiência energética e uma redução de 5 vezes na latência em comparação com métodos convencionais de processamento de contexto completo sem perder a qualidade da resposta. Nosso trabalho contribui para o desenvolvimento de modelos de linguagem mais sustentáveis e escaláveis para aplicações em dispositivos, abordando a necessidade crítica de tecnologias de IA eficientes em energia e responsivas em ambientes com recursos limitados, mantendo a precisão para compreender contextos longos. Esta pesquisa tem implicações para o campo mais amplo de processamento de linguagem natural, especialmente no domínio de design eficiente de modelos para configurações com recursos limitados. Ao possibilitar capacidades de IA mais sofisticadas em dispositivos de borda, o Dolphin abre caminho para o processamento de linguagem avançado em uma ampla gama de aplicações onde os recursos computacionais são escassos. O modelo Dolphin está publicamente disponível em https://huggingface.co/NexaAIDev/Dolphin.
Apresentamos LLaVA-MoD, um novo framework projetado para permitir o treinamento eficiente de Modelos de Linguagem Multimodais em pequena escala (s-MLLM) por meio da destilação de conhecimento de MLLM em grande escala (l-MLLM). Nossa abordagem enfrenta dois desafios fundamentais na destilação de MLLM. Primeiramente, otimizamos a estrutura de rede do s-MLLM integrando uma arquitetura esparsa de Mistura de Especialistas (MoE) no modelo de linguagem, encontrando um equilíbrio entre eficiência computacional e expressividade do modelo. Em segundo lugar, propomos uma estratégia progressiva de transferência de conhecimento para garantir uma migração abrangente de conhecimento. Esta estratégia começa com a destilação de imitação, onde minimizamos a divergência Kullback-Leibler (KL) entre as distribuições de saída para permitir que o modelo aluno emule a compreensão da rede professora. Em seguida, introduzimos a destilação de preferência por meio da Otimização Direta de Preferência (DPO), onde a chave está em tratar o l-MLLM como o modelo de referência. Durante esta fase, a capacidade do s-MLLM de discriminar entre exemplos superiores e inferiores é significativamente aprimorada além do l-MLLM, resultando em um aluno melhor que supera seu professor, especialmente em benchmarks de alucinação. Experimentos extensivos demonstram que o LLaVA-MoD supera os modelos existentes em vários benchmarks multimodais, mantendo um número mínimo de parâmetros ativados e baixos custos computacionais. Notavelmente, o LLaVA-MoD, com apenas 2B de parâmetros ativados, supera o Qwen-VL-Chat-7B em média 8,8% em benchmarks, usando apenas 0,3% dos dados de treinamento e 23% dos parâmetros treináveis. Esses resultados destacam a capacidade do LLaVA-MoD de destilar efetivamente conhecimento abrangente de seu modelo professor, abrindo caminho para o desenvolvimento de MLLMs mais eficientes. O código estará disponível em: https://github.com/shufangxun/LLaVA-MoD.
Na inferência de Modelos de Linguagem de Grande Escala (LLM), o comprimento de saída de uma solicitação de LLM é geralmente considerado como desconhecido a priori. Consequentemente, a maioria dos sistemas de LLM em funcionamento emprega uma estratégia de agendamento simples de Primeiro a Chegar, Primeiro a Ser Servido (FCFS), resultando em bloqueio de Cabeça de Linha (HOL) e redução na taxa de transferência e qualidade do serviço. Neste artigo, reexaminamos essa suposição - mostramos que, embora prever o comprimento exato de geração de cada solicitação seja inviável, é possível prever as classificações relativas dos comprimentos de saída em um lote de solicitações, utilizando aprendizado para classificação. As informações de classificação oferecem orientação valiosa para o agendamento de solicitações. Com base nessa percepção, desenvolvemos um novo agendador para inferência e operação de LLM que pode aproximar melhor o agendamento do menor trabalho primeiro (SJF) do que as abordagens existentes. Integramos esse agendador com o sistema de operação de LLM de última geração e demonstramos uma melhoria significativa de desempenho em várias aplicações importantes: redução de 2,8 vezes na latência no atendimento de chatbots e aumento de 6,5 vezes na taxa de transferência na geração de dados sintéticos. Nosso código está disponível em https://github.com/hao-ai-lab/vllm-ltr.git
O cultivo de expertise para grandes modelos de linguagem (LLMs) para resolver tarefas de áreas específicas frequentemente requer ajustes de propósito especial com comportamentos calibrados nas saídas estáveis esperadas. Para evitar o alto custo trazido pela preparação manual de conjuntos de dados de instrução e recursos de treinamento de até centenas de horas, a exploração do conhecimento aberto, incluindo uma riqueza de modelos de adaptação de baixa classificação (LoRA) e conjuntos de dados de instrução, serve como um bom ponto de partida. No entanto, os métodos existentes de seleção de modelo e dados focam no desempenho de capacidades de propósito geral, negligenciando a lacuna de conhecimento exposta na implantação específica de domínio. No presente estudo, propomos preencher essa lacuna introduzindo algumas amostras anotadas por humanos (ou seja, K-shot) para avançar a expertise de tarefas de LLMs com conhecimento aberto. Especificamente, desenvolvemos um pipeline eficiente e escalável para produzir especialistas em tarefas de forma econômica, onde dados K-shot intervêm na seleção dos candidatos a especialistas mais promissores e nas instruções relevantes para a tarefa. Um sistema de mistura de especialistas (MoE) é construído para fazer o melhor uso do conhecimento individual, mas complementar, entre vários especialistas. Revelamos as duas chaves para o sucesso de um sistema MoE, 1) a adesão ao K-shot e 2) a insistência na diversidade. Para o primeiro, garantimos que modelos que realmente possuem habilidades de resolução de problemas em K-shot sejam selecionados em vez daqueles que adivinham cegamente. Além disso, durante a seleção de dados, instruções que compartilham contextos relevantes para a tarefa com K-shot são priorizadas. Para o segundo, destacamos a diversidade dos especialistas constituintes e a diversidade das instruções de ajuste fino ao longo do processo de seleção de modelo e dados. Resultados experimentais extensivos confirmam a superioridade de nossa abordagem sobre os métodos existentes na utilização de conhecimento aberto em várias tarefas. Códigos e modelos serão lançados posteriormente.
Acelerar a velocidade de amostragem dos modelos de difusão continua sendo um desafio significativo. Métodos recentes de destilação de pontuação destilam um modelo professor pesado em um gerador de estudante de um passo, que é otimizado calculando a diferença entre as duas funções de pontuação nas amostras geradas pelo modelo de estudante. No entanto, existe um problema de incompatibilidade de pontuação na fase inicial do processo de destilação, porque os métodos existentes se concentram principalmente em usar o ponto final dos modelos de difusão pré-treinados como modelos professores, negligenciando a importância da trajetória de convergência entre o gerador de estudante e o modelo professor. Para resolver esse problema, estendemos o processo de destilação de pontuação introduzindo toda a trajetória de convergência dos modelos professores e propomos a Destilação de Retrocesso de Distribuição (DisBack) para destilar geradores de estudantes. DisBack é composto por duas etapas: Gravação de Degradação e Retrocesso de Distribuição. A Gravação de Degradação é projetada para obter a trajetória de convergência dos modelos professores, que registra o caminho de degradação do modelo professor treinado para o gerador de estudante inicial não treinado. O caminho de degradação representa implicitamente as distribuições intermediárias dos modelos professores. Em seguida, o Retrocesso de Distribuição treina um gerador de estudante para retroceder nas distribuições intermediárias para aproximar a trajetória de convergência dos modelos professores. Experimentos extensivos mostram que o DisBack atinge uma convergência mais rápida e melhor do que o método de destilação existente e alcança um desempenho de geração comparável. Notavelmente, o DisBack é fácil de implementar e pode ser generalizado para os métodos de destilação existentes para melhorar o desempenho. Nosso código está publicamente disponível em https://github.com/SYZhang0805/DisBack.
O crescimento exponencial da literatura científica torna necessária a utilização de ferramentas avançadas para uma exploração eficaz do conhecimento. Apresentamos o Navegador de Conhecimento, um sistema projetado para aprimorar as habilidades de busca exploratória, organizando e estruturando os documentos recuperados a partir de consultas amplas em tópicos científicos nomeados e descritivos, em uma hierarquia navegável de dois níveis. Essa organização estruturada fornece uma visão geral dos temas de pesquisa em um domínio, permitindo também uma busca iterativa e uma descoberta de conhecimento mais profunda dentro de subtemas específicos, ao permitir que os usuários refinem seu foco e recuperem documentos relevantes adicionais. O Navegador de Conhecimento combina capacidades de LLM com métodos baseados em cluster para possibilitar um método de navegação eficaz. Demonstramos a eficácia de nossa abordagem por meio de avaliações automáticas e manuais em dois novos benchmarks, CLUSTREC-COVID e SCITOC. Nosso código, prompts e benchmarks estão disponíveis publicamente.
Para modelos de Mixture-of-Experts (MoE), uma carga de especialistas desequilibrada levará a colapso de roteamento ou aumento da sobrecarga computacional. Métodos existentes comumente empregam uma perda auxiliar para incentivar o equilíbrio de carga, mas uma grande perda auxiliar introduzirá gradientes de interferência não negligenciáveis no treinamento e, portanto, prejudicará o desempenho do modelo. Para controlar o equilíbrio de carga sem produzir gradientes indesejados durante o treinamento, propomos o Balanceamento sem Perda, caracterizado por uma estratégia de balanceamento de carga livre de perda auxiliar. Especificamente, antes da decisão de roteamento top-K, o Balanceamento sem Perda aplicará primeiro um viés por especialista às pontuações de roteamento de cada especialista. Ao atualizar dinamicamente o viés de cada especialista de acordo com sua carga recente, o Balanceamento sem Perda pode manter consistentemente uma distribuição equilibrada da carga de especialistas. Além disso, como o Balanceamento sem Perda não produz quaisquer gradientes de interferência, ele também eleva o limite superior do desempenho do modelo obtido a partir do treinamento MoE. Validamos o desempenho do Balanceamento sem Perda em modelos MoE com até 3B de parâmetros treinados com até 200B de tokens. Os resultados experimentais mostram que o Balanceamento sem Perda alcança tanto melhor desempenho quanto melhor equilíbrio de carga em comparação com estratégias tradicionais de balanceamento de carga controladas por perda auxiliar.
Enquanto a arquitetura Mamba demonstra uma eficiência de inferência superior e um desempenho competitivo em tarefas de processamento de linguagem natural (PLN) de curto contexto, evidências empíricas sugerem que sua capacidade de compreender contextos longos é limitada em comparação com modelos baseados em transformadores. Neste estudo, investigamos os problemas de eficiência de contexto longo dos modelos Mamba e propomos o ReMamba, que aprimora a capacidade do Mamba de compreender contextos longos. O ReMamba incorpora técnicas de compressão seletiva e adaptação dentro de um processo de reencaminhamento de duas etapas, acarretando um custo mínimo adicional de sobrecarga de inferência. Resultados experimentais nos benchmarks LongBench e L-Eval demonstram a eficácia do ReMamba, melhorando em 3,2 e 1,6 pontos, respectivamente, em relação aos baselines, e alcançando um desempenho quase equivalente aos modelos de transformadores do mesmo tamanho.
Exploramos como melhorar os modelos de previsão da próxima ficha para realizar aprendizado por imitação em contexto em um robô real, onde o robô executa novas tarefas interpretando informações contextuais fornecidas durante a fase de entrada, sem atualizar seus parâmetros de política subjacentes. Propomos o Transformer de Robô em Contexto (ICRT), um transformer causal que realiza previsão autoregressiva em trajetórias sensoriomotoras sem depender de dados linguísticos ou função de recompensa. Essa formulação permite a execução flexível e sem treinamento de novas tarefas no momento do teste, alcançada solicitando ao modelo trajetórias sensoriomotoras da nova tarefa compostas por observações de imagem, ações e tuplas de estados, coletadas por teleoperação humana. Experimentos com um robô Franka Emika demonstram que o ICRT pode se adaptar a novas tarefas especificadas por prompts, mesmo em configurações de ambiente que diferem tanto do prompt quanto dos dados de treinamento. Em um ambiente de configuração multitarefa, o ICRT supera significativamente os modelos de previsão da próxima ficha mais avançados no estado atual da arte em robótica na generalização para tarefas não vistas. O código, checkpoints e dados estão disponíveis em https://icrt.dev/
Utilizar partes de modelos existentes para reconstruir novos modelos, comumente denominado modelagem baseada em exemplos, é uma metodologia clássica no campo da computação gráfica. Trabalhos anteriores geralmente se concentram na composição de formas, tornando-as muito difíceis de serem usadas para a composição realista de objetos 3D capturados de cenas do mundo real. Isso leva à combinação de vários NeRFs em uma única cena 3D para obter uma mistura de aparência contínua. No entanto, o método atual SeamlessNeRF luta para alcançar edição interativa e costura harmoniosa para cenas do mundo real devido à sua estratégia baseada em gradientes e representação baseada em grade. Com esse propósito, apresentamos um método de modelagem baseada em exemplos que combina múltiplos campos gaussianos em uma representação baseada em pontos usando síntese guiada por amostras. Especificamente, para a composição, criamos uma GUI para segmentar e transformar múltiplos campos em tempo real, obtendo facilmente uma composição semanticamente significativa de modelos representados por Splatting Gaussiano 3D (3DGS). Para a mistura de texturas, devido à natureza discreta e irregular do 3DGS, a aplicação direta da propagação de gradientes como no SeamlssNeRF não é suportada. Assim, é proposto um novo método de clonagem baseado em amostragem para harmonizar a mistura, preservando a textura e conteúdo originais. Nosso fluxo de trabalho consiste em três etapas: 1) segmentação e transformação em tempo real de um modelo gaussiano usando uma GUI bem elaborada, 2) análise KNN para identificar pontos de fronteira na área de interseção entre os modelos de origem e alvo, e 3) otimização em duas fases do modelo alvo usando clonagem baseada em amostragem e restrições de gradientes. Resultados experimentais extensivos validam que nossa abordagem supera significativamente trabalhos anteriores em termos de síntese realista, demonstrando sua praticidade. Mais demonstrações estão disponíveis em https://ingra14m.github.io/gs_stitching_website.
Nos últimos anos, foram feitos progressos significativos na criação de avatares 3D fotorrealistas e dirigíveis exclusivamente a partir de vídeos de humanos reais. No entanto, um desafio central que permanece é a edição detalhada e amigável de estilos de roupas por meio de descrições textuais. Para isso, apresentamos o TEDRA, o primeiro método que permite edições baseadas em texto de um avatar, mantendo a alta fidelidade do avatar, coerência espaço-temporal, bem como dinâmicas, e possibilitando controle de postura esquelética e visual. Começamos treinando um modelo para criar uma réplica digital controlável e de alta fidelidade do ator real. Em seguida, personalizamos um modelo de difusão generativa pré-treinado ajustando-o em vários quadros do personagem real capturados de diferentes ângulos de câmera, garantindo que a representação digital capture fielmente a dinâmica e movimentos da pessoa real. Esse processo em duas etapas estabelece a base para nossa abordagem de edição dinâmica de avatar humano. Utilizando esse modelo de difusão personalizado, modificamos o avatar dinâmico com base em uma sugestão de texto fornecida usando nossa Amostragem de Destilação de Pontuação Alinhada Normal Personalizada (PNA-SDS) dentro de um framework de orientação baseado em modelo. Além disso, propomos uma estratégia de anelamento de passo de tempo para garantir edições de alta qualidade. Nossos resultados demonstram uma clara melhoria em relação ao trabalho anterior em funcionalidade e qualidade visual.