Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, nosso objetivo é aprimorar o desempenho do SwiftBrush, um modelo proeminente de difusão de texto para imagem em um passo, para ser competitivo com seu equivalente de difusão estável em vários passos. Inicialmente, exploramos a compensação qualidade-diversidade entre o SwiftBrush e o SD Turbo: o primeiro se destaca na diversidade de imagens, enquanto o último se destaca na qualidade da imagem. Essa observação motiva nossas modificações propostas na metodologia de treinamento, incluindo uma melhor inicialização de pesos e um treinamento eficiente LoRA. Além disso, nossa introdução de uma nova perda CLIP limitada aprimora o alinhamento imagem-texto e resulta em uma melhor qualidade de imagem. Notavelmente, ao combinar os pesos de modelos treinados com LoRA eficiente e treinamento completo, alcançamos um novo modelo de difusão em um passo de ponta, atingindo um FID de 8,14 e superando todos os modelos baseados em GAN e modelos de difusão estável em vários passos. O código de avaliação está disponível em: https://github.com/vinairesearch/swiftbrushv2.
Nos últimos anos, modelos fundamentais (MFs) como grandes modelos de linguagem (GMLs) e modelos de difusão latente (MDLs) impactaram profundamente diversos setores, incluindo a música. Esta revisão abrangente examina os modelos pré-treinados de última geração e os modelos fundamentais na música, abrangendo desde aprendizado de representação, aprendizado generativo e aprendizado multimodal. Primeiramente, contextualizamos a importância da música em várias indústrias e traçamos a evolução da IA na música. Ao delinear as modalidades visadas pelos modelos fundamentais, descobrimos que muitas das representações musicais são pouco exploradas no desenvolvimento de MFs. Em seguida, enfatizamos a falta de versatilidade de métodos anteriores em diversas aplicações musicais, juntamente com o potencial dos MFs na compreensão, geração e aplicação médica da música. Ao explorar detalhadamente o paradigma de pré-treinamento do modelo, escolhas arquiteturais, tokenização, metodologias de ajuste fino e controlabilidade, destacamos os tópicos importantes que deveriam ter sido bem explorados, como ajuste de instruções e aprendizado em contexto, lei de escalonamento e capacidade emergente, bem como modelagem de sequências longas, etc. Uma seção dedicada apresenta insights sobre agentes musicais, acompanhados por uma análise minuciosa de conjuntos de dados e avaliações essenciais para pré-treinamento e tarefas subsequentes. Por fim, ao destacar a importância vital das considerações éticas, defendemos que pesquisas futuras sobre MFs para música devem focar mais em questões como interpretabilidade, transparência, responsabilidade humana e questões de direitos autorais. O artigo oferece insights sobre desafios e tendências futuras em MFs para música, com o objetivo de moldar a trajetória da colaboração humano-IA no campo da música.
A resolução de problemas do GitHub é uma tarefa crítica na engenharia de software, ganhando recentemente significativa atenção tanto na indústria quanto na academia. Dentro dessa tarefa, o SWE-bench foi lançado para avaliar as capacidades de resolução de problemas de grandes modelos de linguagem (LLMs), mas até agora só se concentrou na versão Python. No entanto, o suporte a mais linguagens de programação também é importante, pois há uma forte demanda na indústria. Como primeiro passo em direção ao suporte multilíngue, desenvolvemos uma versão Java do SWE-bench, chamada SWE-bench-java. Lançamos publicamente o conjunto de dados, juntamente com o ambiente de avaliação baseado em Docker correspondente e a tabela de classificação, que serão continuamente mantidos e atualizados nos próximos meses. Para verificar a confiabilidade do SWE-bench-java, implementamos um método clássico SWE-agent e testamos vários LLMs poderosos nele. Como é bem sabido, desenvolver um benchmark multilíngue de alta qualidade é demorado e intensivo em mão de obra, então damos as boas-vindas a contribuições por meio de pull requests ou colaboração para acelerar sua iteração e refinamento, abrindo caminho para a programação totalmente automatizada.
O rápido avanço dos modelos generativos visuais torna necessária a utilização de métodos de avaliação eficientes e confiáveis. A plataforma Arena, que coleta votos de usuários em comparações de modelos, pode classificar os modelos de acordo com as preferências humanas. No entanto, os métodos tradicionais da Arena, embora estabelecidos, exigem um número excessivo de comparações para a convergência da classificação e são vulneráveis a ruídos de preferência nas votações, sugerindo a necessidade de abordagens melhores adaptadas aos desafios de avaliação contemporâneos. Neste artigo, apresentamos o K-Sort Arena, uma plataforma eficiente e confiável baseada em uma percepção fundamental: imagens e vídeos possuem maior intuição perceptual do que textos, permitindo a avaliação rápida de múltiplas amostras simultaneamente. Consequentemente, o K-Sort Arena emprega comparações de K-ésimos, permitindo que K modelos participem de competições de todos contra todos, o que proporciona informações muito mais ricas do que as comparações em pares. Para aprimorar a robustez do sistema, utilizamos modelagem probabilística e técnicas de atualização Bayesiana. Propomos uma estratégia de matchmaking baseada em exploração-exploração para facilitar comparações mais informativas. Em nossos experimentos, o K-Sort Arena apresenta uma convergência 16,3 vezes mais rápida em comparação com o amplamente utilizado algoritmo ELO. Para validar ainda mais a superioridade e obter uma classificação abrangente, coletamos feedback humano por meio de avaliações crowdsourced de inúmeros modelos de texto-para-imagem e texto-para-vídeo de ponta. Graças à sua alta eficiência, o K-Sort Arena pode incorporar continuamente modelos emergentes e atualizar a classificação com um número mínimo de votos. Nosso projeto passou por vários meses de testes internos e agora está disponível em https://huggingface.co/spaces/ksort/K-Sort-Arena.
A ampla adoção de modelos de linguagem grandes proprietários baseados em nuvem (LLMs) introduziu desafios significativos, incluindo dependências operacionais, preocupações com privacidade e a necessidade de conectividade contínua com a internet. Neste trabalho, apresentamos um pipeline LLMOps, "LlamaDuo", para a migração contínua de conhecimento e habilidades de LLMs orientados a serviço para modelos menores e localmente gerenciáveis. Esse pipeline é crucial para garantir a continuidade do serviço na presença de falhas operacionais, políticas rígidas de privacidade ou requisitos offline. Nosso LlamaDuo envolve o ajuste fino de um pequeno modelo de linguagem em relação ao LLM de serviço usando um conjunto de dados sintéticos gerado por este último. Se o desempenho do modelo ajustado finamente não atender às expectativas, ele é aprimorado por meio de ajustes finos adicionais com dados semelhantes criados pelo LLM de serviço. Esse processo iterativo garante que o modelo menor possa eventualmente igualar ou até superar as capacidades do LLM de serviço em tarefas específicas, oferecendo uma solução prática e escalável para gerenciar implantações de IA em ambientes restritos. Experimentos extensos com LLMs de ponta são conduzidos para demonstrar a eficácia, adaptabilidade e acessibilidade do LlamaDuo em várias tarefas downstream. A implementação de nosso pipeline está disponível em https://github.com/deep-diver/llamaduo.
Encontrar a taxa de aprendizado ótima para o pré-treinamento de modelos de linguagem é uma tarefa desafiadora. Isso se deve não apenas à complexa correlação entre a taxa de aprendizado, tamanho do lote, número de tokens de treinamento, tamanho do modelo e outros hiperparâmetros, mas também porque é proibitivamente caro realizar uma busca de hiperparâmetros para grandes modelos de linguagem com bilhões ou trilhões de parâmetros. Estudos recentes propõem o uso de pequenos modelos proxy e pequenos corpora para realizar buscas de hiperparâmetros e transpor os parâmetros ótimos para grandes modelos e grandes corpora. Embora a transferibilidade de zero-shot seja teoricamente e empiricamente comprovada para hiperparâmetros relacionados ao tamanho do modelo, como profundidade e largura, a transferência de zero-shot de pequenos corpora para grandes corpora é pouco explorada. Neste artigo, estudamos a correlação entre a taxa de aprendizado ótima, tamanho do lote e número de tokens de treinamento para o programador WSD recentemente proposto. Após milhares de pequenos experimentos, encontramos uma relação de lei de potência entre as variáveis e demonstramos sua transferibilidade entre tamanhos de modelo. Com base na observação, propomos um novo programador de taxa de aprendizado, o programador Power, que é agnóstico em relação ao número de tokens de treinamento e tamanho do lote. O experimento mostra que combinar o programador Power com a Parametrização Máxima de Atualização (muP) pode alcançar consistentemente um desempenho impressionante com um conjunto de hiperparâmetros, independentemente do número de tokens de treinamento, tamanho do lote, tamanho do modelo e até mesmo arquitetura do modelo. Nossos modelos densos de 3B e MoE treinados com o programador Power alcançam desempenho comparável aos modelos de linguagem pequenos de última geração. Disponibilizamos esses modelos pré-treinados em código aberto em https://ibm.biz/BdKhLa.
Em jogos de tiro em primeira pessoa multiplayer, como o Counter-Strike: Global Offensive (CS:GO), o movimento coordenado é um componente crítico para jogadas estratégicas de alto nível. No entanto, a complexidade da coordenação de equipe e a variedade de condições presentes em mapas de jogos populares tornam impraticável a criação de políticas de movimento feitas manualmente para cada cenário. Mostramos que é possível adotar uma abordagem baseada em dados para criar controladores de movimento semelhantes aos humanos para o CS:GO. Curamos um conjunto de dados de movimento em equipe composto por 123 horas de trajetórias de jogo profissional e usamos esse conjunto de dados para treinar um modelo de movimento baseado em transformadores que gera movimentos em equipe semelhantes aos humanos para todos os jogadores em uma rodada de "Retakes" do jogo. É importante destacar que o modelo de previsão de movimento é eficiente. Realizar inferências para todos os jogadores leva menos de 0,5 ms por etapa de jogo (custo amortizado) em um único núcleo de CPU, tornando-o viável para uso em jogos comerciais hoje. Avaliadores humanos afirmam que nosso modelo se comporta mais como humanos do que tanto os bots disponíveis comercialmente quanto os controladores de movimento procedurais programados por especialistas (16% a 59% mais alto pela classificação TrueSkill de "semelhante a humano"). Por meio de experimentos envolvendo autojogo de bots in-game, demonstramos que nosso modelo realiza formas simples de trabalho em equipe, comete menos erros comuns de movimento e gera distribuições de movimento, tempos de vida dos jogadores e locais de morte semelhantes aos observados em partidas profissionais de CS:GO.
Modelos de geração de vídeo possuem um potencial substancial em áreas como produção cinematográfica. No entanto, os modelos atuais de difusão de vídeo requerem altos custos computacionais e produzem resultados subótimos devido à alta complexidade da tarefa de geração de vídeo. Neste artigo, propomos o ConFiner, um framework eficiente de alta qualidade para geração de vídeo que desacopla a geração de vídeo em subtarefas mais simples: controle de estrutura e refinamento espaço-temporal. Ele pode gerar vídeos de alta qualidade com uma cadeia de especialistas de modelo de difusão prontos para uso, sendo cada especialista responsável por uma subtarefa desacoplada. Durante o refinamento, introduzimos a desnoise coordenada, que pode mesclar as capacidades de múltiplos especialistas de difusão em uma única amostragem. Além disso, projetamos o framework ConFiner-Long, que pode gerar vídeos longos coerentes com três estratégias de restrição no ConFiner. Os resultados experimentais indicam que, com apenas 10\% do custo de inferência, nosso ConFiner supera modelos representativos como Lavie e Modelscope em todas as métricas objetivas e subjetivas. E o ConFiner-Long pode gerar vídeos de alta qualidade e coerentes com até 600 quadros.
Os Modelos de Linguagem Multimodais de Grande Escala (MM-LLMs) tiveram avanços significativos no último ano, demonstrando um desempenho impressionante em diversas tarefas. No entanto, para verdadeiramente democratizar a IA, os modelos devem apresentar capacidades sólidas e ser capazes de rodar de forma eficiente em recursos computacionais pequenos acessíveis pela maioria. Como parte dessa busca, apresentamos o LLaVaOLMoBitnet1B - o primeiro LLM Multimodal Ternário capaz de aceitar entradas de Imagem(s)+Texto para produzir respostas textuais coerentes. O modelo é totalmente de código aberto juntamente com scripts de treinamento para incentivar pesquisas adicionais nesse espaço. Este relatório técnico acompanhante destaca o processo de treinamento, detalhes de avaliação, desafios associados aos modelos ternários e oportunidades futuras. Link para o modelo: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
O aumento do uso de Modelos de Linguagem Grandes (LLMs) resultou em uma demanda crescente por sistemas de servidores em escala planetária, nos quais dezenas de milhares de GPUs servem continuamente centenas de milhões de usuários. Consequentemente, a taxa de transferência (sob restrições de latência razoáveis) surgiu como uma métrica chave que determina o desempenho dos sistemas de servidores. Para aumentar a taxa de transferência, vários métodos de paralelismo entre dispositivos (por exemplo, dados, tensor, pipeline) têm sido explorados. No entanto, os métodos existentes não consideram a sobreposição da utilização de diferentes recursos dentro de um único dispositivo, levando a uma subutilização e desempenho subótimo. Propomos o NanoFlow, um novo framework de servidores que explora o paralelismo intra-dispositivo, que sobrepoem a utilização de recursos, incluindo cálculo, memória e rede, dentro de um único dispositivo por meio de co-agendamento de operações. Para explorar o paralelismo intra-dispositivo, o NanoFlow introduz duas inovações-chave: Primeiro, o NanoFlow divide solicitações em nano-lotes na granularidade de operações, o que quebra a dependência de operações sequenciais na inferência de LLM e permite a sobreposição; em seguida, para obter benefícios da sobreposição, o NanoFlow utiliza um pipeline em nível de operação com agendamento de unidades de execução, que particiona as unidades funcionais do dispositivo e executa simultaneamente diferentes operações em cada unidade. O NanoFlow automatiza a configuração do pipeline usando um algoritmo de busca de parâmetros, o que permite a fácil portabilidade do NanoFlow para diferentes modelos. Implementamos o NanoFlow em GPUs da NVIDIA e avaliamos a taxa de transferência de ponta a ponta em vários modelos populares, como LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B, etc. Com cargas de trabalho práticas, o NanoFlow fornece um aumento de 1,91x na taxa de transferência em comparação com os sistemas de servidores de última geração, alcançando de 59% a 72% da taxa de transferência ideal em modelos portados.
Os modelos de linguagem de grande escala (LLMs) revolucionaram o processamento de linguagem, fornecendo resultados excepcionais em diversas aplicações. No entanto, a implementação de LLMs em dispositivos de borda apresenta vários desafios relacionados à memória, energia e custos computacionais, limitando seu uso generalizado em dispositivos como telefones móveis. Uma solução promissora é reduzir o número de bits usados para representar pesos e ativações. Embora trabalhos existentes tenham obtido sucesso parcial ao quantizar LLMs para larguras de bits menores, como pesos de 4 bits, a quantização de ativações além de 16 bits frequentemente resulta em grandes sobrecargas computacionais devido ao suporte deficiente à quantização no dispositivo ou a uma queda considerável na precisão. No entanto, ativações de 8 bits são muito atraentes para implantação em dispositivos, pois permitiriam que LLMs explorassem totalmente hardware amigável para dispositivos móveis, como Unidades de Processamento Neural (NPUs). Neste trabalho, fazemos uma primeira tentativa de facilitar a implantação em dispositivos de LLMs usando quantização apenas com inteiros. Primeiramente, investigamos as limitações dos métodos de quantização existentes para implantação em dispositivos, com um foco especial na quantização de ativações. Em seguida, abordamos essas limitações introduzindo um método simples de quantização pós-treinamento, chamado MobileQuant, que estende trabalhos anteriores de transformação equivalente de pesos otimizando conjuntamente a transformação de pesos e os parâmetros de faixa de ativação de forma integrada. O MobileQuant demonstra capacidades superiores em relação aos métodos existentes ao 1) alcançar quantização quase sem perdas em uma ampla gama de benchmarks de LLM, 2) reduzir a latência e o consumo de energia em 20\%-50\% em comparação com as estratégias atuais de quantização em dispositivos, 3) exigir um orçamento computacional limitado, 4) ser compatível com unidades de computação amigáveis para dispositivos móveis, como NPUs.
Os vídeos de transição desempenham um papel crucial na produção de mídia, aprimorando o fluxo e a coerência das narrativas visuais. Métodos tradicionais como morphing frequentemente carecem de apelo artístico e exigem habilidades especializadas, limitando sua eficácia. Avanços recentes na geração de vídeos baseada em modelos de difusão oferecem novas possibilidades para criar transições, mas enfrentam desafios como modelagem pobre de relacionamentos entre quadros e mudanças abruptas de conteúdo. Propomos uma abordagem inovadora de Geração de Vídeo de Transição (TVG) sem treinamento, utilizando modelos de difusão em nível de vídeo que abordam essas limitações sem treinamento adicional. Nosso método aproveita a Regressão de Processo Gaussiano (GPR) para modelar representações latentes, garantindo transições suaves e dinâmicas entre quadros. Além disso, introduzimos controles condicionais baseados em interpolação e uma arquitetura de Fusão Bidirecional Sensível à Frequência (FBiF) para aprimorar o controle temporal e a confiabilidade da transição. Avaliações em conjuntos de dados de referência e pares de imagens personalizadas demonstram a eficácia de nossa abordagem na geração de vídeos de transição suaves de alta qualidade. O código está disponível em https://sobeymil.github.io/tvg.com.
Grandes modelos de linguagem (LLMs) como o ChatGPT e o Gemini avançaram significativamente o processamento de linguagem natural, possibilitando diversas aplicações como chatbots e geração automatizada de conteúdo. No entanto, esses modelos podem ser explorados por indivíduos maliciosos que criam prompts tóxicas para obter respostas prejudiciais ou antiéticas. Esses indivíduos frequentemente empregam técnicas de jailbreaking para contornar os mecanismos de segurança, destacando a necessidade de métodos robustos de detecção de prompts tóxicos. As técnicas de detecção existentes, tanto blackbox quanto whitebox, enfrentam desafios relacionados à diversidade de prompts tóxicos, escalabilidade e eficiência computacional. Em resposta, propomos o ToxicDetector, um método greybox leve projetado para detectar eficientemente prompts tóxicos em LLMs. O ToxicDetector aproveita LLMs para criar prompts de conceitos tóxicos, utiliza vetores de incorporação para formar vetores de características e emprega um classificador Multi-Layer Perceptron (MLP) para a classificação de prompts. Nossa avaliação em várias versões dos modelos LLama, Gemma-2 e múltiplos conjuntos de dados demonstra que o ToxicDetector alcança uma alta precisão de 96,39\% e uma baixa taxa de falsos positivos de 2,00\%, superando os métodos de ponta. Além disso, o tempo de processamento do ToxicDetector de 0,0780 segundos por prompt o torna altamente adequado para aplicações em tempo real. O ToxicDetector alcança alta precisão, eficiência e escalabilidade, tornando-o um método prático para a detecção de prompts tóxicos em LLMs.
Trabalhos existentes na reconstrução humana de imagem única sofrem de fraca generalização devido à falta de dados de treinamento suficientes ou inconsistências 3D por falta de um conhecimento abrangente multi-visão. Neste artigo, apresentamos o MagicMan, um modelo de difusão multi-visão específico para humanos projetado para gerar imagens de novas vistas de alta qualidade a partir de uma única imagem de referência. Em seu núcleo, aproveitamos um modelo de difusão 2D pré-treinado como prior generativa para generalização, com o modelo paramétrico SMPL-X como prior do corpo 3D para promover consciência 3D. Para lidar com o desafio crítico de manter consistência ao alcançar geração densa multi-visão para melhorar a reconstrução humana 3D, primeiro introduzimos atenção híbrida multi-visão para facilitar a troca eficiente e completa de informações entre diferentes visões. Além disso, apresentamos um ramo duplo consciente da geometria para realizar geração simultânea nos domínios RGB e normais, aprimorando ainda mais a consistência por meio de pistas de geometria. Por fim, para lidar com problemas mal formados decorrentes de uma estimativa imprecisa do SMPL-X que entra em conflito com a imagem de referência, propomos uma nova estratégia de refinamento iterativo, que otimiza progressivamente a precisão do SMPL-X enquanto aprimora a qualidade e consistência das multi-visões geradas. Resultados experimentais extensivos demonstram que nosso método supera significativamente abordagens existentes tanto na síntese de novas vistas quanto nas tarefas subsequentes de reconstrução humana 3D.