Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o primeiro ataque de roubo de modelo que extrai informações precisas e não triviais de modelos de linguagem de produção em caixa preta, como o ChatGPT da OpenAI ou o PaLM-2 da Google. Especificamente, nosso ataque recupera a camada de projeção de embeddings (até simetrias) de um modelo transformer, dado o acesso típico à API. Por menos de 20 dólares, nosso ataque extrai toda a matriz de projeção dos modelos de linguagem Ada e Babbage da OpenAI. Com isso, confirmamos, pela primeira vez, que esses modelos em caixa preta possuem uma dimensão oculta de 1024 e 2048, respectivamente. Também recuperamos o tamanho exato da dimensão oculta do modelo gpt-3.5-turbo e estimamos que custaria menos de 2.000 dólares em consultas para recuperar toda a matriz de projeção. Concluímos com possíveis defesas e mitigações, e discutimos as implicações de trabalhos futuros que poderiam estender nosso ataque.
Os recentes avanços em modelos de linguagem de grande escala trouxeram um valor imenso ao mundo, com suas capacidades superiores decorrentes do enorme número de parâmetros que utilizam. No entanto, mesmo as GPUs com as maiores capacidades de memória, atualmente chegando a 80GB, estão longe de serem suficientes para acomodar esses vastos parâmetros e seus estados associados de otimizador ao realizar a otimização baseada em gradiente descendente estocástico. Uma abordagem para hospedar modelos tão grandes é agregar a memória de dispositivos de várias GPUs. No entanto, essa abordagem introduz custos proibitivos para a maioria dos pesquisadores acadêmicos, que sempre têm um orçamento limitado para muitos servidores de GPU de alta qualidade. Neste artigo, focamos no ajuste fino de modelos enormes em uma única GPU, mesmo de baixo custo, em um servidor comum, que é acessível para a maioria dos pesquisadores de IA. Nesse cenário, o trabalho state-of-the-art ZeRO-Infinity sofre de dois problemas graves ao ser executado em um servidor comum: 1) baixa utilização da GPU devido à troca ineficiente de dados, e 2) tamanho limitado do modelo treinável devido à capacidade de memória da CPU. A razão subjacente é que o ZeRO-Infinity é otimizado para ser executado em servidores de GPU de alta qualidade. Para isso, apresentamos Fuyou, um framework de treinamento de baixo custo que permite o ajuste fino eficiente de modelos enormes de 100B em um servidor de baixo custo com uma GPU de baixo custo e capacidade limitada de memória da CPU. A ideia principal é adicionar a comunicação SSD-CPU como uma dimensão de otimização e, assim, co-otimizar cuidadosamente a computação e a troca de dados a partir de uma abordagem sistemática para maximizar a utilização da GPU. Os resultados experimentais mostram que 1) Fuyou é capaz de ajustar finamente o GPT-3 de 175B em uma GPU de consumo RTX 4090 com alta utilização da GPU, enquanto o ZeRO-Infinity falha em ajustar finamente; e 2) ao treinar um pequeno modelo GPT-3 de 13B, Fuyou alcança 156 TFLOPS em uma GPU RTX 4090, enquanto o ZeRO-Infinity alcança apenas 45 TFLOPS.
A geração automática 3D tem atraído recentemente ampla atenção. Métodos recentes aceleraram significativamente a velocidade de geração, mas geralmente produzem objetos menos detalhados devido à capacidade limitada do modelo ou aos dados 3D. Motivados pelos avanços recentes em modelos de difusão de vídeo, introduzimos o V3D, que aproveita a capacidade de simulação de mundo de modelos de difusão de vídeo pré-treinados para facilitar a geração 3D. Para liberar plenamente o potencial da difusão de vídeo na percepção do mundo 3D, introduzimos ainda um prior de consistência geométrica e estendemos o modelo de difusão de vídeo para um gerador 3D consistente de múltiplas visões. Beneficiando-se disso, o modelo de difusão de vídeo state-of-the-art pode ser ajustado para gerar quadros de órbita de 360 graus ao redor de um objeto a partir de uma única imagem. Com nossos pipelines de reconstrução personalizados, podemos gerar malhas de alta qualidade ou Gaussianas 3D em até 3 minutos. Além disso, nosso método pode ser estendido para a síntese de novas visões em nível de cena, alcançando controle preciso sobre o caminho da câmera com visões de entrada esparsas. Experimentos extensivos demonstram o desempenho superior da abordagem proposta, especialmente em termos de qualidade de geração e consistência de múltiplas visões. Nosso código está disponível em https://github.com/heheyas/V3D.
Abordando os desafios duplos de redundância local e dependências globais na compreensão de vídeo, este trabalho adapta de forma inovadora o Mamba para o domínio de vídeo. O VideoMamba proposto supera as limitações das redes neurais convolucionais 3D e dos transformadores de vídeo existentes. Seu operador de complexidade linear permite a modelagem eficiente de longo prazo, o que é crucial para a compreensão de vídeos longos em alta resolução. Avaliações extensivas revelam as quatro habilidades principais do VideoMamba: (1) Escalabilidade no domínio visual sem a necessidade de pré-treinamento extensivo em conjuntos de dados, graças a uma nova técnica de auto-distilação; (2) Sensibilidade para reconhecer ações de curto prazo, mesmo com diferenças sutis de movimento; (3) Superioridade na compreensão de vídeos de longo prazo, mostrando avanços significativos em relação aos modelos tradicionais baseados em características; e (4) Compatibilidade com outras modalidades, demonstrando robustez em contextos multi-modais. Através dessas vantagens distintas, o VideoMamba estabelece um novo padrão para a compreensão de vídeo, oferecendo uma solução escalável e eficiente para a compreensão abrangente de vídeos. Todo o código e modelos estão disponíveis em https://github.com/OpenGVLab/VideoMamba.
Neste estudo, identificamos os fenômenos de atenção ineficiente em Grandes Modelos de Visão e Linguagem (LVLMs), particularmente em modelos proeminentes como LLaVA-1.5, QwenVL-Chat e Video-LLaVA. Descobrimos que o cálculo de atenção sobre os tokens visuais é extremamente ineficiente nas camadas profundas desses LVLMs populares, sugerindo a necessidade de uma abordagem mais esparsa em comparação com o tratamento de dados textuais. Para isso, introduzimos o FastV, um método versátil e plug-and-play projetado para otimizar a eficiência computacional ao aprender padrões de atenção adaptativos nas camadas iniciais e podar tokens visuais nas camadas subsequentes. Nossas avaliações demonstram a capacidade do FastV de reduzir drasticamente os custos computacionais (por exemplo, uma redução de 45 vezes nos FLOPs para o LLaVA-1.5-13B) sem sacrificar o desempenho em uma ampla gama de tarefas de compreensão de imagens e vídeos. A relação entre eficiência computacional e desempenho do FastV é altamente personalizável e Pareto-eficiente. Ele pode comprimir os FLOPs de um modelo de 13 bilhões de parâmetros para alcançar um orçamento menor do que o de um modelo de 7 bilhões de parâmetros, mantendo ainda um desempenho superior. Acreditamos que o FastV tem valor prático para a implantação de LVLMs em dispositivos de borda e modelos comerciais. O código está disponível em https://github.com/pkunlp-icler/FastV.
Investigamos a taxa de melhoria dos algoritmos para pré-treinamento de modelos de linguagem desde o advento do aprendizado profundo. Utilizando um conjunto de dados com mais de 200 avaliações de modelos de linguagem no Wikitext e no Penn Treebank, abrangendo o período de 2012 a 2023, descobrimos que o poder computacional necessário para atingir um determinado limiar de desempenho foi reduzido pela metade aproximadamente a cada 8 meses, com um intervalo de confiança de 95% entre 5 e 14 meses, um ritmo substancialmente mais rápido do que os ganhos de hardware previstos pela Lei de Moore. Estimamos leis de escala aprimoradas, que nos permitem quantificar o progresso algorítmico e determinar as contribuições relativas do dimensionamento de modelos em relação às inovações nos algoritmos de treinamento. Apesar do ritmo acelerado do progresso algorítmico e do desenvolvimento de novas arquiteturas, como o transformer, nossa análise revela que o aumento no poder computacional teve uma contribuição ainda maior para as melhorias gerais de desempenho nesse período. Embora limitada por dados de benchmarks ruidosos, nossa análise quantifica o rápido progresso na modelagem de linguagem, lançando luz sobre as contribuições relativas do poder computacional e dos algoritmos.
A chegada do Sora marca uma nova era para os modelos de difusão texto-para-vídeo, trazendo avanços significativos na geração de vídeos e potenciais aplicações. No entanto, o Sora, assim como outros modelos de difusão texto-para-vídeo, depende fortemente dos prompts, e não há um conjunto de dados publicamente disponível que apresente um estudo sobre prompts texto-para-vídeo. Neste artigo, apresentamos o VidProM, o primeiro conjunto de dados em larga escala composto por 1,67 milhão de prompts texto-para-vídeo únicos de usuários reais. Além disso, o conjunto de dados inclui 6,69 milhões de vídeos gerados por quatro modelos de difusão state-of-the-art e alguns dados relacionados. Inicialmente, demonstramos a curadoria desse conjunto de dados em larga escala, que é um processo demorado e custoso. Em seguida, mostramos como o VidProM proposto difere do DiffusionDB, um conjunto de dados em larga escala de galeria de prompts para geração de imagens. Com base na análise desses prompts, identificamos a necessidade de um novo conjunto de dados de prompts especificamente projetado para geração texto-para-vídeo e obtemos insights sobre as preferências dos usuários reais ao criar vídeos. Nosso conjunto de dados em larga escala e diversificado também inspira muitas novas áreas de pesquisa empolgantes. Por exemplo, para desenvolver modelos de difusão texto-para-vídeo melhores, mais eficientes e seguros, sugerimos explorar a engenharia de prompts texto-para-vídeo, a geração eficiente de vídeos e a detecção de cópias de vídeos para modelos de difusão. Disponibilizamos o conjunto de dados coletado VidProM publicamente no GitHub e no Hugging Face sob a Licença CC-BY-NC 4.0.
Modelos de difusão são relativamente fáceis de treinar, mas exigem muitas etapas para gerar amostras. Modelos de consistência são muito mais difíceis de treinar, mas geram amostras em uma única etapa. Neste artigo, propomos Modelos de Consistência Multietapa: uma unificação entre Modelos de Consistência (Song et al., 2023) e TRACT (Berthelot et al., 2023) que pode interpolar entre um modelo de consistência e um modelo de difusão: um equilíbrio entre velocidade de amostragem e qualidade de amostragem. Especificamente, um modelo de consistência de 1 etapa é um modelo de consistência convencional, enquanto mostramos que um modelo de consistência de infinitas etapas é um modelo de difusão. Modelos de Consistência Multietapa funcionam muito bem na prática. Ao aumentar o orçamento de amostragem de uma única etapa para 2-8 etapas, podemos treinar modelos mais facilmente que geram amostras de maior qualidade, mantendo grande parte dos benefícios de velocidade de amostragem. Resultados notáveis são 1,4 FID no Imagenet 64 em 8 etapas e 2,1 FID no Imagenet128 em 8 etapas com destilação de consistência. Também mostramos que nosso método escala para um modelo de difusão texto-para-imagem, gerando amostras muito próximas da qualidade do modelo original.
A geração orientada por assunto tem despertado grande interesse recentemente devido à sua capacidade de personalizar a geração de texto para imagem. Trabalhos típicos concentram-se em aprender os atributos privados do novo assunto. No entanto, um fato importante não tem sido levado a sério: um assunto não é um conceito novo isolado, mas sim uma especialização de uma determinada categoria no modelo pré-treinado. Isso resulta no fato de o assunto não herdar de forma abrangente os atributos de sua categoria, causando gerações deficientes relacionadas a atributos. Neste artigo, motivados pela programação orientada a objetos, modelamos o assunto como uma classe derivada cuja classe base é sua categoria semântica. Essa modelagem permite que o assunto herde atributos públicos de sua categoria enquanto aprende seus atributos privados a partir do exemplo fornecido pelo usuário. Especificamente, propomos um método plug-and-play, a regularização Subject-Derived (SuDe). Ela constrói a modelagem de classe base-derivada ao restringir que as imagens geradas orientadas por assunto pertençam semanticamente à categoria do assunto. Experimentos extensivos sob três linhas de base e dois backbones em vários assuntos mostram que nosso SuDe permite gerações imaginativas relacionadas a atributos enquanto mantém a fidelidade do assunto. Os códigos serão disponibilizados em breve no FaceChain (https://github.com/modelscope/facechain).