Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) transformaram o cenário da inteligência artificial, embora seu enorme tamanho apresente desafios significativos em termos de custos computacionais. Apresentamos o LoRAShear, uma nova abordagem eficiente para podar estruturalmente LLMs e recuperar conhecimento. Dado um LLM geral, o LoRAShear primeiro cria gráficos de dependência para descobrir estruturas de remoção mínima e analisar a distribuição de conhecimento. Em seguida, realiza uma poda estrutural progressiva nos adaptadores LoRA e permite a transferência inerente de conhecimento para preservar melhor a informação nas estruturas redundantes. Para recuperar o conhecimento perdido durante a poda, o LoRAShear estuda minuciosamente e propõe esquemas de ajuste fino dinâmico com adaptadores de dados dinâmicos para reduzir efetivamente a lacuna de desempenho em relação aos modelos completos. Resultados numéricos demonstram que, utilizando apenas uma GPU em alguns dias de processamento, o LoRAShear reduziu efetivamente a pegada dos LLMs em 20% com apenas 1,0% de degradação de desempenho, superando significativamente os métodos mais avançados. O código-fonte estará disponível em https://github.com/microsoft/lorashear.
Apresentamos o MM-VID, um sistema integrado que aproveita as capacidades do GPT-4V, combinadas com ferramentas especializadas em visão, áudio e fala, para facilitar a compreensão avançada de vídeos. O MM-VID foi projetado para enfrentar os desafios impostos por vídeos de longa duração e tarefas complexas, como o raciocínio em conteúdos de uma hora e a compreensão de enredos que abrangem múltiplos episódios. O MM-VID utiliza uma geração de script a partir de vídeo com o GPT-4V para transcrever elementos multimodais em um roteiro textual extenso. O roteiro gerado detalha movimentos, ações, expressões e diálogos dos personagens, abrindo caminho para que modelos de linguagem de grande escala (LLMs) alcancem a compreensão de vídeos. Isso possibilita capacidades avançadas, incluindo descrição de áudio, identificação de personagens e compreensão multimodal de alto nível. Resultados experimentais demonstram a eficácia do MM-VID no tratamento de diferentes gêneros de vídeo com diversas durações. Além disso, destacamos seu potencial quando aplicado a ambientes interativos, como jogos de vídeo e interfaces gráficas de usuário.
A geração de vídeo tem ganhado cada vez mais interesse tanto na academia quanto na indústria. Embora ferramentas comerciais possam gerar vídeos plausíveis, há um número limitado de modelos de código aberto disponíveis para pesquisadores e engenheiros. Neste trabalho, introduzimos dois modelos de difusão para geração de vídeos de alta qualidade, nomeadamente modelos de texto-para-vídeo (T2V) e imagem-para-vídeo (I2V). Os modelos T2V sintetizam um vídeo com base em um texto de entrada fornecido, enquanto os modelos I2V incorporam uma imagem adicional como entrada. Nosso modelo T2V proposto é capaz de gerar vídeos realistas e de qualidade cinematográfica com uma resolução de 1024x576, superando outros modelos T2V de código aberto em termos de qualidade. O modelo I2V foi projetado para produzir vídeos que aderem estritamente ao conteúdo da imagem de referência fornecida, preservando seu conteúdo, estrutura e estilo. Este modelo é o primeiro modelo de base I2V de código aberto capaz de transformar uma imagem dada em um clipe de vídeo, mantendo as restrições de preservação de conteúdo. Acreditamos que esses modelos de geração de vídeo de código aberto contribuirão significativamente para os avanços tecnológicos dentro da comunidade.
A crescente demanda por Modelos de Linguagem de Grande Escala (LLMs) em aplicações como geração de conteúdo, chatbots inteligentes e análise de sentimentos apresenta desafios consideráveis para os provedores de serviços de LLMs. Para utilizar eficientemente os recursos de GPU e aumentar a taxa de transferência, o agrupamento de múltiplas solicitações emergiu como um paradigma popular; para acelerar ainda mais o agrupamento, técnicas de quantização de LLMs reduzem o consumo de memória e aumentam a capacidade de computação. No entanto, esquemas de quantização prevalentes (por exemplo, quantização de peso-ativação de 8 bits) não conseguem aproveitar totalmente as capacidades das GPUs modernas, como operadores inteiros de 4 bits, resultando em desempenho subótimo. Para maximizar a taxa de transferência de LLMs, introduzimos o Atom, um método de quantização de baixo bit que alcança melhorias significativas na taxa de transferência com perda de precisão insignificante. O Atom aumenta consideravelmente a taxa de transferência ao utilizar operadores de baixo bit e reduz substancialmente o consumo de memória por meio de quantização de baixo bit. Ele atinge alta precisão ao aplicar um processo inovador de quantização de precisão mista e granularidade fina. Avaliamos o Atom em configurações de quantização de peso-ativação de 4 bits no contexto de serviço. O Atom melhora a taxa de transferência de ponta a ponta em até 7,73 vezes em comparação com o FP16 e em 2,53 vezes em comparação com a quantização INT8, mantendo o mesmo objetivo de latência.
A incorporação de um objeto personalizado na geração de imagens representa uma funcionalidade atraente na geração de imagens a partir de texto. No entanto, os métodos existentes baseados em otimização e codificação são limitados por desvantagens como otimização demorada, preservação insuficiente da identidade e um efeito prevalente de copiar e colar. Para superar essas limitações, apresentamos o CustomNet, uma nova abordagem de personalização de objetos que integra explicitamente capacidades de síntese de novas vistas 3D ao processo de personalização de objetos. Essa integração facilita o ajuste das relações de posição espacial e dos pontos de vista, gerando resultados diversos enquanto preserva efetivamente a identidade do objeto. Além disso, introduzimos designs refinados para permitir o controle de localização e o controle flexível do plano de fundo por meio de descrições textuais ou imagens específicas definidas pelo usuário, superando as limitações dos métodos existentes de síntese de novas vistas 3D. Aproveitamos ainda um pipeline de construção de conjuntos de dados que pode lidar melhor com objetos do mundo real e fundos complexos. Equipado com esses designs, nosso método facilita a personalização de objetos em zero-shot sem otimização em tempo de teste, oferecendo controle simultâneo sobre os pontos de vista, localização e plano de fundo. Como resultado, o CustomNet garante uma preservação aprimorada da identidade e gera resultados diversos e harmoniosos.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades impressionantes de raciocínio e aumento de dados em diversas tarefas de Processamento de Linguagem Natural (PLN). No entanto, e os modelos menores? Neste trabalho, propomos o TeacherLM-7.1B, capaz de anotar fundamentos relevantes, cadeias de pensamento e erros comuns para a maioria das amostras de PLN, o que transforma a anotação em mais do que apenas uma resposta, permitindo que outros modelos aprendam o "porquê" em vez de apenas o "quê". O modelo TeacherLM-7.1B alcançou uma pontuação zero-shot de 52,3 no MMLU, superando a maioria dos modelos com mais de 100 bilhões de parâmetros. Ainda mais notável é sua capacidade de aumento de dados. Com base no TeacherLM-7.1B, aumentamos 58 conjuntos de dados de PLN e treinamos diversos modelos estudantis com diferentes parâmetros das séries OPT e BLOOM em um cenário de multitarefa. Os resultados experimentais indicam que o aumento de dados fornecido pelo TeacherLM trouxe benefícios significativos. Disponibilizaremos a série de modelos TeacherLM e os conjuntos de dados aumentados como código aberto.
Neste artigo, avaliamos criticamente as capacidades do modelo de linguagem multimodal de última geração, ou seja, o GPT-4 com Visão (GPT-4V), na tarefa de Resposta a Perguntas Visuais (VQA). Nossos experimentos avaliam minuciosamente a proficiência do GPT-4V em responder a perguntas associadas a imagens, utilizando conjuntos de dados de patologia e radiologia de 11 modalidades (por exemplo, Microscopia, Dermatoscopia, Raio-X, TC, etc.) e quinze objetos de interesse (cérebro, fígado, pulmão, etc.). Nossos conjuntos de dados abrangem uma ampla gama de questionamentos médicos, incluindo dezesseis tipos distintos de perguntas. Durante nossas avaliações, elaboramos prompts textuais para o GPT-4V, direcionando-o a integrar informações visuais e textuais. Os experimentos com pontuação de acurácia concluem que a versão atual do GPT-4V não é recomendada para diagnósticos no mundo real devido à sua precisão pouco confiável e subótima ao responder a perguntas médicas diagnósticas. Além disso, delineamos sete aspectos únicos do comportamento do GPT-4V em VQA médica, destacando suas limitações nesse campo complexo. Os detalhes completos de nossos casos de avaliação estão disponíveis em https://github.com/ZhilingYan/GPT4V-Medical-Report.
Com o surgimento de LLMs (Large Language Models) poderosos e de código fechado (como ChatGPT e GPT-4), há um interesse crescente em destilar as capacidades desses LLMs de código fechado para LLMs menores e de código aberto. Métodos anteriores de destilação geralmente solicitam ao ChatGPT que gere um conjunto de instruções e respostas, para que o modelo estudante aprenda. No entanto, essa abordagem padrão de destilação ignora os méritos e as condições do modelo estudante. Inspirados por princípios modernos de ensino, projetamos um processo de destilação personalizado, no qual o estudante tenta resolver uma tarefa primeiro, e então o professor fornece um refinamento adaptativo para que o estudante melhore. Em vez de alimentar o estudante com o conhecimento prévio do professor, a destilação personalizada permite um aprendizado personalizado para o modelo estudante, pois ele aprende apenas com os exemplos em que comete erros e aprende a melhorar sua própria solução. Na geração de código, a destilação personalizada supera consistentemente a destilação padrão com apenas um terço dos dados. Com apenas 2,5-3 mil exemplos personalizados, que custam de 4 a 6 dólares para coletar, aumentamos o desempenho do CodeGen-mono-16B em 7%, alcançando 36,4% de pass@1, e do StarCoder em 12,2%, alcançando 45,8% de pass@1 no HumanEval.
Neste relatório técnico, apresentamos o Skywork-13B, uma família de modelos de linguagem de grande escala (LLMs) treinada em um corpus de mais de 3,2 trilhões de tokens extraídos de textos em inglês e chinês. Este modelo de base bilíngue é o LLM de tamanho comparável mais extensivamente treinado e publicado abertamente até o momento. Introduzimos uma metodologia de treinamento em duas etapas utilizando um corpus segmentado, visando o treinamento de propósito geral e, em seguida, o treinamento de aprimoramento específico de domínio, respectivamente. Demonstramos que nosso modelo não apenas se destaca em benchmarks populares, mas também alcança desempenho de ponta em modelagem de linguagem chinesa em diversos domínios. Além disso, propomos um novo método de detecção de vazamento, demonstrando que a contaminação de dados de teste é uma questão urgente que merece investigação adicional pela comunidade de LLMs. Para estimular pesquisas futuras, liberamos o Skywork-13B juntamente com checkpoints obtidos durante estágios intermediários do processo de treinamento. Também estamos disponibilizando parte do nosso corpus SkyPile, uma coleção de mais de 150 bilhões de tokens de texto da web, que é o maior corpus de pré-treinamento chinês de alta qualidade aberto até o momento. Esperamos que o Skywork-13B e nosso corpus aberto sirvam como um recurso de código aberto valioso para democratizar o acesso a LLMs de alta qualidade.
A geração de texto para 3D tem feito progressos notáveis recentemente, especialmente com métodos baseados em *Score Distillation Sampling* (SDS) que aproveitam modelos de difusão 2D pré-treinados. Embora o uso de *classifier-free guidance* seja amplamente reconhecido como crucial para uma otimização bem-sucedida, ele é considerado um truque auxiliar em vez do componente mais essencial. Neste artigo, reavaliamos o papel do *classifier-free guidance* na destilação de pontuação e descobrimos um achado surpreendente: o *guidance* por si só é suficiente para tarefas eficazes de geração de texto para 3D. Nomeamos esse método como *Classifier Score Distillation* (CSD), que pode ser interpretado como o uso de um modelo de classificação implícita para geração. Essa nova perspectiva revela novos insights para a compreensão de técnicas existentes. Validamos a eficácia do CSD em uma variedade de tarefas de texto para 3D, incluindo geração de formas, síntese de texturas e edição de formas, alcançando resultados superiores aos dos métodos state-of-the-art. Nossa página do projeto está disponível em https://xinyu-andy.github.io/Classifier-Score-Distillation.