Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Reka Core, Flash e Edge, uma série de modelos de linguagem multimodal poderosos treinados do zero pela Reka. Os modelos Reka são capazes de processar e raciocinar com entradas de texto, imagens, vídeo e áudio. Este relatório técnico discute detalhes do treinamento de alguns desses modelos e fornece resultados de avaliação abrangentes. Mostramos que o Reka Edge e o Reka Flash não apenas estão no estado da arte, mas também superam muitos modelos muito maiores, oferecendo valores excepcionais para suas respectivas classes de computação. Enquanto isso, nosso modelo mais capaz e maior, o Reka Core, se aproxima dos melhores modelos de fronteira tanto em avaliações automáticas quanto em avaliações humanas cegas. Em benchmarks de resposta a perguntas sobre imagens (por exemplo, MMMU, VQAv2), o Core tem desempenho competitivo em relação ao GPT4-V. Enquanto isso, em chat multimodal, o Core é classificado como o segundo modelo mais preferido em uma configuração de avaliação humana cega por terceiros, superando outros modelos como o Claude 3 Opus. Em benchmarks de texto, o Core não apenas tem desempenho competitivo em relação a outros modelos de fronteira em um conjunto de benchmarks bem estabelecidos (por exemplo, MMLU, GSM8K), mas também supera o GPT4-0613 em avaliação humana. Em resposta a perguntas sobre vídeo (Perception-Test), o Core supera o Gemini Ultra. Os modelos estão disponíveis em produção em http://chat.reka.ai. Uma mostra de exemplos qualitativos não selecionados também pode ser encontrada em http://showcase.reka.ai.
Apresentamos o Blink, um novo benchmark para modelos de linguagem multimodal (LLMs) que se concentra em habilidades fundamentais de percepção visual não encontradas em outras avaliações. A maioria das tarefas do Blink pode ser resolvida por humanos "em um piscar de olhos" (por exemplo, estimativa de profundidade relativa, correspondência visual, detecção forense e raciocínio multivista). No entanto, descobrimos que essas tarefas que exigem percepção representam desafios significativos para os LLMs multimodais atuais, pois resistem à mediação por meio da linguagem natural. O Blink reformata 14 tarefas clássicas de visão computacional em 3.807 questões de múltipla escolha, acompanhadas de uma ou várias imagens e prompts visuais. Enquanto os humanos alcançam uma precisão média de 95,70%, o Blink é surpreendentemente desafiador para os LLMs multimodais existentes: mesmo os melhores desempenhos do GPT-4V e do Gemini atingem precisões de 51,26% e 45,72%, apenas 13,17% e 7,63% acima do acerto aleatório, indicando que tais habilidades de percepção ainda não "emergiram" nos LLMs multimodais recentes. Nossa análise também destaca que modelos especializados em visão computacional poderiam resolver esses problemas de forma muito melhor, sugerindo caminhos potenciais para melhorias futuras. Acreditamos que o Blink estimulará a comunidade a ajudar os LLMs multimodais a alcançar a percepção visual em nível humano.
Clipart, uma forma de arte gráfica pré-fabricada, oferece uma maneira conveniente e eficiente de ilustrar conteúdo visual. Os fluxos de trabalho tradicionais para converter imagens estáticas de clipart em sequências de movimento são trabalhosos e demorados, envolvendo inúmeras etapas intrincadas como rigging, animação chave e interpolação. Avanços recentes na geração de texto para vídeo têm grande potencial para resolver esse problema. No entanto, a aplicação direta de modelos de geração de texto para vídeo frequentemente luta para manter a identidade visual das imagens de clipart ou gerar movimentos no estilo de desenho animado, resultando em animações insatisfatórias. Neste artigo, apresentamos o AniClipart, um sistema que transforma imagens estáticas de clipart em sequências de movimento de alta qualidade guiadas por prioridades de texto para vídeo. Para gerar movimentos suaves e no estilo de desenho animado, primeiro definimos curvas de Bézier sobre os pontos-chave da imagem de clipart como uma forma de regularização de movimento. Em seguida, alinhamos as trajetórias de movimento dos pontos-chave com o prompt de texto fornecido, otimizando a perda de Video Score Distillation Sampling (VSDS), que codifica conhecimento adequado de movimento natural dentro de um modelo de difusão de texto para vídeo pré-treinado. Com um algoritmo diferenciável de deformação de forma As-Rigid-As-Possible, nosso método pode ser otimizado de ponta a ponta enquanto mantém a rigidez da deformação. Resultados experimentais mostram que o AniClipart proposto supera consistentemente os modelos existentes de geração de imagem para vídeo, em termos de alinhamento texto-vídeo, preservação da identidade visual e consistência de movimento. Além disso, demonstramos a versatilidade do AniClipart ao adaptá-lo para gerar uma gama mais ampla de formatos de animação, como animação em camadas, que permite mudanças topológicas.
O ajuste fino de instruções em LLMs pré-treinados para diversas tarefas subsequentes tem demonstrado um sucesso notável e capturado o interesse tanto de acadêmicos quanto de profissionais. Para garantir que esses LLMs ajustados estejam alinhados com as preferências humanas, técnicas como RLHF e DPO surgiram. Ao mesmo tempo, há um interesse crescente em modelos com menor número de parâmetros. Neste trabalho, utilizando o OpenLLaMA 3Bv2 como modelo base, descrevemos a receita usada para ajustar a família de modelos OpenBezoar. Nesta receita: Primeiro, geramos dados sintéticos de ajuste fino de instruções usando uma variante de ajuste fino de instruções do modelo Falcon-40B, aberta e sem restrições comerciais, sob três esquemas baseados em: LaMini-LM, WizardLM/Evol-Instruct (com databricks-dolly-15k como conjunto de dados inicial) e Orca (com a Coleção Flan como conjunto de dados inicial), então filtramos essas gerações usando GPT-4 como um proxy humano. Em seguida, realizamos um ajuste fino supervisionado baseado em QLoRA de forma sequencial com cada esquema. O checkpoint resultante é ainda mais ajustado com um subconjunto do conjunto de dados HH-RLHF para minimizar a mudança de distribuição antes de usar a perda DPO para obter o checkpoint final. A avaliação é feita com as tarefas/métricas do LM Eval Harness, bem como no MT-Bench usando o framework "LLM-as-a-judge" com Claude 2.1, com a descoberta de que o checkpoint final, "OpenBezoar-HH-RLHF-DPO", demonstra desempenho superior a muitos modelos na escala de 3B de parâmetros, superando até mesmo o modelo líder em uma das categorias no Huggingface Open LLM Leaderboard. Lançamos os checkpoints "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", juntamente com nossos conjuntos de dados gerados no HuggingFace em https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc e nosso código-fonte em https://bitbucket.org/paladinanalytics/workspace/projects/OP.