Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Recognize Anything Model (RAM): um modelo base robusto para etiquetagem de imagens. O RAM é capaz de reconhecer qualquer categoria comum com alta precisão. O RAM introduz um novo paradigma para etiquetagem de imagens, aproveitando pares de imagem-texto em grande escala para treinamento, em vez de anotações manuais. O desenvolvimento do RAM compreende quatro etapas principais. Primeiramente, etiquetas de imagem sem anotações são obtidas em escala por meio de análise semântica automática de texto. Em seguida, um modelo preliminar é treinado para anotação automática, unificando as tarefas de legenda e etiquetagem, supervisionado pelos textos originais e pelas etiquetas analisadas, respectivamente. Em terceiro lugar, um mecanismo de dados é empregado para gerar anotações adicionais e limpar as incorretas. Por fim, o modelo é retreinado com os dados processados e ajustado usando um conjunto de dados menor, porém de maior qualidade. Avaliamos as capacidades de etiquetagem do RAM em diversos benchmarks e observamos um desempenho impressionante em zero-shot, superando significativamente o CLIP e o BLIP. Notavelmente, o RAM até supera os métodos totalmente supervisionados e exibe desempenho competitivo com a API do Google. Estamos disponibilizando o RAM em https://recognize-anything.github.io/ para promover os avanços de grandes modelos em visão computacional.
O ajuste por instruções tem avançado significativamente os grandes modelos de linguagem (LLMs), como o ChatGPT, permitindo que eles se alinhem com instruções humanas em diversas tarefas. No entanto, o progresso em modelos visão-linguagem (VLMs) de código aberto tem sido limitado devido à escassez de conjuntos de dados de instruções de alta qualidade. Para enfrentar esse desafio e promover pesquisas no campo de visão-linguagem, introduzimos o conjunto de dados Multi-Modal, Multilingual Instruction Tuning (M^3IT), projetado para otimizar o alinhamento de VLMs com instruções humanas. Nosso conjunto de dados M^3IT compreende 40 conjuntos de dados cuidadosamente curados, incluindo 2,4 milhões de instâncias e 400 instruções de tarefas escritas manualmente, reformatadas em uma estrutura de visão para texto. Tarefas-chave são traduzidas para 80 idiomas com um sistema de tradução avançado, garantindo maior acessibilidade. O M^3IT supera conjuntos de dados anteriores em termos de cobertura de tarefas, número de instruções e escala de instâncias. Além disso, desenvolvemos o Ying-VLM, um modelo VLM treinado em nosso conjunto de dados M^3IT, demonstrando seu potencial para responder a perguntas complexas que exigem conhecimento do mundo, generalizar para tarefas de vídeo não vistas e compreender instruções não vistas em chinês. Para incentivar mais pesquisas, disponibilizamos tanto o conjunto de dados quanto os modelos treinados como código aberto.
Estamos interessados em uma nova tarefa, nomeadamente a criação de avatares falantes com baixo recurso de texto para fala. Dado apenas um vídeo de uma pessoa falando com alguns minutos de duração, incluindo a trilha de áudio, como dados de treinamento e textos arbitrários como entrada de controle, nosso objetivo é sintetizar vídeos de retratos falantes de alta qualidade correspondentes ao texto de entrada. Essa tarefa tem amplas perspectivas de aplicação na indústria de humanos digitais, mas ainda não foi tecnicamente alcançada devido a dois desafios: (1) É desafiador imitar o timbre de áudio fora do domínio para um sistema tradicional de Text-to-Speech (TTS) multi-falante. (2) É difícil renderizar avatares falantes com alta fidelidade e sincronização labial com dados de treinamento limitados. Neste artigo, apresentamos o Adaptive Text-to-Talking Avatar (Ada-TTA), que (1) projeta um modelo genérico de TTS multi-falante zero-shot que bem desembaraça o conteúdo do texto, o timbre e a prosódia; e (2) incorpora avanços recentes em renderização neural para alcançar a geração realista de vídeos de rostos falantes impulsionados por áudio. Com esses projetos, nosso método supera os dois desafios mencionados e consegue gerar fala que preserva a identidade e vídeos realistas de pessoas falando. Experimentos demonstram que nosso método pode sintetizar vídeos de avatares falantes realistas, que preservam a identidade e estão sincronizados áudio-visualmente.
Encontrar correspondências entre imagens é um problema fundamental na visão computacional. Neste artigo, demonstramos que a correspondência emerge em modelos de difusão de imagens sem qualquer supervisão explícita. Propomos uma estratégia simples para extrair esse conhecimento implícito das redes de difusão como características de imagem, denominadas DIffusion FeaTures (DIFT), e usá-las para estabelecer correspondências entre imagens reais. Sem qualquer ajuste fino adicional ou supervisão em dados ou anotações específicas da tarefa, o DIFT é capaz de superar tanto métodos fracamente supervisionados quanto características competitivas prontas para uso na identificação de correspondências semânticas, geométricas e temporais. Particularmente para correspondência semântica, o DIFT do Stable Diffusion consegue superar o DINO e o OpenCLIP em 19 e 14 pontos de precisão, respectivamente, no desafiador benchmark SPair-71k. Ele até supera os métodos supervisionados de última geração em 9 das 18 categorias, mantendo-se em pé de igualdade no desempenho geral. Página do projeto: https://diffusionfeatures.github.io
Modelos de linguagem frequentemente alcançam maior precisão ao raciocinar passo a passo em tarefas complexas. No entanto, seu raciocínio pode ser falho, inconsistente ou depender de suposições prévias indesejáveis. Para abordar esses problemas, introduzimos uma classe de ferramentas para modelos de linguagem chamadas guias, que utilizam estado e restrições incrementais para orientar a geração. Um guia pode ser invocado pelo modelo para restringir sua própria geração a um conjunto de afirmações válidas fornecidas pela ferramenta. Por sua vez, as escolhas do modelo podem alterar o estado do guia. Mostramos como um sistema geral para raciocínio lógico pode ser usado como um guia, que chamamos de LogicGuide. Dado um problema de raciocínio em linguagem natural, um modelo pode formalizar suas suposições para o LogicGuide e, então, garantir que seus passos de raciocínio sejam sólidos. Em experimentos com os conjuntos de dados de raciocínio PrOntoQA e ProofWriter, o LogicGuide melhora significativamente o desempenho do GPT-3, GPT-3.5 Turbo e LLaMA (ganhos de precisão de até 35%). O LogicGuide também reduz drasticamente os efeitos de conteúdo: a interferência de suposições prévias e atuais da qual tanto humanos quanto modelos de linguagem têm demonstrado sofrer. Por fim, exploramos o aprimoramento do LLaMA 13B a partir de seu próprio raciocínio e descobrimos que o LogicGuide é crucial: ao treinar apenas com raciocínios autogerados certificados, o LLaMA pode se autoaperfeiçoar, evitando aprender com suas próprias alucinações.
Modelos de linguagem de grande escala (LLMs) podem ser usados para gerar dados textuais para treinar e avaliar outros modelos. No entanto, criar conjuntos de dados de alta qualidade com LLMs pode ser desafiador. Neste trabalho, exploramos parcerias humano-IA para facilitar alta diversidade e precisão na geração de dados textuais baseada em LLMs. Primeiro, examinamos duas abordagens para diversificar a geração de texto: 1) supressão de logits, que minimiza a geração de linguagens já frequentemente geradas, e 2) amostragem de temperatura, que nivela a probabilidade de amostragem de tokens. Descobrimos que abordagens de diversificação podem aumentar a diversidade dos dados, mas frequentemente ao custo da precisão dos dados (ou seja, texto e rótulos serem apropriados para o domínio de interesse). Para resolver esse problema, examinamos duas intervenções humanas: 1) substituição de rótulos (LR), corrigindo rótulos desalinhados, e 2) filtragem de fora do escopo (OOSF), removendo instâncias que estão fora do domínio de interesse do usuário ou para as quais nenhum rótulo considerado se aplica. Com estudos oráculos, descobrimos que o LR aumenta a precisão absoluta de modelos treinados com conjuntos de dados diversificados em 14,4%. Além disso, descobrimos que alguns modelos treinados com dados gerados com intervenções de LR superaram a classificação baseada em LLMs com poucos exemplos. Em contraste, o OOSF não foi eficaz em aumentar a precisão do modelo, sugerindo a necessidade de trabalhos futuros em geração de dados textuais com humanos no loop.
Apesar de memorizarem facilmente o conhecimento mundial sobre entidades, os modelos de linguagem pré-treinados (LMs) têm dificuldade em combinar dois ou mais fatos para realizar raciocínio multi-hop em tarefas de questionamento. Neste trabalho, propomos técnicas que superam essa limitação ao se basear em caminhadas aleatórias sobre grafos de conhecimento estruturados. Especificamente, usamos prompts suaves para orientar os LMs a encadear seu conhecimento codificado, aprendendo a mapear perguntas multi-hop para caminhos de caminhada aleatória que levam à resposta. A aplicação de nossos métodos em dois modelos T5 LMs mostra melhorias substanciais em relação às abordagens de ajuste padrão ao responder perguntas que exigem raciocínio de 2 hops.
A adaptação de domínio utilizando apenas corpus de texto é um desafio no reconhecimento de fala end-to-end (E2E). A adaptação por meio da síntese de áudio a partir de texto através de TTS (Text-to-Speech) consome muitos recursos. Apresentamos um método para aprender Representação Unificada de Fala e Texto no Conformer Transducer (USTR-CT) para permitir uma rápida adaptação de domínio utilizando apenas corpus de texto. Diferente do método anterior de textograma, um codificador de texto adicional é introduzido em nosso trabalho para aprender a representação de texto e é removido durante a inferência, portanto, não há modificação para implantação online. Para melhorar a eficiência da adaptação, adaptações de passo único e multi-passos também são exploradas. Os experimentos de adaptação do LibriSpeech para o SPGISpeech mostram que o método proposto reduz a taxa de erro de palavras (WER) em 44% relativamente no domínio de destino, o que é melhor do que os métodos TTS e textograma. Além disso, é demonstrado que o método proposto pode ser combinado com a estimativa do modelo de linguagem interno (ILME) para melhorar ainda mais o desempenho.
Neste artigo, apresentamos uma abordagem para localizar etapas de atividades procedurais em vídeos instrucionais narrados. Para lidar com a escassez de dados rotulados em escala, obtemos as descrições das etapas de uma base de conhecimento linguística (wikiHow) que contém artigos instrucionais para uma grande variedade de tarefas procedurais. Sem qualquer forma de supervisão manual, nosso modelo aprende a localizar temporalmente as etapas dos artigos procedimentais em vídeos instrucionais ao combinar três modalidades: frames, narrações e descrições das etapas. Especificamente, nosso método alinha as etapas ao vídeo ao fundir informações de dois caminhos distintos: i) alinhamento {\em direto} das descrições das etapas aos frames, ii) alinhamento {\em indireto} obtido ao compor correspondências entre etapas e narrações com correspondências entre narrações e vídeo. Notavelmente, nossa abordagem realiza a localização temporal global de todas as etapas de um artigo de uma só vez ao explorar informações de ordem, e é treinada com pseudo-rótulos de etapas que são refinados iterativamente e filtrados de forma agressiva. Para validar nosso modelo, introduzimos um novo benchmark de avaliação -- HT-Step -- obtido ao anotar manualmente um subconjunto de 124 horas do HowTo100M. O servidor de teste está acessível em \url{https://eval.ai/web/challenges/challenge-page/2082.} com etapas obtidas de artigos do wikiHow. Experimentos nesse benchmark, bem como avaliações zero-shot no CrossTask, demonstram que nosso alinhamento multi-modal proporciona ganhos significativos em relação a várias linhas de base e trabalhos anteriores. Por fim, mostramos que nosso módulo interno para correspondência entre narração e vídeo supera por uma grande margem o estado da arte no benchmark de alinhamento narração-vídeo HTM-Align.