Artigos de pesquisa em IA selecionados diariamente com traduções
Este trabalho apresenta o Depth Anything, uma solução altamente prática para estimativa robusta de profundidade monocular. Sem buscar módulos técnicos inovadores, nosso objetivo é construir um modelo de base simples, porém poderoso, capaz de lidar com qualquer imagem em qualquer circunstância. Para isso, ampliamos o conjunto de dados projetando um mecanismo de coleta e anotação automática de dados não rotulados em grande escala (~62M), o que aumenta significativamente a cobertura dos dados e, consequentemente, reduz o erro de generalização. Investigamos duas estratégias simples, porém eficazes, que tornam promissora a ampliação dos dados. Primeiro, um alvo de otimização mais desafiador é criado por meio de ferramentas de aumento de dados. Isso obriga o modelo a buscar ativamente conhecimento visual adicional e adquirir representações robustas. Segundo, uma supervisão auxiliar é desenvolvida para forçar o modelo a herdar ricos pré-conhecimentos semânticos de codificadores pré-treinados. Avaliamos extensivamente suas capacidades zero-shot, incluindo seis conjuntos de dados públicos e fotos capturadas aleatoriamente. Ele demonstra uma impressionante capacidade de generalização. Além disso, ao ajustá-lo com informações de profundidade métrica do NYUv2 e KITTI, novos SOTAs são estabelecidos. Nosso modelo de profundidade aprimorado também resulta em um ControlNet condicionado por profundidade melhorado. Nossos modelos estão disponíveis em https://github.com/LiheYoung/Depth-Anything.
O paralelismo de pipeline é um dos componentes-chave para o treinamento distribuído em larga escala, mas sua eficiência é prejudicada pelas bolhas de pipeline, que eram consideradas inevitáveis. Neste trabalho, introduzimos uma estratégia de escalonamento que, até onde sabemos, é a primeira a alcançar com sucesso zero bolhas de pipeline sob semântica de treinamento síncrono. A ideia central por trás dessa melhoria é dividir o cálculo de retropropagação em duas partes: uma que calcula o gradiente para a entrada e outra que calcula para os parâmetros. Com base nessa ideia, criamos manualmente novos esquemas de pipeline que superam significativamente os métodos de referência. Além disso, desenvolvemos um algoritmo que encontra automaticamente um escalonamento ideal com base na configuração específica do modelo e no limite de memória. Adicionalmente, para realmente alcançar zero bolhas, introduzimos uma técnica inovadora para contornar sincronizações durante a etapa do otimizador. Avaliações experimentais mostram que nosso método supera o escalonamento 1F1B em até 23% em taxa de transferência sob um limite de memória similar. Esse número pode ser ainda maior, chegando a 31%, quando a restrição de memória é relaxada. Acreditamos que nossos resultados representam um grande avanço no aproveitamento do verdadeiro potencial do paralelismo de pipeline. Disponibilizamos nossa implementação com base no popular repositório Megatron-LM em https://github.com/sail-sg/zero-bubble-pipeline-parallelism.
Gerar fundos de vídeo que se adaptem ao movimento do objeto em primeiro plano é um problema importante para a indústria cinematográfica e a comunidade de efeitos visuais. Essa tarefa envolve a síntese de fundos que se alinham ao movimento e à aparência do objeto em primeiro plano, ao mesmo tempo em que atendem à intenção criativa do artista. Apresentamos o ActAnywhere, um modelo generativo que automatiza esse processo, que tradicionalmente requer esforços manuais tediosos. Nosso modelo aproveita o poder dos modelos de difusão de vídeo em larga escala e é especificamente adaptado para essa tarefa. O ActAnywhere recebe como entrada uma sequência de segmentação do objeto em primeiro plano e uma imagem que descreve a cena desejada como condição, para produzir um vídeo coerente com interações realistas entre primeiro plano e fundo, enquanto adere ao quadro de condição. Treinamos nosso modelo em um conjunto de dados em larga escala de vídeos de interação humano-cena. Avaliações extensivas demonstram o desempenho superior do nosso modelo, superando significativamente as linhas de base. Além disso, mostramos que o ActAnywhere generaliza para diversas amostras fora da distribuição, incluindo objetos não humanos. Visite nossa página do projeto em https://actanywhere.github.io.
Neste artigo, apresentamos uma estrutura baseada em modelos de difusão para animar pessoas a partir de uma única imagem, considerando uma sequência de movimento 3D alvo. Nossa abordagem possui dois componentes principais: a) aprender prioridades sobre partes invisíveis do corpo humano e das roupas, e b) renderizar novas poses corporais com roupas e texturas adequadas. Para a primeira parte, aprendemos um modelo de difusão de preenchimento para alucinar partes não vistas de uma pessoa, dada uma única imagem. Treinamos esse modelo no espaço de mapas de textura, o que o torna mais eficiente em termos de amostragem, já que é invariante à pose e ao ponto de vista. Em segundo lugar, desenvolvemos um pipeline de renderização baseado em difusão, controlado por poses humanas 3D. Isso produz renderizações realistas de novas poses da pessoa, incluindo roupas, cabelos e preenchimento plausível de regiões não vistas. Essa abordagem desacoplada permite que nosso método gere uma sequência de imagens que são fiéis ao movimento alvo na pose 3D e à imagem de entrada em termos de similaridade visual. Além disso, o controle 3D permite várias trajetórias de câmera sintéticas para renderizar uma pessoa. Nossos experimentos mostram que nosso método é resiliente na geração de movimentos prolongados e poses variadas, desafiadoras e complexas em comparação com métodos anteriores. Para mais detalhes, consulte nosso site: https://boyiliee.github.io/3DHM.github.io/.
Este artigo estuda o problema da interpretabilidade baseada em conceitos das representações de transformadores para vídeos. Concretamente, buscamos explicar o processo de tomada de decisão dos transformadores de vídeo com base em conceitos espaço-temporais de alto nível que são descobertos automaticamente. Pesquisas anteriores sobre interpretabilidade baseada em conceitos concentraram-se exclusivamente em tarefas de nível de imagem. Em comparação, modelos de vídeo lidam com a dimensão temporal adicional, aumentando a complexidade e apresentando desafios na identificação de conceitos dinâmicos ao longo do tempo. Neste trabalho, abordamos sistematicamente esses desafios ao introduzir o primeiro algoritmo de Descoberta de Conceitos em Transformadores de Vídeo (VTCD, na sigla em inglês). Para isso, propomos uma abordagem eficiente para a identificação não supervisionada de unidades de representações de transformadores de vídeo — os conceitos — e a classificação de sua importância para a saída de um modelo. Os conceitos resultantes são altamente interpretáveis, revelando mecanismos de raciocínio espaço-temporal e representações centradas em objetos em modelos de vídeo não estruturados. Ao realizar essa análise conjuntamente em um conjunto diversificado de representações supervisionadas e auto-supervisionadas, descobrimos que alguns desses mecanismos são universais em transformadores de vídeo. Por fim, demonstramos que o VTCD pode ser utilizado para melhorar o desempenho do modelo em tarefas de granularidade fina.
A ditação permite uma entrada eficiente de texto em dispositivos móveis. No entanto, escrever com fala pode produzir textos desconexos, prolixos e incoerentes, exigindo, assim, um pesado pós-processamento. Este artigo apresenta o Rambler, uma interface gráfica de usuário alimentada por LLM (Large Language Model) que suporta a manipulação de texto ditado em nível de essência com dois conjuntos principais de funções: extração de essência e revisão macro. A extração de essência gera palavras-chave e resumos como âncoras para apoiar a revisão e a interação com o texto falado. As revisões macro assistidas por LLM permitem que os usuários reditem, dividam, unam e transformem o texto ditado sem especificar locais precisos de edição. Juntas, essas funcionalidades abrem caminho para uma ditação e revisão interativas que ajudam a reduzir as lacunas entre as palavras faladas espontaneamente e a escrita bem estruturada. Em um estudo comparativo com 12 participantes realizando tarefas de composição verbal, o Rambler superou a linha de base de um editor de fala para texto + ChatGPT, pois facilita melhor revisões iterativas com maior controle do usuário sobre o conteúdo, ao mesmo tempo que suporta estratégias de usuário surpreendentemente diversas.