Artigos de pesquisa em IA selecionados diariamente com traduções
Para interagir com os humanos no mundo, os agentes precisam compreender os diversos tipos de linguagem que as pessoas utilizam, relacioná-las ao mundo visual e agir com base nelas. Embora os agentes atuais aprendam a executar instruções linguísticas simples a partir de recompensas de tarefas, nosso objetivo é construir agentes que aproveitem a linguagem diversificada que transmite conhecimento geral, descreve o estado do mundo, fornece feedback interativo e muito mais. Nossa ideia central é que a linguagem ajuda os agentes a prever o futuro: o que será observado, como o mundo se comportará e quais situações serão recompensadas. Essa perspectiva unifica a compreensão da linguagem com a previsão do futuro como um objetivo poderoso de aprendizado autossupervisionado. Apresentamos o Dynalang, um agente que aprende um modelo de mundo multimodal que prevê representações futuras de texto e imagem e aprende a agir a partir de simulações imaginadas do modelo. Diferente dos agentes tradicionais, que usam a linguagem apenas para prever ações, o Dynalang adquire uma compreensão rica da linguagem ao utilizar a linguagem passada também para prever linguagem futura, vídeo e recompensas. Além de aprender com a interação online em um ambiente, o Dynalang pode ser pré-treinado em conjuntos de dados de texto, vídeo ou ambos, sem ações ou recompensas. Desde o uso de dicas linguísticas em mundos em grade até a navegação em varreduras fotorrealistas de residências, o Dynalang utiliza diversos tipos de linguagem para melhorar o desempenho em tarefas, incluindo descrições de ambientes, regras de jogos e instruções.
Apresentamos o OpenFlamingo, uma família de modelos autoregressivos de visão e linguagem que variam de 3B a 9B parâmetros. O OpenFlamingo é um esforço contínuo para produzir uma replicação de código aberto dos modelos Flamingo da DeepMind. Em sete conjuntos de dados de visão e linguagem, os modelos OpenFlamingo atingem, em média, entre 80% e 89% do desempenho correspondente dos modelos Flamingo. Este relatório técnico descreve nossos modelos, dados de treinamento, hiperparâmetros e conjunto de avaliação. Compartilhamos nossos modelos e código em https://github.com/mlfoundations/open_flamingo.
O raciocínio matemático é uma tarefa desafiadora para grandes modelos de linguagem (LLMs), enquanto a relação de escalonamento em relação à capacidade dos LLMs é pouco explorada. Neste artigo, investigamos como a perda no pré-treinamento, a quantidade de dados supervisionados e a quantidade de dados aumentados influenciam o desempenho de raciocínio de um LLM supervisionado. Descobrimos que a perda no pré-treinamento é um indicador melhor do desempenho do modelo do que a contagem de parâmetros do modelo. Aplicamos o ajuste fino supervisionado (SFT) com diferentes quantidades de dados supervisionados e encontramos empiricamente uma relação log-linear entre a quantidade de dados e o desempenho do modelo, e observamos que modelos melhores melhoram menos com conjuntos de dados supervisionados ampliados. Para aumentar mais amostras de dados e melhorar o desempenho dos modelos sem qualquer esforço humano, propomos aplicar o Ajuste Fino com Amostragem por Rejeição (RFT). O RFT usa modelos supervisionados para gerar e coletar caminhos de raciocínio corretos como conjuntos de dados aumentados para ajuste fino. Descobrimos que, com amostras aumentadas contendo mais caminhos de raciocínio distintos, o RFT melhora mais o desempenho de raciocínio matemático para LLMs. Também observamos que o RFT traz mais melhorias para LLMs menos performáticos. Além disso, combinamos amostras de rejeição de múltiplos modelos, o que eleva a precisão do LLaMA-7B para 49,3% e supera significativamente a precisão de 35,9% do ajuste fino supervisionado (SFT).
Modelos de difusão têm demonstrado resultados promissores em tarefas de geração multimodal, incluindo geração de texto para imagem e texto para áudio. No entanto, a geração de música, como um tipo especial de áudio, apresenta desafios únicos devido à disponibilidade limitada de dados musicais e questões sensíveis relacionadas a direitos autorais e plágio. Neste artigo, para enfrentar esses desafios, primeiro construímos um modelo de última geração para geração de música a partir de texto, o MusicLDM, que adapta as arquiteturas do Stable Diffusion e do AudioLDM ao domínio musical. Isso é alcançado ao retreinar o modelo de pré-treinamento contrastivo de linguagem e áudio (CLAP) e o vocoder Hifi-GAN, como componentes do MusicLDM, em uma coleção de amostras de dados musicais. Em seguida, para lidar com as limitações dos dados de treinamento e evitar plágio, utilizamos um modelo de rastreamento de batidas e propomos duas estratégias diferentes de mixup para aumento de dados: mixup de áudio síncrono à batida e mixup latente síncrono à batida, que recombinam o áudio de treinamento diretamente ou por meio de um espaço de embeddings latentes, respectivamente. Essas estratégias de mixup incentivam o modelo a interpolar entre amostras musicais de treinamento e gerar novas músicas dentro do casco convexo dos dados de treinamento, tornando a música gerada mais diversificada, mas ainda fiel ao estilo correspondente. Além das métricas de avaliação populares, projetamos várias novas métricas de avaliação baseadas na pontuação CLAP para demonstrar que nosso MusicLDM proposto e as estratégias de mixup síncrono à batida melhoram tanto a qualidade quanto a novidade da música gerada, bem como a correspondência entre o texto de entrada e a música gerada.
Os modelos de linguagem demonstram uma capacidade notável de generalizar representações aprendidas em uma modalidade para tarefas subsequentes em outras modalidades. Podemos rastrear essa habilidade até neurônios individuais? Estudamos o caso em que um transformador de texto congelado é aumentado com visão usando um codificador visual auto-supervisionado e uma única projeção linear aprendida em uma tarefa de imagem para texto. As saídas da camada de projeção não são imediatamente decodificáveis em linguagem que descreve o conteúdo da imagem; em vez disso, descobrimos que a tradução entre modalidades ocorre mais profundamente dentro do transformador. Introduzimos um procedimento para identificar "neurônios multimodais" que convertem representações visuais em texto correspondente, e decodificar os conceitos que eles injetam no fluxo residual do modelo. Em uma série de experimentos, mostramos que os neurônios multimodais operam em conceitos visuais específicos entre as entradas e têm um efeito causal sistemático na geração de legendas de imagens.
Apresentamos o conjunto de dados HANDAL para estimativa de pose em nível de categoria e previsão de affordance. Diferentemente de conjuntos de dados anteriores, o nosso é focado em objetos manipuláveis prontos para robótica, que possuem o tamanho e a forma adequados para a preensão funcional por manipuladores robóticos, como alicates, utensílios e chaves de fenda. Nosso processo de anotação é simplificado, exigindo apenas uma câmera comercial e processamento semiautomatizado, permitindo-nos produzir anotações 3D de alta qualidade sem a necessidade de crowdsourcing. O conjunto de dados consiste em 308 mil quadros de imagem anotados, provenientes de 2,2 mil vídeos de 212 objetos do mundo real em 17 categorias. Focamos em objetos de ferramentas e utensílios de cozinha para facilitar pesquisas em cenários práticos nos quais um manipulador robótico precisa interagir com o ambiente além de simples empurrões ou preensões indiscriminadas. Destacamos a utilidade do nosso conjunto de dados para estimativa de pose+escala em 6 graus de liberdade (6-DoF) em nível de categoria e tarefas relacionadas. Também fornecemos malhas 3D reconstruídas de todos os objetos e destacamos alguns dos gargalos a serem abordados para democratizar a coleta de conjuntos de dados como este.
Apresentamos o projeto All-Seeing (AS): um modelo e conjunto de dados em larga escala para reconhecer e compreender tudo no mundo aberto. Utilizando um mecanismo de dados escalável que incorpora feedback humano e modelos eficientes em loop, criamos um novo conjunto de dados (AS-1B) com mais de 1 bilhão de regiões anotadas com tags semânticas, pares de perguntas e respostas, e legendas detalhadas. Ele abrange uma ampla gama de 3,5 milhões de conceitos comuns e raros do mundo real, e possui 132,2 bilhões de tokens que descrevem os conceitos e seus atributos. Aproveitando esse novo conjunto de dados, desenvolvemos o modelo All-Seeing (ASM), uma estrutura unificada para reconhecimento e compreensão visual panóptica. O modelo é treinado com prompts de linguagem abertos e localizações, o que permite que ele generalize para várias tarefas de visão e linguagem com desempenho zero-shot notável, incluindo recuperação de texto-região, reconhecimento de regiões, legendagem e perguntas e respostas. Esperamos que este projeto possa servir como base para pesquisas em inteligência artificial geral de visão e linguagem. Os modelos e o conjunto de dados serão liberados em https://github.com/OpenGVLab/All-Seeing, e uma demonstração pode ser vista em https://huggingface.co/spaces/OpenGVLab/all-seeing.
Este artigo apresenta um detector DETR aprimorado que mantém uma natureza "simples": utilizando um mapa de características de escala única e cálculos de atenção cruzada global sem restrições específicas de localidade, em contraste com os principais detectores baseados em DETR anteriores que reintroduzem vieses indutivos arquiteturais de multi-escala e localidade no decodificador. Mostramos que duas tecnologias simples são surpreendentemente eficazes dentro de um design simples para compensar a falta de mapas de características multi-escala e restrições de localidade. A primeira é um termo de viés de posição relativa caixa-para-pixel (BoxRPB) adicionado à formulação de atenção cruzada, que bem orienta cada consulta a atentar para a região do objeto correspondente, ao mesmo tempo que fornece flexibilidade de codificação. A segunda é o pré-treinamento da backbone baseado em modelagem de imagem mascarada (MIM), que ajuda a aprender representação com capacidade de localização de granularidade fina e se mostra crucial para remediar dependências dos mapas de características multi-escala. Ao incorporar essas tecnologias e avanços recentes em treinamento e formulação de problemas, o DETR "simples" aprimorado mostrou melhorias excepcionais em relação ao detector DETR original. Ao aproveitar o conjunto de dados Object365 para pré-treinamento, ele alcançou 63,9 mAP de precisão usando uma backbone Swin-L, o que é altamente competitivo com os detectores de última geração que dependem fortemente de mapas de características multi-escala e extração de características baseada em região. O código está disponível em https://github.com/impiga/Plain-DETR.
O jogo imaginativo é uma área da criatividade que poderia permitir que os robôs interagissem com o mundo ao seu redor de uma forma muito mais personificada. O jogo imaginativo pode ser visto como o ato de tomar objetos e locais reais e usá-los como objetos e locais imaginários em cenários virtuais. Adotamos a capacidade de geração de histórias dos modelos de linguagem de grande escala (LLMs) para obter as histórias usadas no jogo imaginativo com prompts escritos por humanos. Essas histórias geradas serão simplificadas e mapeadas em sequências de ações que podem guiar o agente no jogo imaginativo. Para avaliar se o agente consegue concluir com sucesso o jogo imaginativo, também projetamos um jogo de aventura em texto para simular uma casa como o playground onde o agente pode interagir.
A fotografia de longa exposição produz imagens impressionantes, representando elementos em movimento em uma cena com desfoque de movimento. Geralmente, ela é empregada em duas modalidades, produzindo efeitos de desfoque no primeiro plano ou no fundo. As imagens com desfoque no primeiro plano são tradicionalmente capturadas com uma câmera montada em um tripé e retratam elementos móveis desfocados no primeiro plano, como água sedosa ou trilhas de luz, sobre uma paisagem de fundo perfeitamente nítida. As imagens com desfoque no fundo, também chamadas de fotografia panorâmica, são capturadas enquanto a câmera acompanha um sujeito em movimento, produzindo uma imagem de um sujeito nítido sobre um fundo desfocado pelo movimento relativo. Ambas as técnicas são notoriamente desafiadoras e exigem equipamentos adicionais e habilidades avançadas. Neste artigo, descrevemos um sistema computacional de fotografia em rajada que opera em um aplicativo de câmera de smartphone portátil e alcança esses efeitos de forma totalmente automática, com um simples toque no botão do obturador. Nossa abordagem primeiro detecta e segmenta o sujeito saliente. Rastreamos o movimento da cena em vários quadros e alinhamos as imagens para preservar a nitidez desejada e produzir faixas de movimento esteticamente agradáveis. Capturamos uma rajada subexposta e selecionamos o subconjunto de quadros de entrada que produzirá trilhas de desfoque de comprimento controlado, independentemente da velocidade do movimento da cena ou da câmera. Prevemos o movimento entre quadros e sintetizamos o desfoque de movimento para preencher as lacunas temporais entre os quadros de entrada. Por fim, combinamos a imagem desfocada com a exposição regular nítida para proteger a nitidez de rostos ou áreas da cena que estão quase paradas, e produzimos uma fotografia final de alta resolução e alta faixa dinâmica (HDR). Nosso sistema democratiza uma capacidade anteriormente reservada a profissionais e torna esse estilo criativo acessível à maioria dos fotógrafos casuais. Mais informações e material complementar podem ser encontrados em nossa página do projeto: https://motion-mode.github.io/
Malhas coloridas dinâmicas (DCM) são amplamente utilizadas em diversas aplicações; no entanto, essas malhas podem passar por diferentes processos, como compressão ou transmissão, que podem distorcê-las e degradar sua qualidade. Para facilitar o desenvolvimento de métricas objetivas para DCMs e estudar a influência de distorções típicas em sua percepção, criamos o banco de dados Tencent - malhas coloridas dinâmicas (TDMD), contendo oito objetos DCM de referência com seis distorções típicas. Utilizando sequências de vídeo processadas (PVS) derivadas das DCMs, realizamos um experimento subjetivo em larga escala que resultou em 303 amostras de DCM distorcidas com pontuações médias de opinião, tornando o TDMD o maior banco de dados de DCM disponível, até onde sabemos. Esse banco de dados nos permitiu estudar o impacto de diferentes tipos de distorção na percepção humana e oferecer recomendações para compressão de DCM e tarefas relacionadas. Além disso, avaliamos três tipos de métricas objetivas de ponta no TDMD, incluindo métricas baseadas em imagem, em pontos e em vídeo. Nossos resultados experimentais destacam os pontos fortes e fracos de cada métrica, e fornecemos sugestões sobre a seleção de métricas em aplicações práticas de DCM. O TDMD será disponibilizado publicamente no seguinte endereço: https://multimedia.tencent.com/resources/tdmd.