Artigos de pesquisa em IA selecionados diariamente com traduções
O mapeamento de superfície canônica generaliza a detecção de pontos-chave atribuindo cada pixel de um objeto a um ponto correspondente em um modelo 3D. Popularizado pelo DensePose para a análise de humanos, os autores têm tentado aplicar o conceito a mais categorias, porém com sucesso limitado devido ao alto custo da supervisão manual. Neste trabalho, apresentamos o SHIC, um método para aprender mapas canônicos sem supervisão manual, que alcança melhores resultados do que métodos supervisionados para a maioria das categorias. Nossa ideia é aproveitar modelos de visão computacional fundamentais como DINO e Stable Diffusion, que são abertos e possuem excelentes premissas sobre categorias naturais. O SHIC reduz o problema de estimar correspondências de imagem-para-modelo para prever correspondências de imagem-para-imagem usando características dos modelos fundamentais. A redução funciona combinando imagens do objeto com renderizações não fotorealistas do modelo, o que emula o processo de coletar anotações manuais para essa tarefa. Essas correspondências são então usadas para supervisionar mapas canônicos de alta qualidade para qualquer objeto de interesse. Também demonstramos que geradores de imagens podem melhorar ainda mais o realismo das visualizações do modelo, fornecendo uma fonte adicional de supervisão para o modelo.
Agentes autônomos que lidam com tarefas digitais do dia a dia (por exemplo, fazer compras de supermercado para uma casa), não só precisam operar vários aplicativos (por exemplo, notas, mensagens, aplicativo de compras) via APIs, mas também gerar código complexo com fluxo de controle em uma abordagem iterativa com base em sua interação com o ambiente. No entanto, os benchmarks existentes para uso de ferramentas são inadequados, pois cobrem apenas tarefas que exigem uma sequência simples de chamadas de API. Para remediar essa lacuna, construímos o AppWorld Engine, um ambiente de execução de alta qualidade (60 mil linhas de código) de 9 aplicativos do dia a dia operáveis via 457 APIs e preenchidos com atividades digitais realistas simulando a vida de ~100 usuários fictícios. Em seguida, criamos o AppWorld Benchmark (40 mil linhas de código), um conjunto de 750 tarefas autônomas naturais, diversas e desafiadoras que exigem geração de código rica e interativa. Ele suporta uma avaliação programática robusta com testes unitários baseados em estado, permitindo diferentes maneiras de concluir uma tarefa, ao mesmo tempo em que verifica alterações inesperadas, ou seja, danos colaterais. O LLM de última geração, GPT-4o, resolve apenas ~49% de nossas tarefas 'normais' e ~30% das tarefas 'desafiadoras', enquanto outros modelos resolvem pelo menos 16% a menos. Isso destaca a dificuldade do benchmark e o potencial do AppWorld para impulsionar os limites dos agentes de codificação interativa. O site do projeto está disponível em https://appworld.dev/.
Propomos o Wolf, um Framework de sumarização do WOrLd para legendagem precisa de vídeos. O Wolf é um framework de legendagem automatizada que adota uma abordagem de mistura de especialistas, aproveitando as forças complementares dos Modelos de Linguagem de Visão (VLMs). Ao utilizar modelos de imagem e vídeo, nosso framework captura diferentes níveis de informação e os resume de forma eficiente. Nossa abordagem pode ser aplicada para aprimorar a compreensão de vídeos, a rotulagem automática e a legendagem. Para avaliar a qualidade das legendas, introduzimos o CapScore, uma métrica baseada em LLM para avaliar a similaridade e qualidade das legendas geradas em comparação com as legendas verdadeiras. Além disso, construímos quatro conjuntos de dados anotados por humanos em três domínios: direção autônoma, cenas gerais e robótica, para facilitar comparações abrangentes. Mostramos que o Wolf alcança um desempenho de legendagem superior em comparação com abordagens de ponta da comunidade de pesquisa (VILA1.5, CogAgent) e soluções comerciais (Gemini-Pro-1.5, GPT-4V). Por exemplo, em comparação com o GPT-4V, o Wolf melhora o CapScore tanto em qualidade em 55,6% quanto em similaridade em 77,4% em vídeos desafiadores de direção. Por fim, estabelecemos um referencial para legendagem de vídeos e introduzimos um quadro de líderes, com o objetivo de acelerar avanços na compreensão de vídeos, legendagem e alinhamento de dados. Quadro de líderes: https://wolfv0.github.io/leaderboard.html.
Apresentamos esforços sistemáticos na construção de um modelo de representação de texto multilíngue de longo contexto (TRM) e um reclassificador do zero para recuperação de texto. Primeiramente, introduzimos um codificador de texto (tamanho base) aprimorado com RoPE e descompactação, pré-treinado em um contexto nativo de 8192 tokens (maior do que os 512 dos codificadores multilíngues anteriores). Em seguida, construímos um TRM híbrido e um reclassificador de cruzamento por aprendizado contrastivo. As avaliações mostram que nosso codificador de texto supera o XLM-R de última geração do mesmo tamanho. Enquanto isso, nosso TRM e reclassificador alcançam o desempenho dos modelos BGE-M3 de última geração em tamanho grande e obtêm resultados melhores em benchmarks de recuperação de longo contexto. Análises adicionais demonstram que nossos modelos propostos apresentam maior eficiência tanto durante o treinamento quanto na inferência. Acreditamos que sua eficiência e eficácia podem beneficiar várias pesquisas e aplicações industriais.
A manipulação de objetos semelhantes a canetas é uma habilidade importante em nossas vidas diárias, pois muitas ferramentas, como martelos e chaves de fenda, têm formatos semelhantes. No entanto, os métodos atuais baseados em aprendizado enfrentam dificuldades nessa tarefa devido à falta de demonstrações de alta qualidade e à grande diferença entre a simulação e o mundo real. Neste trabalho, ampliamos os limites dos sistemas de manipulação em mãos baseados em aprendizado, demonstrando a capacidade de girar objetos semelhantes a canetas. Primeiramente, utilizamos o aprendizado por reforço para treinar uma política oráculo com informações privilegiadas e gerar um conjunto de dados de trajetória de alta fidelidade em simulação. Isso serve a dois propósitos: 1) pré-treinar uma política sensoriomotora em simulação; 2) realizar a reprodução de trajetória em malha aberta no mundo real. Em seguida, refinamos a política sensoriomotora usando essas trajetórias do mundo real para adaptá-la à dinâmica do mundo real. Com menos de 50 trajetórias, nossa política aprende a girar mais de dez objetos semelhantes a canetas com diferentes propriedades físicas por várias revoluções. Apresentamos uma análise abrangente de nossas escolhas de design e compartilhamos as lições aprendidas durante o desenvolvimento.
Os transformadores de visão avançaram significativamente o campo da visão computacional, oferecendo capacidades de modelagem robustas e um campo receptivo global. No entanto, suas altas demandas computacionais limitam sua aplicabilidade no processamento de sequências longas. Para lidar com esse problema, os Modelos de Espaço de Estado (SSMs) ganharam destaque em tarefas de visão, pois oferecem complexidade computacional linear. Recentemente, o modelo de Dualidade de Espaço de Estado (SSD), uma variante aprimorada dos SSMs, foi introduzido no Mamba2 para aprimorar o desempenho e eficiência do modelo. No entanto, a natureza causal inerente do SSD/SSMs restringe suas aplicações em tarefas de visão não causais. Para abordar essa limitação, apresentamos o modelo de Dualidade de Espaço de Estado Visual (VSSD), que possui um formato não causal do SSD. Especificamente, propomos descartar a magnitude das interações entre o estado oculto e os tokens, preservando seus pesos relativos, o que alivia as dependências da contribuição do token em tokens anteriores. Juntamente com o envolvimento de estratégias de multi-varredura, mostramos que os resultados da varredura podem ser integrados para alcançar a não causalidade, o que não apenas melhora o desempenho do SSD em tarefas de visão, mas também aprimora sua eficiência. Realizamos experimentos extensivos em vários benchmarks, incluindo classificação, detecção e segmentação de imagens, onde o VSSD supera os modelos baseados em SSMs existentes de última geração. O código e os pesos estão disponíveis em https://github.com/YuHengsss/VSSD.
Avanços recentes na reconstrução de objetos 3D a partir de imagens únicas têm se concentrado principalmente em melhorar a precisão das formas dos objetos. No entanto, essas técnicas frequentemente falham em capturar com precisão a inter-relação entre o objeto, o solo e a câmera. Como resultado, os objetos reconstruídos frequentemente parecem flutuar ou inclinar quando colocados em superfícies planas. Essa limitação afeta significativamente aplicações de edição de imagens 3D, como renderização de sombras e manipulação de poses de objetos. Para abordar esse problema, apresentamos o ORG (Reconstrução de Objetos com Solo), uma nova tarefa destinada a reconstruir a geometria de objetos 3D em conjunto com a superfície do solo. Nosso método utiliza duas representações compactas em nível de pixel para descrever a relação entre câmera, objeto e solo. Experimentos mostram que o modelo ORG proposto pode reconstruir de forma eficaz a geometria objeto-solo em dados não vistos, melhorando significativamente a qualidade da geração de sombras e manipulação de poses em comparação com técnicas convencionais de reconstrução 3D a partir de uma única imagem.