Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o primeiro Modelo de Reconstrução em Grande Escala (LRM) que prevê o modelo 3D de um objeto a partir de uma única imagem de entrada em apenas 5 segundos. Em contraste com muitos métodos anteriores que são treinados em conjuntos de dados de pequena escala, como o ShapeNet, de forma específica por categoria, o LRM adota uma arquitetura altamente escalável baseada em transformers com 500 milhões de parâmetros aprendíveis para prever diretamente um campo de radiação neural (NeRF) a partir da imagem de entrada. Treinamos nosso modelo de ponta a ponta em dados multiview massivos contendo cerca de 1 milhão de objetos, incluindo renderizações sintéticas do Objaverse e capturas reais do MVImgNet. Essa combinação de um modelo de alta capacidade e dados de treinamento em grande escala capacita nosso modelo a ser altamente generalizável e produzir reconstruções 3D de alta qualidade a partir de diversas entradas de teste, incluindo capturas reais em ambientes não controlados e imagens de modelos generativos. Demonstrações em vídeo e malhas 3D interativas podem ser encontradas neste site: https://yiconghong.me/LRM/.
Apesar dos avanços recentes e empolgantes dos Modelos de Linguagem de Grande Escala Multimodais (MM-LLMs), eles ainda enfrentam dificuldades para modelar eficientemente as interações entre entradas multimodais e a geração em modalidades não textuais. Neste trabalho, propomos o TEAL (Tokenize and Embed ALl), uma abordagem que trata a entrada de qualquer modalidade como uma sequência de tokens e aprende um espaço de incorporação conjunta para todas as modalidades. Especificamente, para a entrada de qualquer modalidade, o TEAL primeiro a discretiza em uma sequência de tokens usando um tokenizador disponível e incorpora a sequência de tokens em um espaço de incorporação conjunta com uma matriz de incorporação aprendível. Os MM-LLMs precisam apenas prever os tokens multimodais de forma autoregressiva, assim como os LLMs textuais fazem. Por fim, o des-tokenizador correspondente é aplicado para gerar a saída em cada modalidade com base na sequência de tokens prevista. Com o espaço de incorporação conjunta, o TEAL permite que os LLMs congelados realizem tarefas de compreensão e geração envolvendo modalidades não textuais, como imagem e áudio. Assim, o LLM textual pode funcionar apenas como uma interface e manter seu alto desempenho em compreensão e geração textual. Experimentos mostram que o TEAL alcança melhorias substanciais na compreensão multimodal e implementa um esquema simples para gerações multimodais.
A impressionante melhoria qualitativa dos recentes modelos de texto para imagem levou à sua ampla atenção e adoção. No entanto, carecemos de uma compreensão quantitativa abrangente de suas capacidades e riscos. Para preencher essa lacuna, introduzimos um novo benchmark, a Avaliação Holística de Modelos de Texto para Imagem (HEIM). Enquanto avaliações anteriores focavam principalmente no alinhamento texto-imagem e na qualidade da imagem, identificamos 12 aspectos, incluindo alinhamento texto-imagem, qualidade da imagem, estética, originalidade, raciocínio, conhecimento, viés, toxicidade, justiça, robustez, multilinguismo e eficiência. Curamos 62 cenários que abrangem esses aspectos e avaliamos 26 modelos de texto para imagem de última geração neste benchmark. Nossos resultados revelam que nenhum modelo único se destaca em todos os aspectos, com diferentes modelos demonstrando diferentes pontos fortes. Disponibilizamos as imagens geradas e os resultados das avaliações humanas para total transparência em https://crfm.stanford.edu/heim/v1.1.0 e o código em https://github.com/stanford-crfm/helm, que está integrado à base de código do HELM.
O desenvolvimento de grandes modelos de linguagem (LLMs) tem avançado significativamente o campo da compreensão multimodal, levando ao surgimento de grandes modelos multimodais (LMMs). Para aprimorar o nível de compreensão visual, estudos recentes equiparam os LMMs com capacidades de entendimento em nível de região, representando as coordenadas das caixas delimitadoras de objetos como uma série de sequências de texto (pixel2seq). Neste artigo, introduzimos um novo paradigma para modelagem de localização de objetos chamado método pixel2emb, no qual solicitamos que o LMM gere embeddings de localização, que são então decodificados por diferentes decodificadores. Esse paradigma permite que diferentes formatos de localização (como caixas delimitadoras e máscaras) sejam utilizados em conversas multimodais. Além disso, esse tipo de modelagem de localização baseada em embeddings possibilita a utilização de práticas existentes em tarefas de localização, como detecção e segmentação. Em cenários com recursos limitados, nosso pixel2emb demonstra desempenho superior em comparação com as abordagens state-of-the-art (SOTA) existentes, tanto em tarefas de entrada quanto de saída de localização, sob comparação justa. Aproveitando o método pixel2emb proposto, treinamos um LMM chamado NExT-Chat e demonstramos sua capacidade de lidar com múltiplas tarefas, como ancoragem visual, descrição de região e raciocínio fundamentado.
Apresentamos o 3DiffTection, um método de ponta para detecção de objetos 3D a partir de imagens únicas, que utiliza recursos de um modelo de difusão com consciência 3D. A anotação de dados de imagem em grande escala para detecção 3D é intensiva em recursos e consome muito tempo. Recentemente, modelos de difusão de imagem pré-treinados em larga escala tornaram-se proeminentes como extratores de recursos eficazes para tarefas de percepção 2D. No entanto, esses recursos são inicialmente treinados em dados pareados de texto e imagem, que não são otimizados para tarefas 3D, e frequentemente apresentam uma lacuna de domínio quando aplicados aos dados de destino. Nossa abordagem preenche essas lacunas por meio de duas estratégias de ajuste especializadas: geométrica e semântica. Para o ajuste geométrico, refinamos um modelo de difusão para realizar a síntese de novas visões condicionada a uma única imagem, introduzindo um novo operador de deformação epipolar. Essa tarefa atende a dois critérios essenciais: a necessidade de consciência 3D e a dependência exclusiva de dados de imagem posicionados, que estão prontamente disponíveis (por exemplo, de vídeos) e não exigem anotação manual. Para o refinamento semântico, treinamos ainda mais o modelo em dados de destino com supervisão de detecção. Ambas as fases de ajuste empregam o ControlNet para preservar a integridade das capacidades originais dos recursos. Na etapa final, aproveitamos essas capacidades aprimoradas para realizar um ensemble de previsão em tempo de teste em múltiplos pontos de vista virtuais. Por meio de nossa metodologia, obtemos recursos com consciência 3D que são adaptados para detecção 3D e se destacam na identificação de correspondências de pontos entre visões. Consequentemente, nosso modelo surge como um poderoso detector 3D, superando substancialmente benchmarks anteriores, por exemplo, o Cube-RCNN, um precedente em detecção 3D de visão única, em 9,43% no AP3D no conjunto de dados Omni3D-ARkitscene. Além disso, o 3DiffTection demonstra robusta eficiência de dados e generalização para dados de domínios cruzados.
Trabalhos recentes demonstraram que os Modelos de Linguagem de Grande Escala (LLMs) podem potencializar modelos neuro-simbólicos tradicionais por meio de capacidades de programação para traduzir linguagem em descrições de módulos, alcançando assim resultados robustos em raciocínio visual enquanto mantêm a transparência e eficiência do modelo. No entanto, esses modelos geralmente geram exaustivamente todo o trecho de código para cada nova instância de uma tarefa, o que é extremamente ineficiente. Propomos um raciocínio visual neuro-simbólico generativo por meio do crescimento e reutilização de módulos. Especificamente, nosso modelo consiste em três estágios distintos: inicialização de módulos, geração de módulos e execução de módulos. Primeiro, dada uma tarefa de visão e linguagem, adotamos LLMs para examinar se podemos reutilizar e expandir módulos já estabelecidos para lidar com essa nova tarefa. Caso contrário, inicializamos um novo módulo necessário para a tarefa e especificamos as entradas e saídas desse novo módulo. Em seguida, o novo módulo é criado consultando LLMs para gerar trechos de código correspondentes que atendam aos requisitos. Para avaliar melhor a capacidade do novo módulo, tratamos exemplos de treinamento few-shot como casos de teste para verificar se o novo módulo pode passar por esses casos. Se sim, o novo módulo é adicionado à biblioteca de módulos para reutilização futura. Por fim, avaliamos o desempenho do nosso modelo no conjunto de teste executando os programas analisados com os novos módulos visuais para obter os resultados. Descobrimos que o modelo proposto possui várias vantagens. Primeiro, ele se sai de forma competitiva em tarefas padrão, como resposta a perguntas visuais e compreensão de expressões referenciais; Segundo, os módulos aprendidos em uma tarefa podem ser transferidos de forma contínua para novas tarefas; Por último, mas não menos importante, ele é capaz de se adaptar a novas tarefas de raciocínio visual observando alguns exemplos de treinamento e reutilizando módulos.