Artigos de pesquisa em IA selecionados diariamente com traduções
Transformers surgiram recentemente como uma ferramenta poderosa para o aprendizado de representações visuais. Neste artigo, identificamos e caracterizamos artefatos nos mapas de características de redes ViT tanto supervisionadas quanto auto-supervisionadas. Os artefatos correspondem a tokens de alta norma que aparecem durante a inferência principalmente em áreas de fundo de baixa informacionalidade das imagens, sendo reutilizados para cálculos internos. Propomos uma solução simples, porém eficaz, baseada na adição de tokens extras à sequência de entrada do Vision Transformer para desempenhar essa função. Demonstramos que essa solução resolve completamente o problema tanto para modelos supervisionados quanto auto-supervisionados, estabelece um novo estado da arte para modelos visuais auto-supervisionados em tarefas de predição visual densa, permite métodos de descoberta de objetos com modelos maiores e, mais importante, resulta em mapas de características e mapas de atenção mais suaves para o processamento visual subsequente.
Apresentamos o Modelo de Linguagem Aumentada de Qualquer Modalidade (AnyMAL), um modelo unificado que raciocina sobre sinais de entrada de diversas modalidades (ou seja, texto, imagem, vídeo, áudio, sensor de movimento IMU) e gera respostas textuais. O AnyMAL herda as poderosas habilidades de raciocínio baseado em texto dos modelos de linguagem de última geração, incluindo o LLaMA-2 (70B), e converte sinais específicos de cada modalidade para o espaço textual conjunto por meio de um módulo alinhador pré-treinado. Para fortalecer ainda mais as capacidades do modelo de linguagem multimodal, ajustamos o modelo com um conjunto de instruções multimodais coletadas manualmente para abranger diversos tópicos e tarefas além de simples perguntas e respostas. Realizamos uma análise empírica abrangente, incluindo avaliações humanas e automáticas, e demonstramos desempenho de ponta em várias tarefas multimodais.
Os avanços recentes na criação de conteúdo 3D têm se baseado principalmente na geração 3D baseada em otimização por meio de amostragem por destilação de pontuação (SDS). Embora resultados promissores tenham sido demonstrados, esses métodos frequentemente sofrem com a otimização lenta por amostra, limitando seu uso prático. Neste artigo, propomos o DreamGaussian, um novo framework de geração de conteúdo 3D que alcança simultaneamente eficiência e qualidade. Nossa principal ideia é projetar um modelo generativo de Splatting Gaussiano 3D com extração de malha acompanhada e refinamento de textura no espaço UV. Em contraste com a poda de ocupação usada em Campos de Radiança Neural, demonstramos que a densificação progressiva de Gaussianos 3D converge significativamente mais rápido para tarefas generativas 3D. Para aprimorar ainda mais a qualidade da textura e facilitar aplicações subsequentes, introduzimos um algoritmo eficiente para converter Gaussianos 3D em malhas texturizadas e aplicamos uma etapa de ajuste fino para refinar os detalhes. Experimentos extensivos demonstram a eficiência superior e a qualidade competitiva de geração da nossa abordagem proposta. Notavelmente, o DreamGaussian produz malhas texturizadas de alta qualidade em apenas 2 minutos a partir de uma imagem de visão única, alcançando uma aceleração de aproximadamente 10 vezes em comparação com métodos existentes.
Os grandes modelos de linguagem (LLMs) revolucionaram o campo da inteligência artificial, permitindo tarefas de processamento de linguagem natural que antes eram consideradas exclusivas dos seres humanos. Neste trabalho, apresentamos Qwen, a primeira versão da nossa série de grandes modelos de linguagem. Qwen é uma série abrangente de modelos de linguagem que engloba modelos distintos com diferentes contagens de parâmetros. Ela inclui Qwen, os modelos de linguagem base pré-treinados, e Qwen-Chat, os modelos de chat ajustados com técnicas de alinhamento humano. Os modelos de linguagem base demonstram consistentemente desempenho superior em uma variedade de tarefas subsequentes, e os modelos de chat, especialmente aqueles treinados com Aprendizado por Reforço com Feedback Humano (RLHF), são altamente competitivos. Os modelos de chat possuem capacidades avançadas de uso de ferramentas e planejamento para a criação de aplicações de agentes, mostrando desempenho impressionante mesmo quando comparados a modelos maiores em tarefas complexas, como a utilização de um interpretador de código. Além disso, desenvolvemos modelos especializados em codificação, Code-Qwen e Code-Qwen-Chat, bem como modelos focados em matemática, Math-Qwen-Chat, que são construídos sobre modelos de linguagem base. Esses modelos demonstram um desempenho significativamente melhorado em comparação com modelos de código aberto, e ficam ligeiramente atrás dos modelos proprietários.
Neste artigo, apresentamos a geração de texto para 3D baseada em Gaussian Splatting (GSGEN), uma abordagem inovadora para a criação de objetos 3D de alta qualidade. Métodos anteriores sofrem com geometria imprecisa e fidelidade limitada devido à ausência de um prévio 3D e de uma representação adequada. Aproveitamos o Gaussian Splatting 3D, uma representação recente e de ponta, para abordar as deficiências existentes, explorando sua natureza explícita que permite a incorporação de um prévio 3D. Especificamente, nosso método adota uma estratégia de otimização progressiva, que inclui uma etapa de otimização de geometria e uma etapa de refinamento de aparência. Na otimização de geometria, uma representação grosseira é estabelecida sob um prévio de geometria 3D, juntamente com a perda SDS 2D convencional, garantindo uma forma aproximada sensível e consistente em 3D. Posteriormente, os Gaussianos obtidos passam por um refinamento iterativo para enriquecer os detalhes. Nesta etapa, aumentamos o número de Gaussianos por meio de densificação baseada em compacidade para melhorar a continuidade e aprimorar a fidelidade. Com esses projetos, nossa abordagem é capaz de gerar conteúdo 3D com detalhes delicados e geometria mais precisa. Avaliações extensivas demonstram a eficácia do nosso método, especialmente na captura de componentes de alta frequência. Resultados em vídeo são fornecidos em https://gsgen3d.github.io. Nosso código está disponível em https://github.com/gsgen3d/gsgen.
Apresentamos uma série de LLMs de contexto longo que suportam janelas de contexto eficazes de até 32.768 tokens. Nossa série de modelos foi construída por meio de pré-treinamento contínuo a partir do Llama 2, com sequências de treinamento mais longas e em um conjunto de dados onde textos longos são superamostrados. Realizamos uma avaliação extensiva em modelagem de linguagem, tarefas de sondagem de contexto sintético e uma ampla gama de benchmarks de pesquisa. Nos benchmarks de pesquisa, nossos modelos alcançam melhorias consistentes na maioria das tarefas regulares e melhorias significativas em tarefas de contexto longo em comparação com o Llama 2. Notavelmente, com um procedimento de ajuste de instrução de baixo custo que não requer dados de instrução longa anotados por humanos, a variante de 70B já pode superar o desempenho geral do gpt-3.5-turbo-16k em uma série de tarefas de contexto longo. Paralelamente a esses resultados, fornecemos uma análise detalhada dos componentes individuais de nosso método. Investigamos as codificações de posição do Llama e discutimos suas limitações na modelagem de dependências longas. Também examinamos o impacto de várias escolhas de design no processo de pré-treinamento, incluindo a mistura de dados e o currículo de treinamento de comprimentos de sequência — nossos experimentos de ablação sugerem que a presença abundante de textos longos no conjunto de dados de pré-treinamento não é a chave para alcançar um desempenho forte, e verificamos empiricamente que o pré-treinamento contínuo de contexto longo é mais eficiente e igualmente eficaz em comparação com o pré-treinamento do zero com sequências longas.
Nosso objetivo é abordar um problema significativo, mas pouco estudado na indústria de animes, especificamente a interpolação de desenhos animados em linha. A interpolação envolve a geração de quadros intermediários entre dois desenhos em preto e branco e é um processo demorado e caro que pode se beneficiar da automação. No entanto, os métodos existentes de interpolação de quadros que dependem do emparelhamento e deformação de imagens raster inteiras são inadequados para a interpolação de linhas e frequentemente produzem artefatos de borrão que danificam as estruturas intricadas das linhas. Para preservar a precisão e os detalhes dos desenhos em linha, propomos uma nova abordagem, o AnimeInbet, que geometriza desenhos raster em linha em grafos de pontos finais e reformula a tarefa de interpolação como um problema de fusão de grafos com reposicionamento de vértices. Nosso método pode capturar efetivamente a esparsidade e a estrutura única dos desenhos em linha, preservando os detalhes durante a interpolação. Isso é possibilitado por nossos novos módulos, ou seja, incorporação geométrica de vértices, um Transformer de correspondência de vértices, um mecanismo eficaz para reposicionamento de vértices e um preditor de visibilidade. Para treinar nosso método, introduzimos o MixamoLine240, um novo conjunto de dados de desenhos em linha com vetorização e rótulos de correspondência de verdade fundamental. Nossos experimentos demonstram que o AnimeInbet sintetiza desenhos intermediários em linha de alta qualidade, limpos e completos, superando os métodos existentes quantitativa e qualitativamente, especialmente em casos com grandes movimentos. Dados e código estão disponíveis em https://github.com/lisiyao21/AnimeInbet.
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) é uma abordagem que avançou a pesquisa e aplicações em visão computacional, impulsionando sistemas modernos de reconhecimento e modelos generativos. Acreditamos que o principal ingrediente para o sucesso do CLIP são seus dados, e não a arquitetura do modelo ou o objetivo de pré-treinamento. No entanto, o CLIP fornece informações muito limitadas sobre seus dados e como eles foram coletados, levando a trabalhos que visam reproduzir os dados do CLIP filtrando com seus parâmetros de modelo. Neste trabalho, pretendemos revelar a abordagem de curadoria de dados do CLIP e, em nossa busca por torná-la aberta à comunidade, introduzimos o Pré-treinamento de Linguagem-Imagem com Curadoria de Metadados (MetaCLIP). O MetaCLIP pega um pool de dados brutos e metadados (derivados dos conceitos do CLIP) e produz um subconjunto balanceado sobre a distribuição de metadados. Nosso estudo experimental isola rigorosamente o modelo e as configurações de treinamento, concentrando-se apenas nos dados. O MetaCLIP aplicado ao CommonCrawl com 400 milhões de pares de dados imagem-texto supera os dados do CLIP em vários benchmarks padrão. Na classificação zero-shot do ImageNet, o MetaCLIP alcança 70,8% de precisão, superando os 68,3% do CLIP em modelos ViT-B. Escalonando para 1 bilhão de dados, mantendo o mesmo orçamento de treinamento, atinge 72,4%. Nossas observações se mantêm em vários tamanhos de modelo, exemplificado pelo ViT-H alcançando 80,5%, sem qualquer sofisticação adicional. O código de curadoria e a distribuição de dados de treinamento sobre metadados estão disponíveis em https://github.com/facebookresearch/MetaCLIP.
Classificadores construídos sobre modelos de visão e linguagem, como o CLIP, demonstraram desempenho notável em tarefas de classificação de imagens em cenários de zero-shot. Trabalhos anteriores exploraram diferentes maneiras de criar automaticamente conjuntos de descritores para cada classe com base em modelos de prompt, variando desde modelos manualmente projetados até modelos obtidos de um grande modelo de linguagem, e até modelos construídos a partir de palavras e caracteres aleatórios. Em contraste, a derivação de classificadores zero-shot a partir dos descritores de classe codificados permaneceu praticamente inalterada, ou seja: classificar para a classe que maximiza a similaridade de cosseno entre seus descritores de classe codificados e a imagem codificada. No entanto, ponderar todos os descritores de classe igualmente pode ser subótimo quando certos descritores correspondem melhor a pistas visuais em uma determinada imagem do que outros. Neste trabalho, propomos o AutoCLIP, um método para ajustar automaticamente classificadores zero-shot. O AutoCLIP atribui a cada modelo de prompt pesos por imagem, que são derivados de estatísticas de similaridades entre descritores de classe e imagem no momento da inferência. O AutoCLIP é totalmente não supervisionado, tem um custo computacional muito baixo e pode ser facilmente implementado em poucas linhas de código. Demonstramos que, para uma ampla gama de modelos de visão e linguagem, conjuntos de dados e modelos de prompt, o AutoCLIP supera as linhas de base de forma consistente e com ganhos de até 3 pontos percentuais de precisão.
A previsão confiável do comportamento futuro dos agentes na estrada é um componente crítico para o planejamento seguro em veículos autônomos. Aqui, representamos trajetórias contínuas como sequências de tokens discretos de movimento e transformamos a previsão de movimento multiagente em uma tarefa de modelagem de linguagem nesse domínio. Nosso modelo, MotionLM, oferece várias vantagens: Primeiro, ele não requer âncoras ou otimização explícita de variáveis latentes para aprender distribuições multimodais. Em vez disso, aproveitamos um único objetivo padrão de modelagem de linguagem, maximizando a probabilidade logarítmica média sobre os tokens da sequência. Segundo, nossa abordagem contorna heurísticas de interação pós-processo, onde a geração de trajetórias individuais dos agentes é realizada antes da pontuação interativa. Em vez disso, o MotionLM produz distribuições conjuntas sobre futuros interativos dos agentes em um único processo de decodificação autoregressivo. Além disso, a fatoração sequencial do modelo permite simulações condicionais temporalmente causais. A abordagem proposta estabelece um novo desempenho de ponta para a previsão de movimento multiagente no Waymo Open Motion Dataset, ocupando o 1º lugar no quadro de líderes do desafio interativo.
Avanços recentes em geração de imagens trouxeram modelos de outpaiting e inpainting que podem produzir conteúdo visual de alta qualidade e plausível em regiões desconhecidas, mas o conteúdo que esses modelos alucinam é necessariamente inautêntico, já que os modelos carecem de contexto suficiente sobre a cena real. Neste trabalho, propomos o RealFill, uma abordagem generativa inovadora para completar imagens que preenche regiões ausentes com o conteúdo que deveria estar lá. O RealFill é um modelo de inpainting generativo que é personalizado usando apenas algumas imagens de referência de uma cena. Essas imagens de referência não precisam estar alinhadas com a imagem-alvo e podem ser capturadas com pontos de vista, condições de iluminação, aberturas de câmera ou estilos de imagem drasticamente variados. Uma vez personalizado, o RealFill é capaz de completar uma imagem-alvo com conteúdos visualmente convincentes e fiéis à cena original. Avaliamos o RealFill em um novo benchmark de completamento de imagens que abrange um conjunto de cenários diversos e desafiadores, e constatamos que ele supera as abordagens existentes por uma grande margem. Veja mais resultados em nossa página do projeto: https://realfill.github.io.
Com o rápido avanço dos grandes modelos de linguagem (LLMs), há uma necessidade urgente de uma suíte de avaliação abrangente para medir suas capacidades e limitações. Os rankings existentes de LLMs frequentemente referenciam pontuações relatadas em outros artigos sem configurações e prompts consistentes, o que pode inadvertidamente incentivar a seleção de configurações e prompts favoritos para obter melhores resultados. Neste trabalho, apresentamos o GPT-Fathom, uma suíte de avaliação de LLMs de código aberto e reproduzível, construída sobre o OpenAI Evals. Avaliamos sistematicamente mais de 10 LLMs líderes, bem como modelos legados da OpenAI, em mais de 20 benchmarks cuidadosamente selecionados, abrangendo 7 categorias de capacidade, todos sob configurações alinhadas. Nosso estudo retrospectivo sobre os modelos anteriores da OpenAI oferece insights valiosos sobre o caminho evolutivo do GPT-3 ao GPT-4. Atualmente, a comunidade está ansiosa para entender como o GPT-3 progrediu para o GPT-4, incluindo detalhes técnicos como se a adição de dados de código melhora a capacidade de raciocínio dos LLMs, quais aspectos da capacidade dos LLMs podem ser aprimorados por SFT e RLHF, qual é o custo do alinhamento, entre outros. Nossa análise esclarece muitas dessas questões, visando melhorar a transparência dos LLMs avançados.
Consideramos a tarefa de gerar vídeos diversos e realistas guiados por amostras de áudio natural de uma ampla variedade de classes semânticas. Para essa tarefa, os vídeos precisam estar alinhados tanto globalmente quanto temporalmente com o áudio de entrada: globalmente, o áudio de entrada está semanticamente associado ao vídeo de saída como um todo, e temporalmente, cada segmento do áudio de entrada está associado a um segmento correspondente do vídeo. Utilizamos um modelo existente de geração de vídeo condicionado por texto e um modelo de codificação de áudio pré-treinado. O método proposto é baseado em uma rede adaptadora leve, que aprende a mapear a representação baseada em áudio para a representação de entrada esperada pelo modelo de geração de texto para vídeo. Dessa forma, ele também permite a geração de vídeos condicionados por texto, áudio e, pela primeira vez, tanto por texto quanto por áudio, até onde sabemos. Validamos nosso método extensivamente em três conjuntos de dados que demonstram uma diversidade semântica significativa de amostras de áudio-vídeo e propomos ainda uma nova métrica de avaliação (AV-Align) para avaliar o alinhamento dos vídeos gerados com as amostras de áudio de entrada. O AV-Align é baseado na detecção e comparação de picos de energia em ambas as modalidades. Em comparação com as abordagens mais recentes do estado da arte, nosso método gera vídeos que estão melhor alinhados com o som de entrada, tanto em relação ao conteúdo quanto ao eixo temporal. Também mostramos que os vídeos produzidos pelo nosso método apresentam maior qualidade visual e são mais diversos.
Para que os robôs realizem uma ampla variedade de tarefas, eles precisam de uma representação 3D do mundo que seja semanticamente rica, mas compacta e eficiente para percepção e planejamento orientados por tarefas. Abordagens recentes tentaram aproveitar recursos de grandes modelos de visão e linguagem para codificar semântica em representações 3D. No entanto, essas abordagens tendem a produzir mapas com vetores de características por ponto, que não escalam bem em ambientes maiores, nem contêm relações espaciais semânticas entre entidades no ambiente, que são úteis para o planejamento subsequente. Neste trabalho, propomos o ConceptGraphs, uma representação estruturada em grafos de vocabulário aberto para cenas 3D. O ConceptGraphs é construído aproveitando modelos fundamentais 2D e fundindo sua saída em 3D por meio de associação multi-visão. As representações resultantes generalizam para novas classes semânticas, sem a necessidade de coletar grandes conjuntos de dados 3D ou ajustar modelos. Demonstramos a utilidade dessa representação por meio de várias tarefas de planejamento subsequente que são especificadas por prompts abstratos (linguagem) e exigem raciocínio complexo sobre conceitos espaciais e semânticos. (Página do projeto: https://concept-graphs.github.io/ Vídeo explicativo: https://youtu.be/mRhNkQwRYnc)
O sucesso dos modelos de linguagem, especialmente das arquiteturas baseadas em transformers, expandiu-se para outros domínios, dando origem aos "modelos de linguagem científica" que operam em moléculas pequenas, proteínas ou polímeros. Na química, os modelos de linguagem contribuem para acelerar o ciclo de descoberta de moléculas, como evidenciado por descobertas recentes promissoras no estágio inicial da descoberta de fármacos. Aqui, revisamos o papel dos modelos de linguagem na descoberta molecular, destacando sua força no design de novo de fármacos, na previsão de propriedades e na química de reações. Destacamos valiosos recursos de software de código aberto, reduzindo assim a barreira de entrada no campo da modelagem de linguagem científica. Por fim, esboçamos uma visão para o futuro do design molecular que combina uma interface de chatbot com acesso a ferramentas de química computacional. Nossa contribuição serve como um recurso valioso para pesquisadores, químicos e entusiastas de IA interessados em entender como os modelos de linguagem podem e serão usados para acelerar a descoberta química.
Neste trabalho, apresentamos o CCEdit, uma estrutura versátil projetada para enfrentar os desafios da edição de vídeo criativa e controlável. O CCEdit acomoda uma ampla gama de requisitos de edição do usuário e permite um controle criativo aprimorado por meio de uma abordagem inovadora que desacopla a estrutura e a aparência do vídeo. Aproveitamos a arquitetura fundamental do ControlNet para preservar a integridade estrutural, ao mesmo tempo em que integramos de forma contínua módulos temporais adaptáveis compatíveis com técnicas de personalização de última geração para geração de texto em imagem, como DreamBooth e LoRA. Além disso, introduzimos a edição de vídeo condicionada por referência, capacitando os usuários a exercer um controle criativo preciso sobre a edição de vídeo por meio do processo mais gerenciável de edição de quadros-chave. Nossas extensivas avaliações experimentais confirmam a funcionalidade excepcional e as capacidades de edição da estrutura CCEdit proposta. O vídeo de demonstração está disponível em https://www.youtube.com/watch?v=UQw4jq-igN4.