Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o escalonamento de profundidade (DUS, na sigla em inglês), uma técnica inovadora para escalonar modelos de linguagem de grande escala (LLMs) de forma eficiente e eficaz de maneira simples. Em contraste com a abordagem de mistura de especialistas (MoE), o DUS não requer alterações complexas no treinamento e na inferência. Utilizando o DUS, construímos o SOLAR 10.7B, um modelo de linguagem de grande escala com 10,7 bilhões de parâmetros, que demonstra desempenho superior em diversas tarefas de processamento de linguagem natural (NLP). Avaliações comparativas mostram que o SOLAR 10.7B supera LLMs pré-treinados de código aberto existentes, como o Llama 2 e o Mistral 7B. Além disso, apresentamos o SOLAR 10.7B-Instruct, uma variante ajustada para capacidades de seguir instruções, que supera o Mixtral-8x7B. O SOLAR 10.7B está disponível publicamente sob a licença Apache 2.0, promovendo amplo acesso e aplicação no campo de LLMs.
Este artigo apresenta 26 princípios orientadores projetados para simplificar o processo de consulta e elaboração de prompts para modelos de linguagem de grande escala. Nosso objetivo é simplificar os conceitos subjacentes à formulação de perguntas para diferentes escalas de modelos de linguagem de grande escala, examinar suas capacidades e aprimorar a compreensão dos usuários sobre os comportamentos desses modelos em diferentes escalas ao receberem diferentes prompts. Experimentos extensivos foram conduzidos em modelos LLaMA-1/2 (7B, 13B e 70B) e GPT-3.5/4 para verificar a eficácia dos princípios propostos no design de instruções e prompts. Esperamos que este trabalho forneça um guia mais eficaz para pesquisadores que trabalham com a elaboração de prompts para modelos de linguagem de grande escala. A página do projeto está disponível em https://github.com/VILA-Lab/ATLAS.
Há uma demanda crescente por personagens 3D personalizados e expressivos com o surgimento de agentes de IA e do Metaverso, mas a criação de personagens 3D usando ferramentas tradicionais de computação gráfica é uma tarefa complexa e demorada. Para enfrentar esses desafios, propomos uma estrutura amigável ao usuário chamada Make-A-Character (Mach) para criar avatares 3D realistas a partir de descrições textuais. A estrutura aproveita o poder de grandes modelos de linguagem e visão para a compreensão da intenção textual e geração de imagens intermediárias, seguida por uma série de módulos de percepção visual orientada ao humano e geração 3D. Nosso sistema oferece uma abordagem intuitiva para os usuários criarem personagens 3D controláveis, realistas e totalmente realizados que atendam às suas expectativas em até 2 minutos, além de permitir uma fácil integração com o pipeline de CG existente para expressividade dinâmica. Para mais informações, visite a página do projeto em https://human3daigc.github.io/MACH/.
As tarefas de segmentação de objetos baseadas em referência, nomeadamente segmentação de imagens por referência (RIS), segmentação de imagens com poucos exemplos (FSS), segmentação de objetos em vídeo por referência (RVOS) e segmentação de objetos em vídeo (VOS), visam segmentar um objeto específico utilizando linguagem ou máscaras anotadas como referências. Apesar dos avanços significativos em cada campo respectivo, os métodos atuais são projetados e desenvolvidos de forma específica para cada tarefa, o que dificulta a ativação de capacidades multitarefa para essas atividades. Neste trabalho, encerramos a situação fragmentada atual e propomos o UniRef++ para unificar as quatro tarefas de segmentação de objetos baseadas em referência com uma única arquitetura. No cerne de nossa abordagem está o módulo UniFusion proposto, que realiza fusão multidirecional para lidar com diferentes tarefas em relação às suas referências especificadas. Uma arquitetura Transformer unificada é então adotada para alcançar a segmentação em nível de instância. Com os designs unificados, o UniRef++ pode ser treinado conjuntamente em uma ampla gama de benchmarks e pode completar flexivelmente múltiplas tarefas em tempo de execução, especificando as referências correspondentes. Avaliamos nossos modelos unificados em vários benchmarks. Resultados experimentais extensivos indicam que o UniRef++ proposto alcança desempenho de ponta em RIS e RVOS, e apresenta resultados competitivos em FSS e VOS com uma rede de parâmetros compartilhados. Além disso, demonstramos que o módulo UniFusion proposto pode ser facilmente incorporado ao modelo de base avançado atual SAM e obter resultados satisfatórios com ajuste fino eficiente em parâmetros. Códigos e modelos estão disponíveis em https://github.com/FoundationVision/UniRef.
O setor em rápida evolução dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) está na vanguarda da integração do processamento linguístico e visual na inteligência artificial. Este artigo apresenta um estudo comparativo detalhado de dois modelos pioneiros: o Gemini, da Google, e o GPT-4V(ision), da OpenAI. Nosso estudo envolve uma avaliação multifacetada de ambos os modelos em dimensões-chave, como Capacidade Visão-Linguagem, Interação com Humanos, Compreensão Temporal e avaliações tanto no Quociente de Inteligência quanto no Quociente Emocional. O cerne de nossa análise se aprofunda nas distintas habilidades de compreensão visual de cada modelo. Realizamos uma série de experimentos estruturados para avaliar seu desempenho em diversos cenários de aplicação industrial, oferecendo uma perspectiva abrangente sobre sua utilidade prática. Não apenas envolvemos comparações diretas de desempenho, mas também incluímos ajustes em prompts e cenários para garantir uma análise equilibrada e justa. Nossas descobertas iluminam os pontos fortes e nichos únicos de ambos os modelos. O GPT-4V se destaca por sua precisão e concisão nas respostas, enquanto o Gemini se sobressai ao fornecer respostas detalhadas e expansivas, acompanhadas de imagens e links relevantes. Esses entendimentos não apenas esclarecem os méritos comparativos do Gemini e do GPT-4V, mas também destacam o cenário em evolução dos modelos de base multimodal, abrindo caminho para avanços futuros nessa área. Após a comparação, tentamos obter melhores resultados combinando os dois modelos. Por fim, gostaríamos de expressar nossa profunda gratidão às equipes por trás do GPT-4V e do Gemini por suas contribuições pioneiras no campo. Nossos agradecimentos também se estendem à análise qualitativa abrangente apresentada em 'Dawn', de Yang et al. Este trabalho, com sua extensa coleção de amostras de imagens, prompts e resultados relacionados ao GPT-4V, forneceu uma base fundamental para nossa análise.
O áudio é uma parte essencial de nossas vidas, mas sua criação frequentemente requer expertise e consome muito tempo. As comunidades de pesquisa fizeram grandes avanços no último ano, melhorando o desempenho de modelos generativos de áudio em grande escala para uma única modalidade (fala, som ou música) ao adotar modelos generativos mais poderosos e escalar os dados. No entanto, esses modelos carecem de controlabilidade em vários aspectos: modelos de geração de fala não conseguem sintetizar novos estilos com base em descrições textuais e são limitados na cobertura de domínios, como ambientes externos; modelos de geração de som oferecem apenas controle de alto nível com base em descrições como "uma pessoa falando" e geram apenas vozes humanas indistintas. Este artigo apresenta o Audiobox, um modelo unificado baseado em correspondência de fluxo (flow-matching) capaz de gerar diversas modalidades de áudio. Projetamos prompts baseados em descrições e exemplos para aprimorar a controlabilidade e unificar os paradigmas de geração de fala e som. Permitimos que transcrições, características vocais e outros estilos de áudio sejam controlados de forma independente na geração de fala. Para melhorar a generalização do modelo com rótulos limitados, adaptamos um objetivo de preenchimento auto-supervisionado para pré-treinar grandes quantidades de áudio não rotulado. O Audiobox estabelece novos benchmarks em geração de fala e som (0.745 de similaridade no Librispeech para TTS zero-shot; 0.77 FAD no AudioCaps para texto-para-som) e desbloqueia novos métodos para gerar áudio com estilos vocais e acústicos inéditos. Além disso, integramos os Bespoke Solvers, que aceleram a geração em mais de 25 vezes em comparação com o solucionador ODE padrão para correspondência de fluxo, sem perda de desempenho em várias tarefas. Nossa demonstração está disponível em https://audiobox.metademolab.com/.
Os seres humanos vivem em um mundo 3D e comumente usam linguagem natural para interagir com uma cena 3D. A modelagem de um campo de linguagem 3D para suportar consultas de linguagem aberta em 3D tem ganhado atenção crescente recentemente. Este artigo apresenta o LangSplat, que constrói um campo de linguagem 3D que permite consultas precisas e eficientes de vocabulário aberto em espaços 3D. Diferente dos métodos existentes que ancoram embeddings de linguagem CLIP em um modelo NeRF, o LangSplat avança o campo utilizando uma coleção de Gaussianas 3D, cada uma codificando características de linguagem extraídas do CLIP, para representar o campo de linguagem. Ao empregar uma técnica de splatting baseada em tiles para renderizar características de linguagem, contornamos o processo de renderização custoso inerente ao NeRF. Em vez de aprender diretamente os embeddings do CLIP, o LangSplat primeiro treina um autoencoder de linguagem por cena e, em seguida, aprende características de linguagem no espaço latente específico da cena, aliviando assim as demandas substanciais de memória impostas pela modelagem explícita. Os métodos existentes lutam com campos de linguagem 3D imprecisos e vagos, que falham em discernir limites claros entre objetos. Investigamos essa questão e propomos aprender semântica hierárquica usando o SAM, eliminando a necessidade de consultar extensivamente o campo de linguagem em várias escalas e a regularização de características DINO. Experimentos extensivos em localização de objetos 3D de vocabulário aberto e segmentação semântica demonstram que o LangSplat supera significativamente o método anterior de última geração, o LERF, por uma grande margem. Notavelmente, o LangSplat é extremamente eficiente, alcançando um aumento de velocidade de {\speed} vezes em comparação ao LERF na resolução de 1440x1080. Recomendamos fortemente que os leitores vejam nossos resultados em vídeo em https://langsplat.github.io.
A geração de vídeo baseada em difusão a partir de texto tem apresentado progressos impressionantes no último ano, mas ainda fica atrás da geração de imagem a partir de texto. Uma das principais razões é a escala limitada de dados publicamente disponíveis (por exemplo, 10 milhões de pares vídeo-texto no WebVid10M versus 5 bilhões de pares imagem-texto no LAION), considerando o alto custo da legendagem de vídeos. Em vez disso, pode ser muito mais fácil coletar clipes sem rótulos de plataformas de vídeo como o YouTube. Motivados por isso, propomos uma nova estrutura de geração de vídeo a partir de texto, denominada TF-T2V, que pode aprender diretamente com vídeos sem texto. A lógica por trás disso é separar o processo de decodificação de texto da modelagem temporal. Para isso, empregamos um ramo de conteúdo e um ramo de movimento, que são otimizados conjuntamente com pesos compartilhados. Seguindo esse pipeline, estudamos o efeito de dobrar a escala do conjunto de treinamento (ou seja, o WebVid10M apenas com vídeos) com alguns vídeos sem texto coletados aleatoriamente e ficamos encorajados ao observar a melhoria de desempenho (FID de 9,67 para 8,19 e FVD de 484 para 441), demonstrando a escalabilidade da nossa abordagem. Também descobrimos que nosso modelo pode obter ganhos sustentáveis de desempenho (FID de 8,19 para 7,64 e FVD de 441 para 366) após reintroduzir alguns rótulos de texto para treinamento. Por fim, validamos a eficácia e a generalizabilidade da nossa ideologia tanto na geração nativa de vídeo a partir de texto quanto nos paradigmas de síntese de vídeo composicional. Código e modelos estarão publicamente disponíveis em https://tf-t2v.github.io/.
Os avanços recentes na geração 3D a partir de uma única imagem destacam a importância da coerência multi-visual, aproveitando priors 3D de modelos de difusão em larga escala pré-treinados com imagens da internet. No entanto, o aspecto da diversidade de novas visões permanece pouco explorado no cenário de pesquisa devido à ambiguidade na conversão de uma imagem 2D em conteúdo 3D, onde inúmeras formas potenciais podem surgir. Aqui, buscamos preencher essa lacuna de pesquisa abordando simultaneamente consistência e diversidade. Contudo, equilibrar esses dois aspectos representa um desafio considerável devido aos seus trade-offs inerentes. Este trabalho introduz o HarmonyView, uma técnica de amostragem de difusão simples, porém eficaz, capaz de decompor dois aspectos intrincados na geração 3D a partir de uma única imagem: consistência e diversidade. Essa abordagem abre caminho para uma exploração mais refinada dessas duas dimensões críticas no processo de amostragem. Além disso, propomos uma nova métrica de avaliação baseada nos codificadores de imagem e texto do CLIP para avaliar de forma abrangente a diversidade das visões geradas, que se alinha de perto com os julgamentos de avaliadores humanos. Nos experimentos, o HarmonyView alcança um equilíbrio harmonioso, demonstrando um cenário de ganho mútuo tanto em consistência quanto em diversidade.
O uso predominante de modelos de difusão (DMs) comerciais e de código aberto para geração de texto para imagem exige a mitigação de riscos para evitar comportamentos indesejados. Os métodos existentes de eliminação de conceitos na academia são todos baseados em ajuste fino de parâmetros completos ou especificações, dos quais observamos os seguintes problemas: 1) Alteração na geração em direção à erosão: O desvio de parâmetros durante a eliminação do alvo causa alterações e potenciais deformações em todas as gerações, até mesmo corroendo outros conceitos em diferentes graus, o que é mais evidente com múltiplos conceitos eliminados; 2) Inabilidade de transferência e ineficiência de implantação: A eliminação específica do modelo anterior impede a combinação flexível de conceitos e a transferência sem treinamento para outros modelos, resultando em um crescimento linear de custos à medida que os cenários de implantação aumentam. Para alcançar uma eliminação não invasiva, precisa, personalizável e transferível, baseamos nossa estrutura de eliminação em adaptadores unidimensionais para eliminar múltiplos conceitos da maioria dos DMs de uma vez em diversas aplicações de eliminação. A estrutura conceitual SemiPermeável é injetada como uma Membrana (SPM) em qualquer DM para aprender a eliminação direcionada, e, ao mesmo tempo, o fenômeno de alteração e erosão é efetivamente mitigado por meio de uma nova estratégia de ajuste fino de Ancoragem Latente. Uma vez obtidas, as SPMs podem ser combinadas de forma flexível e plug-and-play para outros DMs sem reajuste específico, permitindo uma adaptação rápida e eficiente a diversos cenários. Durante a geração, nosso mecanismo de Transporte Facilitado regula dinamicamente a permeabilidade de cada SPM para responder a diferentes prompts de entrada, minimizando ainda mais o impacto em outros conceitos. Resultados quantitativos e qualitativos em aproximadamente 40 conceitos, 7 DMs e 4 aplicações de eliminação demonstraram a superioridade da eliminação da SPM. Nosso código e SPMs pré-ajustados estarão disponíveis na página do projeto https://lyumengyao.github.io/projects/spm.
A reconstrução do corpo humano a partir de vídeos de visão única desempenha um papel fundamental no domínio da realidade virtual. Um cenário de aplicação prevalente exige a rápida reconstrução de humanos digitais 3D de alta fidelidade, ao mesmo tempo em que garante renderização e interação em tempo real. Os métodos existentes frequentemente lutam para atender a ambos os requisitos. Neste artigo, apresentamos o Human101, uma nova estrutura capaz de produzir reconstruções 3D dinâmicas de humanos de alta fidelidade a partir de vídeos de 1 visão, treinando Gaussianas 3D em 100 segundos e renderizando em mais de 100 FPS. Nosso método aproveita as vantagens do 3D Gaussian Splatting, que fornece uma representação explícita e eficiente de humanos 3D. Diferentemente dos pipelines baseados em NeRF anteriores, o Human101 aplica de forma engenhosa um método de Animação Gaussiana Direcionada ao Humano para deformar os parâmetros das Gaussianas 3D, aumentando assim a velocidade de renderização (ou seja, renderizando imagens de resolução 1024 em impressionantes 60+ FPS e imagens de resolução 512 em mais de 100 FPS). Os resultados experimentais indicam que nossa abordagem supera substancialmente os métodos atuais, atingindo um aumento de até 10 vezes em quadros por segundo e oferecendo qualidade de renderização comparável ou superior. O código e as demonstrações serão disponibilizados em https://github.com/longxiang-ai/Human101.
Modelos de Linguagem de Grande Escala (LLMs) exibem habilidades emergentes de aprendizado em contexto por meio de engenharia de prompts. O progresso recente em modelos generativos de grande escala expandiu ainda mais seu uso em aplicações de linguagem do mundo real. No entanto, o desafio crítico de melhorar a generalização e a factualidade dos LLMs na compreensão de linguagem natural e na resposta a perguntas permanece pouco explorado. Embora pesquisas anteriores sobre aprendizado em contexto tenham se concentrado em aprimorar os modelos para aderir às instruções específicas dos usuários e às expectativas de qualidade, e para evitar saídas indesejadas, pouco ou nenhum trabalho explorou o uso de Modelos de Linguagem Ajustados para Tarefas Específicas (SLMs) para melhorar o aprendizado em contexto dos LLMs durante a etapa de inferência. Nossa principal contribuição é o estabelecimento de uma estrutura simples, porém eficaz, que aumenta a confiabilidade dos LLMs, pois: 1) generaliza dados fora da distribuição, 2) esclarece como os LLMs se beneficiam de modelos discriminativos e 3) minimiza alucinações em tarefas generativas. Usando nosso método proposto de plug-in, versões aprimoradas do Llama 2 e do ChatGPT superam suas versões originais em termos de generalização e factualidade. Oferecemos um conjunto abrangente de recursos, incluindo 16 conjuntos de dados curados, prompts, checkpoints de modelos e saídas de LLMs em 9 tarefas distintas. Nossa análise empírica esclarece as vantagens de incorporar modelos discriminativos aos LLMs e destaca o potencial de nossa metodologia em promover LLMs mais confiáveis.