Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, apresentamos o OmniGen, um novo modelo de difusão para geração unificada de imagens. Ao contrário de modelos de difusão populares (por exemplo, Difusão Estável), o OmniGen não requer mais módulos adicionais como ControlNet ou Adaptador IP para processar diversas condições de controle. O OmniGen é caracterizado pelas seguintes características: 1) Unificação: O OmniGen não apenas demonstra capacidades de geração de texto para imagem, mas também suporta inerentemente outras tarefas subsequentes, como edição de imagem, geração orientada por assunto e geração condicional visual. Além disso, o OmniGen pode lidar com tarefas clássicas de visão computacional ao transformá-las em tarefas de geração de imagem, como detecção de bordas e reconhecimento de pose humana. 2) Simplicidade: A arquitetura do OmniGen é altamente simplificada, eliminando a necessidade de codificadores de texto adicionais. Além disso, é mais amigável ao usuário em comparação com os modelos de difusão existentes, permitindo que tarefas complexas sejam realizadas por meio de instruções sem a necessidade de etapas de pré-processamento adicionais (por exemplo, estimativa de pose humana), simplificando significativamente o fluxo de trabalho de geração de imagem. 3) Transferência de Conhecimento: Através da aprendizagem em um formato unificado, o OmniGen transfere efetivamente conhecimento entre diferentes tarefas, gerencia tarefas e domínios não vistos e exibe capacidades inovadoras. Também exploramos as capacidades de raciocínio do modelo e aplicações potenciais do mecanismo de encadeamento de pensamento. Este trabalho representa a primeira tentativa de um modelo de geração de imagens de propósito geral, e ainda existem várias questões não resolvidas. Disponibilizaremos os recursos relacionados em código aberto em https://github.com/VectorSpaceLab/OmniGen para promover avanços neste campo.
Apresentamos o NVLM 1.0, uma família de modelos de linguagem grandes multimodais de classe de fronteira que alcançam resultados de ponta em tarefas de visão e linguagem, rivalizando com os principais modelos proprietários (por exemplo, GPT-4o) e modelos de acesso aberto (por exemplo, Llama 3-V 405B e InternVL 2). Notavelmente, o NVLM 1.0 demonstra um desempenho aprimorado em texto puro em relação à sua estrutura de modelo de linguagem grande após o treinamento multimodal. Em termos de design do modelo, realizamos uma comparação abrangente entre modelos de linguagem grandes multimodais apenas com decodificador (por exemplo, LLaVA) e modelos baseados em atenção cruzada (por exemplo, Flamingo). Com base nos pontos fortes e fracos de ambas as abordagens, propomos uma arquitetura inovadora que aprimora tanto a eficiência de treinamento quanto as capacidades de raciocínio multimodal. Além disso, introduzimos um design de marcação de mosaico 1-D para imagens dinâmicas de alta resolução baseadas em mosaico, o que melhora significativamente o desempenho em tarefas de raciocínio multimodal e relacionadas à OCR. Em relação aos dados de treinamento, curamos meticulosamente e fornecemos informações detalhadas sobre nossos conjuntos de dados de pré-treinamento multimodal e de ajuste fino supervisionado. Nossas descobertas indicam que a qualidade do conjunto de dados e a diversidade de tarefas são mais importantes do que a escala, mesmo durante a fase de pré-treinamento, em todas as arquiteturas. Notavelmente, desenvolvemos multimodalidade de qualidade de produção para os modelos NVLM-1.0, permitindo que se destaquem em tarefas de visão e linguagem, mantendo e até melhorando o desempenho em texto puro em comparação com suas estruturas de modelo de linguagem grande. Para alcançar isso, elaboramos e integramos um conjunto de dados de texto puro de alta qualidade no treinamento multimodal, juntamente com uma quantidade substancial de dados multimodais de matemática e raciocínio, levando a capacidades aprimoradas de matemática e codificação em diferentes modalidades. Para avançar na pesquisa no campo, estamos disponibilizando os pesos do modelo e iremos disponibilizar o código para a comunidade em código aberto: https://nvlm-project.github.io/.
Trabalhos recentes mostraram que modelos de difusão grandes podem ser reutilizados como estimadores de profundidade monocular altamente precisos, ao enquadrar a estimativa de profundidade como uma tarefa de geração de imagem condicional. Embora o modelo proposto tenha alcançado resultados de ponta, altas demandas computacionais devido à inferência multi-etapa limitaram sua utilização em muitos cenários. Neste artigo, demonstramos que a ineficiência percebida foi causada por uma falha no pipeline de inferência que até então passou despercebida. O modelo corrigido tem desempenho comparável à melhor configuração previamente relatada, sendo mais de 200 vezes mais rápido. Para otimizar o desempenho da tarefa subsequente, realizamos ajuste fino de ponta a ponta sobre o modelo de única etapa com perdas específicas da tarefa e obtemos um modelo determinístico que supera todos os outros modelos de estimativa de profundidade e normais baseados em difusão em benchmarks comuns de zero-shot. Surpreendentemente, descobrimos que este protocolo de ajuste fino também funciona diretamente em Difusão Estável e alcança desempenho comparável aos atuais modelos de estimativa de profundidade e normais baseados em difusão de ponta, questionando algumas das conclusões tiradas de trabalhos anteriores.
Na modelagem 3D, os designers frequentemente utilizam um modelo 3D existente como referência para criar novos. Essa prática inspirou o desenvolvimento do Phidias, um modelo generativo inovador que utiliza difusão para geração 3D com referência aumentada. Dado uma imagem, nosso método aproveita um modelo 3D recuperado ou fornecido pelo usuário para orientar o processo de geração, melhorando assim a qualidade da geração, capacidade de generalização e controlabilidade. Nosso modelo integra três componentes-chave: 1) meta-ControlNet que modula dinamicamente a força de condicionamento, 2) roteamento de referência dinâmica que mitiga o desalinhamento entre a imagem de entrada e a referência 3D, e 3) augmentações de auto-referência que possibilitam treinamento auto-supervisionado com um currículo progressivo. Coletivamente, esses projetos resultam em uma clara melhoria em relação aos métodos existentes. O Phidias estabelece um framework unificado para geração 3D utilizando texto, imagem e condições 3D com aplicações versáteis.
Os modelos de linguagem ajustados a instruções são capazes de responder a comandos imperativos, proporcionando uma interface de usuário mais natural em comparação com suas contrapartes base. Neste trabalho, apresentamos o Promptriever, o primeiro modelo de recuperação capaz de ser solicitado como um modelo de linguagem. Para treinar o Promptriever, curamos e disponibilizamos um novo conjunto de treinamento de instruções em nível de instância do MS MARCO, abrangendo quase 500 mil instâncias. O Promptriever não apenas alcança um desempenho sólido em tarefas de recuperação padrão, mas também segue instruções. Observamos: (1) grandes ganhos (atingindo o estado da arte) ao seguir instruções detalhadas de relevância (+14,3 p-MRR / +3,1 nDCG no FollowIR), (2) aumento significativo da robustez em relação às escolhas lexicais/formas na consulta+instrução (+12,9 Robustez@10 no InstructIR), e (3) a capacidade de realizar busca de hiperparâmetros por meio de solicitações para melhorar de forma confiável o desempenho de recuperação (+1,4 aumento médio no BEIR). O Promptriever demonstra que os modelos de recuperação podem ser controlados com solicitações em uma base por consulta, preparando o terreno para trabalhos futuros alinhando técnicas de solicitação de modelos de linguagem com a recuperação de informações.
Os modelos de difusão latente têm mostrado resultados promissores em tarefas de geração de texto para áudio (T2A), no entanto, modelos anteriores enfrentaram dificuldades em qualidade de geração, custo computacional, amostragem de difusão e preparação de dados. Neste artigo, apresentamos o EzAudio, um modelo de difusão T2A baseado em transformer, para lidar com esses desafios. Nossa abordagem inclui várias inovações-chave: (1) Construímos o modelo T2A no espaço latente de um Variational Autoencoder (VAE) de forma de onda 1D, evitando as complexidades de lidar com representações de espectrograma 2D e usando um vocoder neural adicional. (2) Projetamos uma arquitetura otimizada de transformer de difusão especificamente adaptada para representações latentes de áudio e modelagem de difusão, o que melhora a velocidade de convergência, estabilidade de treinamento e uso de memória, tornando o processo de treinamento mais fácil e eficiente. (3) Para lidar com a escassez de dados, adotamos uma estratégia de treinamento eficiente em dados que aproveita dados não rotulados para aprender dependências acústicas, dados de legenda de áudio anotados por modelos de áudio-linguagem para aprendizado de alinhamento de texto para áudio e dados rotulados por humanos para ajuste fino. (4) Introduzimos um método de reescalonamento de orientação sem classificador (CFG) que simplifica o EzAudio ao alcançar um forte alinhamento de prompt, preservando uma ótima qualidade de áudio ao usar maiores pontuações de CFG, eliminando a necessidade de lutar para encontrar a pontuação de CFG ideal para equilibrar esse trade-off. O EzAudio supera os modelos de código aberto existentes em métricas objetivas e avaliações subjetivas, proporcionando experiências auditivas realistas, mantendo uma estrutura de modelo simplificada, baixos custos de treinamento e um pipeline de treinamento fácil de seguir. O código, dados e modelos pré-treinados estão disponíveis em: https://haidog-yaqub.github.io/EzAudio-Page/.
Trabalhos de pesquisa anteriores avaliaram LLMs quantizados usando métricas limitadas, como perplexidade ou algumas tarefas básicas de conhecimento e conjuntos de dados antigos. Além disso, modelos recentes em grande escala, como o Llama 3.1 com até 405B, não foram examinados minuciosamente. Este artigo avalia o desempenho de LLMs ajustados para instruções por meio de vários métodos de quantização (GPTQ, AWQ, SmoothQuant e FP8) em modelos que variam de 7B a 405B. Utilizando 13 benchmarks, avaliamos o desempenho em seis tipos de tarefas: Q\&A de senso comum, compreensão de conhecimento e linguagem, seguimento de instruções, detecção de alucinações, matemática e diálogo. Nossas descobertas principais revelam que (1) quantizar um LLM maior para um tamanho semelhante a um LLM FP16 menor geralmente apresenta melhor desempenho na maioria dos benchmarks, exceto para detecção de alucinações e seguimento de instruções; (2) o desempenho varia significativamente com diferentes métodos de quantização, tamanho do modelo e largura de bits, sendo que métodos baseados apenas em pesos frequentemente produzem melhores resultados em modelos maiores; (3) a dificuldade da tarefa não impacta significativamente na degradação da precisão devido à quantização; e (4) o método de avaliação MT-Bench tem poder discriminatório limitado entre LLMs recentes de alto desempenho.
Os modelos de difusão de vídeo têm mostrado grande potencial na geração de vídeos de alta qualidade, tornando-os um foco cada vez mais popular. No entanto, sua natureza iterativa inerente resulta em custos computacionais e de tempo substanciais. Embora tenham sido feitos esforços para acelerar a difusão de vídeo reduzindo etapas de inferência (por meio de técnicas como destilação de consistência) e treinamento GAN (essas abordagens frequentemente ficam aquém em desempenho ou estabilidade de treinamento). Neste trabalho, introduzimos um framework de treinamento em duas etapas que combina efetivamente a destilação de consistência com o treinamento GAN para lidar com esses desafios. Além disso, propomos um design inovador de discriminador de vídeo, que elimina a necessidade de decodificar os latentes do vídeo e melhora o desempenho final. Nosso modelo é capaz de produzir vídeos de alta qualidade em apenas uma etapa, com a flexibilidade de realizar refinamento de várias etapas para aprimoramento adicional de desempenho. Nossa avaliação quantitativa no benchmark OpenWebVid-1M mostra que nosso modelo supera significativamente os métodos existentes. Notavelmente, nosso desempenho de uma etapa (FVD 171.15) supera o desempenho de 8 etapas do método baseado em destilação de consistência, AnimateLCM (FVD 184.79), e se aproxima do desempenho de 25 etapas do avançado Stable Video Diffusion (FVD 156.94).
A modelagem baseada em agentes (ABM) busca compreender o comportamento de sistemas complexos simulando uma coleção de agentes que atuam e interagem dentro de um ambiente. Sua utilidade prática requer capturar dinâmicas realistas do ambiente e comportamento adaptativo dos agentes, enquanto simula eficientemente populações de milhões de agentes. Avanços recentes em grandes modelos de linguagem (LLMs) apresentam uma oportunidade para aprimorar ABMs usando LLMs como agentes, com potencial adicional para capturar comportamento adaptativo. No entanto, a inviabilidade computacional de usar LLMs para grandes populações tem dificultado sua adoção generalizada. Neste artigo, apresentamos o AgentTorch - um framework que dimensiona ABMs para milhões de agentes, capturando comportamentos de agentes em alta resolução usando LLMs. Avaliamos a utilidade de LLMs como agentes ABM, explorando o equilíbrio entre escala de simulação e agência individual. Usando a pandemia de COVID-19 como estudo de caso, demonstramos como o AgentTorch pode simular 8,4 milhões de agentes representando a cidade de Nova York, capturando o impacto do isolamento e do comportamento de emprego na saúde e nos resultados econômicos. Comparamos o desempenho de diferentes arquiteturas de agentes com base em agentes heurísticos e LLM na previsão de ondas de doenças e taxas de desemprego. Além disso, demonstramos as capacidades do AgentTorch para análises retrospectivas, contrafactuais e prospectivas, destacando como o comportamento adaptativo dos agentes pode ajudar a superar as limitações dos dados históricos no design de políticas. O AgentTorch é um projeto de código aberto que está sendo ativamente utilizado para tomada de decisões políticas e descobertas científicas ao redor do mundo. O framework está disponível em: github.com/AgentTorch/AgentTorch.
Focamo-nos no salto ágil, contínuo e adaptável ao terreno de robôs quadrúpedes em terrenos descontínuos, como escadas e pedras de passo. Ao contrário do salto de um único degrau, o salto contínuo requer a execução precisa de movimentos altamente dinâmicos ao longo de longos horizontes, o que é desafiador para abordagens existentes. Para realizar essa tarefa, projetamos um framework hierárquico de aprendizado e controle, que consiste em um preditor de mapa de altura aprendido para uma percepção robusta do terreno, uma política de movimento de nível centróide baseada em aprendizado por reforço para um planejamento versátil e adaptável ao terreno, e um controlador de perna baseado em modelo de baixo nível para um rastreamento preciso do movimento. Além disso, minimizamos a lacuna entre simulação e realidade ao modelar com precisão as características de hardware. Nosso framework permite que um robô Unitree Go1 realize saltos ágeis e contínuos em escadas de tamanho humano e pedras de passo espaçadas, pela primeira vez, até onde sabemos. Em particular, o robô pode atravessar dois degraus de escada em cada salto e completar uma escadaria de 3,5m de comprimento, 2,8m de altura e 14 degraus em 4,5 segundos. Além disso, a mesma política supera as bases em várias outras tarefas de parkour, como saltar sobre descontinuidades horizontais ou verticais únicas. Os vídeos dos experimentos podem ser encontrados em https://yxyang.github.io/jumping\_cod/.
A digitalização de cenas estáticas em 3D e eventos dinâmicos em 4D a partir de imagens de várias vistas tem sido um desafio na visão computacional e gráficos. Recentemente, o Splatting Gaussiano em 3D (3DGS) surgiu como um método de reconstrução prático e escalável, ganhando popularidade devido à sua impressionante qualidade de reconstrução, capacidades de renderização em tempo real e compatibilidade com ferramentas de visualização amplamente utilizadas. No entanto, o método requer um número substancial de vistas de entrada para alcançar uma reconstrução de cena de alta qualidade, introduzindo um gargalo prático significativo. Este desafio é especialmente severo na captura de cenas dinâmicas, onde implantar um extenso conjunto de câmeras pode ser proibitivamente caro. Neste trabalho, identificamos a falta de autocorrelação espacial de características de splat como um dos fatores que contribuem para o desempenho subótimo da técnica 3DGS em ambientes de reconstrução esparsa. Para abordar o problema, propomos uma estratégia de otimização que regulariza efetivamente as características de splat ao modelá-las como as saídas de um campo neural implícito correspondente. Isso resulta em um aprimoramento consistente da qualidade de reconstrução em vários cenários. Nossa abordagem lida efetivamente com casos estáticos e dinâmicos, como demonstrado por extensos testes em diferentes configurações e complexidades de cena.
LLMs são uma parte integral dos sistemas de geração aumentada por recuperação (RAG). Enquanto muitos estudos se concentram em avaliar a qualidade dos sistemas RAG de ponta a ponta, há uma falta de pesquisa na compreensão da adequação de um LLM para a tarefa RAG. Portanto, introduzimos uma nova métrica, Trust-Score, que fornece uma avaliação holística da confiabilidade dos LLMs em um framework RAG. Mostramos que vários métodos de solicitação, como aprendizado em contexto, falham em adaptar os LLMs de forma eficaz para a tarefa RAG. Assim, propomos o Trust-Align, um framework para alinhar os LLMs para um Trust-Score mais alto. LLaMA-3-8b, alinhado com nosso método, supera significativamente os LLMs de código aberto de tamanhos comparáveis no ASQA (aumento de 10,7), QAMPARI (aumento de 29,2) e ELI5 (aumento de 14,9). Disponibilizamos nosso código em: https://github.com/declare-lab/trust-align.
Compreender emoções é fundamental para a interação e experiência humanas. Os humanos facilmente inferem emoções a partir de situações ou expressões faciais, e vice-versa, realizando uma variedade de outras cognições afetivas. Quão hábil é a inteligência artificial moderna nessas inferências? Apresentamos um framework de avaliação para testar a cognição afetiva em modelos fundamentais. Partindo da teoria psicológica, geramos 1.280 cenários diversos explorando as relações entre avaliações, emoções, expressões e resultados. Avaliamos as habilidades dos modelos fundamentais (GPT-4, Claude-3, Gemini-1.5-Pro) e humanos (N = 567) em condições cuidadosamente selecionadas. Nossos resultados mostram que os modelos fundamentais tendem a concordar com as intuições humanas, igualando ou superando o acordo entre os participantes. Em algumas condições, os modelos são "super-humanos" - eles preveem melhor os julgamentos humanos modais do que o humano médio. Todos os modelos se beneficiam do raciocínio em cadeia de pensamento. Isso sugere que os modelos fundamentais adquiriram uma compreensão semelhante à humana das emoções e sua influência nas crenças e comportamento.
A Representação Neural Implícita (RNI), aproveitando uma rede neural para transformar a entrada de coordenadas em atributos correspondentes, tem impulsionado recentemente avanços significativos em diversos domínios relacionados à visão. No entanto, o desempenho da RNI é fortemente influenciado pela escolha da função de ativação não linear utilizada em sua arquitetura de perceptron multicamadas (MLP). Diversas não linearidades têm sido investigadas; no entanto, as RNIs atuais enfrentam limitações na captura de componentes de alta frequência, tipos de sinal diversos e na resolução de problemas inversos. Identificamos que esses problemas podem ser grandemente aliviados ao introduzir uma mudança de paradigma nas RNIs. Descobrimos que uma arquitetura com ativações aprendíveis nas camadas iniciais pode representar detalhes finos nos sinais subjacentes. Especificamente, propomos SL^{2}A-RNI, uma rede híbrida para RNI com uma função de ativação aprendível de camada única, promovendo a eficácia dos MLPs baseados em ReLU tradicionais. Nosso método apresenta desempenho superior em diversas tarefas, incluindo representação de imagens, reconstruções de formas 3D, inpainting, super-resolução de imagens únicas, reconstrução de TC e síntese de novas visualizações. Através de experimentos abrangentes, o SL^{2}A-RNI estabelece novos benchmarks em precisão, qualidade e taxas de convergência para RNIs.
A recente explosão de sistemas de IA generativa de música levantou inúmeras preocupações sobre direitos autorais de dados, licenciamento de músicas de músicos e o conflito entre IA de código aberto e grandes empresas de prestígio. Tais questões destacam a necessidade de dados musicais de domínio público, livres de direitos autorais e disponíveis publicamente, onde há uma grande escassez, especialmente para dados de música simbólica. Para amenizar esse problema, apresentamos o PDMX: um conjunto de dados de código aberto em larga escala com mais de 250 mil partituras MusicXML de domínio público coletadas do fórum de compartilhamento de partituras MuseScore, tornando-o o maior conjunto de dados de música simbólica livre de direitos autorais disponível, até onde sabemos. O PDMX também inclui uma riqueza de metadados de tags e interações de usuários, permitindo-nos analisar eficientemente o conjunto de dados e filtrar partituras geradas por usuários de alta qualidade. Dado os metadados adicionais proporcionados pelo nosso processo de coleta de dados, conduzimos experimentos de geração de música multifaixa avaliando como diferentes subconjuntos representativos do PDMX levam a comportamentos diferentes em modelos subsequentes, e como estatísticas de avaliação de usuários podem ser usadas como uma medida eficaz de qualidade de dados. Exemplos podem ser encontrados em https://pnlong.github.io/PDMX.demo/.
Representações neurais implícitas (INRs) utilizam redes neurais para fornecer representações contínuas e independentes de resolução de sinais complexos com um pequeno número de parâmetros. No entanto, os modelos INR existentes frequentemente falham em capturar componentes de frequência importantes específicos para cada tarefa. Para abordar essa questão, neste artigo, propomos uma rede Fourier Kolmogorov Arnold (FKAN) para INRs. O FKAN proposto utiliza funções de ativação aprendíveis modeladas como séries de Fourier na primeira camada para controlar e aprender de forma eficaz os componentes de frequência específicos da tarefa. Além disso, as funções de ativação com coeficientes de Fourier aprendíveis melhoram a capacidade da rede em capturar padrões e detalhes complexos, o que é benéfico para dados de alta resolução e alta dimensão. Resultados experimentais mostram que nosso modelo FKAN proposto supera três esquemas de referência de última geração e melhora o pico de relação sinal-ruído (PSNR) e a medida de índice de similaridade estrutural (SSIM) para a tarefa de representação de imagem e a interseção sobre a união (IoU) para a tarefa de representação de volume de ocupação 3D, respectivamente.