Artigos de pesquisa em IA selecionados diariamente com traduções
Os sistemas modernos de inteligência artificial (IA) são impulsionados por modelos fundamentais. Este artigo apresenta um novo conjunto de modelos fundamentais, chamado Llama 3. Trata-se de um rebanho de modelos de linguagem que suportam nativamente multilinguismo, codificação, raciocínio e uso de ferramentas. Nosso maior modelo é um Transformer denso com 405 bilhões de parâmetros e uma janela de contexto de até 128 mil tokens. Este artigo apresenta uma extensa avaliação empírica do Llama 3. Descobrimos que o Llama 3 oferece qualidade comparável aos principais modelos de linguagem, como o GPT-4, em uma infinidade de tarefas. Lançamos publicamente o Llama 3, incluindo versões pré-treinadas e pós-treinadas do modelo de linguagem de 405 bilhões de parâmetros e nosso modelo Llama Guard 3 para segurança de entrada e saída. O artigo também apresenta os resultados de experimentos nos quais integramos capacidades de imagem, vídeo e fala ao Llama 3 por meio de uma abordagem composicional. Observamos que essa abordagem tem desempenho competitivo com o estado-da-arte em tarefas de reconhecimento de imagem, vídeo e fala. Os modelos resultantes ainda não estão sendo amplamente divulgados, pois ainda estão em desenvolvimento.
Avanços recentes no Transformer de Difusão (DiT) têm demonstrado uma notável eficiência na produção de conteúdo de vídeo de alta qualidade. No entanto, o potencial dos modelos de difusão baseados em transformers para gerar vídeos com movimento controlável ainda é uma área pouco explorada. Este artigo apresenta o Tora, o primeiro framework DiT orientado por trajetória que integra condições textuais, visuais e de trajetória simultaneamente para geração de vídeo. Especificamente, o Tora é composto por um Extrator de Trajetória (TE), um DiT Espaço-Temporal e um Fusor de Orientação de Movimento (MGF). O TE codifica trajetórias arbitrárias em patches de movimento espaço-temporais hierárquicos com uma rede de compressão de vídeo 3D. O MGF integra os patches de movimento nos blocos DiT para gerar vídeos consistentes seguindo trajetórias. Nosso design se alinha perfeitamente com a escalabilidade do DiT, permitindo o controle preciso da dinâmica do conteúdo de vídeo com diversas durações, proporções de aspecto e resoluções. Experimentos extensivos demonstram a excelência do Tora em alcançar alta fidelidade de movimento, enquanto também simula meticulosamente o movimento do mundo físico. A página pode ser encontrada em https://ali-videoai.github.io/tora_video.
Apresentamos o MoMa, uma arquitetura inovadora de mistura de especialistas (MoE) consciente de modalidade, projetada para pré-treinar modelos de linguagem de fusão precoce mistos-modais. O MoMa processa imagens e texto em sequências arbitrárias dividindo os módulos especialistas em grupos específicos de modalidade. Esses grupos processam exclusivamente tokens designados, empregando roteamento aprendido dentro de cada grupo para manter adaptabilidade semanticamente informada. Nossos resultados empíricos revelam ganhos substanciais de eficiência de pré-treinamento por meio dessa alocação de parâmetros específicos de modalidade. Sob um orçamento de treinamento de 1 trilhão de tokens, o modelo MoMa 1.4B, com 4 especialistas em texto e 4 especialistas em imagem, alcança economias impressionantes de FLOPs: 3,7x no geral, com 2,6x para texto e 5,2x para processamento de imagem em comparação com uma linha de base densa equivalente em computação, medida pela perda de pré-treinamento. Isso supera o MoE padrão de escolha de especialistas com 8 especialistas mistos-modais, que alcança economias de FLOPs de 3x no geral (3x para texto, 2,8x para imagem). Combinar o MoMa com mistura de profundidades (MoD) melhora ainda mais as economias de FLOPs de pré-treinamento para 4,2x no geral (texto: 3,4x, imagem: 5,3x), embora essa combinação prejudique o desempenho na inferência causal devido à sensibilidade aumentada à precisão do roteador. Esses resultados demonstram o potencial do MoMa para avançar significativamente a eficiência do pré-treinamento de modelos de linguagem de fusão precoce mistos-modais, abrindo caminho para sistemas de IA multimodais mais eficientes em recursos e capazes.
Neste artigo, apresentamos o Cross Language Agent - Simultaneous Interpretation, CLASI, um Sistema de Tradução de Fala Simultânea (SiST) de alta qualidade e semelhante ao humano. Inspirado por intérpretes humanos profissionais, utilizamos uma estratégia inovadora de leitura e escrita orientada por dados para equilibrar a qualidade da tradução e a latência. Para lidar com o desafio de traduzir terminologias específicas de um domínio, o CLASI emprega um módulo de recuperação multi-modal para obter informações relevantes que auxiliem na tradução. Com o suporte de LLMs, nossa abordagem pode gerar traduções tolerantes a erros considerando o áudio de entrada, contexto histórico e informações recuperadas. Resultados experimentais mostram que nosso sistema supera significativamente outros sistemas. Em conformidade com intérpretes humanos profissionais, avaliamos o CLASI com uma métrica de avaliação humana melhor, a proporção de informação válida (VIP), que mede a quantidade de informação que pode ser transmitida com sucesso aos ouvintes. Em cenários do mundo real, onde os discursos são frequentemente disfluentes, informais e pouco claros, o CLASI alcança VIP de 81,3% e 78,0% para as direções de tradução Chinês-Inglês e Inglês-Chinês, respectivamente. Em contraste, sistemas comerciais ou de código aberto de ponta alcançam apenas 35,4% e 41,6%. Em um conjunto de dados extremamente desafiador, onde outros sistemas alcançam menos de 13% de VIP, o CLASI ainda consegue atingir 70% de VIP.
Apresentamos o ShieldGemma, um conjunto abrangente de modelos de moderação de conteúdo de segurança baseados em LLM construídos sobre o Gemma2. Esses modelos fornecem previsões robustas e de ponta de riscos de segurança em tipos-chave de danos (conteúdo sexualmente explícito, perigoso, assédio, discurso de ódio) tanto na entrada do usuário quanto na saída gerada pelo LLM. Ao avaliar em benchmarks públicos e internos, demonstramos desempenho superior em comparação com modelos existentes, como Llama Guard (+10,8\% AU-PRC em benchmarks públicos) e WildCard (+4,3\%). Além disso, apresentamos um novo pipeline de curadoria de dados baseado em LLM, adaptável a uma variedade de tarefas relacionadas à segurança e além. Demonstramos um forte desempenho de generalização para modelos treinados principalmente em dados sintéticos. Ao disponibilizar o ShieldGemma, oferecemos um recurso valioso para a comunidade de pesquisa, avançando a segurança do LLM e permitindo a criação de soluções de moderação de conteúdo mais eficazes para desenvolvedores.
O 1º Workshop sobre Contaminação de Dados (CONDA 2024) concentra-se em todos os aspectos relevantes da contaminação de dados no processamento de linguagem natural, onde a contaminação de dados é entendida como situações em que dados de avaliação estão incluídos em corpora de pré-treinamento usados para treinar modelos em larga escala, comprometendo os resultados de avaliação. O workshop promoveu uma tarefa compartilhada para coletar evidências sobre a contaminação de dados em conjuntos de dados e modelos disponíveis atualmente. O objetivo da tarefa compartilhada e do banco de dados associado é auxiliar a comunidade a compreender a extensão do problema e ajudar os pesquisadores a evitar relatar resultados de avaliação em recursos contaminados conhecidos. A tarefa compartilhada fornece um banco de dados público estruturado e centralizado para a coleta de evidências de contaminação, aberto a contribuições da comunidade por meio de solicitações no GitHub. Este primeiro artigo de compilação é baseado em 566 entradas relatadas sobre 91 fontes contaminadas de um total de 23 contribuidores. Os detalhes dos eventos individuais de contaminação estão disponíveis na plataforma. A plataforma continua online, aberta a contribuições da comunidade.
A segmentação semântica áudio-visual (AVSS) tem como objetivo segmentar e classificar objetos sonoros em vídeos com pistas acústicas. No entanto, a maioria das abordagens opera com a suposição de conjunto fechado e apenas identifica categorias pré-definidas a partir dos dados de treinamento, carecendo da capacidade de generalização para detectar categorias novas em aplicações práticas. Neste artigo, introduzimos uma nova tarefa: segmentação semântica áudio-visual de vocabulário aberto, estendendo a tarefa AVSS para cenários de mundo aberto além do espaço de rótulos anotados. Esta é uma tarefa mais desafiadora que requer o reconhecimento de todas as categorias, mesmo aquelas que nunca foram vistas ou ouvidas durante o treinamento. Além disso, propomos o primeiro framework de AVSS de vocabulário aberto, OV-AVSS, que consiste principalmente em duas partes: 1) um módulo de localização de fonte sonora universal para realizar a fusão áudio-visual e localizar todos os objetos sonoros potenciais e 2) um módulo de classificação de vocabulário aberto para prever categorias com a ajuda do conhecimento prévio de modelos visão-linguagem pré-treinados em grande escala. Para avaliar adequadamente o AVSS de vocabulário aberto, dividimos os subconjuntos de treinamento e teste de zero-shot com base no benchmark semântico AVSBench, nomeadamente AVSBench-OV. Experimentos extensivos demonstram a forte capacidade de segmentação e generalização de zero-shot do nosso modelo em todas as categorias. No conjunto de dados AVSBench-OV, o OV-AVSS alcança 55,43% de mIoU em categorias base e 29,14% de mIoU em categorias novas, superando o método de zero-shot de última geração em 41,88%/20,61% e o método de vocabulário aberto em 10,2%/11,6%. O código está disponível em https://github.com/ruohaoguo/ovavss.
Apresentamos o Berkeley Humanoid, uma plataforma de pesquisa humanoides de médio porte confiável e de baixo custo para controle baseado em aprendizado. Nosso robô leve, construído internamente, é projetado especificamente para algoritmos de aprendizado com baixa complexidade de simulação, movimento antropomórfico e alta confiabilidade contra quedas. A estreita lacuna sim-real do robô permite locomoção ágil e robusta em vários terrenos em ambientes externos, alcançada com um controlador simples de aprendizado por reforço usando randomização leve de domínio. Além disso, demonstramos o robô percorrendo centenas de metros, andando em uma trilha íngreme não pavimentada e pulando com pernas simples e duplas como testemunho de seu alto desempenho em caminhada dinâmica. Capaz de locomoção omnidirecional e resistindo a grandes perturbações com uma configuração compacta, nosso sistema visa a implantação escalável e sim-real de sistemas humanoides baseados em aprendizado. Por favor, acesse http://berkeley-humanoid.com para mais detalhes.
A expressão facial e os movimentos das mãos são necessários para expressar nossas emoções e interagir com o mundo. No entanto, a maioria dos avatares humanos 3D modelados a partir de um vídeo casualmente capturado suportam apenas movimentos corporais sem expressões faciais e movimentos das mãos. Neste trabalho, apresentamos o ExAvatar, um avatar humano 3D expressivo de corpo inteiro aprendido a partir de um curto vídeo monocular. Projetamos o ExAvatar como uma combinação do modelo de malha paramétrica de corpo inteiro (SMPL-X) e do Splatting Gaussiano 3D (3DGS). Os principais desafios são 1) uma diversidade limitada de expressões faciais e poses no vídeo e 2) a ausência de observações 3D, como varreduras 3D e imagens RGBD. A limitada diversidade no vídeo torna as animações com novas expressões faciais e poses não triviais. Além disso, a ausência de observações 3D pode causar ambiguidade significativa em partes do corpo humano não observadas no vídeo, o que pode resultar em artefatos perceptíveis sob novos movimentos. Para abordá-los, introduzimos nossa representação híbrida da malha e dos Gaussianos 3D. Nossa representação híbrida trata cada Gaussiano 3D como um vértice na superfície com informações de conectividade predefinidas (ou seja, faces triangulares) entre eles, seguindo a topologia de malha do SMPL-X. Isso torna nosso ExAvatar animável com novas expressões faciais impulsionadas pelo espaço de expressão facial do SMPL-X. Além disso, ao usar regularizadores baseados em conectividade, reduzimos significativamente os artefatos em novas expressões faciais e poses.
A obfuscação de autoria tem como objetivo disfarçar a identidade de um autor dentro de um texto, alterando o estilo de escrita, vocabulário, sintaxe e outras características linguísticas associadas ao autor do texto. Essa alteração precisa equilibrar privacidade e utilidade. Enquanto técnicas fortes de obfuscação podem efetivamente ocultar a identidade do autor, frequentemente degradam a qualidade e utilidade do texto para o seu propósito pretendido. Por outro lado, manter uma alta utilidade tende a fornecer privacidade insuficiente, tornando mais fácil para um adversário desanonimizar o autor. Assim, alcançar um equilíbrio ótimo entre esses dois objetivos conflitantes é crucial. Neste artigo, propomos TAROT: Obfuscação de Autoria Orientada por Tarefas Usando Otimização de Políticas, um novo método de obfuscação de autoria não supervisionado cujo objetivo é otimizar o equilíbrio entre privacidade e utilidade, regenerando o texto inteiro considerando sua utilidade downstream. Nossa abordagem aproveita a otimização de políticas como um paradigma de ajuste fino sobre pequenos modelos de linguagem para reescrever textos preservando a identidade do autor e a utilidade da tarefa downstream. Mostramos que nossa abordagem reduz significativamente a precisão dos atacantes enquanto preserva a utilidade. Disponibilizamos nosso código e modelos publicamente.
Os modelos visuais atuais são treinados exclusivamente em dados 2D não estruturados, limitando sua compreensão da estrutura 3D de objetos e cenas. Neste trabalho, demonstramos que o ajuste fino em dados 3D melhora a qualidade das características semânticas emergentes. Projetamos um método para elevar características semânticas 2D em uma representação Gaussiana 3D eficiente, o que nos permite renderizá-las para visualizações arbitrárias. Utilizando as características 3D renderizadas, projetamos uma estratégia de ajuste fino para transferir essa consciência 3D para um modelo de base 2D. Demonstramos que os modelos ajustados dessa maneira produzem características que prontamente melhoram o desempenho de tarefas subsequentes em segmentação semântica e estimativa de profundidade por meio de sondagem linear simples. Notavelmente, embora ajustados em um único conjunto de dados internos, a melhoria é transferível para uma variedade de conjuntos de dados internos e conjuntos de dados fora do domínio. Esperamos que nosso estudo encoraje a comunidade a considerar a injeção de consciência 3D ao treinar modelos de base 2D. Página do projeto: https://ywyue.github.io/FiT3D.
Incorporar uma dimensão temporal em modelos de difusão de imagens pré-treinados para geração de vídeos é uma abordagem prevalente. No entanto, esse método é computacionalmente exigente e requer grandes conjuntos de dados de vídeos. Mais criticamente, a heterogeneidade entre conjuntos de dados de imagens e vídeos frequentemente resulta em esquecimento catastrófico da expertise em imagens. Tentativas recentes de extrair trechos de vídeo diretamente de modelos de difusão de imagens têm mitigado em certa medida esses problemas. No entanto, esses métodos só conseguem gerar breves clipes de vídeo com movimentos simples e falham em capturar movimentos detalhados ou deformações não lineares. Neste artigo, propomos um novo algoritmo de Amostragem de Vídeo Sem Supervisão, denominado ZS^2, capaz de amostrar diretamente clipes de vídeo de alta qualidade a partir de métodos existentes de síntese de imagens, como Difusão Estável, sem necessidade de treinamento ou otimização. Especificamente, ZS^2 utiliza o modelo de ruído de dependência e a atenção de momento temporal para garantir consistência de conteúdo e coerência de animação, respectivamente. Essa capacidade permite que ele se destaque em tarefas relacionadas, como geração de vídeo condicional e especializada em contexto e edição de vídeo guiada por instruções. Resultados experimentais demonstram que ZS^2 alcança desempenho de ponta em geração de vídeo sem supervisão, ocasionalmente superando métodos supervisionados recentes. Página inicial: https://densechen.github.io/zss/.
Os campos neurais destacam-se em visão computacional e robótica devido à sua capacidade de compreender o mundo visual 3D, como inferir semântica, geometria e dinâmica. Dadas as capacidades dos campos neurais em representar densamente uma cena 3D a partir de imagens 2D, fazemos a pergunta: Podemos escalar seu pré-treinamento auto-supervisionado, especificamente usando autoencoders mascarados, para gerar representações 3D eficazes a partir de imagens RGB posicionadas. Devido ao sucesso impressionante da extensão de transformers para novas modalidades de dados, empregamos Transformers de Visão 3D padrão para adequar à formulação única dos NeRFs. Utilizamos a grade volumétrica do NeRF como entrada densa para o transformer, contrastando com outras representações 3D, como nuvens de pontos, onde a densidade de informação pode ser desigual e a representação é irregular. Devido à dificuldade de aplicar autoencoders mascarados a uma representação implícita, como o NeRF, optamos por extrair uma representação explícita que canoniza cenas entre domínios empregando a trajetória da câmera para amostragem. Nosso objetivo é viabilizado mascarando patches aleatórios da grade de radiância e densidade do NeRF e empregando um Transformer 3D Swin padrão para reconstruir os patches mascarados. Dessa forma, o modelo pode aprender a estrutura semântica e espacial de cenas completas. Pré-treinamos essa representação em escala em nossos dados RGB posicionados propostos, totalizando mais de 1,8 milhão de imagens. Uma vez pré-treinado, o codificador é utilizado para aprendizado de transferência 3D eficaz. Nosso novo pré-treinamento auto-supervisionado para NeRFs, NeRF-MAE, escala de forma notável e melhora o desempenho em várias tarefas 3D desafiadoras. Utilizando dados 2D posicionados não rotulados para pré-treinamento, o NeRF-MAE supera significativamente os baselines de pré-treinamento 3D auto-supervisionado e de compreensão de cena NeRF em conjuntos de dados Front3D e ScanNet com uma melhoria de desempenho absoluto de mais de 20% AP50 e 8% AP25 para detecção de objetos 3D.