Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o modelo de linguagem EXAONE 3.0 ajustado para instruções, o primeiro modelo aberto da família de Modelos de Linguagem Grandes (LLMs) desenvolvido pela LG AI Research. Entre diferentes tamanhos de modelo, lançamos publicamente o modelo ajustado para instruções de 7,8 bilhões para promover pesquisas e inovações abertas. Através de extensas avaliações em uma ampla gama de benchmarks públicos e internos, o EXAONE 3.0 demonstra um desempenho altamente competitivo no mundo real com capacidade de seguir instruções em comparação com outros modelos abertos de ponta de tamanho semelhante. Nossa análise comparativa mostra que o EXAONE 3.0 se destaca especialmente em coreano, ao mesmo tempo que alcança um desempenho convincente em tarefas gerais e raciocínio complexo. Com sua forte eficácia no mundo real e proficiência bilíngue, esperamos que o EXAONE continue contribuindo para avanços em IA especializada. Nosso modelo EXAONE 3.0 ajustado para instruções está disponível em https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
Construir um agente de propósito geral é uma visão de longa data no campo da inteligência artificial. Agentes existentes têm feito progressos notáveis em muitos domínios, no entanto, ainda enfrentam dificuldades para completar tarefas de longo horizonte em um mundo aberto. Atribuímos isso à falta de conhecimento do mundo necessário e experiência multimodal que possa orientar os agentes por uma variedade de tarefas de longo horizonte. Neste artigo, propomos um módulo de Memória Multimodal Híbrida para enfrentar os desafios mencionados. Ele 1) transforma o conhecimento em um Grafo de Conhecimento Direcionado Hierarquicamente que permite aos agentes representar e aprender explicitamente o conhecimento do mundo, e 2) resume informações históricas em um Pool de Experiência Multimodal Abstraído que fornece aos agentes referências ricas para aprendizado contextual. Sobre o módulo de Memória Multimodal Híbrida, um agente multimodal, Optimus-1, é construído com um Planejador Orientado pelo Conhecimento dedicado e um Refletor Orientado pela Experiência, contribuindo para um melhor planejamento e reflexão diante de tarefas de longo horizonte no Minecraft. Resultados experimentais extensivos mostram que o Optimus-1 supera significativamente todos os agentes existentes em benchmarks desafiadores de tarefas de longo horizonte, e exibe desempenho próximo ao nível humano em muitas tarefas. Além disso, introduzimos vários Modelos de Linguagem Multimodal Grande (MLLMs) como a espinha dorsal do Optimus-1. Resultados experimentais mostram que o Optimus-1 apresenta forte capacidade de generalização com a ajuda do módulo de Memória Multimodal Híbrida, superando a linha de base GPT-4V em muitas tarefas.
Alcançar a velocidade e desempenho equivalentes aos humanos em tarefas do mundo real é um objetivo para a comunidade de pesquisa em robótica. Este trabalho dá um passo em direção a esse objetivo e apresenta o primeiro agente robô aprendido que atinge um desempenho amador equivalente ao humano no tênis de mesa competitivo. O tênis de mesa é um esporte fisicamente exigente que requer que os jogadores humanos passem por anos de treinamento para alcançar um nível avançado de proficiência. Neste artigo, contribuímos com (1) uma arquitetura de política hierárquica e modular composta por (i) controladores de baixo nível com seus descritores detalhados de habilidades que modelam as capacidades do agente e ajudam a preencher a lacuna entre simulação e realidade e (ii) um controlador de alto nível que escolhe as habilidades de baixo nível, (2) técnicas para permitir a transferência de simulação para o mundo real, incluindo uma abordagem iterativa para definir a distribuição de tarefas que está fundamentada no mundo real e define um currículo automático, e (3) adaptação em tempo real a oponentes não vistos. O desempenho da política foi avaliado por meio de 29 partidas de robô contra humano, das quais o robô venceu 45% (13/29). Todos os humanos eram jogadores não vistos e seu nível de habilidade variava de iniciante a nível de torneio. Embora o robô tenha perdido todas as partidas contra os jogadores mais avançados, ele venceu 100% das partidas contra iniciantes e 55% das partidas contra jogadores intermediários, demonstrando um desempenho sólido equivalente ao amador humano. Os vídeos das partidas podem ser visualizados em https://sites.google.com/view/competitive-robot-table-tennis
Os Modelos de Linguagem de Grande Escala (LLMs) destacam-se em tarefas de código autónomo como HumanEval e MBPP, mas têm dificuldade em lidar com repositórios de código inteiros. Este desafio tem motivado pesquisas sobre aprimorar a interação LLM-repositório de código em escala de repositório. As soluções atuais dependem da recuperação baseada em similaridade ou de ferramentas manuais e APIs, cada uma com desvantagens notáveis. A recuperação baseada em similaridade frequentemente tem baixa recuperação em tarefas complexas, enquanto as ferramentas manuais e APIs são tipicamente específicas da tarefa e requerem conhecimento especializado, reduzindo sua generalizabilidade em diversas tarefas de código e aplicações do mundo real. Para mitigar essas limitações, apresentamos o \framework, um sistema que integra agentes LLM com interfaces de banco de dados de grafo extraídas de repositórios de código. Ao aproveitar as propriedades estruturais de bancos de dados de grafo e a flexibilidade da linguagem de consulta de grafo, o \framework permite que o agente LLM construa e execute consultas, permitindo a recuperação precisa, consciente da estrutura do código e navegação de código. Avaliamos o \framework usando três benchmarks: CrossCodeEval, SWE-bench e EvoCodeBench. Além disso, desenvolvemos cinco aplicações de codificação do mundo real. Com um esquema unificado de banco de dados de grafo, o \framework demonstra desempenho competitivo e potencial tanto em ambientes acadêmicos quanto no mundo real, mostrando sua versatilidade e eficácia em engenharia de software. Nossa demonstração de aplicação: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval é um abrangente conjunto de ferramentas de teste de segurança de IA projetado para avaliar grandes modelos de linguagem (LLMs). Ele acomoda uma ampla gama de modelos, incluindo aqueles baseados em peso aberto e API, e apresenta mais de 35 benchmarks de segurança cobrindo áreas como segurança multilíngue, segurança exagerada e injeções de prompts. O framework suporta tanto a avaliação de LLM quanto de juízes, e incorpora mutadores personalizados para testar a segurança contra várias mutações de estilo de texto, como tempo futuro e parafraseamento. Além disso, o WalledEval introduz o WalledGuard, uma nova ferramenta de moderação de conteúdo pequena e eficiente, e o SGXSTest, um benchmark para avaliar a segurança exagerada em contextos culturais. Disponibilizamos o WalledEval publicamente em https://github.com/walledai/walledevalA.
A técnica de espalhamento gaussiano 3D (3DGS) surgiu recentemente como uma representação alternativa que utiliza uma representação baseada em Gaussianas 3D e introduz uma renderização volumétrica aproximada, alcançando uma velocidade de renderização muito rápida e qualidade de imagem promissora. Além disso, estudos subsequentes estenderam com sucesso o 3DGS para cenas 3D dinâmicas, demonstrando sua ampla gama de aplicações. No entanto, uma desvantagem significativa surge, uma vez que o 3DGS e seus métodos subsequentes envolvem um número substancial de Gaussianas para manter a alta fidelidade das imagens renderizadas, o que requer uma grande quantidade de memória e armazenamento. Para lidar com esse problema crítico, enfatizamos dois objetivos principais: reduzir o número de pontos Gaussianos sem sacrificar o desempenho e comprimir os atributos Gaussianos, como cor dependente da visão e covariância. Para isso, propomos uma estratégia de máscara aprendível que reduz significativamente o número de Gaussianas mantendo um alto desempenho. Além disso, propomos uma representação compacta, mas eficaz, da cor dependente da visão, utilizando um campo neural baseado em grade em vez de depender de harmônicos esféricos. Por fim, aprendemos livros de códigos para representar de forma compacta os atributos geométricos e temporais por meio de quantização vetorial residual. Com técnicas de compressão de modelo, como quantização e codificação de entropia, demonstramos consistentemente uma redução de armazenamento de mais de 25 vezes e uma velocidade de renderização aprimorada em comparação com o 3DGS para cenas estáticas, mantendo a qualidade da representação da cena. Para cenas dinâmicas, nossa abordagem alcança uma eficiência de armazenamento de mais de 12 vezes e mantém uma reconstrução de alta qualidade em comparação com os métodos existentes de ponta. Nosso trabalho fornece um framework abrangente para representação de cenas 3D, alcançando alto desempenho, treinamento rápido, compacidade e renderização em tempo real. Nossa página do projeto está disponível em https://maincold2.github.io/c3dgs/.
Os modelos recentes de geração de imagens se destacam na criação de imagens de alta qualidade a partir de legendas breves. No entanto, falham em manter a consistência de múltiplas instâncias entre imagens ao se depararem com contextos extensos. Essa inconsistência se deve principalmente à ausência de rotulagem detalhada de características de instância nos conjuntos de dados de treinamento existentes. Para lidar com essas questões, apresentamos o Openstory++, um conjunto de dados em grande escala que combina anotações adicionais em nível de instância com imagens e texto. Além disso, desenvolvemos uma metodologia de treinamento que enfatiza a geração de imagens e texto centrada na entidade, garantindo que os modelos aprendam a entrelaçar de forma eficaz informações visuais e textuais. Especificamente, o Openstory++ simplifica o processo de extração de quadros-chave de vídeos de domínio aberto, empregando modelos de visão e linguagem para gerar legendas que são então refinadas por um grande modelo de linguagem para continuidade narrativa. Ele supera conjuntos de dados anteriores ao oferecer um recurso de domínio aberto mais abrangente, que incorpora legendas automatizadas, imagens de alta resolução adaptadas para contagem de instâncias e extensas sequências de quadros para consistência temporal. Além disso, apresentamos o Cohere-Bench, um framework de referência pioneiro para avaliar as tarefas de geração de imagens quando um contexto multimodal longo é fornecido, incluindo a capacidade de manter o plano de fundo, estilo e instâncias no contexto fornecido coerentes. Comparado aos benchmarks existentes, nosso trabalho preenche lacunas críticas na geração multimodal, impulsionando o desenvolvimento de modelos que podem gerar e interpretar adequadamente narrativas complexas em ambientes de domínio aberto. Experimentos realizados dentro do Cohere-Bench confirmam a superioridade do Openstory++ no cultivo de modelos de narrativa visual de alta qualidade, aprimorando sua capacidade de lidar com tarefas de geração de domínio aberto. Mais detalhes podem ser encontrados em https://openstorypp.github.io/
Apresentamos o Speech-MASSIVE, um conjunto de dados de Compreensão de Linguagem Falada (SLU) multilíngue que inclui a contraparte de fala de uma parte do corpus textual MASSIVE. O Speech-MASSIVE abrange 12 idiomas de diferentes famílias e herda do MASSIVE as anotações para as tarefas de previsão de intenção e preenchimento de slots. Nossa extensão é motivada pela escassez de conjuntos de dados de SLU massivamente multilíngues e pela crescente necessidade de conjuntos de dados de fala versáteis para avaliar modelos fundamentais (LLMs, codificadores de fala) em diferentes idiomas e tarefas. Fornecemos um conjunto de dados multimodal, multitarefa, multilíngue e relatamos baselines de SLU usando arquiteturas tanto em cascata quanto ponta a ponta em vários cenários de treinamento (zero-shot, few-shot e ajuste fino completo). Além disso, demonstramos a adequação do Speech-MASSIVE para avaliar outras tarefas como transcrição de fala, identificação de idioma e tradução de fala. O conjunto de dados, modelos e código estão disponíveis publicamente em: https://github.com/hlt-mt/Speech-MASSIVE
Métodos baseados em renderização volumétrica diferenciável tiveram avanços significativos na síntese de novas visualizações. Por um lado, métodos inovadores substituíram a rede Neural Radiance Fields (NeRF) por estruturas localmente parametrizadas, possibilitando renderizações de alta qualidade em um tempo razoável. Por outro lado, abordagens têm utilizado splatting diferenciável em vez do lançamento de raios do NeRF para otimizar rapidamente os campos de radiância usando núcleos gaussianos, permitindo uma adaptação refinada à cena. No entanto, o lançamento de raios diferenciável de núcleos irregularmente espaçados tem sido pouco explorado, enquanto o splatting, apesar de possibilitar tempos de renderização rápidos, é suscetível a artefatos claramente visíveis. Nosso trabalho preenche essa lacuna ao fornecer uma formulação fisicamente consistente da radiância emitida c e da densidade σ, decompostas com funções gaussianas associadas a Gauss/Harmônicos Esféricos para representação colorimétrica de todas as frequências. Também introduzimos um método que possibilita o lançamento de raios diferenciável de gaussianas distribuídas irregularmente usando um algoritmo que integra os campos de radiância fatia por fatia e alavanca uma estrutura BVH. Isso permite que nossa abordagem se adapte finamente à cena, evitando artefatos de splatting. Como resultado, alcançamos qualidade de renderização superior em comparação com o estado-da-arte, mantendo tempos de treinamento razoáveis e atingindo velocidades de inferência de 25 FPS no conjunto de dados do Blender. Página do projeto com vídeos e código: https://raygauss.github.io/
Este artigo apresenta uma abordagem para decompor gráficos animados em sprites, um conjunto de elementos ou camadas básicas. Nossa abordagem se baseia na otimização dos parâmetros do sprite para se ajustar ao vídeo raster. Para eficiência, assumimos texturas estáticas para os sprites a fim de reduzir o espaço de busca, ao mesmo tempo que evitamos artefatos utilizando um modelo de textura prévia. Para acelerar ainda mais a otimização, introduzimos a inicialização dos parâmetros do sprite utilizando um modelo de segmentação de objetos de vídeo pré-treinado e a entrada do usuário de anotações de um único quadro. Para nosso estudo, construímos o conjunto de dados de Animação Crello a partir de um serviço de design online e definimos métricas quantitativas para medir a qualidade dos sprites extraídos. Experimentos mostram que nosso método supera significativamente os baselines para tarefas de decomposição semelhantes em termos de compensação qualidade/eficiência.
A separação de fontes de áudio cinematográfico (CASS) é uma sub-tarefa relativamente nova da separação de fontes de áudio. Uma configuração típica de CASS é um problema de três stems, com o objetivo de separar a mistura no stem de diálogo (DX), stem de música (MX) e stem de efeitos (FX). Na prática, no entanto, vários casos limítrofes existem, já que algumas fontes sonoras não se encaixam perfeitamente em nenhum desses três stems, exigindo o uso de stems auxiliares adicionais na produção. Um caso limítrofe muito comum é a voz cantada no áudio de filmes, que pode pertencer tanto ao DX quanto ao MX, dependendo fortemente do contexto cinematográfico. Neste trabalho, demonstramos uma extensão muito direta dos modelos Bandit com decodificador dedicado e Banquet com decodificador único baseado em consulta para um problema de quatro stems, tratando diálogo não musical, música instrumental, voz cantada e efeitos como stems separados. Curiosamente, o modelo Banquet baseado em consulta superou o modelo Bandit com decodificador dedicado. Hipotetizamos que isso se deve a uma melhor alinhamento de características no gargalo, conforme imposto pela camada FiLM agnóstica à banda. O conjunto de dados e a implementação do modelo estarão disponíveis em https://github.com/kwatcharasupat/source-separation-landing.