Artigos de pesquisa em IA selecionados diariamente com traduções
Com o avanço dos modelos de texto para imagem (por exemplo, Stable Diffusion) e das técnicas de personalização correspondentes, como DreamBooth e LoRA, todos podem transformar sua imaginação em imagens de alta qualidade a um custo acessível. Consequentemente, há uma grande demanda por técnicas de animação de imagens para combinar ainda mais as imagens estáticas geradas com dinâmicas de movimento. Neste relatório, propomos uma estrutura prática para animar a maioria dos modelos personalizados de texto para imagem existentes de uma vez por todas, economizando esforços em ajustes específicos para cada modelo. No cerne da estrutura proposta está a inserção de um módulo de modelagem de movimento recém-inicializado no modelo de texto para imagem congelado e seu treinamento em clipes de vídeo para destilar prioridades de movimento razoáveis. Uma vez treinado, ao simplesmente injetar esse módulo de modelagem de movimento, todas as versões personalizadas derivadas do mesmo modelo base de texto para imagem (T2I) tornam-se modelos orientados por texto que produzem imagens animadas diversas e personalizadas. Realizamos nossa avaliação em vários modelos representativos de texto para imagem personalizados, abrangendo desde imagens de anime até fotografias realistas, e demonstramos que a estrutura proposta ajuda esses modelos a gerar clipes de animação temporalmente suaves, preservando o domínio e a diversidade de suas saídas. O código e os pesos pré-treinados estarão publicamente disponíveis em https://animatediff.github.io/.
Os modelos de linguagem de grande escala (LLMs) estabeleceram um plano para o avanço da inteligência artificial geral. Seu objetivo principal é funcionar como um assistente centrado no ser humano (útil, honesto e inofensivo). O alinhamento com os humanos assume uma importância primordial, e o aprendizado por reforço com feedback humano (RLHF) surge como o paradigma tecnológico fundamental que sustenta essa busca. As rotas técnicas atuais geralmente incluem modelos de recompensa para medir as preferências humanas, a Otimização de Política Proximal (PPO) para otimizar as saídas do modelo de política e a supervisão de processos para melhorar as capacidades de raciocínio passo a passo. No entanto, devido aos desafios de design de recompensa, interação com o ambiente e treinamento de agentes, somados ao alto custo de tentativa e erro dos modelos de linguagem de grande escala, há uma barreira significativa para os pesquisadores de IA motivarem o desenvolvimento do alinhamento técnico e da aterrissagem segura dos LLMs. O treinamento estável do RLHF ainda é um enigma. No primeiro relatório, dissecamos a estrutura do RLHF, reavaliamos o funcionamento interno do PPO e exploramos como os componentes que compõem os algoritmos PPO impactam o treinamento do agente de política. Identificamos que as restrições de política são o fator-chave para a implementação eficaz do algoritmo PPO. Portanto, exploramos o PPO-max, uma versão avançada do algoritmo PPO, para melhorar eficientemente a estabilidade do treinamento do modelo de política. Com base em nossos principais resultados, realizamos uma análise abrangente das capacidades do RLHF em comparação com modelos SFT e o ChatGPT. A ausência de implementações de código aberto tem imposto desafios significativos à investigação do alinhamento dos LLMs. Portanto, estamos ansiosos para liberar relatórios técnicos, modelos de recompensa e códigos PPO.
Progressos significativos foram recentemente alcançados em aplicações criativas de modelos pré-treinados de grande escala para tarefas subsequentes em visão 3D, como a geração de formas a partir de texto. Isso motiva nossa investigação sobre como esses modelos pré-treinados podem ser usados de forma eficaz para gerar formas 3D a partir de esboços, o que permaneceu em grande parte um desafio aberto devido à escassez de conjuntos de dados pareados de esboço-forma e ao nível variável de abstração nos esboços. Descobrimos que condicionar um modelo generativo 3D nas características (obtidas de um modelo de visão pré-treinado de grande escala congelado) de renderizações sintéticas durante o treinamento nos permite gerar efetivamente formas 3D a partir de esboços no momento da inferência. Isso sugere que as características do modelo de visão pré-treinado de grande escala carregam sinais semânticos que são resilientes a mudanças de domínio, ou seja, permitindo-nos usar apenas renderizações RGB, mas generalizando para esboços no momento da inferência. Realizamos um conjunto abrangente de experimentos investigando diferentes fatores de projeto e demonstramos a eficácia de nossa abordagem direta para a geração de múltiplas formas 3D para cada esboço de entrada, independentemente de seu nível de abstração, sem exigir nenhum conjunto de dados pareado durante o treinamento.
Apresentamos o Emu, um modelo de base multimodal baseado em Transformers, capaz de gerar imagens e textos de forma integrada em contextos multimodais. Este modelo onívoro pode processar indiscriminadamente qualquer entrada de dados unimodal ou multimodal (por exemplo, imagens, textos e vídeos intercalados) por meio de um processo de treinamento autoregressivo único. Primeiro, os sinais visuais são codificados em embeddings e, juntamente com os tokens de texto, formam uma sequência de entrada intercalada. O Emu é então treinado de ponta a ponta com um objetivo unificado de classificar o próximo token de texto ou regredir o próximo embedding visual na sequência multimodal. Essa versatilidade multimodal permite a exploração de diversas fontes de dados de pré-treinamento em escala, como vídeos com quadros e textos intercalados, páginas da web com imagens e textos intercalados, além de pares de imagem-texto e vídeo-texto em escala web. O Emu pode servir como uma interface multimodal generalista para tarefas de imagem-para-texto e texto-para-imagem, e suporta geração de imagens e textos em contexto. Em uma ampla gama de tarefas zero-shot/few-shot, incluindo legendagem de imagens, resposta a perguntas visuais, resposta a perguntas em vídeos e geração de texto-para-imagem, o Emu demonstra desempenho superior em comparação com os melhores modelos multimodais de grande escala. Capacidades estendidas, como assistentes multimodais via ajuste por instrução, também são demonstradas com desempenho impressionante.
Neste artigo, apresentamos o Semantic-SAM, um modelo universal de segmentação de imagens capaz de segmentar e reconhecer qualquer coisa em qualquer granularidade desejada. Nosso modelo oferece duas vantagens principais: consciência semântica e abundância de granularidade. Para alcançar a consciência semântica, consolidamos múltiplos conjuntos de dados em três granularidades e introduzimos uma classificação desacoplada para objetos e partes. Isso permite que nosso modelo capture informações semânticas ricas. Para a capacidade de multi-granularidade, propomos um esquema de aprendizado de múltiplas escolhas durante o treinamento, permitindo que cada clique gere máscaras em múltiplos níveis que correspondem a múltiplas máscaras de verdade fundamental. Vale destacar que este trabalho representa a primeira tentativa de treinar conjuntamente um modelo em conjuntos de dados de segmentação SA-1B, genéricos e de partes. Resultados experimentais e visualizações demonstram que nosso modelo alcança com sucesso a consciência semântica e a abundância de granularidade. Além disso, a combinação do treinamento com SA-1B e outras tarefas de segmentação, como segmentação panóptica e de partes, resulta em melhorias de desempenho. Disponibilizaremos código e uma demonstração para exploração e avaliação adicionais.
Apresentamos o VampNet, uma abordagem de modelagem de tokens acústicos mascarados para síntese, compressão, preenchimento e variação musical. Utilizamos um esquema de mascaramento variável durante o treinamento, o que nos permite amostrar música coerente do modelo aplicando diversas abordagens de mascaramento (chamadas de prompts) durante a inferência. O VampNet é não-autorregressivo, aproveitando uma arquitetura de transformer bidirecional que atende a todos os tokens em uma passagem direta. Com apenas 36 passagens de amostragem, o VampNet pode gerar formas de onda musicais de alta fidelidade e coerência. Demonstramos que, ao fornecer prompts de várias maneiras ao VampNet, podemos aplicá-lo a tarefas como compressão musical, preenchimento, extensão, continuação e looping com variação (vamping). Quando devidamente promptado, o VampNet é capaz de manter o estilo, gênero, instrumentação e outros aspectos de alto nível da música. Essa capacidade flexível de prompt torna o VampNet uma poderosa ferramenta de cocriação musical. Código e amostras de áudio estão disponíveis online.
A inteligência humana prospera com o conceito de sinergia cognitiva, onde a colaboração e a integração de informações entre diferentes processos cognitivos produzem resultados superiores em comparação com processos cognitivos individuais isolados. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado desempenho promissor como agentes gerais de resolução de tarefas, eles ainda enfrentam dificuldades com tarefas que exigem conhecimento intensivo de domínio e raciocínio complexo. Neste trabalho, propomos o Solo Performance Prompting (SPP), que transforma um único LLM em um sinergista cognitivo, engajando-o em uma colaboração interna de múltiplos turnos com várias personas. Um sinergista cognitivo refere-se a um agente inteligente que colabora com múltiplas mentes, combinando seus pontos fortes e conhecimentos individuais, para aprimorar a resolução de problemas e o desempenho geral em tarefas complexas. Ao identificar e simular dinamicamente diferentes personas com base nas entradas da tarefa, o SPP libera o potencial da sinergia cognitiva nos LLMs. Descobrimos que atribuir múltiplas personas detalhadas aos LLMs elicita melhores habilidades de resolução de problemas em comparação com o uso de uma única persona ou de um número fixo de personas. Avaliamos o SPP em três tarefas desafiadoras: Escrita Criativa de Trivia, Codenames Colaborativo e Quebra-Cabeça de Grade Lógica, abrangendo tanto tipos intensivos em conhecimento quanto em raciocínio. Diferente de trabalhos anteriores, como o Chain-of-Thought, que apenas aprimoram as habilidades de raciocínio nos LLMs, o SPP efetivamente elicita habilidades internas de aquisição de conhecimento, reduz alucinações e mantém fortes capacidades de raciocínio. Código, dados e prompts podem ser encontrados em: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
Observamos que modelos de linguagem grandes (LLMs) pré-treinados são capazes de completar autoregressivamente sequências complexas de tokens -- desde aquelas geradas proceduralmente por gramáticas livres de contexto probabilísticas (PCFG) até padrões espaciais mais ricos encontrados no Abstract Reasoning Corpus (ARC), um benchmark de IA geral, apresentados no estilo de arte ASCII. Surpreendentemente, a proficiência em completar padrões pode ser parcialmente mantida mesmo quando as sequências são expressas usando tokens amostrados aleatoriamente do vocabulário. Esses resultados sugerem que, sem qualquer treinamento adicional, os LLMs podem servir como modeladores gerais de sequências, impulsionados pelo aprendizado em contexto. Neste trabalho, investigamos como essas capacidades zero-shot podem ser aplicadas a problemas em robótica -- desde extrapolar sequências de números que representam estados ao longo do tempo para completar movimentos simples, até o prompting de menos para mais de trajetórias condicionadas por recompensas que podem descobrir e representar políticas de circuito fechado (por exemplo, um controlador estabilizador para CartPole). Embora seja difícil implantar hoje em sistemas reais devido à latência, limitações de tamanho de contexto e custos computacionais, a abordagem de usar LLMs para direcionar controle de baixo nível pode fornecer uma visão emocionante de como os padrões entre palavras poderiam ser transferidos para ações.
Um desafio no desenvolvimento de sistemas de PLN para as línguas do mundo é compreender como eles generalizam para diferenças tipológicas relevantes em aplicações do mundo real. Para isso, propomos o M2C, uma estrutura morfologicamente consciente para testes comportamentais de modelos de PLN. Utilizamos o M2C para gerar testes que investigam o comportamento dos modelos em relação a características linguísticas específicas em 12 idiomas tipologicamente diversos. Avaliamos modelos de linguagem state-of-the-art nos testes gerados. Embora os modelos se destaquem na maioria dos testes em inglês, destacamos falhas de generalização para características tipológicas específicas, como expressões temporais em suaíli e possessivos compostos em finlandês. Nossas descobertas motivam o desenvolvimento de modelos que abordem essas lacunas.
Modelos de linguagem de grande escala (LLMs) alcançaram sucesso notável no campo do processamento de linguagem natural, permitindo uma melhor interação humano-computador por meio de linguagem natural. No entanto, a integração perfeita de sinais de fala em LLMs ainda não foi bem explorada. A arquitetura "decoder-only" também não foi amplamente estudada para tarefas de processamento de fala. Nesta pesquisa, apresentamos o Speech-LLaMA, uma abordagem inovadora que incorpora efetivamente informações acústicas em modelos de linguagem de grande escala baseados em texto. Nosso método utiliza a Classificação Temporal Conexionista e um codificador de áudio simples para mapear as características acústicas comprimidas para o espaço semântico contínuo do LLM. Além disso, investigamos a arquitetura decoder-only para tarefas de conversão de fala em texto, treinando um modelo Speech-LLaMA de menor escala, inicializado aleatoriamente, apenas com dados emparelhados de fala e texto. Realizamos experimentos em tarefas de tradução de fala para texto multilingue e demonstramos uma melhoria significativa em relação a baselines robustas, destacando as vantagens potenciais dos modelos decoder-only para conversão de fala em texto.
O objetivo da síntese de programas, ou geração de código, é produzir código executável com base em descrições fornecidas. Recentemente, tem havido um número crescente de estudos empregando aprendizado por reforço (RL) para melhorar o desempenho de modelos de linguagem de grande escala (LLMs) para código. No entanto, esses métodos de RL têm utilizado apenas frameworks offline, limitando a exploração de novos espaços de amostras. Além disso, as abordagens atuais que utilizam sinais de testes unitários são bastante simples, não levando em consideração locais específicos de erros dentro do código. Para resolver esses problemas, propomos o RLTF, ou seja, Aprendizado por Reforço a partir de Feedback de Testes Unitários, um novo framework de RL online com feedback de testes unitários de múltiplas granularidades para refinar LLMs de código. Nossa abordagem gera dados em tempo real durante o treinamento e utiliza simultaneamente sinais de feedback detalhados para guiar o modelo na produção de códigos de maior qualidade. Experimentos extensivos mostram que o RLTF alcança desempenho de ponta nos benchmarks APPS e MBPP. Nosso código pode ser encontrado em: https://github.com/Zyq-scut/RLTF.
Consistência e confiabilidade são cruciais para a condução de pesquisas em IA. Muitos campos de pesquisa renomados, como a detecção de objetos, foram comparados e validados com estruturas de benchmark sólidas. Após o AlphaFold2, a tarefa de dobramento de proteínas entrou em uma nova fase, e muitos métodos foram propostos com base nos componentes do AlphaFold2. A importância de uma estrutura de pesquisa unificada no dobramento de proteínas inclui implementações e benchmarks para comparar de forma consistente e justa diversas abordagens. Para alcançar isso, apresentamos o Solvent, uma estrutura de dobramento de proteínas que suporta componentes significativos dos modelos state-of-the-art na forma de uma interface pronta para uso. O Solvent contém diferentes modelos implementados em uma base de código unificada e suporta o treinamento e a avaliação dos modelos definidos no mesmo conjunto de dados. Nós avaliamos algoritmos conhecidos e seus componentes e fornecemos experimentos que oferecem insights úteis para o campo de modelagem de estruturas proteicas. Esperamos que o Solvent aumente a confiabilidade e a consistência dos modelos propostos e traga eficiência tanto em velocidade quanto em custos, resultando em uma aceleração na pesquisa de modelagem de dobramento de proteínas. O código está disponível em https://github.com/kakaobrain/solvent, e o projeto continuará a ser desenvolvido.
Instituições internacionais podem desempenhar um papel importante na garantia de que sistemas avançados de IA beneficiem a humanidade. Colaborações internacionais podem desbloquear a capacidade da IA de promover o desenvolvimento sustentável, e a coordenação de esforços regulatórios pode reduzir obstáculos à inovação e à disseminação de benefícios. Por outro lado, as capacidades potencialmente perigosas de sistemas de IA poderosos e de propósito geral criam externalidades globais em seu desenvolvimento e implantação, e esforços internacionais para promover práticas responsáveis de IA podem ajudar a gerenciar os riscos que eles representam. Este artigo identifica um conjunto de funções de governança que poderiam ser realizadas em nível internacional para enfrentar esses desafios, variando desde o apoio ao acesso a sistemas de IA de fronteira até a definição de padrões internacionais de segurança. Essas funções são agrupadas em quatro modelos institucionais que exibem sinergias internas e têm precedentes em organizações existentes: 1) uma Comissão sobre IA de Fronteira que facilita o consenso de especialistas sobre oportunidades e riscos da IA avançada, 2) uma Organização de Governança de IA Avançada que estabelece padrões internacionais para gerenciar ameaças globais de modelos avançados, apoia sua implementação e possivelmente monitora a conformidade com um futuro regime de governança, 3) uma Colaborativa de IA de Fronteira que promove o acesso à IA de ponta, e 4) um Projeto de Segurança de IA que reúne pesquisadores e engenheiros líderes para avançar a pesquisa em segurança de IA. Exploramos a utilidade desses modelos e identificamos questões em aberto sobre sua viabilidade.
A ditação por voz é uma modalidade de entrada de texto cada vez mais importante. Os sistemas existentes que permitem tanto a ditação quanto a edição por voz restringem sua linguagem de comando a modelos planos acionados por palavras-chave. Neste trabalho, estudamos a viabilidade de permitir que os usuários interrompam sua ditação com comandos de edição falados em linguagem natural aberta. Introduzimos uma nova tarefa e conjunto de dados, TERTiUS, para experimentar com tais sistemas. Para suportar essa flexibilidade em tempo real, um sistema deve segmentar e classificar incrementalmente trechos de fala como ditação ou comando, e interpretar os trechos que são comandos. Experimentamos com o uso de grandes modelos de linguagem pré-treinados para prever o texto editado ou, alternativamente, para prever um pequeno programa de edição de texto. Os experimentos mostram uma troca natural entre a precisão do modelo e a latência: um modelo menor alcança 30% de precisão no estado final com 1,3 segundos de latência, enquanto um modelo maior alcança 55% de precisão no estado final com 7 segundos de latência.
Propomos um sistema para reorganizar objetos em uma cena a fim de alcançar uma relação desejada de posicionamento objeto-cena, como um livro inserido em uma abertura de uma estante. O pipeline generaliza para geometrias, poses e layouts novos de cenas e objetos, e é treinado a partir de demonstrações para operar diretamente em nuvens de pontos 3D. Nosso sistema supera os desafios associados à existência de muitas soluções geometricamente semelhantes para reorganização em uma determinada cena. Ao aproveitar um procedimento de treinamento iterativo de remoção de ruído de pose, conseguimos ajustar dados de demonstração multimodais e produzir saídas multimodais, mantendo precisão e exatidão. Também mostramos as vantagens de condicionar em características geométricas locais relevantes, ignorando a estrutura global irrelevante que prejudica tanto a generalização quanto a precisão. Demonstramos nossa abordagem em três tarefas distintas de reorganização que exigem o tratamento de multimodalidade e generalização sobre a forma e a pose de objetos, tanto em simulação quanto no mundo real. Site do projeto, código e vídeos: https://anthonysimeonov.github.io/rpdiff-multi-modal/
A teleoperação baseada em visão oferece a possibilidade de dotar robôs com inteligência de nível humano para interagir fisicamente com o ambiente, exigindo apenas sensores de câmera de baixo custo. No entanto, os sistemas atuais de teleoperação baseada em visão são projetados e desenvolvidos para um modelo específico de robô e ambiente de implantação, o que não escala bem à medida que o conjunto de modelos de robôs se expande e a variedade do ambiente operacional aumenta. Neste artigo, propomos o AnyTeleop, um sistema de teleoperação unificado e geral para suportar múltiplos braços, mãos, realidades e configurações de câmera dentro de um único sistema. Embora projetado para oferecer grande flexibilidade na escolha de simuladores e hardware real, nosso sistema ainda pode alcançar um desempenho excelente. Para experimentos no mundo real, o AnyTeleop pode superar um sistema anterior projetado para um hardware específico de robô com uma taxa de sucesso maior, utilizando o mesmo robô. Para teleoperação em simulação, o AnyTeleop resulta em um melhor desempenho de aprendizado por imitação, comparado com um sistema anterior projetado especificamente para aquele simulador. Página do projeto: http://anyteleop.com/.