Artigos de pesquisa em IA selecionados diariamente com traduções
Os atuais modelos de linguagem de contexto longo (LLMs) podem processar entradas de até 100.000 tokens, no entanto, têm dificuldade em gerar saídas que excedam até mesmo um comprimento modesto de 2.000 palavras. Através de experimentos controlados, descobrimos que o comprimento efetivo de geração do modelo é inerentemente limitado pela amostra que ele viu durante o ajuste fino supervisionado (SFT). Em outras palavras, a limitação de sua saída se deve à escassez de exemplos de saída longos nos conjuntos de dados de SFT existentes. Para lidar com isso, introduzimos o AgentWrite, um pipeline baseado em agentes que decompõe tarefas de geração ultra longas em subtarefas, permitindo que os LLMs prontos para uso gerem saídas coerentes que excedem 20.000 palavras. Aproveitando o AgentWrite, construímos o LongWriter-6k, um conjunto de dados contendo 6.000 dados de SFT com comprimentos de saída variando de 2k a 32k palavras. Ao incorporar este conjunto de dados no treinamento do modelo, escalamos com sucesso o comprimento de saída dos modelos existentes para mais de 10.000 palavras, mantendo a qualidade da saída. Também desenvolvemos o LongBench-Write, um benchmark abrangente para avaliar as capacidades de geração ultra longas. Nosso modelo de 9 bilhões de parâmetros, ainda melhorado através de DPO, alcança um desempenho de ponta neste benchmark, superando até mesmo modelos proprietários muito maiores. Em geral, nosso trabalho demonstra que os LLMs de contexto longo existentes já possuem o potencial para uma janela de saída maior - tudo o que você precisa é de dados com saída estendida durante o alinhamento do modelo para desbloquear essa capacidade. Nosso código e modelos estão em: https://github.com/THUDM/LongWriter.
Apresentamos o Imagen 3, um modelo de difusão latente que gera imagens de alta qualidade a partir de instruções de texto. Descrevemos nossas avaliações de qualidade e responsabilidade. O Imagen 3 é preferido em relação a outros modelos de última geração no momento da avaliação. Além disso, discutimos questões relacionadas à segurança e representação, bem como os métodos que utilizamos para minimizar o potencial de danos de nossos modelos.
Os agentes de modelos de linguagem grandes (LLM) têm mostrado grande potencial na resolução de problemas de engenharia de software (SWE) do mundo real. O agente SWE de código aberto mais avançado pode resolver mais de 27% dos problemas reais do GitHub no SWE-Bench Lite. No entanto, esses sofisticados frameworks de agentes apresentam diferentes pontos fortes, destacando-se em certas tarefas enquanto têm desempenho inferior em outras. Para aproveitar plenamente a diversidade desses agentes, propomos o DEI (Diversidade Potencializada pela Inteligência), um framework que alavanca a experiência única deles. O DEI funciona como um meta-módulo sobre os frameworks de agentes SWE existentes, gerenciando coletivos de agentes para aprimoramento na resolução de problemas. Resultados experimentais mostram que um comitê de agentes guiado pelo DEI é capaz de superar significativamente o desempenho do melhor agente individual. Por exemplo, um grupo de agentes SWE de código aberto, com uma taxa máxima de resolução individual de 27,3% no SWE-Bench Lite, pode alcançar uma taxa de resolução de 34,3% com o DEI, representando uma melhoria de 25% e superando a maioria das soluções de código fechado. Nosso grupo com melhor desempenho se destaca com uma taxa de resolução de 55%, garantindo a classificação mais alta no SWE-Bench Lite. Nossas descobertas contribuem para o crescente corpo de pesquisas sobre sistemas de IA colaborativos e seu potencial para resolver desafios complexos de engenharia de software.
O rápido crescimento da literatura científica impõe desafios significativos para pesquisadores que buscam se manter atualizados com os avanços mais recentes em suas áreas e explorar novos campos. Apresentamos o OpenResearcher, uma plataforma inovadora que utiliza técnicas de Inteligência Artificial (IA) para acelerar o processo de pesquisa ao responder a diversas perguntas de pesquisadores. O OpenResearcher é construído com base no Modelo de Geração com Recuperação (RAG) para integrar Modelos de Linguagem de Grande Escala (LLMs) com conhecimento atualizado e específico do domínio. Além disso, desenvolvemos várias ferramentas para o OpenResearcher compreender as consultas dos pesquisadores, buscar na literatura científica, filtrar as informações recuperadas, fornecer respostas precisas e abrangentes, e aprimorar essas respostas automaticamente. O OpenResearcher pode usar essas ferramentas de forma flexível para equilibrar eficiência e eficácia. Como resultado, o OpenResearcher permite que os pesquisadores economizem tempo e aumentem seu potencial para descobrir novos insights e impulsionar avanços científicos. Demonstração, vídeo e código estão disponíveis em: https://github.com/GAIR-NLP/OpenResearcher.
A escalabilidade de grandes modelos de linguagem (LLMs) revolucionou suas capacidades em várias tarefas, no entanto, esse crescimento deve ser acompanhado por estratégias computacionais eficientes. A arquitetura Mixture-of-Experts (MoE) destaca-se por sua capacidade de aumentar o tamanho do modelo sem aumentar significativamente os custos de treinamento. Apesar de suas vantagens, os modelos MoE atuais frequentemente exibem ineficiência de parâmetros. Por exemplo, um LLM baseado em MoE pré-treinado com 52 bilhões de parâmetros pode ter desempenho comparável a um modelo padrão com 6,7 bilhões de parâmetros. Sendo uma parte crucial do MoE, os roteadores atuais em diferentes camadas atribuem tokens de forma independente sem aproveitar informações de roteamento histórico, potencialmente resultando em combinações subótimas de token-especialista e no problema de ineficiência de parâmetros. Para mitigar esse problema, introduzimos o Roteador Recorrente Camada a Camada para Mixture-of-Experts (RMoE). O RMoE utiliza uma Unidade Recorrente com Portas (GRU) para estabelecer dependências entre decisões de roteamento em camadas consecutivas. Essa recorrência camada a camada pode ser calculada de forma eficiente e paralela para tokens de entrada e introduz custos negociáveis. Nossas extensas avaliações empíricas demonstram que os modelos de linguagem baseados em RMoE superam consistentemente uma variedade de modelos de referência. Além disso, o RMoE integra uma etapa de computação inovadora, ortogonal aos métodos existentes, permitindo compatibilidade perfeita com outras arquiteturas MoE. Nossas análises atribuem os ganhos do RMoE ao seu eficaz compartilhamento de informações entre camadas, o que também melhora a seleção e diversidade de especialistas. Nosso código está em https://github.com/qiuzh20/RMoE
O desenvolvimento de grandes modelos de linguagem leva à formação de um paradigma de pré-treino e ajuste, no qual o modelo é tipicamente pré-treinado em um grande corpus de texto e passa por uma etapa de ajuste para alinhar o modelo com a preferência humana ou tarefas subsequentes. Neste trabalho, investigamos a relação entre pré-treinamento e ajuste fino ajustando múltiplos pontos de verificação de modelos pré-treinados intermediários. Nossos resultados em 18 conjuntos de dados sugerem que i) o pré-treinamento contínuo melhora o modelo de uma forma latente que se revela após o ajuste fino; ii) com ajuste fino adicional, os conjuntos de dados nos quais o modelo não demonstra capacidade ganham muito mais do que aqueles nos quais o modelo se sai bem durante a etapa de pré-treinamento; iii) embora o modelo se beneficie significativamente por meio de ajuste fino supervisionado, ele pode esquecer conhecimentos de domínio previamente adquiridos e as tarefas que não são vistas durante o ajuste fino; iv) o modelo se assemelha a uma alta sensibilidade a prompts de avaliação após o ajuste fino supervisionado, mas essa sensibilidade pode ser aliviada por mais pré-treinamento.
A capacidade de destilar abstrações centradas em objetos a partir de cenas visuais intricadas fundamenta a generalização em nível humano. Apesar do progresso significativo em métodos de aprendizado centrados em objetos, aprender representações centradas em objetos no mundo físico 3D continua sendo um desafio crucial. Neste trabalho, propomos o SlotLifter, um novo modelo de radiância centrado em objetos que aborda a reconstrução e decomposição de cenas de forma conjunta por meio do levantamento de características guiado por slots. Tal projeto une representações de aprendizado centradas em objetos e métodos de renderização baseados em imagens, oferecendo desempenho de ponta na decomposição de cenas e síntese de novas visualizações em quatro conjuntos de dados sintéticos desafiadores e quatro conjuntos de dados do mundo real complexos, superando significativamente os métodos existentes de aprendizado centrado em objetos 3D. Através de estudos ablativos extensivos, demonstramos a eficácia dos projetos no SlotLifter, revelando insights importantes para direções futuras potenciais.
Inspirados pelo destaque de Geoffrey Hinton na modelagem generativa, "Para reconhecer formas, primeiro aprenda a gerá-las", exploramos o uso de modelos de difusão 3D para classificação de objetos. Aproveitando as estimativas de densidade desses modelos, nossa abordagem, o Classificador de Difusão para Objetos 3D (DC3DO), possibilita a classificação de formas 3D sem treinamento adicional. Em média, nosso método alcança uma melhoria de 12,5 por cento em comparação com seus equivalentes de múltiplas visualizações, demonstrando um raciocínio multimodal superior em relação às abordagens discriminativas. O DC3DO emprega um modelo de difusão condicional à classe treinado no ShapeNet, e realizamos inferências em nuvens de pontos de cadeiras e carros. Este trabalho destaca o potencial de modelos generativos na classificação de objetos 3D.
UniT é uma abordagem inovadora para aprendizado de representação tátil, utilizando VQVAE para aprender um espaço latente compacto e servir como a representação tátil. Ele utiliza imagens táteis obtidas de um único objeto simples para treinar a representação com transferibilidade e generalização. Essa representação tátil pode ser transferida de forma zero-shot para várias tarefas subsequentes, incluindo tarefas de percepção e aprendizado de políticas de manipulação. Nossa avaliação em uma tarefa de estimativa de pose 3D em mãos mostra que o UniT supera os métodos existentes de aprendizado de representação visual e tátil. Além disso, a eficácia do UniT no aprendizado de políticas é demonstrada em três tarefas do mundo real envolvendo objetos manipulados diversos e interações complexas entre robôs, objetos e ambientes. Através de experimentação extensiva, o UniT é mostrado como um método simples de treinar, pronto para uso, porém amplamente eficaz para aprendizado de representação tátil. Para mais detalhes, consulte nosso repositório de código aberto em https://github.com/ZhengtongXu/UniT e o site do projeto em https://zhengtongxu.github.io/unifiedtactile.github.io/.
Grandes modelos de linguagem (LLMs) têm demonstrado habilidades em uma ampla gama de tarefas. No entanto, muitos LLMs apresentam discrepâncias significativas de desempenho entre idiomas de alta e baixa recursos. Para mitigar esse desafio, apresentamos o FuxiTranyu, um LLM multilíngue de código aberto, projetado para atender à necessidade da comunidade de pesquisa por capacidades multilíngues equilibradas e de alto desempenho. O modelo base FuxiTranyu-8B, com 8 bilhões de parâmetros, é treinado do zero em um repositório de dados multilíngue meticulosamente equilibrado, contendo 600 bilhões de tokens abrangendo 43 idiomas naturais e 16 idiomas de programação. Além do modelo base, também desenvolvemos dois modelos ajustados por instrução: o FuxiTranyu-8B-SFT, ajustado finamente em um conjunto de dados de instruções multilíngues diversificado, e o FuxiTranyu-8B-DPO, refinado ainda mais com DPO em um conjunto de dados de preferências para melhorar a capacidade de alinhamento. Experimentos extensos em uma ampla gama de benchmarks multilíngues demonstram o desempenho competitivo do FuxiTranyu em comparação com LLMs multilíngues existentes, como BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B e Mistral-7B-Instruct. Análises de interpretabilidade tanto no nível de neurônio quanto de representação sugerem que o FuxiTranyu é capaz de aprender representações multilíngues consistentes entre diferentes idiomas. Para promover pesquisas adicionais em LLMs multilíngues e seus mecanismos de funcionamento, disponibilizamos os modelos base e ajustados por instrução do FuxiTranyu, juntamente com 58 pontos de verificação de pré-treinamento, no HuggingFace e no Github.
A sumarização de roteiros de filmes é desafiadora, pois requer compreensão de contextos de entrada longos e vários elementos únicos dos filmes. Modelos de linguagem grandes têm demonstrado avanços significativos na sumarização de documentos, mas frequentemente enfrentam dificuldades ao processar contextos de entrada longos. Além disso, enquanto transcrições de televisão têm recebido atenção em estudos recentes, a sumarização de roteiros de filmes permanece pouco explorada. Para estimular a pesquisa nessa área, apresentamos um novo conjunto de dados, MovieSum, para sumarização abstrativa de roteiros de filmes. Este conjunto de dados é composto por 2200 roteiros de filmes acompanhados por seus resumos de enredo da Wikipedia. Formatamos manualmente os roteiros de filmes para representar seus elementos estruturais. Em comparação com conjuntos de dados existentes, o MovieSum possui várias características distintas: (1) Inclui roteiros de filmes, que são mais longos do que os scripts de episódios de TV. (2) É duas vezes maior do que conjuntos de dados anteriores de roteiros de filmes. (3) Fornece metadados com IDs do IMDb para facilitar o acesso a conhecimento externo adicional. Também apresentamos os resultados de modelos de linguagem grandes recentemente lançados aplicados à sumarização em nosso conjunto de dados para fornecer uma linha de base detalhada.
Os LLMs pré-treinados têm demonstrado capacidades substanciais em uma variedade de tarefas convencionais de processamento de linguagem natural (PLN), como sumarização e reconhecimento de entidades. Neste artigo, exploramos a aplicação dos LLMs na geração de sequências de proteínas de alta qualidade. Especificamente, adotamos um conjunto de LLMs pré-treinados, incluindo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 e gemma-7B4, para produzir sequências de proteínas válidas. Todos esses modelos estão disponíveis publicamente. Ao contrário de trabalhos anteriores nesse campo, nossa abordagem utiliza um conjunto de dados relativamente pequeno composto por 42.000 sequências de proteínas humanas distintas. Retreinamos esses modelos para processar dados relacionados a proteínas, garantindo a geração de estruturas de proteínas biologicamente viáveis. Nossos resultados demonstram que mesmo com dados limitados, os modelos adaptados exibem eficiência comparável a modelos estabelecidos focados em proteínas, como as variedades ProGen, ProtGPT2 e ProLLaMA, que foram treinados em milhões de sequências de proteínas. Para validar e quantificar o desempenho de nossos modelos, realizamos análises comparativas empregando métricas padrão como pLDDT, RMSD, TM-score e REU. Além disso, comprometemo-nos a disponibilizar publicamente as versões treinadas de todos os quatro modelos, promovendo maior transparência e colaboração no campo da biologia computacional.
Tanto para humanos quanto para robôs, o sentido do tato, conhecido como sensor tátil, é fundamental para realizar tarefas de manipulação ricas em contato. Três desafios-chave em sensores táteis robóticos são 1) interpretar os sinais dos sensores, 2) gerar sinais dos sensores em cenários novos e 3) aprender políticas baseadas em sensores. Para os sensores visuotáteis, a interpretação tem sido facilitada pela sua estreita relação com os sensores visuais (por exemplo, câmeras RGB). No entanto, a geração ainda é difícil, pois os sensores visuotáteis geralmente envolvem contato, deformação, iluminação e imagem, todos os quais são caros de simular; por sua vez, a aprendizagem de políticas tem sido desafiadora, pois a simulação não pode ser aproveitada para a coleta de dados em larga escala. Apresentamos TacSL (taxel), uma biblioteca para simulação e aprendizagem de sensores visuotáteis baseados em GPU. TacSL pode ser usado para simular imagens visuotáteis e extrair distribuições de força de contato mais de 200 vezes mais rápido do que o estado-da-arte anterior, tudo dentro do simulador amplamente utilizado Isaac Gym. Além disso, TacSL fornece um kit de ferramentas de aprendizagem contendo vários modelos de sensores, ambientes de treinamento intensivos em contato e algoritmos online/offline que podem facilitar a aprendizagem de políticas para aplicações de simulação para o mundo real. No lado algorítmico, introduzimos um novo algoritmo de aprendizagem por reforço online chamado distilação assimétrica ator-crítico (DACD), projetado para aprender políticas baseadas em tato de forma eficaz e eficiente na simulação que podem ser transferidas para o mundo real. Finalmente, demonstramos a utilidade de nossa biblioteca e algoritmos avaliando os benefícios da distilação e da detecção multimodal para tarefas de manipulação ricas em contato e, mais criticamente, realizando a transferência da simulação para o mundo real. Vídeos e resultados complementares estão em https://iakinola23.github.io/tacsl/.
Os modelos de geração de texto para imagem baseados em difusão avançaram significativamente o campo de síntese de conteúdo artístico. No entanto, os métodos atuais de estilização de retratos geralmente exigem ajustes finos no modelo com base em exemplos ou o uso da Inversão DDIM para reverter imagens para o espaço de ruído, ambos os quais desaceleram substancialmente o processo de geração de imagens. Para superar essas limitações, este artigo apresenta um framework de estilização de retrato sem inversão baseado em modelos de difusão que realiza a fusão de características de conteúdo e estilo em meramente quatro etapas de amostragem. Observamos que os Modelos de Consistência Latente que empregam destilação de consistência podem extrair efetivamente Características de Consistência representativas de imagens ruidosas. Para mesclar as Características de Consistência extraídas de imagens de conteúdo e estilo, introduzimos uma técnica de Controle de Atenção de Aprimoramento de Estilo que mescla meticulosamente características de conteúdo e estilo dentro do espaço de atenção da imagem alvo. Além disso, propomos uma estratégia de fusão de características para amalgamar características redundantes em Características de Consistência, reduzindo assim a carga computacional do controle de atenção. Experimentos extensivos validaram a eficácia de nosso framework proposto na melhoria da eficiência e fidelidade da estilização. O código está disponível em https://github.com/liujin112/ZePo.
Um sistema geral de anonimização de locutor baseado em desemaranhamento normalmente separa a fala em conteúdo, locutor e características de prosódia usando codificadores individuais. Este artigo explora como adaptar tal sistema quando um novo atributo da fala, por exemplo, emoção, precisa ser preservado em maior grau. Enquanto os sistemas existentes são bons em anonimizar as incrustações do locutor, eles não são projetados para preservar a emoção. Duas estratégias para isso são examinadas. Primeiramente, demonstramos que a integração de incrustações emocionais de um codificador de emoção pré-treinado pode ajudar a preservar pistas emocionais, embora essa abordagem comprometa ligeiramente a proteção da privacidade. Alternativamente, propomos uma estratégia de compensação emocional como um passo de pós-processamento aplicado às incrustações de locutor anonimizadas. Isso oculta a identidade do locutor original e reintroduz os traços emocionais perdidos durante a anonimização da incrustação do locutor. Especificamente, modelamos o atributo de emoção usando máquinas de vetores de suporte para aprender limites separados para cada emoção. Durante a inferência, a incrustação do locutor original é processada de duas maneiras: uma, por um indicador de emoção para prever a emoção e selecionar com precisão o SVM correspondente à emoção; e duas, por um anonimizador de locutor para ocultar as características do locutor. A incrustação de locutor anonimizada é então modificada ao longo do limite SVM correspondente em direção aprimorada emocional para preservar as pistas emocionais. As estratégias propostas também são esperadas para serem úteis para adaptar um sistema geral de anonimização de locutor baseado em desemaranhamento para preservar outros atributos paralinguísticos-alvo, com potencial para uma variedade de tarefas subsequentes.