Artigos de pesquisa em IA selecionados diariamente com traduções
Este relatório apresenta a série Qwen2, a mais recente adição aos nossos grandes modelos de linguagem e grandes modelos multimodais. Lançamos uma ampla gama de modelos de linguagem fundamentais e ajustados para instrução, abrangendo uma faixa de parâmetros de 0,5 a 72 bilhões, apresentando modelos densos e um modelo Mixture-of-Experts. O Qwen2 supera a maioria dos modelos abertos anteriores, incluindo seu antecessor, o Qwen1.5, e demonstra desempenho competitivo em relação a modelos proprietários em diversos benchmarks de compreensão de linguagem, geração, proficiência multilíngue, codificação, matemática e raciocínio. O modelo principal, Qwen2-72B, apresenta um desempenho notável: 84,2 em MMLU, 37,9 em GPQA, 64,6 em HumanEval, 89,5 em GSM8K e 82,4 em BBH como modelo de linguagem base. A variante ajustada para instrução, Qwen2-72B-Instruct, atinge 9,1 em MT-Bench, 48,1 em Arena-Hard e 35,7 em LiveCodeBench. Além disso, o Qwen2 demonstra robustas capacidades multilíngues, sendo proficiente em aproximadamente 30 idiomas, abrangendo inglês, chinês, espanhol, francês, alemão, árabe, russo, coreano, japonês, tailandês, vietnamita e mais, destacando sua versatilidade e alcance global. Para promover a inovação e acessibilidade da comunidade, disponibilizamos os pesos do modelo Qwen2 abertamente no Hugging Face e ModelScope, e os materiais suplementares, incluindo código de exemplo no GitHub. Essas plataformas também incluem recursos para quantização, ajuste fino e implantação, facilitando uma ampla gama de aplicações e empreendimentos de pesquisa.
Grandes modelos de linguagem (LLMs) exibem capacidades notáveis em compreender e gerar linguagem natural. No entanto, esses modelos podem inadvertidamente memorizar informações privadas, representando riscos significativos à privacidade. Este estudo aborda o desafio de capacitar LLMs para proteger os dados privados de indivíduos específicos sem a necessidade de um retreinamento completo. Propomos \return, um conjunto de dados Real-world pErsonal daTa UnleaRNing, composto por 2.492 indivíduos da Wikipedia com pares de perguntas e respostas associadas, para avaliar métodos de desaprendizado de máquina (MU) para proteger dados pessoais em um cenário realista. Além disso, introduzimos o Framework de Desaprendizado Consciente de Nomes (NAUF) para Proteção de Privacidade, que permite ao modelo aprender quais informações de indivíduos devem ser protegidas sem afetar sua capacidade de responder a perguntas relacionadas a outros indivíduos não relacionados. Nossos experimentos extensivos demonstram que o NAUF alcança uma pontuação média de desaprendizado de última geração, superando o melhor método de referência em 5,65 pontos, protegendo efetivamente os dados pessoais dos indivíduos-alvo mantendo as capacidades gerais do modelo.
Trabalhos recentes têm explorado as leis de escala no campo da IA Corporificada. Dados os custos proibitivos de coletar dados do mundo real, acreditamos que o paradigma Simulação-para-Real (Sim2Real) é um passo crucial para escalar o aprendizado de modelos corporificados. Este artigo apresenta o projeto GRUtopia, a primeira sociedade interativa 3D simulada projetada para vários robôs. Ele apresenta várias inovações: (a) O conjunto de dados de cena, GRScenes, inclui 100 mil cenas interativas finamente anotadas, que podem ser combinadas livremente em ambientes em escala de cidade. Em contraste com trabalhos anteriores que se concentravam principalmente em ambientes domésticos, o GRScenes abrange 89 categorias de cena diversas, preenchendo a lacuna de ambientes orientados a serviços onde robôs gerais seriam inicialmente implantados. (b) GRResidents, um sistema de Personagem Não-Jogador (NPC) impulsionado por um Modelo de Linguagem Grande (LLM) que é responsável pela interação social, geração de tarefas e atribuição de tarefas, simulando assim cenários sociais para aplicações de IA corporificada. (c) O benchmark, GRBench, suporta vários robôs, mas foca em robôs com pernas como agentes principais e propõe tarefas moderadamente desafiadoras envolvendo Navegação de Objetos, Navegação Social e Manipulação de Locomoção. Esperamos que este trabalho possa aliviar a escassez de dados de alta qualidade neste campo e fornecer uma avaliação mais abrangente da pesquisa em IA Corporificada. O projeto está disponível em https://github.com/OpenRobotLab/GRUtopia.
As avaliações atuais de grandes modelos de linguagem (LLMs) frequentemente ignoram o não determinismo, geralmente focando em uma única saída por exemplo. Isso limita nossa compreensão da variabilidade de desempenho dos LLMs em aplicações do mundo real. Nosso estudo aborda essa questão explorando perguntas-chave sobre as diferenças de desempenho entre decodificação gananciosa e amostragem, identificando a consistência dos benchmarks em relação ao não determinismo e examinando comportamentos exclusivos do modelo. Através de experimentos extensivos, observamos que a decodificação gananciosa geralmente supera os métodos de amostragem para a maioria das tarefas avaliadas. Também observamos desempenho consistente em diferentes tamanhos de LLM e métodos de alinhamento, observando que o alinhamento pode reduzir a variância da amostragem. Além disso, nossa abordagem de melhor de N amostragem demonstra que LLMs menores podem igualar ou superar modelos maiores como o GPT-4-Turbo, destacando o potencial inexplorado de LLMs menores. Esta pesquisa mostra a importância de considerar o não determinismo nas avaliações de LLM e fornece insights para o desenvolvimento e avaliação futura de LLMs.
Apresentamos o Q-Sparse, uma abordagem simples, porém eficaz, para treinar modelos de linguagem grandes (LLMs) com ativação esparsa. O Q-Sparse permite total esparsidade de ativações em LLMs, o que pode trazer ganhos significativos de eficiência na inferência. Isso é alcançado aplicando esparsificação top-K às ativações e o estimador straight-through ao treinamento. Os principais resultados deste trabalho são: (1) o Q-Sparse pode alcançar resultados comparáveis aos dos LLMs de referência, sendo muito mais eficiente no tempo de inferência; (2) Apresentamos uma lei de escala ótima para inferência de LLMs com ativação esparsa; (3) O Q-Sparse é eficaz em diferentes configurações, incluindo treinamento do zero, continuação do treinamento de LLMs prontos para uso e ajuste fino; (4) O Q-Sparse funciona tanto para LLMs de precisão total quanto para LLMs de 1 bit (por exemplo, BitNet b1.58). Em particular, a sinergia entre o BitNet b1.58 e o Q-Sparse (que pode ser equipado com MoE) fornece a base e um caminho claro para revolucionar a eficiência, incluindo custo e consumo de energia, dos futuros LLMs.
À medida que os modelos de linguagem de grande escala (LLMs) avançam, torna-se mais desafiador avaliar de forma confiável suas saídas devido aos altos custos da avaliação humana. Para avançar em direção a melhores autorretratadores de LLM, apresentamos o FLAMe, uma família de Modelos Autorretratores de Grande Escala Fundamentais. O FLAMe é treinado em nossa extensa e diversificada coleção de mais de 100 tarefas de avaliação de qualidade, compreendendo mais de 5 milhões de julgamentos humanos, selecionados e padronizados utilizando avaliações humanas publicamente divulgadas de pesquisas anteriores. O FLAMe melhora significativamente a generalização para uma ampla variedade de tarefas não vistas, superando os LLMs treinados em dados proprietários como o GPT-4 e o Claude-3 em muitas tarefas. Mostramos que o FLAMe também pode servir como um ponto de partida poderoso para futuros ajustes finos, utilizando a avaliação de modelagem de recompensa como estudo de caso (FLAMe-RM). Notavelmente, no RewardBench, nosso modelo FLAMe-RM-24B (com uma precisão de 87,8%) é o modelo generativo de melhor desempenho treinado exclusivamente em dados licenciados de forma permissiva, superando tanto o GPT-4-0125 (85,9%) quanto o GPT-4o (84,7%). Além disso, exploramos uma abordagem mais eficiente computacionalmente utilizando uma estratégia de ajuste fino de patch de cauda para otimizar nossa mistura multitarefa FLAMe para avaliação de modelagem de recompensa (FLAMe-Opt-RM), oferecendo desempenho competitivo no RewardBench enquanto requer aproximadamente 25 vezes menos pontos de dados de treinamento. No geral, nossas variantes do FLAMe superam todos os populares modelos proprietários de LLM-como-Juíz que consideramos em 8 de 12 benchmarks de avaliação de autorretratadores, abrangendo 53 tarefas de avaliação de qualidade, incluindo RewardBench e LLM-AggreFact. Por fim, nossa análise revela que o FLAMe é significativamente menos tendencioso do que esses modelos de LLM-como-Juíz no benchmark de viés de autorretratador CoBBLEr, enquanto identifica efetivamente respostas de alta qualidade para geração de código.
Podemos gerar uma política de controle para um agente usando apenas uma demonstração de comportamentos desejados como estímulo, tão facilmente quanto criar uma imagem a partir de uma descrição textual? Neste artigo, apresentamos o Make-An-Agent, um novo gerador de parâmetros de política que aproveita o poder de modelos de difusão condicional para a geração de comportamento para política. Guiado por incrustações de comportamento que codificam informações de trajetória, nosso gerador de política sintetiza representações de parâmetros latentes, que podem então ser decodificados em redes de política. Treinado em checkpoints de redes de política e suas trajetórias correspondentes, nosso modelo de geração demonstra notável versatilidade e escalabilidade em múltiplas tarefas e possui uma forte capacidade de generalização em tarefas não vistas para produzir políticas bem executadas com apenas algumas demonstrações como entradas. Demonstramos sua eficácia e eficiência em vários domínios e tarefas, incluindo objetivos variados, comportamentos e até mesmo em diferentes manipuladores de robôs. Além da simulação, implantamos diretamente políticas geradas pelo Make-An-Agent em robôs do mundo real em tarefas de locomoção.
Embora os modelos de difusão de texto para imagem tenham demonstrado alcançar resultados de ponta na síntese de imagens, ainda não provaram sua eficácia em aplicações subsequentes. Trabalhos anteriores propuseram gerar dados para o treinamento de classificadores de imagem com acesso limitado a dados reais. No entanto, esses métodos têm dificuldade em gerar imagens dentro da distribuição ou em representar características detalhadas, o que prejudica a generalização dos modelos de classificação treinados em conjuntos de dados sintéticos. Propomos o DataDream, um framework para sintetizar conjuntos de dados de classificação que representam de forma mais fiel a distribuição de dados reais quando orientados por exemplos de poucas imagens das classes-alvo. O DataDream ajusta finamente os pesos do LoRA para o modelo de geração de imagens nas poucas imagens reais antes de gerar os dados de treinamento usando o modelo adaptado. Em seguida, ajustamos finamente os pesos do LoRA para o CLIP usando os dados sintéticos para melhorar a classificação de imagens subsequentes em relação a abordagens anteriores em uma grande variedade de conjuntos de dados. Demonstramos a eficácia do DataDream por meio de experimentos extensos, superando a precisão de classificação de ponta com dados de poucas imagens em 7 de 10 conjuntos de dados, enquanto sendo competitivo nos outros 3. Além disso, fornecemos insights sobre o impacto de vários fatores, como o número de imagens reais e geradas, bem como o ajuste fino de cálculos no desempenho do modelo. O código está disponível em https://github.com/ExplainableML/DataDream.
A geração de vídeo para áudio (V2A) aproveita características visuais exclusivas do vídeo para produzir sons plausíveis que correspondam à cena. É crucial que os inícios de som gerados correspondam às ações visuais alinhadas a eles, caso contrário, surgem artefatos de sincronização não naturais. Trabalhos recentes têm explorado a progressão de condicionamento de geradores de som em imagens estáticas e depois em características de vídeo, focando na qualidade e correspondência semântica, enquanto ignoram a sincronização, ou sacrificando um pouco da qualidade para melhorar apenas a sincronização. Neste trabalho, propomos um modelo generativo V2A, chamado MaskVAT, que interconecta um codec de áudio geral de alta qualidade de banda total com um modelo generativo mascarado sequencial. Essa combinação permite modelar simultaneamente alta qualidade de áudio, correspondência semântica e sincronia temporal. Nossos resultados mostram que, ao combinar um codec de alta qualidade com as características audiovisuais pré-treinadas adequadas e uma estrutura paralela sequencial, somos capazes de obter resultados altamente sincronizados, ao mesmo tempo em que competimos com o estado da arte de modelos generativos de áudio não baseados em codec. Vídeos de amostra e áudios gerados estão disponíveis em https://maskvat.github.io.
Apresentamos uma nova família de modelos de previsão de vídeo projetados para suportar tarefas de controle subsequentes. Chamamos esses modelos de modelos de Ocupação de Vídeo (VOCs). Os VOCs operam em um espaço latente compacto, evitando assim a necessidade de fazer previsões sobre pixels individuais. Ao contrário dos modelos de mundo em espaço latente anteriores, os VOCs preveem diretamente a distribuição descontada de estados futuros em um único passo, evitando a necessidade de previsões em múltiplos passos. Mostramos que ambas as propriedades são benéficas ao construir modelos preditivos de vídeo para uso em controle subsequente. O código está disponível em https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.
Os fluxos de trabalho de ciência de dados e engenharia frequentemente abrangem várias etapas, desde o armazenamento até a orquestração, utilizando ferramentas como BigQuery, dbt e Airbyte. À medida que os modelos de linguagem de visão (VLMs) avançam em compreensão multimodal e geração de código, agentes baseados em VLMs poderiam potencialmente automatizar esses fluxos de trabalho, gerando consultas SQL, código Python e operações de GUI. Essa automação pode melhorar a produtividade dos especialistas ao democratizar o acesso à análise de dados em larga escala. Neste artigo, apresentamos o Spider2-V, o primeiro benchmark de agentes multimodais focado em fluxos de trabalho profissionais de ciência de dados e engenharia, apresentando 494 tarefas do mundo real em ambientes computacionais autênticos e incorporando 20 aplicativos profissionais de nível empresarial. Essas tarefas, derivadas de casos de uso do mundo real, avaliam a capacidade de um agente multimodal de realizar tarefas relacionadas a dados escrevendo código e gerenciando a GUI em sistemas de software de dados empresariais. Para equilibrar a simulação realista com a simplicidade da avaliação, dedicamos esforços significativos para desenvolver configurações automáticas para a preparação das tarefas e elaborar meticulosamente métricas de avaliação para cada tarefa. Além disso, complementamos os agentes multimodais com documentos abrangentes desses sistemas de software de dados empresariais. Nossa avaliação empírica revela que os agentes existentes baseados em LLM/VLM de última geração não automatizam de forma confiável fluxos de trabalho completos de dados (14,0% de sucesso). Mesmo com orientação passo a passo, esses agentes ainda têm desempenho inferior em tarefas que exigem ações de GUI detalhadas e intensivas em conhecimento (16,2%) e envolvem espaços de trabalho remotos hospedados na nuvem (10,6%). Esperamos que o Spider2-V abra caminho para agentes multimodais autônomos transformarem a automação de fluxos de trabalho de ciência de dados e engenharia. Nosso código e dados estão disponíveis em https://spider2-v.github.io.
Existe um amplo otimismo de que os Modelos de Linguagem de Grande Escala (LLMs) de fronteira e sistemas aprimorados por LLM têm o potencial de acelerar rapidamente a descoberta científica em diversas disciplinas. Atualmente, existem muitos benchmarks para medir o conhecimento e raciocínio de LLM em questões científicas no estilo de livros didáticos, mas poucos, se houver, são projetados para avaliar o desempenho de modelos de linguagem em tarefas práticas necessárias para a pesquisa científica, como busca de literatura, planejamento de protocolos e análise de dados. Como um passo em direção à construção de tais benchmarks, apresentamos o Benchmark de Biologia do Agente de Linguagem (LAB-Bench), um amplo conjunto de dados com mais de 2.400 perguntas de múltipla escolha para avaliar sistemas de IA em uma variedade de capacidades práticas de pesquisa em biologia, incluindo recordação e raciocínio sobre literatura, interpretação de figuras, acesso e navegação em bancos de dados, e compreensão e manipulação de sequências de DNA e proteínas. Importante ressaltar que, em contraste com benchmarks científicos anteriores, esperamos que um sistema de IA que consiga obter consistentemente altas pontuações nas tarefas mais difíceis do LAB-Bench seja um assistente útil para pesquisadores em áreas como busca de literatura e clonagem molecular. Como uma avaliação inicial das capacidades emergentes de tarefas científicas dos modelos de linguagem de fronteira, medimos o desempenho de vários em relação ao nosso benchmark e relatamos os resultados comparados aos pesquisadores especializados em biologia. Continuaremos a atualizar e expandir o LAB-Bench ao longo do tempo, e esperamos que ele seja uma ferramenta útil no desenvolvimento de sistemas de pesquisa automatizados no futuro. Um subconjunto público do LAB-Bench está disponível para uso no seguinte URL: https://huggingface.co/datasets/futurehouse/lab-bench
A transferência de aprendizado eficiente em parâmetros (PETL) surgiu como um campo de pesquisa próspero para adaptar grandes modelos pré-treinados a tarefas subsequentes, reduzindo consideravelmente os parâmetros treináveis enquanto lidam com desafios de memória durante o ajuste fino. Para abordar isso, séries eficientes em memória (METL) evitam propagar gradientes através do grande espinha dorsal. No entanto, comprometem-se ao depender exclusivamente de saídas intermediárias congeladas e limitar a exploração exaustiva do conhecimento prévio dos modelos pré-treinados. Além disso, a dependência e redundância entre as características entre camadas são frequentemente negligenciadas, afundando representações mais discriminativas e causando uma lacuna de desempenho inerente (em comparação com métodos PETL convencionais). Portanto, propomos uma estratégia METL inovadora chamada SHERL para cenários com recursos limitados, para desvincular toda a adaptação em dois processos sucessivos e complementares. No caminho inicial, as saídas intermediárias são consolidadas por meio de uma operação antirredundância, aprimorando sua compatibilidade para interações subsequentes; assim, no caminho final, o uso de camadas pré-treinadas tardias mínimas poderia aliviar a demanda máxima de sobrecarga de memória e regular essas características bastante flexíveis em representações mais adaptativas e poderosas para novos domínios. Extensas ablações em tarefas de visão e linguagem e apenas linguagem mostram que o SHERL combina os pontos fortes de técnicas eficientes em parâmetros e memória, apresentando desempenho equivalente ou superior em diversas arquiteturas com menor uso de memória durante o ajuste fino. Nosso código está publicamente disponível em: https://github.com/Paranioar/SHERL.
O Efeito de Reforço Mútuo (ERM) representa uma via promissora na pesquisa de extração de informações e multitarefa. No entanto, sua aplicabilidade tem sido limitada devido à disponibilidade exclusiva de conjuntos de dados mistos de ERM em japonês, restringindo assim a exploração abrangente pela comunidade de pesquisa global. Para lidar com essa limitação, apresentamos um conjunto de dados mistos de ERM multilíngue (MMM) que engloba 21 subconjuntos em inglês, japonês e chinês. Neste artigo, também propomos um método para tradução de conjuntos de dados auxiliado por Modelos de Linguagem Grandes (MLGs), o que reduz significativamente o tempo de anotação manual necessário para a construção do conjunto de dados, aproveitando os MLGs para traduzir os conjuntos de dados originais em japonês. Além disso, enriquecemos o conjunto de dados incorporando tarefas de Reconhecimento de Entidades Nomeadas (REN) em domínio aberto e classificação de frases. Utilizando este conjunto de dados expandido, desenvolvemos um framework de entrada-saída unificado para treinar um Modelo de Linguagem Grande de Extração de Informações em Domínio Aberto (MLGEID). O modelo MLGEID demonstra a capacidade de processar efetivamente novos conjuntos de dados MMM, apresentando melhorias significativas no desempenho.
A maioria dos grandes modelos de linguagem (LLMs) atualmente implantados passam por treinamento contínuo ou ajustes adicionais. Em contraste, a maioria das pesquisas sobre os mecanismos internos dos LLMs foca em modelos em um único momento no tempo (o final do pré-treinamento), levantando a questão se seus resultados se generalizam para configurações do mundo real. Estudos existentes sobre mecanismos ao longo do tempo se concentram em modelos apenas com codificadores ou modelos simplificados, que diferem significativamente da maioria dos modelos implantados. Neste estudo, acompanhamos como os mecanismos do modelo, operacionalizados como circuitos, emergem e evoluem ao longo de 300 bilhões de tokens de treinamento em LLMs apenas com decodificadores, em modelos variando de 70 milhões a 2,8 bilhões de parâmetros. Descobrimos que as habilidades da tarefa e os componentes funcionais que as sustentam emergem consistentemente em contagens de tokens semelhantes em diferentes escalas. Além disso, embora esses componentes possam ser implementados por diferentes cabeças de atenção ao longo do tempo, o algoritmo principal que eles implementam permanece. Surpreendentemente, tanto esses algoritmos quanto os tipos de componentes envolvidos podem ser replicados em diferentes escalas de modelo. Esses resultados sugerem que análises de circuitos realizadas em modelos pequenos no final do pré-treinamento podem fornecer insights que ainda se aplicam após treinamento adicional e em diferentes escalas de modelo.
Para melhorar a qualidade de vídeos sintetizados, atualmente, um método predominante envolve o retratamento de um modelo de difusão especialista e, em seguida, a implementação de um processo de adição de ruído e remoção de ruído para refinamento. Apesar dos custos significativos de treinamento, manter a consistência de conteúdo entre os vídeos originais e aprimorados continua sendo um desafio importante. Para enfrentar esse desafio, propomos uma formulação inovadora que considera tanto a qualidade visual quanto a consistência de conteúdo. A consistência de conteúdo é garantida por uma função de perda proposta que mantém a estrutura da entrada, enquanto a qualidade visual é aprimorada ao utilizar o processo de remoção de ruído de modelos de difusão pré-treinados. Para abordar o problema de otimização formulado, desenvolvemos uma estratégia de otimização de ruído plug-and-play, referida como Calibração de Ruído. Ao refinar o ruído aleatório inicial por meio de algumas iterações, o conteúdo do vídeo original pode ser amplamente preservado, e o efeito de aprimoramento demonstra uma melhoria notável. Experimentos extensivos têm demonstrado a eficácia do método proposto.