Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o Adam-mini, um otimizador que alcança desempenho equivalente ou superior ao AdamW com 45% a 50% menos uso de memória. O Adam-mini reduz a memória ao diminuir os recursos da taxa de aprendizado no Adam (ou seja, 1/v). Descobrimos que mais de 90% dessas taxas de aprendizado em v poderiam ser removidas sem prejuízo se (1) particionarmos cuidadosamente os parâmetros em blocos seguindo nosso princípio proposto na estrutura Hessiana; (2) atribuirmos uma única, porém boa, taxa de aprendizado a cada bloco de parâmetros. Além disso, descobrimos que, para cada um desses blocos de parâmetros, existe uma única taxa de aprendizado de alta qualidade que pode superar o Adam, desde que recursos suficientes estejam disponíveis para encontrá-la. Em seguida, apresentamos uma maneira econômica de encontrar boas taxas de aprendizado e propomos o Adam-mini. Empiricamente, verificamos que o Adam-mini tem desempenho equivalente ou superior ao AdamW em vários modelos de linguagem com tamanhos de 125M a 7B para pré-treinamento, ajuste fino supervisionado e RLHF. O menor uso de memória do Adam-mini também reduz as sobrecargas de comunicação entre GPUs e CPUs, aumentando assim a taxa de transferência. Por exemplo, o Adam-mini alcança uma taxa de transferência 49,6% maior do que o AdamW ao pré-treinar o Llama2-7B em 2 vezes A800-80GB GPUs, o que economiza 33% do tempo de relógio para o pré-treinamento.
Agentes de IA tornaram-se cada vez mais significativos em vários domínios, possibilitando a tomada de decisões autônoma e a resolução de problemas. Para funcionarem de forma eficaz, esses agentes necessitam de um processo de planejamento que determine o melhor curso de ação e, em seguida, execute as ações planejadas. Neste artigo, apresentamos um eficiente framework Planejador-Ação embarcado que separa o planejamento e a execução de ações em dois componentes distintos: um agente planejador baseado no Phi-3 Mini, um LLM de 3,8 bilhões de parâmetros otimizado para dispositivos de borda, e um agente de ação utilizando o modelo Octopus para execução de funções. O agente planejador responde inicialmente às consultas do usuário decompondo tarefas em uma sequência de subpassos, os quais são então executados pelo agente de ação. Para otimizar o desempenho em dispositivos com recursos limitados, empregamos o ajuste fino do modelo em vez de aprendizado em contexto, reduzindo custos computacionais e consumo de energia, ao mesmo tempo que melhoramos os tempos de resposta. Nossa abordagem envolve o uso do GPT-4 para gerar consultas e respostas de planejamento diversas com base em funções disponíveis, com validações subsequentes para garantir a qualidade dos dados. Ajustamos finamente o modelo Phi-3 Mini neste conjunto de dados curado, alcançando uma taxa de sucesso de 97\% em nosso ambiente de teste de domínio. Para lidar com desafios de planejamento multidominial, desenvolvemos um método de treinamento multi-LoRA que mescla pesos de LoRAs treinadas em subconjuntos de funções distintas. Essa abordagem possibilita o manuseio flexível de consultas complexas e multidomínio, mantendo a eficiência computacional em dispositivos com recursos limitados. Para apoiar pesquisas adicionais, disponibilizamos os pesos do nosso modelo em código aberto em https://huggingface.co/NexaAIDev/octopus-planning. Para a demonstração, consulte https://www.nexa4ai.com/octo-planner.
A compreensão de gráficos desempenha um papel fundamental ao aplicar Modelos de Linguagem Multimodal de Grande Escala (MLLMs) em tarefas do mundo real, como analisar artigos científicos ou relatórios financeiros. No entanto, os conjuntos de dados existentes frequentemente se concentram em gráficos simplificados e homogêneos com perguntas baseadas em modelos, levando a uma medida excessivamente otimista de progresso. Demonstramos que, embora os modelos de código aberto possam parecer superar modelos proprietários fortes nessas referências, um simples teste de estresse com gráficos ou perguntas ligeiramente diferentes pode deteriorar o desempenho em até 34,5%. Neste trabalho, propomos CharXiv, um conjunto abrangente de avaliação que envolve 2.323 gráficos naturais, desafiadores e diversos de artigos do arXiv. CharXiv inclui dois tipos de perguntas: 1) perguntas descritivas sobre a análise dos elementos básicos do gráfico e 2) perguntas de raciocínio que exigem a síntese de informações através de elementos visuais complexos no gráfico. Para garantir qualidade, todos os gráficos e perguntas são selecionados, organizados e verificados por especialistas humanos. Nossos resultados revelam uma lacuna substancial, anteriormente subestimada, entre as habilidades de raciocínio do modelo proprietário mais forte (ou seja, GPT-4o), que alcança 47,1% de precisão, e o modelo de código aberto mais forte (ou seja, InternVL Chat V1.5), que alcança 29,2%. Todos os modelos ficam muito aquém do desempenho humano de 80,5%, destacando as fraquezas nas capacidades de compreensão de gráficos dos MLLMs existentes. Esperamos que o CharXiv facilite pesquisas futuras sobre a compreensão de gráficos por MLLMs, fornecendo uma medida de progresso mais realista e fiel. Página do projeto e classificação: https://charxiv.github.io/
Propomos um novo benchmark de geração de texto para vídeo (T2V), ChronoMagic-Bench, para avaliar as capacidades temporais e metamórficas dos modelos T2V (por exemplo, Sora e Lumiere) na geração de vídeos em lapso de tempo. Em contraste com benchmarks existentes que se concentram na qualidade visual e relevância textual dos vídeos gerados, o ChronoMagic-Bench foca na capacidade do modelo de gerar vídeos em lapso de tempo com uma amplitude metamórfica significativa e coerência temporal. O benchmark investiga os modelos T2V por suas capacidades em física, biologia e química, em uma consulta de texto livre. Para esses propósitos, o ChronoMagic-Bench introduz 1.649 estímulos e vídeos do mundo real como referências, categorizados em quatro tipos principais de vídeos em lapso de tempo: biológicos, criados pelo ser humano, meteorológicos e fenômenos físicos, que são ainda divididos em 75 subcategorias. Essa categorização avalia de forma abrangente a capacidade do modelo de lidar com transformações diversas e complexas. Para alinhar com precisão a preferência humana com o benchmark, introduzimos duas novas métricas automáticas, MTScore e CHScore, para avaliar os atributos metamórficos e a coerência temporal dos vídeos. MTScore mede a amplitude metamórfica, refletindo o grau de mudança ao longo do tempo, enquanto CHScore avalia a coerência temporal, garantindo que os vídeos gerados mantenham progressão lógica e continuidade. Com base no ChronoMagic-Bench, realizamos avaliações manuais abrangentes de dez modelos representativos de T2V, revelando seus pontos fortes e fracos em diferentes categorias de estímulos, e fornecendo um framework de avaliação completo que aborda lacunas atuais na pesquisa de geração de vídeos. Além disso, criamos um conjunto de dados em larga escala, ChronoMagic-Pro, contendo 460 mil pares de vídeos em lapso de tempo de alta qualidade em 720p e legendas detalhadas garantindo alta pertinência física e grande amplitude metamórfica.
A mistura de especialistas (MoE) está ganhando cada vez mais atenção devido às suas propriedades únicas e desempenho notável, especialmente em tarefas de linguagem. Ao ativar esparsamente um subconjunto de parâmetros para cada token, a arquitetura MoE pode aumentar o tamanho do modelo sem sacrificar a eficiência computacional, alcançando um melhor equilíbrio entre desempenho e custos de treinamento. No entanto, o mecanismo subjacente do MoE ainda carece de exploração adicional, e seu grau de modularização permanece questionável. Neste artigo, fazemos uma tentativa inicial de compreender o funcionamento interno de grandes modelos de linguagem baseados em MoE. Concretamente, estudamos abrangente as características paramétricas e comportamentais de três modelos recentes baseados em MoE e revelamos algumas observações intrigantes, incluindo (1) Neurônios agem como especialistas refinados. (2) O roteador do MoE geralmente seleciona especialistas com normas de saída maiores. (3) A diversidade de especialistas aumenta à medida que a camada aumenta, sendo a última camada uma exceção. Com base nas observações, também fornecemos sugestões para uma ampla gama de praticantes de MoE, como design de roteador e alocação de especialistas. Esperamos que este trabalho possa lançar luz sobre pesquisas futuras sobre o framework MoE e outras arquiteturas modulares. O código está disponível em https://github.com/kamanphoebe/Look-into-MoEs.
Registos Eletrónicos de Saúde (EHRs) são essenciais para armazenar registos médicos abrangentes de pacientes, combinando dados estruturados (por exemplo, medicamentos) com notas clínicas detalhadas (por exemplo, notas de médicos). Estes elementos são fundamentais para a recuperação direta de dados e fornecem insights contextuais profundos sobre o cuidado do paciente. No entanto, frequentemente sofrem de discrepâncias devido a designs de sistemas EHR pouco intuitivos e erros humanos, representando sérios riscos para a segurança do paciente. Para lidar com isso, desenvolvemos o EHRCon, um novo conjunto de dados e tarefa especificamente projetados para garantir a consistência de dados entre tabelas estruturadas e notas não estruturadas nos EHRs. O EHRCon foi elaborado em colaboração com profissionais de saúde usando o conjunto de dados EHR MIMIC-III e inclui anotações manuais de 3.943 entidades em 105 notas clínicas verificadas em relação às entradas da base de dados para consistência. O EHRCon possui duas versões, uma utilizando o esquema original do MIMIC-III e outra utilizando o esquema OMOP CDM, a fim de aumentar sua aplicabilidade e generalizabilidade. Além disso, aproveitando as capacidades de grandes modelos de linguagem, introduzimos o CheckEHR, um novo framework para verificar a consistência entre notas clínicas e tabelas de base de dados. O CheckEHR utiliza um processo de oito etapas e apresenta resultados promissores tanto em cenários de poucas amostras quanto de nenhuma amostra. O código está disponível em https://github.com/dustn1259/EHRCon.
Apresentamos o WildGuard - uma ferramenta de moderação aberta e leve para a segurança do LLM que alcança três objetivos: (1) identificar intenções maliciosas nas solicitações dos usuários, (2) detectar riscos de segurança nas respostas do modelo e (3) determinar a taxa de recusa do modelo. Juntos, o WildGuard atende às crescentes necessidades de moderação automática de segurança e avaliação das interações do LLM, fornecendo uma ferramenta completa com precisão aprimorada e ampla cobertura em 13 categorias de risco. Enquanto ferramentas de moderação abertas existentes, como o Llama-Guard2, se saem razoavelmente bem na classificação de interações de modelo diretas, elas ficam muito atrás de um GPT-4 solicitado, especialmente na identificação de violações adversárias e na avaliação das recusas dos modelos, uma medida-chave para avaliar os comportamentos de segurança nas respostas do modelo. Para enfrentar esses desafios, construímos o WildGuardMix, um conjunto de dados de moderação de segurança multi-tarefa em grande escala e cuidadosamente equilibrado, com 92 mil exemplos rotulados que abrangem solicitações diretas e violações adversárias, combinadas com várias respostas de recusa e conformidade. O WildGuardMix é uma combinação do WildGuardTrain, os dados de treinamento do WildGuard, e do WildGuardTest, um conjunto de testes de moderação anotado por humanos de alta qualidade com 5 mil itens rotulados cobrindo amplos cenários de risco. Através de extensas avaliações no WildGuardTest e em dez benchmarks públicos existentes, mostramos que o WildGuard estabelece desempenho de ponta na moderação de segurança de código aberto em todas as três tarefas em comparação com dez modelos de moderação de código aberto existentes (por exemplo, até 26,4% de melhoria na detecção de recusas). Importante ressaltar que o WildGuard iguala e às vezes supera o desempenho do GPT-4 (por exemplo, até 3,9% de melhoria na identificação de danos na solicitação). O WildGuard atua como um moderador de segurança altamente eficaz em uma interface de LLM, reduzindo a taxa de sucesso de ataques de violação de 79,8% para 2,4%.
A comunidade de IA tem explorado um caminho em direção à inteligência artificial geral (IAG) desenvolvendo "agentes de linguagem", que são complexos e extensos modelos de linguagem (MLs) envolvendo tanto técnicas de estímulo quanto métodos de uso de ferramentas. Embora os agentes de linguagem tenham demonstrado capacidades impressionantes para muitas tarefas do mundo real, uma limitação fundamental da pesquisa atual em agentes de linguagem é que ela é centrada no modelo ou na engenharia. Ou seja, o progresso em estímulos, ferramentas e pipelines de agentes de linguagem requer esforços substanciais de engenharia manual por parte de especialistas humanos, em vez de aprender automaticamente a partir de dados. Acreditamos que a transição de um foco centrado no modelo ou na engenharia para um foco centrado em dados, ou seja, a capacidade dos agentes de linguagem de aprender e evoluir autonomamente em ambientes, é a chave para eles possivelmente alcançarem a IAG. Neste trabalho, apresentamos a aprendizagem simbólica de agentes, um framework sistemático que permite aos agentes de linguagem se otimizarem por conta própria de forma centrada em dados usando otimizadores simbólicos. Especificamente, consideramos agentes como redes simbólicas onde os pesos aprendíveis são definidos por estímulos, ferramentas e a forma como são empilhados. A aprendizagem simbólica de agentes é projetada para otimizar a rede simbólica dentro dos agentes de linguagem imitando dois algoritmos fundamentais na aprendizagem conexionista: retropropagação e descida de gradiente. Em vez de lidar com pesos numéricos, a aprendizagem simbólica de agentes trabalha com simulacros em linguagem natural de pesos, perdas e gradientes. Realizamos experimentos de prova de conceito em benchmarks padrão e tarefas complexas do mundo real e mostramos que a aprendizagem simbólica de agentes permite que os agentes de linguagem se atualizem após serem criados e implantados na natureza, resultando em "agentes autoevolutivos".
O futebol é um esporte globalmente popular com uma vasta audiência, neste artigo, consideramos a construção de um modelo automático de comentários de jogos de futebol para melhorar a experiência de visualização do público. Em geral, fazemos as seguintes contribuições: Primeiro, observando o desalinhamento prevalente entre vídeo e texto em conjuntos de dados existentes, anotamos manualmente os horários de 49 partidas, estabelecendo um benchmark mais robusto para geração de comentários de jogos de futebol, denominado SN-Caption-test-align; Segundo, propomos um pipeline de alinhamento temporal multimodal para corrigir e filtrar automaticamente o conjunto de dados existente em escala, criando um conjunto de dados de comentários de jogos de futebol de maior qualidade para treinamento, denominado MatchTime; Terceiro, com base em nosso conjunto de dados curado, treinamos um modelo de geração de comentários automático, chamado MatchVoice. Experimentos extensivos e estudos de ablação demonstraram a eficácia de nosso pipeline de alinhamento, e o treinamento do modelo nos conjuntos de dados curados alcança desempenho de ponta para geração de comentários, mostrando que um melhor alinhamento pode levar a melhorias significativas de desempenho em tarefas subsequentes.
Os modelos de linguagem de grande escala (LLMs) têm demonstrado impressionantes capacidades de raciocínio, especialmente na resolução de problemas matemáticos textuais. No entanto, os conjuntos de dados de ajuste fino de instruções de imagem de código aberto existentes, contendo um número limitado de pares pergunta-resposta por imagem, não exploram totalmente a informação visual para aprimorar as capacidades de raciocínio matemático multimodal dos Modelos de Linguagem Multimodal de Grande Escala (MLLMs). Para preencher essa lacuna, abordamos a falta de conjuntos de dados matemáticos multimodais diversificados e de alta qualidade, coletando 40 mil imagens de alta qualidade com pares pergunta-resposta de 24 conjuntos de dados existentes e sintetizando 320 mil novos pares, criando o conjunto de dados MathV360K, que aprimora tanto a amplitude quanto a profundidade de questões matemáticas multimodais. Apresentamos o Math-LLaVA, um modelo baseado em LLaVA-1.5 ajustado com o MathV360K. Esta abordagem inovadora melhora significativamente as capacidades de raciocínio matemático multimodal do LLaVA-1.5, alcançando um aumento de 19 pontos e desempenho comparável ao GPT-4V no split de minitest do MathVista. Além disso, o Math-LLaVA demonstra uma generalização aprimorada, mostrando melhorias substanciais no benchmark MMMU. Nossa pesquisa destaca a importância da diversidade e síntese de conjuntos de dados no avanço das habilidades de raciocínio matemático dos MLLMs. O código e os dados estão disponíveis em: https://github.com/HZQ950419/Math-LLaVA.
Políticas neurais profundas foram recentemente implementadas em uma ampla gama de cenários, desde biotecnologia até sistemas financeiros automatizados. No entanto, a utilização de redes neurais profundas para aproximar a função de valor levanta preocupações sobre a estabilidade do limite de decisão, em particular, em relação à sensibilidade da tomada de decisão da política a características indiscerníveis e não robustas devido a variedades neurais profundas altamente não convexas e complexas. Essas preocupações representam um obstáculo para a compreensão do raciocínio feito pelas políticas neurais profundas e suas limitações fundamentais. Portanto, é crucial desenvolver técnicas que visem compreender as sensibilidades nas representações aprendidas das políticas de redes neurais. Para alcançar isso, introduzimos um método fundamentado teoricamente que fornece uma análise sistemática das direções instáveis no limite de decisão da política neural profunda ao longo do tempo e do espaço. Através de experimentos no Ambiente de Aprendizado de Arcade (ALE), demonstramos a eficácia de nossa técnica para identificar direções correlacionadas de instabilidade e para medir como mudanças nas amostras remodelam o conjunto de direções sensíveis no panorama da política neural. Mais importante ainda, demonstramos que técnicas de treinamento robustas de última geração resultam no aprendizado de direções instáveis disjuntas, com oscilações dramaticamente maiores ao longo do tempo, em comparação com o treinamento padrão. Acreditamos que nossos resultados revelam as propriedades fundamentais do processo de decisão feito por políticas de aprendizado por reforço e podem ajudar na construção de políticas neurais profundas confiáveis e robustas.
Apresentamos o WildTeaming, um framework automático de red-teaming de segurança de LLM que minera interações de usuário-chatbot em ambiente real para descobrir 5,7 mil clusters exclusivos de novas táticas de jailbreak, e em seguida compõe múltiplas táticas para exploração sistemática de novos jailbreaks. Em comparação com trabalhos anteriores que realizaram red-teaming por meio de recrutamento de trabalhadores humanos, otimização baseada em gradiente ou revisão iterativa com LLMs, nosso trabalho investiga jailbreaks de usuários de chatbot que não foram especificamente instruídos a violar o sistema. O WildTeaming revela vulnerabilidades previamente não identificadas dos LLMs de fronteira, resultando em até 4,6 vezes mais ataques adversariais diversos e bem-sucedidos em comparação com métodos de jailbreak de ponta. Embora existam muitos conjuntos de dados para avaliação de jailbreak, existem muito poucos conjuntos de dados de código aberto para treinamento de jailbreak, uma vez que os dados de treinamento de segurança foram fechados mesmo quando os pesos do modelo estão abertos. Com o WildTeaming, criamos o WildJailbreak, um conjunto de dados sintéticos de segurança de grande escala de código aberto com 262 mil pares de prompt-resposta de solicitação direta (baunilha) e adversarial (jailbreak complexo). Para mitigar comportamentos de segurança exagerados, o WildJailbreak fornece dois tipos contrastantes de consultas: 1) consultas prejudiciais (baunilha e adversariais) e 2) consultas benignas que se assemelham a consultas prejudiciais em forma, mas não contêm danos. Como o WildJailbreak melhora consideravelmente a qualidade e escala dos recursos de segurança existentes, ele nos permite examinar de forma única os efeitos de escalonamento de dados e a interação das propriedades dos dados e capacidades do modelo durante o treinamento de segurança. Por meio de experimentos extensivos, identificamos as propriedades de treinamento que possibilitam um equilíbrio ideal de comportamentos de segurança: proteção adequada sem recusas excessivas, manipulação eficaz de consultas baunilha e adversariais, e diminuição mínima, se houver, nas capacidades gerais. Todos os componentes do WildJailbreak contribuem para alcançar comportamentos de segurança equilibrados dos modelos.
O recente sucesso dos Grandes Modelos Multimodais Interligados (LMMs) na aprendizagem de poucas amostras sugere que a aprendizagem em contexto (ICL) com muitos exemplos pode ser promissora para aprender novas tarefas. No entanto, essa configuração multimodal ICL de muitas amostras enfrenta um problema crucial: é fundamentalmente limitada pelo comprimento do contexto do modelo definido no pré-treinamento. O problema é especialmente proeminente no domínio multimodal, que processa tanto texto quanto imagens, exigindo tokens adicionais. Isso motiva a necessidade de um método multimodal para comprimir muitas amostras em menos tokens sem ajuste fino. Neste trabalho, habilitamos os LMMs a realizar aprendizagem multimodal de muitas amostras em contexto, aproveitando Vetores de Tarefa Multimodal (MTV) - representações implícitas compactas de exemplos em contexto comprimidos nas camadas de atenção do modelo. Especificamente, primeiro demonstramos a existência de tais MTV nos LMMs e então aproveitamos esses MTV extraídos para habilitar a aprendizagem de muitas amostras em contexto para várias tarefas de visão e linguagem. Nossos experimentos sugerem que os MTV podem escalar em desempenho com o número de amostras comprimidas e generalizar para tarefas semelhantes fora do domínio sem comprimento de contexto adicional para inferência.
O serviço de modelos de linguagem de grande escala (LLM) passou de sistemas sem estado para sistemas com estado, utilizando técnicas como armazenamento de contexto e inferência desagregada. Essas otimizações ampliam a vida útil e o domínio do cache KV, exigindo uma nova abordagem arquitetônica. Apresentamos o MemServe, um sistema unificado que integra otimizações entre solicitações e dentro de solicitações. O MemServe introduz o MemPool, um pool de memória elástico que gerencia memória distribuída e caches KV em instâncias de serviço. Usando APIs do MemPool, o MemServe combina armazenamento de contexto com inferência desagregada pela primeira vez, suportado por um escalonador global que aprimora a reutilização de cache por meio de uma política baseada em árvore de prompts globais e consciente da localidade. Testes mostram que o MemServe melhora significativamente o tempo de conclusão do trabalho e o tempo até a primeira resposta.