Artigos de pesquisa em IA selecionados diariamente com traduções
Redes neurais grandes gastam a maior parte da computação em multiplicações de tensores de ponto flutuante. Neste trabalho, descobrimos que um multiplicador de ponto flutuante pode ser aproximado por um somador de inteiros com alta precisão. Propomos o algoritmo de multiplicação de complexidade linear L-Mul que aproxima a multiplicação de números de ponto flutuante com operações de adição de inteiros. O novo algoritmo consome significativamente menos recursos computacionais do que a multiplicação de ponto flutuante de 8 bits, mas alcança maior precisão. Comparado às multiplicações de ponto flutuante de 8 bits, o método proposto alcança maior precisão, mas consome significativamente menos computação em nível de bits. Como a multiplicação de números de ponto flutuante requer substancialmente mais energia em comparação com as operações de adição de inteiros, a aplicação da operação L-Mul no hardware de processamento de tensores pode potencialmente reduzir em 95% o custo energético das multiplicações de tensores de ponto flutuante por elemento e em 80% o custo energético de produtos escalares. Calculamos a expectativa teórica de erro de L-Mul e avaliamos o algoritmo em uma ampla gama de tarefas textuais, visuais e simbólicas, incluindo compreensão de linguagem natural, raciocínio estrutural, matemática e resposta a perguntas de senso comum. Nossos experimentos de análise numérica concordam com a estimativa teórica de erro, o que indica que L-Mul com mantissa de 4 bits alcança precisão comparável às multiplicações float8_e4m3, e L-Mul com mantissa de 3 bits supera o float8_e5m2. Os resultados de avaliação em benchmarks populares mostram que a aplicação direta de L-Mul ao mecanismo de atenção é quase sem perdas. Mostramos ainda que a substituição de todas as multiplicações de ponto flutuante por L-Mul com mantissa de 3 bits em um modelo transformer alcança precisão equivalente ao usar float8_e4m3 como precisão de acumulação tanto em ajuste fino quanto em inferência.
Avanços recentes tanto no aprendizado de representação quanto no aprendizado de funções têm demonstrado um grande potencial em diversos domínios da inteligência artificial. No entanto, a integração eficaz desses paradigmas representa um desafio significativo, especialmente em casos nos quais os usuários precisam decidir manualmente se devem aplicar um modelo de aprendizado de representação ou de aprendizado de funções com base nas características do conjunto de dados. Para lidar com essa questão, apresentamos o MLP-KAN, um método unificado projetado para eliminar a necessidade de seleção manual de modelos. Ao integrar Perceptrons de Múltiplas Camadas (MLPs) para aprendizado de representação e Redes Kolmogorov-Arnold (KANs) para aprendizado de funções dentro de uma arquitetura de Mistura de Especialistas (MoE), o MLP-KAN se adapta dinamicamente às características específicas da tarefa em questão, garantindo desempenho ótimo. Incorporado em um framework baseado em transformers, nosso trabalho alcança resultados notáveis em quatro conjuntos de dados amplamente utilizados em diversos domínios. Uma extensa avaliação experimental demonstra sua versatilidade superior, oferecendo desempenho competitivo em tarefas de aprendizado de representação profunda e de funções. Essas descobertas destacam o potencial do MLP-KAN para simplificar o processo de seleção de modelos, proporcionando uma solução abrangente e adaptável em vários domínios. Nosso código e pesos estão disponíveis em https://github.com/DLYuanGod/MLP-KAN.
A Inteligência Artificial Generativa, particularmente os Modelos de Linguagem (LMs), têm o potencial de transformar domínios do mundo real com impacto social, especialmente onde o acesso a especialistas é limitado. Por exemplo, na educação, treinar educadores novatos com orientação de especialistas é importante para a eficácia, mas caro, criando barreiras significativas para melhorar a qualidade da educação em larga escala. Esse desafio prejudica desproporcionalmente os alunos de comunidades desfavorecidas, que têm mais a ganhar com uma educação de alta qualidade. Apresentamos o Tutor CoPilot, uma abordagem Humano-AI inovadora que aproveita um modelo de pensamento de especialista para fornecer orientação semelhante à de especialistas aos tutores enquanto eles tutoram. Este estudo é o primeiro ensaio controlado randomizado de um sistema Humano-AI em tutoria ao vivo, envolvendo 900 tutores e 1.800 alunos do K-12 de comunidades historicamente desfavorecidas. Seguindo um plano de análise pré-registrado, descobrimos que os alunos que trabalham com tutores que têm acesso ao Tutor CoPilot têm 4 pontos percentuais (p.p.) a mais de probabilidade de dominar os tópicos (p<0.01). Notavelmente, os alunos de tutores com classificação mais baixa experimentaram o maior benefício, melhorando o domínio em 9 p.p. Descobrimos que o Tutor CoPilot custa apenas $20 por tutor anualmente. Analisamos mais de 550.000 mensagens usando classificadores para identificar estratégias pedagógicas e descobrimos que os tutores com acesso ao Tutor CoPilot têm mais probabilidade de usar estratégias de alta qualidade para promover a compreensão dos alunos (por exemplo, fazendo perguntas orientadoras) e menos probabilidade de fornecer a resposta ao aluno. Entrevistas com tutores destacam como a orientação do Tutor CoPilot ajuda os tutores a responder às necessidades dos alunos, embora apontem problemas no Tutor CoPilot, como gerar sugestões que não são apropriadas para o nível de ensino. Em conjunto, nosso estudo do Tutor CoPilot demonstra como os sistemas Humano-AI podem ampliar a expertise em domínios do mundo real, preencher lacunas em habilidades e criar um futuro onde a educação de alta qualidade seja acessível a todos os alunos.
Elementos desnecessários no contexto de atenção degradam o desempenho. Apresentamos a Atenção Seletiva, uma simples alteração sem parâmetros no mecanismo de atenção padrão que reduz a atenção para elementos desnecessários. A Atenção Seletiva melhora o desempenho de modelagem de linguagem em uma variedade de tamanhos de modelo e comprimentos de contexto. Por exemplo, uma gama de transformadores treinados com o objetivo de modelagem de linguagem em C4 com atenção seletiva tem desempenho equivalente aos transformadores padrão com cerca de 2X mais cabeças e parâmetros em seus módulos de atenção. A Atenção Seletiva também permite reduzir o tamanho do buffer de contexto de atenção, resultando em reduções significativas nos requisitos de memória e computação durante a inferência. Por exemplo, transformadores com 100M de parâmetros treinados em C4 com tamanhos de contexto de 512, 1.024 e 2.048 precisam de 16X, 25X e 47X menos memória para seus módulos de atenção, respectivamente, quando equipados com atenção seletiva, em comparação com aqueles sem atenção seletiva, com a mesma perplexidade de validação.
Um bot baseado em Modelo de Linguagem Visual (VLM) nos alertará sobre escorregões se detectar um piso molhado? Modelos visuais recentes têm demonstrado capacidades impressionantes, no entanto, sua habilidade de inferir resultados e causas permanece pouco explorada. Para abordar isso, apresentamos o NL-Eye, um benchmark projetado para avaliar as habilidades visuais de raciocínio abdutivo dos VLMs. O NL-Eye adapta a tarefa abdutiva de Inferência de Linguagem Natural (NLI) para o domínio visual, exigindo que os modelos avaliem a plausibilidade de imagens hipotéticas com base em uma imagem de premissa e expliquem suas decisões. O NL-Eye consiste em 350 exemplos de triplas cuidadosamente selecionados (1.050 imagens) abrangendo diversas categorias de raciocínio: físico, funcional, lógico, emocional, cultural e social. O processo de curadoria de dados envolveu duas etapas - escrever descrições textuais e gerar imagens usando modelos de texto para imagem, ambas exigindo um envolvimento humano substancial para garantir cenas de alta qualidade e desafiadoras. Nossos experimentos mostram que os VLMs enfrentam dificuldades significativas no NL-Eye, frequentemente apresentando desempenho em níveis de linha de base aleatória, enquanto os humanos se destacam tanto na previsão de plausibilidade quanto na qualidade da explicação. Isso demonstra uma deficiência nas capacidades de raciocínio abdutivo dos VLMs modernos. O NL-Eye representa um passo crucial em direção ao desenvolvimento de VLMs capazes de raciocínio multimodal robusto para aplicações do mundo real, incluindo bots de prevenção de acidentes e verificação de vídeos gerados.
Mamba, um caso especial do Modelo de Espaço de Estados, está ganhando popularidade como uma alternativa às abordagens de aprendizado profundo baseadas em modelos em análise de imagens médicas. Enquanto os transformers são arquiteturas poderosas, eles têm desvantagens, incluindo complexidade computacional quadrática e uma incapacidade de lidar eficientemente com dependências de longo alcance. Essa limitação afeta a análise de conjuntos de dados grandes e complexos em imagens médicas, onde existem muitos relacionamentos espaciais e temporais. Por outro lado, o Mamba oferece benefícios que o tornam adequado para análise de imagens médicas. Ele possui complexidade temporal linear, o que representa uma melhoria significativa em relação aos transformers. O Mamba processa sequências mais longas sem mecanismos de atenção, possibilitando inferências mais rápidas e exigindo menos memória. O Mamba também demonstra um desempenho sólido na fusão de dados multimodais, melhorando a precisão do diagnóstico e os resultados dos pacientes. A organização deste artigo permite aos leitores apreciar as capacidades do Mamba na análise de imagens médicas passo a passo. Começamos definindo conceitos fundamentais dos Modelos de Espaço de Estados e modelos, incluindo S4, S5 e S6, seguidos por uma exploração das arquiteturas do Mamba, como Mamba puro, variantes U-Net e modelos híbridos com redes neurais convolucionais, transformers e Redes Neurais Gráficas. Também abordamos otimizações, técnicas e adaptações do Mamba, varreduras, conjuntos de dados, aplicações, resultados experimentais e concluímos com seus desafios e futuras direções em imagens médicas. Esta revisão tem como objetivo demonstrar o potencial transformador do Mamba na superação das barreiras existentes na análise de imagens médicas, abrindo caminho para avanços inovadores no campo. Uma lista abrangente de arquiteturas do Mamba aplicadas no campo médico, revisadas neste trabalho, está disponível no Github.
Os atuais modelos auto-regressivos de grande escala podem gerar imagens de alta qualidade e alta resolução, mas esses modelos requerem centenas ou até milhares de passos de previsão do próximo token durante a inferência, resultando em um consumo de tempo substancial. Em estudos existentes, a decodificação de Jacobi, um algoritmo iterativo de decodificação paralela, tem sido utilizado para acelerar a geração auto-regressiva e pode ser executado sem treinamento. No entanto, a decodificação de Jacobi depende de um critério determinístico para determinar a convergência das iterações. Assim, funciona para decodificação gananciosa, mas é incompatível com a decodificação baseada em amostragem, que é crucial para a qualidade visual e diversidade na geração atual de texto-para-imagem auto-regressiva. Neste artigo, propomos um algoritmo de decodificação paralela probabilístico sem treinamento, Decodificação Jacobi Especulativa (SJD), para acelerar a geração auto-regressiva de texto-para-imagem. Ao introduzir um critério de convergência probabilístico, nosso SJD acelera a inferência da geração auto-regressiva de texto-para-imagem, mantendo a aleatoriedade na decodificação de token baseada em amostragem e permitindo que o modelo gere imagens diversas. Especificamente, o SJD facilita o modelo a prever múltiplos tokens em cada etapa e aceita tokens com base no critério probabilístico, permitindo que o modelo gere imagens com menos etapas do que o paradigma convencional de previsão do próximo token. Também investigamos as estratégias de inicialização de token que aproveitam a localidade espacial dos dados visuais para melhorar ainda mais a taxa de aceleração em cenários específicos. Realizamos experimentos para nosso SJD proposto em múltiplos modelos de geração auto-regressiva de texto-para-imagem, mostrando a eficácia da aceleração do modelo sem sacrificar a qualidade visual.
A geração de texturas a partir de texto tem atraído cada vez mais atenção recentemente, porém, os métodos existentes frequentemente sofrem com problemas de inconsistências de visualização, costuras aparentes e desalinhamento entre as texturas e a malha subjacente. Neste artigo, propomos um método robusto de texto para textura para gerar texturas consistentes e contínuas que estejam bem alinhadas com a malha. Nosso método aproveita modelos de difusão 2D de ponta, incluindo SDXL e múltiplos ControlNets, para capturar características estruturais e detalhes intrincados nas texturas geradas. O método também emprega uma estratégia de síntese de visualização simétrica combinada com prompts regionais para aprimorar a consistência visual. Além disso, introduz técnicas inovadoras de mistura de textura e soft-inpainting, que reduzem significativamente as regiões de costura. Experimentos extensivos demonstram que nosso método supera os métodos de ponta existentes.
A eliminação de conceitos em modelos de linguagem tradicionalmente careceu de um quadro abrangente de avaliação, resultando em avaliações incompletas da eficácia dos métodos de eliminação. Propomos um paradigma de avaliação centrado em três critérios críticos: inocência (remoção completa do conhecimento), integridade (mantendo a geração condicional fluente) e especificidade (preservando o desempenho de tarefas não relacionadas). Nossas métricas de avaliação naturalmente motivam o desenvolvimento do Erasure of Language Memory (ELM), um novo método projetado para abordar essas três dimensões. O ELM emprega atualizações direcionadas de baixa ordem para alterar as distribuições de saída para conceitos eliminados, preservando as capacidades gerais do modelo, incluindo a fluência ao solicitar um conceito eliminado. Demonstramos a eficácia do ELM em tarefas de eliminação nos domínios de biossegurança, cibersegurança e literatura. A análise comparativa mostra que o ELM alcança um desempenho superior em nossas métricas propostas, incluindo pontuações quase aleatórias em avaliações de tópicos eliminados, fluência na geração, precisão mantida em benchmarks não relacionados e robustez sob ataques adversariais. Nosso código, dados e modelos treinados estão disponíveis em https://elm.baulab.info
A navegação de robôs na vida real envolve mais do que simplesmente alcançar um destino; requer a otimização de movimentos ao lidar com objetivos específicos do cenário. Uma maneira intuitiva para os humanos expressarem esses objetivos é por meio de pistas abstratas como comandos verbais ou esboços aproximados. Essa orientação humana pode carecer de detalhes ou ser ruidosa. No entanto, esperamos que os robôs naveguem conforme o planejado. Para os robôs interpretarem e executarem essas instruções abstratas de acordo com as expectativas humanas, eles devem compartilhar um entendimento comum de conceitos básicos de navegação com os humanos. Com esse propósito, apresentamos CANVAS, um novo framework que combina instruções visuais e linguísticas para navegação com senso comum. Seu sucesso é impulsionado pelo aprendizado por imitação, permitindo que o robô aprenda o comportamento de navegação humano. Apresentamos COMMAND, um conjunto de dados abrangente com resultados de navegação anotados por humanos, abrangendo mais de 48 horas e 219 km, projetado para treinar sistemas de navegação com senso comum em ambientes simulados. Nossos experimentos mostram que o CANVAS supera o forte sistema baseado em regras ROS NavStack em todos os ambientes, demonstrando desempenho superior com instruções ruidosas. Notavelmente, no ambiente de pomar, onde o ROS NavStack registra uma taxa de sucesso total de 0%, o CANVAS alcança uma taxa de sucesso total de 67%. O CANVAS também se alinha de perto com demonstrações humanas e restrições de senso comum, mesmo em ambientes não vistos anteriormente. Além disso, a implementação do CANVAS no mundo real demonstra uma impressionante transferência Sim2Real com uma taxa de sucesso total de 69%, destacando o potencial de aprendizado a partir de demonstrações humanas em ambientes simulados para aplicações do mundo real.
Avanços recentes em Modelos de Linguagem de Código Grande (CodeLLMs) têm se concentrado predominantemente em tarefas de geração de código aberto, frequentemente negligenciando o aspecto crítico de compreensão e entendimento de código. Para preencher essa lacuna, apresentamos o CodeMMLU, um abrangente benchmark de perguntas e respostas de múltipla escolha projetado para avaliar a profundidade do entendimento de software e código em LLMs. O CodeMMLU inclui mais de 10.000 perguntas provenientes de diversos domínios, abrangendo tarefas como análise de código, detecção de defeitos e princípios de engenharia de software em várias linguagens de programação. Ao contrário de benchmarks tradicionais, o CodeMMLU avalia a capacidade dos modelos de raciocinar sobre o código, em vez de simplesmente gerá-lo, fornecendo insights mais profundos sobre sua compreensão de conceitos e sistemas de software complexos. Nossa extensa avaliação revela que mesmo modelos de ponta enfrentam desafios significativos com o CodeMMLU, destacando deficiências na compreensão para além da geração de código. Ao enfatizar a relação crucial entre compreensão de código e geração eficaz, o CodeMMLU serve como um recurso vital para avançar no desenvolvimento de software assistido por IA, com o objetivo final de criar assistentes de codificação mais confiáveis e capazes.
O Fill-in-the-Middle (FIM) tornou-se fundamental para os modelos de linguagem de código, permitindo a geração de código ausente considerando os contextos à esquerda e à direita. No entanto, o paradigma atual de treinamento do FIM, que reordena sequências de treinamento originais e depois realiza previsão regular do próximo token (NTP), frequentemente resulta em modelos com dificuldades para gerar conteúdo que se alinhe suavemente com o contexto circundante. De forma crucial, enquanto trabalhos existentes dependem de pós-processamento baseado em regras para contornar essa fraqueza, tais métodos não são praticamente utilizáveis em tarefas de conclusão de código em domínio aberto, pois dependem de suposições restritivas e específicas do conjunto de dados (por exemplo, gerar o mesmo número de linhas que na verdade real). Além disso, o desempenho do modelo em tarefas de FIM deteriora significativamente sem essas suposições irreais. Hipothetizamos que NTP sozinho é insuficiente para os modelos aprenderem um planejamento eficaz condicionado ao contexto distante à direita, um fator crítico para o preenchimento bem-sucedido de código. Para superar isso, propomos a Predição do Comprimento do Horizonte (HLP), um objetivo de treinamento inovador que ensina os modelos a prever o número de tokens intermediários restantes (ou seja, comprimento do horizonte) em cada etapa. HLP avança o FIM com planejamento de antecipação, permitindo que os modelos aprendam de forma inerente os limites de preenchimento para contextos arbitrários à esquerda e à direita sem depender de pós-processamento específico do conjunto de dados. Nossa avaliação em diferentes modelos e tamanhos mostra que o HLP melhora significativamente o desempenho do FIM em até 24% relativamente em diversos benchmarks, em nível de arquivo e de repositório, e sem recorrer a métodos de pós-processamento irreais. Além disso, a capacidade aprimorada de planejamento obtida por meio do HLP impulsiona o desempenho do modelo no raciocínio de código. Importante ressaltar que o HLP incorre apenas em um custo de treinamento negligenciável e nenhum custo adicional de inferência, garantindo sua praticidade para cenários do mundo real.
A previsão do mercado de ações tem sido um problema extremamente desafiador por muitas décadas, devido à sua alta volatilidade inerente e baixa relação ruidosa de informações. As soluções existentes baseadas em aprendizado de máquina ou aprendizado profundo demonstram desempenho superior ao empregar um único modelo treinado em todo o conjunto de dados de ações para gerar previsões em todos os tipos de ações. No entanto, devido às significativas variações nos estilos de ações e tendências de mercado, um único modelo de ponta a ponta tem dificuldade em capturar totalmente as diferenças nessas características estilizadas das ações, levando a previsões relativamente imprecisas para todos os tipos de ações. Neste artigo, apresentamos o MIGA, um novo framework de Mistura de Especialistas com Agregação de Grupo projetado para gerar previsões especializadas para ações com estilos diferentes, alternando dinamicamente entre especialistas de estilos distintos. Para promover a colaboração entre diferentes especialistas no MIGA, propomos uma nova arquitetura de atenção interna de grupo, permitindo que especialistas dentro do mesmo grupo compartilhem informações e, assim, aprimorem o desempenho geral de todos os especialistas. Como resultado, o MIGA supera significativamente outros modelos de ponta a ponta em três benchmarks do Índice de Ações Chinês, incluindo CSI300, CSI500 e CSI1000. Notavelmente, o MIGA-Conv alcança um retorno anual excedente de 24% no benchmark CSI300, superando o modelo anterior de ponta a ponta em 8% absolutos. Além disso, realizamos uma análise abrangente da mistura de especialistas para a previsão do mercado de ações, fornecendo insights valiosos para pesquisas futuras.
Apesar do aumento da predominância do aprendizado profundo em domínios de dados não estruturados, métodos baseados em árvores como Florestas Aleatórias (RF) e Árvores de Decisão Impulsionadas por Gradiente (GBDT) ainda são os principais para lidar com tarefas discriminativas em dados tabulares. Exploramos extensões generativas desses algoritmos populares com foco em modelar explicitamente a densidade dos dados (até uma constante de normalização), permitindo assim outras aplicações além da amostragem. Como nossa principal contribuição, propomos um algoritmo de impulsionamento generativo baseado em energia que é análogo ao impulsionamento de segunda ordem implementado em pacotes populares como XGBoost. Mostramos que, apesar de produzir um modelo generativo capaz de lidar com tarefas de inferência sobre qualquer variável de entrada, nosso algoritmo proposto pode alcançar desempenho discriminativo semelhante ao do GBDT em diversos conjuntos de dados tabulares do mundo real, superando abordagens generativas alternativas. Ao mesmo tempo, demonstramos que ele também é competitivo com modelos baseados em redes neurais para amostragem.
A legendagem detalhada de vídeos é uma tarefa fundamental que visa gerar descrições textuais abrangentes e coerentes do conteúdo de vídeos, beneficiando tanto a compreensão quanto a geração de vídeos. Neste artigo, propomos o AuroraCap, um legendador de vídeos baseado em um grande modelo multimodal. Seguimos o design de arquitetura mais simples sem parâmetros adicionais para modelagem temporal. Para lidar com o overhead causado por sequências de vídeo extensas, implementamos a estratégia de fusão de tokens, reduzindo o número de tokens visuais de entrada. Surpreendentemente, descobrimos que essa estratégia resulta em pouca perda de desempenho. O AuroraCap demonstra desempenho superior em diversos benchmarks de legendagem de vídeos e imagens, obtendo, por exemplo, um CIDEr de 88,9 no Flickr30k, superando o GPT-4V (55,3) e o Gemini-1.5 Pro (82,2). No entanto, os benchmarks de legendagem de vídeos existentes incluem apenas descrições simples, compostas por algumas dezenas de palavras, o que limita a pesquisa nesse campo. Portanto, desenvolvemos o VDC, um benchmark de legendagem detalhada de vídeos com mais de mil legendas estruturadas cuidadosamente anotadas. Além disso, propomos uma nova métrica assistida por LLM, o VDCscore, para melhorar a avaliação, que adota uma estratégia de dividir para conquistar para transformar a avaliação de legendas longas em múltiplos pares de perguntas e respostas curtas. Com a ajuda da classificação Elo humana, nossos experimentos mostram que este benchmark tem uma correlação melhor com as avaliações humanas da qualidade da legendagem detalhada de vídeos.
A simulação robótica hoje em dia continua sendo desafiadora de escalar devido aos esforços humanos necessários para criar tarefas e cenas de simulação diversas. As políticas treinadas em simulação também enfrentam problemas de escalabilidade, já que muitos métodos de simulação para o mundo real se concentram em uma única tarefa. Para enfrentar esses desafios, este trabalho propõe o GenSim2, um framework escalável que aproveita Modelos de Linguagem com Codificação (LLMs) com capacidades multimodais e de raciocínio para a criação de tarefas de simulação complexas e realistas, incluindo tarefas de longo horizonte com objetos articulados. Para gerar automaticamente dados de demonstração para essas tarefas em escala, propomos planejadores e solucionadores de RL que generalizam dentro de categorias de objetos. O pipeline pode gerar dados para até 100 tarefas articuladas com 200 objetos e reduzir os esforços humanos necessários. Para utilizar tais dados, propomos uma arquitetura de política eficaz condicionada à linguagem multi-tarefa, denominada transformador de nuvem de pontos proprioceptivos (PPT), que aprende com as demonstrações geradas e apresenta forte transferência de simulação para o mundo real sem treinamento. Combinando o pipeline proposto e a arquitetura de política, demonstramos um uso promissor do GenSim2, onde os dados gerados podem ser usados para transferência sem treinamento ou co-treinados com dados coletados do mundo real, o que melhora o desempenho da política em 20% em comparação com o treinamento exclusivamente em dados reais limitados.