Artigos de pesquisa em IA selecionados diariamente com traduções
O raciocínio matemático visual, como uma habilidade fundamental de raciocínio visual, tem recebido ampla atenção da comunidade de Modelos Multimodais de Grande Escala (LMMs). Os benchmarks existentes, como MathVista e MathVerse, focam mais no desempenho orientado para resultados, mas negligenciam os princípios subjacentes na aquisição e generalização do conhecimento. Inspirados pelo raciocínio matemático semelhante ao humano, introduzimos o WE-MATH, o primeiro benchmark especificamente projetado para explorar os princípios de resolução de problemas além do desempenho de ponta a ponta. Coletamos e categorizamos meticulosamente 6,5 mil problemas matemáticos visuais, abrangendo 67 conceitos de conhecimento hierárquicos e cinco camadas de granularidade do conhecimento. Decomponemos problemas compostos em subproblemas de acordo com os conceitos de conhecimento necessários e introduzimos uma nova métrica quadridimensional, a saber, Conhecimento Insuficiente (IK), Generalização Inadequada (IG), Domínio Completo (CM) e Memorização Mecânica (RM), para avaliar hierarquicamente questões inerentes no processo de raciocínio dos LMMs. Com o WE-MATH, realizamos uma avaliação minuciosa dos LMMs existentes no raciocínio matemático visual e revelamos uma correlação negativa entre etapas de resolução e desempenho específico do problema. Confirmamos que a questão de IK dos LMMs pode ser efetivamente melhorada por meio de estratégias de aumento de conhecimento. Mais notavelmente, o desafio principal do GPT-4o mudou significativamente de IK para IG, estabelecendo-o como o primeiro LMM avançando em direção à fase de generalização do conhecimento. Em contraste, outros LMMs exibem uma inclinação marcante para a Memorização Mecânica - eles resolvem corretamente problemas compostos envolvendo múltiplos conceitos de conhecimento, mas falham em responder aos subproblemas. Antecipamos que o WE-MATH abrirá novos caminhos para avanços no raciocínio matemático visual para LMMs. Os dados e código de avaliação do WE-MATH estão disponíveis em https://github.com/We-Math/We-Math.
Apresentamos um framework para programação intuitiva de robôs por não especialistas, aproveitando prompts de linguagem natural e informações contextuais do Sistema Operacional de Robôs (ROS). Nosso sistema integra grandes modelos de linguagem (LLMs), permitindo que não especialistas articulem requisitos de tarefas para o sistema por meio de uma interface de chat. Recursos-chave do framework incluem: integração do ROS com um agente de IA conectado a uma infinidade de LLMs de código aberto e comerciais, extração automática de um comportamento a partir da saída do LLM e execução de ações/serviços do ROS, suporte para três modos de comportamento (sequência, árvore de comportamento, máquina de estados), aprendizado por imitação para adicionar novas ações de robô à biblioteca de ações possíveis, e reflexão do LLM por meio de feedback humano e do ambiente. Experimentos extensivos validam o framework, demonstrando robustez, escalabilidade e versatilidade em diversos cenários, incluindo tarefas de longo prazo, rearranjos de objetos em mesas e controle supervisório remoto. Para facilitar a adoção de nosso framework e apoiar a reprodução de nossos resultados, disponibilizamos nosso código de forma aberta. Você pode acessá-lo em: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
Os documentos são estruturas visualmente ricas que transmitem informações por meio de texto, bem como tabelas, figuras, layouts de página ou fontes. Embora os modernos sistemas de recuperação de documentos demonstrem um desempenho sólido na correspondência de consultas com texto, eles têm dificuldade em explorar eficientemente pistas visuais, o que prejudica seu desempenho em aplicações práticas de recuperação de documentos, como Geração com Recuperação Aprimorada. Para avaliar os sistemas atuais em recuperação de documentos visualmente ricos, apresentamos o Benchmark de Recuperação de Documentos Visuais, ViDoRe, composto por várias tarefas de recuperação em nível de página abrangendo diversos domínios, idiomas e configurações. As deficiências inerentes dos sistemas modernos motivam a introdução de uma nova arquitetura de modelo de recuperação, ColPali, que aproveita as capacidades de compreensão de documentos dos recentes Modelos de Linguagem Visual para produzir embeddings contextualizados de alta qualidade exclusivamente a partir de imagens de páginas de documentos. Combinado com um mecanismo de correspondência de interação tardia, o ColPali supera em grande parte os modernos pipelines de recuperação de documentos, sendo drasticamente mais rápido e totalmente treinável.
A mistura de dados para o pré-treinamento de grandes modelos de linguagem impacta significativamente o desempenho, no entanto, como determinar uma mistura eficaz permanece incerto. Propomos o RegMix para identificar automaticamente uma mistura de dados de alto desempenho formulando-a como uma tarefa de regressão. O RegMix envolve treinar um conjunto de pequenos modelos com misturas de dados diversas e ajustar um modelo de regressão para prever seu desempenho dado suas respectivas misturas. Com o modelo de regressão ajustado, simulamos a mistura mais bem classificada e a utilizamos para treinar um modelo em larga escala com ordens de magnitude mais computacionais. Para validar empiricamente o RegMix, treinamos 512 modelos com 1M parâmetros para 1B de tokens de diferentes misturas para ajustar o modelo de regressão e encontrar a mistura ótima. Utilizando essa mistura, treinamos um modelo com 1B de parâmetros para 25B de tokens (ou seja, 1000 vezes maior e 25 vezes mais longo), o qual descobrimos ter o melhor desempenho entre 64 modelos candidatos com 1B de parâmetros e outras misturas. Além disso, nosso método demonstra desempenho superior em comparação com a seleção humana e alcança resultados que correspondem ou superam o DoReMi, enquanto utilizando apenas 10% do orçamento computacional. Nossos experimentos também mostram que (1) as misturas de dados impactam significativamente o desempenho, com variações de desempenho de tarefas únicas de até 14,6%; (2) corpora da web, em vez de dados percebidos como de alta qualidade como a Wikipedia, têm a mais forte correlação positiva com o desempenho subsequente; (3) os domínios interagem de maneiras complexas, muitas vezes contradizendo o senso comum, assim abordagens automáticas como o RegMix são necessárias; (4) os efeitos da mistura de dados transcendem as leis de escalonamento, e nossa abordagem captura a complexidade ao considerar todos os domínios juntos. Nosso código está disponível em https://github.com/sail-sg/regmix.
Pesquisas recentes sugerem que algoritmos de busca em árvore (por exemplo, Monte Carlo Tree Search) podem aumentar drasticamente o desempenho de LLM em tarefas complexas de raciocínio matemático. No entanto, eles frequentemente exigem mais de 10 vezes os recursos computacionais da decodificação gananciosa devido a estratégias de busca ineficientes, tornando-os difíceis de serem implementados em aplicações práticas. Este estudo apresenta um novo algoritmo de busca em árvore guiado com seleção dinâmica de nós e cálculo do orçamento de exploração de nível de nó (número máximo de filhos) para lidar com esse problema. Ao considerar o progresso da busca em direção à resposta final (histórico) e a orientação de uma rede de valores (futuro) treinada sem quaisquer anotações passo a passo, nosso algoritmo seleciona iterativamente o nó de árvore mais promissor antes de expandi-lo dentro dos limites do orçamento computacional alocado. Experimentos realizados nos conjuntos de dados GSM8K e TabMWP demonstram que nossa abordagem não apenas oferece desempenho competitivo, mas também possui custos computacionais significativamente mais baixos em comparação com os métodos de referência.
Os Grandes Modelos Multimodais (LMMs) demonstram impressionantes habilidades de compreensão e raciocínio intermodais, frequentemente avaliadas por meio de questões de múltipla escolha (MCQs) que incluem uma imagem, uma pergunta e várias opções. No entanto, muitos benchmarks usados para tais avaliações sofrem de viéses sistemáticos. Notavelmente, os Grandes Modelos de Linguagem (LLMs) sem capacidades de percepção visual alcançam desempenho não trivial, minando a credibilidade dessas avaliações. Para abordar esse problema, mantendo a eficiência das avaliações de MCQ, propomos o MMEvalPro, um benchmark projetado para evitar erros do Tipo I por meio de um pipeline de avaliação em três etapas e métricas mais rigorosas. Para cada pergunta original dos benchmarks existentes, os anotadores humanos aprimoram criando uma pergunta de percepção e uma pergunta de ancoragem de conhecimento por meio de um processo de anotação meticuloso. O MMEvalPro é composto por 2.138 tríades de perguntas, totalizando 6.414 perguntas distintas. Dois terços dessas perguntas são rotuladas manualmente por especialistas humanos, enquanto o restante é proveniente de benchmarks existentes (MMMU, ScienceQA e MathVista). Em comparação com os benchmarks existentes, nossos experimentos com os mais recentes LLMs e LMMs demonstram que o MMEvalPro é mais desafiador (o melhor LMM fica atrás do desempenho humano em 31,73%, em comparação com uma lacuna média de 8,03% nos benchmarks anteriores) e mais confiável (o melhor LLM fica atrás do melhor LMM em 23,09%, enquanto a diferença nos benchmarks anteriores é de apenas 14,64%). Nossa análise aprofundada explica o motivo da grande diferença de desempenho e justifica a confiabilidade da avaliação, destacando seu significativo potencial para avançar em pesquisas futuras.
Neste artigo, adotamos uma nova abordagem para a geração de imagens autoregressivas que se baseia em dois ingredientes principais. O primeiro é a codificação de imagens por wavelets, que permite tokenizar os detalhes visuais de uma imagem de forma gradual, indo dos detalhes mais grosseiros aos mais finos, ordenando as informações a partir dos bits mais significativos dos coeficientes de wavelet mais relevantes. O segundo é uma variante de um transformador de linguagem cuja arquitetura foi redesenhada e otimizada para sequências de tokens nessa 'linguagem de wavelets'. O transformador aprende as correlações estatísticas significativas dentro de uma sequência de tokens, que são manifestações das conhecidas correlações entre as subbandas de wavelets em várias resoluções. Apresentamos resultados experimentais condicionados ao processo de geração.
A Otimização Direta de Preferência (ODP) tem se mostrado eficaz na melhoria do desempenho de grandes modelos de linguagem (MLs) em tarefas subsequentes, como raciocínio e alinhamento. Neste trabalho, propomos a Otimização Direta de Preferência Controlada por Etapas (ODPCE), um método para fornecer automaticamente supervisão de erros por etapas, criando amostras negativas de justificativas de raciocínio matemático que começam a cometer erros em uma etapa especificada. Ao aplicar essas amostras no treinamento de ODP, a ODPCE pode alinhar melhor o modelo para entender erros de raciocínio e produzir etapas de raciocínio precisas. Aplicamos a ODPCE tanto a soluções integradas a código quanto a soluções em cadeia de pensamento, mostrando empiricamente que ela melhora consistentemente o desempenho em comparação com a ODP ingênua em três modelos diferentes de SFT, incluindo um modelo de SFT existente e dois modelos que ajustamos. A análise qualitativa da atribuição de crédito da ODPCE e da ODP demonstra a eficácia da ODPCE na identificação de erros em soluções matemáticas. Em seguida, aplicamos a ODPCE a um modelo InternLM2-20B, resultando em um modelo de 20B que alcança altas pontuações de 88,5% no GSM8K e 58,1% no MATH, rivalizando com todos os outros MLs de código aberto, mostrando o grande potencial de nosso método.
Este artigo apresenta um método para restauração de vídeo sem necessidade de treinamento usando modelos de difusão de restauração de imagem pré-treinados. Métodos tradicionais de restauração de vídeo frequentemente exigem re-treinamento para diferentes configurações e têm dificuldades com a generalização limitada entre vários tipos de degradação e conjuntos de dados. Nossa abordagem utiliza uma estratégia hierárquica de mesclagem de tokens para quadros-chave e quadros locais, combinada com um mecanismo de correspondência híbrido que mescla fluxo óptico e correspondência de vizinho mais próximo baseada em características (mesclagem latente). Mostramos que nosso método não apenas alcança alto desempenho na restauração de vídeo sem necessidade de treinamento, mas também supera significativamente modelos treinados na generalização entre conjuntos de dados diversos e degradações extremas (super-resolução 8 vezes e remoção de ruído em vídeos com alta desvio padrão). Apresentamos evidências por meio de métricas quantitativas e comparações visuais em vários conjuntos de dados desafiadores. Além disso, nossa técnica funciona com qualquer modelo de difusão de restauração 2D, oferecendo uma ferramenta versátil e poderosa para tarefas de aprimoramento de vídeo sem necessidade de extenso re-treinamento. Esta pesquisa resulta em tecnologias de restauração de vídeo mais eficientes e amplamente aplicáveis, apoiando avanços em campos que requerem saída de vídeo de alta qualidade. Consulte nossa página do projeto para ver os resultados em vídeo em https://jimmycv07.github.io/DiffIR2VR_web/.
A transferência de estilo é um processo inventivo projetado para criar uma imagem que mantém a essência do original ao abraçar o estilo visual de outro. Embora os modelos de difusão tenham demonstrado um impressionante poder generativo em aplicações personalizadas orientadas por assunto ou estilo, os métodos de ponta existentes ainda enfrentam dificuldades em alcançar um equilíbrio perfeito entre a preservação de conteúdo e o aprimoramento de estilo. Por exemplo, amplificar a influência do estilo frequentemente pode comprometer a integridade estrutural do conteúdo. Para enfrentar esses desafios, decompomos a tarefa de transferência de estilo em três elementos principais: 1) Estilo, focando nas características estéticas da imagem; 2) Estrutura Espacial, referente ao arranjo geométrico e composição dos elementos visuais; e 3) Conteúdo Semântico, que captura o significado conceitual da imagem. Guiados por esses princípios, apresentamos o InstantStyle-Plus, uma abordagem que prioriza a integridade do conteúdo original ao integrar de forma contínua o estilo alvo. Especificamente, nosso método realiza a injeção de estilo por meio de um processo eficiente e leve, utilizando o avançado framework InstantStyle. Para reforçar a preservação de conteúdo, iniciamos o processo com um ruído latente de conteúdo invertido e uma ControlNet de mosaico plug-and-play versátil para preservar o layout intrínseco da imagem original. Também incorporamos um adaptador semântico global para aprimorar a fidelidade do conteúdo semântico. Para proteger contra a diluição das informações de estilo, um extrator de estilo é empregado como discriminador para fornecer orientação de estilo complementar. Os códigos estarão disponíveis em https://github.com/instantX-research/InstantStyle-Plus.
As melhorias nas capacidades dos modelos de linguagem têm impulsionado suas aplicações em direção a contextos mais longos, tornando a avaliação e desenvolvimento de longos contextos uma área de pesquisa ativa. No entanto, muitos casos de uso diversos são agrupados sob o termo genérico "longo contexto", definido simplesmente pelo comprimento total da entrada do modelo, incluindo - por exemplo - tarefas de agulha no palheiro, sumarização de livros e agregação de informações. Dada a variedade de dificuldades, neste artigo de posição argumentamos que a mistura de diferentes tarefas pelo comprimento do contexto é improdutiva. Como comunidade, precisamos de um vocabulário mais preciso para entender o que torna as tarefas de longo contexto semelhantes ou diferentes. Propomos desdobrar a taxonomia de longo contexto com base nas propriedades que as tornam mais difíceis com contextos mais longos. Propomos dois eixos ortogonais de dificuldade: (I) Difusão: Quão difícil é encontrar as informações necessárias no contexto? (II) Escopo: Quanta informação necessária há para encontrar? Revisamos a literatura sobre longo contexto, fornecemos justificativa para esta taxonomia como um descritor informativo e situamos a literatura em relação a ela. Concluímos que as configurações mais difíceis e interessantes, cujas informações necessárias são muito longas e altamente difusas na entrada, são severamente subexploradas. Ao usar um vocabulário descritivo e discutir as propriedades relevantes de dificuldade em longo contexto, podemos implementar pesquisas mais informadas nesta área. Pedimos um design cuidadoso de tarefas e benchmarks com contextos distintamente longos, levando em consideração as características que o tornam qualitativamente diferente de contextos mais curtos.
Este artigo apresenta o Embarrassingly Easy Text-to-Speech (E2 TTS), um sistema de texto para fala totalmente não autoregressivo de zero-shot que oferece naturalidade a nível humano e similaridade e inteligibilidade de alto nível de alto-falante. No framework E2 TTS, a entrada de texto é convertida em uma sequência de caracteres com tokens de preenchimento. O gerador de espectrograma mel baseado em correspondência de fluxo é então treinado com base na tarefa de preenchimento de áudio. Ao contrário de muitos trabalhos anteriores, não requer componentes adicionais (por exemplo, modelo de duração, grafema para fonema) ou técnicas complexas (por exemplo, busca de alinhamento monótono). Apesar de sua simplicidade, o E2 TTS alcança capacidades de TTS de zero-shot de ponta que são comparáveis ou superiores a trabalhos anteriores, incluindo Voicebox e NaturalSpeech 3. A simplicidade do E2 TTS também permite flexibilidade na representação de entrada. Propomos várias variantes do E2 TTS para melhorar a usabilidade durante a inferência. Consulte https://aka.ms/e2tts/ para ver amostras de demonstração.
A geração de rostos impulsionada por áudio genérico é uma tarefa desafiadora em visão computacional. Métodos anteriores alcançaram progresso notável na sincronização áudio-visual, mas ainda há uma lacuna significativa entre os resultados atuais e as aplicações práticas. Os desafios são duplos: 1) Preservar traços individuais únicos para alcançar uma sincronização labial de alta precisão. 2) Gerar renderizações faciais de alta qualidade em tempo real. Neste artigo, propomos um novo framework generalizado impulsionado por áudio chamado RealTalk, que consiste em um transformador de áudio para expressão e um renderizador de expressão para rosto de alta fidelidade. No primeiro componente, consideramos tanto a identidade quanto as características de variação intra-pessoal relacionadas aos movimentos labiais ao falar. Ao incorporar atenção cruzada nos priores faciais enriquecidos, podemos alinhar efetivamente os movimentos labiais com o áudio, alcançando assim uma maior precisão na previsão da expressão. No segundo componente, projetamos um módulo leve de alinhamento de identidade facial (FIA) que inclui uma estrutura de controle de forma labial e uma estrutura de referência de textura facial. Esse design inovador nos permite gerar detalhes finos em tempo real, sem depender de módulos sofisticados e ineficientes de alinhamento de características. Nossos resultados experimentais, tanto quantitativos quanto qualitativos, em conjuntos de dados públicos demonstram as claras vantagens de nosso método em termos de sincronização de fala e qualidade de geração labial. Além disso, nosso método é eficiente e requer menos recursos computacionais, tornando-o adequado para atender às necessidades de aplicações práticas.
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) capacitaram agentes LLM a coletar autonomamente informações globais, sobre as quais conduzem raciocínio para resolver problemas complexos. Dada essa capacidade, cresce o interesse em empregar agentes LLM para prever eventos internacionais, os quais podem influenciar tomadas de decisão e moldar o desenvolvimento de políticas em escala internacional. Apesar desse crescente interesse, falta um benchmark rigoroso da capacidade de previsão e confiabilidade dos agentes LLM. Para abordar essa lacuna, apresentamos MIRAI, um novo benchmark projetado para avaliar sistematicamente agentes LLM como previsores temporais no contexto de eventos internacionais. Nosso benchmark apresenta um ambiente agente com ferramentas para acessar um extenso banco de dados de eventos históricos estruturados e artigos de notícias textuais. Refinamos a base de dados de eventos GDELT com limpeza e análise cuidadosas para criar uma série de tarefas de previsão relacional com horizontes de previsão variados, avaliando as habilidades dos agentes LLM desde previsões de curto prazo até previsões de longo prazo. Implementamos APIs adicionais para permitir que os agentes LLM utilizem diferentes ferramentas por meio de uma interface baseada em código. Em resumo, MIRAI avalia abrangentemente as capacidades dos agentes em três dimensões: 1) coletar e integrar autonomamente informações críticas de grandes bancos de dados globais; 2) escrever códigos utilizando APIs e bibliotecas específicas do domínio para uso de ferramentas; e 3) raciocinar conjuntamente sobre conhecimento histórico de formatos diversos e ao longo do tempo para prever com precisão eventos futuros. Por meio de benchmarking abrangente, nosso objetivo é estabelecer um framework confiável para avaliar as capacidades dos agentes LLM na previsão de eventos internacionais, contribuindo assim para o desenvolvimento de modelos mais precisos e confiáveis para análise de relações internacionais.
Os modelos baseados em difusão têm mostrado grande potencial na geração de imagens de alta qualidade com vários layouts, o que pode beneficiar tarefas de percepção subsequentes. No entanto, a geração totalmente automática de layout impulsionada apenas pela linguagem e uma métrica adequada para medir múltiplas instâncias geradas não foi bem explorada. Neste trabalho, apresentamos o Auto Cherry-Picker (ACP), um novo framework que gera exemplos de treinamento multimodais de alta qualidade para aumentar a percepção e o treinamento multimodal. Começando com uma simples lista de conceitos em linguagem natural, solicitamos a modelos de linguagem de grande escala (LLMs) que gerem uma descrição detalhada e projetem layouts razoáveis. Em seguida, utilizamos um modelo texto-imagem pronto para gerar várias imagens. Posteriormente, os dados gerados são refinados usando uma métrica abrangente projetada para garantir qualidade. Em particular, apresentamos uma nova métrica, Escore de Layout e Imagem Composto (CLIS), para avaliar as imagens geradas de forma justa. Nossos exemplos sintéticos de alta qualidade impulsionam o desempenho em vários cenários ao personalizar a lista de conceitos inicial, especialmente ao lidar com desafios associados à distribuição de longa cauda e conjuntos de dados desequilibrados. Resultados experimentais em tarefas subsequentes demonstram que o Auto Cherry-Picker pode melhorar significativamente o desempenho de modelos existentes. Além disso, investigamos minuciosamente a correlação entre o CLIS e os ganhos de desempenho em tarefas subsequentes, e constatamos que um melhor escore de CLIS resulta em melhor desempenho. Essa descoberta mostra o potencial das métricas de avaliação como papel em várias tarefas de percepção visual e MLLM. O código estará disponível.
Apresentamos o OmniJARVIS, um modelo Vision-Language-Action (VLA) inovador para agentes de seguir instruções em um mundo aberto no Minecraft de mundo aberto. Em comparação com trabalhos anteriores que ou emitem metas textuais para controladores separados ou produzem o comando de controle diretamente, o OmniJARVIS busca um caminho diferente para garantir tanto um raciocínio forte quanto capacidades de tomada de decisão eficientes por meio da tokenização unificada de dados de interação multimodal. Primeiramente, introduzimos uma abordagem auto-supervisionada para aprender um codificador de comportamento que produz tokens discretizados para trajetórias de comportamento tau = {o_0, a_0, ...} e um decodificador de política de aprendizado por imitação (IL) condicionado a esses tokens. Esses tokens de comportamento adicionais serão incorporados ao vocabulário de Modelos de Linguagem Multimodal (MLMs) pré-treinados. Com este codificador, então empacotamos interações multimodais de longo prazo envolvendo instruções de tarefas, memórias, pensamentos, observações, respostas textuais, trajetórias de comportamento, etc., em sequências de tokens unificadas e as modelamos com transformadores autoregressivos. Graças aos tokens de comportamento semanticamente significativos, o modelo VLA resultante, OmniJARVIS, pode raciocinar (produzindo cadeias de pensamento), planejar, responder perguntas e agir (produzindo tokens de comportamento para o decodificador de política IL). O OmniJARVIS demonstra excelentes desempenhos em uma coleção abrangente de tarefas atômicas, programáticas e abertas no mundo aberto do Minecraft. Nossa análise também revela os princípios de design cruciais na formação de dados de interação, tokenização unificada e seus potenciais de escalabilidade.
Grandes Modelos de Linguagem (LLMs) têm demonstrado uma proficiência impressionante em várias tarefas de processamento de linguagem natural (NLP), que envolvem raciocínio cada vez mais complexo. O raciocínio de conhecimento, um tipo primário de raciocínio, tem como objetivo derivar novos conhecimentos a partir de conhecimentos existentes. Embora tenha sido amplamente estudado no contexto de grafos de conhecimento (KGs), o raciocínio de conhecimento em LLMs ainda é pouco explorado. Neste artigo, apresentamos a Cadeia-de-Conhecimento, um framework abrangente para raciocínio de conhecimento, incluindo metodologias tanto para construção de conjuntos de dados quanto para aprendizado de modelos. Para a construção de conjuntos de dados, criamos o KnowReason através da mineração de regras em KGs. Para o aprendizado do modelo, observamos o sobreajuste de regras induzido pelo treinamento ingênuo. Portanto, aprimoramos o CoK com um mecanismo de tentativa e erro que simula o processo humano de exploração interna de conhecimento. Realizamos experimentos extensivos com o KnowReason. Nossos resultados mostram a eficácia do CoK em refinar LLMs não apenas em raciocínio de conhecimento, mas também em benchmarks de raciocínio geral.
A implantação de Modelos de Linguagem Grandes (LLMs) em dispositivos de borda é cada vez mais importante para aprimorar a inteligência no dispositivo. A quantização de peso é crucial para reduzir a pegada de memória dos LLMs nos dispositivos. No entanto, LLMs de baixo bit exigem multiplicação de matriz de precisão mista (mpGEMM) de pesos de baixa precisão e ativações de alta precisão durante a inferência. Sistemas existentes, que não possuem suporte nativo para mpGEMM, recorrem à desquantização de pesos para computação de alta precisão. Tal abordagem indireta pode resultar em uma sobrecarga significativa na inferência. Neste artigo, apresentamos o T-MAC, um método inovador baseado em tabela de pesquisa (LUT) projetado para inferência eficiente de LLM de baixo bit (ou seja, LLM com quantização de peso) em CPUs. O T-MAC suporta diretamente mpGEMM sem desquantização, ao mesmo tempo que elimina multiplicações e reduz as adições necessárias. Especificamente, o T-MAC transforma a multiplicação tradicional centrada no tipo de dados em pesquisa de tabela bit a bit e possibilita uma solução mpGEMM unificada e escalável. Nossos kernels baseados em LUT escalam linearmente com a largura de bit do peso. Avaliado em modelos Llama e BitNet de baixo bit, o T-MAC demonstra um aumento de até 4 vezes na taxa de transferência e uma redução de 70% no consumo de energia em comparação com o llama.cpp. Para o BitNet-b1.58-3B, o T-MAC oferece uma taxa de geração de tokens de 30 tokens/s com um único núcleo e 71 tokens/s com oito núcleos no M2-Ultra, e 11 tokens/s em dispositivos de baixo desempenho como o Raspberry Pi 5, o que excede significativamente a velocidade média de leitura de um adulto. O T-MAC com o paradigma de computação baseado em LUT abre caminho para a implantação prática de LLMs de baixo bit em dispositivos de borda com recursos limitados sem comprometer a eficiência computacional. O sistema é de código aberto em https://github.com/microsoft/T-MAC.
A aprendizagem auto-supervisionada (SSL) tem ajudado a expandir as tecnologias de fala para mais idiomas, reduzindo a necessidade de dados rotulados. No entanto, os modelos ainda estão longe de suportar os 7000+ idiomas do mundo. Propomos o XEUS, um Codificador Cruzado para Fala Universal, treinado em mais de 1 milhão de horas de dados em 4057 idiomas, ampliando a cobertura linguística dos modelos SSL em 4 vezes. Combinamos 1 milhão de horas de fala de corpora publicamente acessíveis existentes com um corpus recém-criado de mais de 7400 horas em 4057 idiomas, que será publicamente disponibilizado. Para lidar com as diversas condições de dados de fala multilíngue, aumentamos a abordagem de previsão mascarada típica do SSL com um novo objetivo de desverberação, aumentando a robustez. Avaliamos o XEUS em vários benchmarks e mostramos que consistentemente supera ou alcança resultados comparáveis aos modelos SSL de última geração em uma variedade de tarefas. O XEUS estabelece um novo estado da arte no benchmark ML-SUPERB: supera o MMS 1B e o w2v-BERT 2.0 v2 em 0,8% e 4,4%, respectivamente, apesar de ter menos parâmetros ou dados de pré-treinamento. Os checkpoints, código e dados podem ser encontrados em https://www.wavlab.org/activities/2024/xeus/.
Os modelos de geração de vídeo têm demonstrado grandes capacidades de produzir vídeos monoscópicos impressionantes, no entanto, a geração de vídeos estereoscópicos 3D ainda é pouco explorada. Propomos uma abordagem livre de pose e treinamento para gerar vídeos estereoscópicos 3D usando um modelo de geração de vídeo monoscópico pronto para uso. Nosso método distorce um vídeo monoscópico gerado em vistas de câmera em uma linha de base estereoscópica usando a profundidade de vídeo estimada, e emprega um novo framework de preenchimento de vídeo de matriz de quadros. O framework aproveita o modelo de geração de vídeo para preencher quadros observados em diferentes timestamps e vistas. Esta abordagem eficaz gera vídeos estereoscópicos consistentes e semanticamente coerentes sem otimização de cena ou ajuste fino do modelo. Além disso, desenvolvemos um esquema de reinjeção de fronteira de desoclusão que melhora ainda mais a qualidade do preenchimento de vídeo ao aliviar os efeitos negativos propagados das áreas desocludidas no espaço latente. Validamos a eficácia do nosso método proposto realizando experimentos em vídeos de vários modelos generativos, incluindo Sora [4], Lumiere [2], WALT [8], e Zeroscope [42]. Os experimentos demonstram que nosso método apresenta uma melhoria significativa em relação aos métodos anteriores. O código será disponibilizado em https://daipengwa.github.io/SVG_ProjectPage.
Recentemente, surgiram vários Modelos de Linguagem de Grande Escala (LLMs) ajustados para instruções especializadas para Reconhecimento de Entidades Nomeadas (NER). Em comparação com abordagens tradicionais de NER, esses modelos possuem fortes capacidades de generalização. Os LLMs existentes concentram-se principalmente no NER de zero-shot em distribuições fora do domínio, sendo ajustados em um grande número de classes de entidades que frequentemente se sobrepõem totalmente ou em grande parte aos conjuntos de testes. Neste trabalho, propomos o SLIMER, uma abordagem projetada para lidar com tags de entidades nomeadas nunca vistas antes, instruindo o modelo com menos exemplos e aproveitando um prompt enriquecido com definição e diretrizes. Experimentos demonstram que a definição e as diretrizes resultam em melhor desempenho, aprendizado mais rápido e robusto, especialmente ao rotular Entidades Nomeadas não vistas. Além disso, o SLIMER tem desempenho comparável a abordagens de ponta em NER de zero-shot fora do domínio, enquanto é treinado em um conjunto reduzido de tags.
A aprendizagem por reforço a partir do feedback humano (RLHF) é uma estratégia popular para alinhar grandes modelos de linguagem (LLMs) com comportamentos desejados. A modelagem de recompensa é um passo crucial na RLHF. No entanto, coletar dados de preferência em pares para treinar modelos de recompensa é frequentemente custoso e demorado, especialmente para preferências específicas de domínio que exigem anotação de especialistas. Para enfrentar esse desafio, propomos o Modelo de Recompensa Fundido com Conhecimento de Domínio (DogeRM), um novo framework que integra conhecimento específico de domínio em um modelo de recompensa geral por meio da fusão de modelos. Os experimentos demonstram que o DogeRM melhora o desempenho em diferentes benchmarks e fornecem uma análise detalhada mostrando os efeitos da fusão de modelos, mostrando o grande potencial de facilitar o alinhamento do modelo.
LLMs processam texto como sequências de tokens que correspondem aproximadamente a palavras, onde palavras menos comuns são representadas por múltiplos tokens. No entanto, os tokens individuais frequentemente não têm relação semântica com os significados das palavras/conceitos que compõem. Por exemplo, o tokenizador do Llama-2-7b divide a palavra "northeastern" nos tokens ['_n', 'ort', 'he', 'astern'], nenhum dos quais corresponde a unidades semanticamente significativas como "norte" ou "leste". Da mesma forma, os significados gerais de entidades nomeadas como "Neil Young" e expressões de várias palavras como "break a leg" não podem ser inferidos diretamente a partir de seus tokens constituintes. Mecanicamente, como os LLMs convertem tais grupos arbitrários de tokens em representações de nível superior úteis? Neste trabalho, descobrimos que as representações do último token de entidades nomeadas e palavras de vários tokens exibem um efeito de "apagamento" pronunciado, onde a informação sobre tokens anteriores e atuais é rapidamente esquecida nas camadas iniciais. Usando essa observação, propomos um método para "ler" o vocabulário implícito de um LLM autorregressivo examinando diferenças nas representações de tokens entre camadas, e apresentamos resultados desse método para Llama-2-7b e Llama-3-8B. Até onde sabemos, esta é a primeira tentativa de sondar o vocabulário implícito de um LLM.
Seguir múltiplas instruções é uma habilidade crucial para grandes modelos de linguagem (LLMs). Avaliar essa habilidade apresenta desafios significativos: (i) coerência limitada entre múltiplas instruções, (ii) viés posicional onde a ordem das instruções afeta o desempenho do modelo e (iii) falta de tarefas objetivamente verificáveis. Para lidar com esses problemas, apresentamos um benchmark projetado para avaliar as habilidades dos modelos de seguir múltiplas instruções por meio de tarefas sequenciais de seguimento de instruções (SIFo). No SIFo, a conclusão bem-sucedida de múltiplas instruções é verificável examinando apenas a instrução final. Nosso benchmark avalia o seguimento de instruções usando quatro tarefas (modificação de texto, resposta a perguntas, matemática e seguimento de regras de segurança), cada uma avaliando diferentes aspectos do seguimento de instruções sequenciais. Nossa avaliação de LLMs populares, tanto de código fechado quanto de código aberto, mostra que modelos mais recentes e maiores superam significativamente seus antecessores mais antigos e menores nas tarefas SIFo, validando a eficácia do benchmark. Todos os modelos enfrentam dificuldades em seguir sequências de instruções, indicando uma importante falta de robustez nos modelos de linguagem atuais.
Descrevemos a previsão precisa das afinidades de interação ligante-proteína (LPI), também conhecidas como interações fármaco-alvo (DTI), com modelos de linguagem pequenos generativos pré-treinados e ajustados por instruções (SLMs). Alcançamos previsões precisas para uma variedade de valores de afinidade associados às interações ligante-proteína em dados fora da amostra em um cenário de zero-shot. Apenas a sequência SMILES do ligante e a sequência de aminoácidos da proteína foram usadas como entradas do modelo. Nossos resultados demonstram uma clara melhoria em relação aos métodos baseados em aprendizado de máquina (ML) e perturbação de energia livre (FEP+) na previsão precisa de uma variedade de afinidades de interação ligante-proteína, o que pode ser aproveitado para acelerar ainda mais campanhas de descoberta de medicamentos contra alvos terapêuticos desafiadores.
O desaprendizado exato foi inicialmente introduzido como um mecanismo de privacidade que permitia a um usuário retirar seus dados dos modelos de aprendizado de máquina mediante solicitação. Pouco tempo depois, esquemas inexatos foram propostos para mitigar os custos impraticáveis associados ao desaprendizado exato. Mais recentemente, o desaprendizado é frequentemente discutido como uma abordagem para a remoção de conhecimento inadmissível, ou seja, conhecimento que o modelo não deve possuir, como informações não licenciadas por direitos autorais, imprecisas ou maliciosas. A promessa é que se o modelo não possui uma determinada capacidade maliciosa, então ele não pode ser usado para o propósito malicioso associado. Neste artigo, revisitamos o paradigma no qual o desaprendizado é utilizado em Modelos de Linguagem Grandes (LLMs) e destacamos uma inconsistência subjacente decorrente do aprendizado em contexto. O desaprendizado pode ser um mecanismo de controle eficaz para a fase de treinamento, no entanto, ele não impede o modelo de realizar uma ação inadmissível durante a inferência. Introduzimos o conceito de desdesaprendizado, onde o conhecimento desaprendido é reintroduzido em contexto, tornando efetivamente o modelo capaz de se comportar como se conhecesse o conhecimento esquecido. Como resultado, argumentamos que será necessária a filtragem de conteúdo para conhecimento inadmissível e mesmo os esquemas de desaprendizado exato não são suficientes para uma regulamentação de conteúdo eficaz. Discutimos a viabilidade do desdesaprendizado para os LLMs modernos e examinamos as implicações mais amplas.
Os sistemas de IA de vanguarda, incluindo grandes modelos de linguagem (LLMs), exercem uma influência crescente sobre a epistemologia dos usuários humanos. Essa influência pode reforçar os valores sociais predominantes, potencialmente contribuindo para a consolidação de crenças morais equivocadas e, consequentemente, a perpetuação de práticas morais problemáticas em larga escala. Introduzimos o alinhamento de progresso como uma solução técnica para mitigar esse risco iminente. Algoritmos de alinhamento de progresso aprendem a imitar os mecanismos do progresso moral humano, abordando assim a suscetibilidade dos métodos de alinhamento existentes a pontos cegos morais contemporâneos. Para capacitar a pesquisa em alinhamento de progresso, apresentamos o ProgressGym, um framework experimental que permite aprender os mecanismos de progresso moral a partir da história, a fim de facilitar futuros avanços em decisões morais do mundo real. Aproveitando 9 séculos de texto histórico e 18 LLMs históricos, o ProgressGym possibilita a codificação de desafios reais de alinhamento de progresso em benchmarks concretos. Especificamente, introduzimos três desafios principais: rastrear valores em evolução (PG-Follow), antecipar preventivamente o progresso moral (PG-Predict) e regular o ciclo de feedback entre mudanças de valores humanos e de IA (PG-Coevolve). Métodos de alinhamento sem uma dimensão temporal são inaplicáveis para essas tarefas. Em resposta, apresentamos algoritmos vitalícios e extrapolativos como métodos básicos de alinhamento de progresso, e construímos um leaderboard aberto solicitando novos algoritmos e desafios. O framework e o leaderboard estão disponíveis em https://github.com/PKU-Alignment/ProgressGym e https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard, respectivamente.