Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de visão-linguagem existentes (VLMs) geralmente dependem principalmente de codificadores de visão para extrair características visuais seguidas por grandes modelos de linguagem (LLMs) para tarefas de visão-linguagem. No entanto, os codificadores de visão estabelecem um viés indutivo forte na abstração da representação visual, por exemplo, resolução, proporção de aspecto e prioridades semânticas, o que poderia prejudicar a flexibilidade e eficiência dos VLMs. Treinar VLMs puros que aceitem entradas de visão e linguagem de forma contínua, ou seja, sem codificadores de visão, continua sendo um desafio e raramente explorado. Observações empíricas revelam que o treinamento direto sem codificadores resulta em convergência lenta e grandes lacunas de desempenho. Neste trabalho, nós aproximamos o abismo entre modelos baseados em codificadores e modelos sem codificadores, e apresentamos uma receita de treinamento simples, porém eficaz, para VLMs puros. Especificamente, revelamos os aspectos-chave do treinamento eficiente de VLMs sem codificadores por meio de experimentos detalhados: (1) Unindo a representação de visão-linguagem dentro de um único decodificador unificado; (2) Aprimorando a capacidade de reconhecimento visual por meio de supervisão adicional. Com essas estratégias, lançamos o EVE, um modelo de visão-linguagem sem codificador que pode ser treinado e utilizado de forma eficiente. Notavelmente, utilizando apenas 35M de dados publicamente acessíveis, o EVE pode impressionantemente rivalizar com os VLMs baseados em codificadores de capacidades similares em múltiplos benchmarks de visão-linguagem. Ele supera significativamente o Fuyu-8B correspondente, com procedimentos de treinamento misteriosos e dados de treinamento não divulgados. Acreditamos que o EVE oferece uma rota transparente e eficiente para o desenvolvimento de uma arquitetura puramente baseada em decodificadores em diversas modalidades. Nosso código e modelos estão disponíveis publicamente em: https://github.com/baaivision/EVE.
Este relatório apresenta o FunAudioLLM, uma família de modelos projetada para aprimorar interações de voz naturais entre humanos e grandes modelos de linguagem (LLMs). Em seu núcleo estão dois modelos inovadores: SenseVoice, que lida com reconhecimento de fala multilíngue, reconhecimento de emoções e detecção de eventos de áudio; e CosyVoice, que facilita a geração de fala natural com controle sobre múltiplos idiomas, timbre, estilo de fala e identidade do locutor. O SenseVoice-Small oferece ASR de latência excepcionalmente baixa para 5 idiomas, e o SenseVoice-Large suporta ASR de alta precisão para mais de 50 idiomas, enquanto o CosyVoice se destaca na geração de voz multilíngue, aprendizado in-contexto de zero-shot, clonagem de voz cross-lingual e capacidades de seguir instruções. Os modelos relacionados ao SenseVoice e CosyVoice foram disponibilizados em código aberto no Modelscope e Huggingface, juntamente com os códigos correspondentes de treinamento, inferência e ajuste fino lançados no GitHub. Ao integrar esses modelos com LLMs, o FunAudioLLM possibilita aplicações como tradução de fala para fala, bate-papo de voz emocional, podcasts interativos e narração expressiva de audiolivros, empurrando assim os limites da tecnologia de interação por voz. Demonstrativos estão disponíveis em https://fun-audio-llm.github.io, e o código pode ser acessado em https://github.com/FunAudioLLM.
A autoatenção tem um bom desempenho em contextos longos, mas possui complexidade quadrática. As camadas de RNN existentes têm complexidade linear, porém seu desempenho em contextos longos é limitado pela capacidade expressiva de seu estado oculto. Propomos uma nova classe de camadas de modelagem de sequência com complexidade linear e um estado oculto expressivo. A ideia principal é tornar o estado oculto um modelo de aprendizado de máquina em si e a regra de atualização um passo de aprendizado auto-supervisionado. Uma vez que o estado oculto é atualizado por meio de treinamento, mesmo em sequências de teste, nossas camadas são chamadas de camadas de Treinamento em Tempo de Teste (TTT). Consideramos duas instâncias: TTT-Linear e TTT-MLP, cujo estado oculto é um modelo linear e um MLP de duas camadas, respectivamente. Avaliamos nossas instâncias na escala de 125M a 1.3B parâmetros, comparando com um Transformer forte e o Mamba, uma RNN moderna. Tanto o TTT-Linear quanto o TTT-MLP correspondem ou superam as referências. Assim como o Transformer, eles conseguem reduzir a perplexidade ao condicionar em mais tokens, enquanto o Mamba não consegue após 16k contextos. Com otimização preliminar dos sistemas, o TTT-Linear já é mais rápido que o Transformer em 8k contextos e corresponde ao Mamba em tempo de parede. O TTT-MLP ainda enfrenta desafios em memória I/O, mas mostra um maior potencial em contextos longos, apontando para uma direção promissora para pesquisas futuras.
Os avanços na IA generativa ampliaram as potenciais aplicações dos Modelos de Linguagem Grandes (LLMs) no desenvolvimento de agentes autônomos. Alcançar verdadeira autonomia requer acumular e atualizar conhecimento adquirido por interações com o ambiente e utilizá-lo de forma eficaz. As abordagens atuais baseadas em LLM aproveitam experiências passadas usando um histórico completo de observações, sumarização ou aumento por recuperação. No entanto, essas representações de memória não estruturadas não facilitam o raciocínio e planejamento essenciais para tomadas de decisão complexas. Em nosso estudo, apresentamos o AriGraph, um método inovador no qual o agente constrói um grafo de memória que integra memórias semânticas e episódicas enquanto explora o ambiente. Essa estrutura de grafo facilita a recuperação associativa eficiente de conceitos interconectados, relevantes para o estado atual e objetivos do agente, servindo assim como um modelo ambiental eficaz que aprimora as capacidades exploratórias e de planejamento do agente. Demonstramos que nosso agente Ariadne LLM, equipado com essa arquitetura de memória proposta, aumentada com planejamento e tomada de decisão, lida efetivamente com tarefas complexas em uma base de zero-shot no ambiente TextWorld. Nossa abordagem supera significativamente métodos estabelecidos como histórico completo, sumarização e Geração com Recuperação Aumentada em várias tarefas, incluindo o desafio culinário da competição First TextWorld Problems e tarefas inéditas como limpeza de casa e Caça ao Tesouro de quebra-cabeça.
A recente emergência de Modelos de Linguagem de Visão Médica em Grande Escala (Med-LVLMs) tem aprimorado o diagnóstico médico. No entanto, os atuais Med-LVLMs frequentemente encontram problemas factuais, gerando respostas que não estão alinhadas com fatos médicos estabelecidos. A Geração Aprimorada por Recuperação (RAG), que utiliza conhecimento externo, pode melhorar a precisão factual desses modelos, mas introduz dois desafios principais. Primeiro, contextos recuperados limitados podem não abranger todas as informações necessárias, enquanto uma recuperação excessiva pode introduzir referências irrelevantes e imprecisas, interferindo na geração do modelo. Segundo, em casos em que o modelo responde corretamente originalmente, a aplicação do RAG pode levar a uma dependência excessiva de contextos recuperados, resultando em respostas incorretas. Para lidar com esses problemas, propomos RULE, que consiste em dois componentes. Primeiramente, introduzimos uma estratégia comprovadamente eficaz para controlar o risco de factualidade por meio da seleção calibrada do número de contextos recuperados. Em segundo lugar, com base em amostras onde a dependência excessiva de contextos recuperados levou a erros, criamos um conjunto de dados de preferência para ajustar o modelo, equilibrando sua dependência entre o conhecimento inerente e os contextos recuperados para geração. Demonstramos a eficácia de RULE em três conjuntos de dados de VQA médica, alcançando uma melhoria média de 20,8% na precisão factual. Disponibilizamos publicamente nosso benchmark e código em https://github.com/richard-peng-xia/RULE.
Dada a ubiquidade dos gráficos como uma ferramenta de análise de dados, visualização e tomada de decisão em diversas indústrias e ciências, tem havido um crescente interesse no desenvolvimento de modelos de base pré-treinados, bem como modelos ajustados para instruções de propósito geral para compreensão e raciocínio de gráficos. No entanto, os métodos existentes sofrem de desvantagens cruciais em dois eixos críticos que afetam o desempenho dos modelos de representação de gráficos: eles são treinados em dados gerados a partir das tabelas de dados subjacentes dos gráficos, ignorando as tendências visuais e padrões nas imagens dos gráficos, e utilizam modelos de base visão-linguagem fracamente alinhados para treinamento específico de domínio, limitando sua generalizabilidade ao encontrar gráficos na prática. Abordamos essas desvantagens importantes e apresentamos o ChartGemma, um novo modelo de compreensão e raciocínio de gráficos desenvolvido sobre o PaliGemma. Em vez de depender de tabelas de dados subjacentes, o ChartGemma é treinado em dados de ajuste de instruções gerados diretamente a partir de imagens de gráficos, capturando assim tanto as tendências de alto nível quanto as informações visuais de baixo nível de um conjunto diversificado de gráficos. Nossa abordagem simples alcança resultados de ponta em 5 benchmarks que abrangem sumarização de gráficos, resposta a perguntas e verificação de fatos, e nossos estudos qualitativos detalhados em gráficos do mundo real mostram que o ChartGemma gera resumos mais realistas e factualmente corretos em comparação com seus contemporâneos. Disponibilizamos o código, checkpoints do modelo, conjunto de dados e demonstrações em https://github.com/vis-nlp/ChartGemma.
Os humanos compartilham uma ampla variedade de imagens relacionadas às suas experiências pessoais em conversas por meio de ferramentas de mensagens instantâneas. No entanto, os trabalhos existentes se concentram (1) no comportamento de compartilhamento de imagens em sessões individuais, levando a uma interação social limitada a longo prazo, e (2) na falta de comportamento personalizado de compartilhamento de imagens. Neste trabalho, apresentamos Stark, um conjunto de dados de conversação multi-modal em larga escala de longo prazo que abrange uma ampla gama de personas sociais em um formato multi-modal, intervalos de tempo e imagens. Para construir o Stark automaticamente, propomos um novo framework de contextualização multi-modal, Mcu, que gera diálogos multi-modais de longo prazo destilados do ChatGPT e de nosso alinhador de imagens Propor-e-Executar proposto. Usando nosso Stark, treinamos um modelo de conversação multi-modal, Ultron 7B, que demonstra uma impressionante capacidade de imaginação visual. Além disso, demonstramos a eficácia de nosso conjunto de dados em avaliação humana. Disponibilizamos publicamente nosso código-fonte e conjunto de dados.
Os grandes modelos de linguagem (LLMs) têm feito progressos impressionantes na resolução de problemas matemáticos simples, no entanto, ainda enfrentam dificuldades com tarefas matemáticas mais desafiadoras e complexas. Neste artigo, apresentamos uma série de LLMs que emprega a Decomposição do pensamento com assistência de código e auto correção para raciocínio matemático, denominada DotaMath. Os modelos DotaMath lidam com tarefas matemáticas complexas ao decompor em subtarefas lógicas mais simples, aproveitando o código para resolver essas subtarefas, obtendo feedback detalhado do intérprete de código e se envolvendo em autorreflexão e correção. Ao anotar diversas trajetórias de uso de ferramentas interativas e empregar evolução de consultas nos conjuntos de dados GSM8K e MATH, geramos um conjunto de dados de ajuste fino de instruções chamado DotaMathQA com 574 mil pares de consulta-resposta. Treinamos uma série de LLMs base usando aprendizado por imitação no DotaMathQA, resultando em modelos DotaMath que alcançam desempenho notável em comparação com LLMs de código aberto em vários benchmarks dentro e fora do domínio. Notavelmente, o DotaMath-deepseek-7B demonstra um desempenho excepcional de 64,8% no competitivo conjunto de dados MATH e 86,7% no GSM8K. Além disso, o DotaMath-deepseek-7B mantém forte competitividade em uma série de benchmarks dentro e fora do domínio (Média de 80,1%). Olhando para o futuro, antecipamos que o paradigma DotaMath abrirá novos caminhos para lidar com problemas matemáticos intrincados. Nosso código está publicamente disponível em https://github.com/ChengpengLi1003/DotaMath.
Este artigo apresenta o LLM-jp, um projeto interorganizacional para a pesquisa e desenvolvimento de modelos de linguagem grandes japoneses (LLMs). O LLM-jp tem como objetivo desenvolver LLMs japoneses de código aberto e robustos, e até o momento desta escrita, mais de 1.500 participantes da academia e da indústria estão trabalhando juntos para esse fim. Este artigo apresenta o contexto da criação do LLM-jp, resumos de suas atividades e relatórios técnicos sobre os LLMs desenvolvidos pelo LLM-jp. Para as últimas atividades, visite https://llm-jp.nii.ac.jp/en/.
Beneficiando-se dos avanços em grandes modelos de linguagem e alinhamento cruzado modal, os métodos existentes de compreensão de vídeo multimodal alcançaram um desempenho proeminente em cenários offline. No entanto, os fluxos de vídeo online, como uma das formas de mídia mais comuns no mundo real, raramente receberam atenção. Comparado aos vídeos offline, a natureza 'dinâmica' dos fluxos de vídeo online apresenta desafios para a aplicação direta de modelos existentes e introduz novos problemas, como o armazenamento de informações extremamente de longo prazo, interação entre conteúdo visual contínuo e perguntas de usuários 'assíncronas'. Portanto, neste artigo, apresentamos o Flash-VStream, um modelo de vídeo-linguagem que simula o mecanismo de memória humana. Nosso modelo é capaz de processar fluxos de vídeo extremamente longos em tempo real e responder a consultas de usuários simultaneamente. Em comparação com modelos existentes, o Flash-VStream alcança reduções significativas na latência de inferência e no consumo de VRAM, o que está intimamente relacionado à compreensão de vídeo em streaming online. Além disso, dado que os benchmarks existentes de compreensão de vídeo predominantemente se concentram em cenários offline, propomos o VStream-QA, um novo benchmark de perguntas e respostas especificamente projetado para a compreensão de vídeo em streaming online. Comparando com métodos existentes populares no benchmark proposto, demonstramos a superioridade de nosso método para esse ambiente desafiador. Para verificar a generalizabilidade de nossa abordagem, avaliamos ainda mais em benchmarks existentes de compreensão de vídeo e alcançamos um desempenho de ponta também em cenários offline. Todo o código, modelos e conjuntos de dados estão disponíveis em https://invinciblewyq.github.io/vstream-page/
Protocolos de supervisão escaláveis têm como objetivo permitir que os humanos supervisionem com precisão a inteligência artificial super-humana. Neste artigo, estudamos o debate, no qual dois AIs competem para convencer um juiz; consultoria, onde um único AI tenta convencer um juiz que faz perguntas; e comparamos com uma linha de base de pergunta-resposta direta, na qual o juiz simplesmente responde sem rodeios ao AI. Utilizamos grandes modelos de linguagem (LLMs) tanto como agentes de AI quanto como substitutos de juízes humanos, considerando os modelos de juízes mais fracos que os modelos de agentes. Realizamos benchmarking em uma ampla gama de assimetrias entre juízes e agentes, ampliando trabalhos anteriores em uma única tarefa extrativa de pergunta-resposta com assimetria de informação, incluindo também assimetrias em matemática, programação, lógica e raciocínio multimodal. Descobrimos que o debate supera a consultoria em todas as tarefas quando o consultor é designado aleatoriamente para argumentar a favor da resposta correta/incorreta. Ao comparar o debate com a pergunta-resposta direta, os resultados dependem do tipo de tarefa: em tarefas extrativas de pergunta-resposta com assimetria de informação, o debate supera a pergunta-resposta direta, mas em outras tarefas sem assimetria de informação, os resultados são mistos. Trabalhos anteriores designaram aos debatedores/consultores uma resposta para argumentar. Quando permitimos que escolham qual resposta argumentar, descobrimos que os juízes são menos frequentemente convencidos pela resposta errada no debate do que na consultoria. Além disso, observamos que modelos de debatedores mais fortes aumentam a precisão dos juízes, embora de forma mais modesta do que em estudos anteriores.
LLMs são conhecidos por serem vulneráveis a ataques de jailbreak, mesmo após alinhamento de segurança. Uma observação importante é que, embora diferentes tipos de ataques de jailbreak possam gerar consultas significativamente diferentes, geralmente resultam em respostas semelhantes enraizadas no mesmo conhecimento prejudicial (por exemplo, passos detalhados para fazer uma bomba). Portanto, conjecturamos que desaprender diretamente o conhecimento prejudicial no LLM pode ser uma maneira mais eficaz de se defender contra ataques de jailbreak do que abordagens baseadas em ajuste fino supervisionado (SFT) convencionais. Nossos experimentos extensivos confirmaram nossa percepção e sugeriram uma surpreendente generalizabilidade de nossa abordagem de desaprendizagem: usando apenas 20 perguntas prejudiciais sem nenhum prompt de jailbreak durante o treinamento, nossa solução reduziu a Taxa de Sucesso do Ataque (ASR) no Vicuna-7B em perguntas prejudiciais fora da distribuição (OOD) envoltas em vários prompts complexos de jailbreak de 82,6% para 7,7%. Isso supera significativamente o Llama2-7B-Chat, que é ajustado fino em cerca de 0,1M de amostras de alinhamento de segurança, mas ainda tem uma ASR de 21,9% mesmo com a ajuda de um prompt adicional do sistema de segurança. Uma análise adicional revela que a capacidade de generalização de nossa solução advém da relação intrínseca entre respostas prejudiciais em perguntas prejudiciais (por exemplo, padrões de resposta, passos e ações compartilhados, e similaridade entre suas representações aprendidas no LLM). Nosso código está disponível em https://github.com/thu-coai/SafeUnlearning.
Modelos de base multimodais que podem processar de forma holística texto juntamente com imagens, vídeo, áudio e outras modalidades sensoriais estão sendo cada vez mais utilizados em uma variedade de aplicações do mundo real. No entanto, é desafiador caracterizar e estudar o progresso em modelos de base multimodais, dada a gama de possíveis decisões de modelagem, tarefas e domínios. Neste artigo, introduzimos a Avaliação Holística de Modelos Multimodais (HEMM) para avaliar sistematicamente as capacidades de modelos de base multimodais em um conjunto de 3 dimensões: habilidades básicas, fluxo de informação e casos de uso do mundo real. As habilidades multimodais básicas são habilidades internas necessárias para resolver problemas, como aprender interações entre modalidades, alinhamento detalhado, raciocínio de vários passos e a capacidade de lidar com conhecimento externo. O fluxo de informação estuda como o conteúdo multimodal muda durante uma tarefa por meio de consultas, tradução, edição e fusão. Os casos de uso abrangem desafios específicos do domínio introduzidos em multimídia do mundo real, computação afetiva, ciências naturais, saúde e aplicações de interação humano-computador. Através de experimentos abrangentes nas 30 tarefas em HEMM, identificamos (1) dimensões-chave de conjuntos de dados (por exemplo, habilidades básicas, fluxos de informação e casos de uso) que representam desafios para os modelos atuais e (2) tendências de desempenho sobre como diferentes dimensões de modelagem (por exemplo, escala, dados de pré-treinamento, alinhamento multimodal, pré-treinamento e objetivos de ajuste de instrução) influenciam o desempenho. Nossas conclusões sobre interações multimodais desafiadoras, casos de uso e tarefas que requerem raciocínio e conhecimento externo, os benefícios da escala de dados e modelo, e os impactos do ajuste de instrução fornecem insights acionáveis para trabalhos futuros em modelos de base multimodais.
Os campos de radiância neural (NeRFs) têm recebido significativa atenção devido à sua capacidade de renderização de novas visualizações de alta qualidade, motivando pesquisas para lidar com vários casos do mundo real. Um desafio crítico é o desfoque de movimento da câmera causado pelo movimento da câmera durante o tempo de exposição, o que impede a reconstrução precisa de cenas 3D. Neste estudo, propomos o splatting gaussiano contínuo consciente do movimento rígido (CRiM-GS) para reconstruir uma cena 3D precisa a partir de imagens borradas com velocidade de renderização em tempo real. Considerando o processo real de desfoque de movimento da câmera, que consiste em padrões de movimento complexos, prevemos o movimento contínuo da câmera com base em equações diferenciais ordinárias neurais (ODEs). Especificamente, utilizamos transformações de corpos rígidos para modelar o movimento da câmera com regularização adequada, preservando a forma e o tamanho do objeto. Além disso, introduzimos uma transformação 3D deformável contínua no campo SE(3) para adaptar a transformação de corpo rígido a problemas do mundo real, garantindo um maior grau de liberdade. Ao revisitar a teoria fundamental da câmera e empregar técnicas avançadas de treinamento de redes neurais, alcançamos uma modelagem precisa de trajetórias contínuas da câmera. Realizamos experimentos extensivos, demonstrando um desempenho de ponta tanto quantitativa quanto qualitativamente em conjuntos de dados de referência.
Os Modelos de Linguagem Visual (VLMs) estão avançando rapidamente em sua capacidade de responder a perguntas em busca de informações. Como esses modelos são amplamente utilizados em aplicações de consumo, eles poderiam levar a novos riscos de privacidade devido às habilidades emergentes de identificar pessoas em fotos, geolocalizar imagens, etc. Como demonstramos, de forma um tanto surpreendente, os atuais VLMs de código aberto e proprietários são geolocalizadores de imagem muito capazes, tornando a geolocalização generalizada com VLMs um risco imediato à privacidade, em vez de ser apenas uma preocupação teórica futura. Como primeiro passo para enfrentar esse desafio, desenvolvemos um novo benchmark, GPTGeoChat, para testar a capacidade dos VLMs de moderar diálogos de geolocalização com usuários. Coletamos um conjunto de 1.000 conversas de geolocalização de imagens entre anotadores internos e GPT-4v, que são anotadas com a granularidade das informações de localização reveladas em cada turno. Usando este novo conjunto de dados, avaliamos a capacidade de vários VLMs de moderar as conversas de geolocalização do GPT-4v, determinando quando muitas informações de localização foram reveladas. Descobrimos que modelos personalizados ajustados apresentam desempenho semelhante aos modelos baseados em API quando identificam informações de localização vazadas no nível do país ou da cidade; no entanto, o ajuste fino em dados supervisionados parece ser necessário para moderar com precisão granularidades mais finas, como o nome de um restaurante ou edifício.