Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Seed-Music, um conjunto de sistemas de geração de música capazes de produzir música de alta qualidade com controle de estilo refinado. Nosso framework unificado aproveita tanto modelagem de linguagem auto-regressiva quanto abordagens de difusão para suportar dois fluxos de trabalho-chave na criação de música: geração de música controlada e edição pós-produção. Para a geração de música controlada, nosso sistema permite a geração de música vocal com controles de desempenho a partir de entradas multimodais, incluindo descrições de estilo, referências de áudio, partituras musicais e prompts de voz. Para edição pós-produção, oferece ferramentas interativas para editar letras e melodias vocais diretamente no áudio gerado. Encorajamos os leitores a ouvir exemplos de áudio de demonstração em https://team.doubao.com/seed-music.
Os Transformers representam a pedra angular da aprendizagem profunda moderna. Tradicionalmente, esses modelos dependem de camadas de perceptron de múltiplas camadas (MLP) para misturar as informações entre os canais. Neste artigo, apresentamos o Transformador Kolmogorov-Arnold (KAT), uma arquitetura inovadora que substitui as camadas MLP por camadas da Rede Kolmogorov-Arnold (KAN) para aprimorar a expressividade e o desempenho do modelo. No entanto, integrar KANs aos transformers não é tarefa fácil, especialmente ao ampliar a escala. Identificamos especificamente três desafios principais: (C1) Função base. A função padrão de B-spline usada em KANs não é otimizada para computação paralela em hardware moderno, resultando em velocidades de inferência mais lentas. (C2) Ineficiência de parâmetros e computação. KAN requer uma função única para cada par de entrada-saída, tornando o cálculo extremamente grande. (C3) Inicialização de pesos. A inicialização de pesos em KANs é particularmente desafiadora devido às suas funções de ativação aprendíveis, que são essenciais para alcançar a convergência em redes neurais profundas. Para superar os desafios mencionados, propomos três soluções-chave: (S1) Base racional. Substituímos as funções de B-spline por funções racionais para melhorar a compatibilidade com GPUs modernas. Ao implementar isso em CUDA, alcançamos cálculos mais rápidos. (S2) Grupo KAN. Compartilhamos os pesos de ativação por meio de um grupo de neurônios para reduzir a carga computacional sem sacrificar o desempenho. (S3) Inicialização preservadora de variância. Inicializamos cuidadosamente os pesos de ativação para garantir que a variância de ativação seja mantida em todas as camadas. Com esses projetos, o KAT escala efetivamente e supera facilmente os transformers tradicionais baseados em MLP.
Modelos de Linguagem de grande escala (LLMs) baseados em Transformers estão se tornando cada vez mais importantes em vários domínios. No entanto, a complexidade temporal quadrática da operação de atenção representa um desafio significativo para a escalabilidade a contextos mais longos, devido à latência de inferência extremamente alta e ao consumo de memória da GPU para armazenar em cache vetores chave-valor (KV). Este artigo propõe o RetrievalAttention, uma abordagem sem treinamento para acelerar o cálculo de atenção. Para aproveitar a propriedade dinâmica esparsa da atenção, o RetrievalAttention constrói índices de busca de vizinhos mais próximos aproximados (ANNS) nos vetores KV na memória da CPU e recupera os mais relevantes por meio de busca vetorial durante a geração. Devido à distribuição fora do conjunto (OOD) entre vetores de consulta e vetores chave, os índices ANNS prontos para uso ainda precisam examinar O(N) (geralmente 30% de todas as chaves) de dados para uma recuperação precisa, o que falha em explorar a alta esparsidade. O RetrievalAttention identifica primeiro o desafio OOD da atenção baseada em ANNS e o aborda por meio de um algoritmo de busca vetorial consciente da atenção que pode se adaptar às consultas e acessar apenas 1-3% dos dados, alcançando assim uma complexidade temporal sublinear. O RetrievalAttention reduz significativamente o custo de inferência de LLMs de contexto longo com requisitos de memória de GPU muito menores, mantendo a precisão do modelo. Especificamente, o RetrievalAttention precisa apenas de 16GB de memória de GPU para processar 128K tokens em LLMs com 8B de parâmetros, sendo capaz de gerar um token em 0,188 segundos em uma única NVIDIA RTX4090 (24GB).
Apresentamos o jina-embeddings-v3, um modelo de incorporação de texto inovador com 570 milhões de parâmetros, que alcança desempenho de ponta em dados multilíngues e tarefas de recuperação de contexto longo, suportando comprimentos de contexto de até 8192 tokens. O modelo inclui um conjunto de adaptadores de Baixa Classificação Adaptativa (LoRA) específicos para tarefas para gerar incorporações de alta qualidade para recuperação de consulta-documento, agrupamento, classificação e correspondência de texto. Além disso, a Aprendizagem de Representação Matryoshka é integrada ao processo de treinamento, permitindo a truncagem flexível das dimensões de incorporação sem comprometer o desempenho. A avaliação no benchmark MTEB mostra que o jina-embeddings-v3 supera as últimas incorporações proprietárias da OpenAI e da Cohere em tarefas em inglês, enquanto alcança desempenho superior em comparação com o multilingual-e5-large-instruct em todas as tarefas multilíngues.
Os modelos de visão e linguagem evoluíram recentemente para sistemas versáteis capazes de alto desempenho em uma variedade de tarefas, como compreensão de documentos, resposta a perguntas visuais e ancoragem, frequentemente em configurações de zero-shot. A compreensão de quadrinhos, um campo complexo e multifacetado, tem muito a se beneficiar desses avanços. Os quadrinhos, como meio, combinam narrativas visuais e textuais ricas, desafiando os modelos de IA com tarefas que abrangem classificação de imagens, detecção de objetos, segmentação de instâncias e compreensão narrativa mais profunda por meio de painéis sequenciais. No entanto, a estrutura única dos quadrinhos - caracterizada por variações criativas em estilo, ordem de leitura e narrativa não linear - apresenta um conjunto de desafios distintos daqueles em outros domínios de visão e linguagem. Nesta pesquisa, apresentamos uma revisão abrangente da Compreensão de Quadrinhos tanto do ponto de vista de conjunto de dados quanto de tarefas. Nossas contribuições são cinco: (1) Analisamos a estrutura do meio dos quadrinhos, detalhando seus elementos composicionais distintivos; (2) Pesquisamos os conjuntos de dados e tarefas amplamente utilizados na pesquisa de quadrinhos, enfatizando seu papel no avanço do campo; (3) Introduzimos o framework Layer of Comics Understanding (LoCU), uma taxonomia inovadora que redefine tarefas de visão e linguagem dentro dos quadrinhos e lança as bases para trabalhos futuros; (4) Fornecemos uma revisão detalhada e categorização de métodos existentes seguindo o framework LoCU; (5) Por fim, destacamos os desafios atuais de pesquisa e propomos direções para exploração futura, especialmente no contexto de modelos de visão e linguagem aplicados a quadrinhos. Esta pesquisa é a primeira a propor um framework orientado para tarefas para inteligência de quadrinhos e tem como objetivo orientar futuras pesquisas abordando lacunas críticas na disponibilidade de dados e definição de tarefas. Um projeto associado a esta pesquisa está disponível em https://github.com/emanuelevivoli/awesome-comics-understanding.
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se indispensáveis em inúmeras aplicações do mundo real. Infelizmente, ajustar esses modelos em larga escala, especialmente em ambientes federados onde a privacidade de dados e eficiência de comunicação são críticas, apresenta desafios significativos. Métodos existentes frequentemente recorrem ao ajuste eficiente de parâmetros (PEFT) para mitigar a sobrecarga de comunicação, mas isso geralmente resulta na redução da precisão do modelo. Para lidar com essas limitações, propomos o ajuste federado de todos os parâmetros em larga escala para LLMs (Ferret), o primeiro método de primeira ordem com aleatoriedade compartilhada para permitir o ajuste escalável de todos os parâmetros de LLMs em fontes de dados descentralizadas, mantendo uma precisão de modelo competitiva. Ferret alcança isso por meio de três aspectos: (1) ele emprega métodos de primeira ordem amplamente aplicados para atualizações locais eficientes; (2) projeta essas atualizações em um espaço de baixa dimensionalidade para reduzir consideravelmente a sobrecarga de comunicação; e (3) reconstrói as atualizações locais a partir desse espaço de baixa dimensionalidade com aleatoriedade compartilhada para facilitar uma agregação global eficaz de todos os parâmetros, garantindo uma convergência rápida e um desempenho final competitivo. Nossas análises teóricas rigorosas e insights, juntamente com experimentos extensivos, mostram que o Ferret melhora significativamente a escalabilidade dos métodos existentes de ajuste federado de todos os parâmetros, alcançando alta eficiência computacional, redução da sobrecarga de comunicação e rápida convergência, tudo isso mantendo uma precisão de modelo competitiva. Nossa implementação está disponível em https://github.com/allen4747/Ferret.
Apresentamos o Diagrama do Pensamento (DoT), um framework que modela o raciocínio iterativo em grandes modelos de linguagem (LLMs) como a construção de um grafo direcionado acíclico (DAG) dentro de um único modelo. Ao contrário de abordagens tradicionais que representam o raciocínio como cadeias lineares ou árvores, o DoT organiza proposições, críticas, refinamentos e verificações em uma estrutura coesa de DAG, permitindo que o modelo explore caminhos de raciocínio complexos mantendo a consistência lógica. Cada nó no diagrama corresponde a uma proposição que foi proposta, criticada, refinada ou verificada, permitindo que o LLM melhore iterativamente seu raciocínio por meio de feedback em linguagem natural. Ao alavancar a previsão auto-regressiva do próximo token com tokens específicos de função, o DoT facilita transições contínuas entre a proposição de ideias e a avaliação crítica delas, fornecendo um feedback mais rico do que sinais binários. Além disso, formalizamos o framework DoT usando a Teoria dos Topos, fornecendo uma base matemática que garante consistência lógica e solidez no processo de raciocínio. Essa abordagem aprimora tanto os processos de treinamento quanto de inferência dentro de um único LLM, eliminando a necessidade de múltiplos modelos ou mecanismos de controle externos. O DoT oferece um framework conceitual para o design de modelos especializados em raciocínio de próxima geração, enfatizando a eficiência de treinamento, capacidades de raciocínio robustas e fundamentação teórica. O código está disponível em https://github.com/diagram-of-thought/diagram-of-thought.
Modelos de linguagem de áudio de vocabulário aberto, como CLAP, oferecem uma abordagem promissora para classificação de áudio de zero-shot (ZSAC) ao permitir a classificação com qualquer conjunto arbitrário de categorias especificadas com prompts de linguagem natural. Neste artigo, propomos um método simples, porém eficaz, para melhorar o ZSAC com o CLAP. Especificamente, mudamos do método convencional de usar prompts com rótulos de categoria abstratos (por exemplo, Som de um órgão) para prompts que descrevem sons usando suas características descritivas inerentes em um contexto diversificado (por exemplo, Os tons profundos e ressonantes do órgão preencheram a catedral). Para alcançar isso, primeiro propomos o ReCLAP, um modelo CLAP treinado com legendas de áudio reescritas para melhor compreensão de sons na natureza. Essas legendas reescritas descrevem cada evento sonoro na legenda original usando suas características discriminativas únicas. O ReCLAP supera todos os baselines tanto na recuperação de áudio-texto multimodal quanto no ZSAC. Em seguida, para melhorar a classificação de áudio de zero-shot com o ReCLAP, propomos a ampliação de prompts. Ao contrário do método tradicional de empregar prompts de modelo pré-escritos, geramos prompts personalizados para cada rótulo único no conjunto de dados. Esses prompts personalizados descrevem primeiro o evento sonoro no rótulo e depois os empregam em cenas diversas. Nosso método proposto melhora o desempenho do ReCLAP no ZSAC em 1%-18% e supera todos os baselines em 1%-55%.
A Question-Answering Visual (VQA) tornou-se um caso de uso fundamental em várias aplicações para auxiliar a experiência do usuário, especialmente após os Modelos de Visão-Linguagem (VLMs) alcançarem bons resultados na inferência de zero-shot. No entanto, avaliar diferentes VLMs para um requisito de aplicação usando um framework padronizado em ambientes práticos ainda é desafiador. Este artigo apresenta um framework abrangente para avaliar VLMs adaptados às tarefas de VQA em ambientes práticos. Apresentamos um conjunto de dados inovador derivado de benchmarks de VQA estabelecidos, anotados com tipos de tarefas, domínios de aplicação e tipos de conhecimento, três aspectos práticos-chave nos quais as tarefas podem variar. Também introduzimos o GoEval, uma métrica de avaliação multimodal desenvolvida usando o GPT-4o, alcançando um fator de correlação de 56,71% com julgamentos humanos. Nossos experimentos com dez VLMs de ponta revelam que nenhum modelo único se destaca universalmente, tornando a seleção apropriada uma decisão de design fundamental. Modelos proprietários como Gemini-1.5-Pro e GPT-4o-mini geralmente superam os demais, embora modelos de código aberto como InternVL-2-8B e CogVLM-2-Llama-3-19B demonstrem forças competitivas em contextos específicos, ao mesmo tempo que oferecem vantagens adicionais. Este estudo orienta a seleção de VLMs com base em requisitos de tarefas específicas e restrições de recursos, e também pode ser estendido a outras tarefas de visão-linguagem.
A aprendizagem por reforço a partir do feedback humano (RLHF) é uma das técnicas-chave que ajuda os grandes modelos de linguagem (LLMs) a seguir instruções e fornecer respostas úteis e inofensivas. Embora existam métodos de otimização de política direta, os LLMs de última geração adotam métodos baseados em RL (geralmente PPO) em RLHF para treinar a política a gerar boas respostas guiadas por um modelo de recompensa aprendido a partir de dados de preferência. O principal desafio desses métodos é a imprecisão do modelo de recompensa intermediário, especialmente em tarefas de geração de código que exigem raciocínio longo e complexo para pontuar uma resposta. Descobrimos que a confiabilidade do modelo de recompensa varia entre respostas atribuídas a diferentes recompensas. Isso nos motiva a filtrar as amostras cujas recompensas podem ser não confiáveis para melhorar a relação sinal-ruído durante o aprendizado da política, resultando em Filtragem de Política para Otimização de Política Próxima (PF-PPO). Para escolher uma estratégia apropriada de filtragem de política para um determinado modelo de recompensa, o coeficiente de determinação (R^2) entre recompensas e pontuações reais em amostras filtradas serve como uma boa métrica e nos ajuda a encontrar várias estratégias promissoras. Realizamos experimentos extensivos para validar a eficácia do PF-PPO em tarefas de geração de código e descobrimos que algumas variantes do PF-PPO são altamente eficazes e alcançam novos desempenhos de última geração em modelos de 7 bilhões de parâmetros no HumanEval, MBPP e em um novo e desafiador benchmark do LeetCode Contest.
Nosso trabalho examina a eficácia de empregar métodos avançados de aprendizado de máquina para resolver captchas do sistema reCAPTCHAv2 do Google. Avaliamos a eficácia de sistemas automatizados na resolução de captchas utilizando modelos YOLO avançados para segmentação e classificação de imagens. Nosso principal resultado é que podemos resolver 100% dos captchas, enquanto trabalhos anteriores só conseguiam resolver 68-71%. Além disso, nossas descobertas sugerem que não há diferença significativa no número de desafios que humanos e bots devem resolver para passar nos captchas no reCAPTCHAv2. Isso implica que as tecnologias de IA atuais podem explorar captchas avançados baseados em imagens. Também analisamos detalhadamente o funcionamento do reCAPTCHAv2 e encontramos evidências de que o reCAPTCHAv2 se baseia fortemente em dados de cookies e histórico do navegador ao avaliar se um usuário é humano ou não. O código está disponível junto a este artigo.
Estudos recentes identificaram que os modelos de linguagem, pré-treinados em conjuntos de dados apenas de texto, frequentemente carecem de conhecimento visual elementar, por exemplo, as cores de objetos do cotidiano. Motivados por essa observação, questionamos se uma deficiência semelhante existe em termos de conhecimento auditivo. Para responder a essa pergunta, construímos um novo conjunto de dados chamado AuditoryBench, que consiste em duas tarefas inovadoras para avaliar o conhecimento auditivo. Com base em nossa análise usando o benchmark, descobrimos que os modelos de linguagem também sofrem de uma grave falta de conhecimento auditivo. Para lidar com essa limitação, propomos o AudioBERT, um método inovador para aumentar o conhecimento auditivo do BERT por meio de uma abordagem baseada em recuperação. Primeiramente, detectamos trechos de conhecimento auditivo nas instruções para consultar eficientemente nosso modelo de recuperação. Em seguida, injetamos conhecimento auditivo no BERT e ativamos a adaptação de baixa classificação para uma adaptação eficaz quando o conhecimento auditivo é necessário. Nossos experimentos demonstram que o AudioBERT é bastante eficaz, alcançando um desempenho superior no AuditoryBench. O conjunto de dados e o código estão disponíveis em https://github.com/HJ-Ok/AudioBERT.
A imagem de raio-X do tórax (CXR) é uma ferramenta diagnóstica importante utilizada em hospitais para avaliar as condições dos pacientes e monitorar mudanças ao longo do tempo. Modelos generativos, especificamente modelos baseados em difusão, têm mostrado promessa na geração de imagens sintéticas realistas de raios-X. No entanto, esses modelos focam principalmente na geração condicional usando dados de um único ponto no tempo, ou seja, geralmente CXRs tirados em um momento específico com seus relatórios correspondentes, limitando sua utilidade clínica, especialmente para capturar mudanças temporais. Para lidar com essa limitação, propomos um novo framework, EHRXDiff, que prevê imagens futuras de CXR integrando CXRs anteriores com eventos médicos subsequentes, como prescrições, medidas laboratoriais, etc. Nosso framework rastreia e prevê dinamicamente a progressão da doença com base em um modelo de difusão latente, condicionado à imagem de CXR anterior e a um histórico de eventos médicos. Avaliamos abrangentemente o desempenho de nosso framework em três aspectos-chave, incluindo consistência clínica, consistência demográfica e realismo visual. Demonstramos que nosso framework gera imagens futuras de alta qualidade e realistas que capturam possíveis mudanças temporais, sugerindo seu potencial para um desenvolvimento adicional como uma ferramenta de simulação clínica. Isso poderia oferecer insights valiosos para monitoramento de pacientes e planejamento de tratamento no campo médico.
Sistemas de recomendação frequentemente utilizam informações textuais para melhorar suas previsões, especialmente em cenários de recomendação a frio ou de zero-shot, nos quais abordagens tradicionais de filtragem colaborativa não podem ser usadas. Muitas abordagens para mineração de informações textuais para sistemas de recomendação foram propostas nos últimos anos, sendo os Transformers de sentenças o mais proeminente. No entanto, esses modelos são treinados para prever similaridade semântica sem utilizar dados de interação com padrões ocultos específicos para sistemas de recomendação. Neste artigo, propomos o beeFormer, um framework para treinar modelos de Transformers de sentenças com dados de interação. Demonstramos que nossos modelos treinados com o beeFormer podem transferir conhecimento entre conjuntos de dados, superando não apenas os Transformers de sentenças de similaridade semântica, mas também métodos tradicionais de filtragem colaborativa. Mostramos também que o treinamento em vários conjuntos de dados de diferentes domínios acumula conhecimento em um único modelo, desbloqueando a possibilidade de treinar modelos universais de Transformers de sentenças, agnósticos de domínio, para minerar representações textuais para sistemas de recomendação. Disponibilizamos o código-fonte, modelos treinados e detalhes adicionais para replicação de nossos experimentos em https://github.com/recombee/beeformer.
A conversão grafema-fonema (G2P) é crucial no processamento de fala, especialmente para aplicações como síntese de fala. Os sistemas G2P devem possuir compreensão linguística e consciência contextual de idiomas com palavras polifônicas e fonemas dependentes de contexto. Modelos de linguagem grandes (LLMs) demonstraram recentemente um potencial significativo em várias tarefas linguísticas, sugerindo que seu conhecimento fonético poderia ser aproveitado para G2P. Neste artigo, avaliamos o desempenho de LLMs na conversão G2P e introduzimos métodos de prompt e pós-processamento que aprimoram as saídas do LLM sem treinamento adicional ou dados rotulados. Também apresentamos um conjunto de dados de referência projetado para avaliar o desempenho G2P em desafios fonéticos em nível de sentença da língua persa. Nossos resultados mostram que, ao aplicar os métodos propostos, os LLMs podem superar ferramentas G2P tradicionais, mesmo em um idioma sub-representado como o persa, destacando o potencial de desenvolver sistemas G2P auxiliados por LLMs.