Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório, apresentamos a série Qwen2.5-Coder, uma atualização significativa de seu antecessor, CodeQwen1.5. Esta série inclui dois modelos: Qwen2.5-Coder-1.5B e Qwen2.5-Coder-7B. Como um modelo específico para código, o Qwen2.5-Coder é construído sobre a arquitetura Qwen2.5 e continua pré-treinado em um vasto corpus de mais de 5,5 trilhões de tokens. Através de uma limpeza meticulosa de dados, geração escalável de dados sintéticos e mistura equilibrada de dados, o Qwen2.5-Coder demonstra impressionantes capacidades de geração de código mantendo ao mesmo tempo uma versatilidade geral. O modelo foi avaliado em uma ampla gama de tarefas relacionadas a código, alcançando desempenho de estado-da-arte (SOTA) em mais de 10 benchmarks, incluindo geração, conclusão, raciocínio e reparo de código, superando consistentemente modelos maiores do mesmo tamanho. Acreditamos que o lançamento da série Qwen2.5-Coder não apenas irá impulsionar os limites da pesquisa em inteligência de código, mas também, através de sua licença permissiva, incentivar uma adoção mais ampla por desenvolvedores em aplicações do mundo real.
Apresentamos a Série Qwen2-VL, uma atualização avançada dos modelos anteriores Qwen-VL que redefine a abordagem convencional de resolução predeterminada no processamento visual. O Qwen2-VL introduz o mecanismo de Resolução Dinâmica Ingênua, que permite ao modelo processar dinamicamente imagens de diferentes resoluções em números variados de tokens visuais. Essa abordagem permite que o modelo gere representações visuais mais eficientes e precisas, alinhando-se de perto com os processos perceptuais humanos. O modelo também integra o Embedding de Posição Rotativa Multimodal (M-RoPE), facilitando a fusão eficaz de informações posicionais em texto, imagens e vídeos. Empregamos um paradigma unificado para processar tanto imagens quanto vídeos, aprimorando as capacidades de percepção visual do modelo. Para explorar o potencial de grandes modelos multimodais, o Qwen2-VL investiga as leis de escalonamento para grandes modelos de visão-linguagem (LVLMs). Ao escalar tanto o tamanho do modelo - com versões de 2B, 8B e 72B parâmetros - quanto a quantidade de dados de treinamento, a Série Qwen2-VL alcança um desempenho altamente competitivo. Notavelmente, o modelo Qwen2-VL-72B alcança resultados comparáveis aos principais modelos como GPT-4o e Claude3.5-Sonnet em diversos benchmarks multimodais, superando outros modelos generalistas. O código está disponível em https://github.com/QwenLM/Qwen2-VL.
A compreensão textual ampla e a aprendizagem em contexto exigem modelos de linguagem que utilizem contextos completos de documentos. Devido aos desafios de implementação associados ao treinamento direto de modelos de longo contexto, muitos métodos foram propostos para estender modelos a lidar com contextos longos. No entanto, devido às diferenças nos dados e nas classes de modelos, tem sido desafiador comparar essas abordagens, levando à incerteza sobre como avaliar o desempenho de longo contexto e se difere da avaliação padrão. Implementamos um protocolo controlado para métodos de extensão com uma avaliação padronizada, utilizando modelos base consistentes e dados de extensão. Nosso estudo gera várias percepções sobre o comportamento de longo contexto. Primeiramente, reafirmamos o papel crítico da perplexidade como indicador de desempenho de propósito geral, mesmo em tarefas de contexto mais longo. Em segundo lugar, descobrimos que os métodos atuais de atenção aproximada sistematicamente têm desempenho inferior em tarefas de longo contexto. Por fim, confirmamos que os métodos exatos de ajuste fino são geralmente eficazes dentro da faixa de sua extensão, enquanto a extrapolação permanece desafiadora. Todos os códigos-fonte, modelos e checkpoints serão disponibilizados em código aberto, promovendo transparência e facilitando pesquisas adicionais nessa área crítica de desenvolvimento de IA.
A cadeia de pensamento (CoT) via indução é o método de facto para elicitar capacidades de raciocínio de grandes modelos de linguagem (LLMs). Mas para que tipos de tarefas esse "pensamento" extra é realmente útil? Para analisar isso, conduzimos uma meta-análise quantitativa abrangendo mais de 100 artigos que utilizam CoT e realizamos nossas próprias avaliações em 20 conjuntos de dados em 14 modelos. Nossos resultados mostram que o CoT proporciona fortes benefícios de desempenho principalmente em tarefas envolvendo matemática ou lógica, com ganhos muito menores em outros tipos de tarefas. No MMLU, gerar diretamente a resposta sem CoT leva a uma precisão quase idêntica ao CoT, a menos que a pergunta ou a resposta do modelo contenha um sinal de igual, indicando operações simbólicas e raciocínio. Seguindo essa descoberta, analisamos o comportamento do CoT nesses problemas, separando o planejamento da execução e comparando com LLMs aumentados por ferramentas. Grande parte do ganho do CoT vem da melhoria na execução simbólica, mas ele tem um desempenho inferior em relação ao uso de um solucionador simbólico. Nossos resultados indicam que o CoT pode ser aplicado seletivamente, mantendo o desempenho enquanto economiza custos de inferência. Além disso, eles sugerem a necessidade de avançar além do CoT baseado em indução para novos paradigmas que aproveitem melhor a computação intermediária em toda a gama de aplicações de LLM.
A personalização desempenha um papel crítico em inúmeras tarefas e aplicações linguísticas, uma vez que usuários com os mesmos requisitos podem preferir saídas diversas com base em seus interesses individuais. Isso levou ao desenvolvimento de várias abordagens personalizadas destinadas a adaptar grandes modelos de linguagem (LLMs) para gerar saídas personalizadas alinhadas com as preferências do usuário. Algumas delas envolvem o ajuste fino de um LLM personalizado único para cada usuário, o que é muito caro para uma aplicação generalizada. Abordagens alternativas introduzem informações de personalização de forma plug-and-play, recuperando os textos históricos relevantes do usuário como demonstrações. No entanto, essa estratégia baseada em recuperação pode quebrar a continuidade do histórico do usuário e falhar em capturar os estilos e padrões gerais do usuário, levando a um desempenho subótimo. Para enfrentar esses desafios, propomos um novo modelo de LLM personalizado. Ele constrói um embedding específico do usuário para cada indivíduo modelando todos os seus contextos históricos por meio de um módulo de incorporação de usuário leve e plugável. Ao anexar esse embedding à entrada da tarefa, os LLMs podem entender e capturar melhor os hábitos e preferências do usuário, produzindo assim saídas mais personalizadas sem ajustar seus próprios parâmetros. Experimentos extensivos em várias tarefas no benchmark de personalização de modelos de linguagem (LaMP) demonstram que o modelo proposto supera significativamente as abordagens existentes de LLM personalizado.
A afinação de preferências é um processo crucial para alinhar modelos generativos profundos com as preferências humanas. Esta pesquisa oferece uma visão abrangente dos avanços recentes na afinação de preferências e na integração do feedback humano. O artigo está organizado em três seções principais: 1) introdução e preliminares: uma introdução aos frameworks de aprendizado por reforço, tarefas de afinação de preferências, modelos e conjuntos de dados em várias modalidades: linguagem, fala e visão, bem como diferentes abordagens de política, 2) exame detalhado de cada abordagem de afinação de preferências: uma análise detalhada dos métodos utilizados na afinação de preferências, e 3) aplicações, discussão e direções futuras: uma exploração das aplicações da afinação de preferências em tarefas subsequentes, incluindo métodos de avaliação para diferentes modalidades, e uma visão sobre as futuras direções de pesquisa. Nosso objetivo é apresentar as últimas metodologias em afinação de preferências e alinhamento de modelos, aprimorando a compreensão deste campo para pesquisadores e profissionais. Esperamos incentivar maior engajamento e inovação nesta área.
Os modelos de Mixture-of-Experts (MoE) escalam de forma mais eficaz do que os modelos densos devido à computação esparsa por meio do roteamento de especialistas, ativando seletivamente apenas um pequeno subconjunto de módulos de especialistas. No entanto, os desafios da computação esparsa para as práticas de treinamento tradicionais, uma vez que o roteamento discreto de especialistas dificulta a retropropagação padrão e, portanto, a otimização baseada em gradientes, que são a pedra angular do aprendizado profundo. Para melhor explorar o poder de escalabilidade do MoE, introduzimos o GRIN (GRadient-INformed MoE training), que incorpora a estimativa esparsa de gradientes para o roteamento de especialistas e configura o paralelismo de modelos para evitar a eliminação de tokens. Aplicando o GRIN à modelagem de linguagem autoregressiva, desenvolvemos um modelo MoE top-2 de 16 vezes 3,8B. Nosso modelo, com apenas 6,6B de parâmetros ativados, supera um modelo denso de 7B e iguala o desempenho de um modelo denso de 14B treinado nos mesmos dados. Avaliações extensas em diversas tarefas demonstram o potencial do GRIN para melhorar significativamente a eficácia do MoE, alcançando 79,4 em MMLU, 83,7 em HellaSwag, 74,4 em HumanEval e 58,9 em MATH.
Com o advento da era do big data e dos grandes modelos de linguagem, a personalização rápida e personalizada sem necessidade de ajustes prévios emergiu como uma tendência significativa. Neste relatório, apresentamos o Takin AudioLLM, uma série de técnicas e modelos, incluindo principalmente o Takin TTS, Takin VC e Takin Morphing, especificamente projetados para a produção de audiolivros. Esses modelos são capazes de produção de fala sem necessidade de ajustes prévios, gerando fala de alta qualidade que é quase indistinguível da fala humana real e facilitando que indivíduos personalizem o conteúdo da fala de acordo com suas próprias necessidades. Especificamente, primeiro introduzimos o Takin TTS, um modelo de linguagem de codec neural que se baseia em um codec de fala neural aprimorado e em um framework de treinamento multi-tarefa, capaz de gerar fala natural de alta fidelidade de forma sem necessidade de ajustes prévios. Para o Takin VC, defendemos uma abordagem eficaz de modelagem conjunta de conteúdo e timbre para melhorar a similaridade do locutor, ao mesmo tempo que defendemos um decodificador baseado em fluxo condicional para aprimorar ainda mais sua naturalidade e expressividade. Por fim, propomos o sistema Takin Morphing com abordagens altamente desacopladas e avançadas de modelagem de timbre e prosódia, que permitem que os indivíduos personalizem a produção de fala com seu timbre e prosódia preferidos de maneira precisa e controlável. Experimentos extensivos validam a eficácia e robustez de nossos modelos da série Takin AudioLLM. Para demonstrações detalhadas, consulte https://takinaudiollm.github.io.
Embarcamos na busca ancestral: desvendar as dimensões ocultas de objetos a partir de meros vislumbres de suas partes visíveis. Para abordar isso, apresentamos Vista3D, um framework que realiza geração 3D rápida e consistente em meros 5 minutos. No cerne do Vista3D está uma abordagem em duas fases: a fase grosseira e a fase refinada. Na fase grosseira, geramos rapidamente geometria inicial com Splatting Gaussiano a partir de uma única imagem. Na fase refinada, extraímos uma Função de Distância Assinada (SDF) diretamente do Splatting Gaussiano aprendido, otimizando-a com uma representação de superfície iso diferenciável. Além disso, eleva a qualidade da geração ao utilizar uma representação desembaraçada com duas funções implícitas independentes para capturar tanto os aspectos visíveis quanto os obscurecidos dos objetos. Adicionalmente, harmoniza gradientes de uma difusão 2D anterior com difusões 3D conscientes por meio da composição de uma difusão angular anterior. Através de uma avaliação extensiva, demonstramos que o Vista3D sustenta efetivamente um equilíbrio entre a consistência e a diversidade dos objetos 3D gerados. Demonstrativos e código estarão disponíveis em https://github.com/florinshen/Vista3D.
Neste artigo, apresentamos o SoloAudio, um modelo generativo baseado em difusão para extração de som-alvo (TSE). Nossa abordagem treina modelos de difusão latente em áudio, substituindo a estrutura U-Net anterior por um Transformer conectado por skip que opera em características latentes. O SoloAudio suporta tanto a TSE orientada para áudio quanto para linguagem, utilizando um modelo CLAP como extrator de características para os sons-alvo. Além disso, o SoloAudio aproveita áudio sintético gerado por modelos de texto-para-áudio de última geração para treinamento, demonstrando uma forte capacidade de generalização para dados fora do domínio e eventos sonoros não vistos anteriormente. Avaliamos essa abordagem no conjunto de dados de mistura FSD Kaggle 2018 e em dados reais do AudioSet, onde o SoloAudio alcança resultados de ponta tanto em dados dentro quanto fora do domínio, e exibe impressionantes capacidades de zero-shot e few-shot. O código-fonte e demonstrações estão disponíveis.
Apresentamos a Legendagem de Áudio Baseada em Difusão (DAC), um modelo de difusão não autoregressivo adaptado para legendagem de áudio diversificada e eficiente. Embora os modelos de legendagem existentes que dependem de espinhas dorsais de linguagem tenham alcançado sucesso notável em várias tarefas de legendagem, sua performance insuficiente em termos de velocidade de geração e diversidade impedem o progresso em compreensão de áudio e aplicações multimídia. Nosso framework baseado em difusão oferece vantagens únicas decorrentes de sua estocasticidade inerente e modelagem de contexto holística na legendagem. Através de uma avaliação rigorosa, demonstramos que o DAC não apenas alcança níveis de desempenho de última geração em comparação com benchmarks existentes na qualidade da legenda, mas também os supera significativamente em termos de velocidade e diversidade de geração. O sucesso do DAC ilustra que a geração de texto também pode ser integrada de forma contínua com tarefas de geração de áudio e visual usando uma espinha dorsal de difusão, abrindo caminho para um modelo generativo unificado relacionado ao áudio em diferentes modalidades.
A aprendizagem por reforço multiagente (MARL) offline é uma direção emocionante de pesquisa que utiliza conjuntos de dados estáticos para encontrar políticas de controle ótimas para sistemas multiagentes. Embora o campo seja, por definição, orientado por dados, os esforços até agora têm negligenciado os dados em sua busca por resultados de ponta. Primeiramente, corroboramos essa afirmação ao examinar a literatura, mostrando como a maioria dos trabalhos gera seus próprios conjuntos de dados sem uma metodologia consistente e fornece informações escassas sobre as características desses conjuntos de dados. Em seguida, demonstramos por que negligenciar a natureza dos dados é problemático, por meio de exemplos marcantes de como o desempenho algorítmico está intimamente ligado ao conjunto de dados utilizado, exigindo uma base comum para experimentos no campo. Em resposta, damos um grande passo em direção à melhoria do uso de dados e da consciência de dados no MARL offline, com três contribuições-chave: (1) um guia claro para a geração de novos conjuntos de dados; (2) uma padronização de mais de 80 conjuntos de dados existentes, hospedados em um repositório publicamente disponível, utilizando um formato de armazenamento consistente e uma API fácil de usar; e (3) um conjunto de ferramentas de análise que nos permitem compreender melhor esses conjuntos de dados, auxiliando no desenvolvimento futuro.
A reconstrução de visuais 3D a partir de dados de Ressonância Magnética Funcional (fMRI), introduzida como Recon3DMind em nosso trabalho de conferência, é de grande interesse tanto para a neurociência cognitiva quanto para a visão computacional. Para avançar nessa tarefa, apresentamos o conjunto de dados fMRI-3D, que inclui dados de 15 participantes e exibe um total de 4768 objetos 3D. O conjunto de dados é composto por dois componentes: fMRI-Forma, previamente introduzido e acessível em https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, e fMRI-Objaverse, proposto neste artigo e disponível em https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse inclui dados de 5 sujeitos, 4 dos quais também fazem parte do conjunto principal em fMRI-Forma, sendo que cada sujeito visualiza 3142 objetos 3D em 117 categorias, todos acompanhados por legendas de texto. Isso aumenta significativamente a diversidade e as aplicações potenciais do conjunto de dados. Além disso, propomos MinD-3D, um novo framework projetado para decodificar informações visuais 3D a partir de sinais de fMRI. O framework primeiro extrai e agrega características dos dados de fMRI usando um codificador de neuro-fusão, em seguida, emprega um modelo de difusão de ponte de características para gerar características visuais e, por fim, reconstrói o objeto 3D usando um decodificador transformador generativo. Estabelecemos novos benchmarks ao projetar métricas em níveis semântico e estrutural para avaliar o desempenho do modelo. Além disso, avaliamos a eficácia do nosso modelo em um cenário Fora da Distribuição e analisamos a atribuição das características extraídas e das ROIs visuais nos sinais de fMRI. Nossos experimentos demonstram que o MinD-3D não apenas reconstrói objetos 3D com alta precisão semântica e espacial, mas também aprofunda nossa compreensão de como o cérebro humano processa informações visuais 3D. Página do projeto em: https://jianxgao.github.io/MinD-3D.
A matemática tem sido tradicionalmente transmitida por meio da linguagem natural, principalmente para a compreensão humana. Com o surgimento da matemática mecanizada e assistentes de prova, há uma crescente necessidade de compreender textos matemáticos informais, no entanto, a maioria dos benchmarks existentes foca exclusivamente no inglês, ignorando outras línguas. Este artigo apresenta o RoMath, um conjunto de benchmarks de raciocínio matemático em romeno composto por três conjuntos de dados: RoMath-Baccalaureate, RoMath-Competitions e RoMath-Synthetic, que abrangem uma variedade de domínios matemáticos e níveis de dificuldade, com o objetivo de melhorar modelos de idiomas não ingleses e promover o desenvolvimento de IA multilíngue. Ao focar no romeno, um idioma de recursos limitados com características linguísticas únicas, o RoMath aborda as limitações dos modelos anglo-cêntricos e destaca a necessidade de recursos dedicados além da simples tradução automática. Avaliamos vários modelos de linguagem de peso aberto, destacando a importância de criar recursos para idiomas sub-representados. Disponibilizamos o código e o conjunto de dados.
Agentes de IA têm o potencial de auxiliar os usuários em uma variedade de tarefas consequentes, incluindo a condução de pesquisas científicas. Para impulsionar o desenvolvimento de agentes úteis, precisamos de benchmarks que sejam desafiadores, mas, mais crucialmente, correspondam diretamente a tarefas do mundo real de interesse. Este artigo apresenta um benchmark desse tipo, projetado para medir a precisão dos agentes de IA ao lidar com um aspecto crucial, porém surpreendentemente desafiador, da pesquisa científica: a reprodutibilidade computacional. Essa tarefa, fundamental para o processo científico, envolve reproduzir os resultados de um estudo usando o código e os dados fornecidos. Apresentamos o CORE-Bench (Benchmark de Agente de Reprodutibilidade Computacional), um benchmark composto por 270 tarefas baseadas em 90 artigos científicos em três disciplinas (ciência da computação, ciências sociais e medicina). As tarefas no CORE-Bench consistem em três níveis de dificuldade e incluem tarefas apenas de linguagem e tarefas de visão-linguagem. Fornecemos um sistema de avaliação para medir a precisão dos agentes de forma rápida e paralelizável, economizando dias de tempo de avaliação para cada execução em comparação com uma implementação sequencial. Avaliamos dois agentes de referência: o AutoGPT de propósito geral e um agente específico da tarefa chamado CORE-Agent. Testamos ambas as variantes usando dois modelos de linguagem subjacentes: GPT-4o e GPT-4o-mini. O melhor agente alcançou uma precisão de 21% na tarefa mais difícil, mostrando o amplo espaço para melhoria na automatização de tarefas científicas rotineiras. Ter agentes que possam reproduzir trabalhos existentes é um passo necessário para construir agentes que possam realizar pesquisas inovadoras e verificar e melhorar o desempenho de outros agentes de pesquisa. Esperamos que o CORE-Bench possa melhorar o estado da reprodutibilidade e impulsionar o desenvolvimento de futuros agentes de pesquisa.
Ao enfrentar o desafio da Sumarização de Múltiplos Documentos (MDS), inúmeros métodos foram propostos, abrangendo tanto técnicas de sumarização extrativa quanto abstrativa. No entanto, cada abordagem possui suas próprias limitações, tornando menos eficaz depender exclusivamente de uma delas. Uma estratégia emergente e promissora envolve uma fusão sinérgica de métodos de sumarização extrativa e abstrativa. Apesar da abundância de estudos nesse domínio, a pesquisa sobre a metodologia combinada ainda é escassa, especialmente no contexto do processamento de linguagem vietnamita. Este artigo apresenta um novo framework vietnamita de MDS que aproveita uma arquitetura de pipeline de dois componentes que integra técnicas extrativas e abstrativas. O primeiro componente emprega uma abordagem extrativa para identificar frases-chave dentro de cada documento. Isso é alcançado por meio de uma modificação na rede BERT pré-treinada, que obtém embeddings de frases semanticamente significativos usando estruturas de rede siamesa e triplet. O segundo componente utiliza o modelo VBD-LLaMA2-7B-50b para sumarização abstrativa, gerando, em última instância, o documento de resumo final. Nosso framework proposto demonstra um desempenho positivo, alcançando pontuações ROUGE-2 de 39,6% no conjunto de dados VN-MDS e superando as bases de referência de última geração.
Os valores humanos e sua medição são objeto de investigação interdisciplinar de longa data. Avanços recentes em IA reacenderam o interesse nessa área, com os grandes modelos de linguagem (LLMs) surgindo tanto como ferramentas quanto como objetos de medição de valores. Este trabalho apresenta a Psicometria Generativa de Valores (GPV), um paradigma de medição de valores baseado em LLM, orientado teoricamente em percepções seletivas reveladas por texto. Começamos ajustando um LLM para medição precisa de valores ao nível da percepção e verificando a capacidade dos LLMs de analisar textos em percepções, formando o núcleo do pipeline da GPV. Aplicando a GPV a blogs escritos por humanos, demonstramos sua estabilidade, validade e superioridade em relação a ferramentas psicológicas anteriores. Em seguida, estendendo a GPV para a medição de valores por LLM, avançamos na arte atual com 1) uma metodologia psicométrica que mede valores de LLM com base em suas saídas escaláveis e de formato livre, permitindo medições específicas de contexto; 2) uma análise comparativa de paradigmas de medição, indicando vieses de resposta de métodos anteriores; e 3) uma tentativa de conectar valores de LLM e sua segurança, revelando o poder preditivo de diferentes sistemas de valores e os impactos de diversos valores na segurança de LLM. Através de esforços interdisciplinares, buscamos aproveitar a IA para psicometria de próxima geração e psicometria para IA alinhada com valores.