Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Qwen2.5-1M, uma série de modelos que estendem o comprimento do contexto para 1 milhão de tokens. Comparados à versão anterior de 128K, a série Qwen2.5-1M possui capacidades significativamente aprimoradas de contexto longo por meio de pré-treinamento e pós-treinamento de longo contexto. Técnicas-chave como síntese de dados longos, pré-treinamento progressivo e ajuste fino supervisionado em múltiplos estágios são empregadas para aprimorar efetivamente o desempenho de contexto longo, reduzindo os custos de treinamento. Para promover o uso de modelos de contexto longo entre uma base de usuários mais ampla, apresentamos e disponibilizamos nosso framework de inferência de código aberto. Esse framework inclui um método de extrapolação de comprimento que pode expandir os comprimentos de contexto do modelo pelo menos quatro vezes, ou até mais, sem treinamento adicional. Para reduzir os custos de inferência, implementamos um método de atenção esparsa juntamente com otimização de preenchimento segmentado para cenários de implantação, e um método de refinamento de esparsidade para melhorar a precisão. Além disso, detalhamos nossas otimizações no mecanismo de inferência, incluindo otimização de kernel, paralelismo de pipeline e otimização de agendamento, que aprimoram significativamente o desempenho geral da inferência. Ao aproveitar nosso framework de inferência, os modelos Qwen2.5-1M alcançam um notável aumento de velocidade de preenchimento de 3x a 7x em cenários com 1 milhão de tokens de contexto. Esse framework fornece uma solução eficiente e poderosa para o desenvolvimento de aplicações que requerem processamento de contexto longo usando modelos de código aberto. A série Qwen2.5-1M atualmente inclui os modelos de código aberto Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, bem como o modelo Qwen2.5-Turbo acessado por API. Avaliações mostram que os modelos Qwen2.5-1M foram significativamente aprimorados em tarefas de contexto longo sem comprometer o desempenho em cenários de contexto curto. Especificamente, o modelo Qwen2.5-14B-Instruct-1M supera significativamente o GPT-4o-mini em tarefas de contexto longo e suporta contextos oito vezes mais longos.
Apresentamos o Baichuan-Omni-1.5, um modelo omni-modal que não só possui capacidades de compreensão omni-modal, mas também fornece capacidades de geração de áudio de ponta a ponta. Para alcançar interações fluentes e de alta qualidade entre modalidades sem comprometer as capacidades de qualquer modalidade, priorizamos a otimização de três aspectos-chave. Primeiramente, estabelecemos um pipeline abrangente de limpeza e síntese de dados para dados multimodais, obtendo cerca de 500B de dados de alta qualidade (texto, áudio e visão). Em segundo lugar, um tokenizador de áudio (Baichuan-Audio-Tokenizer) foi projetado para capturar informações semânticas e acústicas do áudio, possibilitando integração contínua e compatibilidade aprimorada com MLLM. Por fim, projetamos uma estratégia de treinamento em múltiplas etapas que integra progressivamente o alinhamento multimodal e o ajuste fino multi-tarefa, garantindo uma sinergia eficaz entre todas as modalidades. O Baichuan-Omni-1.5 supera modelos contemporâneos (incluindo GPT4o-mini e MiniCPM-o 2.6) em termos de capacidades omni-modais abrangentes. Notavelmente, ele alcança resultados comparáveis aos principais modelos, como o Qwen2-VL-72B, em diversos benchmarks médicos multimodais.
A aprendizagem por reforço (RL) promete um quadro para a resolução de problemas quase universal. Na prática, no entanto, os algoritmos de RL são frequentemente adaptados a benchmarks específicos, dependendo de hiperparâmetros cuidadosamente ajustados e escolhas algorítmicas. Recentemente, poderosos métodos de RL baseados em modelos têm mostrado resultados gerais impressionantes em benchmarks, mas isso vem com o custo de uma complexidade aumentada e tempos de execução lentos, limitando sua aplicabilidade mais ampla. Neste artigo, tentamos encontrar um algoritmo unificador de RL profundo sem modelo que possa lidar com uma classe diversificada de domínios e configurações de problemas. Para alcançar isso, aproveitamos representações baseadas em modelos que aproximadamente linearizam a função de valor, tirando proveito dos objetivos de tarefa mais densos usados pelo RL baseado em modelos, enquanto evitamos os custos associados ao planejamento ou trajetórias simuladas. Avaliamos nosso algoritmo, MR.Q, em uma variedade de benchmarks comuns de RL com um único conjunto de hiperparâmetros e mostramos um desempenho competitivo em comparação com baselines específicos de domínio e gerais, fornecendo um passo concreto em direção à construção de algoritmos gerais de RL profundo sem modelo.
Como é sabido, os modelos de atenção híbridos quadráticos e subquadráticos em arquiteturas multi-head superaram tanto os modelos Transformer quanto os modelos RNN Lineares, com esses trabalhos focando principalmente na redução da complexidade KV e na melhoria da eficiência. Para pesquisas adicionais sobre a expressividade, introduzimos nossa série de modelos destilados do Qwen 2.5, baseados na atenção puramente nativa RWKV-7, que tem como objetivo tornar os RNNs mais expressivos e demonstrar habilidade de rastreamento de estado além dos transformers. Trabalhamos com o QRWK 32B baseado na arquitetura RWKV-6, outra abordagem que reduz o tempo total de processamento de conhecimento para apenas 8 horas usando 16 GPUs AMD MI300X, mantendo o desempenho do Qwen 2.5. Na verdade, o processo de destilação pode utilizar qualquer LLM, não apenas o Qwen, e permite a transferência de conhecimento de LLMs maiores para menores com menos tokens. Explicaremos o processo detalhado e compartilharemos nossas percepções sobre a construção de modelos de base mais poderosos. Por favor, note que este é um trabalho em andamento que será atualizado continuamente. Os pontos de verificação do modelo e o código-fonte estão disponíveis em https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
Os avanços recentes na geração de fala têm sido impulsionados pelos conjuntos de dados de treinamento em larga escala. No entanto, os modelos atuais não conseguem capturar adequadamente a espontaneidade e variabilidade inerentes à fala humana do mundo real, devido à sua dependência de conjuntos de dados de audiolivros limitados a estilos formais de leitura em voz alta. Para preencher essa lacuna, apresentamos o Emilia-Pipe, um pipeline de pré-processamento de código aberto para extrair dados de treinamento de alta qualidade de dados valiosos, porém pouco explorados, coletados de forma natural que capturam a fala humana espontânea em contextos do mundo real. Ao alavancar o Emilia-Pipe, construímos o Emilia, o primeiro conjunto de dados de geração de fala multilíngue derivado de dados de fala coletados de forma natural. Este conjunto de dados compreende mais de 101 mil horas de fala em seis idiomas: inglês, chinês, alemão, francês, japonês e coreano. Além disso, expandimos o Emilia para o Emilia-Large, um conjunto de dados que ultrapassa 216 mil horas, tornando-o o maior conjunto de dados de geração de fala de código aberto disponível. Experimentos extensivos demonstram que o Emilia supera significativamente os conjuntos de dados tradicionais de audiolivros na geração de fala espontânea e semelhante à humana, exibindo desempenho superior na captura de diversos timbres de locutores e estilos de fala da fala humana do mundo real. Além disso, este trabalho destaca a importância do aumento do tamanho do conjunto de dados para avançar na pesquisa de geração de fala e valida a eficácia do Emilia tanto para a geração de fala multilíngue quanto para a geração de fala entre idiomas.
Apresentamos uma nova família de redes de visão híbridas móveis, chamada iFormer, com foco na otimização da latência e precisão em aplicações móveis. O iFormer integra de forma eficaz a capacidade de representação local rápida da convolução com a habilidade eficiente de modelagem global da autoatenção. As interações locais são derivadas da transformação de uma rede convolucional padrão, ou seja, ConvNeXt, para projetar uma rede móvel mais leve. Nossa atenção de modulação móvel recém-introduzida remove operações intensivas em memória no MHA e emprega um mecanismo de modulação eficiente para aumentar a capacidade global representacional dinâmica. Realizamos experimentos abrangentes demonstrando que o iFormer supera as redes leves existentes em várias tarefas. Notavelmente, o iFormer alcança uma impressionante precisão Top-1 de 80,4\% no ImageNet-1k com uma latência de apenas 1,10 ms em um iPhone 13, superando o MobileNetV4 recentemente proposto sob restrições de latência semelhantes. Além disso, nosso método mostra melhorias significativas em tarefas subsequentes, incluindo detecção de objetos COCO, segmentação de instâncias e segmentação semântica ADE20k, mantendo ainda baixa latência em dispositivos móveis para entradas de alta resolução nesses cenários.
Aumentar a capacidade dos modelos de linguagem tem consistentemente se mostrado uma abordagem confiável para melhorar o desempenho e desbloquear novas capacidades. A capacidade pode ser principalmente definida por duas dimensões: o número de parâmetros do modelo e o cálculo por exemplo. Embora o escalonamento envolva tipicamente o aumento de ambos, a interação precisa entre esses fatores e sua contribuição combinada para a capacidade geral ainda não é totalmente compreendida. Exploramos essa relação no contexto dos Modelos de Especialistas Esparsos (MoEs), que permitem aumentar o número de parâmetros sem aumentar proporcionalmente as FLOPs por exemplo. Investigamos como variar o nível de esparsidade, ou seja, a fração de parâmetros inativos, impacta o desempenho do modelo durante o pré-treinamento e a avaliação downstream de poucas amostras. Descobrimos que sob diferentes restrições (por exemplo, tamanho dos parâmetros e cálculo total de treinamento), há um nível ótimo de esparsidade que melhora tanto a eficiência de treinamento quanto o desempenho do modelo. Esses resultados proporcionam uma melhor compreensão do impacto da esparsidade nas leis de escalonamento para MoEs e complementam trabalhos existentes nessa área, oferecendo insights para o design de arquiteturas mais eficientes.
A escalabilidade do cálculo em tempo de teste é um eixo promissor para melhorar as capacidades de LLM. No entanto, o cálculo em tempo de teste pode ser escalado de várias maneiras, e combinar efetivamente diferentes abordagens continua sendo uma área ativa de pesquisa. Aqui, exploramos esse problema no contexto da resolução de problemas reais do GitHub a partir do conjunto de dados SWE-bench. Nosso sistema, chamado CodeMonkeys, permite que os modelos editem iterativamente uma base de código gerando e executando em conjunto um script de teste ao lado de sua edição preliminar. Amostramos muitas dessas trajetórias de múltiplas etapas para cada problema a fim de gerar uma coleção de edições candidatas. Essa abordagem nos permite escalar o cálculo em tempo de teste "serial" aumentando o número de iterações por trajetória e o cálculo em tempo de teste "paralelo" aumentando o número de trajetórias por problema. Com a escalabilidade paralela, podemos diluir os custos iniciais entre várias amostras subsequentes, permitindo-nos identificar o contexto relevante da base de código usando o método simples de permitir que um LLM leia cada arquivo. Para selecionar entre as edições candidatas, combinamos a votação usando testes gerados pelo modelo com uma trajetória de múltiplas etapas final dedicada à seleção. No geral, o CodeMonkeys resolve 57,4% dos problemas do SWE-bench Verificado usando um orçamento de aproximadamente 2300 USD. Nosso método de seleção também pode ser usado para combinar candidatos de diferentes fontes. A seleção de um conjunto de edições das principais submissões Verificadas do SWE-bench existentes obtém uma pontuação de 66,2% e supera o melhor membro do conjunto por si só. Disponibilizamos integralmente nosso código e dados em https://scalingintelligence.stanford.edu/pubs/codemonkeys.
Os modelos de linguagem visual (VLMs) mudaram drasticamente o cenário dos modelos de visão computacional em apenas alguns anos, abrindo uma emocionante gama de novas aplicações, desde classificação de imagens de zero-shot, passando por legendagem de imagens, até responder a perguntas visuais. Ao contrário dos modelos de visão pura, eles oferecem uma maneira intuitiva de acessar conteúdo visual por meio de estímulos de linguagem. A ampla aplicabilidade desses modelos nos encoraja a questionar se eles também estão alinhados com a visão humana - especificamente, até que ponto adotam vieses visuais induzidos pelo ser humano por meio da fusão multimodal, ou se simplesmente herdam vieses dos modelos de visão pura. Um viés visual importante é o viés de textura versus forma, ou a predominância de informações locais sobre globais. Neste artigo, estudamos esse viés em uma ampla gama de VLMs populares. Curiosamente, descobrimos que os VLMs frequentemente têm mais viés para forma do que seus codificadores de visão, indicando que os vieses visuais são modulados em certa medida por meio de texto em modelos multimodais. Se o texto de fato influencia os vieses visuais, isso sugere que podemos direcionar os vieses visuais não apenas por meio de entradas visuais, mas também por meio da linguagem: uma hipótese que confirmamos por meio de experimentos extensivos. Por exemplo, somos capazes de direcionar o viés para forma de tão baixo quanto 49% para tão alto quanto 72% apenas por meio de estímulos. Por enquanto, o forte viés humano para forma (96%) permanece fora do alcance de todos os VLMs testados.
Os Modelos de Espaço de Estados (SSMs) surgiram como alternativas eficientes aos Transformadores para modelagem sequencial, mas sua incapacidade de aproveitar características específicas de modalidade limita seu desempenho na pré-treinamento multi-modal. Aqui, propomos Mixture-of-Mamba, uma arquitetura SSM inovadora que introduz esparsidade consciente de modalidade por meio da parametrização específica da modalidade do bloco Mamba. Baseando-se em Mixture-of-Transformers (W. Liang et al. arXiv:2411.04996; 2024), estendemos os benefícios da esparsidade consciente de modalidade para SSMs, preservando sua eficiência computacional. Avaliamos Mixture-of-Mamba em três cenários de pré-treinamento multi-modal: Transfusão (tokens de texto intercalados e imagens contínuas com perda de difusão), Camaleão (tokens de texto intercalados e imagens discretas) e um framework estendido de três modalidades incorporando fala. Mixture-of-Mamba consistentemente atinge os mesmos valores de perda em etapas de treinamento mais precoces com custos computacionais significativamente reduzidos. No cenário de Transfusão, Mixture-of-Mamba alcança perda de imagem equivalente usando apenas 34,76% dos FLOPs de treinamento na escala de 1,4B. No cenário de Camaleão, Mixture-of-Mamba atinge perda de imagem similar com apenas 42,50% dos FLOPs na escala de 1,4B, e perda de texto similar com apenas 65,40% dos FLOPs. No cenário de três modalidades, MoM iguala a perda de fala em 24,80% dos FLOPs na escala de 1,4B. Nosso estudo de ablação destaca os efeitos sinérgicos do desacoplamento de componentes de projeção, onde o desacoplamento conjunto gera ganhos maiores do que modificações individuais. Esses resultados estabelecem a esparsidade consciente de modalidade como um princípio de design versátil e eficaz, estendendo seu impacto dos Transformadores para SSMs e estabelecendo novos benchmarks no pré-treinamento multi-modal. Nosso código pode ser acessado em https://github.com/Weixin-Liang/Mixture-of-Mamba.
A Orientação Livre de Classificador (CFG) tem sido uma técnica padrão em vários modelos visuais generativos, no entanto, requer inferência de ambos modelos condicionais e incondicionais durante a amostragem. Propomos construir modelos visuais que sejam livres de amostragem guiada. O algoritmo resultante, Treinamento Livre de Orientação (GFT), iguala o desempenho do CFG enquanto reduz a amostragem para um único modelo, reduzindo pela metade o custo computacional. Ao contrário de abordagens anteriores baseadas em destilação que dependem de redes CFG pré-treinadas, o GFT permite o treinamento direto a partir do zero. O GFT é simples de implementar. Ele mantém o mesmo objetivo de máxima verossimilhança do CFG e difere principalmente na parametrização dos modelos condicionais. A implementação do GFT requer apenas modificações mínimas nos códigos existentes, uma vez que a maioria das escolhas de design e hiperparâmetros são diretamente herdados do CFG. Nossos extensos experimentos em cinco modelos visuais distintos demonstram a eficácia e versatilidade do GFT. Através de domínios de difusão, autoregressão e modelagem de predição mascarada, o GFT consistentemente alcança pontuações FID comparáveis ou até mesmo inferiores, com trocas de diversidade-fidelidade semelhantes em comparação com os baselines do CFG, tudo isso sem orientação. O código estará disponível em https://github.com/thu-ml/GFT.
O role-playing personalizável em grandes modelos de linguagem (LLMs), também conhecido como generalização de personagens, está ganhando cada vez mais atenção por sua versatilidade e eficiência de custos no desenvolvimento e implantação de agentes de diálogo de role-playing. Este estudo explora uma abordagem de síntese de dados em grande escala para equipar LLMs com capacidades de generalização de personagens. Começamos sintetizando perfis de personagens em grande escala usando personas do Persona Hub e depois exploramos duas estratégias: reformulação de respostas e geração de respostas, para criar respostas instrucionais alinhadas com o personagem. Para validar a eficácia de nossos dados de ajuste de instrução sintética para generalização de personagens, realizamos um ajuste fino supervisionado (SFT) usando o modelo LLaMA-3 8B. Nosso modelo com melhor desempenho fortalece o modelo original LLaMA-3 8B Instruct e alcança desempenho comparável aos modelos GPT-4o em diálogos de role-playing. Disponibilizamos nossos personagens sintéticos e diálogos de ajuste de instrução para apoiar a pesquisa pública.
A predominância de grandes modelos de linguagem apenas decodificadores tem ofuscado as arquiteturas codificador-decodificador, apesar de suas vantagens fundamentais de eficiência no processamento de sequências. Para modelos de linguagem pequenos (SLMs) - aqueles com 1 bilhão de parâmetros ou menos - nossa análise sistemática em plataformas GPU, CPU e NPU revela que as arquiteturas codificador-decodificador alcançam 47% a menos de latência do primeiro token e 4,7 vezes maior throughput em comparação com modelos apenas decodificadores em dispositivos de borda. Esses ganhos podem ser atribuídos ao processamento de entrada único do codificador-decodificador e à separação eficiente das fases de compreensão e geração. Introduzimos um novo framework de destilação de conhecimento que permite aos modelos codificador-decodificador aproveitar as capacidades de grandes professores escaláveis apenas decodificadores, preservando suas vantagens arquiteturais, alcançando até 6 pontos de desempenho médio aprimorados em diversas tarefas, com ganhos significativos em tarefas de sequência assimétricas onde as distribuições de entrada e saída podem se beneficiar de abordagens de processamento diferentes. Quando combinadas com avanços modernos como Incorporações Posicionais Rotativas (RoPE) e codificadores de Visão, nossa investigação sistemática demonstra que as arquiteturas codificador-decodificador oferecem um caminho mais prático para implantar modelos de linguagem capazes em ambientes com recursos limitados. Nossas descobertas desafiam a tendência predominante em direção à escalabilidade apenas do decodificador, mostrando que as escolhas arquiteturais se tornam cada vez mais cruciais à medida que os orçamentos de parâmetros diminuem, especialmente para implantações em dispositivos e borda, onde a eficiência computacional é fundamental.
Apresentamos o Aprendizado Viável (AV), um paradigma de aprendizado centrado na amostra em que os modelos são treinados resolvendo um problema de viabilidade que limita a perda para cada amostra de treinamento. Em contraste com o onipresente framework de Minimização do Risco Empírico (MRE), que otimiza o desempenho médio, o AV exige um desempenho satisfatório em cada ponto de dados individual. Uma vez que qualquer modelo que atenda ao limiar de desempenho prescrito é uma solução de AV válida, a escolha do algoritmo de otimização e sua dinâmica desempenham um papel crucial na formação das propriedades das soluções resultantes. Em particular, estudamos uma abordagem primal-dual que reajusta dinamicamente a importância de cada amostra durante o treinamento. Para lidar com o desafio de definir um limiar significativo na prática, introduzimos uma relaxação do AV que incorpora variáveis de folga de norma mínima. Nossa análise empírica, abrangendo classificação de imagens, regressão de idade e otimização de preferências em grandes modelos de linguagem, demonstra que os modelos treinados via AV podem aprender com os dados enquanto exibem um comportamento de cauda aprimorado em comparação com o MRE, com apenas um impacto marginal no desempenho médio.