Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório, apresentamos o Qwen2.5, uma série abrangente de grandes modelos de linguagem (LLMs) projetados para atender a diversas necessidades. Em comparação com iterações anteriores, o Qwen 2.5 foi significativamente aprimorado durante as fases de pré-treinamento e pós-treinamento. Em termos de pré-treinamento, escalamos os conjuntos de dados de pré-treinamento de alta qualidade de 7 trilhões de tokens anteriores para 18 trilhões de tokens. Isso fornece uma base sólida para o senso comum, conhecimento especializado e capacidades de raciocínio. Em termos de pós-treinamento, implementamos um refinamento supervisionado intricado com mais de 1 milhão de amostras, bem como aprendizado por reforço em múltiplos estágios. As técnicas de pós-treinamento aprimoram a preferência humana e melhoram significativamente a geração de texto longo, análise de dados estruturais e seguimento de instruções. Para lidar eficazmente com casos de uso diversos e variados, apresentamos a série Qwen2.5 LLM em tamanhos variados. As ofertas de peso aberto incluem modelos base e ajustados para instruções, com versões quantizadas disponíveis. Além disso, para soluções hospedadas, os modelos proprietários atualmente incluem duas variantes de mistura de especialistas (MoE): Qwen2.5-Turbo e Qwen2.5-Plus, ambos disponíveis no Alibaba Cloud Model Studio. O Qwen2.5 demonstrou um desempenho de alto nível em uma ampla gama de benchmarks avaliando compreensão de linguagem, raciocínio, matemática, codificação, alinhamento de preferência humana, etc. Especificamente, o carro-chefe de peso aberto Qwen2.5-72B-Instruct supera vários modelos abertos e proprietários e demonstra desempenho competitivo com o modelo de peso aberto de última geração, Llama-3-405B-Instruct, que é cerca de 5 vezes maior. O Qwen2.5-Turbo e o Qwen2.5-Plus oferecem uma relação custo-eficácia superior, mantendo um desempenho competitivo contra o GPT-4o-mini e o GPT-4o, respectivamente. Além disso, como base, os modelos Qwen2.5 foram fundamentais no treinamento de modelos especializados, como Qwen2.5-Math, Qwen2.5-Coder, QwQ e modelos multimodais.
Tarefas de raciocínio multimodal em vários passos representam desafios significativos para modelos de linguagem multimodal de grande escala (MLLMs), e encontrar maneiras eficazes de aprimorar seu desempenho nesses cenários permanece uma questão não resolvida. Neste artigo, propomos AR-MCTS, um framework universal projetado para melhorar progressivamente as capacidades de raciocínio dos MLLMs por meio de Recuperação Ativa (AR) e Busca em Árvore de Monte Carlo (MCTS). Nossa abordagem começa com o desenvolvimento de um módulo de recuperação unificado que recupera insights-chave de suporte para resolver problemas de raciocínio complexos a partir de um corpus de recuperação híbrido-modal. Para preencher a lacuna na verificação automatizada de raciocínio multimodal, empregamos o algoritmo MCTS combinado com um mecanismo de recuperação ativa, que permite a geração automática de anotações passo a passo. Essa estratégia recupera dinamicamente insights-chave para cada etapa de raciocínio, indo além da amostragem tradicional de busca em feixe para melhorar a diversidade e confiabilidade do espaço de raciocínio. Além disso, introduzimos um modelo de recompensa de processo que se alinha progressivamente para apoiar a verificação automática de tarefas de raciocínio multimodal. Resultados experimentais em três benchmarks complexos de raciocínio multimodal confirmam a eficácia do framework AR-MCTS em aprimorar o desempenho de vários modelos multimodais. Análises adicionais demonstram que o AR-MCTS pode otimizar a diversidade e precisão da amostragem, resultando em um raciocínio multimodal confiável.
Apesar da demanda em rápido crescimento por recuperação multimodal, o progresso neste campo continua severamente limitado pela falta de dados de treinamento. Neste artigo, apresentamos o MegaPairs, um novo método de síntese de dados que aproveita modelos de visão e linguagem (VLMs) e imagens de domínio aberto, juntamente com um conjunto de dados sintéticos massivo gerado a partir deste método. Nossa análise empírica mostra que o MegaPairs gera dados de alta qualidade, permitindo que o recuperador multimodal supere significativamente o modelo de referência treinado em 70 vezes mais dados de conjuntos de dados existentes. Além disso, uma vez que o MegaPairs depende exclusivamente de corpora de imagens gerais e VLMs de código aberto, pode ser facilmente ampliado, possibilitando melhorias contínuas no desempenho de recuperação. Nesta etapa, produzimos mais de 26 milhões de instâncias de treinamento e treinamos vários modelos de tamanhos variados usando esses dados. Esses novos modelos alcançam desempenho de ponta sem uso de rótulos em 4 benchmarks populares de recuperação de imagens compostas (CIR) e o melhor desempenho geral nos 36 conjuntos de dados fornecidos pelo MMEB. Eles também demonstram melhorias de desempenho notáveis com ajustes adicionais posteriores. Nosso conjunto de dados produzido, modelos bem treinados e pipeline de síntese de dados serão disponibilizados publicamente para facilitar o desenvolvimento futuro deste campo.
O colapso do modelo em dados sintéticos indica que o treinamento iterativo em dados autogerados leva a uma queda gradual no desempenho. Com a proliferação de modelos de IA, os dados sintéticos remodelarão fundamentalmente o ecossistema de dados da web. Futuros modelos GPT-{n} serão inevitavelmente treinados em uma combinação de dados sintéticos e humanos. Neste artigo, focamos em duas questões: qual é o impacto dos dados sintéticos no treinamento de modelos de linguagem e como sintetizar dados sem colapso do modelo? Primeiramente, pré-treinamos modelos de linguagem em diferentes proporções de dados sintéticos, revelando uma correlação negativa entre a proporção de dados sintéticos e o desempenho do modelo. Em seguida, realizamos uma análise estatística dos dados sintéticos para descobrir o fenômeno de deslocamento distribucional e a superconcentração de características n-grama. Inspirados nas descobertas acima, propomos a edição de tokens em dados produzidos por humanos para obter dados semissintéticos. Como prova de conceito, demonstramos teoricamente que a edição ao nível de token pode evitar o colapso do modelo, uma vez que o erro de teste é limitado por um limite superior finito. Realizamos experimentos extensivos em pré-treinamento do zero, pré-treinamento contínuo e ajuste fino supervisionado. Os resultados validam nossa prova teórica de que a edição ao nível de token melhora a qualidade dos dados e aprimora o desempenho do modelo.
Este artigo apresenta o LongBench v2, um benchmark projetado para avaliar a capacidade dos LLMs de lidar com problemas de longo contexto que exigem compreensão profunda e raciocínio em multitarefas do mundo real. O LongBench v2 consiste em 503 perguntas desafiadoras de múltipla escolha, com contextos variando de 8k a 2M palavras, abrangendo seis grandes categorias de tarefas: QA de um único documento, QA de vários documentos, aprendizado longo em contexto, compreensão de histórico de diálogo longo, compreensão de repositório de código e compreensão de dados estruturados longos. Para garantir a abrangência e a praticidade, coletamos dados de quase 100 indivíduos altamente educados com diversas formações profissionais. Empregamos processos de revisão automatizados e manuais para manter alta qualidade e dificuldade, resultando em especialistas humanos alcançando apenas 53,7% de precisão sob uma restrição de tempo de 15 minutos. Nossa avaliação revela que o modelo com melhor desempenho, ao responder diretamente às perguntas, alcança apenas 50,1% de precisão. Em contraste, o modelo o1-preview, que inclui raciocínio mais longo, atinge 57,7%, superando a linha de base humana em 4%. Esses resultados destacam a importância da capacidade aprimorada de raciocínio e da escalabilidade do cálculo no tempo de inferência para lidar com os desafios de longo contexto no LongBench v2. O projeto está disponível em https://longbench2.github.io.
Os modelos de difusão e sua generalização, correspondência de fluxo, tiveram um impacto notável no campo da geração de mídia. Aqui, a abordagem convencional é aprender o mapeamento complexo de uma distribuição de fonte simples de ruído gaussiano para a distribuição de mídia alvo. Para tarefas cross-modais como geração de texto para imagem, esse mesmo mapeamento de ruído para imagem é aprendido incluindo um mecanismo de condicionamento no modelo. Uma característica fundamental e até agora relativamente inexplorada da correspondência de fluxo é que, ao contrário dos modelos de Difusão, eles não são limitados para que a distribuição de origem seja ruído. Portanto, neste artigo, propomos uma mudança de paradigma e questionamos se podemos, em vez disso, treinar modelos de correspondência de fluxo para aprender um mapeamento direto da distribuição de uma modalidade para a distribuição de outra, eliminando assim a necessidade tanto da distribuição de ruído quanto do mecanismo de condicionamento. Apresentamos um framework geral e simples, CrossFlow, para correspondência de fluxo cross-modal. Mostramos a importância de aplicar Codificadores Variacionais aos dados de entrada e introduzimos um método para permitir orientação sem classificador. Surpreendentemente, para texto para imagem, CrossFlow com um transformador simples sem atenção cruzada supera ligeiramente a correspondência de fluxo padrão, e mostramos que ele escala melhor com etapas de treinamento e tamanho do modelo, permitindo também aritmética latente interessante que resulta em edições semanticamente significativas no espaço de saída. Para demonstrar a generalizabilidade de nossa abordagem, também mostramos que o CrossFlow está em pé de igualdade ou supera o estado-da-arte para várias tarefas de mapeamento cross-modal / intra-modal, como legenda de imagem, estimativa de profundidade e super-resolução de imagem. Esperamos que este artigo contribua para acelerar o progresso na geração de mídia cross-modal.
A natureza intuitiva da interação baseada em arrastar levou à sua crescente adoção para controlar trajetórias de objetos na síntese de imagem para vídeo. Ainda assim, os métodos existentes que realizam o arrastar no espaço 2D geralmente enfrentam ambiguidade ao lidar com movimentos fora do plano. Neste trabalho, ampliamos a interação com uma nova dimensão, ou seja, a dimensão de profundidade, de modo que os usuários possam atribuir uma profundidade relativa para cada ponto na trajetória. Dessa forma, nosso novo paradigma de interação não apenas herda a conveniência do arrastar em 2D, mas facilita o controle de trajetória no espaço 3D, ampliando o escopo da criatividade. Propomos um método pioneiro para controle de trajetória 3D na síntese de imagem para vídeo, abstraindo máscaras de objetos em alguns pontos de cluster. Esses pontos, acompanhados das informações de profundidade e de instância, são finalmente alimentados em um modelo de difusão de vídeo como sinal de controle. Experimentos extensivos validam a eficácia de nossa abordagem, denominada LeviTor, na manipulação precisa dos movimentos de objetos ao produzir vídeos fotorrealistas a partir de imagens estáticas. Página do projeto: https://ppetrichor.github.io/levitor.github.io/
Como uma operação comum de edição de imagens, a composição de imagens envolve a integração de objetos em primeiro plano em cenas de fundo. Neste artigo, expandimos a aplicação do conceito de Affordance de tarefas de composição de imagens centradas no ser humano para um framework de composição de objetos-cena mais geral, abordando a complexa interação entre objetos em primeiro plano e cenas de fundo. Seguindo o princípio da Affordance, definimos a tarefa de inserção de objetos consciente da affordance, que tem como objetivo inserir de forma contínua qualquer objeto em qualquer cena com vários prompts de posição. Para lidar com a questão dos dados limitados e incorporar esta tarefa, construímos o conjunto de dados SAM-FB, que contém mais de 3 milhões de exemplos em mais de 3.000 categorias de objetos. Além disso, propomos o modelo Mask-Aware Dual Diffusion (MADD), que utiliza uma arquitetura de duplo fluxo para denoizar simultaneamente a imagem RGB e a máscara de inserção. Ao modelar explicitamente a máscara de inserção no processo de difusão, o MADD facilita efetivamente a noção de affordance. Resultados experimentais extensivos mostram que nosso método supera os métodos de ponta e apresenta forte desempenho de generalização em imagens do mundo real. Consulte nosso código em https://github.com/KaKituken/affordance-aware-any.
Neste artigo, apresentamos o AceMath, um conjunto de modelos matemáticos de ponta que se destacam na resolução de problemas matemáticos complexos, juntamente com modelos de recompensa altamente eficazes capazes de avaliar soluções geradas e identificar de forma confiável as corretas. Para desenvolver os modelos matemáticos ajustados à instrução, propomos um processo de ajuste fino supervisionado (SFT) que primeiro alcança desempenho competitivo em domínios gerais, seguido por ajustes finos direcionados para o domínio matemático usando um conjunto cuidadosamente selecionado de prompts e respostas geradas sinteticamente. O modelo resultante, AceMath-72B-Instruct, supera significativamente o Qwen2.5-Math-72B-Instruct, o GPT-4o e o Claude-3.5 Sonnet. Para desenvolver o modelo de recompensa especializado em matemática, primeiro construímos o AceMath-RewardBench, um benchmark abrangente e robusto para avaliar modelos de recompensa matemática em diversos problemas e níveis de dificuldade. Em seguida, apresentamos uma abordagem sistemática para construir nossos modelos de recompensa matemática. O modelo resultante, AceMath-72B-RM, supera consistentemente os modelos de recompensa de última geração. Além disso, ao combinar o AceMath-72B-Instruct com o AceMath-72B-RM, alcançamos a maior pontuação média de rm@8 em benchmarks de raciocínio matemático. Vamos disponibilizar os pesos do modelo, os dados de treinamento e os benchmarks de avaliação em: https://research.nvidia.com/labs/adlr/acemath
A Geração de Conteúdo Procedural (PCG) é poderosa na criação de conteúdos 3D de alta qualidade, no entanto, controlá-la para produzir formas desejadas é difícil e frequentemente requer ajustes extensivos de parâmetros. A Geração de Conteúdo Procedural Inversa visa encontrar automaticamente os melhores parâmetros sob a condição de entrada. No entanto, os métodos existentes baseados em amostragem e em redes neurais ainda sofrem com inúmeras iterações de amostras ou com limitada controlabilidade. Neste trabalho, apresentamos o DI-PCG, um método novo e eficiente para PCG Inversa a partir de condições de imagem gerais. Em seu núcleo está um modelo de transformador de difusão leve, onde os parâmetros do PCG são tratados diretamente como o alvo de remoção de ruído e as imagens observadas como condições para controlar a geração de parâmetros. O DI-PCG é eficiente e eficaz. Com apenas 7,6 milhões de parâmetros de rede e 30 horas de GPU para treinar, ele demonstra um desempenho superior na recuperação precisa de parâmetros e na generalização bem-sucedida para imagens em ambientes naturais. Resultados experimentais quantitativos e qualitativos validam a eficácia do DI-PCG em PCG inversa e tarefas de geração de imagem para 3D. O DI-PCG oferece uma abordagem promissora para PCG inversa eficiente e representa um passo de exploração valioso em direção a um caminho de geração 3D que modela como construir um ativo 3D usando modelos paramétricos.
O treinamento de Modelos de Multimodalidade Grande (LMMs) depende de legendas descritivas de imagens que conectam imagem e linguagem. Métodos existentes ou destilam a legenda dos modelos LMM ou constroem as legendas a partir de imagens da internet ou por meio de intervenção humana. Propomos aproveitar especialistas visuais prontos para uso, que foram treinados a partir de imagens anotadas inicialmente não para legendas de imagens, para aprimorar a legenda da imagem. Nossa abordagem, chamada DCE, explora atributos de baixo nível e detalhados de objetos (por exemplo, profundidade, emoção e categorias detalhadas de objetos) e relações entre objetos (por exemplo, localização relativa e interação humano-objeto (HOI)), e combina os atributos na legenda descritiva. Experimentos demonstram que tais especialistas visuais são capazes de melhorar o desempenho em tarefas de compreensão visual, bem como raciocínio que se beneficia de uma compreensão visual mais precisa. Disponibilizaremos o código-fonte e o pipeline para que outros especialistas visuais sejam facilmente combinados no pipeline. O código-fonte completo do pipeline DCE e os conjuntos de dados estarão disponíveis em https://github.com/syp2ysy/DCE.
Propomos um modelo não supervisionado para edição de imagens baseada em instruções que elimina a necessidade de imagens editadas verdadeiras durante o treinamento. Métodos supervisionados existentes dependem de conjuntos de dados contendo triplas de imagem de entrada, imagem editada e instrução de edição. Estas são geradas por métodos de edição existentes ou por anotações humanas, que introduzem viés e limitam sua capacidade de generalização. Nosso método aborda esses desafios introduzindo um mecanismo de edição inovador chamado Consistência de Edição em Ciclo (CEC), que aplica edições para frente e para trás em uma etapa de treinamento e reforça a consistência nos espaços de imagem e atenção. Isso nos permite contornar a necessidade de imagens editadas verdadeiras e habilitar o treinamento pela primeira vez em conjuntos de dados compostos por pares de imagem-legenda reais ou triplas de imagem-legenda-edição. Demonstramos empiricamente que nossa técnica não supervisionada tem um desempenho melhor em uma ampla gama de edições com alta fidelidade e precisão. Ao eliminar a necessidade de conjuntos de dados pré-existentes de triplas, reduzir os viéses associados aos métodos supervisionados e propor o CEC, nosso trabalho representa um avanço significativo no desbloqueio da escalabilidade da edição de imagens baseada em instruções.
Propomos o AV-Link, um framework unificado para geração de Vídeo-para-Áudio e Áudio-para-Vídeo que alavanca as ativações de modelos de difusão de vídeo e áudio congelados para condicionamento cruzado temporalmente alinhado entre modalidades. A chave do nosso framework é um Bloco de Fusão que possibilita a troca bidirecional de informações entre nossos modelos de difusão de vídeo e áudio base através de uma operação de autoatenção temporalmente alinhada. Ao contrário de trabalhos anteriores que utilizam extratores de características pré-treinados para outras tarefas para o sinal de condicionamento, o AV-Link pode alavancar diretamente características obtidas pela modalidade complementar em um único framework, ou seja, características de vídeo para gerar áudio, ou características de áudio para gerar vídeo. Avaliamos extensivamente nossas escolhas de design e demonstramos a capacidade de nosso método de alcançar conteúdo audiovisual sincronizado e de alta qualidade, destacando seu potencial para aplicações na geração de mídia imersiva. Página do Projeto: snap-research.github.io/AVLink/
Neste artigo, propomos o Text-based Open Molecule Generation Benchmark (TOMG-Bench), o primeiro benchmark para avaliar a capacidade de geração de moléculas em domínio aberto de LLMs. O TOMG-Bench engloba um conjunto de dados de três tarefas principais: edição de moléculas (MolEdit), otimização de moléculas (MolOpt) e geração de moléculas personalizadas (MolCustom). Cada tarefa contém ainda três subtarefas, sendo que cada subtarefa é composta por 5.000 amostras de teste. Dada a complexidade inerente da geração de moléculas em domínio aberto, também desenvolvemos um sistema de avaliação automatizado que ajuda a medir tanto a qualidade quanto a precisão das moléculas geradas. Nossa avaliação abrangente de 25 LLMs revela as limitações atuais e áreas potenciais para melhorias na descoberta de moléculas guiada por texto. Além disso, com a assistência do OpenMolIns, um conjunto de dados de ajuste de instruções especializado proposto para resolver desafios apresentados pelo TOMG-Bench, o Llama3.1-8B conseguiu superar todos os LLMs gerais de código aberto, inclusive ultrapassando o GPT-3.5-turbo em 46,5% no TOMG-Bench. Nossos códigos e conjuntos de dados estão disponíveis em https://github.com/phenixace/TOMG-Bench.
Pesquisas recentes exploram o potencial dos Modelos de Difusão (DMs) para edição consistente de objetos, que visa modificar a posição, tamanho e composição do objeto, etc., preservando a consistência dos objetos e do fundo sem alterar sua textura e atributos. Métodos atuais de inferência frequentemente dependem da inversão do DDIM, o que compromete inerentemente a eficiência e a consistência alcançável das imagens editadas. Métodos recentes também utilizam orientação de energia que atualiza iterativamente o ruído previsto e pode afastar os latentes da imagem original, resultando em distorções. Neste artigo, propomos o PixelMan, um método sem inversão e sem treinamento para alcançar edição consistente de objetos via Manipulação e geração de pixels, onde criamos diretamente uma cópia duplicada do objeto de origem na localização de destino no espaço de pixels, e introduzimos uma abordagem de amostragem eficiente para harmonizar iterativamente o objeto manipulado na localização de destino e preencher a localização original, garantindo a consistência da imagem ancorando a imagem editada a ser gerada na imagem manipulada por pixels, além de introduzir várias técnicas de otimização preservadoras de consistência durante a inferência. Avaliações experimentais com base em conjuntos de dados de referência, bem como extensas comparações visuais, mostram que em apenas 16 etapas de inferência, o PixelMan supera uma variedade de métodos de treinamento baseados e sem treinamento de ponta (geralmente exigindo 50 etapas) em várias tarefas de edição consistente de objetos.
Este artigo apresenta o DateLogicQA, um benchmark com 190 perguntas abrangendo diversos formatos de datas, contextos temporais e tipos de raciocínio. Propomos a Métrica de Integridade Semântica para avaliar a qualidade da tokenização e analisar dois vieses: Viés de Nível de Representação, afetando embeddings, e Viés de Nível Lógico, influenciando as saídas de raciocínio. Nossas descobertas fornecem uma avaliação abrangente das capacidades e limitações dos LLMs em raciocínio temporal, destacando os principais desafios em lidar com dados temporais com precisão. O repositório do GitHub para nosso trabalho está disponível em https://github.com/gagan3012/EAIS-Temporal-Bias
Gerar vídeos realistas de humanos continua sendo uma tarefa desafiadora, com os métodos mais eficazes atualmente dependendo de uma sequência de movimento humano como sinal de controle. As abordagens existentes frequentemente utilizam movimentos existentes extraídos de outros vídeos, o que restringe as aplicações a tipos específicos de movimento e correspondência global de cena. Propomos o Move-in-2D, uma abordagem inovadora para gerar sequências de movimento humano condicionadas a uma imagem de cena, permitindo movimentos diversos que se adaptam a diferentes cenas. Nossa abordagem utiliza um modelo de difusão que aceita tanto uma imagem de cena quanto um prompt de texto como entradas, produzindo uma sequência de movimento adaptada à cena. Para treinar esse modelo, coletamos um grande conjunto de dados de vídeo apresentando atividades de um único humano, anotando cada vídeo com o movimento humano correspondente como saída alvo. Experimentos demonstram que nosso método prevê efetivamente o movimento humano que se alinha com a imagem da cena após a projeção. Além disso, mostramos que a sequência de movimento gerada melhora a qualidade do movimento humano em tarefas de síntese de vídeo.