Artigos de pesquisa em IA selecionados diariamente com traduções
A Aprendizagem por Reforço a partir de Feedback Humano (RLHF) surgiu como uma abordagem crítica para alinhar grandes modelos de linguagem com as preferências humanas, testemunhando uma rápida evolução algorítmica por meio de métodos como Otimização de Política Próxima (PPO), Otimização Direta de Preferência (DPO), REINFORCE Leave One-Out (RLOO), ReMax e Otimização de Política Relativa em Grupo (GRPO). Apresentamos o REINFORCE++, uma variante aprimorada do algoritmo clássico REINFORCE que incorpora técnicas-chave de otimização do PPO, eliminando a necessidade de uma rede crítica. O REINFORCE++ alcança três objetivos principais: (1) simplicidade, (2) estabilidade de treinamento aprimorada e (3) redução da sobrecarga computacional. Por meio de uma extensa avaliação empírica, demonstramos que o REINFORCE++ exibe uma estabilidade superior em comparação com o GRPO e alcança uma eficiência computacional maior do que o PPO, mantendo um desempenho comparável. A implementação está disponível em https://github.com/OpenRLHF/OpenRLHF.
A IA física precisa ser treinada digitalmente primeiro. Ela precisa de um gêmeo digital de si mesma, o modelo de política, e um gêmeo digital do mundo, o modelo do mundo. Neste artigo, apresentamos a Plataforma do Modelo de Fundação do Mundo Cosmos para ajudar os desenvolvedores a construir modelos de mundo personalizados para suas configurações de IA física. Posicionamos um modelo de fundação do mundo como um modelo de mundo de uso geral que pode ser ajustado para modelos de mundo personalizados para aplicações posteriores. Nossa plataforma abrange um pipeline de curadoria de vídeo, modelos de fundação de mundo pré-treinados, exemplos de pós-treinamento de modelos de fundação de mundo pré-treinados e tokenizers de vídeo. Para ajudar os construtores de IA física a resolver os problemas mais críticos de nossa sociedade, tornamos nossa plataforma de código aberto e nossos modelos de peso aberto com licenças permissivas disponíveis em https://github.com/NVIDIA/Cosmos.
O surgimento de modelos multimodais grandes em tempo real (LMMs) como o GPT-4o tem despertado considerável interesse em LMMs eficientes. Os frameworks de LMM normalmente codificam entradas visuais em tokens de visão (representações contínuas) e as integram com instruções textuais no contexto de grandes modelos de linguagem (LLMs), onde parâmetros em grande escala e numerosos tokens de contexto (predominantemente tokens de visão) resultam em uma sobrecarga computacional substancial. Esforços anteriores em direção a LMMs eficientes sempre se concentraram em substituir a espinha dorsal do LLM por modelos menores, negligenciando a questão crucial da quantidade de tokens. Neste artigo, apresentamos o LLaVA-Mini, um LMM eficiente com um número mínimo de tokens de visão. Para alcançar uma alta taxa de compressão de tokens de visão, enquanto preserva informações visuais, analisamos primeiro como os LMMs compreendem os tokens de visão e descobrimos que a maioria dos tokens de visão desempenha um papel crucial apenas nas camadas iniciais da espinha dorsal do LLM, onde eles principalmente fundem informações visuais nos tokens de texto. Com base nessa descoberta, o LLaVA-Mini introduz a pré-fusão de modalidade para fundir informações visuais nos tokens de texto antecipadamente, facilitando assim a compressão extrema dos tokens de visão alimentados na espinha dorsal do LLM em um único token. O LLaVA-Mini é um modelo multimodal grande unificado que pode suportar a compreensão de imagens, imagens de alta resolução e vídeos de maneira eficiente. Experimentos em 11 benchmarks baseados em imagens e 7 baseados em vídeos demonstram que o LLaVA-Mini supera o LLaVA-v1.5 com apenas 1 token de visão em vez de 576. Análises de eficiência revelam que o LLaVA-Mini pode reduzir as operações de ponto flutuante em 77%, fornecer respostas de baixa latência em até 40 milissegundos e processar mais de 10.000 frames de vídeo no hardware da GPU com 24GB de memória.
Este trabalho apresenta o Sa2VA, o primeiro modelo unificado para compreensão densa e fundamentada de imagens e vídeos. Ao contrário dos modelos de linguagem grandes multimodais existentes, que frequentemente são limitados a modalidades e tarefas específicas, o Sa2VA suporta uma ampla gama de tarefas de imagem e vídeo, incluindo segmentação referencial e conversação, com ajuste mínimo de instrução em uma única etapa. O Sa2VA combina o SAM-2, um modelo de segmentação de vídeo fundamental, com o LLaVA, um modelo avançado de visão e linguagem, e unifica texto, imagem e vídeo em um espaço de token LLM compartilhado. Utilizando o LLM, o Sa2VA gera tokens de instrução que guiam o SAM-2 na produção de máscaras precisas, possibilitando uma compreensão fundamentada e multimodal de conteúdos visuais estáticos e dinâmicos. Adicionalmente, introduzimos o Ref-SAV, um conjunto de dados autoetiquetado contendo mais de 72 mil expressões de objetos em cenas de vídeo complexas, projetado para impulsionar o desempenho do modelo. Também validamos manualmente 2 mil objetos de vídeo nos conjuntos de dados Ref-SAV para avaliar a segmentação de objetos de vídeo referenciados em ambientes complexos. Experimentos mostram que o Sa2VA alcança o estado da arte em várias tarefas, especialmente na segmentação de objetos de vídeo referenciados, destacando seu potencial para aplicações complexas do mundo real.
Nos últimos anos, os modelos de visão e linguagem (VLMs) fizeram avanços significativos na compreensão de vídeos. No entanto, uma capacidade crucial - a compreensão de movimentos detalhados - permanece pouco explorada nos benchmarks atuais. Para abordar essa lacuna, propomos o MotionBench, um benchmark abrangente projetado para avaliar a compreensão de movimentos detalhados dos modelos de compreensão de vídeo. O MotionBench avalia a percepção em nível de movimento dos modelos por meio de seis categorias principais de tipos de perguntas orientadas ao movimento e inclui dados coletados de fontes diversas, garantindo uma representação ampla de conteúdo de vídeo do mundo real. Resultados experimentais revelam que os VLMs existentes têm baixo desempenho na compreensão de movimentos detalhados. Para aprimorar a capacidade dos VLMs de perceber movimentos detalhados dentro de um comprimento de sequência limitado de LLM, conduzimos experimentos extensivos revisando arquiteturas de VLM otimizadas para compressão de características de vídeo e propomos um método de Fusão Through-Encoder (TE) novo e eficiente. Os experimentos mostram que entradas com taxas de quadros mais altas e a Fusão TE resultam em melhorias na compreensão de movimentos, porém ainda há um espaço substancial para aprimoramento. Nosso benchmark tem como objetivo orientar e motivar o desenvolvimento de modelos de compreensão de vídeo mais capazes, enfatizando a importância da compreensão de movimentos detalhados. Página do projeto: https://motion-bench.github.io.
Os modelos de difusão têm demonstrado um desempenho impressionante na geração de vídeos de alta qualidade a partir de prompts de texto ou imagens. No entanto, o controle preciso sobre o processo de geração de vídeo, como manipulação de câmera ou edição de conteúdo, continua sendo um desafio significativo. Métodos existentes para geração de vídeo controlada são tipicamente limitados a um único tipo de controle, faltando a flexibilidade para lidar com diversas demandas de controle. Neste artigo, apresentamos o Diffusion as Shader (DaS), uma abordagem inovadora que suporta múltiplas tarefas de controle de vídeo dentro de uma arquitetura unificada. Nosso insight chave é que alcançar um controle versátil de vídeo exige alavancar sinais de controle 3D, uma vez que vídeos são fundamentalmente representações 2D de conteúdo 3D dinâmico. Ao contrário de métodos anteriores limitados a sinais de controle 2D, o DaS utiliza vídeos de rastreamento 3D como entradas de controle, tornando o processo de difusão de vídeo inerentemente consciente do 3D. Essa inovação permite ao DaS alcançar uma ampla gama de controles de vídeo simplesmente manipulando os vídeos de rastreamento 3D. Uma vantagem adicional do uso de vídeos de rastreamento 3D é sua capacidade de vincular efetivamente frames, melhorando significativamente a consistência temporal dos vídeos gerados. Com apenas 3 dias de ajuste fino em 8 GPUs H800 usando menos de 10 mil vídeos, o DaS demonstra fortes capacidades de controle em diversas tarefas, incluindo geração de malha para vídeo, controle de câmera, transferência de movimento e manipulação de objetos.
Gerar automaticamente apresentações a partir de documentos é uma tarefa desafiadora que requer equilibrar a qualidade do conteúdo, design visual e coerência estrutural. Os métodos existentes geralmente se concentram em melhorar e avaliar a qualidade do conteúdo de forma isolada, muitas vezes negligenciando o design visual e a coerência estrutural, o que limita sua aplicabilidade prática. Para lidar com essas limitações, propomos o PPTAgent, que melhora de forma abrangente a geração de apresentações por meio de uma abordagem em duas etapas baseada em edições, inspirada nos fluxos de trabalho humanos. O PPTAgent analisa primeiro apresentações de referência para entender seus padrões estruturais e esquemas de conteúdo, em seguida, elabora esboços e gera slides por meio de ações de código para garantir consistência e alinhamento. Para avaliar abrangentemente a qualidade das apresentações geradas, introduzimos ainda o PPTEval, um framework de avaliação que avalia apresentações em três dimensões: Conteúdo, Design e Coerência. Experimentos mostram que o PPTAgent supera significativamente os métodos tradicionais de geração automática de apresentações em todas as três dimensões. O código e os dados estão disponíveis em https://github.com/icip-cas/PPTAgent.
Avanços recentes em aprendizado omnimodal têm sido alcançados na compreensão e geração através de imagens, texto e fala, embora principalmente dentro de modelos proprietários. Conjuntos de dados omnimodais limitados e os desafios inerentes associados à geração de fala emocional em tempo real têm prejudicado o progresso de código aberto. Para abordar essas questões, propomos openomni, um método de treinamento em duas etapas que combina alinhamento omnimodal e geração de fala para desenvolver um modelo de linguagem omnimodal grande de última geração. Na fase de alinhamento, um modelo de fala pré-treinado é ainda treinado em tarefas de texto-imagem para generalizar da visão para a fala de maneira (quase) sem necessidade de ajustes, superando modelos treinados em conjuntos de dados tri-modais. Na fase de geração de fala, um decodificador leve facilita a geração de fala emocional em tempo real através do treinamento em tarefas de fala e aprendizado de preferência. Experimentos demonstram que openomni melhora consistentemente em avaliações omnimodais, visão-linguagem e fala-linguagem, possibilitando diálogos naturais e ricos em emoção e geração de fala emocional em tempo real.
O paradigma da pesquisa científica está passando por uma transformação profunda devido ao desenvolvimento da Inteligência Artificial (IA). Trabalhos recentes demonstram que vários métodos de pesquisa assistidos por IA podem melhorar significativamente a eficiência da pesquisa, aprimorando a análise de dados, acelerando a computação e fomentando a geração de novas ideias. Para avançar em direção ao objetivo final (ou seja, pesquisa científica automática), neste artigo, propomos o Dolphin, o primeiro framework de pesquisa automática de circuito fechado e aberto para construir ainda mais todo o processo da pesquisa científica humana. O Dolphin pode gerar ideias de pesquisa, realizar experimentos e obter feedback dos resultados experimentais para gerar ideias de maior qualidade. Mais especificamente, o Dolphin primeiro gera ideias inovadoras com base em artigos relevantes classificados pelos atributos de tópico e tarefa. Em seguida, os códigos são gerados automaticamente e depurados com a estrutura de código local guiada por exceção-rastreamento. Por fim, o Dolphin analisa automaticamente os resultados de cada ideia e alimenta os resultados de volta para a próxima rodada de geração de ideias. Experimentos são realizados em conjuntos de dados de referência de diferentes tópicos e os resultados mostram que o Dolphin pode gerar ideias inovadoras continuamente e concluir o experimento em um ciclo. Destacamos que o Dolphin pode propor automaticamente métodos comparáveis ao estado-da-arte em algumas tarefas, como classificação de imagens 2D e classificação de pontos 3D.
Apresentamos o Magic Mirror, um framework para gerar vídeos preservando identidade com qualidade de nível cinematográfico e movimento dinâmico. Enquanto avanços recentes em modelos de difusão de vídeo têm mostrado capacidades impressionantes na geração de texto para vídeo, manter uma identidade consistente ao produzir movimentos naturais continua sendo um desafio. Métodos anteriores exigem ajustes finos específicos para cada pessoa ou têm dificuldade em equilibrar a preservação de identidade com a diversidade de movimento. Baseado nos Transformadores de Difusão de Vídeo, nosso método introduz três componentes-chave: (1) um extrator de características faciais de duplo ramo que captura tanto a identidade quanto as características estruturais, (2) um adaptador cruzado leve com Normalização Adaptativa Condicionada para integração eficiente de identidade, e (3) uma estratégia de treinamento em duas etapas combinando pares de identidade sintética com dados de vídeo. Experimentos extensivos demonstram que o Magic Mirror equilibra efetivamente a consistência de identidade com o movimento natural, superando métodos existentes em várias métricas, exigindo um mínimo de parâmetros adicionais. O código e o modelo estarão disponíveis publicamente em: https://github.com/dvlab-research/MagicMirror/
A técnica de Splatting Gaussiano 3D (3DGS) avançou significativamente na representação de cenas e renderização neural, com esforços intensos concentrados em adaptá-la para cenas dinâmicas. Apesar de proporcionar uma qualidade de renderização e velocidade notáveis, os métodos existentes enfrentam dificuldades com as demandas de armazenamento e a representação de movimentos complexos do mundo real. Para lidar com essas questões, propomos o MoDecGS, um framework de Splatting Gaussiano eficiente em memória, projetado para reconstruir novas visualizações em cenários desafiadores com movimentos complexos. Introduzimos a Decomposição de Movimento de Global para Local (GLMD) para capturar de forma eficaz os movimentos dinâmicos de maneira de grossa a fina. Esta abordagem utiliza Andaimes Canônicos Globais (Global CS) e Andaimes Canônicos Locais (Local CS), estendendo a representação de Andaime estático para reconstrução de vídeo dinâmico. Para o Global CS, propomos a Deformação de Âncora Global (GAD) para representar eficientemente dinâmicas globais ao longo de movimentos complexos, deformando diretamente os atributos implícitos do Andaime, que são posição do âncora, deslocamento e características de contexto local. Em seguida, ajustamos finamente os movimentos locais via Deformação Gaussiana Local (LGD) do Local CS de forma explícita. Além disso, introduzimos o Ajuste de Intervalo Temporal (TIA) para controlar automaticamente a cobertura temporal de cada Local CS durante o treinamento, permitindo que o MoDecGS encontre atribuições de intervalo ideais com base no número especificado de segmentos temporais. Avaliações extensivas demonstram que o MoDecGS alcança uma redução média de 70% no tamanho do modelo em relação aos métodos de ponta para Gaussiana 3D dinâmica a partir de vídeos dinâmicos do mundo real, mantendo ou até mesmo melhorando a qualidade de renderização.
A aprendizagem por reforço a partir do feedback humano (RLHF) tem sido amplamente adotada para alinhar modelos de linguagem (LMs) com a preferência humana. Trabalhos anteriores de RLHF geralmente adotam uma formulação de bandit, que, embora intuitiva, ignora a natureza sequencial da geração de LM e pode sofrer com o problema da recompensa esparsa. Enquanto trabalhos recentes propõem RLHF denso ao nível do token, tratando cada token como uma ação pode ser excessivamente sutil para atribuição adequada de recompensa. Neste artigo, buscamos obter o melhor dos dois mundos treinando e utilizando um modelo de recompensa ao nível de segmento, que atribui uma recompensa a cada segmento de texto semanticamente completo que abrange uma sequência curta de tokens. Para aprendizado de recompensa, nosso método permite segmentação dinâmica de texto e é compatível com conjuntos de dados padrão de preferência de sequência. Para treinamento eficaz de LM baseado em RL contra recompensa de segmento, generalizamos os normalizadores de recompensa clássicos de bandit escalar em funções de normalização sensíveis à localização e interpolamos a recompensa de segmento para maior densificação. Com esses projetos, nosso método apresenta desempenho competitivo em três benchmarks populares de RLHF para política de LM: AlpacaEval 2.0, Arena-Hard e MT-Bench. Estudos de ablação são conduzidos para demonstrar ainda mais nosso método.
Apresentamos uma abordagem para modificar arquiteturas Transformer integrando raciocínio relacional consciente de grafos ao mecanismo de atenção, combinando conceitos de redes neurais de grafos e modelagem de linguagem. Aproveitando a conexão inerente entre atenção e teoria dos grafos, reformulamos o mecanismo de atenção do Transformer como uma operação de grafo e propomos a Atenção Isomórfica Consciente de Grafos. Este método utiliza estratégias avançadas de modelagem de grafos, incluindo Redes de Isomorfismo de Grafos (GIN) e Agregação de Vizinhança Principal (PNA), para enriquecer a representação de estruturas relacionais. Nossa abordagem captura dependências complexas e generaliza entre tarefas, como evidenciado por uma redução na lacuna de generalização e melhoria no desempenho de aprendizado. Além disso, expandimos o conceito de atenção consciente de grafos para introduzir a Atenção GIN-Esparsa, uma abordagem de ajuste fino que utiliza GINs esparsos. Ao interpretar matrizes de atenção como grafos de adjacência esparsos, essa técnica aprimora a adaptabilidade de modelos fundamentais pré-treinados com sobrecarga computacional mínima, dotando-os de capacidades conscientes de grafos. O ajuste fino da Atenção GIN-Esparsa alcança dinâmicas de treinamento aprimoradas e melhor generalização em comparação com métodos alternativos como adaptação de baixa classificação (LoRA). Discutimos estruturas latentes semelhantes a grafos dentro de mecanismos de atenção tradicionais, oferecendo uma nova perspectiva através da qual os Transformers podem ser compreendidos. Ao evoluir Transformers como modelos GIN hierárquicos para raciocínio relacional. Essa perspectiva sugere implicações profundas para o desenvolvimento de modelos fundamentais, permitindo o projeto de arquiteturas que se adaptam dinamicamente a dependências locais e globais. Aplicações em bioinformática, ciência de materiais, modelagem de linguagem e além poderiam se beneficiar dessa síntese de modelagem de dados relacionais e sequenciais, preparando o terreno para estratégias de modelagem interpretáveis e generalizáveis.
Abordamos o problema da edição de expressões faciais controlando a variação relativa da unidade de ação facial (AU) da mesma pessoa. Isso nos permite editar a expressão específica dessa pessoa de maneira refinada, contínua e interpretável, preservando sua identidade, pose, plano de fundo e atributos faciais detalhados. Fundamental para nosso modelo, que denominamos MagicFace, é um modelo de difusão condicionado a variações de AU e um codificador de ID para preservar detalhes faciais de alta consistência. Especificamente, para preservar os detalhes faciais com a identidade de entrada, aproveitamos o poder de modelos pré-treinados de Difusão Estável e projetamos um codificador de ID para mesclar características de aparência por meio de autoatenção. Para manter a consistência de plano de fundo e pose, introduzimos um Controlador de Atributos eficiente, informando explicitamente ao modelo o plano de fundo e a pose atuais do alvo. Ao injetar variações de AU em um UNet de remoção de ruído, nosso modelo pode animar identidades arbitrárias com várias combinações de AU, produzindo resultados superiores na edição de expressões de alta fidelidade em comparação com outros trabalhos de edição de expressão facial. O código está disponível publicamente em https://github.com/weimengting/MagicFace.
Os modelos de difusão de imagem para imagem guiados por texto se destacam na tradução de imagens com base em sugestões textuais, permitindo modificações visuais precisas e criativas. No entanto, essa técnica poderosa pode ser mal utilizada para espalhar desinformação, infringir direitos autorais e evitar rastreamento de conteúdo. Isso nos motiva a introduzir a tarefa de Identificação de Origem para modelos de Difusão de Imagem para Imagem guiados por texto (ID^2), com o objetivo de recuperar a imagem original de uma determinada consulta traduzida. Uma solução direta para o ID^2 envolve treinar um modelo de incorporação profunda especializado para extrair e comparar características tanto das consultas quanto das imagens de referência. No entanto, devido às discrepâncias visuais entre gerações produzidas por diferentes modelos de difusão, essa abordagem baseada em similaridade falha ao treinar em imagens de um modelo e testar em imagens de outro, limitando sua eficácia em aplicações do mundo real. Para resolver esse desafio da proposta tarefa ID^2, contribuímos com o primeiro conjunto de dados e um método teoricamente garantido, ambos enfatizando a generalizabilidade. O conjunto de dados curado, OriPID, contém Origens abundantes e Prompts guiados, que podem ser usados para treinar e testar modelos de Identificação potenciais em vários modelos de difusão. Na seção de método, primeiro provamos a existência de uma transformação linear que minimiza a distância entre as incorporações pré-treinadas do Autoencoder Variacional (VAE) de amostras geradas e suas origens. Posteriormente, é demonstrado que tal transformação linear simples pode ser generalizada entre diferentes modelos de difusão. Resultados experimentais mostram que o método proposto alcança um desempenho de generalização satisfatório, superando significativamente métodos baseados em similaridade (+31,6% mAP), mesmo aqueles com designs de generalização.