Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

REINFORCE++: Uma Abordagem Simples e Eficiente para Alinhar Modelos de Linguagem Grandes
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jan 4

ByJian Hu

104

A Aprendizagem por Reforço a partir de Feedback Humano (RLHF) surgiu como uma abordagem crítica para alinhar grandes modelos de linguagem com as preferências humanas, testemunhando uma rápida evolução algorítmica por meio de métodos como Otimização de Política Próxima (PPO), Otimização Direta de Preferência (DPO), REINFORCE Leave One-Out (RLOO), ReMax e Otimização de Política Relativa em Grupo (GRPO). Apresentamos o REINFORCE++, uma variante aprimorada do algoritmo clássico REINFORCE que incorpora técnicas-chave de otimização do PPO, eliminando a necessidade de uma rede crítica. O REINFORCE++ alcança três objetivos principais: (1) simplicidade, (2) estabilidade de treinamento aprimorada e (3) redução da sobrecarga computacional. Por meio de uma extensa avaliação empírica, demonstramos que o REINFORCE++ exibe uma estabilidade superior em comparação com o GRPO e alcança uma eficiência computacional maior do que o PPO, mantendo um desempenho comparável. A implementação está disponível em https://github.com/OpenRLHF/OpenRLHF.

Plataforma Modelo da Fundação Cosmos World para IA Física
Cosmos World Foundation Model Platform for Physical AI

Jan 7

ByNVIDIA, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, Daniel Dworakowski, Jiaojiao Fan, Michele Fenzi, Francesco Ferroni, Sanja Fidler, Dieter Fox, Songwei Ge, Yunhao Ge, Jinwei Gu, Siddharth Gururani, Ethan He, Jiahui Huang, Jacob Huffman, Pooya Jannaty, Jingyi Jin, Seung Wook Kim, Gergely Klár, Grace Lam, Shiyi Lan, Laura Leal-Taixe, Anqi Li, Zhaoshuo Li, Chen-Hsuan Lin, Tsung-Yi Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Arsalan Mousavian, Seungjun Nah, Sriharsha Niverty, David Page, Despoina Paschalidou, Zeeshan Patel, Lindsey Pavao, Morteza Ramezanali, Fitsum Reda, Xiaowei Ren, Vasanth Rao Naik Sabavat, Ed Schmerling, Stella Shi, Bartosz Stefaniak, Shitao Tang, Lyne Tchapmi, Przemek Tredak, Wei-Cheng Tseng, Jibin Varghese, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Xinyue Wei, Jay Zhangjie Wu, Jiashu Xu, Wei Yang, Lin Yen-Chen, Xiaohui Zeng, Yu Zeng, Jing Zhang, Qinsheng Zhang, Yuxuan Zhang, Qingqing Zhao, Artur Zolkowski

A IA física precisa ser treinada digitalmente primeiro. Ela precisa de um gêmeo digital de si mesma, o modelo de política, e um gêmeo digital do mundo, o modelo do mundo. Neste artigo, apresentamos a Plataforma do Modelo de Fundação do Mundo Cosmos para ajudar os desenvolvedores a construir modelos de mundo personalizados para suas configurações de IA física. Posicionamos um modelo de fundação do mundo como um modelo de mundo de uso geral que pode ser ajustado para modelos de mundo personalizados para aplicações posteriores. Nossa plataforma abrange um pipeline de curadoria de vídeo, modelos de fundação de mundo pré-treinados, exemplos de pós-treinamento de modelos de fundação de mundo pré-treinados e tokenizers de vídeo. Para ajudar os construtores de IA física a resolver os problemas mais críticos de nossa sociedade, tornamos nossa plataforma de código aberto e nossos modelos de peso aberto com licenças permissivas disponíveis em https://github.com/NVIDIA/Cosmos.

LLaVA-Mini: Modelos Multimodais Grandes de Imagem e Vídeo Eficientes com um Token de Visão
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Jan 7

ByShaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

O surgimento de modelos multimodais grandes em tempo real (LMMs) como o GPT-4o tem despertado considerável interesse em LMMs eficientes. Os frameworks de LMM normalmente codificam entradas visuais em tokens de visão (representações contínuas) e as integram com instruções textuais no contexto de grandes modelos de linguagem (LLMs), onde parâmetros em grande escala e numerosos tokens de contexto (predominantemente tokens de visão) resultam em uma sobrecarga computacional substancial. Esforços anteriores em direção a LMMs eficientes sempre se concentraram em substituir a espinha dorsal do LLM por modelos menores, negligenciando a questão crucial da quantidade de tokens. Neste artigo, apresentamos o LLaVA-Mini, um LMM eficiente com um número mínimo de tokens de visão. Para alcançar uma alta taxa de compressão de tokens de visão, enquanto preserva informações visuais, analisamos primeiro como os LMMs compreendem os tokens de visão e descobrimos que a maioria dos tokens de visão desempenha um papel crucial apenas nas camadas iniciais da espinha dorsal do LLM, onde eles principalmente fundem informações visuais nos tokens de texto. Com base nessa descoberta, o LLaVA-Mini introduz a pré-fusão de modalidade para fundir informações visuais nos tokens de texto antecipadamente, facilitando assim a compressão extrema dos tokens de visão alimentados na espinha dorsal do LLM em um único token. O LLaVA-Mini é um modelo multimodal grande unificado que pode suportar a compreensão de imagens, imagens de alta resolução e vídeos de maneira eficiente. Experimentos em 11 benchmarks baseados em imagens e 7 baseados em vídeos demonstram que o LLaVA-Mini supera o LLaVA-v1.5 com apenas 1 token de visão em vez de 576. Análises de eficiência revelam que o LLaVA-Mini pode reduzir as operações de ponto flutuante em 77%, fornecer respostas de baixa latência em até 40 milissegundos e processar mais de 10.000 frames de vídeo no hardware da GPU com 24GB de memória.

Sa2VA: Casando SAM2 com LLaVA para uma Compreensão Densa e Fundamentada de Imagens e Vídeos
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Jan 7

ByHaobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang

Este trabalho apresenta o Sa2VA, o primeiro modelo unificado para compreensão densa e fundamentada de imagens e vídeos. Ao contrário dos modelos de linguagem grandes multimodais existentes, que frequentemente são limitados a modalidades e tarefas específicas, o Sa2VA suporta uma ampla gama de tarefas de imagem e vídeo, incluindo segmentação referencial e conversação, com ajuste mínimo de instrução em uma única etapa. O Sa2VA combina o SAM-2, um modelo de segmentação de vídeo fundamental, com o LLaVA, um modelo avançado de visão e linguagem, e unifica texto, imagem e vídeo em um espaço de token LLM compartilhado. Utilizando o LLM, o Sa2VA gera tokens de instrução que guiam o SAM-2 na produção de máscaras precisas, possibilitando uma compreensão fundamentada e multimodal de conteúdos visuais estáticos e dinâmicos. Adicionalmente, introduzimos o Ref-SAV, um conjunto de dados autoetiquetado contendo mais de 72 mil expressões de objetos em cenas de vídeo complexas, projetado para impulsionar o desempenho do modelo. Também validamos manualmente 2 mil objetos de vídeo nos conjuntos de dados Ref-SAV para avaliar a segmentação de objetos de vídeo referenciados em ambientes complexos. Experimentos mostram que o Sa2VA alcança o estado da arte em várias tarefas, especialmente na segmentação de objetos de vídeo referenciados, destacando seu potencial para aplicações complexas do mundo real.

MotionBench: Avaliação e Melhoria da Compreensão de Movimento em Vídeos de Detalhe Fino para Modelos de Linguagem Visual
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Jan 6

ByWenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

Nos últimos anos, os modelos de visão e linguagem (VLMs) fizeram avanços significativos na compreensão de vídeos. No entanto, uma capacidade crucial - a compreensão de movimentos detalhados - permanece pouco explorada nos benchmarks atuais. Para abordar essa lacuna, propomos o MotionBench, um benchmark abrangente projetado para avaliar a compreensão de movimentos detalhados dos modelos de compreensão de vídeo. O MotionBench avalia a percepção em nível de movimento dos modelos por meio de seis categorias principais de tipos de perguntas orientadas ao movimento e inclui dados coletados de fontes diversas, garantindo uma representação ampla de conteúdo de vídeo do mundo real. Resultados experimentais revelam que os VLMs existentes têm baixo desempenho na compreensão de movimentos detalhados. Para aprimorar a capacidade dos VLMs de perceber movimentos detalhados dentro de um comprimento de sequência limitado de LLM, conduzimos experimentos extensivos revisando arquiteturas de VLM otimizadas para compressão de características de vídeo e propomos um método de Fusão Through-Encoder (TE) novo e eficiente. Os experimentos mostram que entradas com taxas de quadros mais altas e a Fusão TE resultam em melhorias na compreensão de movimentos, porém ainda há um espaço substancial para aprimoramento. Nosso benchmark tem como objetivo orientar e motivar o desenvolvimento de modelos de compreensão de vídeo mais capazes, enfatizando a importância da compreensão de movimentos detalhados. Página do projeto: https://motion-bench.github.io.

PPTAgent: Gerando e Avaliando Apresentações Além de Texto para Slides
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Jan 7

ByHao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun

Gerar automaticamente apresentações a partir de documentos é uma tarefa desafiadora que requer equilibrar a qualidade do conteúdo, design visual e coerência estrutural. Os métodos existentes geralmente se concentram em melhorar e avaliar a qualidade do conteúdo de forma isolada, muitas vezes negligenciando o design visual e a coerência estrutural, o que limita sua aplicabilidade prática. Para lidar com essas limitações, propomos o PPTAgent, que melhora de forma abrangente a geração de apresentações por meio de uma abordagem em duas etapas baseada em edições, inspirada nos fluxos de trabalho humanos. O PPTAgent analisa primeiro apresentações de referência para entender seus padrões estruturais e esquemas de conteúdo, em seguida, elabora esboços e gera slides por meio de ações de código para garantir consistência e alinhamento. Para avaliar abrangentemente a qualidade das apresentações geradas, introduzimos ainda o PPTEval, um framework de avaliação que avalia apresentações em três dimensões: Conteúdo, Design e Coerência. Experimentos mostram que o PPTAgent supera significativamente os métodos tradicionais de geração automática de apresentações em todas as três dimensões. O código e os dados estão disponíveis em https://github.com/icip-cas/PPTAgent.

Difusão como Shader: Difusão de Vídeo Consciente do 3D para Controle Versátil de Geração de Vídeo
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Jan 7

ByZekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu

Os modelos de difusão têm demonstrado um desempenho impressionante na geração de vídeos de alta qualidade a partir de prompts de texto ou imagens. No entanto, o controle preciso sobre o processo de geração de vídeo, como manipulação de câmera ou edição de conteúdo, continua sendo um desafio significativo. Métodos existentes para geração de vídeo controlada são tipicamente limitados a um único tipo de controle, faltando a flexibilidade para lidar com diversas demandas de controle. Neste artigo, apresentamos o Diffusion as Shader (DaS), uma abordagem inovadora que suporta múltiplas tarefas de controle de vídeo dentro de uma arquitetura unificada. Nosso insight chave é que alcançar um controle versátil de vídeo exige alavancar sinais de controle 3D, uma vez que vídeos são fundamentalmente representações 2D de conteúdo 3D dinâmico. Ao contrário de métodos anteriores limitados a sinais de controle 2D, o DaS utiliza vídeos de rastreamento 3D como entradas de controle, tornando o processo de difusão de vídeo inerentemente consciente do 3D. Essa inovação permite ao DaS alcançar uma ampla gama de controles de vídeo simplesmente manipulando os vídeos de rastreamento 3D. Uma vantagem adicional do uso de vídeos de rastreamento 3D é sua capacidade de vincular efetivamente frames, melhorando significativamente a consistência temporal dos vídeos gerados. Com apenas 3 dias de ajuste fino em 8 GPUs H800 usando menos de 10 mil vídeos, o DaS demonstra fortes capacidades de controle em diversas tarefas, incluindo geração de malha para vídeo, controle de câmera, transferência de movimento e manipulação de objetos.

OpenOmni: Modelos de Linguagem Grandes Pivot Zero-shot Alinhamento Omnimodal através de Idiomas com Síntese de Fala Emocional em Tempo Real Autoconsciente
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Jan 8

ByRun Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang

Avanços recentes em aprendizado omnimodal têm sido alcançados na compreensão e geração através de imagens, texto e fala, embora principalmente dentro de modelos proprietários. Conjuntos de dados omnimodais limitados e os desafios inerentes associados à geração de fala emocional em tempo real têm prejudicado o progresso de código aberto. Para abordar essas questões, propomos openomni, um método de treinamento em duas etapas que combina alinhamento omnimodal e geração de fala para desenvolver um modelo de linguagem omnimodal grande de última geração. Na fase de alinhamento, um modelo de fala pré-treinado é ainda treinado em tarefas de texto-imagem para generalizar da visão para a fala de maneira (quase) sem necessidade de ajustes, superando modelos treinados em conjuntos de dados tri-modais. Na fase de geração de fala, um decodificador leve facilita a geração de fala emocional em tempo real através do treinamento em tarefas de fala e aprendizado de preferência. Experimentos demonstram que openomni melhora consistentemente em avaliações omnimodais, visão-linguagem e fala-linguagem, possibilitando diálogos naturais e ricos em emoção e geração de fala emocional em tempo real.

Dolphin: Pesquisa Automática de Loop Fechado e Aberto por meio de Pensamento, Prática e Feedback
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jan 7

ByJiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou

O paradigma da pesquisa científica está passando por uma transformação profunda devido ao desenvolvimento da Inteligência Artificial (IA). Trabalhos recentes demonstram que vários métodos de pesquisa assistidos por IA podem melhorar significativamente a eficiência da pesquisa, aprimorando a análise de dados, acelerando a computação e fomentando a geração de novas ideias. Para avançar em direção ao objetivo final (ou seja, pesquisa científica automática), neste artigo, propomos o Dolphin, o primeiro framework de pesquisa automática de circuito fechado e aberto para construir ainda mais todo o processo da pesquisa científica humana. O Dolphin pode gerar ideias de pesquisa, realizar experimentos e obter feedback dos resultados experimentais para gerar ideias de maior qualidade. Mais especificamente, o Dolphin primeiro gera ideias inovadoras com base em artigos relevantes classificados pelos atributos de tópico e tarefa. Em seguida, os códigos são gerados automaticamente e depurados com a estrutura de código local guiada por exceção-rastreamento. Por fim, o Dolphin analisa automaticamente os resultados de cada ideia e alimenta os resultados de volta para a próxima rodada de geração de ideias. Experimentos são realizados em conjuntos de dados de referência de diferentes tópicos e os resultados mostram que o Dolphin pode gerar ideias inovadoras continuamente e concluir o experimento em um ciclo. Destacamos que o Dolphin pode propor automaticamente métodos comparáveis ao estado-da-arte em algumas tarefas, como classificação de imagens 2D e classificação de pontos 3D.

Espelho Mágico: Geração de Vídeo com Preservação de Identidade em Difusão de Vídeo Transformers
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Jan 7

ByYuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia

Apresentamos o Magic Mirror, um framework para gerar vídeos preservando identidade com qualidade de nível cinematográfico e movimento dinâmico. Enquanto avanços recentes em modelos de difusão de vídeo têm mostrado capacidades impressionantes na geração de texto para vídeo, manter uma identidade consistente ao produzir movimentos naturais continua sendo um desafio. Métodos anteriores exigem ajustes finos específicos para cada pessoa ou têm dificuldade em equilibrar a preservação de identidade com a diversidade de movimento. Baseado nos Transformadores de Difusão de Vídeo, nosso método introduz três componentes-chave: (1) um extrator de características faciais de duplo ramo que captura tanto a identidade quanto as características estruturais, (2) um adaptador cruzado leve com Normalização Adaptativa Condicionada para integração eficiente de identidade, e (3) uma estratégia de treinamento em duas etapas combinando pares de identidade sintética com dados de vídeo. Experimentos extensivos demonstram que o Magic Mirror equilibra efetivamente a consistência de identidade com o movimento natural, superando métodos existentes em várias métricas, exigindo um mínimo de parâmetros adicionais. O código e o modelo estarão disponíveis publicamente em: https://github.com/dvlab-research/MagicMirror/

MoDec-GS: Decomposição de Movimento Global para Local e Ajuste de Intervalo Temporal para Splatting Gaussiano 3D Dinâmico Compacto
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Jan 7

BySangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim

A técnica de Splatting Gaussiano 3D (3DGS) avançou significativamente na representação de cenas e renderização neural, com esforços intensos concentrados em adaptá-la para cenas dinâmicas. Apesar de proporcionar uma qualidade de renderização e velocidade notáveis, os métodos existentes enfrentam dificuldades com as demandas de armazenamento e a representação de movimentos complexos do mundo real. Para lidar com essas questões, propomos o MoDecGS, um framework de Splatting Gaussiano eficiente em memória, projetado para reconstruir novas visualizações em cenários desafiadores com movimentos complexos. Introduzimos a Decomposição de Movimento de Global para Local (GLMD) para capturar de forma eficaz os movimentos dinâmicos de maneira de grossa a fina. Esta abordagem utiliza Andaimes Canônicos Globais (Global CS) e Andaimes Canônicos Locais (Local CS), estendendo a representação de Andaime estático para reconstrução de vídeo dinâmico. Para o Global CS, propomos a Deformação de Âncora Global (GAD) para representar eficientemente dinâmicas globais ao longo de movimentos complexos, deformando diretamente os atributos implícitos do Andaime, que são posição do âncora, deslocamento e características de contexto local. Em seguida, ajustamos finamente os movimentos locais via Deformação Gaussiana Local (LGD) do Local CS de forma explícita. Além disso, introduzimos o Ajuste de Intervalo Temporal (TIA) para controlar automaticamente a cobertura temporal de cada Local CS durante o treinamento, permitindo que o MoDecGS encontre atribuições de intervalo ideais com base no número especificado de segmentos temporais. Avaliações extensivas demonstram que o MoDecGS alcança uma redução média de 70% no tamanho do modelo em relação aos métodos de ponta para Gaussiana 3D dinâmica a partir de vídeos dinâmicos do mundo real, mantendo ou até mesmo melhorando a qualidade de renderização.

Segmentação de Texto e Aprendizado de suas Recompensas para Melhoria do RLHF em Modelo de Linguagem
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Jan 6

ByYueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou

A aprendizagem por reforço a partir do feedback humano (RLHF) tem sido amplamente adotada para alinhar modelos de linguagem (LMs) com a preferência humana. Trabalhos anteriores de RLHF geralmente adotam uma formulação de bandit, que, embora intuitiva, ignora a natureza sequencial da geração de LM e pode sofrer com o problema da recompensa esparsa. Enquanto trabalhos recentes propõem RLHF denso ao nível do token, tratando cada token como uma ação pode ser excessivamente sutil para atribuição adequada de recompensa. Neste artigo, buscamos obter o melhor dos dois mundos treinando e utilizando um modelo de recompensa ao nível de segmento, que atribui uma recompensa a cada segmento de texto semanticamente completo que abrange uma sequência curta de tokens. Para aprendizado de recompensa, nosso método permite segmentação dinâmica de texto e é compatível com conjuntos de dados padrão de preferência de sequência. Para treinamento eficaz de LM baseado em RL contra recompensa de segmento, generalizamos os normalizadores de recompensa clássicos de bandit escalar em funções de normalização sensíveis à localização e interpolamos a recompensa de segmento para maior densificação. Com esses projetos, nosso método apresenta desempenho competitivo em três benchmarks populares de RLHF para política de LM: AlpacaEval 2.0, Arena-Hard e MT-Bench. Estudos de ablação são conduzidos para demonstrar ainda mais nosso método.

Atenção Isomórfica Consciente do Grafo para Dinâmicas Adaptativas em Transformers
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Jan 4

ByMarkus J. Buehler

Apresentamos uma abordagem para modificar arquiteturas Transformer integrando raciocínio relacional consciente de grafos ao mecanismo de atenção, combinando conceitos de redes neurais de grafos e modelagem de linguagem. Aproveitando a conexão inerente entre atenção e teoria dos grafos, reformulamos o mecanismo de atenção do Transformer como uma operação de grafo e propomos a Atenção Isomórfica Consciente de Grafos. Este método utiliza estratégias avançadas de modelagem de grafos, incluindo Redes de Isomorfismo de Grafos (GIN) e Agregação de Vizinhança Principal (PNA), para enriquecer a representação de estruturas relacionais. Nossa abordagem captura dependências complexas e generaliza entre tarefas, como evidenciado por uma redução na lacuna de generalização e melhoria no desempenho de aprendizado. Além disso, expandimos o conceito de atenção consciente de grafos para introduzir a Atenção GIN-Esparsa, uma abordagem de ajuste fino que utiliza GINs esparsos. Ao interpretar matrizes de atenção como grafos de adjacência esparsos, essa técnica aprimora a adaptabilidade de modelos fundamentais pré-treinados com sobrecarga computacional mínima, dotando-os de capacidades conscientes de grafos. O ajuste fino da Atenção GIN-Esparsa alcança dinâmicas de treinamento aprimoradas e melhor generalização em comparação com métodos alternativos como adaptação de baixa classificação (LoRA). Discutimos estruturas latentes semelhantes a grafos dentro de mecanismos de atenção tradicionais, oferecendo uma nova perspectiva através da qual os Transformers podem ser compreendidos. Ao evoluir Transformers como modelos GIN hierárquicos para raciocínio relacional. Essa perspectiva sugere implicações profundas para o desenvolvimento de modelos fundamentais, permitindo o projeto de arquiteturas que se adaptam dinamicamente a dependências locais e globais. Aplicações em bioinformática, ciência de materiais, modelagem de linguagem e além poderiam se beneficiar dessa síntese de modelagem de dados relacionais e sequenciais, preparando o terreno para estratégias de modelagem interpretáveis e generalizáveis.

MagicFace: Edição de Expressões Faciais de Alta Fidelidade com Controle de Unidades de Ação
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

Jan 4

ByMengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao

Abordamos o problema da edição de expressões faciais controlando a variação relativa da unidade de ação facial (AU) da mesma pessoa. Isso nos permite editar a expressão específica dessa pessoa de maneira refinada, contínua e interpretável, preservando sua identidade, pose, plano de fundo e atributos faciais detalhados. Fundamental para nosso modelo, que denominamos MagicFace, é um modelo de difusão condicionado a variações de AU e um codificador de ID para preservar detalhes faciais de alta consistência. Especificamente, para preservar os detalhes faciais com a identidade de entrada, aproveitamos o poder de modelos pré-treinados de Difusão Estável e projetamos um codificador de ID para mesclar características de aparência por meio de autoatenção. Para manter a consistência de plano de fundo e pose, introduzimos um Controlador de Atributos eficiente, informando explicitamente ao modelo o plano de fundo e a pose atuais do alvo. Ao injetar variações de AU em um UNet de remoção de ruído, nosso modelo pode animar identidades arbitrárias com várias combinações de AU, produzindo resultados superiores na edição de expressões de alta fidelidade em comparação com outros trabalhos de edição de expressão facial. O código está disponível publicamente em https://github.com/weimengting/MagicFace.

Identificação de Origem Generalizável para Modelos de Difusão de Imagem para Imagem Guiados por Texto
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Jan 4

ByWenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang

Os modelos de difusão de imagem para imagem guiados por texto se destacam na tradução de imagens com base em sugestões textuais, permitindo modificações visuais precisas e criativas. No entanto, essa técnica poderosa pode ser mal utilizada para espalhar desinformação, infringir direitos autorais e evitar rastreamento de conteúdo. Isso nos motiva a introduzir a tarefa de Identificação de Origem para modelos de Difusão de Imagem para Imagem guiados por texto (ID^2), com o objetivo de recuperar a imagem original de uma determinada consulta traduzida. Uma solução direta para o ID^2 envolve treinar um modelo de incorporação profunda especializado para extrair e comparar características tanto das consultas quanto das imagens de referência. No entanto, devido às discrepâncias visuais entre gerações produzidas por diferentes modelos de difusão, essa abordagem baseada em similaridade falha ao treinar em imagens de um modelo e testar em imagens de outro, limitando sua eficácia em aplicações do mundo real. Para resolver esse desafio da proposta tarefa ID^2, contribuímos com o primeiro conjunto de dados e um método teoricamente garantido, ambos enfatizando a generalizabilidade. O conjunto de dados curado, OriPID, contém Origens abundantes e Prompts guiados, que podem ser usados para treinar e testar modelos de Identificação potenciais em vários modelos de difusão. Na seção de método, primeiro provamos a existência de uma transformação linear que minimiza a distância entre as incorporações pré-treinadas do Autoencoder Variacional (VAE) de amostras geradas e suas origens. Posteriormente, é demonstrado que tal transformação linear simples pode ser generalizada entre diferentes modelos de difusão. Resultados experimentais mostram que o método proposto alcança um desempenho de generalização satisfatório, superando significativamente métodos baseados em similaridade (+31,6% mAP), mesmo aqueles com designs de generalização.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

REINFORCE++: Uma Abordagem Simples e Eficiente para Alinhar Modelos de Linguagem Grandes
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jan 4

ByJian Hu

104

Plataforma Modelo da Fundação Cosmos World para IA Física
Cosmos World Foundation Model Platform for Physical AI

Jan 7

LLaVA-Mini: Modelos Multimodais Grandes de Imagem e Vídeo Eficientes com um Token de Visão
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Jan 7

ByShaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

Sa2VA: Casando SAM2 com LLaVA para uma Compreensão Densa e Fundamentada de Imagens e Vídeos
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Jan 7

ByHaobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang

MotionBench: Avaliação e Melhoria da Compreensão de Movimento em Vídeos de Detalhe Fino para Modelos de Linguagem Visual
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Jan 6

ByWenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

PPTAgent: Gerando e Avaliando Apresentações Além de Texto para Slides
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Jan 7

ByHao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun

Difusão como Shader: Difusão de Vídeo Consciente do 3D para Controle Versátil de Geração de Vídeo
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Jan 7

ByZekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu

OpenOmni: Modelos de Linguagem Grandes Pivot Zero-shot Alinhamento Omnimodal através de Idiomas com Síntese de Fala Emocional em Tempo Real Autoconsciente
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Jan 8

ByRun Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang

Dolphin: Pesquisa Automática de Loop Fechado e Aberto por meio de Pensamento, Prática e Feedback
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jan 7

ByJiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou

Espelho Mágico: Geração de Vídeo com Preservação de Identidade em Difusão de Vídeo Transformers
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Jan 7

ByYuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia

MoDec-GS: Decomposição de Movimento Global para Local e Ajuste de Intervalo Temporal para Splatting Gaussiano 3D Dinâmico Compacto
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Jan 7

BySangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim

Segmentação de Texto e Aprendizado de suas Recompensas para Melhoria do RLHF em Modelo de Linguagem
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Jan 6

ByYueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou

Atenção Isomórfica Consciente do Grafo para Dinâmicas Adaptativas em Transformers
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Jan 4

ByMarkus J. Buehler

MagicFace: Edição de Expressões Faciais de Alta Fidelidade com Controle de Unidades de Ação
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

Jan 4

ByMengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao

Identificação de Origem Generalizável para Modelos de Difusão de Imagem para Imagem Guiados por Texto
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Jan 4

ByWenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang