Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstrem capacidades notáveis em imagens estáticas, eles frequentemente têm dificuldades em compreender vídeos curtos dinâmicos e ricos em informações, um meio dominante no cenário digital atual. Para preencher essa lacuna, apresentamos o Kwai Keye-VL, um modelo de base multimodal com 8 bilhões de parâmetros, projetado para oferecer desempenho de ponta na compreensão de vídeos curtos, mantendo ao mesmo tempo robustas habilidades gerais de visão e linguagem. O desenvolvimento do Keye-VL baseia-se em dois pilares principais: um conjunto de dados massivo e de alta qualidade, que ultrapassa 600 bilhões de tokens com forte ênfase em vídeo, e uma receita de treinamento inovadora. Essa receita inclui um processo de pré-treinamento em quatro estágios para um alinhamento sólido entre visão e linguagem, seguido por um meticuloso processo de pós-treinamento em duas fases. A primeira fase do pós-treinamento aprimora capacidades fundamentais, como seguir instruções, enquanto a segunda fase se concentra em estimular o raciocínio avançado. Nesta segunda fase, uma inovação crucial é nossa mistura de dados de "inicialização a frio" de cinco modos, que inclui "pensar", "não pensar", "auto-pensar", "pensar com imagem" e dados de vídeo de alta qualidade. Essa mistura ensina o modelo a decidir quando e como raciocinar. Passos subsequentes de aprendizado por reforço (RL) e alinhamento aprimoram ainda mais essas capacidades de raciocínio e corrigem comportamentos anormais do modelo, como saídas repetitivas. Para validar nossa abordagem, realizamos avaliações extensas, mostrando que o Keye-VL alcança resultados de última geração em benchmarks públicos de vídeo e mantém-se altamente competitivo em tarefas gerais baseadas em imagens (Figura 1). Além disso, desenvolvemos e lançamos o KC-MMBench, um novo benchmark projetado para cenários reais de vídeos curtos, onde o Keye-VL demonstra uma vantagem significativa.
A colorização de animações é uma parte crucial da produção na indústria de animação real. A colorização de animações longas possui custos trabalhistas elevados. Portanto, a colorização automatizada de animações longas baseada em modelos de geração de vídeo tem um valor de pesquisa significativo. Os estudos existentes são limitados à colorização de curto prazo. Esses estudos adotam um paradigma local, fundindo características sobrepostas para alcançar transições suaves entre segmentos locais. No entanto, o paradigma local negligencia informações globais, falhando em manter a consistência de cores a longo prazo. Neste estudo, argumentamos que a consistência ideal de cores a longo prazo pode ser alcançada através de um paradigma global-local dinâmico, ou seja, extraindo dinamicamente características globais de consistência de cores relevantes para a geração atual. Especificamente, propomos o LongAnimation, uma nova estrutura que inclui principalmente um SketchDiT, uma Memória Global-Local Dinâmica (DGLM) e uma Recompensa de Consistência de Cores. O SketchDiT captura características de referência híbridas para suportar o módulo DGLM. O módulo DGLM emprega um modelo de compreensão de vídeo longo para comprimir dinamicamente características históricas globais e fundi-las adaptativamente com as características de geração atual. Para refinar a consistência de cores, introduzimos uma Recompensa de Consistência de Cores. Durante a inferência, propomos uma fusão de consistência de cores para suavizar a transição entre segmentos de vídeo. Experimentos extensivos em animações de curto prazo (14 quadros) e longo prazo (média de 500 quadros) mostram a eficácia do LongAnimation em manter a consistência de cores a curto e longo prazo para a tarefa de colorização de animações de domínio aberto. O código pode ser encontrado em https://cn-makers.github.io/long_animation_web/.
Apresentamos o Depth Anything at Any Condition (DepthAnything-AC), um modelo de fundação para estimativa de profundidade monocular (MDE) capaz de lidar com diversas condições ambientais. Modelos anteriores de MDE de fundação alcançam desempenho impressionante em cenas gerais, mas não se saem bem em ambientes complexos do mundo real que envolvem condições desafiadoras, como variações de iluminação, climas adversos e distorções induzidas por sensores. Para superar os desafios da escassez de dados e da incapacidade de gerar pseudo-rótulos de alta qualidade a partir de imagens corrompidas, propomos um paradigma de ajuste fino de regularização de consistência não supervisionada que requer apenas uma quantidade relativamente pequena de dados não rotulados. Além disso, propomos a Restrição de Distância Espacial para impor explicitamente que o modelo aprenda relações relativas em nível de patch, resultando em limites semânticos mais claros e detalhes mais precisos. Resultados experimentais demonstram as capacidades zero-shot do DepthAnything-AC em diversos benchmarks, incluindo benchmarks de clima adverso do mundo real, benchmarks de corrupção sintética e benchmarks gerais. Página do Projeto: https://ghost233lism.github.io/depthanything-AC-page Código: https://github.com/HVision-NKU/DepthAnythingAC
Os notáveis avanços dos modelos fundamentais de visão e linguagem na compreensão, raciocínio e geração multimodal têm impulsionado esforços crescentes para estender essa inteligência ao mundo físico, alimentando o florescimento dos modelos visão-linguagem-ação (VLA). Apesar de abordagens aparentemente diversas, observamos que os atuais modelos VLA podem ser unificados em um único framework: as entradas de visão e linguagem são processadas por uma série de módulos VLA, produzindo uma cadeia de tokens de ação que codificam progressivamente informações mais concretas e acionáveis, gerando, por fim, ações executáveis. Determinamos ainda que a principal escolha de design que distingue os modelos VLA reside em como os tokens de ação são formulados, os quais podem ser categorizados em descrição linguística, código, affordance, trajetória, estado objetivo, representação latente, ação bruta e raciocínio. No entanto, ainda há uma falta de compreensão abrangente sobre os tokens de ação, o que impede significativamente o desenvolvimento eficaz de modelos VLA e obscurece direções futuras. Portanto, este estudo visa categorizar e interpretar as pesquisas existentes em VLA sob a perspectiva da tokenização de ação, destilar os pontos fortes e limitações de cada tipo de token e identificar áreas para melhoria. Por meio desta revisão e análise sistemática, oferecemos uma visão sintetizada sobre a evolução mais ampla dos modelos VLA, destacamos direções subexploradas, porém promissoras, e contribuímos com orientações para pesquisas futuras, na esperança de aproximar o campo da inteligência de propósito geral.
Apresentamos a Decodificação Paralela com Consciência de Localidade (LPD) para acelerar a geração de imagens autoregressivas. A geração tradicional de imagens autoregressivas depende da previsão do próximo patch, um processo limitado pela memória que resulta em alta latência. Trabalhos existentes tentaram paralelizar a previsão do próximo patch ao mudar para a previsão de múltiplos patches para acelerar o processo, mas alcançaram apenas uma paralelização limitada. Para alcançar alta paralelização enquanto mantemos a qualidade da geração, introduzimos duas técnicas principais: (1) Modelagem Autoregressiva Paralelizada Flexível, uma nova arquitetura que permite ordenação arbitrária de geração e graus de paralelização. Ela utiliza tokens de consulta de posição aprendíveis para guiar a geração em posições-alvo, garantindo visibilidade mútua entre tokens gerados simultaneamente para uma decodificação paralela consistente. (2) Ordenação de Geração com Consciência de Localidade, um novo esquema que forma grupos para minimizar dependências intra-grupo e maximizar suporte contextual, melhorando a qualidade da geração. Com esses projetos, reduzimos os passos de geração de 256 para 20 (resolução 256x256) e de 1024 para 48 (resolução 512x512) sem comprometer a qualidade na geração condicional por classe do ImageNet, alcançando uma latência pelo menos 3,4 vezes menor do que modelos autoregressivos paralelizados anteriores.
Apresentamos o FreeMorph, o primeiro método de morphing de imagens sem ajuste fino que acomoda entradas com diferentes semânticas ou layouts. Diferente dos métodos existentes que dependem do ajuste fino de modelos de difusão pré-treinados e são limitados por restrições de tempo e discrepâncias semânticas/de layout, o FreeMorph oferece morphing de imagens de alta fidelidade sem exigir treinamento por instância. Apesar de sua eficiência e potencial, métodos sem ajuste fino enfrentam desafios em manter resultados de alta qualidade devido à natureza não linear do processo de remoção de ruído em múltiplas etapas e aos vieses herdados do modelo de difusão pré-treinado. Neste artigo, introduzimos o FreeMorph para abordar esses desafios ao integrar duas inovações principais. 1) Primeiro, propomos um design de interpolação esférica guiada que incorpora orientação explícita das imagens de entrada ao modificar os módulos de self-attention, abordando assim a perda de identidade e garantindo transições direcionais ao longo da sequência gerada. 2) Além disso, introduzimos uma tendência de variação orientada por etapas que mescla módulos de self-attention derivados de cada imagem de entrada para alcançar transições controladas e consistentes que respeitam ambas as entradas. Nossas extensivas avaliações demonstram que o FreeMorph supera os métodos existentes, sendo de 10x a 50x mais rápido e estabelecendo um novo estado da arte para morphing de imagens.
A geração automatizada de relatórios radiológicos (RRG) visa produzir relatórios textuais detalhados a partir de imagens clínicas, como tomografias computadorizadas (CT), para melhorar a precisão e a eficiência do diagnóstico e do fornecimento de orientações de tratamento. O RRG é complicado por dois desafios principais: (1) a complexidade inerente na extração de informações relevantes dos dados de imagem sob restrições de recursos, e (2) a dificuldade em avaliar objetivamente as discrepâncias entre relatórios gerados por modelos e relatórios escritos por especialistas. Para enfrentar esses desafios, propomos o mu^2LLM, um modelo de linguagem grande **mu**ltiescala e **mu**ltimodal para tarefas de RRG. O novo {mu}^2Tokenizer, como uma camada intermediária, integra características multimodais do tokenizador visual multiescala e do tokenizador de texto, e então melhora a qualidade da geração de relatórios por meio da otimização de preferência direta (DPO), guiada pelo GREEN-RedLlama. Resultados experimentais em quatro grandes conjuntos de dados médicos de imagens e relatórios de CT demonstram que nosso método supera as abordagens existentes, destacando o potencial de nossos mu^2LLMs ajustados com dados limitados para tarefas de RRG.
Aplicações científicas de aprendizado de máquina frequentemente dependem de modelos pequenos e especializados, ajustados para domínios específicos. Esses modelos geralmente alcançam excelente desempenho, mas carecem de flexibilidade. Modelos de base oferecem versatilidade, mas tipicamente têm desempenho inferior às abordagens especializadas, especialmente em modalidades não tradicionais e domínios de cauda longa. Propomos o MARVIS (Modality Adaptive Reasoning over VISualizations), um método sem treinamento que permite até mesmo pequenos modelos de visão e linguagem prever qualquer modalidade de dados com alta precisão. O MARVIS transforma espaços de incorporação latentes em representações visuais e, em seguida, aproveita as habilidades de raciocínio espacial e detalhado dos VLMs para interpretá-las e utilizá-las com sucesso. O MARVIS alcança desempenho competitivo em domínios de visão, áudio, biológicos e tabulares usando um único modelo de 3 bilhões de parâmetros, obtendo resultados que superam o Gemini em 16\% em média e se aproximam de métodos especializados, sem expor informações pessoalmente identificáveis (P.I.I.) ou exigir qualquer treinamento específico do domínio. Disponibilizamos nosso código e conjuntos de dados em código aberto em https://github.com/penfever/marvis.
A comunicação face a face, como uma atividade humana comum, motiva a pesquisa sobre a geração interativa de cabeças. Um agente virtual pode gerar respostas de movimento com capacidades de escuta e fala com base nos sinais de áudio ou movimento do outro usuário e de si mesmo. No entanto, os paradigmas de geração baseados em clipes ou métodos de alternância explícita entre geradores de ouvinte/falante têm limitações na aquisição de sinais futuros, no entendimento comportamental contextual e na suavidade de alternância, tornando desafiador ser em tempo real e realista. Neste artigo, propomos uma estrutura baseada em autoregressão (AR) chamada ARIG para realizar a geração em tempo real com maior realismo de interação. Para alcançar a geração em tempo real, modelamos a previsão de movimento como um processo AR não quantizado vetorialmente. Diferente da previsão de índice de codebook discreto, representamos a distribuição de movimento usando um procedimento de difusão, alcançando previsões mais precisas no espaço contínuo. Para melhorar o realismo de interação, enfatizamos o entendimento comportamental interativo (IBU) e o entendimento detalhado do estado conversacional (CSU). No IBU, com base em sinais duais de dupla modalidade, resumimos comportamentos de curto alcance por meio de aprendizado bidirecional integrado e realizamos o entendimento contextual em longos alcances. No CSU, usamos sinais de atividade vocal e características contextuais do IBU para entender os diversos estados (interrupção, feedback, pausa, etc.) que existem em conversas reais. Estes servem como condições para a previsão progressiva final de movimento. Experimentos extensivos verificaram a eficácia do nosso modelo.
A conexão intrínseca entre o movimento facial e a fala é frequentemente negligenciada na modelagem generativa, onde a síntese de cabeças falantes e a conversão de texto em fala (TTS) são tipicamente tratadas como tarefas separadas. Este artigo apresenta o JAM-Flow, um framework unificado para sintetizar e condicionar simultaneamente tanto o movimento facial quanto a fala. Nossa abordagem aproveita o flow matching e uma nova arquitetura de Transformador de Difusão Multi-Modal (MM-DiT), integrando módulos especializados de Motion-DiT e Audio-DiT. Esses módulos são acoplados por meio de camadas de atenção conjunta seletiva e incorporam escolhas arquitetônicas-chave, como embeddings posicionais temporalmente alinhados e máscaras de atenção conjunta localizada, para permitir uma interação multimodal eficaz enquanto preservam as características específicas de cada modalidade. Treinado com um objetivo no estilo de inpainting, o JAM-Flow suporta uma ampla gama de entradas de condicionamento — incluindo texto, áudio de referência e movimento de referência — facilitando tarefas como a geração sincronizada de cabeças falantes a partir de texto, animação dirigida por áudio e muito mais, tudo dentro de um único modelo coerente. O JAM-Flow avança significativamente a modelagem generativa multimodal ao fornecer uma solução prática para a síntese audiovisual holística. Página do projeto: https://joonghyuk.com/jamflow-web
Os benchmarks de múltipla escolha têm sido há muito tempo a base da avaliação de modelos de linguagem, pois a correção de questões de múltipla escolha é objetiva e fácil de automatizar. No entanto, mostramos que as questões de múltipla escolha de benchmarks populares podem frequentemente ser respondidas sem sequer ver a pergunta. Esses atalhos surgem de uma limitação fundamental da avaliação discriminativa, que não é compartilhada pelas avaliações das respostas gerativas de forma livre do modelo. Até recentemente, parecia não haver uma alternativa viável e escalável à múltipla escolha—mas mostramos que isso mudou. Consideramos a avaliação generativa por meio do que chamamos de correspondência de respostas: forneça ao modelo candidato a pergunta sem as opções, peça que ele gere uma resposta de forma livre e, em seguida, use um modelo de linguagem moderno com a resposta de referência para determinar se a resposta corresponde à referência. Para comparar a validade de diferentes estratégias de avaliação, anotamos o MMLU-Pro e o GPQA-Diamond para obter dados de avaliação humana e medimos a concordância de cada abordagem de avaliação. Descobrimos que a correspondência de respostas usando modelos recentes—mesmo os menores—atinge uma concordância quase perfeita, dentro da faixa de concordância entre anotadores. Em contraste, tanto a avaliação de múltipla escolha quanto o uso de LLM-como-juiz sem respostas de referência alinham-se mal com a avaliação humana. Melhorar as avaliações por meio da correspondência de respostas não é apenas uma preocupação conceitual: as classificações de vários modelos mudam significativamente ao avaliar suas respostas de forma livre com correspondência de respostas. Diante dessas descobertas, discutimos como mover o ecossistema de avaliação da múltipla escolha para a correspondência de respostas.
Métodos anteriores de edição de vídeo guiada por texto frequentemente sofrem com inconsistência temporal, distorção de movimento e, mais notavelmente, transformação de domínio limitada. Atribuímos essas limitações à modelagem insuficiente da relevância espaço-temporal dos pixels durante o processo de edição. Para resolver isso, propomos o STR-Match, um algoritmo de edição de vídeo sem treinamento que produz vídeos visualmente atraentes e espaço-temporalmente coerentes por meio de otimização latente guiada por nossa nova pontuação STR. A pontuação captura a relevância espaço-temporal dos pixels em quadros adjacentes, aproveitando módulos de atenção espacial 2D e temporal 1D em modelos de difusão de texto para vídeo (T2V), sem a sobrecarga de mecanismos de atenção 3D computacionalmente caros. Integrado em um framework de otimização latente com uma máscara latente, o STR-Match gera vídeos temporalmente consistentes e visualmente fiéis, mantendo um desempenho forte mesmo sob transformações significativas de domínio, enquanto preserva atributos visuais-chave da fonte. Experimentos extensivos demonstram que o STR-Match supera consistentemente os métodos existentes tanto em qualidade visual quanto em consistência espaço-temporal.