Artigos de pesquisa em IA selecionados diariamente com traduções
A consistência espaço-temporal é um tópico de pesquisa crítico na geração de vídeos. Um segmento de vídeo gerado qualificado deve garantir a plausibilidade e coerência da narrativa, mantendo a consistência visual de objetos e cenas em diferentes pontos de vista. Pesquisas anteriores, especialmente em projetos de código aberto, concentram-se principalmente na consistência temporal ou espacial, ou em sua combinação básica, como adicionar uma descrição de movimento de câmera após um prompt sem restringir os resultados desse movimento. No entanto, o movimento da câmera pode introduzir novos objetos na cena ou eliminar os existentes, sobrepondo e afetando a narrativa anterior. Especialmente em vídeos com numerosos movimentos de câmera, a interação entre múltiplas tramas torna-se cada vez mais complexa. Este artigo introduz e examina a consistência espaço-temporal integral, considerando a sinergia entre a progressão da trama e as técnicas de câmera, e o impacto de longo prazo do conteúdo anterior na geração subsequente. Nossa pesquisa abrange desde a construção de conjuntos de dados até o desenvolvimento do modelo. Inicialmente, construímos o conjunto de dados DropletVideo-10M, que compreende 10 milhões de vídeos com movimentos dinâmicos de câmera e ações de objetos. Cada vídeo é anotado com uma legenda média de 206 palavras, detalhando vários movimentos de câmera e desenvolvimentos da trama. Em seguida, desenvolvemos e treinamos o modelo DropletVideo, que se destaca na preservação da coerência espaço-temporal durante a geração de vídeos. O conjunto de dados e o modelo DropletVideo estão disponíveis em https://dropletx.github.io.
Construir agentes robóticos autônomos capazes de alcançar desempenho em nível humano em tarefas corporificadas do mundo real é um objetivo final na pesquisa de robótica humanóide. Avanços recentes têm feito progressos significativos em cognição de alto nível com Modelos de Base (Foundation Models - FMs) e no desenvolvimento de habilidades de baixo nível para robôs humanóides. No entanto, a combinação direta desses componentes frequentemente resulta em baixa robustez e eficiência devido à acumulação de erros em tarefas de longo prazo e à latência variada de diferentes módulos. Apresentamos o Being-0, uma estrutura hierárquica de agentes que integra um FM com uma biblioteca modular de habilidades. O FM lida com tarefas cognitivas de alto nível, como compreensão de instruções, planejamento de tarefas e raciocínio, enquanto a biblioteca de habilidades fornece locomoção estável e manipulação hábil para controle de baixo nível. Para preencher a lacuna entre esses níveis, propomos um novo módulo Conector, alimentado por um modelo leve de visão e linguagem (Vision-Language Model - VLM). O Conector amplia as capacidades corporificadas do FM ao traduzir planos baseados em linguagem em comandos de habilidades acionáveis e coordenar dinamicamente a locomoção e a manipulação para melhorar o sucesso da tarefa. Com todos os componentes, exceto o FM, implantáveis em dispositivos de computação embarcados de baixo custo, o Being-0 alcança desempenho eficiente e em tempo real em um robô humanóide de tamanho real equipado com mãos hábeis e visão ativa. Experimentos extensos em grandes ambientes internos demonstram a eficácia do Being-0 na resolução de tarefas complexas e de longo prazo que exigem subtarefas desafiadoras de navegação e manipulação. Para mais detalhes e vídeos, visite https://beingbeyond.github.io/being-0.
Métodos de geração condicionada por imagem, como abordagens condicionadas por profundidade e bordas (canny), demonstraram habilidades notáveis para síntese precisa de imagens. No entanto, os modelos existentes ainda lutam para controlar com precisão o conteúdo de múltiplas instâncias (ou regiões). Mesmo modelos de ponta como FLUX e 3DIS enfrentam desafios, como vazamento de atributos entre instâncias, o que limita o controle do usuário. Para resolver esses problemas, introduzimos o DreamRenderer, uma abordagem sem necessidade de treinamento construída sobre o modelo FLUX. O DreamRenderer permite que os usuários controlem o conteúdo de cada instância por meio de caixas delimitadoras ou máscaras, garantindo harmonia visual geral. Propomos duas inovações principais: 1) Tokens de Imagem Ponte para Vinculação Rígida de Atributos de Texto, que utiliza tokens de imagem replicados como tokens ponte para garantir que os embeddings de texto T5, pré-treinados apenas em dados textuais, vinculem os atributos visuais corretos para cada instância durante a Atenção Conjunta; 2) Vinculação Rígida de Atributos de Imagem aplicada apenas a camadas vitais. Através da nossa análise do FLUX, identificamos as camadas críticas responsáveis pela renderização de atributos das instâncias e aplicamos a Vinculação Rígida de Atributos de Imagem apenas nessas camadas, utilizando vinculação suave nas demais. Essa abordagem garante controle preciso enquanto preserva a qualidade da imagem. Avaliações nos benchmarks COCO-POS e COCO-MIG demonstram que o DreamRenderer melhora a Taxa de Sucesso de Imagem em 17,7% em relação ao FLUX e aumenta o desempenho de modelos de layout-para-imagem como GLIGEN e 3DIS em até 26,8%. Página do Projeto: https://limuloo.github.io/DreamRenderer/.
A geração de imagens personalizada visa produzir imagens de conceitos especificados pelo usuário, ao mesmo tempo em que permite edições flexíveis. Abordagens recentes que dispensam treinamento, embora apresentem maior eficiência computacional em comparação com métodos baseados em treinamento, enfrentam dificuldades com a preservação de identidade, aplicabilidade e compatibilidade com transformadores de difusão (DiTs). Neste artigo, exploramos o potencial inexplorado dos DiTs, onde simplesmente substituir tokens de remoção de ruído por aqueles de um sujeito de referência alcança a reconstrução do sujeito em zero-shot. Essa técnica simples, porém eficaz, de injeção de características desbloqueia diversos cenários, desde personalização até edição de imagens. Com base nessa observação, propomos o Personalize Anything, um framework que dispensa treinamento e alcança a geração de imagens personalizadas em DiTs por meio de: 1) substituição de tokens adaptativa ao timestep, que reforça a consistência do sujeito por meio de injeção em estágios iniciais e aumenta a flexibilidade por meio de regularização em estágios tardios, e 2) estratégias de perturbação de patches para aumentar a diversidade estrutural. Nosso método suporta de forma integrada a geração guiada por layout, personalização de múltiplos sujeitos e edição controlada por máscara. Avaliações demonstram desempenho de ponta em preservação de identidade e versatilidade. Nosso trabalho estabelece novos insights sobre DiTs enquanto oferece um paradigma prático para personalização eficiente.
O raciocínio e o comportamento estratégico em interações sociais são marcas distintivas da inteligência. Essa forma de raciocínio é significativamente mais sofisticada do que tarefas isoladas de planejamento ou raciocínio em ambientes estáticos (por exemplo, resolução de problemas matemáticos). Neste artigo, apresentamos o SPIN-Bench (Strategic Planning, Interaction, and Negotiation), uma nova avaliação multidisciplinar projetada para medir a inteligência do planejamento estratégico e do raciocínio social. Enquanto muitos benchmarks existentes se concentram em planejamento restrito ou raciocínio de agente único, o SPIN-Bench combina tarefas clássicas de PDDL, jogos de tabuleiro competitivos, jogos de cartas cooperativos e cenários de negociação multiagente em um único framework unificado. O framework inclui tanto um benchmark quanto uma arena para simular e avaliar uma variedade de cenários sociais, testando o raciocínio e o comportamento estratégico de agentes de IA. Formulamos o benchmark SPIN-Bench variando sistematicamente espaços de ação, complexidade de estados e o número de agentes interagentes para simular uma variedade de cenários sociais onde o sucesso depende não apenas de tomadas de decisão metódicas e passo a passo, mas também da inferência conceitual de outros participantes (adversários ou cooperativos). Nossos experimentos revelam que, embora os LLMs contemporâneos lidem razoavelmente bem com a recuperação de fatos básicos e o planejamento de curto prazo, eles encontram gargalos significativos de desempenho em tarefas que exigem raciocínio profundo de múltiplos saltos em grandes espaços de estados e coordenação socialmente hábil sob incerteza. Enxergamos o SPIN-Bench como um catalisador para pesquisas futuras sobre planejamento robusto multiagente, raciocínio social e colaboração humano-IA.
Ao estender a vantagem do raciocínio em cadeia de pensamento (CoT, do inglês "chain-of-thought") em processos passo a passo semelhantes aos humanos para contextos multimodais, o raciocínio multimodal CoT (MCoT) tem recentemente atraído significativa atenção da pesquisa, especialmente na integração com modelos de linguagem multimodal de grande escala (MLLMs, do inglês "multimodal large language models"). Estudos existentes sobre MCoT propõem diversas metodologias e paradigmas de raciocínio inovadores para abordar os desafios únicos de imagens, vídeos, fala, áudio, dados 3D e estruturados em diferentes modalidades, alcançando sucesso extenso em aplicações como robótica, saúde, direção autônoma e geração multimodal. No entanto, o MCoT ainda apresenta desafios e oportunidades distintos que exigem maior foco para garantir um desenvolvimento consistente nesse campo, onde, infelizmente, falta uma revisão atualizada desse domínio. Para preencher essa lacuna, apresentamos o primeiro levantamento sistemático do raciocínio MCoT, elucidando os conceitos e definições fundamentais relevantes. Oferecemos uma taxonomia abrangente e uma análise detalhada das metodologias atuais sob diversas perspectivas em vários cenários de aplicação. Além disso, fornecemos insights sobre os desafios existentes e direções futuras de pesquisa, com o objetivo de promover a inovação em direção à AGI (Inteligência Artificial Geral) multimodal.
Estudos recentes geralmente aprimoram as capacidades de raciocínio dos MLLMs por meio de ajuste fino supervisionado em dados de alta qualidade de raciocínio em cadeia de pensamento, o que frequentemente leva os modelos a meramente imitar caminhos de raciocínio bem-sucedidos sem compreender quais são os caminhos de raciocínio incorretos. Neste trabalho, buscamos aprimorar a capacidade de raciocínio dos MLLMs além da imitação passiva de caminhos de raciocínio positivos. Para isso, projetamos o Step-wise Group Relative Policy Optimization (StepGRPO), um novo framework de aprendizado por reforço online que permite que os MLLMs melhorem sua capacidade de raciocínio por meio de recompensas simples, eficazes e densas em cada etapa. Especificamente, o StepGRPO introduz duas novas recompensas baseadas em regras para o raciocínio: a Step-wise Reasoning Accuracy Reward (StepRAR) e a Step-wise Reasoning Validity Reward (StepRVR). A StepRAR recompensa os caminhos de raciocínio que contêm etapas intermediárias necessárias por meio de uma técnica de correspondência suave de etapas-chave, enquanto a StepRVR recompensa os caminhos de raciocínio que seguem um processo bem-estruturado e logicamente consistente por meio de uma estratégia de avaliação de completude e lógica do raciocínio. Com o StepGRPO proposto, introduzimos o R1-VL, uma série de MLLMs com capacidades excepcionais em raciocínio passo a passo. Experimentos extensivos em 8 benchmarks demonstram a superioridade de nossos métodos.
Apresentamos um novo cenário, chamado Transferência de Edição, no qual um modelo aprende uma transformação a partir de apenas um exemplo fonte-destino e a aplica a uma nova imagem de consulta. Embora métodos baseados em texto se destaquem em manipulações semânticas por meio de prompts textuais, eles frequentemente têm dificuldades com detalhes geométricos precisos (por exemplo, mudanças de poses e pontos de vista). Por outro lado, a edição baseada em referência geralmente se concentra em estilo ou aparência e falha em transformações não rígidas. Ao aprender explicitamente a transformação de edição a partir de um par fonte-destino, a Transferência de Edição mitiga as limitações tanto das abordagens baseadas apenas em texto quanto das centradas em aparência. Inspirados pelo aprendizado em contexto em modelos de linguagem de grande escala, propomos um paradigma de aprendizado em contexto de relações visuais, construído sobre um modelo de texto para imagem baseado em DiT. Organizamos o exemplo editado e a imagem de consulta em um composto unificado de quatro painéis, e então aplicamos um ajuste fino leve com LoRA para capturar transformações espaciais complexas a partir de exemplos mínimos. Apesar de usar apenas 42 amostras de treinamento, a Transferência de Edição supera substancialmente os métodos state-of-the-art TIE e RIE em diversos cenários não rígidos, demonstrando a eficácia do aprendizado de relações visuais com poucos exemplos.
A manipulação visual em nível de elemento é essencial na criação de conteúdo digital, mas os métodos atuais baseados em difusão carecem da precisão e flexibilidade das ferramentas tradicionais. Neste trabalho, apresentamos o BlobCtrl, um framework que unifica a geração e edição em nível de elemento utilizando uma representação probabilística baseada em blobs. Ao empregar blobs como primitivas visuais, nossa abordagem efetivamente desacopla e representa a localização espacial, o conteúdo semântico e as informações de identidade, permitindo uma manipulação precisa em nível de elemento. Nossas principais contribuições incluem: 1) uma arquitetura de difusão de ramificação dupla com fusão hierárquica de características para integração perfeita entre primeiro plano e fundo; 2) um paradigma de treinamento auto-supervisionado com aumento de dados personalizado e funções de pontuação; e 3) estratégias de dropout controlável para equilibrar fidelidade e diversidade. Para apoiar pesquisas futuras, introduzimos o BlobData para treinamento em larga escala e o BlobBench para avaliação sistemática. Experimentos mostram que o BlobCtrl se destaca em várias tarefas de manipulação em nível de elemento, mantendo a eficiência computacional, oferecendo uma solução prática para a criação de conteúdo visual preciso e flexível. Página do projeto: https://liyaowei-stu.github.io/project/BlobCtrl/
A pesquisa científica exige raciocínio sofisticado sobre dados multimodais, um desafio particularmente prevalente na biologia. Apesar dos avanços recentes em modelos de linguagem multimodal de grande escala (MLLMs) para pesquisa assistida por IA, os benchmarks existentes de raciocínio multimodal visam apenas dificuldades de nível universitário, enquanto os benchmarks de nível de pesquisa enfatizam percepção de nível inferior, ficando aquém do raciocínio multimodal complexo necessário para a descoberta científica. Para preencher essa lacuna, introduzimos o MicroVQA, um benchmark de resposta a perguntas visuais (VQA) projetado para avaliar três capacidades de raciocínio vitais em fluxos de trabalho de pesquisa: compreensão de imagens especializadas, geração de hipóteses e proposta de experimentos. O MicroVQA consiste em 1.042 questões de múltipla escolha (MCQs) curadas por especialistas em biologia em diversas modalidades de microscopia, garantindo que as amostras de VQA representem práticas científicas reais. Na construção do benchmark, descobrimos que os métodos padrão de geração de MCQs induzem atalhos linguísticos, motivando um novo pipeline de duas etapas: um prompt otimizado de LLM estrutura pares pergunta-resposta em MCQs; em seguida, um `RefineBot' baseado em agentes os atualiza para remover atalhos. O benchmarking em MLLMs de última geração revela um desempenho máximo de 53%; modelos com LLMs menores têm desempenho apenas ligeiramente inferior aos modelos de topo, sugerindo que o raciocínio baseado em linguagem é menos desafiador do que o raciocínio multimodal; e o ajuste com artigos científicos melhora o desempenho. A análise especializada das respostas de cadeia de pensamento mostra que os erros de percepção são os mais frequentes, seguidos por erros de conhecimento e, em seguida, erros de generalização excessiva. Esses insights destacam os desafios no raciocínio científico multimodal, mostrando que o MicroVQA é um recurso valioso para avançar a pesquisa biomédica impulsionada por IA. O MicroVQA está disponível em https://huggingface.co/datasets/jmhb/microvqa, e a página do projeto em https://jmhb0.github.io/microvqa.
Com o rápido desenvolvimento da tecnologia de reconstrução 3D, a pesquisa em reconstrução 4D também está avançando. Os métodos existentes de reconstrução 4D podem gerar cenas 4D de alta qualidade. No entanto, devido aos desafios na aquisição de dados de vídeo multivista, os benchmarks atuais de reconstrução 4D exibem principalmente ações realizadas no mesmo local, como danças, dentro de cenários limitados. Em cenários práticos, muitas cenas envolvem movimentos espaciais amplos, destacando as limitações dos conjuntos de dados de reconstrução 4D existentes. Além disso, os métodos atuais de reconstrução 4D dependem de campos de deformação para estimar a dinâmica de objetos 3D, mas esses campos têm dificuldade em lidar com movimentos espaciais amplos, o que limita a capacidade de alcançar uma reconstrução 4D de alta qualidade com tais movimentos. Neste artigo, focamos na reconstrução 4D de cenas com movimentos espaciais significativos de objetos e propomos um novo benchmark de reconstrução 4D, o WideRange4D. Este benchmark inclui dados ricos de cenas 4D com grandes variações espaciais, permitindo uma avaliação mais abrangente das capacidades de geração de métodos de geração 4D. Além disso, introduzimos um novo método de reconstrução 4D, o Progress4D, que gera resultados 4D estáveis e de alta qualidade em várias tarefas complexas de reconstrução de cenas 4D. Realizamos experimentos de comparação quantitativos e qualitativos no WideRange4D, mostrando que nosso Progress4D supera os métodos de reconstrução 4D mais avançados existentes. Projeto: https://github.com/Gen-Verse/WideRange4D
Vídeos, com sua dimensão temporal única, exigem um entendimento fundamentado preciso, onde as respostas estão diretamente vinculadas a evidências visuais e interpretáveis. Apesar dos avanços significativos nas capacidades de raciocínio dos Modelos de Linguagem de Grande Escala, o raciocínio multimodal — especialmente para vídeos — permanece inexplorado. Neste trabalho, apresentamos o VideoMind, um novo agente de linguagem de vídeo projetado para o entendimento temporal fundamentado de vídeos. O VideoMind incorpora duas inovações principais: (i) Identificamos capacidades essenciais para o raciocínio temporal em vídeos e desenvolvemos um fluxo de trabalho agentivo baseado em papéis, incluindo um planejador para coordenar diferentes funções, um fundamentador para localização temporal, um verificador para avaliar a precisão dos intervalos temporais e um respondedor para tarefas de questionamento. (ii) Para integrar essas diversas funções de forma eficiente, propomos uma nova estratégia de Chain-of-LoRA, permitindo a troca contínua de papéis por meio de adaptadores LoRA leves, evitando a sobrecarga de múltiplos modelos e equilibrando eficiência e flexibilidade. Experimentos extensivos em 14 benchmarks públicos demonstram que nosso agente alcança desempenho de ponta em diversas tarefas de entendimento de vídeos, incluindo 3 em questionamento fundamentado de vídeos, 6 em fundamentação temporal de vídeos e 5 em questionamento geral de vídeos, destacando sua eficácia no avanço de agentes de vídeo e no raciocínio temporal de longa duração.
Modelos de recompensa tornaram-se um elemento essencial na PNL moderna, servindo não apenas como avaliadores escaláveis de texto, mas também como um componente indispensável em muitas receitas de alinhamento e algoritmos de inferência em tempo real. No entanto, embora os modelos de recompensa recentes aumentem o desempenho em benchmarks padrão, isso pode ser parcialmente devido a efeitos de sobreajuste, o que confundiria a compreensão de sua verdadeira capacidade. Neste trabalho, examinamos a robustez dos modelos de recompensa e a extensão desse sobreajuste. Construímos o **reWordBench**, que transforma sistematicamente as entradas dos modelos de recompensa de maneiras que preservam o significado ou a classificação. Mostramos que os modelos de recompensa state-of-the-art sofrem uma degradação substancial de desempenho mesmo com transformações menores nas entradas, às vezes caindo para uma precisão significativamente abaixo do acaso, sugerindo fragilidade. Para melhorar a robustez dos modelos de recompensa, propomos treiná-los explicitamente para atribuir pontuações semelhantes a paráfrases, e descobrimos que essa abordação também melhora a robustez a outros tipos distintos de transformações. Por exemplo, nosso modelo de recompensa robusto reduz essa degradação pela metade aproximadamente para o subconjunto Chat Hard no RewardBench. Além disso, quando usados em alinhamento, nossos modelos de recompensa robustos demonstram melhor utilidade e levam a saídas de maior qualidade, vencendo em até 59% das instâncias contra um modelo de recompensa treinado de forma padrão.
Os humanos processam o raciocínio em vídeos por meio de uma lógica sequencial de raciocínio espaço-temporal: primeiro identificam os quadros relevantes ("quando"), depois analisam as relações espaciais ("onde") entre os objetos-chave e, por fim, utilizam essas relações para tirar inferências ("o quê"). No entanto, os Modelos de Linguagem de Grande Escala para Vídeos (Video-LLMs) também conseguem "raciocinar por meio de uma lógica sequencial espaço-temporal" em vídeos? Os benchmarks existentes para Video-LLMs focam principalmente em avaliar a presença de objetos, negligenciando o raciocínio relacional. Consequentemente, é difícil medir se um modelo realmente compreende as interações entre objetos (ações/eventos) em vídeos ou se apenas depende de "memórias" pré-treinadas de co-ocorrências como vieses na geração de respostas. Neste trabalho, introduzimos um benchmark de Raciocínio Espaço-Temporal em Vídeos (V-STaR) para abordar essas limitações. A ideia central é decompor a compreensão de vídeos em uma tarefa de Raciocínio Espaço-Temporal Reverso (RSTR) que avalia simultaneamente quais objetos estão presentes, quando os eventos ocorrem e onde estão localizados, capturando a lógica subjacente de Cadeia de Pensamento (CoT). Para apoiar essa avaliação, construímos um conjunto de dados para elicitar o processo de raciocínio espaço-temporal dos Video-LLMs. Ele contém perguntas CoT de granularidade grossa a fina, geradas por um pipeline semi-automatizado alimentado por GPT-4, incorporando cadeias de raciocínio explícitas para imitar a cognição humana. Experimentos com 14 Video-LLMs em nosso V-STaR revelam lacunas significativas entre os Video-LLMs atuais e as necessidades para um raciocínio espaço-temporal robusto e consistente.
Realizar a preensão robótica a partir de uma caixa desorganizada com base em instruções humanas é uma tarefa desafiadora, pois exige a compreensão tanto das nuances da linguagem livre quanto das relações espaciais entre os objetos. Modelos de Visão e Linguagem (VLMs) treinados com dados em escala da web, como o GPT-4o, demonstraram capacidades notáveis de raciocínio tanto em texto quanto em imagens. Mas eles podem realmente ser usados para essa tarefa em um cenário zero-shot? E quais são suas limitações? Neste artigo, exploramos essas questões de pesquisa por meio da tarefa de preensão robótica baseada em linguagem livre e propomos um novo método, o FreeGrasp, que aproveita o conhecimento pré-treinado dos VLMs para raciocinar sobre instruções humanas e arranjos espaciais de objetos. Nosso método detecta todos os objetos como pontos-chave e usa esses pontos para anotar marcas nas imagens, visando facilitar o raciocínio espacial zero-shot do GPT-4o. Isso permite que nosso método determine se um objeto solicitado é diretamente preensível ou se outros objetos devem ser agarrados e removidos primeiro. Como não existe um conjunto de dados especificamente projetado para essa tarefa, introduzimos um conjunto de dados sintético, o FreeGraspData, estendendo o conjunto de dados MetaGraspNetV2 com instruções anotadas por humanos e sequências de preensão com rótulos verdadeiros. Realizamos análises extensas com o FreeGraspData e validação no mundo real com um braço robótico equipado com uma garra, demonstrando desempenho de ponta em raciocínio e execução de preensão. Site do projeto: https://tev-fbk.github.io/FreeGrasp/.
Alinhar imagens geradas a prompts de texto complexos e preferências humanas é um desafio central na Geração de Conteúdo por Inteligência Artificial (AIGC). Com a destilação de difusão aprimorada por recompensa emergindo como uma abordagem promissora que aumenta a controlabilidade e fidelidade de modelos de texto para imagem, identificamos uma mudança fundamental de paradigma: à medida que as condições se tornam mais específicas e os sinais de recompensa mais fortes, as próprias recompensas se tornam a força dominante na geração. Em contraste, as perdas de difusão servem como uma forma excessivamente cara de regularização. Para validar minuciosamente nossa hipótese, introduzimos R0, uma nova abordagem de geração condicional via maximização de recompensa regularizada. Em vez de depender de perdas complicadas de destilação de difusão, o R0 propõe uma nova perspectiva que trata a geração de imagens como um problema de otimização no espaço de dados, que visa buscar imagens válidas que tenham altas recompensas composicionais. Por meio de projetos inovadores de parametrização do gerador e técnicas adequadas de regularização, treinamos modelos de geração de texto para imagem de última geração com R0 em escala. Nossos resultados desafiam a sabedoria convencional de pós-treinamento de difusão e geração condicional, demonstrando que as recompensas desempenham um papel dominante em cenários com condições complexas. Esperamos que nossas descobertas possam contribuir para pesquisas futuras sobre paradigmas de geração centrados no ser humano e na recompensa em todo o campo mais amplo da AIGC. O código está disponível em https://github.com/Luo-Yihong/R0.
A restauração de vídeo envolve a modificação de regiões locais dentro de um vídeo, garantindo consistência espacial e temporal. A maioria dos métodos existentes foca principalmente na conclusão de cenas (ou seja, preenchendo regiões ausentes) e carece da capacidade de inserir novos objetos em uma cena de maneira controlável. Felizmente, avanços recentes em modelos de difusão de texto para vídeo (T2V) abrem caminho para a restauração de vídeo guiada por texto. No entanto, a adaptação direta de modelos T2V para restauração ainda é limitada na unificação de tarefas de conclusão e inserção, carece de controlabilidade de entrada e enfrenta dificuldades com vídeos longos, restringindo assim sua aplicabilidade e flexibilidade. Para enfrentar esses desafios, propomos o MTV-Inpaint, uma estrutura unificada de restauração de vídeo multitarefa capaz de lidar tanto com tarefas tradicionais de conclusão de cena quanto com a inserção de novos objetos. Para unificar essas tarefas distintas, projetamos um mecanismo de atenção espacial de duplo ramo na U-Net de difusão T2V, permitindo a integração perfeita de conclusão de cena e inserção de objetos em uma única estrutura. Além da orientação textual, o MTV-Inpaint suporta controle multimodal ao integrar vários modelos de restauração de imagem por meio do nosso modo proposto de restauração de imagem para vídeo (I2V). Adicionalmente, propomos um pipeline de dois estágios que combina a restauração de quadros-chave com a propagação de quadros intermediários, permitindo que o MTV-Inpaint lide efetivamente com vídeos longos contendo centenas de quadros. Experimentos extensivos demonstram que o MTV-Inpaint alcança desempenho de ponta tanto em tarefas de conclusão de cena quanto em inserção de objetos. Além disso, ele demonstra versatilidade em aplicações derivadas, como restauração multimodal, edição de objetos, remoção, pincel de objetos em imagem e a capacidade de lidar com vídeos longos. Página do projeto: https://mtv-inpaint.github.io/.
A síntese de vídeo para áudio, que gera áudio sincronizado para conteúdo visual, aprimora criticamente a imersão do espectador e a coerência narrativa em filmes e mídias interativas. No entanto, a dublagem de vídeo para áudio em conteúdos de longa duração permanece um desafio não resolvido devido a mudanças semânticas dinâmicas, desalinhamento temporal e a ausência de conjuntos de dados dedicados. Embora os métodos existentes se destaquem em vídeos curtos, eles falham em cenários longos (por exemplo, filmes) devido à síntese fragmentada e à consistência inadequada entre cenas. Propomos o LVAS-Agent, uma estrutura multiagente inovadora que emula fluxos de trabalho profissionais de dublagem por meio de especialização colaborativa de papéis. Nossa abordagem decompõe a síntese de vídeos longos em quatro etapas, incluindo segmentação de cenas, geração de roteiro, design de som e síntese de áudio. Inovações centrais incluem um mecanismo de discussão-correção para refinamento de cenas/roteiros e um loop de geração-recuperação para alinhamento temporal-semântico. Para permitir uma avaliação sistemática, introduzimos o LVAS-Bench, o primeiro benchmark com 207 vídeos longos curados profissionalmente, abrangendo diversos cenários. Experimentos demonstram um alinhamento áudio-visual superior em comparação com métodos de base. Página do projeto: https://lvas-agent.github.io
Frequentemente, as necessidades e habilidades visuais diferem entre o grupo de anotadores e o grupo de usuários finais. Gerar descrições detalhadas de diagramas para usuários cegos ou com baixa visão (BLV) é um domínio particularmente desafiador. Anotadores com visão podem descrever elementos visuais com facilidade, mas estudos existentes mostraram que as descrições geradas diretamente por eles são custosas, propensas a vieses e, em certa medida, insuficientes pelos padrões BLV. Neste estudo, solicitamos a indivíduos com visão que avaliem — em vez de produzir — descrições de diagramas geradas por modelos de visão e linguagem (VLM) que foram orientados com supervisão latente por meio de uma inferência multipasso. As avaliações feitas por pessoas com visão mostraram-se eficazes e úteis para educadores profissionais que são eles próprios BLV e ensinam aprendizes com deficiência visual. Lançamos o Sightation, uma coleção de conjuntos de dados de descrição de diagramas abrangendo 5 mil diagramas e 137 mil amostras para fins de conclusão, preferência, recuperação, resposta a perguntas e treinamento de raciocínio, e demonstramos seu potencial de ajuste fino em diversas tarefas subsequentes.
Os Modelos de Fundação de Vídeo (VFMs) têm sido recentemente utilizados para simular o mundo real com o objetivo de treinar sistemas de IA física e desenvolver experiências visuais criativas. No entanto, existem desafios significativos no treinamento de VFMs em grande escala e de alta qualidade que possam gerar vídeos de alta fidelidade. Apresentamos um pipeline escalável e de código aberto para treinamento de VFMs utilizando o NVIDIA NeMo, oferecendo curadoria acelerada de conjuntos de dados de vídeo, carregamento de dados multimodais e treinamento e inferência paralelizados de modelos de difusão de vídeo. Também fornecemos uma análise abrangente de desempenho, destacando as melhores práticas para o treinamento e inferência eficientes de VFMs.
Uma variedade de Modelos de Difusão de Vídeo Auto-Regressivos (ARVDM, na sigla em inglês) tem alcançado sucessos notáveis na geração de vídeos de longa duração realistas. No entanto, análises teóricas desses modelos ainda são escassas. Neste trabalho, desenvolvemos fundamentos teóricos para esses modelos e utilizamos nossas percepções para melhorar o desempenho dos modelos existentes. Primeiro, desenvolvemos o Meta-ARVDM, uma estrutura unificada de ARVDMs que engloba a maioria dos métodos existentes. Usando o Meta-ARVDM, analisamos a divergência KL entre os vídeos gerados pelo Meta-ARVDM e os vídeos reais. Nossa análise revela dois fenômenos importantes inerentes ao ARVDM — o acúmulo de erros e o gargalo de memória. Ao derivar um resultado de impossibilidade teórica da informação, mostramos que o fenômeno do gargalo de memória não pode ser evitado. Para mitigar o gargalo de memória, projetamos várias estruturas de rede para usar explicitamente mais quadros passados. Também alcançamos uma melhoria significativa na relação entre a mitigação do gargalo de memória e a eficiência de inferência, comprimindo os quadros. Resultados experimentais no DMLab e no Minecraft validam a eficácia de nossos métodos. Nossos experimentos também demonstram uma fronteira de Pareto entre o acúmulo de erros e o gargalo de memória em diferentes métodos.
Imagens estéreo são fundamentais para diversas aplicações, incluindo dispositivos de realidade estendida (XR), direção autônoma e robótica. Infelizmente, a aquisição de imagens estéreo de alta qualidade continua sendo um desafio devido aos requisitos precisos de calibração de configurações de câmeras duplas e à complexidade de obter mapas de disparidade densos e precisos. Os métodos existentes de geração de imagens estéreo geralmente se concentram na qualidade visual para visualização ou na precisão geométrica para correspondência, mas não em ambos. Apresentamos o GenStereo, uma abordagem baseada em difusão, para preencher essa lacuna. O método inclui duas inovações principais: (1) condicionar o processo de difusão em uma incorporação de coordenadas ciente da disparidade e em uma imagem de entrada deformada, permitindo um alinhamento estéreo mais preciso do que os métodos anteriores, e (2) um mecanismo de fusão adaptativa que combina inteligentemente a imagem gerada por difusão com uma imagem deformada, melhorando tanto o realismo quanto a consistência da disparidade. Por meio de um extenso treinamento em 11 conjuntos de dados estéreo diversos, o GenStereo demonstra uma forte capacidade de generalização. O GenStereo alcança desempenho de ponta tanto na geração de imagens estéreo quanto em tarefas de correspondência estéreo não supervisionadas. Nosso framework elimina a necessidade de configurações de hardware complexas, ao mesmo tempo em que permite a geração de imagens estéreo de alta qualidade, tornando-o valioso tanto para aplicações do mundo real quanto para cenários de aprendizado não supervisionado. A página do projeto está disponível em https://qjizhi.github.io/genstereo.
Trabalhos recentes têm buscado quantificar a incerteza dos modelos de linguagem de grande escala para facilitar o controle do modelo e modular a confiança do usuário. Estudos anteriores concentram-se em medidas de incerteza que são teoricamente fundamentadas ou refletem o comportamento médio observável do modelo. Neste trabalho, investigamos uma variedade de medidas de incerteza, com o objetivo de identificar medidas que se correlacionem com a incerteza em nível de grupo humano. Descobrimos que medidas bayesianas e uma variação das medidas de entropia, a entropia top-k, tendem a concordar com o comportamento humano em função do tamanho do modelo. Observamos que algumas medidas robustas diminuem em similaridade humana com o aumento do tamanho do modelo, mas, por meio de regressão linear múltipla, descobrimos que a combinação de múltiplas medidas de incerteza oferece alinhamento comparável com o comportamento humano com dependência reduzida do tamanho.
Métodos tradicionais de caixa branca para criar perturbações adversárias contra LLMs (Large Language Models) geralmente dependem apenas do cálculo de gradientes do modelo alvo, ignorando os mecanismos internos responsáveis pelo sucesso ou falha do ataque. Por outro lado, estudos de interpretabilidade que analisam esses mecanismos internos carecem de aplicações práticas além de intervenções em tempo de execução. Nós preenchemos essa lacuna ao introduzir uma nova abordagem de caixa branca que aproveita técnicas de interpretabilidade mecanicista para criar entradas adversárias práticas. Especificamente, primeiro identificamos subespaços de aceitação - conjuntos de vetores de características que não disparam os mecanismos de recusa do modelo - e, em seguida, usamos otimização baseada em gradiente para redirecionar embeddings de subespaços de recusa para subespaços de aceitação, efetivamente alcançando jailbreaks. Essa abordagem direcionada reduz significativamente o custo computacional, atingindo taxas de sucesso de ataque de 80-95\% em modelos de última geração, como Gemma2, Llama3.2 e Qwen2.5, em minutos ou até segundos, em comparação com técnicas existentes que frequentemente falham ou exigem horas de computação. Acreditamos que essa abordagem abre uma nova direção tanto para a pesquisa de ataques quanto para o desenvolvimento de defesas. Além disso, ela demonstra uma aplicação prática da interpretabilidade mecanicista onde outros métodos são menos eficientes, destacando sua utilidade. O código e os conjuntos de dados gerados estão disponíveis em https://github.com/Sckathach/subspace-rerouting.
O campo da psicologia há muito reconhece um nível básico de categorização que os seres humanos utilizam ao rotular estímulos visuais, um termo cunhado por Rosch em 1976. Esse nível de categorização foi identificado como o mais frequentemente utilizado, com maior densidade de informação, e que auxilia em tarefas de linguagem visual com priming em humanos. Aqui, investigamos a categorização em nível básico em dois modelos de visão e linguagem (VLMs) de código aberto recentemente lançados. Este artigo demonstra que o Llama 3.2 Vision Instruct (11B) e o Molmo 7B-D preferem a categorização em nível básico de forma consistente com o comportamento humano. Além disso, as preferências dos modelos são consistentes com comportamentos humanos sutis, como os efeitos de nível básico biológico versus não biológico e a bem estabelecida mudança de nível básico em especialistas, sugerindo ainda que os VLMs adquirem comportamentos de categorização cognitiva a partir dos dados humanos nos quais são treinados.
Os recentes avanços rápidos na geração de texto para vídeo (T2V), como SoRA e Kling, mostraram grande potencial para a construção de simuladores de mundo. No entanto, os modelos atuais de T2V lutam para compreender princípios físicos abstratos e gerar vídeos que aderem às leis físicas. Esse desafio surge principalmente da falta de orientação clara sobre informações físicas, devido a uma lacuna significativa entre princípios físicos abstratos e modelos de geração. Para isso, introduzimos o Assistente de Simulador de Mundo (WISA), uma estrutura eficaz para decompor e incorporar princípios físicos em modelos T2V. Especificamente, o WISA decompõe princípios físicos em descrições textuais de física, categorias físicas qualitativas e propriedades físicas quantitativas. Para incorporar efetivamente esses atributos físicos no processo de geração, o WISA incorpora vários designs-chave, incluindo a Atenção de Mistura de Especialistas Físicos (MoPA) e um Classificador Físico, aprimorando a consciência física do modelo. Além disso, a maioria dos conjuntos de dados existentes apresenta vídeos onde os fenômenos físicos são fracamente representados ou entrelaçados com múltiplos processos co-ocorrentes, limitando sua adequação como recursos dedicados para aprender princípios físicos explícitos. Propomos um novo conjunto de dados de vídeo, WISA-32K, coletado com base em categorias físicas qualitativas. Ele consiste em 32.000 vídeos, representando 17 leis físicas em três domínios da física: dinâmica, termodinâmica e óptica. Os resultados experimentais demonstram que o WISA pode efetivamente melhorar a compatibilidade dos modelos T2V com as leis físicas do mundo real, alcançando uma melhoria considerável no benchmark VideoPhy. As exibições visuais do WISA e do WISA-32K estão disponíveis em https://360cvgroup.github.io/WISA/.