Artigos de pesquisa em IA selecionados diariamente com traduções
O controle de câmera tem sido amplamente estudado em tarefas de geração de vídeo condicionado por texto ou imagem. No entanto, a alteração de trajetórias de câmera em um vídeo dado permanece pouco explorada, apesar de sua importância no campo da criação de vídeos. Essa tarefa é complexa devido às restrições adicionais de manter a aparência em múltiplos quadros e a sincronização dinâmica. Para abordar esse desafio, apresentamos o ReCamMaster, um framework de re-renderização de vídeo controlado por câmera que reproduz a cena dinâmica de um vídeo de entrada em novas trajetórias de câmera. A inovação central reside em aproveitar as capacidades generativas de modelos pré-treinados de texto para vídeo por meio de um mecanismo de condicionamento de vídeo simples, porém poderoso — uma capacidade frequentemente negligenciada na pesquisa atual. Para superar a escassez de dados de treinamento qualificados, construímos um conjunto de dados abrangente de vídeos sincronizados com múltiplas câmeras usando o Unreal Engine 5, cuidadosamente curado para seguir características de filmagem do mundo real, cobrindo diversas cenas e movimentos de câmera. Isso ajuda o modelo a generalizar para vídeos em cenários reais. Por fim, aprimoramos ainda mais a robustez para entradas diversas por meio de uma estratégia de treinamento meticulosamente projetada. Experimentos extensivos mostram que nosso método supera substancialmente as abordagens state-of-the-art existentes e baselines robustas. Nosso método também encontra aplicações promissoras em estabilização de vídeo, super-resolução e expansão de cena. Página do projeto: https://jianhongbai.github.io/ReCamMaster/
Apresentamos o SmolDocling, um modelo visão-linguagem ultracompacto voltado para a conversão de documentos de ponta a ponta. Nosso modelo processa páginas inteiras de forma abrangente, gerando DocTags, um novo formato de marcação universal que captura todos os elementos da página em seu contexto completo, incluindo localização. Diferente das abordagens existentes que dependem de modelos fundamentais de grande escala ou soluções em conjunto que utilizam pipelines manuais de múltiplos modelos especializados, o SmolDocling oferece uma conversão de ponta a ponta para capturar com precisão o conteúdo, a estrutura e a localização espacial dos elementos de documentos em um modelo visão-linguagem com 256 milhões de parâmetros. O SmolDocling demonstra desempenho robusto na reprodução correta de características de documentos, como listagens de código, tabelas, equações, gráficos, listas e muito mais, em uma ampla variedade de tipos de documentos, incluindo documentos comerciais, artigos acadêmicos, relatórios técnicos, patentes e formulários — estendendo-se significativamente além do foco comum em artigos científicos. Além disso, contribuímos com novos conjuntos de dados de origem pública para reconhecimento de gráficos, tabelas, equações e código. Resultados experimentais demonstram que o SmolDocling compete com outros modelos visão-linguagem que chegam a ser 27 vezes maiores em tamanho, enquanto reduz substancialmente os requisitos computacionais. O modelo já está disponível, e os conjuntos de dados serão disponibilizados publicamente em breve.
Modelos de difusão têm demonstrado resultados impressionantes na geração de amostras condicionais de alta qualidade utilizando técnicas de orientação, como a Orientação Livre de Classificador (Classifier-Free Guidance - CFG). No entanto, os métodos existentes frequentemente exigem treinamento adicional ou avaliações de funções neurais (Neural Function Evaluations - NFEs), tornando-os incompatíveis com modelos de orientação destilada. Além disso, eles dependem de abordagens heurísticas que requerem a identificação de camadas-alvo. Neste trabalho, propomos um método novo e eficiente, denominado PLADIS, que potencializa modelos pré-treinados (U-Net/Transformer) ao aproveitar a atenção esparsa. Especificamente, extrapolamos as correlações query-key usando softmax e sua contraparte esparsa na camada de atenção cruzada durante a inferência, sem a necessidade de treinamento adicional ou NFEs. Ao aproveitar a robustez ao ruído da atenção esparsa, nosso PLADIS libera o potencial latente dos modelos de difusão texto-para-imagem, permitindo que eles se destaquem em áreas onde antes enfrentavam dificuldades, com uma eficácia recém-descoberta. Ele se integra perfeitamente com técnicas de orientação, incluindo modelos de orientação destilada. Experimentos extensivos mostram melhorias notáveis no alinhamento de texto e na preferência humana, oferecendo uma solução altamente eficiente e universalmente aplicável.
Modelos de linguagem de grande escala (LLMs) evoluíram além da simples geração de texto para alimentar agentes de software que traduzem diretamente comandos em linguagem natural em ações tangíveis. Embora os agentes LLM baseados em API tenham inicialmente ganhado destaque por suas robustas capacidades de automação e integração perfeita com endpoints programáticos, os recentes avanços na pesquisa de LLMs multimodais permitiram o surgimento de agentes LLM baseados em GUI que interagem com interfaces gráficas de usuário de maneira semelhante à humana. Embora esses dois paradigmas compartilhem o objetivo de permitir a automação de tarefas impulsionada por LLMs, eles divergem significativamente em complexidade arquitetônica, fluxos de desenvolvimento e modelos de interação com o usuário. Este artigo apresenta o primeiro estudo comparativo abrangente de agentes LLM baseados em API e GUI, analisando sistematicamente suas divergências e potenciais convergências. Examinamos dimensões-chave e destacamos cenários em que abordagens híbridas podem aproveitar seus pontos fortes complementares. Ao propor critérios claros de decisão e ilustrar casos de uso práticos, nosso objetivo é orientar profissionais e pesquisadores na seleção, combinação ou transição entre esses paradigmas. Por fim, indicamos que as inovações contínuas na automação baseada em LLMs estão prestes a desfazer as fronteiras entre agentes orientados por API e GUI, abrindo caminho para soluções mais flexíveis e adaptáveis em uma ampla gama de aplicações do mundo real.
A busca por eficiência de dados, onde a qualidade supera a quantidade, emergiu como um pilar fundamental na manipulação robótica, especialmente considerando os altos custos associados à coleta de dados no mundo real. Propomos que maximizar a densidade informacional de demonstrações individuais pode reduzir drasticamente a dependência de grandes conjuntos de dados, ao mesmo tempo em que melhora o desempenho das tarefas. Para isso, introduzimos a Coleta de Dados Adversariais (Adversarial Data Collection - ADC), uma estrutura Human-in-the-Loop (HiL) que redefine a aquisição de dados robóticos por meio de interações bidirecionais em tempo real entre humanos e o ambiente. Diferentemente dos pipelines convencionais que registram passivamente demonstrações estáticas, o ADC adota um paradigma de perturbação colaborativa: durante um único episódio, um operador adversário altera dinamicamente os estados dos objetos, as condições ambientais e os comandos linguísticos, enquanto o teleoperador ajusta adaptativamente as ações para superar esses desafios em evolução. Esse processo comprime diversos comportamentos de falha-recuperação, variações composicionais de tarefas e perturbações ambientais em demonstrações mínimas. Nossos experimentos demonstram que modelos treinados com ADC alcançam generalização composicional superior para instruções de tarefas não vistas, maior robustez a perturbações perceptuais e capacidades emergentes de recuperação de erros. Surpreendentemente, modelos treinados com apenas 20% do volume de demonstrações coletadas por meio do ADC superam significativamente abordagens tradicionais que utilizam conjuntos de dados completos. Esses avanços preenchem a lacuna entre paradigmas de aprendizagem centrados em dados e a implantação prática de robótica, demonstrando que a aquisição estratégica de dados, e não apenas o processamento posterior, é crucial para o aprendizado robótico escalável no mundo real. Além disso, estamos organizando um grande conjunto de dados ADC-Robotics, composto por tarefas de manipulação do mundo real com perturbações adversariais. Esse benchmark será disponibilizado como código aberto para impulsionar avanços no aprendizado por imitação robótica.
Os Modelos de Espaço de Estados (SSMs, na sigla em inglês) surgiram como uma alternativa promissora aos populares modelos baseados em transformadores e têm ganhado cada vez mais atenção. Em comparação com os transformadores, os SSMs se destacam em tarefas que envolvem dados sequenciais ou contextos mais longos, demonstrando desempenhos comparáveis com ganhos significativos de eficiência. Nesta pesquisa, fornecemos uma visão geral coerente e sistemática dos SSMs, incluindo suas motivações teóricas, formulações matemáticas, comparação com classes de modelos existentes e diversas aplicações. Dividimos a série de SSMs em três seções principais, oferecendo uma introdução detalhada ao SSM original, ao SSM estruturado representado pelo S4 e ao SSM seletivo exemplificado pelo Mamba. Damos ênfase aos aspectos técnicos e destacamos as várias técnicas-chave introduzidas para abordar a eficácia e a eficiência dos SSMs. Esperamos que este manuscrito sirva como uma introdução para que pesquisadores explorem os fundamentos teóricos dos SSMs.
Apresentamos o VGGT, uma rede neural feed-forward que infere diretamente todos os atributos 3D essenciais de uma cena, incluindo parâmetros da câmera, mapas de pontos, mapas de profundidade e trilhas de pontos 3D, a partir de uma, algumas ou centenas de suas visualizações. Essa abordagem representa um avanço na visão computacional 3D, onde os modelos tradicionalmente foram restritos e especializados para tarefas únicas. Ela também é simples e eficiente, reconstruindo imagens em menos de um segundo, superando ainda alternativas que exigem pós-processamento com técnicas de otimização de geometria visual. A rede alcança resultados de ponta em múltiplas tarefas 3D, incluindo estimativa de parâmetros da câmera, estimativa de profundidade multiview, reconstrução densa de nuvem de pontos e rastreamento de pontos 3D. Também demonstramos que o uso do VGGT pré-treinado como backbone de características melhora significativamente tarefas subsequentes, como rastreamento de pontos não rígidos e síntese feed-forward de novas visualizações. O código e os modelos estão disponíveis publicamente em https://github.com/facebookresearch/vggt.
Modelos multimodais grandes (LMMs) baseados em transformers de última geração enfrentam dificuldades para processar entradas de vídeo com duração de uma hora devido à complexidade quadrática das operações de autoatenção causal, resultando em altos custos computacionais durante o treinamento e a inferência. Métodos existentes baseados em compressão de tokens reduzem o número de tokens de vídeo, mas frequentemente acarretam perda de informação e permanecem ineficientes para sequências extremamente longas. Neste artigo, exploramos uma direção ortogonal para construir um modelo híbrido Mamba-Transformer (VAMBA) que emprega blocos Mamba-2 para codificar tokens de vídeo com complexidade linear. Sem qualquer redução de tokens, o VAMBA consegue codificar mais de 1024 quadros (640x360) em uma única GPU, enquanto modelos baseados em transformers só conseguem codificar 256 quadros. Em entradas de vídeo longas, o VAMBA alcança uma redução de pelo menos 50% no uso de memória da GPU durante o treinamento e a inferência, e quase dobra a velocidade por etapa de treinamento em comparação com LMMs baseados em transformers. Nossos resultados experimentais demonstram que o VAMBA melhora a precisão em 4,3% no benchmark desafiador de compreensão de vídeos de uma hora LVBench em relação a LMMs de vídeo eficientes anteriores, e mantém um desempenho forte em uma ampla gama de tarefas de compreensão de vídeos longos e curtos.
A ponte entre diferentes modalidades está no cerne da geração cross-modal. Enquanto abordagens convencionais tratam a modalidade de texto como um sinal de condicionamento que guia gradualmente o processo de remoção de ruído desde o ruído gaussiano até a modalidade de imagem alvo, exploramos um paradigma muito mais simples: a evolução direta entre as modalidades de texto e imagem por meio de correspondência de fluxo (flow matching). Isso requer a projeção de ambas as modalidades em um espaço latente compartilhado, o que representa um desafio significativo devido às suas representações intrinsecamente diferentes: o texto é altamente semântico e codificado como tokens 1D, enquanto as imagens são espacialmente redundantes e representadas como embeddings latentes 2D. Para resolver isso, introduzimos o FlowTok, uma estrutura minimalista que flui de forma contínua entre texto e imagens, codificando as imagens em uma representação compacta de tokens 1D. Em comparação com métodos anteriores, esse projeto reduz o tamanho do espaço latente em 3,3 vezes em uma resolução de imagem de 256, eliminando a necessidade de mecanismos complexos de condicionamento ou agendamento de ruído. Além disso, o FlowTok se estende naturalmente para a geração de imagem para texto sob a mesma formulação. Com sua arquitetura simplificada centrada em tokens 1D compactos, o FlowTok é altamente eficiente em termos de memória, requer significativamente menos recursos de treinamento e alcança velocidades de amostragem muito mais rápidas — tudo isso enquanto oferece desempenho comparável aos modelos state-of-the-art. O código estará disponível em https://github.com/bytedance/1d-tokenizer.
A terapêutica de precisão requer modelos adaptativos multimodais que geram recomendações de tratamento personalizadas. Apresentamos o TxAgent, um agente de IA que utiliza raciocínio em múltiplas etapas e recuperação de conhecimento biomédico em tempo real por meio de um conjunto de 211 ferramentas para analisar interações medicamentosas, contraindicações e estratégias de tratamento específicas para cada paciente. O TxAgent avalia como os medicamentos interagem em níveis molecular, farmacocinético e clínico, identifica contraindicações com base em comorbidades do paciente e medicamentos concomitantes, e adapta as estratégias de tratamento às características individuais do paciente. Ele recupera e sintetiza evidências de múltiplas fontes biomédicas, avalia interações entre medicamentos e condições do paciente, e refina as recomendações de tratamento por meio de raciocínio iterativo. O agente seleciona ferramentas com base nos objetivos da tarefa e executa chamadas de função estruturadas para resolver tarefas terapêuticas que exigem raciocínio clínico e validação cruzada de fontes. O ToolUniverse consolida 211 ferramentas de fontes confiáveis, incluindo todos os medicamentos aprovados pela FDA dos EUA desde 1939 e insights clínicos validados do Open Targets. O TxAgent supera os principais LLMs, modelos de uso de ferramentas e agentes de raciocínio em cinco novos benchmarks: DrugPC, BrandPC, GenericPC, TreatmentPC e DescriptionPC, abrangendo 3.168 tarefas de raciocínio sobre medicamentos e 456 cenários de tratamento personalizados. Ele alcança 92,1% de precisão em tarefas de raciocínio aberto sobre medicamentos, superando o GPT-4o e superando o DeepSeek-R1 (671B) em raciocínio estruturado de múltiplas etapas. O TxAgent generaliza entre variantes de nomes de medicamentos e descrições. Ao integrar inferência em múltiplas etapas, fundamentação de conhecimento em tempo real e tomada de decisão assistida por ferramentas, o TxAgent garante que as recomendações de tratamento estejam alinhadas com diretrizes clínicas estabelecidas e evidências do mundo real, reduzindo o risco de eventos adversos e melhorando a tomada de decisão terapêutica.
O Aprendizado Federado (FL) surgiu como um paradigma promissor de treinamento colaborativo de modelos que preserva a privacidade sem compartilhar dados brutos. No entanto, estudos recentes revelaram que informações privadas ainda podem ser vazadas por meio de informações de gradientes compartilhadas e atacadas por Ataques de Inversão de Gradiente (GIA). Embora muitos métodos de GIA tenham sido propostos, ainda faltam uma análise detalhada, avaliação e resumo desses métodos. Embora vários artigos de revisão resumam os ataques de privacidade existentes no FL, poucos estudos realizaram experimentos extensos para revelar a eficácia do GIA e seus fatores limitantes associados nesse contexto. Para preencher essa lacuna, primeiro realizamos uma revisão sistemática do GIA e categorizamos os métodos existentes em três tipos, ou seja, GIA baseado em otimização (OP-GIA), GIA baseado em geração (GEN-GIA) e GIA baseado em análise (ANA-GIA). Em seguida, analisamos e avaliamos de forma abrangente os três tipos de GIA no FL, fornecendo insights sobre os fatores que influenciam seu desempenho, praticidade e potenciais ameaças. Nossas descobertas indicam que o OP-GIA é o cenário de ataque mais prático, apesar de seu desempenho insatisfatório, enquanto o GEN-GIA tem muitas dependências e o ANA-GIA é facilmente detectável, tornando ambos impraticáveis. Por fim, oferecemos um pipeline de defesa em três estágios para os usuários ao projetar frameworks e protocolos de FL para uma melhor proteção de privacidade e compartilhamos algumas direções futuras de pesquisa a partir das perspectivas de atacantes e defensores que acreditamos que devem ser perseguidas. Esperamos que nosso estudo possa ajudar os pesquisadores a projetar frameworks de FL mais robustos para se defender contra esses ataques.
Propomos uma abordagem inovadora para a geração de legendas e localização de objetos em vídeos, onde os objetos mencionados nas legendas são localizados no vídeo por meio de caixas delimitadoras temporalmente densas. Apresentamos as seguintes contribuições. Primeiro, introduzimos um método de anotação automática em larga escala que agrega legendas associadas a caixas delimitadoras em quadros individuais, resultando em anotações de caixas delimitadoras temporalmente densas e consistentes. Aplicamos essa abordagem no conjunto de dados HowTo100M para construir um grande conjunto de dados de pré-treinamento, denominado HowToGround1M. Também apresentamos um modelo de Geração de Legendas de Vídeo com Localização, chamado GROVE, e realizamos o pré-treinamento desse modelo no HowToGround1M. Segundo, introduzimos um novo conjunto de dados, chamado iGround, composto por 3500 vídeos com legendas anotadas manualmente e caixas delimitadoras espacial e temporalmente densas. Isso nos permite medir o progresso nesse problema desafiador, bem como ajustar nosso modelo nesses dados de pequena escala, mas de alta qualidade. Terceiro, demonstramos que nossa abordagem alcança resultados de ponta no conjunto de dados iGround proposto, em comparação com várias linhas de base, bem como nos conjuntos de dados VidSTG e ActivityNet-Entities. Realizamos extensas análises de ablação que demonstram a importância do pré-treinamento usando nosso conjunto de dados HowToGround1M anotado automaticamente, seguido pelo ajuste fino no conjunto de dados iGround anotado manualmente, e validamos as principais contribuições técnicas do nosso modelo.
As redes de Kolmogorov-Arnold (KANs) são uma inovação notável que consiste em funções de ativação aprendíveis com o potencial de capturar relações mais complexas a partir de dados. Embora as KANs sejam úteis para encontrar representações simbólicas e aprendizado contínuo de funções unidimensionais, sua eficácia em diversas tarefas de aprendizado de máquina (ML), como visão, permanece questionável. Atualmente, as KANs são implantadas substituindo perceptrons multicamadas (MLPs) em arquiteturas de redes profundas, incluindo arquiteturas avançadas como Transformers de visão (ViTs). Neste artigo, somos os primeiros a projetar uma Atenção Kolmogorov-Arnold Aprendível Geral (KArAt) para ViTs clássicos que pode operar em qualquer escolha de base. No entanto, os custos de computação e memória para treiná-las nos motivaram a propor uma versão mais modular, e projetamos uma atenção aprendível específica, chamada Fourier-KArAt. A Fourier-KArAt e suas variantes superam suas contrapartes ViT ou apresentam desempenho comparável nos conjuntos de dados CIFAR-10, CIFAR-100 e ImageNet-1K. Analisamos o desempenho e a capacidade de generalização dessas arquiteturas examinando suas paisagens de perda, distribuições de pesos, caminho do otimizador, visualização de atenção e comportamento espectral, e as contrastamos com ViTs clássicos. O objetivo deste artigo não é produzir uma atenção eficiente em termos de parâmetros e computação, mas incentivar a comunidade a explorar as KANs em conjunto com arquiteturas mais avançadas que exigem um entendimento cuidadoso das ativações aprendíveis. Nosso código de código aberto e detalhes de implementação estão disponíveis em: https://subhajitmaity.me/KArAt
Ajustar um corpo a uma nuvem de pontos 3D de humanos vestidos é uma tarefa comum, porém desafiadora. Abordagens tradicionais baseadas em otimização utilizam pipelines de múltiplos estágios que são sensíveis à inicialização da pose, enquanto métodos recentes baseados em aprendizado frequentemente enfrentam dificuldades de generalização em poses diversas e tipos de vestimentas. Propomos o Equivariant Tightness Fitting for Clothed Humans, ou ETCH, um pipeline inovador que estima o mapeamento da superfície do tecido para o corpo por meio de equivariância SE(3) localmente aproximada, codificando a aderência como vetores de deslocamento da superfície do tecido para o corpo subjacente. Após esse mapeamento, características invariantes à pose do corpo regridem marcadores corporais esparsos, simplificando o ajuste de humanos vestidos em uma tarefa de ajuste de marcadores internos do corpo. Experimentos extensivos no CAPE e 4D-Dress mostram que o ETCH supera significativamente os métodos state-of-the-art — tanto os que ignoram a aderência quanto os que a consideram — em precisão de ajuste corporal em roupas soltas (16,7% ~ 69,5%) e precisão de forma (média de 49,9%). Nosso design de aderência equivariante pode até reduzir erros direcionais em (67,2% ~ 89,8%) em configurações one-shot (ou fora da distribuição). Resultados qualitativos demonstram uma forte generalização do ETCH, independentemente de poses desafiadoras, formas não vistas, roupas soltas e dinâmicas não rígidas. Liberaremos o código e os modelos em breve para fins de pesquisa em https://boqian-li.github.io/ETCH/.
Modelos autoregressivos visuais geralmente seguem um paradigma de "previsão do próximo token" em ordem raster, que ignora a localidade espacial e temporal inerente ao conteúdo visual. Especificamente, os tokens visuais exibem correlações significativamente mais fortes com seus tokens adjacentes espacial ou temporalmente em comparação com aqueles que estão distantes. Neste artigo, propomos o Modelamento Autoregressivo de Vizinhos (NAR), um novo paradigma que formula a geração visual autoregressiva como um procedimento de expansão progressiva, seguindo um mecanismo de "previsão do próximo vizinho" de perto para longe. Começando com um token inicial, os tokens restantes são decodificados em ordem crescente de sua distância de Manhattan do token inicial no espaço espaço-temporal, expandindo progressivamente o limite da região decodificada. Para permitir a previsão paralela de múltiplos tokens adjacentes no espaço espaço-temporal, introduzimos um conjunto de cabeças de decodificação orientadas por dimensão, cada uma prevendo o próximo token ao longo de uma dimensão mutuamente ortogonal. Durante a inferência, todos os tokens adjacentes aos tokens decodificados são processados em paralelo, reduzindo substancialmente os passos de avanço do modelo para geração. Experimentos no ImageNet256x256 e UCF101 demonstram que o NAR alcança um throughput 2,4x e 8,6x maior, respectivamente, enquanto obtém pontuações FID/FVD superiores para tarefas de geração de imagens e vídeos em comparação com a abordagem PAR-4X. Ao avaliar no benchmark de geração de texto para imagem GenEval, o NAR com 0,8B de parâmetros supera o Chameleon-7B enquanto utiliza apenas 0,4 dos dados de treinamento. O código está disponível em https://github.com/ThisisBillhe/NAR.
Acelerar a amostragem de modelos de difusão é crucial para a implantação eficiente de AIGC. Embora os métodos de destilação de difusão — baseados em correspondência de distribuição e correspondência de trajetória — reduzam a amostragem para tão poucos quanto um passo, eles ficam aquém em tarefas complexas como geração de texto para imagem. A geração em poucos passos oferece um melhor equilíbrio entre velocidade e qualidade, mas as abordagens existentes enfrentam uma troca persistente: a correspondência de distribuição carece de flexibilidade para amostragem em múltiplos passos, enquanto a correspondência de trajetória frequentemente resulta em qualidade de imagem subótima. Para preencher essa lacuna, propomos aprender modelos de difusão em poucos passos por Correspondência de Distribuição de Trajetória (TDM), um paradigma unificado de destilação que combina os pontos fortes da correspondência de distribuição e de trajetória. Nosso método introduz um objetivo de destilação de pontuação sem dados, alinhando a trajetória do aluno com a do professor no nível de distribuição. Além disso, desenvolvemos um objetivo consciente dos passos de amostragem que desacopla os alvos de aprendizado em diferentes passos, permitindo uma amostragem mais ajustável. Essa abordagem suporta tanto a amostragem determinística para qualidade superior de imagem quanto a adaptação flexível em múltiplos passos, alcançando desempenho de ponta com eficiência notável. Nosso modelo, TDM, supera os métodos existentes em várias arquiteturas, como SDXL e PixArt-alpha, entregando qualidade superior e custos de treinamento significativamente reduzidos. Em particular, nosso método destila o PixArt-alpha em um gerador de 4 passos que supera seu professor na preferência do usuário real em resolução de 1024. Isso é realizado com 500 iterações e 2 horas de A800 — meros 0,01% do custo de treinamento do professor. Além disso, nosso TDM proposto pode ser estendido para acelerar a difusão de texto para vídeo. Notavelmente, o TDM pode superar seu modelo professor (CogVideoX-2B) usando apenas 4 NFE no VBench, melhorando a pontuação total de 80,91 para 81,65. Página do projeto: https://tdm-t2x.github.io/
Como os modelos de linguagem multimodal de grande escala (MLLMs) frequentemente cometem erros ao resolver problemas científicos, avaliar a validade de seus processos de raciocínio é crucial para garantir confiabilidade e revelar fraquezas detalhadas dos modelos. Como a avaliação humana é trabalhosa e custosa, a prática de usar MLLMs como juízes automatizados de processos tornou-se comum. No entanto, a confiabilidade desses juízes baseados em modelos permanece incerta. Para abordar isso, introduzimos o ProJudgeBench, o primeiro benchmark abrangente especificamente projetado para avaliar as habilidades de juízes de processos baseados em MLLMs. O ProJudgeBench compreende 2.400 casos de teste e 50.118 rótulos em nível de etapa, abrangendo quatro disciplinas científicas com diversos níveis de dificuldade e conteúdo multimodal. No ProJudgeBench, cada etapa é meticulosamente anotada por especialistas humanos quanto à correção, tipo de erro e explicação, permitindo uma avaliação sistemática das capacidades dos juízes de detectar, classificar e diagnosticar erros. A avaliação no ProJudgeBench revela uma lacuna significativa de desempenho entre modelos de código aberto e proprietários. Para reduzir essa lacuna, propomos ainda o ProJudge-173k, um grande conjunto de dados de ajuste fino por instrução, e uma estratégia de ajuste fino Dinâmica de Duas Fases que incentiva os modelos a raciocinar explicitamente através da resolução de problemas antes de avaliar as soluções. Ambas as contribuições melhoram significativamente as capacidades de avaliação de processos dos modelos de código aberto. Todos os recursos serão liberados para promover pesquisas futuras sobre avaliação confiável de processos multimodais.
Modelos unificados (UniMs) para compreensão e geração multimodal têm recebido muita atenção recentemente na área de visão e linguagem. Os UniMs existentes são projetados para aprender simultaneamente capacidades de compreensão e geração multimodal, demandando recursos computacionais substanciais e frequentemente enfrentam dificuldades para gerar texto e imagens intercalados. Apresentamos o ARMOR, uma estrutura autoregressiva pura e eficiente em recursos que alcança tanto a compreensão quanto a geração por meio do ajuste fino de modelos de linguagem multimodal de grande escala (MLLMs). Especificamente, o ARMOR estende os MLLMs existentes a partir de três perspectivas: (1) Para a arquitetura do modelo, uma arquitetura codificador-decodificador assimétrica com um mecanismo de comutação direta é introduzida para unificar o espaço de incorporação, integrando modalidades textuais e visuais, permitindo a geração natural de texto e imagens intercalados com sobrecarga computacional mínima. (2) Para os dados de treinamento, um conjunto de dados intercalados de alta qualidade e meticulosamente curado é coletado para ajustar os MLLMs. (3) Para o algoritmo de treinamento, propomos um algoritmo "o que ou como gerar" para capacitar os MLLMs existentes com habilidades de geração multimodal, preservando suas capacidades de compreensão multimodal, por meio de três estágios progressivos de treinamento baseados no conjunto de dados coletado. Resultados experimentais demonstram que o ARMOR atualiza os MLLMs existentes para UniMs com promissores recursos de geração de imagens, utilizando recursos de treinamento limitados. Nosso código será lançado em breve em https://armor.github.io.
Modelos de linguagem de grande escala (LLMs) demonstraram desempenho notável e capacidades de generalização em múltiplos idiomas e tarefas, tornando-os alvos muito atraentes para integração de multimodalidade (por exemplo, imagens ou fala). Neste trabalho, estendemos um LLM existente para a modalidade de fala por meio de discretização de fala e pré-treinamento contínuo. Em particular, estamos interessados em LLMs multilíngues, como o TOWER, pois seu cenário de pré-treinamento nos permite tratar a entrada de fala discretizada como um idioma de tradução adicional. O modelo de código aberto resultante, SPIRE, é capaz de transcrever e traduzir entradas de fala em inglês, mantendo o desempenho original do TOWER em tarefas relacionadas à tradução, demonstrando que a integração de entrada de fala discretizada como um idioma adicional é viável durante a adaptação de LLMs. Disponibilizamos nosso código e modelos para a comunidade.
A recuperação precisa de materiais é crucial para a criação de ativos 3D realistas. Os métodos existentes dependem de conjuntos de dados que capturam representações de materiais invariantes à forma e variadas em iluminação, os quais são escassos e enfrentam desafios devido à diversidade limitada e à generalização inadequada para o mundo real. A maioria das abordagens atuais adota técnicas tradicionais de busca de imagens. Elas falham em capturar as propriedades únicas dos espaços de materiais, resultando em desempenho subótimo em tarefas de recuperação. Para enfrentar esses desafios, introduzimos o MaRI, uma estrutura projetada para preencher a lacuna do espaço de características entre materiais sintéticos e do mundo real. O MaRI constrói um espaço de incorporação compartilhado que harmoniza atributos visuais e de materiais por meio de uma estratégia de aprendizado contrastivo, treinando conjuntamente um codificador de imagem e um codificador de material, aproximando materiais e imagens semelhantes enquanto separa pares dissimilares dentro do espaço de características. Para apoiar isso, construímos um conjunto de dados abrangente composto por materiais sintéticos de alta qualidade renderizados com variações controladas de forma e condições de iluminação diversas, juntamente com materiais do mundo real processados e padronizados usando técnicas de transferência de materiais. Experimentos extensivos demonstram o desempenho superior, a precisão e as capacidades de generalização do MaRI em diversas e complexas tarefas de recuperação de materiais, superando os métodos existentes.
Apresentamos o TreeMeshGPT, um Transformer autorregressivo projetado para gerar malhas artísticas de alta qualidade alinhadas com nuvens de pontos de entrada. Em vez da previsão convencional do próximo token em Transformers autorregressivos, propomos uma nova Sequenciação de Árvore Autorregressiva, onde o próximo token de entrada é recuperado de uma estrutura de árvore que cresce dinamicamente, construída com base na adjacência triangular das faces dentro da malha. Nossa sequenciação permite que a malha se estenda localmente a partir da última face triangular gerada em cada etapa, reduzindo assim a dificuldade de treinamento e melhorando a qualidade da malha. Nossa abordagem representa cada face triangular com dois tokens, alcançando uma taxa de compressão de aproximadamente 22% em comparação com a tokenização ingênua de faces. Essa tokenização eficiente permite que nosso modelo gere malhas artísticas altamente detalhadas com forte condicionamento da nuvem de pontos, superando métodos anteriores em capacidade e fidelidade. Além disso, nosso método gera malhas com fortes restrições de orientação normal, minimizando normais invertidas comumente encontradas em métodos anteriores. Nossos experimentos mostram que o TreeMeshGPT melhora a qualidade da geração de malhas com detalhes refinados e consistência na orientação normal.
Este trabalho apresenta uma primeira avaliação de dois modelos de raciocínio em larga escala (LRMs) de ponta, o o3-mini da OpenAI e o DeepSeek R1, no raciocínio analógico, com foco em testes de QI não verbais bem estabelecidos baseados nas matrizes progressivas de Raven. Realizamos benchmarks com o conjunto de dados I-RAVEN e sua extensão mais desafiadora, I-RAVEN-X, que testa a capacidade de generalizar para regras de raciocínio mais longas e intervalos de valores dos atributos. Para avaliar a influência de incertezas visuais nesses testes de raciocínio analógico não verbal, estendemos o conjunto de dados I-RAVEN-X, que, de outra forma, assume uma percepção oráculo. Adotamos uma estratégia dupla para simular essa percepção visual imperfeita: 1) introduzimos atributos confundentes que, sendo amostrados aleatoriamente, não contribuem para a previsão da resposta correta dos quebra-cabeças e 2) suavizamos as distribuições dos valores dos atributos de entrada. Observamos uma queda acentuada na precisão da tarefa do o3-mini da OpenAI, caindo de 86,6% no I-RAVEN original para apenas 17,0% — aproximando-se do acaso — no I-RAVEN-X mais desafiador, que aumenta o comprimento e o intervalo da entrada e emula a incerteza perceptiva. Essa queda ocorreu apesar de gastar 3,4 vezes mais tokens de raciocínio. Uma tendência semelhante também é observada para o DeepSeek R1: de 80,6% para 23,2%. Por outro lado, um modelo neuro-simbólico probabilístico abdutivo, ARLC, que alcança desempenhos de ponta no I-RAVEN, consegue raciocinar de forma robusta sob todos esses testes fora da distribuição, mantendo uma alta precisão com apenas uma modesta redução de 98,6% para 88,0%. Nosso código está disponível em https://github.com/IBM/raven-large-language-models.
A Legenda Detalhada de Vídeos (VDC) é uma tarefa crucial para a ponte entre visão e linguagem, permitindo descrições refinadas de conteúdos de vídeo complexos. Neste artigo, primeiro realizamos uma avaliação abrangente das abordagens mais avançadas atualmente e identificamos sistematicamente duas limitações críticas: a capacidade tendenciosa em relação a aspectos específicos de legendagem e o desalinhamento com as preferências humanas. Para abordar essas deficiências, propomos o Cockatiel, um novo pipeline de treinamento em três estágios que combina treinamento sintético e alinhado com humanos para melhorar o desempenho do VDC. No primeiro estágio, derivamos um avaliador a partir de um conjunto de dados meticulosamente anotado para selecionar legendas sintéticas que apresentam alto desempenho em certos alinhamentos refinados entre vídeo e legenda e que são preferidas por humanos, descartando as demais. Em seguida, treinamos o Cockatiel-13B usando esse conjunto de dados curado para infundir nele as forças combinadas do modelo e as preferências humanas. Por fim, destilamos ainda mais o Cockatiel-8B a partir do Cockatiel-13B para facilitar o uso. Experimentos quantitativos e qualitativos extensivos refletem a eficácia do nosso método, já que não apenas estabelecemos um novo desempenho de ponta no VDCSCORE de forma equilibrada em dimensões, mas também superamos as principais alternativas em preferência humana por uma grande margem, conforme ilustrado pelos resultados da avaliação humana.
Aprender habilidades em ambientes de mundo aberto é essencial para desenvolver agentes capazes de lidar com uma variedade de tarefas combinando habilidades básicas. Vídeos de demonstração online são tipicamente longos, mas não segmentados, o que torna difícil segmentá-los e rotulá-los com identificadores de habilidades. Diferente dos métodos existentes que dependem de amostragem de sequência ou rotulação humana, desenvolvemos uma abordagem baseada em aprendizado auto-supervisionado para segmentar esses vídeos longos em uma série de segmentos semanticamente conscientes e consistentes em termos de habilidades. Inspirados pela teoria de segmentação de eventos cognitivos humanos, introduzimos o Detecção de Limites de Habilidades (SBD, do inglês *Skill Boundary Detection*), um algoritmo de segmentação temporal de vídeos sem necessidade de anotação. O SBD detecta limites de habilidades em um vídeo aproveitando erros de previsão de um modelo de previsão de ação incondicional pré-treinado. Essa abordagem é baseada na suposição de que um aumento significativo no erro de previsão indica uma mudança na habilidade que está sendo executada. Avaliamos nosso método no Minecraft, um simulador de mundo aberto rico com extensos vídeos de jogabilidade disponíveis online. Nossos segmentos gerados pelo SBD melhoraram o desempenho médio de políticas condicionadas em 63,7% e 52,1% em tarefas de habilidades atômicas de curto prazo, e seus agentes hierárquicos correspondentes em 11,3% e 20,8% em tarefas de longo prazo. Nosso método pode aproveitar os diversos vídeos do YouTube para treinar agentes que seguem instruções. A página do projeto pode ser encontrada em https://craftjarvis.github.io/SkillDiscovery.
Apresentamos o CHOrD, uma nova estrutura para síntese escalável de cenas internas 3D, projetada para criar gêmeos digitais internos em escala residencial, livres de colisões e estruturados hierarquicamente. Em contraste com os métodos existentes que sintetizam diretamente o layout da cena como um grafo de cena ou lista de objetos, o CHOrD incorpora uma representação intermediária de layout baseada em imagens 2D, permitindo a prevenção eficaz de artefatos de colisão ao capturá-los com sucesso como cenários fora da distribuição (OOD) durante a geração. Além disso, diferentemente dos métodos existentes, o CHOrD é capaz de gerar layouts de cena que aderem a plantas baixas complexas com controles multimodais, possibilitando a criação de layouts coerentes em toda a residência, robustos a variações geométricas e semânticas nas estruturas dos cômodos. Adicionalmente, propomos um novo conjunto de dados com cobertura expandida de itens domésticos e configurações de cômodos, além de uma qualidade de dados significativamente aprimorada. O CHOrD demonstra desempenho de ponta tanto no conjunto de dados 3D-FRONT quanto no nosso conjunto de dados proposto, oferecendo síntese de cenas internas fotorrealistas e espacialmente coerentes, adaptáveis a variações arbitrárias de plantas baixas.
Propomos o GoalFlow, um método de direção autônoma de ponta a ponta para gerar trajetórias multimodais de alta qualidade. Em cenários de direção autônoma, raramente existe uma única trajetória adequada. Métodos recentes têm se concentrado cada vez mais na modelagem de distribuições de trajetórias multimodais. No entanto, eles sofrem com a complexidade de seleção de trajetórias e a redução da qualidade das trajetórias devido à alta divergência de trajetórias e inconsistências entre a orientação e as informações da cena. Para resolver esses problemas, introduzimos o GoalFlow, um método inovador que restringe efetivamente o processo de geração para produzir trajetórias multimodais de alta qualidade. Para resolver o problema de divergência de trajetórias inerente aos métodos baseados em difusão, o GoalFlow restringe as trajetórias geradas introduzindo um ponto de destino. O GoalFlow estabelece um mecanismo de pontuação inovador que seleciona o ponto de destino mais apropriado dentre os pontos candidatos com base nas informações da cena. Além disso, o GoalFlow emprega um método de geração eficiente, o Flow Matching, para gerar trajetórias multimodais, e incorpora um mecanismo de pontuação refinado para selecionar a trajetória ótima dentre as candidatas. Nossos resultados experimentais, validados no NavsimDauner2024_navsim, demonstram que o GoalFlow alcança desempenho de última geração, fornecendo trajetórias multimodais robustas para direção autônoma. O GoalFlow alcançou um PDMS de 90,3, superando significativamente outros métodos. Em comparação com outros métodos baseados em política de difusão, nossa abordagem requer apenas uma única etapa de remoção de ruído para obter um desempenho excelente. O código está disponível em https://github.com/YvanYin/GoalFlow.
O desaprendizado de máquina é um paradigma emergente para remover a influência de dados específicos de treinamento (ou seja, o conjunto de esquecimento) de um modelo, preservando seu conhecimento sobre o restante dos dados (ou seja, o conjunto de retenção). Abordagens anteriores assumem que os dados a serem esquecidos estão uniformemente distribuídos entre todos os pontos de treinamento. No entanto, se os dados a serem desaprendidos forem dominantes em um grupo, mostramos empiricamente que o desempenho para esse grupo se degrada, levando a questões de justiça. Este trabalho aborda o problema negligenciado de conjuntos de esquecimento distribuídos de forma não uniforme, que chamamos de desaprendizado de máquina robusto a grupos, apresentando uma estratégia simples e eficaz que mitiga a perda de desempenho em grupos dominantes por meio da reconfiguração da distribuição de amostras. Além disso, apresentamos o MIU (Desaprendizado de Máquina com Consciência de Informação Mútua), a primeira abordagem para robustez de grupos no desaprendizado de máquina aproximado. O MIU minimiza a informação mútua entre as características do modelo e as informações do grupo, alcançando o desaprendizado enquanto reduz a degradação de desempenho no grupo dominante do conjunto de esquecimento. Adicionalmente, o MIU explora a reconfiguração da distribuição de amostras e a calibração da informação mútua com o modelo original para preservar a robustez do grupo. Realizamos experimentos em três conjuntos de dados e mostramos que o MIU supera métodos padrão, alcançando o desaprendizado sem comprometer a robustez do modelo. O código-fonte está disponível em https://github.com/tdemin16/group-robust_machine_unlearning.