Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o ComfyUI-Copilot, um plugin baseado em modelos de linguagem de grande escala projetado para aprimorar a usabilidade e eficiência do ComfyUI, uma plataforma de código aberto para criação de arte impulsionada por IA. Apesar de sua flexibilidade e interface amigável, o ComfyUI pode apresentar desafios para iniciantes, incluindo documentação limitada, configurações incorretas de modelos e a complexidade do design de fluxos de trabalho. O ComfyUI-Copilot aborda esses desafios oferecendo recomendações inteligentes de nós e modelos, juntamente com a construção automatizada de fluxos de trabalho com um único clique. No núcleo do sistema, é empregada uma estrutura hierárquica de multiagentes, composta por um agente assistente central para delegação de tarefas e agentes especializados para diferentes usos, apoiados por nossas bases de conhecimento do ComfyUI para agilizar a depuração e implantação. Validamos a eficácia do ComfyUI-Copilot por meio de avaliações quantitativas offline e feedback de usuários online, demonstrando que ele recomenda nós com precisão e acelera o desenvolvimento de fluxos de trabalho. Além disso, casos de uso ilustram que o ComfyUI-Copilot reduz as barreiras de entrada para iniciantes e aumenta a eficiência dos fluxos de trabalho para usuários experientes. O pacote de instalação do ComfyUI-Copilot e um vídeo de demonstração estão disponíveis em https://github.com/AIDC-AI/ComfyUI-Copilot.
Neste trabalho, apresentamos a série Qwen3 Embedding, um avanço significativo em relação à sua predecessora, a série GTE-Qwen, em capacidades de incorporação de texto e reranking, construída sobre os modelos base Qwen3. Aproveitando as robustas capacidades dos modelos de linguagem Qwen3 (LLMs) na compreensão e geração de texto multilíngue, nosso pipeline de treinamento inovador em múltiplos estágios combina pré-treinamento não supervisionado em larga escala com ajuste fino supervisionado em conjuntos de dados de alta qualidade. Estratégias eficazes de fusão de modelos garantem ainda mais a robustez e adaptabilidade da série Qwen3 Embedding. Durante o processo de treinamento, os LLMs Qwen3 não apenas servem como modelos base, mas também desempenham um papel crucial na síntese de dados de treinamento de alta qualidade, ricos e diversificados, abrangendo múltiplos domínios e idiomas, aprimorando assim o pipeline de treinamento. A série Qwen3 Embedding oferece uma variedade de tamanhos de modelos (0.6B, 4B, 8B) para tarefas de incorporação e reranking, atendendo a diversos cenários de implantação onde os usuários podem otimizar para eficiência ou eficácia. Avaliações empíricas demonstram que a série Qwen3 Embedding alcança resultados de ponta em diversos benchmarks. Destaca-se seu desempenho excepcional no benchmark de avaliação multilíngue MTEB para incorporação de texto, bem como em várias tarefas de recuperação, incluindo recuperação de código, recuperação cruzada de idiomas e recuperação multilíngue. Para facilitar a reprodutibilidade e promover pesquisa e desenvolvimento impulsionados pela comunidade, os modelos Qwen3 Embedding estão disponíveis publicamente sob a licença Apache 2.0.
Avanços recentes em restauração de vídeo baseada em difusão (VR) demonstram uma melhoria significativa na qualidade visual, mas resultam em um custo computacional proibitivo durante a inferência. Embora várias abordagens baseadas em destilação tenham mostrado o potencial de restauração de imagem em uma única etapa, estender as abordagens existentes para VR permanece desafiador e pouco explorado, especialmente ao lidar com vídeos de alta resolução em cenários do mundo real. Neste trabalho, propomos um modelo de VR baseado em difusão em uma única etapa, denominado SeedVR2, que realiza treinamento adversário de VR contra dados reais. Para lidar com o desafio de VR em alta resolução em uma única etapa, introduzimos várias melhorias tanto na arquitetura do modelo quanto nos procedimentos de treinamento. Especificamente, propomos um mecanismo de atenção adaptativa por janela, onde o tamanho da janela é ajustado dinamicamente para se adequar às resoluções de saída, evitando a inconsistência de janela observada em VR de alta resolução ao usar atenção por janela com um tamanho de janela pré-definido. Para estabilizar e melhorar o pós-treinamento adversário em direção à VR, verificamos ainda a eficácia de uma série de funções de perda, incluindo uma função de perda de correspondência de características proposta, sem sacrificar significativamente a eficiência do treinamento. Experimentos extensivos mostram que o SeedVR2 pode alcançar desempenho comparável ou até superior em comparação com as abordagens de VR existentes em uma única etapa.
Modelos de mundo emergentes geram autoregressivamente quadros de vídeo em resposta a ações, como movimentos de câmera e prompts de texto, entre outros sinais de controle. Devido ao tamanho limitado das janelas de contexto temporal, esses modelos frequentemente enfrentam dificuldades para manter a consistência da cena durante revisitas, resultando em um esquecimento severo de ambientes previamente gerados. Inspirados pelos mecanismos da memória humana, introduzimos uma nova estrutura para aprimorar a consistência de longo prazo em modelos de mundo de vídeo por meio de uma memória espacial de longo prazo fundamentada em geometria. Nossa estrutura inclui mecanismos para armazenar e recuperar informações da memória espacial de longo prazo, e criamos conjuntos de dados personalizados para treinar e avaliar modelos de mundo com mecanismos de memória 3D explicitamente armazenados. Nossas avaliações mostram melhorias na qualidade, consistência e extensão do contexto em comparação com linhas de base relevantes, abrindo caminho para a geração de mundos com consistência de longo prazo.
A referência espacial é uma capacidade fundamental de robôs corporificados para interagir com o mundo físico 3D. No entanto, mesmo com os poderosos modelos de linguagem visual pré-treinados (VLMs), as abordagens recentes ainda não são qualificadas para compreender com precisão cenas 3D complexas e raciocinar dinamicamente sobre os locais indicados pelas instruções para interação. Para isso, propomos o RoboRefer, um VLM 3D que pode primeiro alcançar uma compreensão espacial precisa ao integrar um codificador de profundidade desacoplado, mas dedicado, por meio de ajuste fino supervisionado (SFT). Além disso, o RoboRefer avança o raciocínio espacial generalizado de múltiplos passos por meio de ajuste fino por reforço (RFT), com funções de recompensa de processo sensíveis a métricas adaptadas para tarefas de referência espacial. Para apoiar o treinamento de SFT e RFT, introduzimos o RefSpatial, um conjunto de dados em larga escala com 20 milhões de pares de perguntas e respostas (2x maior que o anterior), cobrindo 31 relações espaciais (vs. 15 anteriormente) e suportando processos de raciocínio complexos (até 5 passos). Além disso, introduzimos o RefSpatial-Bench, um benchmark desafiador que preenche a lacuna na avaliação de referência espacial com raciocínio de múltiplos passos. Os experimentos mostram que o RoboRefer treinado com SFT alcança o estado da arte em compreensão espacial, com uma taxa média de sucesso de 89,6%. O RoboRefer treinado com RFT supera ainda mais todas as outras linhas de base por uma grande margem, ultrapassando até o Gemini-2.5-Pro em 17,4% na precisão média no RefSpatial-Bench. Notavelmente, o RoboRefer pode ser integrado com várias políticas de controle para executar tarefas dinâmicas de longo prazo em diversos robôs (por exemplo, UR5, humanóide G1) em cenas do mundo real desordenadas.
Os modelos Transformer enfrentam dificuldades na inferência de contextos longos devido à sua complexidade quadrática de tempo e linear de memória. Os Transformers com Memória Recorrente (RMTs) oferecem uma solução ao reduzir o custo assintótico para tempo linear e uso constante de memória. No entanto, seu mecanismo de atualização de memória resulta em execução sequencial, causando um gargalo de desempenho. Apresentamos o *Diagonal Batching*, um esquema de agendamento que desbloqueia o paralelismo entre segmentos em RMTs enquanto preserva a recorrência exata. Essa abordagem elimina a restrição sequencial, permitindo inferência eficiente em GPUs mesmo para entradas únicas de contexto longo, sem técnicas complexas de *batching* e *pipelining*. Como a técnica é puramente uma reordenação de computação em tempo de execução, os modelos RMT existentes podem adotá-la sem necessidade de retreinamento. Aplicado a um modelo LLaMA-1B ARMT, o *Diagonal Batching* proporciona um ganho de velocidade de 3,3x em relação ao LLaMA-1B com atenção completa padrão e 1,8x em relação à implementação sequencial de RMT em sequências de 131.072 *tokens*. Ao remover o gargalo sequencial, o *Diagonal Batching* reduz o custo e a latência de inferência, fortalecendo os RMTs como uma solução prática para aplicações do mundo real com contextos longos.
Grandes modelos de linguagem (LLMs) são tipicamente treinados em quantidades enormes de texto não licenciado, uma prática que tem gerado escrutínio devido a possíveis violações de propriedade intelectual e preocupações éticas. Treinar LLMs em texto abertamente licenciado representa um primeiro passo para abordar essas questões, mas esforços anteriores de coleta de dados resultaram em conjuntos de dados pequenos demais ou de baixa qualidade para produzir LLMs de alto desempenho. Para preencher essa lacuna, coletamos, curamos e lançamos o Common Pile v0.1, uma coleção de oito terabytes de texto abertamente licenciado projetado para pré-treinamento de LLMs. O Common Pile inclui conteúdo de 30 fontes que abrangem diversos domínios, como artigos de pesquisa, código, livros, enciclopédias, materiais educacionais, transcrições de áudio e mais. Crucialmente, validamos nossos esforços treinando dois LLMs de 7 bilhões de parâmetros com texto do Common Pile: Comma v0.1-1T e Comma v0.1-2T, treinados com 1 e 2 trilhões de tokens, respectivamente. Ambos os modelos alcançam desempenho competitivo em comparação com LLMs treinados em texto não licenciado com orçamentos computacionais similares, como Llama 1 e 2 7B. Além de lançar o Common Pile v0.1, também disponibilizamos o código usado em sua criação, bem como a mistura de treinamento e os checkpoints dos modelos Comma v0.1.
Apresentamos o Surfer-H, um agente web de baixo custo que integra Modelos Visão-Linguagem (VLM) para executar tarefas definidas pelo usuário na web. Ele é combinado com o Holo1, uma nova coleção de VLMs de pesos abertos especializada em navegação web e extração de informações. O Holo1 foi treinado em fontes de dados cuidadosamente curadas, incluindo conteúdo web de acesso aberto, exemplos sintéticos e dados agenticos autoproduzidos. O Holo1 lidera benchmarks gerais de Interface de Usuário (UI), bem como nosso novo benchmark de localização de UI web, o WebClick. Quando alimentado pelo Holo1, o Surfer-H alcança um desempenho de ponta de 92,2% no WebVoyager, atingindo um equilíbrio Pareto-ótimo entre precisão e eficiência de custos. Para acelerar o avanço da pesquisa em sistemas agenticos, estamos disponibilizando publicamente tanto nosso conjunto de dados de avaliação WebClick quanto os pesos do modelo Holo1.
A escalonamento no tempo de inferência troca eficiência por maior precisão de raciocínio ao gerar sequências mais longas ou mais paralelas. No entanto, em LLMs baseados em Transformers, o custo de geração é limitado pelo tamanho do cache de chave-valor (KV), em vez do número de tokens gerados. Portanto, exploramos o hiper-escalonamento no tempo de inferência: ao comprimir o cache KV, podemos gerar mais tokens dentro do mesmo orçamento computacional e melhorar ainda mais a precisão da inferência escalonada. O sucesso dessa abordagem, no entanto, depende da capacidade dos métodos de compressão em preservar a precisão mesmo em altas taxas de compressão. Para tornar o hiper-escalonamento prático, introduzimos a Esparsificação Dinâmica de Memória (DMS), um método novo para esparsificar caches KV que requer apenas 1K passos de treinamento para alcançar uma compressão de 8 vezes, mantendo uma precisão melhor do que a atenção esparsa sem treinamento. Em vez de descartar prematuramente os tokens armazenados em cache, o DMS atrasa a evicção de tokens, implicitamente mesclando representações e preservando informações críticas. Demonstramos a eficácia do hiper-escalonamento no tempo de inferência com DMS em várias famílias de LLMs, mostrando que ele aumenta a precisão para tempos de inferência e carga de memória comparáveis. Por exemplo, aprimoramos o Qwen-R1 32B em média 9,1 pontos no AIME 24, 7,6 no GPQA e 9,6 no LiveCodeBench em diferentes orçamentos computacionais.
Este artigo apresenta uma nova estrutura para alinhar espaços latentes aprendíveis a distribuições alvo arbitrárias, utilizando modelos generativos baseados em fluxos como priores. Nosso método primeiro pré-treina um modelo de fluxo nas características alvo para capturar a distribuição subjacente. Esse modelo de fluxo fixo subsequentemente regulariza o espaço latente por meio de uma função de perda de alinhamento, que reformula o objetivo de correspondência de fluxo para tratar os latentes como alvos de otimização. Provamos formalmente que a minimização dessa função de perda de alinhamento estabelece um objetivo substituto computacionalmente tratável para maximizar um limite inferior variacional na log-verossimilhança dos latentes sob a distribuição alvo. Notavelmente, o método proposto elimina avaliações computacionalmente caras de verossimilhança e evita a resolução de EDOs durante a otimização. Como prova de conceito, demonstramos em um ambiente controlado que o cenário da função de perda de alinhamento aproxima-se estreitamente da log-verossimilhança negativa da distribuição alvo. Validamos ainda a eficácia de nossa abordagem por meio de experimentos de geração de imagens em larga escala no ImageNet com diversas distribuições alvo, acompanhados por discussões detalhadas e estudos de ablação. Com validação teórica e empírica, nossa estrutura abre um novo caminho para o alinhamento de espaços latentes.
O raciocínio matemático em cenários de vídeo do mundo real apresenta um desafio fundamentalmente diferente do que em imagens estáticas ou texto. Ele requer a interpretação de informações visuais detalhadas, a leitura precisa de textos manuscritos ou digitais, e a integração de pistas faladas, frequentemente dispersas de forma não linear ao longo do tempo. Nesses contextos multimodais, o sucesso depende não apenas da percepção, mas da identificação seletiva e integração dos detalhes contextuais corretos de um fluxo rico e ruidoso de conteúdo. Para esse fim, introduzimos o VideoMathQA, um benchmark projetado para avaliar se os modelos podem realizar esse tipo de raciocínio multimodal temporalmente estendido em vídeos. O benchmark abrange 10 domínios matemáticos diversos, cobrindo vídeos que variam de 10 segundos a mais de 1 hora. Ele exige que os modelos interpretem conteúdo visual estruturado, compreendam narrativas instrucionais e fundamentem conceitos conjuntamente nas modalidades visual, auditiva e textual. Empregamos especialistas de nível de pós-graduação para garantir alta qualidade, totalizando mais de 920 horas-homem de anotação. Para refletir cenários do mundo real, as perguntas são projetadas em torno de três desafios centrais de raciocínio: resolução direta de problemas, onde as respostas são fundamentadas na pergunta apresentada; transferência conceitual, que requer a aplicação de métodos aprendidos a novos problemas; e compreensão profunda de instruções, envolvendo raciocínio de múltiplos passos sobre explicações estendidas e soluções parcialmente elaboradas. Cada pergunta inclui anotações de raciocínio de múltiplos passos, permitindo um diagnóstico detalhado das capacidades dos modelos. Através deste benchmark, destacamos as limitações das abordagens existentes e estabelecemos um framework de avaliação sistemático para modelos que devem raciocinar, em vez de apenas perceber, em cenários de problemas matemáticos temporalmente estendidos e ricos em modalidades. Nosso benchmark e código de avaliação estão disponíveis em: https://mbzuai-oryx.github.io/VideoMathQA
Avanços recentes em modelos de difusão texto-para-vídeo (T2V) têm possibilitado a síntese de vídeos de alta fidelidade e realistas. No entanto, os modelos T2V atuais frequentemente enfrentam dificuldades para gerar conteúdos fisicamente plausíveis devido à sua capacidade inerente limitada de compreender a física com precisão. Descobrimos que, embora as representações dentro dos modelos T2V possuam alguma capacidade de compreensão da física, elas ficam significativamente atrás das representações provenientes de métodos recentes de aprendizado auto-supervisionado de vídeo. Para isso, propomos uma nova estrutura chamada VideoREPA, que destila a capacidade de compreensão da física de modelos fundamentais de compreensão de vídeo para modelos T2V, alinhando relações em nível de token. Isso fecha a lacuna de compreensão da física e permite uma geração mais fisicamente plausível. Especificamente, introduzimos a perda de Distilação de Relação de Token (TRD), aproveitando o alinhamento espaço-temporal para fornecer uma orientação suave adequada para o ajuste fino de modelos T2V pré-treinados poderosos, uma abordagem crítica que se diferencia dos métodos anteriores de alinhamento de representação (REPA). Até onde sabemos, o VideoREPA é o primeiro método REPA projetado para o ajuste fino de modelos T2V e especificamente para a injeção de conhecimento físico. Avaliações empíricas mostram que o VideoREPA aprimora substancialmente o senso comum físico do método de base, CogVideoX, alcançando uma melhoria significativa em benchmarks relevantes e demonstrando uma forte capacidade de gerar vídeos consistentes com a física intuitiva. Mais resultados em vídeo estão disponíveis em https://videorepa.github.io/.
Apesar dos avanços na compreensão de vídeos, os MLLMs atuais enfrentam dificuldades em tarefas de contagem. Os benchmarks existentes são limitados por vídeos curtos, consultas de conjunto fechado, falta de anotações de pistas e cobertura multimodal fraca. Neste artigo, apresentamos o CG-AV-Counting, um benchmark de contagem baseado em pistas anotadas manualmente, com 1.027 questões multimodais e 5.845 pistas anotadas em 497 vídeos longos. Ele suporta avaliações de caixa preta e caixa branca, servindo como um ambiente de teste abrangente tanto para contagem de ponta a ponta quanto baseada em raciocínio. Para explorar maneiras de melhorar a capacidade de contagem dos modelos, propomos o AV-Reasoner, um modelo treinado com GRPO e aprendizado curricular para generalizar a habilidade de contagem a partir de tarefas relacionadas. O AV-Reasoner alcança resultados state-of-the-art em vários benchmarks, demonstrando a eficácia do aprendizado por reforço. No entanto, experimentos mostram que, em benchmarks fora do domínio, o raciocínio no espaço da linguagem não traz ganhos de desempenho. O código e o benchmark foram disponibilizados em https://av-reasoner.github.io.
Os modelos de raciocínio representados pela série Deepseek-R1-Distill têm sido amplamente adotados pela comunidade de código aberto devido ao seu forte desempenho em matemática, ciências, programação e outros domínios. No entanto, nosso estudo revela que os resultados de avaliação de benchmarks estão sujeitos a flutuações significativas causadas por diversos fatores. Diferenças sutis nas condições de avaliação podem levar a variações substanciais nos resultados. Fenômenos semelhantes são observados em outros modelos de inferência de código aberto ajustados com base na série Deepseek-R1-Distill, bem como no modelo QwQ-32B, tornando suas melhorias de desempenho reivindicadas difíceis de reproduzir de forma confiável. Portanto, defendemos o estabelecimento de um paradigma mais rigoroso para a avaliação do desempenho de modelos e apresentamos nossas avaliações empíricas dos modelos da série Deepseek-R1-Distill.
A cognição espacial é essencial para a inteligência humana, permitindo a resolução de problemas por meio de simulações visuais, em vez de depender exclusivamente do raciocínio verbal. No entanto, os benchmarks de IA existentes avaliam principalmente o raciocínio verbal, negligenciando as complexidades da simulação visual não verbal e de múltiplas etapas. Apresentamos o STARE (Spatial Transformations and Reasoning Evaluation), um benchmark projetado para avaliar rigorosamente modelos de linguagem multimodal em tarefas que são melhor resolvidas por meio de simulações visuais de múltiplas etapas. O STARE inclui 4 mil tarefas que abrangem transformações geométricas fundamentais (2D e 3D), raciocínio espacial integrado (dobramento de redes de cubos e quebra-cabeças tangram) e raciocínio espacial do mundo real (perspectiva e raciocínio temporal), refletindo desafios cognitivos práticos, como montagem de objetos, interpretação de diagramas mecânicos e navegação espacial cotidiana. Nossas avaliações mostram que os modelos se destacam no raciocínio sobre transformações 2D mais simples, mas têm desempenho próximo ao acaso em tarefas mais complexas, como o dobramento de redes de cubos 3D e quebra-cabeças tangram, que exigem simulações visuais de múltiplas etapas. Humanos alcançam precisão quase perfeita, mas levam um tempo considerável (até 28,9 segundos) em tarefas complexas, acelerando significativamente (em média 7,5 segundos) com simulações visuais intermediárias. Em contraste, os modelos apresentam ganhos de desempenho inconsistentes com simulações visuais, melhorando na maioria das tarefas, mas decaindo em casos específicos, como quebra-cabeças tangram (GPT-4o, o1) e dobramento de redes de cubos (Claude-3.5, Gemini-2.0 Flash), indicando que os modelos podem não saber como aproveitar efetivamente informações visuais intermediárias.
Modelos de linguagem aumentados por busca combinam pesquisa na web com Modelos de Linguagem de Grande Escala (LLMs) para melhorar a fundamentação e atualidade das respostas. No entanto, analisar esses sistemas permanece desafiador: os conjuntos de dados existentes são limitados em escala e restritos em escopo, frequentemente focados em perguntas estáticas, de turno único e de verificação de fatos. Neste trabalho, apresentamos o Search Arena, um conjunto de dados de preferências humanas em larga escala e colaborativo, contendo mais de 24.000 interações multi-turno de usuários com LLMs aumentados por busca. O conjunto de dados abrange diversas intenções e idiomas, e inclui rastreamentos completos do sistema com aproximadamente 12.000 votos de preferência humana. Nossa análise revela que as preferências dos usuários são influenciadas pelo número de citações, mesmo quando o conteúdo citado não apoia diretamente as afirmações atribuídas, expondo uma lacuna entre credibilidade percebida e real. Além disso, as preferências dos usuários variam entre as fontes citadas, mostrando que plataformas comunitárias são geralmente preferidas, enquanto fontes enciclopédicas estáticas nem sempre são apropriadas e confiáveis. Para avaliar o desempenho em diferentes cenários, realizamos análises cruzadas testando LLMs aumentados por busca em um ambiente de chat de propósito geral e LLMs convencionais em cenários intensivos em busca. Descobrimos que a pesquisa na web não degrada e pode até melhorar o desempenho em cenários não relacionados à busca; no entanto, a qualidade em cenários de busca é significativamente afetada se houver dependência exclusiva do conhecimento paramétrico do modelo. Disponibilizamos o conjunto de dados como código aberto para apoiar pesquisas futuras nessa direção. Nosso conjunto de dados e código estão disponíveis em: https://github.com/lmarena/search-arena.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são comumente derivados da extensão de Modelos de Linguagem de Grande Escala (LLMs) pré-treinados com capacidades visuais. Neste trabalho, investigamos como os MLLMs processam entradas visuais através da análise de seus mecanismos de atenção. Revelamos um fenômeno surpreendente de esparsidade: apenas um pequeno subconjunto (aproximadamente menos de 5%) das cabeças de atenção nos LLMs contribui ativamente para o entendimento visual, denominadas cabeças visuais. Para identificar essas cabeças de forma eficiente, projetamos uma estrutura livre de treinamento que quantifica a relevância visual no nível das cabeças por meio de análise de resposta direcionada. Com base nessa descoberta, introduzimos o SparseMM, uma estratégia de otimização de KV-Cache que aloca orçamentos de computação assimétricos para as cabeças nos LLMs com base em suas pontuações visuais, aproveitando a esparsidade das cabeças visuais para acelerar a inferência dos MLLMs. Em comparação com métodos anteriores de aceleração de KV-Cache que ignoram a particularidade do visual, o SparseMM prioriza o estresse e a retenção da semântica visual durante a decodificação. Avaliações extensas em benchmarks multimodais principais demonstram que o SparseMM alcança compensações superiores entre precisão e eficiência. Notavelmente, o SparseMM proporciona uma aceleração em tempo real de 1.38x e uma redução de 52% na memória durante a geração, mantendo a paridade de desempenho no teste de eficiência. Nosso projeto é de código aberto em https://github.com/CR400AF-A/SparseMM.
Treinar modelos de linguagem em dados de sequência longa é uma exigência desafiadora para aprimorar a capacidade do modelo em tarefas complexas, como raciocínio de cadeia longa. No entanto, à medida que o comprimento da sequência aumenta, o custo de memória para armazenar valores de ativação torna-se enorme durante o processo de Retropropagação (BP), mesmo com a aplicação da técnica de checkpoint de gradiente. Para enfrentar esse desafio, propomos um método de BP eficiente em memória e exato chamado StreamBP, que realiza uma decomposição linear da regra da cadeia ao longo da dimensão da sequência de maneira camada por camada, reduzindo significativamente o custo de memória dos valores de ativação e logits. O método proposto é aplicável a objetivos comuns, como SFT, GRPO e DPO. Do ponto de vista de implementação, o StreamBP alcança menos FLOPs computacionais e uma velocidade de BP mais rápida ao aproveitar a estrutura causal do modelo de linguagem. Em comparação com o checkpoint de gradiente, o StreamBP aumenta o comprimento máximo da sequência de BP em 2,8 a 5,5 vezes, enquanto utiliza um tempo de BP comparável ou até menor. Observe que a capacidade de escalonamento de comprimento de sequência do StreamBP pode ser diretamente transferida para o escalonamento do tamanho do lote para acelerar o treinamento. Desenvolvemos ainda um StreamBP distribuído com comunicação eficiente para apoiar efetivamente o treinamento em multi-GPU e ampliar sua aplicabilidade. Nosso código pode ser facilmente integrado ao pipeline de treinamento de qualquer modelo transformer e está disponível em https://github.com/Ledzy/StreamBP.
O surgimento de modelos de linguagem multimodal de grande escala (MLLMs) impulsionou avanços significativos em aplicações de visão egocêntrica. Essas aplicações exigem uma compreensão persistente e contextualizada de objetos, à medida que os usuários interagem com ferramentas em ambientes dinâmicos e desorganizados. No entanto, os benchmarks existentes para sistemas corporificados concentram-se principalmente na exploração de cenas estáticas, enfatizando a aparência e os atributos espaciais dos objetos, enquanto negligenciam a avaliação de mudanças dinâmicas decorrentes das interações dos usuários. Para preencher essa lacuna, apresentamos o EOC-Bench, um benchmark inovador projetado para avaliar sistematicamente a cognição corporificada centrada em objetos em cenários egocêntricos dinâmicos. Especificamente, o EOC-Bench apresenta 3.277 pares de perguntas e respostas meticulosamente anotados, categorizados em três categorias temporais: Passado, Presente e Futuro, abrangendo 11 dimensões de avaliação detalhadas e 3 tipos de referência visual a objetos. Para garantir uma avaliação abrangente, desenvolvemos um framework de anotação híbrido com intervenção humana, contendo quatro tipos de perguntas, e projetamos uma nova métrica de precisão temporal multiescala para avaliação temporal de respostas abertas. Com base no EOC-Bench, realizamos avaliações abrangentes de diversos MLLMs proprietários, de código aberto e em nível de objeto. O EOC-Bench serve como uma ferramenta crucial para avançar as capacidades de cognição corporificada de objetos em MLLMs, estabelecendo uma base robusta para o desenvolvimento de modelos centrais confiáveis para sistemas corporificados.
A produção de mapas de textura é uma parte importante da modelagem 3D e determina a qualidade da renderização. Recentemente, métodos baseados em difusão abriram um novo caminho para a geração de texturas. No entanto, a flexibilidade de controle restrita e as modalidades de prompt limitadas podem impedir que os criadores produzam os resultados desejados. Além disso, inconsistências entre imagens geradas em múltiplas visões frequentemente levam a uma baixa qualidade na geração de texturas. Para resolver esses problemas, apresentamos o FlexPainter, um novo pipeline de geração de texturas que permite orientação condicional flexível e multimodal e alcança uma geração de texturas altamente consistente. Um espaço de incorporação condicional compartilhado é construído para realizar agregação flexível entre diferentes modalidades de entrada. Utilizando esse espaço de incorporação, apresentamos um método CFG baseado em imagem para decompor informações estruturais e de estilo, alcançando estilização baseada em imagem de referência. Aproveitando o conhecimento 3D presente no prior de difusão de imagem, primeiro geramos imagens de múltiplas visões simultaneamente usando uma representação em grade para melhorar a compreensão global. Enquanto isso, propomos um módulo de sincronização de visão e ponderação adaptativa durante a amostragem de difusão para garantir ainda mais a consistência local. Por fim, um modelo de conclusão de textura 3D combinado com um modelo de aprimoramento de textura é usado para gerar mapas de textura sem costuras e de alta resolução. Experimentos abrangentes demonstram que nosso framework supera significativamente os métodos state-of-the-art tanto em flexibilidade quanto em qualidade de geração.
O Chain-of-Thought (CoT) tem amplamente aprimorado o raciocínio matemático em Modelos de Linguagem de Grande Escala (LLMs), mas ainda permanece desafiador estendê-lo para domínios multimodais. Trabalhos existentes ou adotam um raciocínio textual semelhante para entrada de imagens, ou buscam intercalar sinais visuais no CoT matemático. No entanto, eles enfrentam três limitações principais para a resolução de problemas matemáticos: dependência de regiões de imagem em formato de caixa de granularidade grossa, percepção limitada de codificadores visuais em conteúdo matemático e dependência de capacidades externas para modificação visual. Neste artigo, propomos o MINT-CoT, introduzindo Tokens Matemáticos Intercalados para o raciocínio visual Chain-of-Thought. O MINT-CoT intercala adaptativamente tokens visuais relevantes nas etapas de raciocínio textual por meio de um Token de Intercalação, que seleciona dinamicamente regiões visuais de qualquer formato dentro de figuras matemáticas. Para capacitar essa funcionalidade, construímos o conjunto de dados MINT-CoT, contendo 54K problemas matemáticos alinhando cada etapa de raciocínio com regiões visuais no nível do token, acompanhado por um rigoroso pipeline de geração de dados. Apresentamos ainda uma estratégia de treinamento em três estágios para o MINT-CoT, combinando progressivamente o SFT de CoT apenas textual, o SFT de CoT intercalado e o RL de CoT intercalado, o que resulta em nosso modelo MINT-CoT-7B. Experimentos extensivos demonstram a eficácia do nosso método para o raciocínio visual intercalado eficaz em domínios matemáticos, onde o MINT-CoT-7B supera o modelo de linha de base em +34,08% no MathVista, +28,78% no GeoQA e +23,2% no MMStar, respectivamente. Nosso código e dados estão disponíveis em https://github.com/xinyan-cxy/MINT-CoT.
Mapas de profundidade são amplamente utilizados em pipelines de Splatting Gaussiano 3D (3DGS) feed-forward, sendo desprojetados em nuvens de pontos 3D para síntese de novas visões. Essa abordagem oferece vantagens como treinamento eficiente, uso de poses de câmera conhecidas e estimativa precisa de geometria. No entanto, descontinuidades de profundidade nas bordas dos objetos frequentemente resultam em nuvens de pontos fragmentadas ou esparsas, degradando a qualidade de renderização — uma limitação bem conhecida das representações baseadas em profundidade. Para resolver esse problema, introduzimos o PM-Loss, uma nova função de perda de regularização baseada em um mapa de pontos previsto por um transformer pré-treinado. Embora o mapa de pontos em si possa ser menos preciso que o mapa de profundidade, ele efetivamente impõe suavidade geométrica, especialmente ao redor das bordas dos objetos. Com o mapa de profundidade aprimorado, nosso método melhora significativamente o 3DGS feed-forward em várias arquiteturas e cenas, entregando resultados de renderização consistentemente melhores. Nossa página do projeto: https://aim-uofa.github.io/PMLoss.
Atualmente, a abordagem mais dominante para estabelecer o alinhamento entre linguagem e imagem é pré-treinar codificadores de texto e imagem conjuntamente por meio de aprendizado contrastivo, como o CLIP e suas variantes. Neste trabalho, questionamos se um treinamento conjunto tão custoso é realmente necessário. Em particular, investigamos se um modelo de linguagem grande (LLM) pré-treinado e fixo oferece um codificador de texto suficientemente bom para guiar o aprendizado de representações visuais. Ou seja, propomos aprender o alinhamento entre Linguagem e Imagem com um Codificador de Texto Fixo (LIFT) de um LLM, treinando apenas o codificador de imagem. Surpreendentemente, por meio de avaliações abrangentes e estudos de ablação, descobrimos que essa estrutura muito simplificada, o LIFT, é altamente eficaz e supera o CLIP na maioria dos cenários que envolvem compreensão composicional e legendas longas, ao mesmo tempo que alcança ganhos consideráveis em eficiência computacional. Nosso trabalho dá um primeiro passo na exploração sistemática de como embeddings de texto de LLMs podem guiar o aprendizado visual e sugere uma escolha de projeto alternativa para aprender representações visuais alinhadas com a linguagem.
Modelos de geração de imagens autoregressivos (AR) têm ganhado crescente atenção por seus avanços na qualidade de síntese, destacando a necessidade de técnicas robustas de marca d'água para prevenir o uso indevido. No entanto, as técnicas existentes de marca d'água durante a geração são principalmente projetadas para modelos de difusão, onde as marcas d'água são incorporadas nos estados latentes de difusão. Esse design apresenta desafios significativos para a adaptação direta a modelos AR, que geram imagens sequencialmente por meio da previsão de tokens. Além disso, ataques de regeneração baseados em difusão podem efetivamente apagar essas marcas d'água ao perturbar os estados latentes de difusão. Para enfrentar esses desafios, propomos a Marca d'Água por Viés Lexical (LBW), uma nova estrutura projetada para modelos AR que resiste a ataques de regeneração. A LBW incorpora marcas d'água diretamente nos mapas de tokens, ao direcionar a seleção de tokens para uma lista verde predefinida durante a geração. Essa abordagem garante uma integração perfeita com os modelos AR existentes e se estende naturalmente para marcação d'água pós-geração. Para aumentar a segurança contra ataques de caixa branca, em vez de usar uma única lista verde, a lista verde para cada imagem é amostrada aleatoriamente de um conjunto de listas verdes. A detecção da marca d'água é realizada por meio de quantização e análise estatística da distribuição de tokens. Experimentos extensivos demonstram que a LBW alcança uma robustez superior da marca d'água, particularmente na resistência a ataques de regeneração.
A geração e edição de retratos falantes condicionados por áudio, orientados por entradas multimodais, incluindo texto, imagens e vídeos, permanece pouco explorada. Neste artigo, apresentamos o SkyReels-Audio, um framework unificado para sintetizar vídeos de retratos falantes de alta fidelidade e coerência temporal. Construído sobre transformadores de difusão de vídeo pré-treinados, nosso framework suporta geração e edição de comprimento infinito, ao mesmo tempo que permite condicionamento diversificado e controlável por meio de entradas multimodais. Empregamos uma estratégia híbrida de aprendizado curricular para alinhar progressivamente o áudio com o movimento facial, permitindo controle multimodal refinado sobre sequências de vídeo longas. Para melhorar a coerência facial local, introduzimos uma perda de máscara facial e um mecanismo de orientação sem classificador guiado por áudio. Uma abordagem de redução de ruído em janela deslizante funde ainda mais as representações latentes entre segmentos temporais, garantindo fidelidade visual e consistência temporal em durações prolongadas e diversas identidades. Mais importante, construímos um pipeline de dados dedicado para curar triplas de alta qualidade, consistindo de áudio, vídeo e descrições textuais sincronizados. Avaliações abrangentes de benchmark mostram que o SkyReels-Audio alcança desempenho superior em precisão de sincronização labial, consistência de identidade e dinâmicas faciais realistas, especialmente sob condições complexas e desafiadoras.
Este artigo aborda o desafio de reconstruir cenas 3D dinâmicas com movimentos complexos. Alguns trabalhos recentes definem primitivas Gaussianas 3D no espaço canônico e utilizam campos de deformação para mapear essas primitivas canônicas para espaços de observação, alcançando síntese de visão dinâmica em tempo real. No entanto, esses métodos frequentemente enfrentam dificuldades ao lidar com cenas que apresentam movimentos complexos, devido à dificuldade de otimizar os campos de deformação. Para superar esse problema, propomos o FreeTimeGS, uma nova representação 4D que permite que primitivas Gaussianas apareçam em tempos e locais arbitrários. Em contraste com as primitivas Gaussianas canônicas, nossa representação possui uma forte flexibilidade, melhorando assim a capacidade de modelar cenas 3D dinâmicas. Além disso, dotamos cada primitiva Gaussiana com uma função de movimento, permitindo que ela se desloque para regiões vizinhas ao longo do tempo, o que reduz a redundância temporal. Os resultados dos experimentos em diversos conjuntos de dados mostram que a qualidade de renderização do nosso método supera significativamente os métodos recentes.
Repensamos as leis de escalonamento em tempo de teste a partir de uma perspectiva prática de eficiência, revelando que a eficácia de modelos menores é significativamente superestimada. Trabalhos anteriores, baseados na otimização de computação, ignoram gargalos críticos de acesso à memória introduzidos por estratégias de inferência (por exemplo, Best-of-N, CoTs longos). Nossa análise holística, abrangendo modelos de 0,6B a 32B parâmetros, revela uma nova Lei de Escalonamento Cinética que orienta melhor a alocação de recursos ao incorporar tanto os custos de computação quanto de acesso à memória. A Lei de Escalonamento Cinética sugere que a computação em tempo de teste é mais eficaz quando usada em modelos acima de um limite do que em modelos menores. Uma razão fundamental é que, no TTS, a atenção, em vez da contagem de parâmetros, surge como o fator de custo dominante. Motivados por isso, propomos um novo paradigma de escalonamento centrado na atenção esparsa, que reduz o custo por token e permite gerações mais longas e mais amostras paralelas dentro do mesmo orçamento de recursos. Empiricamente, mostramos que modelos de atenção esparsa superam consistentemente suas contrapartes densas, alcançando ganhos de mais de 60 pontos em regimes de baixo custo e mais de 5 pontos em regimes de alto custo para precisão na resolução de problemas no AIME, abrangendo avaliações em MoEs state-of-the-art. Esses resultados sugerem que a atenção esparsa é essencial para realizar todo o potencial do escalonamento em tempo de teste porque, ao contrário do treinamento, onde o escalonamento de parâmetros satura, a precisão em tempo de teste continua a melhorar com o aumento da geração. O código está disponível em https://github.com/Infini-AI-Lab/Kinetics.
A composição geral de objetos (GOC, na sigla em inglês) visa integrar de forma contínua um objeto alvo em uma cena de fundo com propriedades geométricas desejadas, ao mesmo tempo em que preserva seus detalhes de aparência em nível fino. Abordagens recentes derivam embeddings semânticos e os integram em modelos avançados de difusão para permitir gerações editáveis em termos de geometria. No entanto, esses embeddings altamente compactos codificam apenas pistas semânticas de alto nível e, inevitavelmente, descartam detalhes de aparência em nível fino. Introduzimos um modelo de Difusão com Edição de Geometria Desacoplada e Preservação de Aparência (DGAD, na sigla em inglês) que primeiro aproveita embeddings semânticos para capturar implicitamente as transformações geométricas desejadas e, em seguida, emprega um mecanismo de recuperação por atenção cruzada para alinhar características de aparência em nível fino com a representação editada geometricamente, facilitando tanto a edição precisa da geometria quanto a preservação fiel da aparência na composição de objetos. Especificamente, o DGAD se baseia em redes derivadas de CLIP/DINO e redes de referência para extrair embeddings semânticos e representações que preservam a aparência, que são então integradas de forma desacoplada nos pipelines de codificação e decodificação. Primeiro, integramos os embeddings semânticos em modelos de difusão pré-treinados que exibem fortes capacidades de raciocínio espacial para capturar implicitamente a geometria do objeto, facilitando assim a manipulação flexível do objeto e garantindo uma editabilidade eficaz. Em seguida, projetamos um mecanismo de atenção cruzada densa que aproveita a geometria do objeto aprendida implicitamente para recuperar e alinhar espacialmente as características de aparência com suas regiões correspondentes, garantindo uma consistência fiel da aparência. Experimentos extensos em benchmarks públicos demonstram a eficácia do framework DGAD proposto.
Em estudos de aprendizagem transferível, leis de escala são obtidas para vários modelos fundamentais importantes, a fim de prever suas propriedades e desempenho em escalas maiores. Mostramos aqui como a derivação de leis de escala também pode ser usada para comparação de modelos e conjuntos de dados, permitindo decidir qual procedimento é preferível para pré-treinamento. Pela primeira vez, leis de escala completas baseadas em medições densas em uma ampla gama de escalas de modelos e amostras são derivadas para dois importantes procedimentos de aprendizado linguagem-visão, CLIP e MaMMUT, que usam apenas perda contrastiva ou perda contrastiva combinada com geração de legendas. Garantindo precisão de previsão suficiente para pontos retidos, usamos as leis de escala derivadas para comparar ambos os modelos, obtendo evidências de que o MaMMUT apresenta uma melhoria mais forte com o aumento da escala e melhor eficiência de amostragem em comparação com o CLIP padrão. Para fortalecer a validade da comparação, mostramos leis de escala para várias tarefas subsequentes, como classificação, recuperação e segmentação, e para diferentes conjuntos de dados abertos, DataComp, DFN e Re-LAION, observando consistentemente as mesmas tendências. Mostramos que a comparação também pode ser realizada ao derivar leis de escala com um cronograma de taxa de aprendizado constante, reduzindo o custo computacional. A derivação precisa de leis de escala fornece, assim, meios para realizar comparações de modelos e conjuntos de dados em diferentes escalas, evitando conclusões enganosas baseadas apenas em medições de escalas de referência únicas, abrindo caminho para a comparação sistemática e a melhoria de modelos fundamentais abertos e conjuntos de dados para sua criação. Liberamos todos os modelos pré-treinados com seus checkpoints intermediários, incluindo o openMaMMUT-L/14, que alcança 80,3% de precisão zero-shot no ImageNet-1k, treinado em 12,8 bilhões de amostras do DataComp-1.4B. O código para reproduzir os experimentos do artigo e os dados brutos dos experimentos podem ser encontrados em https://github.com/LAION-AI/scaling-laws-for-comparison.
Apresentamos o MedAgentGYM, o primeiro ambiente de treinamento publicamente disponível projetado para aprimorar as capacidades de raciocínio médico baseado em codificação em agentes de modelos de linguagem de grande escala (LLM). O MedAgentGYM compreende 72.413 instâncias de tarefas em 129 categorias derivadas de cenários biomédicos autênticos do mundo real. As tarefas são encapsuladas em ambientes de codificação executáveis, cada um contendo descrições detalhadas das tarefas, mecanismos de feedback interativo, anotações de verdade verificáveis e geração escalável de trajetórias de treinamento. Um extenso benchmarking de mais de 30 LLMs revela uma disparidade significativa de desempenho entre modelos baseados em APIs comerciais e suas contrapartes de código aberto. Utilizando o MedAgentGYM, o Med-Copilot-7B alcança ganhos substanciais de desempenho por meio de ajuste fino supervisionado (+36,44%) e aprendizado por reforço contínuo (+42,47%), emergindo como uma alternativa acessível e que preserva a privacidade, competitiva com o gpt-4. Ao oferecer tanto um benchmark abrangente quanto recursos de treinamento acessíveis e expansíveis em ambientes de execução unificados, o MedAgentGYM fornece uma plataforma integrada para desenvolver assistentes de codificação baseados em LLM para pesquisa e prática biomédica avançada.
A maioria dos codificadores visuais existentes mapeia imagens em uma sequência fixa de tokens, ignorando o fato de que diferentes imagens contêm quantidades variáveis de informação. Por exemplo, uma imagem visualmente complexa (como um quarto desorganizado) carrega naturalmente mais informações e, portanto, merece mais tokens do que uma imagem simples (como uma parede em branco). Para abordar essa ineficiência, propomos o DOVE, um codificador visual dinâmico que produz um número variável de tokens visuais (ou seja, vetores de representação contínua) para reconstruir cada imagem. Nossos resultados mostram que o DOVE reduz significativamente o número médio de tokens enquanto mantém uma alta qualidade de reconstrução. Em várias tarefas de sondagem linear e tarefas multimodais subsequentes, ele supera os métodos de tokenização baseados em autoencoders ao usar muito menos tokens, capturando características semânticas mais expressivas em comparação com a codificação de comprimento fixo. Além disso, estendemos o DOVE com a tokenização condicionada por consultas. Ao orientar o modelo a focar em regiões relevantes para a consulta, ele alcança uma extração semântica mais eficiente e direcionada. Nosso código e checkpoints estão disponíveis em https://dove-encoder.github.io/dove-encoder.
O 3D Gaussian Splatting (3DGS) tem ganhado atenção significativa por sua renderização em tempo real e foto-realista na síntese de novas visões e modelagem 3D. No entanto, os métodos existentes enfrentam dificuldades para modelar com precisão cenas afetadas por objetos transitórios, resultando em artefatos nas imagens renderizadas. Identificamos que o processo de densificação Gaussiana, embora aprimore a captura de detalhes da cena, contribui involuntariamente para esses artefatos ao gerar Gaussians adicionais que modelam distúrbios transitórios. Para resolver isso, propomos o RobustSplat, uma solução robusta baseada em dois designs críticos. Primeiro, introduzimos uma estratégia de crescimento Gaussiano atrasado que prioriza a otimização da estrutura estática da cena antes de permitir a divisão/clonagem de Gaussians, mitigando o sobreajuste a objetos transitórios nas fases iniciais de otimização. Segundo, projetamos uma abordagem de inicialização de máscara em cascata de escala que primeiro aproveita a supervisão de similaridade de características em resolução mais baixa para uma estimativa inicial confiável da máscara transitória, tirando vantagem de sua consistência semântica mais forte e robustez ao ruído, e depois progride para supervisão de alta resolução para alcançar uma previsão de máscara mais precisa. Experimentos extensivos em múltiplos conjuntos de dados desafiadores mostram que nosso método supera os métodos existentes, demonstrando claramente a robustez e eficácia de nossa abordagem. Nossa página do projeto está disponível em https://fcyycf.github.io/RobustSplat/.
À medida que a era dos agentes autônomos tomando decisões em nome dos usuários se desenrola, garantir a integridade contextual (IC) -- ou seja, quais informações são apropriadas para compartilhar ao realizar uma determinada tarefa -- torna-se uma questão central para o campo. Propomos que a IC exige uma forma de raciocínio em que o agente precisa refletir sobre o contexto em que está operando. Para testar isso, primeiro solicitamos que modelos de linguagem de grande escala (LLMs) raciocinem explicitamente sobre a IC ao decidir quais informações divulgar. Em seguida, estendemos essa abordagem desenvolvendo um framework de aprendizado por reforço (RL) que instila ainda mais nos modelos o raciocínio necessário para alcançar a IC. Usando um conjunto de dados sintético, criado automaticamente, com apenas 700 exemplos, mas com contextos diversos e normas de divulgação de informações, mostramos que nosso método reduz substancialmente a divulgação inadequada de informações, mantendo o desempenho da tarefa em vários tamanhos e famílias de modelos. Importante, as melhorias se transferem desse conjunto de dados sintético para benchmarks estabelecidos de IC, como o PrivacyLens, que possui anotações humanas e avalia o vazamento de privacidade de assistentes de IA em ações e chamadas de ferramentas.
Apresentamos o Rectified Point Flow, uma parametrização unificada que formula o registro de nuvens de pontos em pares e a montagem de formas com múltiplas partes como um único problema generativo condicional. Dadas nuvens de pontos não posicionadas, nosso método aprende um campo de velocidade contínuo ponto a ponto que transporta pontos ruidosos em direção às suas posições-alvo, a partir das quais as poses das partes são recuperadas. Em contraste com trabalhos anteriores que regridem poses por parte com tratamento de simetria ad-hoc, nosso método aprende intrinsecamente as simetrias de montagem sem rótulos de simetria. Juntamente com um codificador auto-supervisionado focado em pontos sobrepostos, nosso método alcança um novo estado da arte em seis benchmarks abrangendo registro em pares e montagem de formas. Notavelmente, nossa formulação unificada permite um treinamento conjunto eficaz em diversos conjuntos de dados, facilitando a aprendizagem de priores geométricos compartilhados e, consequentemente, aumentando a precisão. Página do projeto: https://rectified-pointflow.github.io/.
Os sistemas de Geração Aumentada por Recuperação (RAG, na sigla em inglês) frequentemente enfrentam o problema de Conflitos de Conhecimento, onde o conhecimento externo recuperado contradiz o conhecimento paramétrico inerente dos modelos de linguagem de grande escala (LLMs). Isso afeta negativamente o desempenho em tarefas subsequentes, como a resposta a perguntas (QA, na sigla em inglês). As abordagens existentes geralmente tentam mitigar esses conflitos comparando diretamente duas fontes de conhecimento de forma lado a lado, mas isso pode sobrecarregar os LLMs com contextos extensos ou irrelevantes, prejudicando sua capacidade de identificar e resolver inconsistências. Para resolver esse problema, propomos o Micro-Act, um framework com um espaço de ação hierárquico que percebe automaticamente a complexidade do contexto e decompõe adaptativamente cada fonte de conhecimento em uma sequência de comparações refinadas. Essas comparações são representadas como etapas acionáveis, permitindo um raciocínio que vai além do contexto superficial. Por meio de extensos experimentos em cinco conjuntos de dados de referência, o Micro-Act alcança consistentemente um aumento significativo na precisão de QA em relação às abordagens mais avançadas em todos os 5 conjuntos de dados e 3 tipos de conflito, especialmente nos tipos temporais e semânticos, onde todas as abordagens de referência falham significativamente. Mais importante ainda, o Micro-Act demonstra um desempenho robusto em perguntas sem conflito simultaneamente, destacando seu valor prático em aplicações reais de RAG.
A síntese de vídeos médicos dinâmicos de alta qualidade continua sendo um desafio significativo devido à necessidade de modelar tanto a consistência espacial quanto a dinâmica temporal. As abordagens baseadas em Transformers existentes enfrentam limitações críticas, incluindo interações insuficientes entre canais, alta complexidade computacional decorrente do mecanismo de self-attention e orientação de denoising grosseira proveniente de embeddings de timesteps ao lidar com níveis variáveis de ruído. Neste trabalho, propomos o FEAT, um Transformer de atenção eficiente em todas as dimensões, que aborda essas questões por meio de três inovações principais: (1) um paradigma unificado com mecanismos sequenciais de atenção espacial-temporal-canal para capturar dependências globais em todas as dimensões, (2) um design de complexidade linear para mecanismos de atenção em cada dimensão, utilizando atenção ponderada de chave-valor e atenção global de canal, e (3) um módulo de orientação de valor residual que fornece orientação em nível de pixel refinada para se adaptar a diferentes níveis de ruído. Avaliamos o FEAT em benchmarks padrão e tarefas subsequentes, demonstrando que o FEAT-S, com apenas 23\% dos parâmetros do modelo state-of-the-art Endora, alcança desempenho comparável ou até superior. Além disso, o FEAT-L supera todos os métodos de comparação em múltiplos conjuntos de dados, mostrando tanto eficácia superior quanto escalabilidade. O código está disponível em https://github.com/Yaziwel/FEAT.
A edição de materiais de objetos em imagens com base em imagens exemplares é uma área ativa de pesquisa em visão computacional e gráficos. Propomos o MARBLE, um método para realizar a mistura de materiais e recompor propriedades de materiais em nível granular, encontrando embeddings de materiais no espaço CLIP e utilizando-os para controlar modelos pré-treinados de texto para imagem. Melhoramos a edição de materiais baseada em exemplares ao identificar um bloco na UNet de redução de ruído responsável pela atribuição de materiais. Dadas duas imagens exemplares de materiais, encontramos direções no espaço CLIP para misturar os materiais. Além disso, podemos obter controle paramétrico sobre atributos granulares de materiais, como rugosidade, metalicidade, transparência e brilho, utilizando uma rede rasa para prever a direção da mudança desejada no atributo do material. Realizamos análises qualitativas e quantitativas para demonstrar a eficácia do nosso método proposto. Também apresentamos a capacidade do nosso método de realizar múltiplas edições em uma única passagem direta e sua aplicabilidade em pinturas. Página do Projeto: https://marblecontrol.github.io/
A edição de vídeo orientada por texto tem como objetivo modificar o conteúdo de vídeos de acordo com instruções em linguagem natural. Embora abordagens recentes sem necessidade de treinamento tenham avançado ao aproveitar modelos de difusão pré-treinados, elas geralmente dependem de técnicas baseadas em inversão que mapeiam vídeos de entrada para o espaço latente, o que frequentemente resulta em inconsistências temporais e degradação da fidelidade estrutural. Para resolver isso, propomos o FlowDirector, uma nova estrutura de edição de vídeo sem inversão. Nossa estrutura modela o processo de edição como uma evolução direta no espaço de dados, guiando o vídeo por meio de uma Equação Diferencial Ordinária (ODE) para transicionar suavemente ao longo de sua variedade espaço-temporal intrínseca, preservando assim a coerência temporal e os detalhes estruturais. Para alcançar edições localizadas e controláveis, introduzimos um mecanismo de mascaramento guiado por atenção que modula o campo de velocidade da ODE, preservando regiões não-alvo tanto espacial quanto temporalmente. Além disso, para lidar com edições incompletas e melhorar o alinhamento semântico com as instruções de edição, apresentamos uma estratégia de edição aprimorada por guia inspirada no Classifier-Free Guidance, que aproveita sinais diferenciais entre múltiplos fluxos candidatos para direcionar a trajetória de edição em direção a um alinhamento semântico mais forte sem comprometer a consistência estrutural. Experimentos extensivos em benchmarks demonstram que o FlowDirector alcança desempenho de ponta em aderência às instruções, consistência temporal e preservação do fundo, estabelecendo um novo paradigma para edição de vídeo eficiente e coerente sem inversão.
Avanços recentes em modelos de linguagem de pensamento lento (por exemplo, OpenAI-o1 e DeepSeek-R1) demonstraram habilidades notáveis em tarefas de raciocínio complexo ao emular a cognição reflexiva semelhante à humana. No entanto, estender tais capacidades para modelos de linguagem multimodal de grande escala (MLLMs) continua desafiador devido ao alto custo de retreinamento dos alinhamentos visão-linguagem ao atualizar os modelos de raciocínio subjacentes. Uma solução direta é desacoplar a percepção do raciocínio, ou seja, converter entradas visuais em representações de linguagem (por exemplo, legendas) que são então passadas para um poderoso raciocinador baseado apenas em texto. No entanto, esse desacoplamento introduz um desafio crítico: o extrator visual deve gerar descrições que sejam fiéis à imagem e suficientemente informativas para apoiar o raciocínio preciso a jusante. Para resolver isso, propomos o Desacoplamento Perceptual Alinhado ao Raciocínio via Otimização de Recompensa de Legendas (RACRO) - uma estratégia de aprendizado por reforço guiada pelo raciocínio que alinha o comportamento de legendagem do extrator com o objetivo de raciocínio. Ao fechar o ciclo percepção-raciocínio por meio de otimização baseada em recompensa, o RACRO melhora significativamente a fundamentação visual e extrai representações otimizadas para o raciocínio. Experimentos em benchmarks multimodais de matemática e ciências mostram que o método RACRO proposto alcança desempenho médio de ponta, permitindo escalabilidade superior e adaptação plug-and-play para modelos de raciocínio mais avançados sem a necessidade de realinhamento multimodal dispendioso.
Técnicas de marca d'água para modelos de linguagem de grande escala (LLMs) podem impactar significativamente a qualidade da saída, mas seus efeitos sobre veracidade, segurança e utilidade permanecem criticamente subexplorados. Este artigo apresenta uma análise sistemática de como duas abordagens populares de marca d'água — Gumbel e KGW — afetam essas propriedades fundamentais de alinhamento em quatro LLMs alinhados. Nossos experimentos revelam dois padrões distintos de degradação: atenuação de guarda, onde a utilidade aprimorada compromete a segurança do modelo, e amplificação de guarda, onde o excesso de cautela reduz a utilidade do modelo. Esses padrões surgem de mudanças induzidas pela marca d'água na distribuição de tokens, evidenciando a tensão fundamental que existe entre os objetivos de alinhamento. Para mitigar essas degradações, propomos o Reamostragem de Alinhamento (AR), um método de amostragem em tempo de inferência que utiliza um modelo de recompensa externo para restaurar o alinhamento. Estabelecemos um limite inferior teórico para a melhoria na pontuação de recompensa esperada à medida que o tamanho da amostra é aumentado e demonstramos empiricamente que a amostragem de apenas 2-4 gerações com marca d'água recupera ou supera efetivamente as pontuações de alinhamento de linha de base (sem marca d'água). Para superar a diversidade limitada de respostas da marca d'água Gumbel padrão, nossa implementação modificada sacrifica a estrita ausência de distorção enquanto mantém uma detectabilidade robusta, garantindo compatibilidade com o AR. Resultados experimentais confirmam que o AR recupera com sucesso o alinhamento de linha de base em ambas as abordagens de marca d'água, mantendo uma forte detectabilidade da marca d'água. Este trabalho revela o equilíbrio crítico entre a força da marca d'água e o alinhamento do modelo, fornecendo uma solução simples em tempo de inferência para implantar LLMs com marca d'água de forma responsável na prática.
A calibração precisa entre LiDAR e câmera é fundamental para a fusão de percepção multimodal em sistemas de condução autônoma e robóticos. Os métodos tradicionais de calibração exigem coleta extensiva de dados em ambientes controlados e não conseguem compensar as mudanças de transformação durante o movimento do veículo/robô. Neste artigo, propomos o primeiro modelo que utiliza características de visão de cima (BEV) para realizar a calibração LiDAR-câmera a partir de dados brutos, denominado BEVCALIB. Para isso, extraímos separadamente as características BEV da câmera e do LiDAR e as fundimos em um espaço de características BEV compartilhado. Para aproveitar ao máximo as informações geométricas das características BEV, introduzimos um novo seletor de características para filtrar as mais importantes no decodificador de transformação, o que reduz o consumo de memória e permite um treinamento eficiente. Avaliações extensivas nos conjuntos de dados KITTI, NuScenes e nosso próprio conjunto de dados demonstram que o BEVCALIB estabelece um novo estado da arte. Sob várias condições de ruído, o BEVCALIB supera a melhor linha de base da literatura em média (47,08%, 82,32%) no conjunto de dados KITTI e (78,17%, 68,29%) no conjunto de dados NuScenes, em termos de (translação, rotação), respectivamente. No domínio de código aberto, ele melhora a melhor linha de base reproduzível em uma ordem de magnitude. Nosso código e resultados de demonstração estão disponíveis em https://cisl.ucr.edu/BEVCalib.
A geração de Interação Mão-Objeto (HOI) possui um potencial de aplicação significativo. No entanto, as abordagens atuais de geração de movimento 3D HOI dependem fortemente de modelos 3D predefinidos e dados de movimento capturados em laboratório, limitando as capacidades de generalização. Enquanto isso, os métodos de geração de vídeo HOI priorizam a fidelidade visual em nível de pixel, muitas vezes sacrificando a plausibilidade física. Reconhecendo que a aparência visual e os padrões de movimento compartilham leis físicas fundamentais no mundo real, propomos uma nova estrutura que combina prioridades visuais e restrições dinâmicas dentro de um processo de difusão sincronizado para gerar o vídeo e o movimento HOI simultaneamente. Para integrar as semânticas heterogêneas, aparência e características de movimento, nosso método implementa modulação adaptativa tri-modal para alinhamento de características, juntamente com atenção completa 3D para modelar dependências inter e intra-modais. Além disso, introduzimos um modelo de difusão de interação 3D consciente da visão que gera sequências explícitas de interação 3D diretamente a partir das saídas de difusão sincronizadas, então as retroalimenta para estabelecer um ciclo de feedback em loop fechado. Essa arquitetura elimina dependências de modelos de objetos predefinidos ou orientação explícita de pose, enquanto melhora significativamente a consistência vídeo-movimento. Resultados experimentais demonstram a superioridade do nosso método em relação às abordagens state-of-the-art na geração de sequências HOI de alta fidelidade e dinamicamente plausíveis, com capacidades notáveis de generalização em cenários do mundo real não vistos. Página do projeto em https://github.com/Droliven/SViMo\_project.
Prever com precisão grades de ocupação 3D a partir de entradas visuais é crucial para a condução autônoma, mas os métodos discriminativos atuais enfrentam dificuldades com dados ruidosos, observações incompletas e as estruturas complexas inerentes às cenas 3D. Neste trabalho, reformulamos a previsão de ocupação 3D como uma tarefa de modelagem generativa utilizando modelos de difusão, que aprendem a distribuição subjacente dos dados e incorporam prioridades de cenas 3D. Essa abordagem melhora a consistência das previsões, a robustez ao ruído e lida melhor com as complexidades das estruturas espaciais 3D. Nossos experimentos extensivos mostram que os modelos generativos baseados em difusão superam as abordagens discriminativas de ponta, fornecendo previsões de ocupação mais realistas e precisas, especialmente em regiões ocluídas ou de baixa visibilidade. Além disso, as previsões aprimoradas beneficiam significativamente as tarefas de planejamento subsequentes, destacando as vantagens práticas do nosso método para aplicações reais de condução autônoma.
A avaliação automatizada de habilidades esportivas requer a captura de padrões fundamentais de movimento que distinguem o desempenho de especialistas de iniciantes, mas os métodos atuais de amostragem de vídeo interrompem a continuidade temporal essencial para a avaliação de proficiência. Para isso, introduzimos o *Proficiency-Aware Temporal Sampling* (PATS), uma nova estratégia de amostragem que preserva movimentos fundamentais completos dentro de segmentos temporais contínuos para avaliação de habilidades em múltiplas perspectivas. O PATS segmenta vídeos de forma adaptativa para garantir que cada porção analisada contenha a execução completa de componentes críticos de desempenho, repetindo esse processo em vários segmentos para maximizar a cobertura de informações enquanto mantém a coerência temporal. Avaliado no benchmark EgoExo4D com o SkillFormer, o PATS supera a precisão do estado da arte em todas as configurações de visualização (+0,65% a +3,05%) e oferece ganhos substanciais em domínios desafiadores (+26,22% em escalada, +2,39% em música, +1,13% em basquete). Análises sistemáticas revelam que o PATS se adapta com sucesso a diversas características de atividades—desde amostragem de alta frequência para esportes dinâmicos até segmentação refinada para habilidades sequenciais—demonstrando sua eficácia como uma abordagem adaptativa para amostragem temporal que avança a avaliação automatizada de habilidades para aplicações do mundo real.
A interpretação automatizada de imagens de TC - particularmente a localização e descrição de achados anormais em varreduras multiplanares e de corpo inteiro - continua sendo um desafio significativo na radiologia clínica. Este trabalho visa abordar esse desafio por meio de quatro contribuições principais: (i) Na taxonomia, colaboramos com radiologistas seniores para propor um sistema de classificação hierárquica abrangente, com 404 achados anormais representativos em todas as regiões do corpo; (ii) Em relação aos dados, contribuímos com um conjunto de dados contendo mais de 14,5 mil imagens de TC de múltiplos planos e de todas as regiões do corpo humano, e fornecemos meticulosamente anotações de referência para mais de 19 mil anormalidades, cada uma vinculada à descrição detalhada e inserida na taxonomia; (iii) No desenvolvimento de modelos, propomos o OminiAbnorm-CT, que pode automaticamente localizar e descrever achados anormais em imagens de TC multiplanares e de corpo inteiro com base em consultas textuais, além de permitir interação flexível por meio de prompts visuais; (iv) Em termos de benchmarks, estabelecemos três tarefas de avaliação representativas baseadas em cenários clínicos reais. Por meio de extensos experimentos, demonstramos que o OminiAbnorm-CT pode superar significativamente os métodos existentes em todas as tarefas e métricas.
Quão específicas à língua são as representações de fala aprendidas por modelos auto-supervisionados? Trabalhos existentes mostraram que uma variedade de características linguísticas pode ser decodificada com sucesso a partir de modelos end-to-end treinados apenas em gravações de fala. No entanto, ainda não está claro até que ponto o pré-treinamento em línguas específicas melhora a informação linguística específica a cada língua. Aqui, testamos a codificação de informações fonéticas e lexicais do holandês nas representações internas de modelos Wav2Vec2 auto-supervisionados. O pré-treinamento exclusivamente em holandês melhora a representação das características linguísticas do holandês em comparação com o pré-treinamento em quantidades semelhantes de inglês ou em quantidades maiores de dados multilíngues. Essa vantagem específica à língua é bem detectada por sondas de agrupamento ou classificação treinadas e parcialmente observável usando métricas zero-shot. Além disso, o benefício específico à língua na codificação de características linguísticas está alinhado com o desempenho em tarefas de Reconhecimento Automático de Fala.