Artigos de pesquisa em IA selecionados diariamente com traduções
A memória é crucial para agentes de IA, porém a memória estática amplamente adotada, que visa criar memória prontamente disponível antecipadamente, está inevitavelmente sujeita a uma severa perda de informação. Para abordar essa limitação, propomos uma nova estrutura chamada memória agêntica geral (GAM, do inglês *General Agentic Memory*). A GAM segue o princípio de "compilação just-in-time (JIT)", onde se concentra em criar contextos otimizados para seu cliente em tempo de execução, mantendo apenas memória simples, mas útil, durante a etapa offline. Para isso, a GAM emprega um design duplo com os seguintes componentes: 1) *Memorizer*, que destaca informações históricas-chave usando uma memória leve, enquanto mantém informações históricas completas em um armazenamento universal de páginas; 2) *Researcher*, que recupera e integra informações úteis do armazenamento de páginas para sua solicitação online, guiado pela memória pré-construída. Esse design permite que a GAM aproveite efetivamente as capacidades agênticas e a escalabilidade em tempo de teste dos modelos de linguagem de grande escala (LLMs, do inglês *Large Language Models*) de ponta, além de facilitar a otimização de desempenho de ponta a ponta por meio de aprendizado por reforço. Em nosso estudo experimental, demonstramos que a GAM alcança uma melhoria substancial em vários cenários de conclusão de tarefas baseadas em memória em comparação com sistemas de memória existentes.
Os seres humanos adaptam-se naturalmente a ambientes diversos, aprendendo regras subjacentes em mundos com dinâmicas, observações e estruturas de recompensa diferentes. Em contraste, os agentes existentes geralmente demonstram melhorias através da auto-evolução dentro de um único domínio, assumindo implicitamente uma distribuição fixa do ambiente. A aprendizagem transversal a ambientes permaneceu largamente não mensurada: não existe uma coleção padrão de ambientes controláveis e heterogéneos, nem uma forma unificada de representar como os agentes aprendem. Nós abordamos estas lacunas em dois passos. Primeiro, propomos o AutoEnv, um framework automatizado que trata os ambientes como distribuições factorizáveis sobre transições, observações e recompensas, permitindo a geração de baixo custo (4,12 USD em média) de mundos heterogéneos. Utilizando o AutoEnv, construímos o AutoEnv-36, um conjunto de dados com 36 ambientes e 358 níveis validados, nos quais sete modelos de linguagem atingem uma recompensa normalizada de 12-49%, demonstrando o desafio que o AutoEnv-36 representa. Segundo, formalizamos a aprendizagem do agente como um processo centrado em componentes, impulsionado por três fases de Seleção, Otimização e Avaliação aplicadas a um componente do agente que pode ser melhorado. Usando esta formulação, projetamos oito métodos de aprendizagem e avaliamo-los no AutoEnv-36. Empiricamente, o ganho de qualquer método de aprendizagem individual diminui rapidamente à medida que o número de ambientes aumenta, revelando que métodos de aprendizagem fixos não são escaláveis em ambientes heterogéneos. A seleção adaptativa ao ambiente dos métodos de aprendizagem melhora substancialmente o desempenho, mas exibe retornos decrescentes à medida que o espaço de métodos se expande. Estes resultados destacam tanto a necessidade como as atuais limitações da aprendizagem de agentes para uma generalização escalável entre ambientes, e posicionam o AutoEnv e o AutoEnv-36 como uma bancada de testes para estudar a aprendizagem de agentes entre ambientes. O código está disponível em https://github.com/FoundationAgents/AutoEnv.
A difusão de pixels visa gerar imagens diretamente no espaço de pixels de forma ponta a ponta. Esta abordagem evita as limitações do VAE na difusão latente em dois estágios, oferecendo maior capacidade do modelo. Os modelos existentes de difusão de pixels sofrem com treinamento e inferência lentos, pois geralmente modelam sinais de alta frequência e semântica de baixa frequência dentro de um único transformer de difusão (DiT). Para buscar um paradigma de difusão de pixels mais eficiente, propomos a estrutura de difusão de pixels com Desacoplamento de Frequência (DeCo). Com a intuição de desacoplar a geração de componentes de alta e baixa frequência, aproveitamos um decodificador de pixels leve para gerar detalhes de alta frequência condicionados na orientação semântica do DiT. Isso libera o DiT para se especializar na modelagem de semântica de baixa frequência. Além disso, introduzimos uma perda de correspondência de fluxo consciente da frequência que enfatiza frequências visualmente salientes enquanto suprime as insignificantes. Experimentos extensivos mostram que o DeCo alcança desempenho superior entre os modelos de difusão de pixels, obtendo FID de 1,62 (256x256) e 2,22 (512x512) no ImageNet, fechando a lacuna com os métodos de difusão latente. Além disso, nosso modelo pré-treinado de texto para imagem alcança uma pontuação geral líder de 0,86 no GenEval em comparação a nível de sistema. Os códigos estão publicamente disponíveis em https://github.com/Zehong-Ma/DeCo.
Os modelos de pesquisa profunda realizam pesquisas em múltrias etapas para produzir respostas longas e bem fundamentadas. No entanto, a maioria dos modelos abertos de pesquisa profunda é treinada em tarefas de perguntas e respostas (QA) curtas e facilmente verificáveis por meio de aprendizagem por reforço com recompensas verificáveis (RLVR), o que não se estende a tarefas realistas de formato longo. Nós abordamos isso com a Aprendizagem por Reforço com Rúbricas em Evolução (RLER), na qual construímos e mantemos rúbricas que coevoluem com o modelo de política durante o treinamento; isso permite que as rúbricas incorporem informações que o modelo explorou recentemente e forneçam feedback discriminativo e *on-policy*. Usando o RLER, desenvolvemos o Deep Research Tulu (DR Tulu-8B), o primeiro modelo aberto que é treinado diretamente para pesquisa profunda de formato longo e aberto. Em quatro *benchmarks* de pesquisa profunda de formato longo nas áreas de ciência, saúde e domínios gerais, o DR Tulu supera substancialmente os modelos abertos de pesquisa profunda existentes e iguala ou excede sistemas proprietários de pesquisa profunda, sendo significativamente menor e mais barato por consulta. Para facilitar pesquisas futuras, disponibilizamos todos os dados, modelos e código, incluindo nossa nova infraestrutura de agentes baseada em MCP para sistemas de pesquisa profunda.
Os Agentes de Uso de Computador (CUA) estão se tornando cada vez mais capazes de operar ambientes digitais de forma autônoma por meio de Interfaces Gráficas de Utilizador (GUI). No entanto, a maioria das GUIs continua a ser projetada principalmente para humanos - priorizando a estética e a usabilidade - forçando os agentes a adotarem comportamentos orientados para o ser humano que são desnecessários para uma execução eficiente de tarefas. Ao mesmo tempo, os rápidos avanços nos modelos de linguagem orientados para codificação (Coder) transformaram o design automático de GUIs. Isto levanta uma questão fundamental: Podem os CUA atuar como juízes para auxiliar o Coder no design automático de GUIs? Para investigar, apresentamos o AUI-Gym, um *benchmark* para o desenvolvimento automático de GUIs abrangendo 52 aplicações em diversos domínios. Utilizando modelos de linguagem, sintetizamos 1560 tarefas que simulam cenários do mundo real. Para garantir a fiabilidade das tarefas, desenvolvemos ainda um verificador que verifica programaticamente se cada tarefa é executável no seu ambiente. Com base nisto, propomos uma estrutura de Colaboração Coder-CUA: o Coder atua como *Designer*, gerando e revendo websites, enquanto o CUA serve como *Judge*, avaliando a funcionalidade e refinando os designs. O sucesso é medido não pela aparência visual, mas pela capacidade de resolução de tarefas e pela taxa de sucesso de navegação do CUA. Para transformar o *feedback* do CUA em orientação utilizável, concebemos um *Dashboard* do CUA que comprime histórias de navegação de múltiplos passos em resumos visuais concisos, oferecendo orientação interpretável para um redesenho iterativo. Ao posicionar os agentes como *designers* e juízes, a nossa estrutura desloca o design de interface para a eficiência e fiabilidade nativas do agente. O nosso trabalho dá um passo no sentido de mudar os agentes de um uso passivo para uma participação ativa em ambientes digitais. O nosso código e conjunto de dados estão disponíveis em https://github.com/showlab/AUI.
Os transformadores de difusão (DiT) recentemente demonstraram geração robusta de imagens a partir de texto em resoluções próximas a 1K, mas mostramos que estendê-los nativamente para 4K em diversas proporções de aspecto (AR) expõe um modo de falha fortemente acoplado que abrange codificação posicional, compressão VAE e otimização. Abordar qualquer um desses fatores isoladamente deixa uma qualidade substancial sobre a mesa. Adotamos, portanto, uma visão de co-projeto de dados e modelo e introduzimos o UltraFlux, um DiT baseado em Flux treinado nativamente em 4K no MultiAspect-4K-1M, um corpus de 1 milhão de imagens 4K com cobertura multi-AR controlada, legendas bilíngues e metadados ricos de VLM/IQA para amostragem consciente da resolução e AR. No lado do modelo, o UltraFlux acopla (i) RoPE 2D de Ressonância com YaRN para uma codificação posicional em 4K consciente da janela de treinamento, frequência e AR; (ii) um esquema simples e não adversarial de pós-treinamento do VAE que melhora a fidelidade de reconstrução em 4K; (iii) um objetivo SNR-Aware Huber Wavelet que reequilibra os gradientes entre os intervalos de tempo e bandas de frequência; e (iv) uma estratégia de Aprendizado por Currículo Estético em Etapas que concentra a supervisão de alta estética em passos de alto ruído governados pelo *prior* do modelo. Juntos, esses componentes resultam em um DiT 4K estável e que preserva detalhes, generalizando para ARs largos, quadrados e altos. No benchmark Aesthetic-Eval a 4096 e em configurações 4K multi-AR, o UltraFlux supera consistentemente *baselines* de código aberto robustas em métricas de fidelidade, estética e alinhamento, e - com um refinador de prompt baseado em LLM - iguala ou supera o proprietário Seedream 4.0.
A escalada da computação em tempo de teste melhora o desempenho em diversas tarefas em modelos de linguagem grandes (LLMs), o que também foi estendido a agentes aumentados por ferramentas. Para esses agentes, a escalada envolve não apenas "pensar" em tokens, mas também "agir" por meio de chamadas de ferramentas. O número de chamadas de ferramentas limita diretamente a interação do agente com o ambiente externo. No entanto, descobrimos que simplesmente conceder aos agentes um orçamento maior de chamadas de ferramentas não melhora o desempenho, pois eles carecem de "consciência orçamentária" e rapidamente atingem um platô de performance. Para resolver isso, estudamos como escalar tais agentes de forma eficaz sob orçamentos explícitos de chamadas de ferramentas, focando em agentes de pesquisa na web. Primeiro, introduzimos o Rastreador de Orçamento, um *plugin* leve que fornece ao agente uma consciência orçamentária contínua, permitindo uma escalada simples mas eficaz. Desenvolvemos ainda o BATS (*Budget Aware Test-time Scaling*), uma estrutura avançada que aproveita essa consciência para adaptar dinamicamente sua estratégia de planejamento e verificação, decidindo se deve "aprofundar-se" em uma pista promissora ou "mudar de rumo" para novos caminhos com base nos recursos restantes. Para analisar a escalada custo-desempenho de maneira controlada, formalizamos uma métrica de custo unificada que considera conjuntamente o consumo de tokens e de ferramentas. Fornecemos o primeiro estudo sistemático sobre agentes com restrição orçamentária, mostrando que métodos com consciência orçamentária produzem curvas de escalada mais favoráveis e empurram a fronteira de Pareto de custo-desempenho. Nosso trabalho oferece *insights* empíricos para uma compreensão mais transparente e fundamentada da escalada em agentes aumentados por ferramentas.
Os modelos generativos de vídeo em larga escala têm demonstrado recentemente fortes capacidades visuais, permitindo a previsão de quadros futuros que aderem às pistas lógicas e físicas na observação atual. Neste trabalho, investigamos se tais capacidades podem ser aproveitadas para geração controlada de imagem para vídeo, interpretando os sinais visuais incorporados nos quadros como instruções - um paradigma que denominamos Instrução em Vídeo. Em contraste com o controle baseado em prompt, que fornece descrições textuais inerentemente globais e grosseiras, a Instrução em Vídeo codifica a orientação do usuário diretamente no domínio visual por meio de elementos como texto sobreposto, setas ou trajetórias. Isso permite correspondências explícitas, espacialmente conscientes e inequívocas entre os sujeitos visuais e suas ações pretendidas, atribuindo instruções distintas a diferentes objetos. Experimentos extensos em três geradores de última geração, incluindo Veo 3.1, Kling 2.5 e Wan 2.2, mostram que os modelos de vídeo podem interpretar e executar de forma confiável tais instruções visualmente incorporadas, particularmente em cenários complexos com múltiplos objetos.
Os modelos visão-linguagem (VLMs) destacam-se no raciocínio no espaço linguístico, mas enfrentam dificuldades na compreensão perceptual que requer percepção visual densa, por exemplo, raciocínio espacial e consciência geométrica. Esta limitação decorre do fato de que os VLMs atuais possuem mecanismos limitados para capturar informações visuais densas através das dimensões espaciais. Apresentamos a Cadeia-de-Pensamento-Visual (COVT), uma estrutura que permite aos VLMs raciocinar não apenas em palavras, mas também através de tokens visuais contínuos - representações latentes compactas que codificam pistas perceptuais ricas. Dentro de um orçamento reduzido de aproximadamente 20 tokens, a COVT destila conhecimento de especialistas visuais leves, capturando propriedades complementares como aparência 2D, geometria 3D, layout espacial e estrutura de bordas. Durante o treinamento, o VLM com COVT prevê autoregressivamente esses tokens visuais para reconstruir sinais de supervisão densa (por exemplo, profundidade, segmentação, bordas e características DINO). Na inferência, o modelo raciocina diretamente no espaço contínuo de tokens visuais, preservando a eficiência enquanto opcionalmente decodifica previsões densas para interpretabilidade. Avaliado em mais de dez benchmarks de percepção diversos, incluindo CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA e HRBench, a integração da COVT em VLMs robustos como Qwen2.5-VL e LLaVA melhora consistentemente o desempenho em 3% a 16% e demonstra que o pensamento visual contínuo e compacto permite uma inteligência multimodal mais precisa, fundamentada e interpretável.
Apresentamos o HunyuanVideo 1.5, um modelo de geração de vídeo de código aberto, leve e poderoso, que atinge qualidade visual e coerência de movimento de última geração com apenas 8,3 mil milhões de parâmetros, permitindo inferência eficiente em GPUs de nível consumidor. Esta conquista é baseada em vários componentes-chave, incluindo uma curadoria meticulosa de dados, uma arquitetura DiT avançada com atenção seletiva e deslizante por blocos (SSTA), compreensão bilíngue aprimorada por meio de codificação de texto consciente de glifos, pré-treinamento e pós-treinamento progressivos, e uma rede eficiente de super-resolução de vídeo. Aproveitando estes projetos, desenvolvemos uma estrutura unificada capaz de gerar vídeos de alta qualidade a partir de texto e a partir de imagem em várias durações e resoluções. Experiências extensivas demonstram que este modelo compacto e proficiente estabelece um novo estado da arte entre os modelos de geração de vídeo de código aberto. Ao disponibilizar o código e os pesos do modelo, fornecemos à comunidade uma base de alto desempenho que reduz a barreira para a criação e investigação de vídeo, tornando a geração avançada de vídeo acessível a um público mais amplo. Todos os recursos de código aberto estão publicamente disponíveis em https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
Uma função de recompensa confiável é essencial para o aprendizado por reforço (RL) na geração de imagens. A maioria das abordagens de RL atuais depende de modelos de preferência pré-treinados que produzem recompensas escalares para aproximar as preferências humanas. No entanto, essas recompensas frequentemente falham em capturar a percepção humana e são vulneráveis a *reward hacking*, onde pontuações mais altas não correspondem a imagens melhores. Para resolver isso, introduzimos o Adv-GRPO, uma estrutura de RL com uma recompensa adversarial que atualiza iterativamente tanto o modelo de recompensa quanto o gerador. O modelo de recompensa é supervisionado usando imagens de referência como amostras positivas e pode evitar em grande parte ser hackeado. Diferente da regularização KL que restringe atualizações de parâmetros, nossa recompensa aprendida guia diretamente o gerador através de suas saídas visuais, resultando em imagens de maior qualidade. Além disso, embora otimizar funções de recompensa existentes possa aliviar o *reward hacking*, seus vieses inerentes permanecem. Por exemplo, o PickScore pode degradar a qualidade da imagem, enquanto recompensas baseadas em OCR frequentemente reduzem a fidelidade estética. Para resolver isso, tomamos a própria imagem como uma recompensa, usando imagens de referência e modelos de base de visão (por exemplo, DINO) para fornecer recompensas visuais ricas. Esses sinais visuais densos, em vez de um único escalar, levam a ganhos consistentes em qualidade de imagem, estética e métricas específicas da tarefa. Finalmente, mostramos que combinar amostras de referência com recompensas de modelos de base permite transferência de distribuição e personalização de estilo flexível. Na avaliação humana, nosso método supera o Flow-GRPO e o SD3, alcançando taxas de vitória de 70,0% e 72,4% em qualidade de imagem e estética, respectivamente. Códigos e modelos foram disponibilizados.
A radiologia desempenha um papel integral na medicina moderna, porém o aumento dos volumes de imagem superou em muito o crescimento da força de trabalho. Os modelos de base oferecem um caminho para auxiliar em todo o espectro de tarefas radiológicas, mas os modelos médicos existentes permanecem limitados: eles processam tomografias computadorizadas e ressonâncias magnéticas volumétricas como fatias 2D de baixa fidelidade, descartam informações críticas de contraste em tons de cinza e carecem de estruturas de avaliação que reflitam a prática clínica real. Apresentamos o Pillar-0, um modelo de base para radiologia pré-treinado em 42.990 TC de abdômen-pélvis, 86.411 TC de tórax, 14.348 TC de crânio e 11.543 RM de mama de um grande centro acadêmico, juntamente com o RATE, uma estrutura escalável que extrai rótulos estruturados para 366 achados radiológicos com precisão quase perfeita usando LLMs. Em conjuntos de teste internos de 14.230 TC de abdômen-pélvis, 10.646 TC de tórax, 4.906 TC de crânio e 1.585 RM de mama, o Pillar-0 estabelece uma nova fronteira de desempenho, alcançando AUROCs médios de 86,4, 88,0, 90,1 e 82,9, superando o MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) e Merlin (Stanford) por 7,8-15,8 pontos de AUROC e classificando-se como o melhor em 87,2% (319/366) das tarefas. O Pillar-0 supera igualmente todas as baselines numa validação externa no conjunto de dados Stanford Abdominal CT, incluindo o Merlin (82,2 vs 80,6 AUROC). O Pillar-0 estende-se a tarefas além do seu pré-treinamento, como a previsão de risco de cancro do pulmão de longo horizonte, onde melhora o estado da arte Sybil em 3,0 pontos de índice C no NLST, e generaliza com ganhos de 5,9 (MGH) e 1,9 (CGMH). Na deteção de hemorragia cerebral, o Pillar-0 obteve um AUROC >95 utilizando apenas 1/20 dos dados da próxima baseline mais eficiente em termos de amostras. O Pillar-0 e o RATE, em conjunto, fornecem uma base aberta e clinicamente rigorosa para a construção de sistemas de radiologia de alto desempenho, permitindo aplicações que anteriormente eram inviáveis devido a restrições computacionais, de dados e de avaliação.
Os sistemas multiagente apresentam bom desempenho em tarefas gerais de raciocínio. No entanto, a falta de treinamento em áreas especializadas prejudica sua precisão. Os métodos atuais de treinamento utilizam um único modelo de linguagem grande (LLM) unificado para todos os agentes do sistema. Esta abordagem pode limitar o desempenho devido às diferentes distribuições subjacentes a cada agente. Portanto, o próximo passo é treinar sistemas multiagente com LLMs distintos. Contudo, este método introduz desafios de otimização. Por exemplo, os agentes operam em frequências diferentes, as execuções envolvem invocações variáveis de subagentes, e os agentes são frequentemente implantados em servidores separados, interrompendo o fluxo de gradientes de ponta a ponta. Para resolver estas questões, propomos o M-GRPO, uma extensão hierárquica do Group Relative Policy Optimization projetada para sistemas multiagente verticais com um agente principal (planejador) e múltiplos subagentes (executores de ferramentas multi-turn). O M-GRPO calcula vantagens relativas de grupo para agentes principais e subagentes, mantendo uma atribuição de crédito hierárquica. Também introduz um esquema de alinhamento de trajectórias que gera lotes de tamanho fixo apesar das invocações variáveis de subagentes. Implementamos um *pipeline* de treinamento desacoplado no qual os agentes são executados em servidores separados e trocam estatísticas mínimas através de um repositório compartilhado. Isto permite um treinamento escalável sem retropropagação entre servidores. Em experiências com benchmarks do mundo real (por exemplo, GAIA, XBench-DeepSearch e WebWalkerQA), o M-GRPO supera consistentemente tanto o GRPO de agente único como o GRPO multiagente com subagentes congelados, demonstrando melhor estabilidade e eficiência amostral. Estes resultados mostram que alinhar trajectórias heterogéneas e desacoplar a otimização entre agentes especializados melhora tarefas de raciocínio aumentadas por ferramentas.
Os Transformers de Difusão demonstraram capacidades notáveis em síntese visual, mas frequentemente lutam com raciocínio semântico de alto nível e planejamento de longo horizonte. Esta limitação frequentemente leva a alucinações visuais e desalinhamentos com as instruções do utilizador, especialmente em cenários envolvendo compreensão complexa de cenas, interações humano-objeto, ações multiestágio e raciocínio de movimento em contexto. Para enfrentar estes desafios, propomos o Plan-X, uma estrutura que aplica explicitamente planeamento semântico de alto nível para instruir o processo de geração de vídeo. No seu núcleo encontra-se um Planeador Semântico, um modelo de linguagem multimodal treinável que raciocina sobre a intenção do utilizador a partir de prompts de texto e contexto visual, e gera autoregressivamente uma sequência de tokens semânticos espaço-temporais ancorados em texto. Estes tokens semânticos, complementares à orientação de alto nível do prompt de texto, servem como "esboços semânticos" estruturados ao longo do tempo para o modelo de difusão de vídeo, que tem a sua força na síntese de detalhes visuais de alta fidelidade. O Plan-X integra efetivamente a força dos modelos de linguagem no raciocínio e planeamento multimodal em contexto, juntamente com a força dos modelos de difusão na síntese de vídeo fotorrealista. Experimentos extensivos demonstram que a nossa estrutura reduz substancialmente as alucinações visuais e permite uma geração de vídeo refinada e alinhada com instruções, consistente com o contexto multimodal.
Apresentamos o M³-Bench, o primeiro benchmark para avaliação do uso de ferramentas multimodais sob o Model Context Protocol. O benchmark tem como alvo fluxos de trabalho realistas, multi-etapa e multi-threaded que exigem ancoragem visual e raciocínio textual, dependências entre ferramentas e persistência de recursos intermediários ao longo das etapas. Introduzimos um alinhamento baseado em similaridade que serializa cada chamada de ferramenta, incorpora assinaturas com um codificador de frases e realiza um emparelhamento húngaro com agrupamento por similaridade para obter correspondências um-para-um auditáveis. Com base neste alinhamento, relatamos métricas interpretáveis que desacoplam a fidelidade semântica da consistência do fluxo de trabalho. O benchmark abrange 28 servidores com 231 ferramentas e fornece trajetórias padronizadas curadas por meio de um pipeline Executor & Judge com verificação humana; um conjunto auxiliar de quatro juízes baseados em grandes modelos de linguagem (LLMs) reporta a Conclusão da Tarefa e a ancoragem de informação na tarefa final. Avaliações de modelos de linguagem multimodal (MLLMs) representativos do estado da arte revelam lacunas persistentes no uso de ferramentas MCP multimodais, particularmente na fidelidade dos argumentos e na consistência estrutural, destacando a necessidade de métodos que raciocinem conjuntamente sobre imagens, texto e grafos de ferramentas. O repositório anónimo do nosso Benchmark está em https://github.com/EtaYang10th/Open-M3-Bench.
Apresentamos o One4D, uma estrutura unificada para geração e reconstrução 4D que produz conteúdo 4D dinâmico na forma de frames RGB e mapas de pontos sincronizados. Ao processar de forma consistente as diferentes esparsidades dos frames de condicionamento por meio de um mecanismo de Condicionamento Mascarado Unificado (UMC), o One4D pode transitar perfeitamente entre a geração 4D a partir de uma única imagem, a reconstrução 4D a partir de um vídeo completo e a geração e reconstrução mista a partir de frames esparsos. Nossa estrutura adapta um poderoso modelo de geração de vídeo para a geração conjunta de RGB e mapas de pontos, com arquiteturas de rede cuidadosamente projetadas. As estratégias de *finetuning* por difusão comumente usadas para reconstrução de mapas de profundidade ou de pontos frequentemente falham na geração conjunta de RGB e mapas de pontos, degradando rapidamente o modelo de vídeo base. Para enfrentar este desafio, introduzimos o Controle LoRA Desacoplado (DLC), que emprega dois adaptadores LoRA específicos por modalidade para formar ramos de computação desacoplados para frames RGB e mapas de pontos, conectados por links de controle leves e inicializados com zero que aprendem gradualmente a consistência mútua a nível de pixel. Treinado com uma mistura de conjuntos de dados 4D sintéticos e reais sob orçamentos computacionais modestos, o One4D produz frames RGB de alta qualidade e mapas de pontos precisos em ambas as tarefas de geração e reconstrução. Este trabalho representa um passo em direção à modelagem geral e de alta qualidade do mundo 4D baseada em geometria usando modelos de difusão de vídeo. Página do projeto: https://mizhenxing.github.io/One4D
A resposta a perguntas de múltipla escolha (MCQA) tem sido um formato popular para avaliar e fazer fine-tuning de reforço (RFT) de modelos modernos de linguagem multimodal. O seu formato de saída restrito permite uma verificação automática simplificada e determinística. No entanto, descobrimos que as opções podem revelar sinais exploráveis, o que torna as métricas de precisão pouco confiáveis para indicar capacidades reais e incentiva comportamentos de adivinhação de respostas, explícitos ou implícitos, durante o RFT. Propomos o ReVeL (Reescrever e Verificar por LLM), uma estrutura que reformula perguntas de múltipla escolha em perguntas de formato aberto, mantendo as respostas verificáveis sempre que possível. A estrutura categoriza as perguntas de acordo com diferentes tipos de resposta e aplica esquemas de reformulação e verificação diferentes, respetivamente. Quando aplicado para RFT, convertemos 20 mil exemplos MCQA e usamos GRPO para fazer o fine-tuning dos modelos Qwen2.5-VL. Os modelos treinados com ReVeL-OpenQA igualam a precisão MCQA em benchmarks de múltipla escolha e melhoram a precisão OpenQA em cerca de seis pontos percentuais, indicando melhor eficiência de dados e sinais de recompensa mais robustos do que o treino baseado em MCQA. Quando usado para avaliação, o ReVeL também revela até 20 pontos percentuais de inflação de pontuação nos benchmarks MCQA (em relação ao OpenQA), melhora a precisão da avaliação e reduz tanto o custo como a latência. Disponibilizaremos publicamente o código e os dados.
Embora a qualidade dos dados da web seja crucial para grandes modelos de linguagem, a maioria dos esforços de curadoria concentra-se na filtragem e desduplicação, tratando a extração de HTML para texto como uma etapa de pré-processamento fixa. Os corpora da web existentes dependem de extratores baseados em heurística, como o Trafilatura, que lutam para preservar a estrutura do documento e frequentemente corrompem elementos estruturados, como fórmulas, códigos e tabelas. Nossa hipótese é que melhorar a qualidade da extração pode ser tão impactante quanto estratégias agressivas de filtragem para o desempenho downstream. Apresentamos o MinerU-HTML, um novo *pipeline* de extração que reformula a extração de conteúdo como um problema de rotulagem de sequência resolvido por um modelo de linguagem de 0,6 bilhão de parâmetros. Diferente das heurísticas de densidade de texto, o MinerU-HTML aproveita a compreensão semântica e emprega um *pipeline* de formatação em dois estágios que categoriza explicitamente elementos semânticos antes de converter para Markdown. Crucialmente, sua abordagem baseada em modelo é inerentemente escalável, enquanto os métodos heurísticos oferecem caminhos de melhoria limitados. No MainWebBench, nosso *benchmark* de 7.887 páginas web anotadas, o MinerU-HTML alcança 81,8\% de F1 ROUGE-N em comparação com 63,6\% do Trafilatura, com preservação excepcional de elementos estruturados (90,9\% para blocos de código, 94,0\% para fórmulas). Usando o MinerU-HTML, construímos o AICC (*AI-ready Common Crawl*), um corpus multilíngue de 7,3 trilhões de *tokens* proveniente de dois *snapshots* do *Common Crawl*. Em experimentos controlados de pré-treinamento, onde o AICC e o TfCC (extraído com Trafilatura) passam pela mesma filtragem, os modelos treinados no AICC (62 bilhões de *tokens*) alcançam 50,8\% de precisão média em 13 *benchmarks*, superando o TfCC em 1,08 pontos percentuais - fornecendo evidência direta de que a qualidade da extração impacta significativamente as capacidades do modelo. O AICC também supera o RefinedWeb e o FineWeb em *benchmarks* chave. Disponibilizamos publicamente o MainWebBench, o MinerU-HTML e o AICC, demonstrando que a extração de HTML é um componente crítico e frequentemente subestimado da construção de corpora da web.
Propomos uma abordagem totalmente baseada em dados para projetar estimadores de informação mútua (IM). Uma vez que qualquer estimador de IM é uma função da amostra observada de duas variáveis aleatórias, parametrizamos essa função com uma rede neural (MIST) e a treinamos de forma integral para prever valores de IM. O treinamento é realizado em um grande metaconjunto de dados de 625.000 distribuições conjuntas sintéticas com IM de valor real conhecido. Para lidar com tamanhos de amostra e dimensões variáveis, empregamos um esquema de atenção bidimensional que garante invariância a permutações entre as amostras de entrada. Para quantificar a incerteza, otimizamos uma função de perda de regressão quantílica, permitindo que o estimador aproxime a distribuição amostral da IM em vez de retornar uma única estimativa pontual. Este programa de pesquisa difere de trabalhos anteriores ao seguir uma rota totalmente empírica, trocando garantias teóricas universais por flexibilidade e eficiência. Empiricamente, os estimadores aprendidos superam amplamente as baselines clássicas em diversos tamanhos de amostra e dimensões, inclusive em distribuições conjuntas não vistas durante o treinamento. Os intervalos baseados em quantis resultantes são bem calibrados e mais confiáveis do que intervalos de confiança baseados em bootstrap, enquanto a inferência é ordens de magnitude mais rápida do que as baselines neurais existentes. Além dos ganhos empíricos imediatos, esta estrutura produz estimadores treináveis e totalmente diferenciáveis que podem ser incorporados em pipelines de aprendizado maiores. Além disso, explorando a invariância da IM a transformações invertíveis, os metaconjuntos de dados podem ser adaptados a modalidades de dados arbitrárias por meio de fluxos de normalização (normalizing flows), permitindo treinamento flexível para diversas metadistribuições-alvo.
Este trabalho apresenta a Decomposição Controlável de Camadas (CLD), um método para alcançar uma separação multicamada de imagens raster com granularidade fina e controlável. Em fluxos de trabalho práticos, os designers geralmente geram e editam cada camada RGBA de forma independente antes de compô-las numa imagem raster final. No entanto, este processo é irreversível: uma vez compostas, a edição a nível de camada já não é possível. Os métodos existentes baseiam-se comummente em *matting* e preenchimento de imagens, mas permanecem limitados em termos de controlabilidade e precisão de segmentação. Para enfrentar estes desafios, propomos dois módulos-chave: o LayerDecompose-DiT (LD-DiT), que desacopla elementos da imagem em camadas distintas e permite um controlo de granularidade fina; e o Adaptador Condicional Multicamada (MLCA), que injeta informação da imagem alvo em *tokens* multicamada para alcançar uma geração condicional precisa. Para permitir uma avaliação abrangente, construímos um novo *benchmark* e introduzimos métricas de avaliação personalizadas. Os resultados experimentais mostram que o CLD supera consistentemente os métodos existentes, tanto na qualidade de decomposição como na controlabilidade. Adicionalmente, as camadas separadas produzidas pelo CLD podem ser manipuladas diretamente em ferramentas de design comumente utilizadas, como o PowerPoint, destacando o seu valor prático e aplicabilidade em fluxos de trabalho criativos do mundo real.
A busca de informação é uma capacidade fundamental para agentes de IA, exigindo que eles recolham e raciocinem sobre informações geradas por ferramentas ao longo de longas trajetórias. No entanto, estas tarefas de busca de informação em múltiplas etapas continuam a ser um desafio para agentes baseados em modelos de linguagem. Embora os modelos de recompensa de processo (PRMs) possam orientar os agentes classificando etapas candidatas durante o teste, os PRMs existentes, concebidos para raciocínio curto com julgamento binário, não conseguem captar dimensões mais ricas das etapas de busca de informação, como interações com ferramentas e raciocínio sobre os seus resultados, nem lidar com o contexto em rápido crescimento nas tarefas de longo horizonte. Para superar estas limitações, introduzimos o PRInTS, um PRM generativo treinado com capacidades duplas: (1) pontuação densa baseada no raciocínio do PRM através de múltiplas dimensões de qualidade da etapa (ex.: interpretação de resultados de ferramentas, informatividade da chamada à ferramenta) e (2) sumarização de trajetória que comprime o contexto crescente, preservando ao mesmo tempo a informação essencial para a avaliação da etapa. Avaliações extensivas nos benchmarks FRAMES, GAIA (níveis 1-3) e WebWalkerQA (fácil-difícil) em múltiplos modelos, juntamente com ablações, revelam que a amostragem best-of-n com o PRInTS melhora as capacidades de busca de informação de modelos de código aberto, bem como de agentes especializados, equiparando ou superando o desempenho de modelos de fronteira com um agente base muito menor e superando outras linhas de base fortes de modelação de recompensa.
Apresentamos o Upsample Anything, um framework leve de otimização em tempo de teste (TTO) que restaura características de baixa resolução para saídas de alta resolução a nível de pixel, sem qualquer treinamento. Embora os Modelos de Base de Visão demonstrem forte generalização em diversas tarefas subsequentes, as suas representações são tipicamente reduzidas por um fator de 14x/16x (ex.: ViT), o que limita o seu uso direto em aplicações a nível de pixel. As abordagens existentes de *upsampling* de características dependem de retreinamento específico por conjunto de dados ou de uma pesada otimização implícita, restringindo a escalabilidade e a generalização. O Upsample Anything resolve estas questões através de uma simples otimização por imagem que aprende um núcleo Gaussiano anisotrópico que combina pistas espaciais e de alcance, ligando eficazmente o *Gaussian Splatting* e o *Joint Bilateral Upsampling*. O núcleo aprendido atua como um operador universal e consciente de bordas que se transfere perfeitamente entre arquiteturas e modalidades, permitindo uma reconstrução precisa de alta resolução de características, profundidade ou mapas de probabilidade. Executa em apenas aproximadamente 0,419 s por imagem de 224x224 e alcança um desempenho de ponta em segmentação semântica, estimativa de profundidade e *upsampling* de mapas de profundidade e de probabilidade. Página do projeto: https://seominseok0429.github.io/Upsample-Anything/
Os Modelos de Linguagem Visual (VLMs) apresentam bom desempenho em tarefas padrão de vídeo, mas lutam com raciocínios baseados em física que envolvem dinâmicas de movimento e interações espaciais. Esta limitação reduz a sua capacidade de interpretar vídeos de conteúdo real ou gerado por IA (AIGC) e de gerar conteúdos fisicamente consistentes. Apresentamos uma abordagem que resolve esta lacuna traduzindo pistas de contexto do mundo físico em representações interpretáveis alinhadas com a perceção, compreensão e raciocínio dos VLMs. Introduzimos o MASS-Bench, um benchmark abrangente constituído por 4.350 vídeos do mundo real e AIGC e 8.361 pares de perguntas e respostas de vídeo de formato livre, focados em tarefas de compreensão relacionadas com física, com anotações detalhadas incluindo deteções visuais, ancoragem de sub-segmentos e rastreamento de movimento 3D de entidades para sequências completas. Apresentamos ainda o MASS, um método agnóstico ao modelo que injeta sinais espaço-temporais no espaço linguístico do VLM através de codificação 3D baseada em profundidade e ancoragem visual, aliado a um rastreador de movimento para dinâmicas de objetos. Para reforçar o alinhamento e raciocínio multimodal, aplicamos *fine-tuning* por reforço. Experiências e *ablations* mostram que os nossos VLMs refinados superam *baselines* comparáveis e maiores, bem como modelos anteriores do estado da arte, em 8,7% e 6,0%, alcançando um desempenho comparável a VLMs SoTA de código fechado, como o Gemini-2.5-Flash, em raciocínio e compreensão de física. Estes resultados validam a eficácia da nossa abordagem.
A manipulação robótica de longo horizonte continua a ser um desafio para os modelos Visão-Linguagem-Ação (VLA), apesar dos progressos recentes na generalização de *zero-shot* e na transferência do mundo simulado para o real. Os atuais modelos VLA padecem de alucinação de estágios, na qual os agentes exploram sinais de avaliação grosseiros para criar atalhos em tarefas de múltiplas etapas, reportando alto progresso sem as concluir verdadeiramente. Apresentamos o EvoVLA, uma estrutura VLA auto supervisionada que resolve esta questão através de três componentes complementares: a Recompensa Alinhada por Estágios (SAR), que usa aprendizagem contrastiva tripla com *hard negatives* gerados pelo Gemini para evitar atalhos visuais; a Exploração de Objetos Baseada em Pose (POE), que ancora a curiosidade na pose relativa objeto-garra em vez de *pixels* brutos; e a Memória de Longo Horizonte, que usa retenção seletiva de contexto e fusão controlada para estabilizar o *shaping* intrínseco durante execuções prolongadas. Avaliações extensivas no Discoverse-L, um *benchmark* de manipulação de longo horizonte com três tarefas multiestágio, mostram que o EvoVLA melhora o sucesso médio das tarefas em 10,2 pontos percentuais em relação à linha de base mais forte (OpenVLA-OFT), atingindo 69,2 por cento. O EvoVLA também atinge uma eficiência amostral uma vez e meia melhor e reduz a alucinação de estágios de 38,5 por cento para 14,8 por cento. A implantação no mundo real em robôs físicos atinge uma taxa média de sucesso de 54,6 por cento em quatro tarefas de manipulação, superando o OpenVLA-OFT em 11 pontos, demonstrando uma transferência simulado-real eficaz e uma forte generalização. Código: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.
Os modelos de fluxo mais avançados alcançam qualidade notável, mas exigem uma amostragem iterativa e lenta. Para acelerar este processo, mapas de fluxo podem ser destilados de professores pré-treinados, um procedimento que convencionalmente requer a amostragem de um conjunto de dados externo. Argumentamos que esta dependência de dados introduz um risco fundamental de Incompatibilidade Professor-Dados, uma vez que um conjunto de dados estático pode fornecer uma representação incompleta ou mesmo desalinhada das capacidades generativas completas do professor. Isto leva-nos a questionar se esta dependência de dados é verdadeiramente necessária para uma destilação bem-sucedida de mapas de fluxo. Neste trabalho, exploramos uma alternativa livre de dados que amostra apenas a partir da distribuição anterior, uma distribuição que o professor, por construção, garante seguir, contornando assim completamente o risco de incompatibilidade. Para demonstrar a viabilidade prática desta filosofia, introduzimos um framework fundamentado que aprende a prever o caminho de amostragem do professor enquanto corrige ativamente os seus próprios erros compostos para garantir alta fidelidade. A nossa abordagem supera todas as contrapartes baseadas em dados e estabelece um novo estado da arte por uma margem significativa. Especificamente, ao destilar a partir do SiT-XL/2+REPA, o nosso método atinge um FID impressionante de 1.45 no ImageNet 256x256 e 1.49 no ImageNet 512x512, ambos com apenas 1 passo de amostragem. Esperamos que o nosso trabalho estabeleça um paradigma mais robusto para acelerar modelos generativos e motive a adoção mais ampla da destilação de mapas de fluxo sem dados.
Embora os modelos mundiais recentes gerem vídeos altamente realistas, sua capacidade de realizar planejamento de trajetória robótica permanece pouco clara e não quantificada. Apresentamos o Target-Bench, o primeiro benchmark especificamente concebido para avaliar modelos mundiais no planejamento de trajetória sem mapa em direção a alvos semânticos em ambientes do mundo real. O Target-Bench fornece 450 sequências de vídeo coletadas por robôs, abrangendo 45 categorias semânticas, com trajetórias de referência baseadas em SLAM. Nossa pipeline de avaliação recupera o movimento da câmera a partir dos vídeos gerados e mede o desempenho do planejamento usando cinco métricas complementares que quantificam a capacidade de alcançar o alvo, a precisão da trajetória e a consistência direcional. Avaliamos modelos state-of-the-art, incluindo Sora 2, Veo 3.1 e a série Wan. O melhor modelo comercial disponível (Wan2.2-Flash) atinge apenas uma pontuação geral de 0,299, revelando limitações significativas nos modelos mundiais atuais para tarefas de planejamento robótico. Demonstramos que o fine-tuning de um modelo de código aberto com 5B de parâmetros em apenas 325 cenários do nosso conjunto de dados atinge uma pontuação geral de 0,345 — uma melhoria de mais de 400% em relação à sua versão base (0,066) e 15% superior ao melhor modelo comercial. O código e o conjunto de dados serão disponibilizados como open-source.
A fidelidade da explicação, que mede a precisão com que uma explicação reflete o raciocínio verdadeiro de um modelo, permanece criticamente pouco explorada nos sistemas de recomendação. Apresentamos o SPINRec (Integração de Trajetória Estocástica para Explicações de Recomendadores Neurais), uma abordagem agnóstica ao modelo que adapta técnicas de integração de trajetória à natureza esparsa e implícita dos dados de recomendação. Para superar as limitações dos métodos anteriores, o SPINRec empresta uma amostragem estocástica de linha de base: em vez de integrar a partir de uma linha de base fixa ou irrealista, ele amostra múltiplos perfis de usuário plausíveis a partir da distribuição empírica de dados e seleciona a trajetória de atribuição mais fidedigna. Este projeto captura a influência tanto das interações observadas quanto das não observadas, produzindo explicações mais estáveis e personalizadas. Realizamos a avaliação de fidelidade mais abrangente até hoje em três modelos (MF, VAE, NCF), três conjuntos de dados (ML1M, Yahoo! Music, Pinterest) e um conjunto de métricas contrafactuais, incluindo curvas de perturbação baseadas em AUC e diagnósticos de comprimento fixo. O SPINRec supera consistentemente todas as linhas de base, estabelecendo um novo referencial para a explicabilidade fidedigna na recomendação. O código e as ferramentas de avaliação estão publicamente disponíveis em https://github.com/DeltaLabTLV/SPINRec.
Apresentamos um método para extrair neurônios monossemânticos, definidos como dimensões latentes que se alinham com conceitos coerentes e interpretáveis, a partir de embeddings de usuários e itens em sistemas de recomendação. Nossa abordagem emprega um Autoencoder Esparso (SAE) para revelar a estrutura semântica dentro de representações pré-treinadas. Em contraste com o trabalho em modelos de linguagem, a monossemanticidade na recomendação deve preservar as interações entre os embeddings separados de usuários e itens. Para alcançar isso, introduzimos um objetivo de treinamento com consciência da predição que retropropaga o erro através de um recomendador congelado e alinha a estrutura latente aprendida com as previsões de afinidade usuário-item do modelo. Os neurônios resultantes capturam propriedades como gênero, popularidade e tendências temporais, e suportam operações de controle post hoc, incluindo filtragem direcionada e promoção de conteúdo sem modificar o modelo base. Nosso método generaliza-se entre diferentes modelos de recomendação e conjuntos de dados, fornecendo uma ferramenta prática para personalização interpretável e controlável. Código e recursos de avaliação estão disponíveis em https://github.com/DeltaLabTLV/Monosemanticity4Rec.
A geração de Interação Mão-Objeto (HOI) desempenha um papel crítico no avanço de aplicações nas áreas de animação e robótica. Os métodos atuais baseados em vídeo são predominantemente de visão única, o que dificulta uma percepção geométrica 3D abrangente e frequentemente resulta em distorções geométricas ou padrões de movimento irrealistas. Embora as abordagens de HOI 3D possam gerar movimentos dinamicamente plausíveis, sua dependência de dados 3D de alta qualidade capturados em ambientes laboratoriais controlados limita severamente sua generalização para cenários do mundo real. Para superar essas limitações, apresentamos o SyncMV4D, o primeiro modelo que gera conjuntamente vídeos HOI multi-visão sincronizados e movimentos 4D, unificando *prior* visual, dinâmica de movimento e geometria multi-visão. Nossa estrutura apresenta duas inovações principais: (1) um modelo de Difusão Conjunta Multi-visão (MJD) que co-gera vídeos HOI e movimentos intermediários, e (2) um Alinhador de Pontos por Difusão (DPA) que refina o movimento intermediário grosseiro em trilhas de pontos métricos 4D globalmente alinhadas. Para acoplar firmemente a aparência 2D com a dinâmica 4D, estabelecemos um ciclo de loop fechado e de reforço mútuo. Durante o processo de desruído por difusão, o vídeo gerado condiciona o refinamento do movimento 4D, enquanto as trilhas de pontos 4D alinhadas são reprojetadas para orientar a próxima etapa de geração conjunta. Experimentalmente, nosso método demonstra desempenho superior aos alternativas *state-of-the-art* em realismo visual, plausibilidade de movimento e consistência multi-visão.
Os modelos de linguagem de grande escala (LLMs) são amplamente utilizados para tarefas factuais, como "O que trata a asma?" ou "Qual é a capital da Letônia?". No entanto, permanece pouco claro quão estável é a codificação, por parte dos LLMs, das distinções entre conteúdo verdadeiro, falso e nem-verdadeiro-nem-falso nas suas representações probabilísticas internas. Introduzimos o conceito de estabilidade representacional como a robustez das representações de veracidade de um LLM a perturbações na definição operacional de verdade. Avaliamos a estabilidade representacional (i) treinando uma sonda linear nas ativações de um LLM para separar afirmações verdadeiras das não-verdadeiras e (ii) medindo como a sua fronteira de decisão aprendida se desloca sob mudanças controladas nos rótulos. Utilizando ativações de dezesseis modelos de código aberto e três domínios factuais, comparamos dois tipos de afirmações neutras (nem verdadeiras nem falsas). O primeiro tipo são asserções semelhantes a fatos sobre entidades que acreditamos estar ausentes de quaisquer dados de treinamento. Denominamos estas de afirmações neutras não familiares. O segundo tipo são afirmações não factuais extraídas de contextos ficcionais bem conhecidos. Denominamos estas de afirmações neutras familiares. As afirmações não familiares induzem os maiores deslocamentos da fronteira, produzindo até 40% de julgamentos de verdade invertidos em domínios frágeis (como definições de palavras), enquanto as afirmações ficcionais familiares permanecem agrupadas de forma mais coerente e produzem mudanças menores (≤ 8,2%). Estes resultados sugerem que a estabilidade representacional deriva mais da familiaridade epistêmica do que da forma linguística. De forma mais ampla, a nossa abordagem fornece um diagnóstico para auditar e treinar LLMs de modo a preservar atribuições de verdade coerentes sob incerteza semântica, em vez de otimizar apenas para a precisão da saída.
A detecção de objetos camuflados é uma tarefa emergente e desafiadora na área de visão computacional, que requer a identificação e segmentação de objetos que se fundem perfeitamente aos seus ambientes devido à alta similaridade em cor, textura e tamanho. Esta tarefa é ainda mais complexificada por condições de baixa luminosidade, oclusão parcial, tamanho reduzido do objeto, padrões intrincados de fundo e presença de múltiplos objetos. Embora muitos métodos sofisticados tenham sido propostos para esta tarefa, as abordagens atuais ainda lutam para detectar com precisão objetos camuflados em cenários complexos, especialmente com objetos pequenos e múltiplos, indicando espaço para melhorias. Propomos uma Rede Recursiva Multi-Escala que extrai características multi-escala através de um *backbone* Pyramid Vision Transformer e as combina por meio de Unidades de Integração de Escala Baseadas em Atenção especializadas, permitindo a fusão seletiva de características. Para uma detecção de objetos mais precisa, nosso decodificador refina recursivamente as características incorporando Unidades de Fusão Multi-Granularidade. Uma nova estratégia de decodificação recursiva com *feedback* é desenvolvida para aprimorar a compreensão do contexto global, auxiliando o modelo a superar os desafios desta tarefa. Ao alavancar conjuntamente o aprendizado multi-escala e a otimização recursiva de características, nosso método proposto alcança ganhos de desempenho, detectando com sucesso objetos camuflados pequenos e múltiplos. Nosso modelo alcança resultados de última geração em dois conjuntos de dados de referência para detecção de objetos camuflados e classifica-se em segundo lugar nos dois restantes. Nossos códigos, pesos do modelo e resultados estão disponíveis em https://github.com/linaagh98/MSRNet.