Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Segment Anything Model (SAM) 3, um modelo unificado que deteta, segmenta e rastreia objetos em imagens e vídeos com base em *prompts* conceptuais, que definimos como frases nominais curtas (por exemplo, "autocarro escolar amarelo"), exemplos de imagem ou uma combinação de ambos. A Segmentação de Conceitos por *Prompt* (PCS) recebe esses *prompts* e retorna máscaras de segmentação e identidades únicas para todas as instâncias de objetos correspondentes. Para avançar a PCS, construímos um motor de dados escalável que produz um conjunto de dados de alta qualidade com 4M etiquetas conceptuais únicas, incluindo negativos difíceis, em imagens e vídeos. O nosso modelo consiste num detetor a nível de imagem e num rastreador de vídeo baseado em memória que partilham uma única *backbone*. O reconhecimento e a localização são desacoplados com um *head* de presença, que aumenta a precisão da deteção. O SAM 3 duplica a precisão dos sistemas existentes tanto na PCS de imagem como de vídeo e melhora as capacidades anteriores do SAM em tarefas de segmentação visual. Disponibilizamos em código aberto o SAM 3, juntamente com o nosso novo *benchmark* Segment Anything with Concepts (SA-Co) para a segmentação de conceitos por *prompt*.
A investigação atual em raciocínio visual agentico permite uma compreensão multimodal profunda, mas concentra-se principalmente em ferramentas de manipulação de imagens, deixando uma lacuna em relação a modelos agenticos de propósito mais geral. Neste trabalho, revisitamos a tarefa de geolocalização, que exige não apenas uma fundamentação visual nuancesada, mas também pesquisa na web para confirmar ou refinar hipóteses durante o raciocínio. Uma vez que os benchmarks de geolocalização existentes não satisfazem a necessidade de imagens de alta resolução e o desafio de localização para um raciocínio agentico profundo, criámos o GeoBench, um benchmark que inclui fotos e panoramas de todo o mundo, juntamente com um subconjunto de imagens de satélite de diferentes cidades, para avaliar rigorosamente a capacidade de geolocalização de modelos agenticos. Propomos também o GeoVista, um modelo agentico que integra perfeitamente a invocação de ferramentas dentro do ciclo de raciocínio, incluindo uma ferramenta de ampliação de imagem para aumentar regiões de interesse e uma ferramenta de pesquisa na web para recuperar informações relacionadas da internet. Desenvolvemos um pipeline de treino completo para o mesmo, incluindo uma fase de *fine-tuning* supervisionado (SFT) de arranque a frio para aprender padrões de raciocínio e *priors* de uso de ferramentas, seguida de uma fase de aprendizagem por reforço (RL) para melhorar ainda mais a capacidade de raciocínio. Adotamos uma recompensa hierárquica para aproveitar informações geográficas multi-nível e melhorar o desempenho global de geolocalização. Os resultados experimentais mostram que o GeoVista supera largamente outros modelos agenticos de código aberto na tarefa de geolocalização e alcança um desempenho comparável a modelos de código fechado, como o Gemini-2.5-flash e o GPT-5, na maioria das métricas.
Os recentes avanços em modelos de raciocínio de grande escala têm impulsionado um interesse crescente em estender tais capacidades para domínios multimodais. No entanto, apesar do progresso notável no raciocínio visual, a falta de estratégias transparentes e reproduzíveis de curadoria de dados e treinamento continua sendo uma barreira significativa para pesquisas escaláveis. Neste trabalho, apresentamos o OpenMMReasoner, uma abordagem totalmente transparente em duas etapas para raciocínio multimodal, abrangendo ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Na etapa de SFT, construímos um conjunto de dados inicial de 874 mil amostras com validação rigorosa passo a passo, fornecendo uma base sólida para capacidades de raciocínio. A etapa subsequente de RL utiliza um conjunto de dados de 74 mil amostras em diversos domínios para aprimorar e estabilizar ainda mais essas habilidades, resultando em um processo de aprendizado mais robusto e eficiente. Avaliações extensivas demonstram que nossa abordagem de treinamento não apenas supera linhas de base robustas, mas também destaca o papel crítico da qualidade dos dados e do design de treinamento na formação do desempenho do raciocínio multimodal. Notavelmente, nosso método alcança uma melhoria de 11,6% em relação à linha de base Qwen2.5-VL-7B-Instrutor em nove benchmarks de raciocínio multimodal, estabelecendo uma base empírica sólida para futuras pesquisas em grande escala sobre raciocínio multimodal. Disponibilizamos todos os nossos códigos, pipeline e dados em https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
A dimensão intrínseca (DI) é uma ferramenta importante na análise moderna de LLMs, fundamentando estudos sobre dinâmicas de treinamento, comportamento de escalonamento e estrutura de conjuntos de dados, mas os seus determinantes textuais permanecem pouco explorados. Apresentamos o primeiro estudo abrangente que ancora a DI em propriedades de texto interpretáveis através de análise de codificadores cruzados, características linguísticas e auto codificadores esparsos (SAEs). Neste trabalho, estabelecemos três descobertas principais. Primeiro, a DI é complementar às métricas baseadas em entropia: após controlar o comprimento, as duas são não correlacionadas, com a DI capturando uma complexidade geométrica ortogonal à qualidade da previsão. Segundo, a DI exibe uma estratificação robusta por género: a prosa científica apresenta DI baixa (~8), o conteúdo enciclopédico DI média (~9) e a escrita criativa/opinativa DI alta (~10,5) em todos os modelos testados. Isto revela que os LLMs contemporâneos consideram o texto científico "representacionalmente simples", enquanto a ficção requer graus de liberdade adicionais. Terceiro, usando SAEs, identificamos características causais: sinais científicos (tom formal, modelos de relatório, estatísticas) reduzem a DI; sinais humanizados (personalização, emoção, narrativa) aumentam-na. Experiências de orientação confirmam que estes efeitos são causais. Assim, para os modelos contemporâneos, a escrita científica parece comparativamente "fácil", enquanto a ficção, a opinião e o afeto adicionam graus de liberdade representacionais. A nossa análise multifacetada fornece orientação prática para o uso adequado da DI e para a interpretação sólida de resultados baseados na DI.
Apresentamos o RynnVLA-002, um modelo unificado de Visão-Linguagem-Ação (VLA) e modelo de mundo. O modelo de mundo utiliza entradas de ação e visuais para prever estados de imagem futuros, aprendendo a física subjacente do ambiente para refinar a geração de ações. Por outro lado, o modelo VLA produz ações subsequentes a partir de observações de imagem, aprimorando a compreensão visual e apoiando a geração de imagens do modelo de mundo. A estrutura unificada do RynnVLA-002 permite a aprendizagem conjunta da dinâmica ambiental e do planejamento de ações. Nossos experimentos mostram que o RynnVLA-002 supera os modelos individuais de VLA e modelos de mundo, demonstrando seu aprimoramento mútuo. Avaliamos o RynnVLA-002 tanto em tarefas de simulação quanto em tarefas de robôs no mundo real. O RynnVLA-002 atinge uma taxa de sucesso de 97,4% no benchmark de simulação LIBERO sem pré-treinamento, enquanto nos experimentos reais do LeRobot, seu modelo de mundo integrado aumenta a taxa de sucesso geral em 50%.
Os recentes avanços em agentes baseados em LLM demonstraram um potencial significativo na geração de respostas semelhantes às humanas; no entanto, eles continuam a enfrentar desafios na manutenção de interações de longo prazo em ambientes complexos, principalmente devido a limitações na consistência contextual e na personalização dinâmica. Os sistemas de memória existentes frequentemente dependem de agrupamento semântico antes da recuperação, o que pode negligenciar informações críticas do usuário semanticamente irrelevantes e introduzir ruído na recuperação. Neste relatório, propomos o design inicial do O-Mem, uma nova estrutura de memória baseada na criação ativa de perfis de usuário que extrai e atualiza dinamicamente características do usuário e registros de eventos a partir de suas interações proativas com os agentes. O O-Mem suporta a recuperação hierárquica de atributos de persona e contextos relacionados a tópicos, permitindo respostas personalizadas mais adaptáveis e coerentes. O O-Mem alcança 51,67% no benchmark público LoCoMo, uma melhoria de quase 3% em relação ao LangMem, o estado da arte anterior, e atinge 62,99% no PERSONAMEM, uma melhoria de 3,5% em relação ao A-Mem, o estado da arte anterior. O O-Mem também aumenta a eficiência do tempo de resposta de tokens e interação em comparação com estruturas de memória anteriores. Nosso trabalho abre direções promissoras para o desenvolvimento de assistentes de IA personalizados eficientes e humanizados no futuro.
Apresentamos o WorldGen, um sistema que permite a criação automática de mundos 3D interativos e em larga escala diretamente a partir de comandos de texto. Nossa abordagem transforma descrições em linguagem natural em ambientes texturizados e totalmente transitáveis que podem ser imediatamente explorados ou editados em motores de jogo padrão. Ao combinar raciocínio de disposição de cena orientado por LLM, geração procedural, geração 3D baseada em difusão e decomposição de cena com consciência de objetos, o WorldGen preenche a lacuna entre a intenção criativa e espaços virtuais funcionais, permitindo que criadores projetem mundos coerentes e navegáveis sem modelagem manual ou conhecimentos especializados em 3D. O sistema é totalmente modular e suporta controle refinado sobre o layout, escala e estilo, produzindo mundos geometricamente consistentes, visualmente ricos e eficientes para renderização em tempo real. Este trabalho representa um passo em direção a uma construção de mundos generativa e acessível em escala, avançando a fronteira da IA generativa 3D para aplicações em jogos, simulação e ambientes sociais imersivos.
A compreensão de vídeos ricos em texto exige a leitura de pistas textuais pequenas e transitórias que frequentemente demandam inspeção repetida. No entanto, a maioria dos modelos de Q&A (Question Answering) para vídeo depende de percepção única sobre frames fixos, levando a alucinações e falhas em evidências de granularidade fina. Inspirados pela forma como os humanos pausam, ampliam e releem regiões críticas, apresentamos o Video-R4 (Reforçando o Raciocínio em Vídeos Ricos em Texto com Ruminação Visual), um LMM (Large Multimodal Model) para raciocínio em vídeo que realiza a ruminação visual: seleciona iterativamente frames, amplia regiões informativas, recodifica pixels recuperados e atualiza seu estado de raciocínio. Construímos dois conjuntos de dados com trajetórias de ruminação executáveis: Video-R4-CoT-17k para prática supervisionada e Video-R4-RL-30k para aprendizado por reforço. Propomos uma estrutura de aprendizado de ruminação em múltiplos estágios que ajusta progressivamente um LMM de 7B para aprender operações visuais atômicas e de mistura via SFT (Supervised Fine-Tuning) e RL (Reinforcement Learning) baseado em GRPO. O Video-R4-7B alcança resultados state-of-the-art no M4-ViteVQA e ainda se generaliza para Q&A em documentos multipágina, Q&A em slides e Q&A genérico em vídeo, demonstrando que a ruminação iterativa é um paradigma eficaz para o raciocínio multimodal fundamentado em pixels.
Este estudo apresenta o PARROT (Persuasion and Agreement Robustness Rating of Output Truth), uma estrutura focada na robustez projetada para medir a degradação da precisão que ocorre sob pressão social exercida sobre os usuários por meio de autoridade e persuasão em modelos de linguagem grandes (LLMs), o fenômeno da sicofância (conformidade excessiva). O PARROT (i) isola efeitos causais comparando a versão neutra da mesma pergunta com uma versão autoritariamente falsa usando uma avaliação duplo-cega, (ii) quantifica mudanças de confiança em direção às respostas corretas e falsas impostas usando o rastreamento de calibração baseado em verossimilhança logarítmica, e (iii) classifica sistematicamente os modos de falha (por exemplo, correto robusto, concordância sicofântica, erro reforçado, erro teimoso, autocorreção, etc.) usando uma taxonomia comportamental de oito estados. Avaliamos 22 modelos usando 1.302 questões de múltipla escolha no estilo MMLU em 13 domínios e modelos de autoridade específicos do domínio. Os resultados mostram heterogeneidade marcante: modelos avançados (por exemplo, GPT-5, GPT-4.1, Claude Sonnet 4.5) exibem baixas "taxas de concordância" (≤ 11%, GPT-5: 4%) e perda mínima de precisão, enquanto modelos mais antigos/ menores mostram colapso epistêmico severo (GPT-4: 80%, Qwen 2.5-1.5B: 94%). O perigo não se limita a mudanças de resposta; modelos fracos reduzem a confiança na resposta correta enquanto aumentam a confiança na resposta incorreta imposta. Enquanto o direito internacional e o conhecimento global no nível de domínio exibem alta fragilidade, a matemática elementar é relativamente resiliente. Consequentemente, argumentamos que o objetivo de "resistência à pressão de conformidade excessiva" deve ser tratado como um objetivo primário, juntamente com precisão, evitamento de danos e privacidade, para uma implantação segura no mundo real.
Apesar do notável sucesso dos Modelos de Visão e Linguagem (VLMs), o seu desempenho numa série de tarefas visuais complexas é frequentemente limitado por um "gargalo de processamento visual": uma propensão para perder o contacto com a evidência visual e exibir um défice de experiência visual contextualizada durante gerações prolongadas. Inspirados pela teoria cognitiva da memória humana, que distingue a memória de curto prazo, dominada pelo visual, da memória de longo prazo, dominada pelo semântico, propomos o VisMem, uma estrutura alinhada cognitivamente que equipa os VLMs com memórias visuais latentes dinâmicas – um módulo de curto prazo para retenção perceptual de alto detalhe e um módulo de longo prazo para consolidação semântica abstrata. Estas memórias são invocadas de forma contínua durante a inferência, permitindo que os VLMs mantenham tanto a fidelidade perceptual como a consistência semântica ao longo do pensamento e da geração. Experiências extensas em diversas benchmarks visuais para compreensão, raciocínio e geração revelam que o VisMem proporciona um aumento médio significativo de desempenho de 11.8% relativamente ao modelo base e supera todas as alternativas, estabelecendo um novo paradigma para a melhoria de memória no espaço latente. O código estará disponível em: https://github.com/YU-deep/VisMem.git.
Os tutoriais de pintura passo a passo são fundamentais para o aprendizado de técnicas artísticas, mas os recursos em vídeo existentes (como o YouTube) carecem de interatividade e personalização. Embora os modelos generativos recentes tenham avançado na síntese de imagens artísticas, eles lutam para generalizar entre diferentes mídias e frequentemente apresentam inconsistências temporais ou estruturais, dificultando a reprodução fiel dos fluxos de trabalho criativos humanos. Para resolver isso, propomos uma estrutura unificada para a geração de processos de pintura em multimídia com um mecanismo de controle de estilo orientado por semântica que incorpora múltiplas mídias no espaço condicional de modelos de difusão e utiliza aumento de estilo entre mídias. Isso permite uma evolução de textura consistente e transferência de processo entre estilos. Uma estratégia de treinamento por pintura reversa garante ainda mais uma geração suave e alinhada com o processo humano. Também construímos um conjunto de dados em larga escala de processos de pintura reais e avaliamos a consistência entre mídias, a coerência temporal e a fidelidade da imagem final, alcançando resultados sólidos nas métricas LPIPS, DINO e CLIP. Por fim, nossa curva de Perfil de Distância Perceptual (PDP) modela quantitativamente a sequência criativa - composição, bloqueio de cores e refinamento de detalhes - espelhando a progressão artística humana.
Abordamos a tarefa de edição de imagens multi-visão a partir de vistas de entrada esparsas, onde as entradas podem ser vistas como uma mistura de imagens que capturam a cena de diferentes pontos de vista. O objetivo é modificar a cena de acordo com uma instrução textual, preservando a consistência entre todas as vistas. Os métodos existentes, baseados em campos neurais por cena ou mecanismos de atenção temporal, lutam nesse cenário, frequentemente produzindo artefatos e edições incoerentes. Propomos o InstructMix2Mix (I-Mix2Mix), uma estrutura que destila as capacidades de edição de um modelo de difusão 2D em um modelo de difusão multi-visão pré-treinado, aproveitando seu pré-conhecimento 3D orientado a dados para consistência cruzada de vistas. Uma contribuição fundamental é a substituição do consolidador de campo neural convencional na Amostragem por Destilação de Pontuação (SDS) por um estudante de difusão multi-visão, o que requer adaptações inéditas: atualizações incrementais do estudante ao longo dos passos de tempo, um programador de ruído especializado para o professor para evitar degeneração e uma modificação de atenção que melhora a coerência cruzada de vistas sem custo adicional. Experimentos demonstram que o I-Mix2Mix melhora significativamente a consistência multi-visão, mantendo alta qualidade de edição por quadro.
A ampliação de modelos multimodais tem possibilitado avanços notáveis na compreensão e raciocínio visual, mas as demandas práticas exigem sistemas menores e eficientes. Neste trabalho, realizamos uma análise fundamentada da redução escalar de inteligência em modelos multimodais, examinando como a capacidade reduzida de modelos de linguagem de grande porte (LLM) afeta as capacidades multimodais. Nossas descobertas iniciais revelam uma tendência interessante: a redução escalar do LLM afeta desproporcionalmente as capacidades visuais, em vez das habilidades herdadas do LLM. Em seguida, investigamos se essa queda reflete principalmente o declínio esperado no raciocínio visual ou uma perda mais fundamental das habilidades perceptivas. Isolando o efeito da redução escalar do LLM na percepção, constatamos que o desempenho ainda cai drasticamente, muitas vezes igualando ou superando o impacto no raciocínio. Para abordar esse gargalo, introduzimos o ajuste fino de extração visual, que treina explicitamente o modelo para extrair detalhes visuais relevantes para a instrução de forma consistente entre tarefas. Com esses detalhes visuais extraídos, aplicamos então o raciocínio passo a passo para gerar respostas. Juntos, esses componentes formam nossa abordagem Extrair+Pensar, estabelecendo um novo padrão de eficiência e desempenho neste domínio.
Os recentes avanços em modelos Visão-Linguagem-Ação (VLA) demonstram que sinais visuais podem complementar eficazmente supervisões de ação esparsas. No entanto, permitir que os VLA prevejam diretamente estados visuais de alta dimensão pode distribuir a capacidade do modelo e incorrer em custos proibitivos de treinamento, enquanto comprimir estados visuais em sinais de supervisão mais compactos inevitavelmente incorre em gargalos de informação. Além disso, os métodos existentes frequentemente sofrem de capacidades deficientes de compreensão e raciocínio devido à negligência da supervisão linguística. Este artigo introduz o Mantis, uma nova estrutura com uma Previsão Visual Disentrelaçada (DVF) para resolver estas questões. Especificamente, o Mantis desacopla a previsão visual prospectiva do modelo principal com a combinação de meta consultas e um cabeçalho de Transformer de Difusão (DiT). Com o estado visual atual fornecido ao DiT através de uma conexão residual, um objetivo simples de previsão do próximo estado permite que as meta consultas capturem automaticamente as ações latentes que delineiam a trajetória visual e, assim, impulsionem a aprendizagem de ações explícitas. O disentrelaçamento reduz a carga do modelo principal VLA, permitindo-lhe manter capacidades de compreensão e raciocínio através da supervisão linguística. Empiricamente, pré-treinado com vídeos de manipulação humana, demonstrações robóticas e pares imagem-texto, o Mantis atinge uma taxa de sucesso de 96,7% no benchmark LIBERO após *fine-tuning*, superando bases de comparação poderosas enquanto exibe alta velocidade de convergência. Avaliações no mundo real mostram que o Mantis supera o π_{0.5}, um modelo VLA de código aberto líder, particularmente na capacidade de seguir instruções, generalização para instruções não vistas e capacidade de raciocínio. Código e pesos são disponibilizados para apoiar a comunidade de código aberto.
A modelagem de sequências genômicas enfrenta dois desafios não resolvidos: a densidade de informação varia amplamente em diferentes regiões, enquanto não há uma unidade de vocabulário mínima claramente definida. Contando com as quatro bases primitivas ou com tokenizadores de DNA projetados independentemente, as abordagens existentes que utilizam pré-treinamento ingênuo de modelagem de linguagem mascarada frequentemente falham em se adaptar às complexidades variáveis das sequências genômicas. Aproveitando as técnicas de Token Merging, este artigo introduz uma arquitetura hierárquica que otimiza conjuntamente um tokenizador genômico dinâmico e Transformers latentes com tarefas de pré-treinamento conscientes do contexto. Quanto às estruturas de rede, o módulo de tokenização agrupa automaticamente bases adjacentes em palavras através do empilhamento de múltiplas camadas de blocos diferenciáveis de fusão de tokens com restrições de janela local; em seguida, um Codificador Latente captura o contexto global dessas palavras fundidas por meio de blocos de atenção completa. Empregando simetricamente um Decodificador Latente e um Decodificador Local, o MergeDNA aprende com duas tarefas de pré-treinamento: a Reconstrução de Tokens Fundidos treina simultaneamente o módulo de tokenização dinâmica e filtra adaptativamente tokens importantes, enquanto a Modelagem de Tokens Mascarados Adaptativa aprende a prever esses tokens filtrados para capturar conteúdos informativos. Experimentos extensivos mostram que o MergeDNA alcança desempenho superior em três benchmarks populares de DNA e em várias tarefas de multi-ômicas com avaliação fine-tuning ou zero-shot, superando métodos típicos de tokenização e modelos de fundação de DNA em larga escala.
Os modelos Visuais Autorregressivos (VAR) têm recentemente atraído significativa atenção devido ao seu paradigma inovador de previsão em escala seguinte, oferecendo vantagens notáveis em eficiência de inferência e qualidade de imagem em comparação com modelos autorregressivos (AR) multiestágios tradicionais e modelos de difusão. Contudo, apesar da sua eficiência, os modelos VAR frequentemente sofrem de colapso de diversidade, ou seja, uma redução na variabilidade de saída, análoga à observada em modelos de difusão destilados com poucos passos. Neste artigo, introduzimos o DiverseVAR, uma abordagem simples mas eficaz que restaura a diversidade generativa dos modelos VAR sem exigir qualquer treinamento adicional. Nossa análise revela o componente pivotal do mapa de características como um fator chave que governa a formação da diversidade em escalas iniciais. Ao suprimir o componente pivotal na entrada do modelo e amplificá-lo na saída do modelo, o DiverseVAR efetivamente desbloqueia o potencial generativo inerente dos modelos VAR, preservando simultaneamente a síntese de alta fidelidade. Resultados empíricos demonstram que nossa abordagem aumenta substancialmente a diversidade generativa com influências de desempenho insignificantes. Nosso código será disponibilizado publicamente em https://github.com/wangtong627/DiverseVAR.
Os modelos visão-linguagem-ação (VLA) demonstram potencial para tarefas robóticas gerais, mas permanecem desafiadores na manipulação espaço-temporalmente coerente, que requer representações de granularidade fina. Tipicamente, os métodos existentes incorporam posições 3D em representações visuais para aumentar a precisão espacial das ações. No entanto, esses métodos lutam para alcançar um controle temporalmente coerente sobre a execução da ação. Neste trabalho, propomos o VLA-4D, um modelo VLA geral com consciência 4D para manipulação robótica espaço-temporalmente coerente. Nosso modelo é guiado por dois projetos-chave: 1) Representação visual com consciência 4D. Extraímos características visuais, incorporamos o tempo 1D em posições 3D para embeddings 4D e os fundimos em uma representação visual unificada por meio de um mecanismo de atenção cruzada. 2) Representação de ação espaço-temporal. Estendemos as representações de ação espaciais convencionais com informação temporal para permitir o planeamento espaço-temporal e alinhamos as representações multimodais no LLM para previsão de ação espaço-temporal. Dentro desta estrutura unificada, as representações visuais e de ação projetadas tornam conjuntamente a manipulação robótica espacialmente suave e temporalmente coerente. Além disso, estendemos o conjunto de dados VLA com anotações de ação temporal para afinar o nosso modelo. Foram realizadas experiências extensivas para verificar a superioridade do nosso método em diferentes tarefas de manipulação robótica.
Com o rápido desenvolvimento dos Modelos de Língua Grande (LLMs), os agentes de IA têm demonstrado proficiência crescente em tarefas científicas, desde a geração de hipóteses e o desenho experimental até a redação de manuscritos. Tais sistemas de agentes são comumente referidos como "Cientistas de IA". No entanto, os Cientistas de IA existentes predominantemente formulam a descoberta científica como um problema de busca ou otimização isolado, negligenciando o fato de que a pesquisa científica é inerentemente um empreendimento social e colaborativo. A ciência do mundo real depende de uma infraestrutura científica complexa composta por mecanismos colaborativos, atribuição de contribuições, revisão por pares e redes estruturadas de conhecimento científico. Devido à falta de modelagem dessas dimensões críticas, os sistemas atuais lutam para estabelecer um ecossistema de pesquisa genuíno ou interagir profundamente com a comunidade científica humana. Para preencher essa lacuna, apresentamos o OmniScientist, uma estrutura que codifica explicitamente os mecanismos subjacentes da pesquisa humana no fluxo de trabalho científico da IA. O OmniScientist não apenas alcança a automação de ponta a ponta através da base de dados, revisão de literatura, ideação de pesquisa, automação de experimentos, redação científica e revisão por pares, mas também fornece suporte infraestrutural abrangente ao simular o sistema científico humano, compreendendo: (1) um sistema de conhecimento estruturado construído sobre redes de citações e correlações conceituais; (2) um protocolo de pesquisa colaborativa (OSP), que permite colaboração multiagente perfeita e a participação de pesquisadores humanos; e (3) uma plataforma de avaliação aberta (ScienceArena) baseada na votação pareada cega por utilizadores e rankings Elo. Esta infraestrutura capacita os agentes não apenas para compreender e alavancar os sistemas de conhecimento humano, mas também para colaborar e co-evoluir, fomentando um ecossistema de inovação sustentável e escalável.
A revisão por pares é uma pedra angular da publicação científica, inclusive nas principais conferências de aprendizado de máquina, como a ICLR. Com o aumento do volume de submissões, compreender a natureza e a dinâmica do processo de revisão é crucial para melhorar sua eficiência, eficácia e a qualidade dos artigos publicados. Apresentamos uma análise em larga escala dos processos de revisão por pares da ICLR 2024 e 2025, focando nas notas antes e após a réplica e nas interações entre revisores e autores. Examinamos as notas das revisões, o engajamento autor-revisor, os padrões temporais na submissão de revisões e os efeitos de influência entre co-revisores. Combinando análises quantitativas com a categorização baseada em LLM dos textos de revisão e das discussões de réplica, identificamos pontos fortes e fracos comuns para cada grupo de classificação, bem como tendências nas estratégias de réplica mais fortemente associadas a mudanças nas notas. Nossos achados mostram que as notas iniciais e as classificações dos co-revisores são os preditores mais fortes de mudanças nas notas durante a réplica, apontando para um certo grau de influência entre revisores. As réplicas desempenham um papel valioso na melhoria dos resultados para artigos limítrofes, onde respostas ponderadas dos autores podem alterar significativamente as perspectivas dos revisores. De forma mais ampla, nosso estudo oferece insights baseados em evidências para melhorar o processo de revisão por pares, orientando os autores sobre estratégias eficazes de réplica e ajudando a comunidade a projetar processos de revisão mais justos e eficientes. Nosso código e os dados sobre mudanças de notas estão disponíveis em https://github.com/papercopilot/iclr-insights.
As abordagens recentes de geração de vídeo dependem cada vez mais do planejamento de sinais de controle intermediários, como trajetórias de objetos, para melhorar a coerência temporal e a fidelidade do movimento. No entanto, esses métodos empregam principalmente planos únicos que geralmente se limitam a movimentos simples, ou refinamento iterativo que requer múltiplas chamadas ao gerador de vídeo, incorrendo em alto custo computacional. Para superar essas limitações, propomos o SketchVerify, uma estrutura de planejamento baseada em esboço-verificação, livre de treinamento, que melhora a qualidade do planejamento de movimento com trajetórias mais dinamicamente coerentes (isto é, movimentos fisicamente plausíveis e consistentes com a instrução) antes da geração completa do vídeo, introduzindo um loop de amostragem e verificação em tempo de teste. Dado um prompt e uma imagem de referência, nosso método prevê múltiplos planos de movimento candidatos e os classifica usando um verificador visão-linguagem que avalia conjuntamente o alinhamento semântico com a instrução e a plausibilidade física. Para classificar eficientemente os planos de movimento candidatos, renderizamos cada trajetória como um esboço de vídeo leve através da composição de objetos sobre um plano de fundo estático, o que contorna a necessidade de sínteses caras e repetidas baseadas em difusão, enquanto alcança desempenho comparável. Refinamos iterativamente o plano de movimento até que um satisfatório seja identificado, que é então passado para o gerador condicionado por trajetória para síntese final. Experimentos no WorldModelBench e no PhyWorldBench demonstram que nosso método melhora significativamente a qualidade do movimento, o realismo físico e a consistência de longo prazo em comparação com linhas de base competitivas, sendo substancialmente mais eficiente. Nosso estudo de ablação mostra ainda que aumentar o número de trajetórias candidatas melhora consistentemente o desempenho geral.
A detecção de itens proibidos em modelos de treinamento requer uma grande quantidade de imagens de raio-X de segurança, mas a coleta e anotação dessas imagens consome tempo e é trabalhosa. Para lidar com a insuficiência de dados, os métodos de síntese de imagens de raio-X de segurança compõem imagens para ampliar os conjuntos de dados. No entanto, métodos anteriores seguem principalmente um pipeline de dois estágios, onde implementam uma extração de primeiro plano trabalhosa no primeiro estágio e depois compõem as imagens no segundo estágio. Esse pipeline introduz um custo extra de mão de obra inevitável e não é eficiente. Neste artigo, propomos um pipeline de síntese de imagens de raio-X de segurança em um estágio (Xsyn) baseado na geração de texto para imagem, que incorpora duas estratégias eficazes para melhorar a usabilidade das imagens sintéticas. A estratégia de Refinamento de Atenção Cruzada (CAR) aproveita o mapa de atenção cruzada do modelo de difusão para refinar a anotação da caixa delimitadora. A estratégia de Modelagem de Oclusão de Fundo (BOM) modela explicitamente a oclusão de fundo no espaço latente para aumentar a complexidade da imagem. Até onde sabemos, em comparação com métodos anteriores, o Xsyn é o primeiro a alcançar uma síntese de imagens de raio-X de segurança de alta qualidade sem custo extra de mão de obra. Experimentos demonstram que nosso método supera todos os métodos anteriores com uma melhoria de 1,2% no mAP, e as imagens sintéticas geradas pelo nosso método são benéficas para melhorar o desempenho da detecção de itens proibidos em vários conjuntos de dados e detectores de raio-X de segurança. O código está disponível em https://github.com/pILLOW-1/Xsyn/.
Apresentamos o primeiro estudo de pré-treinamento em larga escala com mistura de especialistas (MoE) realizado exclusivamente em hardware AMD, utilizando GPUs MI300X com interconexão Pollara. Destilamos orientações práticas para o projeto de sistemas e de modelos. No aspecto de sistemas, fornecemos uma caracterização abrangente do cluster e da rede: microbenchmarks para todos os coletivos principais (all-reduce, reduce-scatter, all-gather, broadcast) em vários tamanhos de mensagem e contagens de GPU no Pollara. Até onde sabemos, este é o primeiro estudo nesta escala. Adicionalmente, fornecemos microbenchmarks do MI300X sobre dimensionamento de kernels e largura de banda de memória para informar o projeto do modelo. No aspecto de modelagem, introduzimos e aplicamos regras de dimensionamento de transformers otimizadas para o MI300X para blocos de atenção e MLP, e justificamos larguras de MoE que otimizam conjuntamente a taxa de transferência do treinamento e a latência de inferência. Descrevemos nossa pilha de treinamento em profundidade, incluindo utilitários frequentemente negligenciados, como tolerância a falhas e remodelagem de checkpoints, bem como informações detalhadas sobre nossa receita de treinamento. Também fornecemos uma prévia de nossa arquitetura de modelo e do modelo base - ZAYA1 (760M parâmetros ativos, 8.3B parâmetros totais em MoE) - que será aprimorado em artigos futuros. O ZAYA1-base atinge desempenho comparável a modelos base líderes, como Qwen3-4B e Gemma3-12B em sua escala e superiores, e supera modelos incluindo Llama-3-8B e OLMoE em benchmarks de raciocínio, matemática e codificação. Juntos, esses resultados demonstram que o hardware AMD, a rede e a pilha de software estão maduros e otimizados o suficiente para um pré-treinamento em larga escala competitivo.
O uso indevido crescente dos Modelos de Linguagem de Visão (VLMs) levou os provedores a implantarem múltiplas salvaguardas, incluindo ajuste de alinhamento, instruções de sistema e moderação de conteúdo. No entanto, a robustez no mundo real dessas defesas contra ataques adversariais permanece pouco explorada. Apresentamos o Ataque Multifacetado (MFA), uma estrutura que expõe sistematicamente vulnerabilidades gerais de segurança em VLMs líderes equipados com defesas, como GPT-4o, Gemini-Pro e Llama-4. O componente central do MFA é o Ataque de Transferência de Atenção (ATA), que esconde instruções maliciosas dentro de uma meta tarefa com objetivos concorrentes. Fornecemos uma perspectiva teórica baseada em "reward hacking" para explicar por que este ataque é bem-sucedido. Para melhorar a transferibilidade entre modelos, introduzimos ainda um algoritmo leve de aprimoramento de transferência combinado com uma simples estratégia de repetição que, em conjunto, contorna os filtros de entrada e de saída sem ajuste fino específico do modelo. Empiricamente, mostramos que imagens adversariais otimizadas para um codificador visual transferem-se amplamente para VLMs não vistos, indicando que representações visuais compartilhadas criam uma vulnerabilidade de segurança transversal aos modelos. No geral, o MFA atinge uma taxa de sucesso de 58,5% e supera consistentemente os métodos existentes. Em modelos comerciais de última geração, o MFA alcança uma taxa de sucesso de 52,8%, superando o segundo melhor ataque em 34%. Esses resultados desafiam a robustez percebida dos mecanismos de defesa atuais e destacam fraquezas persistentes de segurança nos VLMs modernos. Código: https://github.com/cure-lab/MultiFacetedAttack
Os mapas de saliência são amplamente utilizados para explicações visuais em aprendizado profundo, mas persiste uma falta fundamental de consenso sobre seu propósito pretendido e alinhamento com as diversas consultas dos usuários. Essa ambiguidade dificulta a avaliação eficaz e a utilidade prática dos métodos de explicação. Abordamos essa lacuna introduzindo a taxonomia Referência-Enquadramento versus Granularidade (RFxG), uma estrutura conceitual fundamentada que organiza as explicações de saliência ao longo de dois eixos essenciais: **Referência-Enquadramento:** Distingue entre explicações pontuais ("Por que esta previsão?") e contrastivas ("Por que esta e não uma alternativa?"). **Granularidade:** Variando de interpretações de nível de classe de granularidade fina (ex.: "Por que Husky?") até interpretações de nível de grupo de granularidade grossa (ex.: "Por que Cachorro?"). Através da lente RFxG, demonstramos limitações críticas nas métricas de avaliação existentes, que priorizam massivamente a fidelidade pontual enquanto negligenciam o raciocínio contrastivo e a granularidade semântica. Para avaliar sistematicamente a qualidade da explicação em ambas as dimensões da RFxG, propomos quatro novas métricas de fidelidade. Nossa estrutura de avaliação abrangente aplica essas métricas a dez métodos de saliência state-of-the-art, quatro arquiteturas de modelo e três conjuntos de dados. Ao defender uma mudança em direção a uma avaliação orientada pela intenção do usuário, nosso trabalho fornece tanto a base conceitual quanto as ferramentas práticas necessárias para desenvolver explicações visuais que não são apenas fiéis ao comportamento do modelo subjacente, mas também estão significativamente alinhadas com a complexidade do entendimento e da investigação humana.