Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o STEP3-VL-10B, um modelo de base leve e de código aberto projetado para redefinir o equilíbrio entre eficiência compacta e inteligência multimodal de ponta. O STEP3-VL-10B é concretizado através de duas mudanças estratégicas: primeiro, uma estratégia unificada e totalmente descongelada de pré-treinamento em 1,2 trilhão de tokens multimodais que integra um Codificador de Percepção alinhado linguisticamente com um decodificador Qwen3-8B para estabelecer uma sinergia intrínseca visão-linguagem; e segundo, um pipeline escalonado de pós-treinamento que inclui mais de 1.000 iterações de aprendizado por reforço. Crucialmente, implementamos o Raciocínio Coordenado Paralelo (PaCoRe) para escalar a computação em tempo de teste, alocando recursos para um raciocínio perceptual escalável que explora e sintetiza diversas hipóteses visuais. Consequentemente, apesar de sua pegada compacta de 10B, o STEP3-VL-10B rivaliza ou supera modelos 10 a 20 vezes maiores (por exemplo, GLM-4.6V-106B, Qwen3-VL-235B) e os principais modelos proprietários de elite, como o Gemini 2.5 Pro e o Seed-1.5-VL. Oferecendo um desempenho de classe mundial, ele registra 92,2% no MMBench e 80,11% no MMMU, enquanto se destaca no raciocínio complexo com 94,43% no AIME2025 e 75,95% no MathVision. Disponibilizamos o conjunto completo do modelo para fornecer à comunidade uma base de referência poderosa, eficiente e reproduzível.
Como centros da atividade humana, as superfícies urbanas são compostas por uma riqueza de entidades semânticas. Segmentar essas diversas entidades a partir de imagens de satélite é crucial para uma série de aplicações subsequentes. Os modelos avançados de segmentação atuais podem segmentar de forma confiável entidades definidas por atributos físicos (por exemplo, edifícios, corpos d'água), mas ainda lutam com categorias definidas socialmente (por exemplo, escolas, parques). Neste trabalho, alcançamos a segmentação socio-semântica por meio de raciocínio com modelos de visão computacional e linguagem. Para facilitar isso, apresentamos o conjunto de dados de Segmentação Socio-Semântica Urbana, denominado SocioSeg, um novo recurso que compreende imagens de satélite, mapas digitais e rótulos a nível de pixel de entidades semânticas sociais organizadas em uma estrutura hierárquica. Adicionalmente, propomos uma nova estrutura de raciocínio de visão e linguagem chamada SocioReasoner, que simula o processo humano de identificação e anotação de entidades semânticas sociais por meio de reconhecimento cross-modal e raciocínio multiestágio. Empregamos aprendizado por reforço para otimizar este processo não diferenciável e eliciar as capacidades de raciocínio do modelo de visão e linguagem. Experimentos demonstram os ganhos da nossa abordagem sobre os modelos state-of-the-art e uma forte generalização zero-shot. Nosso conjunto de dados e código estão disponíveis em https://github.com/AMAP-ML/SocioReasoner.
A aprendizagem por reforço (RL) tornou-se um paradigma central para o pós-treinamento de grandes modelos de linguagem (LLMs), particularmente para tarefas de raciocínio complexo. No entanto, ela frequentemente sofre de um colapso na exploração: as políticas prematuramente se concentram num pequeno conjunto de padrões de raciocínio dominantes, melhorando a métrica pass@1 enquanto limitam a diversidade ao nível de rollouts (simulações completas) e os ganhos em pass@k. Argumentamos que esta falha decorre da regularização do comportamento local dos *tokens*, em vez da diversidade sobre conjuntos de soluções. Para resolver isto, propomos a Aprendizagem por Reforço com Consciência da Unicidade, um objetivo ao nível do *rollout* que recompensa explicitamente soluções corretas que exibem estratégias de alto nível raras. O nosso método utiliza um juízo baseado em LLM para agrupar *rollouts* para o mesmo problema de acordo com as suas estratégias de solução de alto nível, ignorando variações superficiais, e repondera as vantagens da política inversamente ao tamanho do *cluster*. Como resultado, estratégias corretas mas novas recebem recompensas mais altas do que as redundantes. Em benchmarks de raciocínio matemático, físico e médico, a nossa abordagem melhora consistentemente o pass@k para grandes orçamentos de amostragem e aumenta a área sob a curva pass@k (AUC@K) sem sacrificar o pass@1, mantendo simultaneamente a exploração e descobrindo estratégias de solução mais diversas em escala.
Os sistemas multiagente evoluíram para colaboradores práticos baseados em LLM para muitas aplicações, ganhando robustez através da diversidade e verificação cruzada. No entanto, o treinamento de RL multiagente (MARL) é intensivo em recursos e instável: a co-adaptação de membros da equipe induz não estacionariedade, e as recompensas são frequentemente esparsas e de alta variância. Portanto, introduzimos o Reforço de Aprendizagem em Tempo de Teste Multiagente (MATTRL), uma estrutura que injeta experiência textual estruturada na deliberação multiagente no momento da inferência. O MATTRL forma uma equipe multi-especialista de especialistas para discussões multi-turno, recupera e integra experiências em tempo de teste e alcança consenso para a tomada de decisão final. Também estudamos a atribuição de crédito para construir um pool de experiências em nível de turno, reinserindo-o depois no diálogo. Em benchmarks desafiadores nas áreas de medicina, matemática e educação, o MATTRL melhora a precisão em média 3,67% em relação a uma linha de base multiagente e em 8,67% sobre linhas de base de agente único comparáveis. Estudos de ablação examinam diferentes esquemas de atribuição de crédito e fornecem uma comparação detalhada de como eles afetam os resultados do treinamento. O MATTRL oferece um caminho estável, eficaz e eficiente para o raciocínio multiagente robusto a mudanças de distribuição sem ajuste.
A geração interativa de vídeo de humanoides visa sintetizar agentes visuais realistas que possam interagir com humanos por meio de vídeo contínuo e responsivo. Apesar dos avanços recentes na síntese de vídeo, os métodos existentes frequentemente lidam com o compromisso entre síntese de alta fidelidade e requisitos de interação em tempo real. Neste artigo, propomos o FlowAct-R1, uma estrutura especificamente projetada para geração de vídeo de humanoides interativa em tempo real. Construída sobre uma arquitetura MMDiT, o FlowAct-R1 permite a síntese em fluxo de vídeo com durações arbitrárias, mantendo uma baixa latência de resposta. Introduzimos uma estratégia de forçamento de difusão por blocos, complementada por uma nova variante de auto-forçamento, para aliviar o acúmulo de erros e garantir consistência temporal de longo prazo durante a interação contínua. Ao alavancar uma destilação eficiente e otimizações em nível de sistema, nossa estrutura atinge estáveis 25fps em resolução 480p com um tempo para o primeiro quadro (TTFF) de apenas cerca de 1,5 segundos. O método proposto oferece controle holístico e refinado de corpo inteiro, permitindo que o agente transite naturalmente entre diversos estados comportamentais em cenários interativos. Resultados experimentais demonstram que o FlowAct-R1 alcança uma vivacidade comportamental excepcional e realismo perceptual, mantendo uma generalização robusta entre diversos estilos de personagem.
A edição de imagens baseada em instruções está entre as áreas de mais rápido desenvolvimento na IA generativa. No último ano, o campo atingiu um novo patamar, com dezenas de modelos de código aberto lançados juntamente com sistemas comerciais altamente capacitados. No entanto, apenas um número limitado de abordagens de código aberto alcança atualmente qualidade para aplicações reais. Além disso, os modelos de difusão, a escolha dominante para esses fluxos de trabalho, são frequentemente grandes e computacionalmente dispendiosos para muitas implementações e ambientes de pesquisa, com variantes amplamente utilizadas contendo tipicamente entre 6B e 20B de parâmetros. Este artigo apresenta um fluxo de trabalho compacto e de alto rendimento para edição de imagens baseada em instruções, que utiliza o modelo moderno Qwen3-VL de 2B de parâmetros para orientar o processo de edição e o modelo de difusão Sana1.5 de 1.6B de parâmetros para a geração de imagens. As nossas decisões de design em arquitetura, processamento de dados, configuração de treino e avaliação visam uma inferência de baixo custo e uma estrita consistência com a imagem fonte, mantendo alta qualidade nas principais categorias de edição viáveis nesta escala. Avaliado nos benchmarks ImgEdit e GEdit, o método proposto iguala ou supera o desempenho de linhas de base substancialmente mais pesadas, incluindo modelos com várias vezes mais parâmetros e custo de inferência superior, e é particularmente forte em edições que exigem a preservação da imagem de entrada, como ajuste de atributos, remoção de objetos, edições de fundo e substituição direcionada. O modelo cabe dentro de 24 GB de memória GPU e gera imagens editadas com resolução de até 2K em aproximadamente 4 segundos numa NVIDIA H100 em BF16, sem otimizações de inferência adicionais ou destilação.
O principal desafio da IA para a Ciência não é apenas o raciocínio, mas a capacidade de criar métodos computacionais num mundo científico aberto e em constante evolução. Os agentes baseados em LLM existentes dependem de bibliotecas de ferramentas estáticas e pré-definidas, um paradigma que falha fundamentalmente em domínios científicos onde as ferramentas são escassas, heterogéneas e intrinsecamente incompletas. Neste artigo, propomos a Evolução de Ferramentas em Tempo de Teste (TTE), um novo paradigma que permite aos agentes sintetizar, verificar e evoluir ferramentas executáveis durante a inferência. Ao transformar as ferramentas de recursos fixos em artefactos orientados por problemas, o TTE supera a rigidez e as limitações de cauda longa das bibliotecas de ferramentas estáticas. Para facilitar uma avaliação rigorosa, introduzimos o SciEvo, um benchmark que compreende 1.590 tarefas de raciocínio científico suportadas por 925 ferramentas evoluídas automaticamente. Experiências extensivas mostram que o TTE alcança um desempenho de ponta tanto em precisão como em eficiência de ferramentas, permitindo ao mesmo tempo uma adaptação eficaz de ferramentas computacionais entre domínios. O código e o benchmark foram disponibilizados em https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.
Apresentamos uma famílias de Modelos de Fundação Musical de código aberto projetados para avançar a compreensão e geração musical em larga escala em diversas tarefas e modalidades. Nossa estrutura consiste em quatro componentes principais: (1) HeartCLAP, um modelo de alinhamento áudio-texto; (2) HeartTranscriptor, um modelo robusto de reconhecimento de letras otimizado para cenários musicais do mundo real; e (3) HeartCodec, um tokenizador de codec musical de baixa taxa de quadros (12,5 Hz) e alta fidelidade que captura a estrutura musical de longo alcance, preservando detalhes acústicos refinados e permitindo modelagem autoregressiva eficiente; (4) HeartMuLa, um modelo de geração de músicas baseado em LLM capaz de sintetizar música de alta fidelidade sob condições ricas e controláveis pelo usuário (por exemplo, descrições de estilo textuais, letras e áudio de referência). Além disso, ele oferece dois modos especializados: (i) controle refinado de atributos musicais, que permite aos usuários especificar o estilo de diferentes seções da música (por exemplo, introdução, verso, refrão) usando prompts de linguagem natural; e (ii) geração de música curta e cativante, adequada como música de fundo para vídeos curtos. Por fim, o HeartMuLa melhora significativamente quando dimensionado para 7 bilhões de parâmetros. Pela primeira vez, demonstramos que um sistema de nível comercial, comparável ao Suno, pode ser reproduzido usando dados e recursos de GPU em escala acadêmica. Esperamos que esses modelos de fundação sirvam como bases sólidas para pesquisas futuras e facilitem aplicações práticas na produção de conteúdo multimodal.
O avanço da inteligência artificial em direção à ciência agêntica está atualmente limitado pelo desafio da autonomia de horizonte ultra longo – a capacidade de manter coerência estratégica e correção iterativa ao longo de ciclos experimentais que abrangem dias ou semanas. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado proficiência no raciocínio de horizonte curto, eles são facilmente sobrecarregados por detalhes de execução em ambientes de pesquisa do mundo real, caracterizados por alta dimensionalidade e feedback retardado, falhando em consolidar feedback esparsos em orientações coerentes de longo prazo. Aqui, apresentamos o ML-Master 2.0, um agente autónomo que domina a engenharia de aprendizagem automática (MLE) de horizonte ultra longo, um microcosmo representativo da descoberta científica. Ao reformular a gestão de contexto como um processo de acumulação cognitiva, nossa abordagem introduz o Cache Cognitivo Hierárquico (HCC), uma arquitetura de múltiplos níveis inspirada em sistemas computacionais que permite a diferenciação estrutural da experiência ao longo do tempo. Ao destilar dinamicamente traços de execução transitórios em conhecimento estável e sabedoria transversal a tarefas, o HCC permite que os agentes desacoplem a execução imediata da estratégia experimental de longo prazo, superando efetivamente os limites de escalabilidade das janelas de contexto estáticas. Nas avaliações no MLE-Bench da OpenAI, com orçamentos de 24 horas, o ML-Master 2.0 atinge uma taxa de medalhas state-of-the-art de 56,44%. Nossos resultados demonstram que a autonomia de horizonte ultra longo fornece um projeto escalável para IAs capazes de exploração autónoma além de complexidades com precedentes humanos.
Os modelos de pré-treinamento visão-linguagem (VLP) demonstram forte desempenho em diversas tarefas subsequentes ao aprenderem de pares imagem-texto em larga escala por meio de pré-treinamento contrastivo. A disponibilização de extensos conjuntos de dados de imagem-texto em inglês (por exemplo, COYO-700M e LAION-400M) permitiu a ampla adoção de modelos como CLIP e SigLIP em tarefas incluindo recuperação cross-modal e legendagem de imagens. No entanto, o avanço do pré-treinamento visão-linguagem em chinês tem ficado substancialmente atrás, devido à escassez de dados imagem-texto em chinês de alta qualidade. Para preencher esta lacuna, desenvolvemos um *pipeline* abrangente para construir um conjunto de dados cross-modal chinês de alta qualidade. Como resultado, propomos DanQing, que contém 100 milhões de pares imagem-texto coletados do Common Crawl. Diferente dos conjuntos de dados existentes, o DanQing é curado por meio de um processo de seleção mais rigoroso, resultando em qualidade de dados superior. Além disso, o DanQing é construído principalmente a partir de dados da web de 2024-2025, permitindo que os modelos capturem melhor as tendências semânticas em evolução e, assim, oferecendo maior utilidade prática. Comparamos o DanQing com conjuntos de dados existentes através do pré-treinamento contínuo do modelo SigLIP2. Resultados experimentais mostram que o DanQing alcança consistentemente desempenho superior em uma série de tarefas subsequentes em chinês, incluindo classificação *zero-shot*, recuperação cross-modal e avaliações baseadas em LMM. Para facilitar pesquisas futuras em pré-treinamento visão-linguagem em chinês, disponibilizaremos o conjunto de dados DanQing como código aberto sob a licença Creative Commons CC-BY 4.0.
Modelos de difusão e fluxo de vídeo em larga escala alcançaram sucesso notável na geração de vídeos de alta qualidade, mas o seu uso em aplicações interativas em tempo real permanece limitado devido ao seu processo de amostragem multi-etapas ineficiente. Neste trabalho, apresentamos a Distilação por Correspondência de Transição (TMD), uma estrutura nova para destilar modelos de difusão de vídeo em geradores eficientes de poucas etapas. A ideia central do TMD é corresponder a trajetória de remoção de ruído multi-etapas de um modelo de difusão com um processo de transição de probabilidade de poucas etapas, onde cada transição é modelada como um fluxo condicional leve. Para permitir uma destilação eficiente, decompomos a espinha dorsal de difusão original em dois componentes: (1) uma espinha dorsal principal, compreendendo a maioria das camadas iniciais, que extrai representações semânticas em cada etapa de transição externa; e (2) uma cabeça de fluxo, consistindo nas últimas camadas, que aproveita essas representações para realizar múltiplas atualizações de fluxo internas. Dado um modelo de difusão de vídeo pré-treinado, introduzimos primeiro uma cabeça de fluxo ao modelo e adaptamo-lo num mapa de fluxo condicional. Em seguida, aplicamos a destilação por correspondência de distribuição ao modelo estudante com a execução da cabeça de fluxo em cada etapa de transição. Experiências extensivas na destilação dos modelos de texto para vídeo Wan2.1 1.3B e 14B demonstram que o TMD oferece um compromisso flexível e robusto entre a velocidade de geração e a qualidade visual. Em particular, o TMD supera os modelos destilados existentes sob custos de inferência comparáveis em termos de fidelidade visual e aderência ao prompt. Página do projeto: https://research.nvidia.com/labs/genair/tmd
Modelos recentes de geração de vídeo revelaram o surgimento do raciocínio em Cadeia de Frames (Chain-of-Frame - CoF), permitindo inferência visual frame a frame. Com essa capacidade, os modelos de vídeo foram aplicados com sucesso a várias tarefas visuais (por exemplo, resolução de labirintos, quebra-cabeças visuais). No entanto, seu potencial para melhorar a geração de texto para imagem (Text-to-Image - T2I) permanece amplamente inexplorado devido à ausência de um ponto de partida de raciocínio visual claramente definido e de estados intermediários interpretáveis no processo de geração T2I. Para preencher essa lacuna, propomos o CoF-T2I, um modelo que integra o raciocínio CoF na geração T2I por meio de um refinamento visual progressivo, onde os frames intermediários atuam como etapas explícitas de raciocínio e o frame final é tomado como saída. Para estabelecer esse processo de geração explícito, criamos o CoF-Evol-Instruct, um conjunto de dados de trajetórias CoF que modelam o processo de geração da semântica para a estética. Para melhorar ainda mais a qualidade e evitar artefatos de movimento, habilitamos uma operação de codificação independente para cada frame. Experimentos mostram que o CoF-T2I supera significativamente o modelo de vídeo base e alcança desempenho competitivo em benchmarks desafiadores, atingindo 0,86 no GenEval e 7,468 no Imagine-Bench. Esses resultados indicam a promessa substancial dos modelos de vídeo para o avanço da geração de imagens de alta qualidade a partir de texto.
Apresentamos o Alterbute, um método baseado em difusão para editar os atributos intrínsecos de um objeto em uma imagem. Permitimos alterar a cor, a textura, o material e até mesmo a forma de um objeto, preservando sua identidade percebida e o contexto da cena. As abordagens existentes dependem de *priors* não supervisionados que frequentemente falham em preservar a identidade ou usam supervisão excessivamente restritiva que impede variações intrínsecas significativas. Nosso método baseia-se em: (i) um objetivo de treinamento relaxado que permite ao modelo alterar tanto atributos intrínsecos quanto extrínsecos condicionado a uma imagem de referência de identidade, um *prompt* textual que descreve os atributos intrínsecos alvo, e uma imagem de fundo e uma máscara de objeto que definem o contexto extrínseco. Na inferência, restringimos as alterações extrínsecas reutilizando o fundo original e a máscara do objeto, garantindo assim que apenas os atributos intrínsecos desejados sejam alterados; (ii) Entidades Nomeadas Visuais (VNEs) - categorias de identidade visual de granularidade fina (por exemplo, "Porsche 911 Carrera") que agrupam objetos que compartilham características definidoras de identidade, permitindo variação nos atributos intrínsecos. Utilizamos um modelo de visão e linguagem para extrair automaticamente rótulos de VNE e descrições de atributos intrínsecos de um grande conjunto de dados de imagens públicas, permitindo uma supervisão escalável e preservadora de identidade. O Alterbute supera os métodos existentes na edição de atributos intrínsecos de objetos com preservação de identidade.
Os recentes avanços nos modelos de difusão (DMs) de texto para imagem (T2I) permitiram a síntese visual de alta qualidade a partir de diversos prompts textuais. No entanto, a maioria dos DMs T2I existentes, mesmo aqueles equipados com codificadores de texto baseados em modelos de linguagem grande (LLMs), permanecem como mapeadores texto-pixel – eles empregam LLMs meramente como codificadores de texto, sem aproveitar suas capacidades de raciocínio inerentes para inferir o que deve ser representado visualmente dado o prompt textual. Para ir além dessa geração literal, propomos o paradigma *think-then-generate* (T2G, pensar-então-gerar), onde o codificador de texto baseado em LLM é incentivado a raciocinar e reescrever os prompts brutos do usuário; os estados dos prompts reescritos servem então como condicionamento para a difusão. Para alcançar isto, primeiro ativamos o padrão pensar-então-reescrever do codificador LLM com um processo leve de ajuste fino supervisionado. Subsequentemente, o codificador LLM e a base de difusão são co-otimizados para garantir um raciocínio fiel sobre o contexto e uma renderização precisa da semântica via Dual-GRPO. Em particular, o codificador de texto é reforçado usando recompensas fundamentadas na imagem para inferir e recordar conhecimento mundial, enquanto a base de difusão é impulsionada a produzir imagens semanticamente consistentes e visualmente coerentes. Experimentos mostram melhorias substanciais na consistência factual, no alinhamento semântico e no realismo visual em benchmarks de geração e edição de imagens baseadas em raciocínio, alcançando 0,79 no score WISE, quase equivalente ao GPT-4. Nossos resultados constituem um passo promissor em direção a modelos unificados de próxima geração com capacidades de raciocínio, expressão e demonstração.
Os modelos vídeo-linguagem (VLMs) mais avançados atualmente continuam sendo proprietários. Os modelos de pesos abertos mais robustos ou dependem de dados sintéticos de VLMs proprietários, efetivamente destilando-os, ou não divulgam seus dados ou metodologia de treinamento. Consequentemente, a comunidade de código aberto carece das bases necessárias para avançar além do estado da arte em modelos linguagem para vídeo (e imagem). Crucialmente, muitas aplicações downstream exigem mais do que apenas compreensão de vídeo de alto nível; elas requerem grounding – seja por apontamento ou rastreamento em pixels. Até mesmo os modelos proprietários carecem dessa capacidade. Apresentamos o Molmo2, uma nova família de VLMs que representa o estado da arte entre os modelos de código aberto e demonstra capacidades excepcionais e inéditas em tarefas de grounding por apontamento em imagem única, múltiplas imagens e vídeos. Nossa principal contribuição é um conjunto de 7 novos conjuntos de dados de vídeo e 2 de múltiplas imagens, incluindo um conjunto de legendas de vídeo altamente detalhadas para pré-treinamento, um conjunto de dados de perguntas e respostas livres em vídeo para ajuste fino, um novo conjunto de dados de rastreamento de objetos com consultas complexas e um conjunto de dados inovador de apontamento em vídeo, todos coletados sem o uso de VLMs fechados. Também apresentamos uma metodologia de treinamento para esses dados que utiliza um esquema eficiente de empacotamento e codificação de árvore de mensagens, e demonstramos que a atenção bidirecional em tokens visuais e uma nova estratégia de ponderação de tokens melhoram o desempenho. Nosso modelo de 8B, líder em sua classe, supera outros na categoria de modelos de pesos e dados abertos em vídeos curtos, contagem e legendagem, e é competitivo em vídeos longos. Em grounding de vídeo, o Molmo2 supera significativamente modelos de pesos abertos existentes, como o Qwen3-VL (35,5 vs 29,6 de precisão em contagem de vídeo), e ultrapassa modelos proprietários como o Gemini 3 Pro em algumas tarefas (38,4 vs 20,0 F1 em apontamento de vídeo e 56,2 vs 41,1 J&F em rastreamento de vídeo).
A inferência de ações físicas a partir de observações visuais é uma capacidade fundamental para o avanço da inteligência artificial no mundo físico. Alcançar este objetivo requer conjuntos de dados de vídeo de ação em larga escala e vocabulário aberto que abranjam domínios amplos. Apresentamos o Action100M, um conjunto de dados em larga escala construído a partir de 1,2 milhão de vídeos instrucionais da Internet (14,6 anos de duração total), resultando em aproximadamente 100 milhões de segmentos temporalmente localizados com supervisão de ação de vocabulário aberto e legendas ricas. O Action100M é gerado por um *pipeline* totalmente automatizado que (i) realiza segmentação temporal hierárquica usando *embeddings* do V-JEPA 2, (ii) produz legendas multinível para quadros e segmentos organizadas como uma "Árvore de Legendas" (*Tree-of-Captions*), e (iii) agrega evidências com um modelo de raciocínio (GPT-OSS-120B) sob um procedimento de "Autorrefinamento" (*Self-Refine*) em múltiplas rodadas para gerar anotações estruturadas (ação breve/detalhada, ator, legenda breve/detalhada). O treinamento do VL-JEPA no Action100M demonstra melhoras consistentes com o aumento da escala de dados e um forte desempenho *zero-shot* em diversos *benchmarks* de reconhecimento de ação, estabelecendo o Action100M como uma nova base para pesquisa escalável em compreensão de vídeo e modelagem do mundo.
Embora os agentes baseados em LLM possam interagir com ambientes por meio da invocação de ferramentas externas, suas capacidades expandidas também amplificam os riscos de segurança. Monitorar comportamentos de invocação de ferramentas em nível de etapa em tempo real e intervir proativamente antes da execução insegura é crucial para a implantação de agentes, mas permanece pouco explorado. Neste trabalho, primeiro construímos o TS-Bench, um novo benchmark para detecção de segurança na invocação de ferramentas em nível de etapa em agentes LLM. Em seguida, desenvolvemos um modelo de guardrail, o TS-Guard, usando aprendizado por reforço multitarefa. O modelo detecta proativamente ações de invocação de ferramentas inseguras antes da execução, raciocinando sobre o histórico de interação. Ele avalia a nocividade da solicitação e as correlações ação-ataque, produzindo julgamentos de segurança e feedback interpretáveis e generalizáveis. Além disso, introduzimos o TS-Flow, uma estrutura de raciocínio orientada por feedback de guardrail para agentes LLM, que reduz as invocações nocivas de ferramentas em agentes de estilo ReAct em média 65% e melhora a conclusão de tarefas benignas em aproximadamente 10% sob ataques de injeção de prompt.
A rápida evolução dos Modelos de Linguagem de Grande Porte (LLMs) e dos Modelos Multimodais de Linguagem de Grande Porte (MLLMs) tem produzido ganhos substanciais em capacidade de raciocínio, percepção e geração através da linguagem e da visão. No entanto, permanece incerto se esses avanços resultam em melhorias proporcionais em segurança, em parte devido a práticas de avaliação fragmentadas, limitadas a modalidades ou modelos de ameaça únicos. Neste relatório, apresentamos uma avaliação integrada de segurança de 7 modelos de fronteira: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro e Seedream 4.5. Avaliamos cada modelo em configurações de linguagem, visão-linguagem e geração de imagens usando um protocolo unificado que integra avaliação de benchmark, avaliação adversarial, avaliação multilingue e avaliação de conformidade. A agregação das nossas avaliações em rankings de segurança e perfis de segurança dos modelos através de múltiplos modos de avaliação revela um panorama de segurança acentuadamente heterogéneo. Enquanto o GPT-5.2 demonstra um desempenho de segurança consistentemente forte e equilibrado através das avaliações, outros modelos exibem trade-offs pronunciados entre segurança em benchmark, alinhamento adversarial, generalização multilingue e conformidade regulatória. Tanto as modalidades de linguagem como as de visão-linguagem mostram vulnerabilidade significativa sob avaliação adversarial, com todos os modelos a degradarem-se substancialmente apesar de fortes resultados em benchmarks padrão. Os modelos de texto-para-imagem alcançam um alinhamento relativamente mais forte em categorias de risco visual regulamentadas, mas permanecem frágeis sob instruções (prompts) adversarialmente elaboradas ou semanticamente ambíguas. No geral, estes resultados mostram que a segurança nos modelos de fronteira é inerentemente multidimensional – moldada pela modalidade, idioma e esquema de avaliação, sublinhando a necessidade de avaliações de segurança padronizadas para avaliar com precisão o risco no mundo real e orientar o desenvolvimento e implementação responsável de modelos.
O Raciocínio Integrado com Ferramentas (TIR) capacita os grandes modelos de linguagem (LLMs) a enfrentarem tarefas complexas intercalando etapas de raciocínio com interações de ferramentas externas. No entanto, os métodos existentes de aprendizagem por reforço geralmente dependem de recompensas a nível de resultado ou de trajetória, atribuindo vantagens uniformes a todas as etapas de uma trajetória. Esta atribuição de crédito de granularidade grossa não consegue distinguir chamadas de ferramentas eficazes das redundantes ou errôneas, particularmente em cenários de longo horizonte e múltiplos turnos. Para resolver isto, propomos o MatchTIR, uma estrutura que introduz supervisão de granularidade fina através da atribuição de recompensas a nível de turno baseada em correspondência bipartida e estimação de vantagem de duplo nível. Especificamente, formulamos a atribuição de crédito como um problema de correspondência bipartida entre traços previstos e traços de referência (ground-truth), utilizando duas estratégias de atribuição para derivar recompensas densas a nível de turno. Adicionalmente, para equilibrar a precisão a nível de etapa local com o sucesso global da tarefa, introduzimos um esquema de estimação de vantagem de duplo nível que integra sinais a nível de turno e de trajetória, atribuindo valores de vantagem distintos a turnos de interação individuais. Experiências extensas em três benchmarks demonstram a superioridade do MatchTIR. Notablemente, o nosso modelo de 4B supera a maioria dos concorrentes de 8B, particularmente em tarefas de longo horizonte e múltiplos turnos. Os nossos códigos estão disponíveis em https://github.com/quchangle1/MatchTIR.
Os Grandes Modelos de Linguagem (LLMs) emergiram como operadores poderosos para busca evolutiva, contudo, o projeto de estruturas de suporte (scaffolds) eficientes permanece ad hoc. Embora promissores, os sistemas atuais com LLM no circuito carecem de uma abordagem sistemática para gerenciar o processo evolutivo. Identificamos três modos de falha distintos: Poluição de Contexto, onde o histórico do experimento tendencia a geração de candidatos futuros; Colapso Modal, onde os agentes estagnam em mínimos locais devido a um pobre equilíbrio entre exploração e exploração; e Colaboração Fraca, onde estratégias rígidas de cruzamento falham em aproveitar efetivamente as trajetórias de busca paralelas. Apresentamos a Evolução Consistente com Consciência do Progresso (PACEvolve), uma estrutura projetada para governar robustamente o contexto do agente e a dinâmica de busca, para enfrentar esses desafios. O PACEvolve combina o gerenciamento hierárquico de contexto (HCM) com a poda para abordar a poluição de contexto; o retrocesso baseado em momento (MBB) para escapar de mínimos locais; e uma política de amostragem auto-adaptativa que unifica o retrocesso e o cruzamento para uma coordenação de busca dinâmica (CE), permitindo que os agentes equilibrem o refinamento interno com a colaboração entre trajetórias. Demonstramos que o PACEvolve fornece um caminho sistemático para a autossuperação consistente de longo horizonte, alcançando resultados de última geração no LLM-SR e no KernelBench, enquanto descobre soluções que superam o recorde no Modded NanoGPT.
A geração de moléculas que satisfaçam restrições numéricas precisas em múltiplas propriedades físico-químicas é crucial e desafiadora. Embora os grandes modelos de linguagem (LLMs) sejam expressivos, eles lutam com o controle multi-objetivo preciso e o raciocínio numérico sem estrutura e *feedback* externos. Apresentamos o M olGen, uma estrutura fragmentada, aumentada por recuperação, de dois estágios para geração de moléculas sob restrições de múltiplas propriedades. Estágio I: Geração de protótipo: um raciocinador multiagente realiza edições fragmentadas, ancoradas em recuperação, para produzir um candidato próximo à região viável. Estágio II: Otimização de granularidade fina baseada em RL: um otimizador em nível de fragmento, treinado com Otimização de Política Relativa de Grupo (GRPO), aplica refinamentos de um ou múltiplos saltos para minimizar explicitamente os erros das propriedades em direção ao nosso alvo, enquanto regula a complexidade da edição e o desvio do protótipo. Um grande conjunto de dados, curado automaticamente, com cadeias de raciocínio de edições de fragmentos e deltas de propriedades medidas sustenta ambos os estágios, permitindo supervisão determinística e reproduzível e raciocínio controlável de múltiplos saltos. Ao contrário de trabalhos anteriores, nossa estrutura raciocina melhor sobre as moléculas, aproveitando os fragmentos, e suporta refinamento controlável em direção a alvos numéricos. Experimentos sobre geração sob dois conjuntos de restrições de propriedades (QED, LogP, Peso Molecular e HOMO, LUMO) mostram ganhos consistentes em validade e satisfação precisa de alvos multi-propriedade, superando LLMs robustos e algoritmos baseados em grafos.
Os modelos unificados de geração e edição de imagens sofrem com severa interferência de tarefas em arquiteturas densas de transformadores de difusão, onde um espaço de parâmetros compartilhado deve fazer concessões entre objetivos conflitantes (ex.: edição local versus geração orientada por assunto). Embora o paradigma esparso de Mistura de Especialistas (MoE) seja uma solução promissora, suas redes de gateamento permanecem agnósticas à tarefa, operando com base em características locais e alheias à intenção global da tarefa. Essa natureza agnóstica impede uma especialização significativa e não resolve a interferência subjacente das tarefas. Neste artigo, propomos uma nova estrutura para injetar intenção semântica no roteamento do MoE. Introduzimos um Esquema Hierárquico de Anotação Semântica de Tarefas para criar descritores estruturados (ex.: escopo, tipo, preservação). Em seguida, projetamos uma Regularização de Alinhamento Preditivo para alinhar as decisões internas de roteamento com a semântica de alto nível da tarefa. Essa regularização transforma a rede de gateamento de um executor agnóstico em um centro de despacho. Nosso modelo mitiga efetivamente a interferência de tarefas, superando as linhas de base densas em fidelidade e qualidade, e nossa análise mostra que os especialistas desenvolvem naturalmente especializações claras e semanticamente correlacionadas.
Os modelos generativos de vídeo de última geração produzem conteúdo visual promissor, mas frequentemente violam princípios físicos básicos, limitando sua utilidade. Embora alguns atribuam essa deficiência a um entendimento insuficiente da física proveniente do pré-treinamento, descobrimos que a lacuna na plausibilidade física também decorre de estratégias de inferência subótimas. Portanto, introduzimos o WMReward e tratamos a melhoria da plausibilidade física na geração de vídeo como um problema de alinhamento no momento da inferência. Especificamente, aproveitamos a forte física anterior de um modelo mundial latente (aqui, VJEPA-2) como uma recompensa para buscar e direcionar múltiplos trajetos de remoção de ruído candidatos, permitindo escalar o cálculo no momento do teste para melhor desempenho na geração. Empiricamente, nossa abordagem melhora substancialmente a plausibilidade física em configurações de geração condicionadas por imagem, multiframe e texto, com validação de um estudo de preferência humana. Notavelmente, no ICCV 2025 Perception Test PhysicsIQ Challenge, alcançamos uma pontuação final de 62,64%, conquistando o primeiro lugar e superando o estado da arte anterior em 7,42%. Nosso trabalho demonstra a viabilidade de usar modelos mundiais latentes para melhorar a plausibilidade física da geração de vídeo, além desta instanciação ou parametrização específica.
A capacidade de seguir instruções é crucial para os grandes modelos de linguagem, mas as instruções do mundo real frequentemente contêm estruturas lógicas, como dependências sequenciais e ramificações condicionais. Os métodos existentes geralmente constroem conjuntos de dados com restrições paralelas e otimizam recompensas médias, ignorando dependências lógicas e produzindo sinais ruidosos. Propomos um framework de treinamento de estrutura lógica, o LSRIF, que modela explicitamente a lógica das instruções. Primeiro, construímos um conjunto de dados, o LSRInstruct, com estruturas de restrição como tipos paralelos, sequenciais e condicionais. Em seguida, projetamos um método de recompensa com consciência estrutural, o LSRIF, que inclui agregação média para estruturas paralelas, propagação de penalidade por falha para estruturas sequenciais e recompensas seletivas para ramificações condicionais. Experimentos mostram que o LSRIF traz melhorias significativas no seguimento de instruções (dentro e fora do domínio) e no raciocínio geral. Análises revelam que aprender com estruturas lógicas explícitas traz atualizações de parâmetros nas camadas de atenção e aguça a atenção em nível de token para restrições e operadores lógicos.
Atualmente, o raciocínio latente multimodal frequentemente depende de supervisão externa (por exemplo, imagens auxiliares), ignorando a dinâmica intrínseca da atenção visual. Neste trabalho, identificamos uma Lacuna de Percepção crítica na destilação: os modelos alunos frequentemente imitam a saída textual de um professor, mas focam em regiões visuais fundamentalmente divergentes, efetivamente dependendo de *priors* linguísticos em vez de percepção fundamentada. Para superar isso, propomos o LaViT, uma estrutura que alinha pensamentos visuais latentes em vez de incorporações estáticas. O LaViT obriga o aluno a reconstruir autoregressivamente a semântica visual e as trajetórias de atenção do professor antes da geração de texto, empregando um mecanismo de portão sensorial curricular para evitar aprendizagem por atalhos. Experimentos extensivos mostram que o LaViT melhora significativamente a fundamentação visual, alcan ganhos de até +16,9% em tarefas complexas de raciocínio e permitindo que um modelo compacto de 3B supere variantes de código aberto maiores e modelos proprietários como o GPT-4o.
Apesar dos avanços significativos na geração 4D, a criação de estruturas de controle (rig) e movimento, os componentes estruturais e dinâmicos centrais da animação, são tipicamente modelados como problemas separados. Os *pipelines* existentes dependem de esqueletos e pesos de *skinning* de referência para a geração de movimento e tratam a criação automática de rigs como um processo independente, comprometendo a escalabilidade e a interpretabilidade. Apresentamos o RigMo, uma estrutura generativa unificada que aprende conjuntamente o rig e o movimento diretamente a partir de sequências de malhas brutas, sem qualquer anotação de rig fornecida por humanos. O RigMo codifica as deformações por vértice em dois espaços latentes compactos: um espaço latente de rig, que é decodificado em ossos Gaussianos explícitos e pesos de *skinning*, e um espaço latente de movimento, que produz transformações SE(3) variantes no tempo. Juntas, essas saídas definem uma malha animável com estrutura explícita e movimento coerente, permitindo a inferência direta (*feed-forward*) de rig e movimento para objetos deformáveis. Para além da descoberta unificada de rig e movimento, introduzimos um modelo Motion-DiT que opera no espaço latente do RigMo e demonstramos que esses espaços latentes conscientes da estrutura podem suportar naturalmente tarefas de geração de movimento subsequentes. Experiências no DeformingThings4D, Objaverse-XL e TrueBones demonstram que o RigMo aprende rigs suaves, interpretáveis e fisicamente plausíveis, ao mesmo tempo que alcança uma reconstrução e generalização a nível de categoria superiores em comparação com as linhas de base existentes de criação automática de rigs e deformação. O RigMo estabelece um novo paradigma para a modelação dinâmica 3D unificada, consciente da estrutura e escalável.
Representações 3D poderosas, como os mapas de pontos invariantes DUSt3R, que codificam a forma 3D e os parâmetros da câmera, avançaram significativamente a reconstrução 3D *feed-forward*. Embora os mapas de pontos assumam cenas estáticas, os Mapas de Pontos Dinâmicos (DPMs) estendem este conceito para conteúdo 3D dinâmico, representando adicionalmente o movimento da cena. No entanto, os DPMs existentes são limitados a pares de imagens e, como o DUSt3R, exigem pós-processamento via otimização quando mais de duas visualizações estão envolvidas. Argumentamos que os DPMs são mais úteis quando aplicados a vídeos e introduzimos o V-DPM para demonstrar isso. Primeiro, mostramos como formular DPMs para entrada de vídeo de forma a maximizar o poder representacional, facilitar a predição neural e permitir a reutilização de modelos pré-treinados. Segundo, implementamos essas ideias sobre o VGGT, um recente e poderoso reconstutor 3D. Embora o VGGT tenha sido treinado em cenas estáticas, mostramos que uma quantidade modesta de dados sintéticos é suficiente para adaptá-lo a um preditor V-DPM eficaz. Nossa abordagem atinge desempenho de última geração em reconstrução 3D e 4D para cenas dinâmicas. Em particular, ao contrário de extensões dinâmicas recentes do VGGT, como o P3, os DPMs recuperam não apenas a profundidade dinâmica, mas também o movimento 3D completo de cada ponto na cena.
A detecção de respostas evasivas em teleconferências de resultados é crucial para a transparência financeira, mas o progresso é dificultado pela falta de benchmarks em larga escala. Apresentamos o EvasionBench, composto por 30.000 amostras de treinamento e 1.000 amostras de teste anotadas humanamente (Kappa de Cohen 0,835) abrangendo três níveis de evasão. Nossa principal contribuição é uma estrutura de anotação multi-modelo que aproveita uma percepção central: o desacordo entre LLMs de fronteira sinaliza exemplos difíceis mais valiosos para o treinamento. Mineramos casos limítrofes onde dois anotadores fortes conflitam, usando um juiz para resolver os rótulos. Essa abordagem supera a destilação de modelo único em 2,4%, com as amostras resolvidas pelo juiz melhorando a generalização apesar de uma maior perda de treinamento (0,421 vs 0,393) – evidência de que a mineração de desacordo atua como regularização implícita. Nosso modelo treinado Eva-4B (4 bilhões de parâmetros) atinge 81,3% de precisão, superando sua base em 25 pontos percentuais e se aproximando do desempenho de LLMs de fronteira a uma fração do custo de inferência.
A melhoria das capacidades de raciocínio dos Grandes Modelos de Linguagem (LLMs) tem sido um tópico contínuo recentemente. No entanto, a maioria dos trabalhos relevantes baseia-se em recompensas de resultado ao nível da trajetória, carecendo de supervisão refinada durante o processo de raciocínio. Outras estruturas de treinamento existentes que tentam combinar sinais de processo para otimizar os LLMs também dependem fortemente de etapas adicionais tediosas, como MCTS, treinamento de um modelo de recompensa separado, etc., prejudicando a eficiência do treinamento. Além disso, a intuição por trás do design dos sinais de processo carece de suporte teórico rigoroso, deixando a compreensão do mecanismo de otimização obscura. Neste artigo, propomos o Process Reward Learning (PRL), que decompõe o objetivo de aprendizagem por reforço com regularização de entropia em etapas intermediárias, com recompensas de processo rigorosas que podem ser atribuídas aos modelos de acordo. Partindo da motivação teórica, derivamos a formulação do PRL, que é essencialmente equivalente ao objetivo de maximização de recompensa mais um termo de penalidade de divergência KL entre o modelo de política e um modelo de referência. No entanto, o PRL pode transformar a recompensa de resultado em sinais de supervisão de processo, o que ajuda a orientar melhor a exploração durante a otimização por RL. A partir dos nossos resultados experimentais, demonstramos que o PRL não só melhora o desempenho médio da capacidade de raciocínio dos LLMs, medido pela média @ n, mas também amplia o limite do raciocínio ao melhorar a métrica de aprovação @ n. Extensos experimentos mostram que a eficácia do PRL pode ser verificada e generalizada.
Agentes de role-playing (RP) dependem de perfis comportamentais para agir de forma consistente em diversos contextos narrativos, no entanto, os perfis existentes são em grande parte não estruturados, não executáveis e fracamente validados, resultando em um comportamento do agente frágil. Propomos as Árvores de Decisão Codificadas (CDT), uma estrutura orientada a dados que induz uma estrutura de decisão executável e interpretável a partir de dados narrativos em larga escala. A CDT representa perfis comportamentais como uma árvore de regras condicionais, onde os nós internos correspondem a condições de cena validadas e as folhas codificam afirmações comportamentais fundamentadas, permitindo a recuperação determinística de regras contextualmente apropriadas no momento da execução. A árvore é aprendida através da indução iterativa de regras cena-ação candidatas, validação das mesmas em relação aos dados e refinamento por meio de especialização hierárquica, produzindo perfis que suportam inspeção transparente e atualizações fundamentadas. Em múltiplos benchmarks, a CDT supera substancialmente perfis escritos por humanos e métodos anteriores de indução de perfis em 85 personagens de 16 artefatos, indicando que representações comportamentais codificadas e validadas levam a uma ancoragem mais confiável do agente.
A tradução do texto para português, mantendo o estilo acadêmico e a precisão técnica, é a seguinte: A conversão de texto clínico para SQL no mundo real exige raciocínio sobre tabelas heterogêneas de EHR (Registros Eletrônicos de Saúde), janelas temporais e coortes de similaridade de pacientes para produzir consultas executáveis. Apresentamos o CLINSQL, um *benchmark* de 633 tarefas anotadas por especialistas na versão MIMIC-IV v3.1 que demanda junções de múltiplas tabelas, filtros clinicamente significativos e SQL executável. Resolver o CLINSQL implica navegar por metadados de esquema e sistemas de codificação clínica, lidar com contextos longos e compor consultas de múltiplos passos que vão além do texto-para-SQL tradicional. Avaliamos 22 modelos proprietários e de código aberto sob autorrefinamento com *Chain-of-Thought* (Cadeia de Pensamento) e utilizamos análise de SQL baseada em rubrica com verificações de execução que priorizam requisitos clínicos críticos. Apesar dos avanços recentes, o desempenho permanece muito distante da confiabilidade clínica: no conjunto de teste, o GPT-5-mini atinge 74,7% de pontuação de execução, o DeepSeek-R1 lidera entre os de código aberto com 69,2%, e o Gemini-2.5-Pro cai de 85,5% nas tarefas Fáceis para 67,2% nas Difíceis. O progresso no CLINSQL marca avanços tangíveis rumo a um sistema de texto-para-SQL clinicamente confiável para análise de EHR no mundo real.
Este estudo investiga o uso da engenharia de prompts para aprimorar modelos de linguagem de grande porte (LLMs), especificamente o GPT-4o-mini e o gemini-1.5-flash, em tarefas de análise de sentimentos. Avalia técnicas avançadas de prompting, como aprendizado com poucos exemplos (few-shot learning), prompting de cadeia de pensamento (chain-of-thought) e autoconsistência (self-consistency), comparando-as com uma linha de base. As principais tarefas incluem classificação de sentimentos, análise de sentimentos baseada em aspectos e a detecção de nuances sutis, como a ironia. A pesquisa detalha o embasamento teórico, os conjuntos de dados e os métodos utilizados, avaliando o desempenho dos LLMs por meio de métricas de acurácia, revocação, precisão e pontuação F1. Os resultados revelam que as técnicas avançadas de prompting melhoram significativamente a análise de sentimentos, com a abordagem de poucos exemplos se destacando no GPT-4o-mini e o prompting de cadeia de pensamento impulsionando a detecção de ironia no gemini-1.5-flash em até 46%. Dessa forma, embora as técnicas de prompting avançadas melhorem o desempenho geral, o fato de o prompting com poucos exemplos funcionar melhor para o GPT-4o-mini e o de cadeia de pensamento se sobressair no gemini-1.5-flash para detecção de ironia sugere que as estratégias de prompting devem ser adaptadas tanto ao modelo quanto à tarefa. Isso ressalta a importância de alinhar o design do prompt tanto com a arquitetura do LLM quanto com a complexidade semântica da tarefa.
O surgimento de estruturas de agentes de IA introduziu as *skills* de agentes, pacotes modulares que contêm instruções e código executável para estender dinamicamente as capacidades dos agentes. Embora esta arquitetura permita uma personalização poderosa, as *skills* são executadas com confiança implícita e com verificação mínima, criando uma superfície de ataque significativa, mas ainda não caracterizada. Realizamos a primeira análise empírica de segurança em larga escala deste ecossistema emergente, recolhendo 42.447 *skills* de dois dos principais mercados e analisando sistematicamente 31.132 usando o SkillScan, uma estrutura de deteção multiestágio que integra análise estática com classificação semântica baseada em LLM. As nossas descobertas revelam riscos de segurança generalizados: 26,1% das *skills* contêm pelo menos uma vulnerabilidade, abrangendo 14 padrões distintos em quatro categorias: *prompt injection*, exfiltração de dados, escalamento de privilégios e riscos na cadeia de abastecimento. A exfiltração de dados (13,3%) e o escalamento de privilégios (11,8%) são os mais prevalecentes, enquanto 5,2% das *skills* exibem padrões de alta gravidade que sugerem fortemente intenção maliciosa. Verificamos que as *skills* que incluem scripts executáveis têm 2,12 vezes mais probabilidade de conter vulnerabilidades do que as *skills* baseadas apenas em instruções (OR=2,12, p<0,001). As nossas contribuições incluem: (1) uma taxonomia de vulnerabilidades fundamentada, derivada de 8.126 *skills* vulneráveis, (2) uma metodologia de deteção validada que atinge 86,7% de precisão e 82,5% de *recall*, e (3) um conjunto de dados aberto e um kit de ferramentas de deteção para apoiar pesquisas futuras. Estes resultados demonstram a necessidade urgente de sistemas de permissões baseados em capacidades e de verificação de segurança obrigatória antes que este vetor de ataque seja ainda mais explorado.
Os agentes de IA são vulneráveis a ataques de injeção de prompt, nos quais conteúdos maliciosos sequestram o comportamento do agente para roubar credenciais ou causar perdas financeiras. A única defesa robusta conhecida é o isolamento arquitetônico que separa estritamente o planejamento confiável de tarefas das observações não confiáveis do ambiente. No entanto, aplicar este projeto a Agentes de Uso de Computador (CUAs) – sistemas que automatizam tarefas visualizando telas e executando ações – apresenta um desafio fundamental: os agentes atuais exigem observação contínua do estado da interface do usuário (UI) para determinar cada ação, conflitando com o isolamento necessário para a segurança. Resolvemos esta tensão demonstrando que os fluxos de trabalho de UI, embora dinâmicos, são estruturalmente previsíveis. Introduzimos o Planejamento de Disparo Único para CUAs, onde um planejador confiável gera um grafo de execução completo com ramificações condicionais antes de qualquer observação de conteúdo potencialmente malicioso, fornecendo garantias comprováveis de integridade de fluxo de controle contra injeções arbitrárias de instruções. Embora este isolamento arquitetônico impeça com sucesso as injeções de instrução, mostramos que medidas adicionais são necessárias para prevenir ataques de Direcionamento de Ramificação, que manipulam elementos de UI para acionar caminhos válidos não intencionais dentro do plano. Avaliamos nosso projeto no OSWorld e mantemos até 57% do desempenho dos modelos de fronteira, enquanto melhoramos o desempenho de modelos menores de código aberto em até 19%, demonstrando que segurança rigorosa e utilidade podem coexistir em CUAs.
Apresentamos o WildRayZer, uma estrutura auto-supervisionada para síntese de novas vistas (NVS) em ambientes dinâmicos onde tanto a câmara como os objetos se movem. O conteúdo dinâmico quebra a consistência multi-vista da qual os modelos estáticos de NVS dependem, levando a efeitos de "ghosting", geometria alucinada e estimativa de pose instável. O WildRayZer aborda este problema realizando um teste de análise-por-síntese: um renderizador estático apenas para a câmara explica a estrutura rígida, e os seus resíduos revelam regiões transitórias. A partir destes resíduos, construímos máscaras de movimento pseudo, destilamos um estimador de movimento e usamo-lo para mascarar *tokens* de entrada e condicionar gradientes de perda, de modo que a supervisão se concentre na conclusão de fundo entre vistas. Para permitir treino e avaliação em larga escala, criámos o Dynamic RealEstate10K (D-RE10K), um conjunto de dados do mundo real com 15K sequências dinâmicas capturadas casualmente, e o D-RE10K-iPhone, um *benchmark* emparelhado de dados transitórios e limpos para NVS esparsa com consciência de transitórios. Experiências mostram que o WildRayZer supera consistentemente os métodos baseados em otimização e os *baselines* de propagação direta, tanto na remoção de regiões transitórias como na qualidade de NVS de fotograma completo, com uma única passagem de propagação direta.
A aprendizagem de consistência com perturbação de características é uma estratégia amplamente utilizada na segmentação semi-supervisionada de imagens médicas. No entanto, muitos métodos de perturbação existentes dependem do *dropout* e, portanto, requerem um ajuste manual cuidadoso da taxa de *dropout*, que é um hiperparâmetro sensível, frequentemente difícil de otimizar e que pode levar a uma regularização subótima. Para superar esta limitação, propomos o VQ-Seg, a primeira abordagem a empregar quantização vetorial (VQ) para discretizar o espaço de características e introduzir um novo módulo de perturbação quantizada (QPM) controlável que substitui o *dropout*. O nosso QPM perturba as representações discretas através da reorganização das localizações espaciais dos índices do livro de códigos, permitindo uma regularização eficaz e controlável. Para mitigar a potencial perda de informação causada pela quantização, concebemos uma arquitetura de ramo duplo onde o espaço de características pós-quantização é partilhado pelas tarefas de reconstrução de imagem e de segmentação. Além disso, introduzimos um Adaptador de Características Pós-VQ (PFA) para incorporar orientação de um modelo base (*foundation model*), suplementando a informação semântica de alto nível perdida durante a quantização. Adicionalmente, recolhemos um conjunto de dados de larga escala de Cancro do Pulmão (LC) composto por 828 tomografias computadorizadas anotadas para carcinoma pulmonar do tipo central. Experiências extensivas no conjunto de dados LC e noutros benchmarks públicos demonstram a eficácia do nosso método, que supera as abordagens mais avançadas. Código disponível em: https://github.com/script-Yang/VQ-Seg.
Os Grandes Modelos de Linguagem (LLMs) frequentemente exibem padrões de atenção em barra (slash), nos quais os escores de atenção se concentram ao longo da subdiagonal Δ para um determinado deslocamento Δ. Esses padrões desempenham um papel fundamental na transmissão de informações entre os tokens. Mas por que eles emergem? Neste artigo, desmistificamos o surgimento desses Cabeças de Atenção Dominante em Barra (SDHs) a partir de perspectivas empíricas e teóricas. Primeiro, ao analisar LLMs de código aberto, descobrimos que os SDHs são intrínsecos aos modelos e generalizam para *prompts* fora da distribuição. Para explicar o surgimento intrínseco, analisamos as consultas (*queries*), chaves (*keys*) e o *Rotary Position Embedding* (RoPE), que determinam conjuntamente os escores de atenção. Nossa análise empírica revela duas condições características dos SDHs: (1) As consultas e chaves são quase de posto um (*rank-one*), e (2) O RoPE é dominado por componentes de média e alta frequência. Sob essas condições, as consultas e chaves são quase idênticas entre os tokens, e as interações entre os componentes de média e alta frequência do RoPE dão origem aos SDHs. Além das evidências empíricas, mostramos teoricamente que essas condições são suficientes para garantir o surgimento dos SDHs, formalizando-as como nossas premissas de modelagem. Especificamente, analisamos a dinâmica de treinamento de um Transformer raso equipado com RoPE sob essas condições e provamos que os modelos treinados via gradiente descendente exibem SDHs. Os SDHs generalizam para *prompts* fora da distribuição.
Os Modelos de Linguagem de Grande Porte (LLMs) tornaram-se um pilar fundamental para muitas aplicações do quotidiano. No entanto, à medida que os dados evoluem, o seu conhecimento torna-se rapidamente desatualizado. A aprendizagem contínua visa atualizar os LLMs com novas informações sem apagar o conhecimento previamente adquirido. Embora métodos como o *fine-tuning* completo possam incorporar novos dados, são computacionalmente dispendiosos e propensos ao esquecimento catastrófico, em que o conhecimento anterior é sobrescrito. As abordagens aumentadas por memória abordam este problema ao equipar os LLMs com um banco de memória, ou seja, um módulo de memória externo que armazena informações para uso futuro. No entanto, estes métodos enfrentam uma limitação crítica: em particular, o banco de memória cresce constantemente no cenário do mundo real quando chegam fluxos de dados em larga escala. Neste artigo, propomos o MBC, um modelo que comprime o banco de memória através de uma estratégia de otimização de *codebook* durante a aprendizagem de adaptação online. Para garantir uma aprendizagem estável, também introduzimos um mecanismo de redefinição online que evita o colapso do *codebook*. Além disso, utilizamos a Adaptação de Baixa Classificação (*Low-Rank Adaptation*) Chave-Valor nas camadas de atenção do LLM, permitindo uma utilização eficiente das representações de memória comprimidas. Experiências com conjuntos de dados de referência para resposta a perguntas demonstram que o MBC reduz o tamanho do banco de memória para 0,3% em comparação com a linha de base mais competitiva, mantendo uma alta precisão de retenção durante a aprendizagem de adaptação online. O nosso código está publicamente disponível em https://github.com/Thomkat/MBC.