Artigos de pesquisa em IA selecionados diariamente com traduções
A decodagem especulativa acelera a geração autoregressiva permitindo que um modelo leve (draft) proponha tokens futuros que um modelo alvo maior então verifica em paralelo. Na prática, porém, os modelos draft são geralmente treinados em corpora genéricos e amplos, o que deixa incerto o quanto a qualidade da decodagem especulativa depende da distribuição de treinamento do draft. Investigamos esta questão com os modelos draft leves HASS e EAGLE-2 treinados no MathInstruct, ShareGPT e variantes de dados mistos, avaliados no MT-Bench, GSM8K, MATH-500 e SVAMP. Medido pelo comprimento de aceitação, o treinamento específico para a tarefa produz uma especialização clara: os drafts treinados no MathInstruct são mais fortes em benchmarks de raciocínio, enquanto os drafts treinados no ShareGPT são mais fortes no MT-Bench. O treinamento com dados mistos melhora a robustez, mas misturas maiores não dominam em todas as temperaturas de decodagem. Também estudamos como combinar drafts especializados durante a inferência. A média ingênua de checkpoints tem um desempenho fraco, enquanto o roteamento baseado em confiança supera os drafts de domínio único e a verificação por árvore mesclada (merged-tree) produz o maior comprimento de aceitação geral para ambas as arquiteturas. Finalmente, a confiança é um sinal de roteamento mais útil do que a entropia: tokens rejeitados tendem a ter entropia mais alta, mas a confiança produz decisões de roteamento a nível de benchmark muito mais claras. Estes resultados mostram que a qualidade da decodagem especulativa depende não apenas da arquitetura do draft, mas também da correspondência entre os dados de treinamento do draft e a carga de trabalho alvo, e que drafts especializados são melhor combinados durante a inferência do que no espaço de pesos.
Sistemas autônomos que geram hipóteses científicas, conduzem experimentos e redigem manuscritos surgiram recentemente como um paradigma promissor para acelerar a descoberta. No entanto, os Cientistas de IA existentes permanecem amplamente agnósticos em relação ao domínio, limitando sua aplicabilidade à medicina clínica, onde a pesquisa precisa ser fundamentada em evidências médicas com modalidades de dados especializadas. Neste trabalho, apresentamos o Cientista de IA Médico, o primeiro quadro de pesquisa autônomo adaptado à pesquisa autónoma clínica. Ele permite a ideação clinicamente fundamentada, transformando literatura extensivamente pesquisada em evidências acionáveis através de um mecanismo de co-raciocínio entre clínicos e engenheiros, o que melhora a rastreabilidade das ideias de pesquisa geradas. Além disso, facilita a redação de manuscritos fundamentada em evidências, guiada por convenções composicionais médicas estruturadas e políticas éticas. O quadro opera em 3 modos de pesquisa, nomeadamente reprodução baseada em artigos, inovação inspirada na literatura e exploração orientada por tarefas, cada um correspondendo a um nível distinto de investigação científica automatizada com autonomia progressivamente crescente. Avaliações abrangentes por modelos de linguagem grandes e especialistas humanos demonstram que as ideias geradas pelo Cientista de IA Médico são substancialmente de maior qualidade do que as produzidas por LLMs comerciais em 171 casos, 19 tarefas clínicas e 6 modalidades de dados. Entretanto, nosso sistema alcança uma forte alinhamento entre o método proposto e sua implementação, ao mesmo tempo que demonstra taxas de sucesso significativamente mais altas em experimentos executáveis. Avaliações duplo-cegas por especialistas humanos e pelo Stanford Agentic Reviewer sugerem que os manuscritos gerados se aproximam da qualidade de nível MICCAI, enquanto superam consistentemente os da ISBI e BIBM. O Cientista de IA Médico proposto destaca o potencial de aproveitar a IA para a descoberta científica autónoma na área da saúde.
Os modelos recentes de geração de imagens demonstraram capacidades robustas na produção de imagens de alta fidelidade e foto-realistas. No entanto, eles estão fundamentalmente limitados por conhecimento interno congelado, falhando frequentemente em cenários do mundo real que são intensivos em conhecimento ou exigem informações atualizadas. Neste artigo, apresentamos o Gen-Searcher, como a primeira tentativa de treinar um agente de geração de imagens aumentado por busca, que executa raciocínio multi-etapa e buscas para coletar o conhecimento textual e as imagens de referência necessários para uma geração fundamentada. Para alcançar este objetivo, construímos um pipeline de dados personalizado e curamos dois conjuntos de dados de alta qualidade, o Gen-Searcher-SFT-10k e o Gen-Searcher-RL-6k, contendo instruções diversificadas que exigem busca intensiva e as correspondentes imagens de síntese de ground-truth. Introduzimos ainda o KnowGen, um benchmark abrangente que exige explicitamente conhecimento externo fundamentado em busca para a geração de imagens e avalia os modelos em múltiplas dimensões. Com base nestes recursos, treinamos o Gen-Searcher com SFT (Supervised Fine-Tuning), seguido por aprendizado por reforço agentivo com feedback de recompensa dual, que combina recompensas baseadas em texto e em imagem para fornecer sinais de aprendizagem mais estáveis e informativos para o treinamento GRPO. Os experimentos mostram que o Gen-Searcher traz ganhos substanciais, melhorando o Qwen-Image em aproximadamente 16 pontos no KnowGen e 15 pontos no WISE. Esperamos que este trabalho possa servir como uma base aberta para agentes de busca em geração de imagens, e disponibilizamos integralmente nossos dados, modelos e código em código aberto.
Sistemas multiagente compostos por grandes modelos generativos estão rapidamente evoluindo de protótipos de laboratório para implantações no mundo real, nos quais planejam, negociam e alocam recursos compartilhados conjuntamente para resolver tarefas complexas. Embora tais sistemas prometam escalabilidade e autonomia sem precedentes, sua interação coletiva também dá origem a modos de falha que não podem ser reduzidos a agentes individuais. Compreender esses riscos emergentes é, portanto, crucial. Aqui, apresentamos um estudo pioneiro de tal risco multiagente emergente em fluxos de trabalho que envolvem competição por recursos compartilhados (por exemplo, recursos computacionais ou participação de mercado), colaboração sequencial com transferência de responsabilidade (onde agentes a jusante veem apenas as saídas dos predecessores), agregação de decisões coletivas, entre outros. Nessas configurações, observamos que tais comportamentos grupais surgem frequentemente em tentativas repetidas e em uma ampla gama de condições de interação, em vez de surgirem como casos raros ou patológicos. Em particular, fenômenos como coordenação semelhante a conluio e conformidade emergem com frequência não trivial sob restrições realistas de recursos, protocolos de comunicação e atribuições de função, espelhando patologias bem conhecidas nas sociedades humanas, apesar da ausência de instrução explícita. Além disso, esses riscos não podem ser prevenidos apenas por salvaguardas existentes no nível do agente. Essas descobertas expõem o lado sombrio dos sistemas multiagente inteligentes: um risco de inteligência social no qual coletivos de agentes, apesar de não receberem instruções para tal, reproduzem espontaneamente padrões de falha familiares das sociedades humanas.
As tecnologias de propósito geral remodelam as economias menos por melhorar ferramentas individuais e mais por permitir novas formas de organizar a produção e a coordenação. Acreditamos que os agentes de IA estão a aproximar-se de um ponto de inflexão semelhante: à medida que os modelos de base tornam a execução ampla de tarefas e o uso de ferramentas cada vez mais acessíveis, a restrição crítica desloca-se da capacidade bruta para a forma como o trabalho é delegado, verificado e recompensado em escala. Apresentamos a EpochX, uma infraestrutura de mercado nativa em créditos para redes de produção humano-agente. A EpochX trata humanos e agentes como participantes pares que podem publicar tarefas ou assumi-las. As tarefas assumidas podem ser decompostas em subtarefas e executadas através de um fluxo de trabalho de entrega explícito, com verificação e aceitação. Crucialmente, a EpochX foi concebida para que cada transação concluída possa produzir ativos reutilizáveis para o ecossistema, incluindo competências, fluxos de trabalho, registos de execução e experiência destilada. Estes ativos são armazenados com uma estrutura de dependência explícita, permitindo a sua recuperação, composição e melhoria cumulativa ao longo do tempo. A EpochX introduz também um mecanismo de crédito nativo para tornar a participação economicamente viável sob custos reais de computação. Os créditos bloqueiam recompensas por tarefas, delegam orçamentos, liquidam recompensas após aceitação e compensam os criadores quando os ativos verificados são reutilizados. Ao formalizar o modelo de transação de ponta a ponta, juntamente com as suas camadas de ativos e incentivos, a EpochX reformula a IA agentiva como um problema de desenho organizacional: construir infraestruturas onde o trabalho verificável deixa artefactos persistentes e reutilizáveis, e onde os fluxos de valor suportam uma colaboração humana-agente duradoura.
Os mecanismos de atenção esparsa a nível de token, exemplificados pela DeepSeek Sparse Attention (DSA), alcançam uma seleção granular de chaves ao atribuir uma pontuação a cada token histórico para cada consulta usando um indexador leve, e subsequentemente calcular a atenção apenas sobre o subconjunto selecionado. Embora a atenção esparsa subsequente seja computacionalmente eficiente, o indexador ainda precisa varrer todo o prefixo para cada consulta, introduzindo um gargalo de O(L²) por camada que se torna proibitivo à medida que o contexto aumenta. Propomos o HISA (Hierarchical Indexed Sparse Attention), um substituto direto para o indexador que transforma o processo de busca de uma varredura plana de tokens em um procedimento hierárquico de dois estágios. Primeiro, um filtro grosseiro a nível de bloco pontua representantes agregados dos blocos para podar regiões irrelevantes. Em seguida, um refinamento a nível de token aplica o indexador original apenas dentro dos blocos candidatos restantes. O HISA preserva exatamente o padrão de esparsidade top-k a nível de token exigido pelo operador Sparse MLA subsequente e não requer treinamento adicional. Em benchmarks a nível de kernel, o HISA alcança uma aceleração de 2x para um contexto de 32K tokens e de 4x para 128K. No Needle-in-a-Haystack e no LongBench, substituímos diretamente o indexador no DeepSeek-V3.2 pelo HISA, sem qualquer ajuste fino. O HISA equipara-se estreitamente à DSA original em qualidade, enquanto supera significativamente as linhas de base baseadas em atenção esparsa por blocos. Além disso, os conjuntos de seleção de tokens produzidos pelo HISA e pela DSA original exibem um IoU médio superior a 99%, indicando que os ganhos de eficiência são obtidos praticamente sem impacto na fidelidade da seleção.
O Ajuste Contínuo Multimodal de Instruções visa aprimorar continuamente os Modelos de Linguagem e Visão de Grande Escala (LVLMs) aprendendo com novos dados sem esquecer o conhecimento previamente adquirido. As arquiteturas de Mistura de Especialistas (MoE) facilitam naturalmente isso ao adicionar incrementalmente novos especialistas e expandir os roteadores, mantendo os existentes congelados. No entanto, apesar do isolamento dos especialistas, os aprendizes contínuos baseados em MoE ainda sofrem com o esquecimento devido ao *routing-drift*: tokens de tarefas antigas são erroneamente atraídos para os novos especialistas adicionados, degradando o desempenho em tarefas anteriores. Analisamos o modo de falha no nível do token e revelamos o dilema do token: tokens ambíguos e antigos nos dados de novas tarefas oferecem benefício de aprendizado mínimo, mas induzem o esquecimento quando roteados para novos especialistas, devido à sua atribuição de roteamento ambígua durante o treinamento. Motivados por isso, propomos o LLaVA-DyMoE, uma estrutura MoE dinâmica que expande incrementalmente o MoE com atribuição de tokens consciente do *drift*. Caracterizamos os tipos de token por meio de suas distribuições de pontuação de roteamento e aplicamos regularização direcionada. Especificamente, uma orientação de atribuição em nível de token direciona tokens ambíguos e antigos para longe dos novos especialistas para preservar padrões de roteamento estabelecidos e aliviar o *routing-drift*, enquanto regularizações complementares da pontuação de roteamento impõem a separação entre grupos de especialistas e promovem a especialização dos novos especialistas. Experimentos extensivos demonstram que nosso LLaVA-DyMoE mitiga efetivamente o esquecimento induzido por *routing-drift*, alcançando um ganho de mais de 7% na precisão final média e uma redução de 12% no esquecimento em comparação com as linhas de base. A página do projeto é https://zhaoc5.github.io/DyMoE.
Os recentes avanços na edição de imagens permitiram que os modelos processassem instruções complexas com um realismo impressionante. No entanto, as estruturas de avaliação existentes estão defasadas: os benchmarks atuais sofrem com uma cobertura limitada de tarefas, enquanto as métricas padrão falham em capturar adequadamente a consistência visual, ou seja, a preservação da identidade, estrutura e coerência semântica entre as imagens editadas e originais. Para superar essas limitações, apresentamos o GEditBench v2, um benchmark abrangente com 1.200 consultas de utilizadores do mundo real, abrangendo 23 tarefas, incluindo uma categoria de conjunto aberto dedicada a instruções de edição não restritas e fora da distribuição, para além das tarefas predefinidas. Adicionalmente, propomos o PVC-Judge, um modelo de avaliação pairwise de código aberto para consistência visual, treinado através de dois novos pipelines de síntese de dados de preferência com regiões dissociadas. Além disso, construímos o VCReward-Bench utilizando pares de preferência anotados por especialistas para avaliar o alinhamento do PVC-Judge com os julgamentos humanos na avaliação da consistência visual. Os experimentos mostram que o nosso PVC-Judge alcança um desempenho de avaliação state-of-the-art entre os modelos de código aberto e supera, em média, até mesmo o GPT-5.1. Por fim, ao avaliar 16 modelos de edição de ponta, demonstramos que o GEditBench v2 permite uma avaliação mais alinhada com o julgamento humano, revelando limitações críticas dos modelos atuais e fornecendo uma base confiável para o avanço da edição precisa de imagens.
Impulsionados pelo treinamento em larga escala, os modelos visão-linguagem (VLMs) alcançam uma forte compreensão de imagens e vídeos, mas sua capacidade de realizar raciocínio espacial tanto em cenas estáticas quanto em vídeos dinâmicos permanece limitada. Avanços recentes tentam contornar essa limitação injetando tokens geométricos de modelos fundamentais 3D pré-treinados nos VLMs. No entanto, observamos que a fusão ingênua de tokens seguida pelo ajuste fino padrão nessa linha de pesquisa frequentemente subutiliza tais pistas geométricas para o raciocínio espacial, pois os VLMs tendem a depender fortemente de pistas visuais 2D. Neste artigo, propomos o GeoSR, uma estrutura projetada para fazer a geometria importar, incentivando os VLMs a raciocinarem ativamente com tokens geométricos. O GeoSR introduz dois componentes principais: (1) o Mascaramento de Liberação Geométrica, que mascara estrategicamente porções dos tokens visuais 2D durante o treinamento para enfraquecer atalhos não geométricos e forçar o modelo a consultar os tokens geométricos para o raciocínio espacial; e (2) a Fusão Guiada por Geometria, um mecanismo de roteamento com portas que amplifica adaptativamente as contribuições dos tokens geométricos em regiões onde a evidência geométrica é crítica. Juntos, esses projetos liberam o potencial dos tokens geométricos para tarefas de raciocínio espacial. Experimentos extensos em benchmarks de raciocínio espacial estático e dinâmico demonstram que o GeoSR supera consistentemente métodos anteriores e estabelece um novo estado da arte em desempenho ao aproveitar efetivamente as informações geométricas. A página do projeto está disponível em https://suhzhang.github.io/GeoSR/.
Os avanços em modelos de difusão, autorregressivos e híbridos permitiram a síntese de imagens de alta qualidade para tarefas como texto-para-imagem, edição e composição guiada por referência. No entanto, os benchmarks existentes permanecem limitados, focando-se em tarefas isoladas, abrangendo apenas domínios restritos ou fornecendo pontuações opacas sem explicar os modos de falha. Apresentamos o ImagenWorld, um benchmark composto por 3.6 mil conjuntos de condições que abrangem seis tarefas principais (geração e edição, com referências únicas ou múltiplas) e seis domínios temáticos (obras de arte, imagens fotorrealistas, gráficos informativos, gráficos textuais, gráficos computacionais e capturas de ecrã). O benchmark é suportado por 20 mil anotações humanas detalhadas e um esquema de avaliação explicável que identifica erros localizados a nível de objeto e de segmento, complementando as métricas automatizadas baseadas em VLMs (Modelos de Linguagem Visual). Nossa avaliação em larga escala de 14 modelos produz vários insights: (1) os modelos geralmente têm mais dificuldade em tarefas de edição do que em tarefas de geração, especialmente em edições locais. (2) os modelos destacam-se em contextos artísticos e fotorrealistas, mas lutam com domínios simbólicos e ricos em texto, como capturas de ecrã e gráficos informativos. (3) os sistemas de código fechado lideram no geral, enquanto a curadoria de dados direcionada (por exemplo, Qwen-Image) reduz a diferença em casos ricos em texto. (4) as métricas modernas baseadas em VLMs alcançam correlações de Kendall de até 0.79, aproximando-se da classificação humana, mas ficam aquém na atribuição de erros explicável e detalhada. O ImagenWorld fornece tanto um benchmark rigoroso quanto uma ferramenta de diagnóstico para avançar a geração robusta de imagens.
A evolução acelerada da geração de vídeo permitiu que modelos simulassem dinâmicas físicas complexas e causalidades de longo prazo, posicionando-os como potenciais simuladores do mundo. No entanto, persiste uma lacuna crítica entre a capacidade teórica de simulação do mundo e os elevados custos computacionais da modelagem espaço-temporal. Para enfrentar este desafio, realizamos uma revisão abrangente e sistemática de estruturas e técnicas de geração de vídeo que consideram a eficiência como um requisito crucial para a modelagem prática do mundo. Introduzimos uma nova taxonomia em três dimensões: paradigmas de modelagem eficiente, arquiteturas de rede eficientes e algoritmos de inferência eficientes. Demonstramos ainda que superar esta lacuna de eficiência capacita diretamente aplicações interativas como condução autónoma, IA incorporada e simulação de jogos. Por fim, identificamos novas fronteiras de investigação na modelagem eficiente do mundo baseada em vídeo, argumentando que a eficiência é um pré-requisito fundamental para evoluir os geradores de vídeo para simuladores do mundo de propósito geral, em tempo real e robustos.
Os agentes de IA baseados em grandes modelos de linguagem exibem fortes capacidades de raciocínio e resolução de problemas, permitindo-lhes auxiliar tarefas de pesquisa científica, como derivação de fórmulas e geração de código. No entanto, a capacidade desses agentes de realizar reproduções de ponta a ponta a partir de artigos científicos reais permanece uma questão em aberto. Apresentamos o PRBench, um benchmark composto por 30 tarefas curadas por especialistas, abrangendo 11 subáreas da física. Cada tarefa exige que um agente compreenda a metodologia de um artigo publicado, implemente os algoritmos correspondentes do zero e produza resultados quantitativos compatíveis com a publicação original. Os agentes recebem apenas a instrução da tarefa e o conteúdo do artigo, operando em um ambiente de execução isolado. Todas as tarefas foram contribuídas por especialistas de domínio de mais de 20 grupos de pesquisa da Escola de Física da Universidade de Pequim, cada uma fundamentada em um artigo real publicado e validada por meio de reprodução de ponta a ponta com resultados verificados e critérios de pontuação detalhados. Utilizando um pipeline de avaliação agentificado, avaliamos um conjunto de agentes de codificação no PRBench e analisamos suas capacidades em dimensões-chave do raciocínio científico e execução. O agente de melhor desempenho, OpenAI Codex baseado no GPT-5.3-Codex, atinge uma pontuação média geral de 34%. Todos os agentes exibem taxa de sucesso zero em callback de ponta a ponta, com desempenho particularmente fraco em precisão de dados e correção do código. Identificamos ainda modos de falha sistemáticos, incluindo erros na implementação de fórmulas, incapacidade de depurar simulações numéricas e fabricação de dados de saída. No geral, o PRBench fornece um benchmark rigoroso para avaliar o progresso em direção à pesquisa científica autônoma.
Apresentamos o Kernel-Smith, uma estrutura para geração de kernels e operadores de alto desempenho em GPU que combina um agente evolutivo estável orientado por avaliação com uma receita de pós-treinamento orientada para a evolução. No lado do agente, o Kernel-Smith mantém uma população de candidatos executáveis e os melhora iterativamente usando um arquivo de programas de alto desempenho e diversificados, juntamente com *feedback* de execução estruturado sobre compilação, correção e aceleração. Para tornar essa busca confiável, construímos serviços de avaliação específicos para *backends*: Triton em GPUs NVIDIA e Maca em GPUs MetaX. No lado do treinamento, convertemos trajetórias de evolução de longo prazo em supervisão centrada em etapas e sinais de aprendizado por reforço, retendo revisões que preservam a correção e oferecem alto ganho, de modo que o modelo é otimizado como um forte aprimorador local dentro do ciclo evolutivo, e não como um gerador único. Sob um protocolo evolutivo unificado, o Kernel-Smith-235B-RL alcança o melhor desempenho geral no KernelBench com o *backend* Nvidia Triton, obtendo a melhor taxa média de aceleração e superando modelos proprietários de ponta, incluindo Gemini-3.0-pro e Claude-4.6-opus. Validamos ainda mais a estrutura no *backend* MetaX MACA, onde nosso Kernel-Smith-MACA-30B supera contrapartes de grande escala, como DeepSeek-V3.2-think e Qwen3-235B-2507-think, destacando o potencial para adaptação contínua em plataformas heterogêneas. Para além dos resultados de *benchmarks*, o mesmo fluxo de trabalho produz contribuições a montante para sistemas de produção, incluindo SGLang e LMDeploy, demonstrando que a otimização de *kernels* orientada por LLM pode ser transferida da avaliação controlada para a implantação prática.
A compreensão de gráficos exige que os modelos raciocinem conjuntamente sobre padrões visuais geométricos, dados numéricos estruturados e linguagem natural — uma capacidade na qual os modelos atuais de visão e linguagem (VLMs) ainda permanecem limitados. Apresentamos o ChartNet, um conjunto de dados multimodais de alta qualidade e em escala de milhões, projetado para avançar a interpretação e o raciocínio sobre gráficos. O ChartNet aproveita um *pipeline* de síntese guiado por código inovador para gerar 1,5 milhão de amostras de gráficos diversificadas, abrangendo 24 tipos de gráfico e 6 bibliotecas de plotagem. Cada amostra consiste em cinco componentes alinhados: código de plotagem, imagem do gráfico renderizado, tabela de dados, resumo em linguagem natural e perguntas e respostas com raciocínio, fornecendo um alinhamento multimodal granular. Para capturar todo o espectro da compreensão de gráficos, o ChartNet inclui adicionalmente subconjuntos especializados que abrangem dados anotados por humanos, dados do mundo real, segurança e fundamentação. Além disso, um rigoroso *pipeline* de filtragem de qualidade garante fidelidade visual, precisão semântica e diversidade nas representações dos gráficos. O ajuste fino (*fine-tuning*) no ChartNet melhora consistentemente os resultados em vários *benchmarks*, demonstrando sua utilidade como supervisão em larga escala para modelos multimodais. Como o maior conjunto de dados de código aberto do gênero, o ChartNet visa apoiar o desenvolvimento de modelos de base com capacidades robustas e generalizáveis para a compreensão de visualização de dados. O conjunto de dados está publicamente disponível em https://huggingface.co/datasets/ibm-granite/ChartNet.
Os modernos modelos de difusão Texto-para-Imagem (T2I) alcançaram um alinhamento semântico notável, mas frequentemente sofrem com uma falta significativa de variedade, convergindo para um conjunto restrito de soluções visuais para um determinado prompt. Este viés de tipicidade representa um desafio para aplicações criativas que exigem uma ampla gama de resultados generativos. Identificamos um trade-off fundamental nas abordagens atuais para a diversidade: modificar as entradas do modelo requer uma otimização dispendiosa para incorporar o feedback do caminho generativo. Em contraste, atuar sobre *latents* intermediários espacialmente comprometidos tende a perturbar a estrutura visual em formação, levando a artefatos. Neste trabalho, propomos aplicar a repulsão no Espaço Contextual como uma nova estrutura para alcançar uma diversidade rica em Transformadores de Difusão. Ao intervir nos canais de atenção multimodal, aplicamos uma repulsão em tempo real durante o *forward pass* do *transformer*, injetando a intervenção entre os blocos onde o condicionamento textual é enriquecido com a estrutura de imagem emergente. Isso permite redirecionar a trajetória de orientação após ela ser informada estruturalmente, mas antes que a composição seja fixada. Nossos resultados demonstram que a repulsão no Espaço Contextual produz uma diversidade significativamente mais rica sem sacrificar a fidelidade visual ou a aderência semântica. Além disso, nosso método é singularmente eficiente, impondo uma pequena sobrecarga computacional, permanecendo eficaz mesmo em modelos modernos "Turbo" e destilados, onde as intervenções tradicionais baseadas em trajetória normalmente falham.
Os agentes de pesquisa alcançaram recentemente progressos significativos na busca e síntese de informações em fontes textuais e visuais heterogêneas. Neste artigo, apresentamos o MuSEAgent, um agente de raciocínio multimodal que aprimora a tomada de decisão ao estender as capacidades dos agentes de pesquisa para descobrir e alavancar experiências com estado. Em vez de depender da recuperação de trajetórias, propomos um paradigma de aprendizagem por experiência com estado que abstrai dados de interação em experiências decisórias atômicas por meio de raciocínio retrospectivo. Essas experiências são organizadas em um banco de experiências com filtro de qualidade que suporta a recuperação de experiências orientada por políticas durante a inferência. Especificamente, o MuSEAgent permite a exploração adaptativa de experiências por meio de estratégias complementares de busca ampla e profunda, permitindo que o agente recupere dinamicamente orientação multimodal em diversas perspectivas semânticas composicionais. Experimentos extensivos demonstram que o MuSEAgent supera consistentemente baselines de recuperação de experiência em nível de trajetória tanto em tarefas de percepção visual de granularidade fina quanto em tarefas complexas de raciocínio multimodal. Esses resultados validam a eficácia da modelagem de experiências com estado na melhoria do raciocínio de agentes multimodais.
A geração de manuscritos científicos exige a manutenção do alinhamento entre o raciocínio narrativo, as evidências experimentais e os artefactos visuais ao longo do ciclo de vida do documento. Os *pipelines* de geração baseados em modelos de linguagem existentes dependem de uma síntese de texto não restrita, com validação aplicada apenas após a geração, frequentemente produzindo deriva estrutural, figuras ou tabelas em falta e inconsistências entre secções. Apresentamos o Story2Proposal, uma arquitetura multiagente governada por contrato que converte uma história de investigação num manuscrito estruturado através de agentes coordenados que operam sob um contrato visual partilhado e persistente. O sistema organiza agentes arquiteto, escritor, refinador e *renderizador* em torno de um estado de contrato que monitoriza a estrutura das secções e os elementos visuais registados, enquanto agentes de avaliação fornecem *feedback* num ciclo *generate-evaluate-adapt* que atualiza o contrato durante a geração. Experiências em tarefas derivadas do corpus de investigação Jericho mostram que o Story2Proposal alcançou uma pontuação de avaliação de peritos de 6,145 contra 3,963 do DirectChat (+2,182) em *backbones* como GPT, Claude, Gemini e Qwen. Em comparação com a linha de base de geração estruturada Fars, o Story2Proposal obteve uma pontuação média de 5,705 contra 5,197, indicando uma consistência estrutural e um alinhamento visual melhorados.
Os agentes de pesquisa profunda conduzem investigações de forma autónoma e aberta, integrando a recuperação complexa de informação com raciocínio multi-etapa através de diversas fontes para resolver problemas do mundo real. Para sustentar esta capacidade em tarefas de longo prazo, uma verificação fiável é crítica tanto durante o treino como durante a inferência. Um grande estrangulamento nos paradigmas existentes decorre da falta de mecanismos explícitos de verificação na síntese de dados de Perguntas e Respostas (Q&A), na construção de trajetórias e na escalagem em tempo de teste. Os erros introduzidos em cada fase propagam-se para as fases seguintes e degradam o desempenho global do agente. Para resolver isto, apresentamos o Marco DeepResearch, um agente de pesquisa profunda otimizado com um desenho de *framework* centrado na verificação a três níveis: (1)~Síntese de Dados Q&A: Introduzimos mecanismos de verificação na síntese de Q&A baseada em grafos e baseada em agentes para controlar a dificuldade das questões, garantindo ao mesmo tempo que as respostas são únicas e corretas; (2)~Construção de Trajetórias: Concebemos um método de síntese de trajetórias orientado para a verificação que injeta padrões explícitos de verificação nas trajetórias de treino; e (3)~Escalagem em Tempo de Teste: Utilizamos o próprio Marco DeepResearch como verificador no tempo de inferência, melhorando eficazmente o desempenho em questões desafiantes. Resultados experimentais extensivos demonstram que o nosso agente Marco DeepResearch proposto supera significativamente agentes de pesquisa profunda de escala 8B na maioria dos *benchmarks* desafiantes, como o BrowseComp e o BrowseComp-ZH. Crucialmente, sob um orçamento máximo de 600 chamadas de ferramentas, o Marco DeepResearch chega mesmo a superar ou a aproximar-se de vários agentes de escala 30B, como o Tongyi DeepResearch-30B.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançam uma compreensão visual mais forte através da escalabilidade da fidelidade de entrada, mas o consequente crescimento de tokens visuais torna proibitiva a manutenção conjunta de alta resolução espacial e longo contexto temporal. Argumentamos que o gargalo não está em como as representações pós-codificação são comprimidas, mas no volume de pixels que o codificador recebe, e abordamos isso com o ResAdapt, uma estrutura de adaptação no lado da entrada que apreende quanto orçamento visual cada frame deve receber antes da codificação. O ResAdapt acopla um Alocador leve a uma espinha dorsal de MLLM inalterada, permitindo que a espinha dorsal mantenha sua interface nativa de tokens visuais enquanto recebe uma entrada transformada pelo operador. Formulamos a alocação como um bandido contextual e treinamos o Alocador com Otimização de Política com Consciência de Custo (CAPO), que converte o feedback esparso de implantação em um sinal de aprendizado estável de precisão-custo. Em tarefas de Q&A de vídeo com orçamento controlado, ancoragem temporal e raciocínio de imagem, o ResAdapt melhora os pontos de operação de baixo orçamento e frequentemente situa-se na ou próxima à fronteira de eficiência-precisão, com ganhos mais claros em benchmarks intensivos em raciocínio sob compressão agressiva. Notavelmente, o ResAdapt suporta até 16x mais frames no mesmo orçamento visual enquanto proporciona um ganho de desempenho superior a 15%. O código está disponível em https://github.com/Xnhyacinth/ResAdapt.
Os modelos de difusão têm feito progressos significativos tanto na geração de texto para imagem (T2I) quanto na edição de imagens guiada por texto. No entanto, esses modelos são normalmente construídos com bilhões de parâmetros, resultando em alta latência e maiores desafios de implantação. Embora os modelos de difusão em dispositivo melhorem a eficiência, eles se concentram amplamente na geração T2I e carecem de suporte para edição de imagens. Neste artigo, propomos o DreamLite, um modelo de difusão unificado e compacto para dispositivos (0,39B) que suporta tanto a geração T2I quanto a edição de imagens guiada por texto em uma única rede. O DreamLite é construído sobre uma estrutura U-Net móvel podada e unifica o condicionamento por meio de concatenação espacial contextual no espaço latente. Ele concatena imagens horizontalmente como entrada, usando uma configuração (alvo | branco) para tarefas de geração e (alvo | origem) para tarefas de edição. Para estabilizar o treinamento deste modelo compacto, introduzimos uma estratégia de pré-treinamento conjunto progressivo em tarefas que visa sequencialmente T2I, edição e tarefas conjuntas. Após SFT de alta qualidade e aprendizado por reforço, o DreamLite alcança GenEval (0,72) para geração de imagem e ImgEdit (4,11) para edição de imagem, superando os modelos existentes em dispositivo e permanecendo competitivo com vários modelos do lado do servidor. Empregando a destilação de etapas, reduzimos ainda mais o processamento de remoção de ruído para apenas 4 etapas, permitindo que nosso DreamLite gere ou edite uma imagem de 1024 x 1024 em menos de 1s em um smartphone Xiaomi 14. Até onde sabemos, o DreamLite é o primeiro modelo de difusão unificado em dispositivo que suporta tanto a geração quanto a edição de imagens.
Os recentes avanços em modelos de linguagem de grande escala para vídeo (Video-LLMs) permitiram um raciocínio offline robusto sobre vídeos longos e complexos. No entanto, as implantações no mundo real exigem cada vez mais percepção em fluxo contínuo (streaming) e interação proativa, onde os frames de vídeo chegam online e o sistema deve decidir não apenas *o que* responder, mas também *quando* responder. Neste trabalho, revisitamos a ativação proativa em vídeo em streaming como um problema de modelagem de sequência estruturada, motivados pela observação de que as transições temporais em vídeo em streaming formam naturalmente padrões de ativação estruturados em *spans* (intervalos). Para capturar essa estrutura a nível de *span*, modelamos os sinais de ativação conjuntamente sobre uma janela temporal deslizante e os atualizamos iterativamente à medida que novos *frames* chegam. Propomos o STRIDE (Structured Temporal Refinement with Iterative DEnoising - Refinamento Temporal Estruturado com Desruído Iterativo), que emprega um módulo leve de difusão mascarada na interface de ativação para prever e refinar progressivamente os sinais de ativação ao longo da janela. Experimentos extensos em diversos benchmarks de streaming e modelos subsequentes demonstram que o STRIDE apresenta respostas proativas mais confiáveis e temporalmente coerentes, melhorando significativamente a qualidade da decisão de *quando falar* em cenários de streaming online.
A avaliação de respostas de LLMs de produção e o roteamento de solicitações entre provedores em gateways de LLM exigem sinais de qualidade granulares e decisões operacionalmente fundamentadas. Para preencher essa lacuna, apresentamos o SEAR, um sistema de avaliação e roteamento baseado em esquema para gateways de LLM multi-modelo e multi-provedor. O SEAR define um esquema relacional extensível que abrange tanto sinais de avaliação de LLM (contexto, intenção, características da resposta, atribuição de problemas e pontuações de qualidade) quanto métricas operacionais do gateway (latência, custo, vazão), com links de consistência entre tabelas em aproximadamente cem colunas tipadas e consultáveis via SQL. Para preencher os sinais de avaliação de forma confiável, o SEAR propõe instruções de sinal autônomas, raciocínio no esquema e geração em múltiplos estágios que produz saídas estruturadas prontas para o banco de dados. Como os sinais são derivados por meio de raciocínio de LLM em vez de classificadores superficiais, o SEAR captura semânticas complexas da solicitação, permite explicações de roteamento interpretáveis por humanos e unifica a avaliação e o roteamento em uma única camada de consulta. Em milhares de sessões de produção, o SEAR alcança alta precisão de sinal em dados rotulados por humanos e suporta decisões práticas de roteamento, incluindo grandes reduções de custo com qualidade comparável.
A síntese de movimento humano avançou rapidamente, mas o movimento realista das mãos e a interação bimanual permanecem pouco explorados. Modelos de corpo frequentemente ignoram os sinais refinados que orientam o comportamento dextro, a articulação dos dedos, o timing do contacto e a coordenação entre as mãos, e os recursos existentes carecem de sequências bimanuais de alta fidelidade que capturem a dinâmica sutil dos dedos e a sua colaboração. Para preencher esta lacuna, apresentamos o HandX, uma base unificada que abrange dados, anotação e avaliação. Consolidamos e filtramos conjuntos de dados existentes para garantir qualidade, e recolhemos um novo conjunto de dados de captura de movimento focado em interações bimanuais sub-representadas, com dinâmica detalhada dos dedos. Para uma anotação escalável, introduzimos uma estratégia desacoplada que extrai características de movimento representativas, por exemplo, eventos de contacto e flexão dos dedos, e depois aproveita o raciocínio de modelos de linguagem de grande escala para produzir descrições semanticamente ricas e refinadas, alinhadas com essas características. Com base nos dados e anotações resultantes, avaliamos modelos de difusão e autoregressivos com modos de condicionamento versáteis. Experiências demonstram uma geração de movimento dextro de alta qualidade, suportada pelas nossas novas métricas focadas nas mãos. Observamos ainda tendências claras de escalabilidade: modelos maiores treinados em conjuntos de dados maiores e de maior qualidade produzem movimento bimanual semanticamente mais coerente. O nosso conjunto de dados é disponibilizado para apoiar investigação futura.
Apresentamos o KAT-Coder-V2, um modelo de codificação agentic desenvolvido pela equipe KwaiKAT da Kuaishou. O KAT-Coder-V2 adota um paradigma "Especializar-para-Depois-Unificar" que decompõe a codificação agentic em cinco domínios especializados - SWE, WebCoding, Terminal, WebSearch e General - cada um passando por ajuste fino supervisionado e aprendizado por reforço independentes, antes de serem consolidados em um único modelo via destilação on-policy. Desenvolvemos o KwaiEnv, uma infraestrutura modular que sustenta dezenas de milhares de instâncias sandbox concorrentes, e escalamos o treinamento de RL ao longo da complexidade da tarefa, alinhamento de intenção e generalização de scaffold. Propomos ainda o MCLA para estabilizar o treinamento de RL com MoE e o Tree Training para eliminar computação redundante em trajetórias estruturadas em árvore, com aceleração de até 6,2x. O KAT-Coder-V2 atinge 79,6% no SWE-bench Verified (vs. Claude Opus 4.6 com 80,8%), 88,7 no PinchBench (superando GLM-5 e MiniMax M2.7), ocupa o primeiro lugar nos três cenários de estética frontend e mantém pontuações generalistas sólidas no Terminal-Bench Hard (46,8) e tau^2-Bench (93,9). Nosso modelo está publicamente disponível em https://streamlake.com/product/kat-coder.
Os dispositivos móveis interagem continuamente com estações base celulares, gerando volumes massivos de registros de sinalização que fornecem ampla cobertura para compreender a mobilidade humana. No entanto, esses registros oferecem apenas pistas de localização grosseiras (por exemplo, identificadores de célula de serviço) e, portanto, limitam seu uso direto em aplicações que requerem trajetórias GPS de alta precisão. Este artigo estuda o problema Sig2GPS: reconstruir trajetórias GPS a partir da sinalização celular. Inspirado pelo fato de que especialistas do domínio frequentemente sobrepõem o traço de sinalização no mapa e esboçam a rota GPS correspondente, ao contrário de soluções convencionais que dependem de complexos pipelines de engenharia multiestágio ou de regressão de coordenadas, o Sig2GPS é reformulado como uma tarefa de geração de imagem-para-vídeo que opera diretamente no domínio visual do mapa: traços de sinalização são renderizados em um mapa, e um modelo de geração de vídeo é treinado para desenhar um caminho GPS contínuo. Para suportar este paradigma, um conjunto de dados pareados de vídeo de sinalização-para-trajetória é construído para ajustar um modelo de vídeo de código aberto, e um método de otimização baseado em aprendizado por reforço com consciência de trajetória é introduzido para melhorar a fidelidade da geração por meio de recompensas. Experimentos em conjuntos de dados do mundo real em larga escala mostram melhorias substanciais em relação a baselines robustas de engenharia e baseadas em aprendizado, enquanto resultados adicionais sobre a previsão do próximo GPS indicam escalabilidade e transferibilidade entre cidades. No geral, estes resultados sugerem que a geração de vídeo no domínio visual do mapa fornece uma interface prática para a mineração de dados de trajetória, permitindo a geração e o refinamento direto de caminhos contínuos sob restrições do mapa.
Os dados apresentam-se em diversas formas. Sob uma perspetiva superficial, podem ser considerados como estando em formatos estruturados (por exemplo, como uma relação, como pares chave-valor) ou não estruturados (por exemplo, texto, imagem). Até agora, as máquinas têm sido bastante eficazes no processamento e na realização de inferências sobre dados estruturados que seguem um esquema preciso. No entanto, a heterogeneidade dos dados coloca um desafio significativo à forma como diversas categorias de dados podem ser armazenadas e processadas de maneira significativa. A Integração de Dados, uma parte crucial do pipeline de engenharia de dados, aborda este problema ao combinar fontes de dados díspares e fornecer acesso unificado aos dados aos utilizadores finais. Até ao momento, a maioria dos sistemas de integração de dados tem-se focado principalmente na combinação de fontes de dados estruturadas. No entanto, os dados não estruturados (também conhecidos como texto livre) também contêm uma infinidade de conhecimentos à espera de serem utilizados. Assim, neste capítulo, começamos por defender a integração de dados textuais, para depois apresentar os seus desafios, o estado da arte e os problemas em aberto.
A compressão de contexto suave reduz a carga computacional do processamento de contextos longos em LLMs codificando o contexto longo num número menor de tokens latentes. No entanto, os frameworks existentes aplicam taxas de compressão uniformes, não considerando a variação extrema na densidade de informação da linguagem natural. Embora a adoção de uma taxa de compressão dinâmica e consciente da densidade pareça intuitiva, investigações empíricas revelam que os modelos lutam intrinsecamente com operações parametrizadas por hiperparâmetros estruturais contínuos dependentes da entrada. Para resolver esta limitação, introduzimos o framework de Compressão de Contexto Semidinâmica. Nossa abordagem apresenta um Seletor de Razão Discreta, que prevê um alvo de compressão baseado na densidade de informação intrínseca e o quantiza para um conjunto predefinido de razões de compressão discretas. Ele é treinado conjuntamente de forma eficiente com o compressor em dados sintéticos, utilizando os comprimentos dos resumos como um proxy para criar rótulos para a previsão da razão de compressão. Avaliações extensivas confirmam que o nosso framework consciente da densidade, utilizando *mean pooling* como base, supera consistentemente as *baselines* estáticas, estabelecendo uma fronteira de Pareto robusta para técnicas de compressão de contexto. O nosso código, dados e pesos do modelo estão disponíveis em https://github.com/yuyijiong/semi-dynamic-context-compress.
A fundamentação tornou-se uma capacidade fundamental dos modelos visão-linguagem (VLMs). A maioria dos VLMs existentes aponta gerando coordenadas como parte de sua saída de texto, o que requer a aprendizagem de um sistema de coordenadas complexo e resulta em uma alta contagem de *tokens*. Em vez disso, propomos um mecanismo de apontar mais intuitivo que seleciona diretamente os *tokens* visuais que contêm o conceito-alvo. Nosso modelo gera um *token* especial de apontamento que aplica atenção cruzada aos *tokens* de imagem ou vídeo de entrada e seleciona o apropriado. Para tornar este modelo mais granular, fazemos com que estes *tokens* de apontamento sejam seguidos por um *token* especial adicional que seleciona um sub-bloco granular dentro da região inicialmente selecionada, e depois um terceiro *token* que especifica uma localização dentro desse sub-bloco. Mostramos ainda que o desempenho melhora ao gerar pontos sequencialmente numa ordem consistente, codificando a posição relativa do ponto selecionado anteriormente, e incluindo uma classe especial "sem-mais-pontos" ao selecionar *tokens* visuais. Usando este método, estabelecemos um novo estado da arte em apontamento em imagens (70,7% no PointBench), estabelecemos um novo estado da arte entre modelos totalmente abertos em apontamento em IU gráfica (61,1% no ScreenSpotPro) e melhoramos o apontamento em vídeos (59,1% de taxa de preferência humana vs. uma linha de base de coordenadas textuais) e rastreamento (+6,3% de ganho no Molmo2Track). Adicionalmente, mostramos que o nosso método alcança uma eficiência amostral muito superior e discutimos as diferenças qualitativas que emergem desta mudança de design.
A perspectiva da superinteligência artificial – agentes de IA que podem superar os humanos em geral em tarefas cognitivas e atividades economicamente valiosas – transformará a ordem jurídica como a conhecemos. Operando de forma autónoma ou sob supervisão humana limitada, os agentes de IA assumirão uma gama crescente de funções no sistema jurídico. Em primeiro lugar, ao tomar decisões consequentes e realizar ações no mundo real, os agentes de IA tornar-se-ão sujeitos de facto do direito. Em segundo lugar, para cooperar e competir com outros atores (humanos ou não humanos), os agentes de IA recorrerão a instrumentos e instituições jurídicos convencionais, como contratos e tribunais, tornando-se consumidores do direito. Em terceiro lugar, na medida em que os agentes de IA desempenharem as funções de redigir, interpretar e aplicar a lei, tornar-se-ão produtores e aplicadores do direito. Estes desenvolvimentos, sempre que ocorram em definitivo, colocarão em causa pressupostos fundamentais da teoria e da doutrina jurídica, especialmente na medida em que estes fundamentam a legitimidade das instituições jurídicas nas suas origens humanas. As tentativas de alinhar os agentes de IA com o direito humano existente também enfrentarão novos desafios, uma vez que os agentes de IA não serão apenas um alvo primário do direito, mas também um utilizador central do direito e um contribuidor para o direito. Para lidar com o advento da superinteligência, os legisladores – antigos e novos – terão de ter uma visão clara, reconhecendo tanto a oportunidade de moldar as instituições jurídicas enquanto a sociedade se prepara para a superinteligência, como a realidade de que, a longo prazo, este poderá ser um empreendimento conjunto entre humanos e IA.
Modelos recentes de Inteligência Artificial (IA) equipararam ou superaram especialistas humanos em várias referências de desempenho de tarefas biomédicas, mas ficaram aquém em benchmarks de análise de imagens cirúrgicas. Como a cirurgia requer a integração de tarefas díspares – incluindo integração de dados multimodais, interação humana e efeitos físicos – modelos de IA com capacidade geral poderiam ser particularmente atraentes como ferramenta colaborativa, se o desempenho pudesse ser melhorado. Por um lado, a abordagem canônica de escalar o tamanho da arquitetura e os dados de treinamento é atrativa, especialmente porque são gerados milhões de horas de vídeo cirúrgico por ano. Por outro lado, preparar dados cirúrgicos para treinamento de IA exige níveis significativamente mais altos de expertise profissional, e o treinamento com esses dados requer recursos computacionais caros. Esses trade-offs pintam um quadro incerto sobre se, e em que medida, a IA moderna poderia auxiliar a prática cirúrgica. Neste artigo, exploramos essa questão através de um estudo de caso de detecção de instrumentos cirúrgicos usando métodos de IA de última geração disponíveis em 2026. Demonstramos que, mesmo com modelos de múltiplos bilhões de parâmetros e treinamento extensivo, os atuais Modelos de Linguagem e Visão (Vision Language Models) ficam aquém na tarefa aparentemente simples de detecção de instrumentos em neurocirurgia. Adicionalmente, mostramos experimentos de escalabilidade que indicam que aumentar o tamanho do modelo e o tempo de treinamento leva apenas a melhorias decrescentes nas métricas de desempenho relevantes. Assim, nossos experimentos sugerem que os modelos atuais ainda podem enfrentar obstáculos significativos em casos de uso cirúrgico. Além disso, alguns obstáculos não podem ser simplesmente "resolvidos com escala" com computação adicional e persistem em diversas arquiteturas de modelo, levantando a questão de se a disponibilidade de dados e rótulos são os únicos fatores limitantes. Discutimos os principais contribuintes para essas restrições e avançamos possíveis soluções.
A compreensão de vídeos longos continua a ser um desafio para os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) devido aos elevados custos de memória e aos limites de comprimento de contexto. As abordagens anteriores mitigam isto através da pontuação e seleção de frames/tokens dentro de clips curtos, mas carecem de um mecanismo fundamentado para (i) comparar a relevância entre clips de vídeo distantes e (ii) parar o processamento uma vez reunidas evidências suficientes. Propomos o AdaptToken, uma estrutura *training-free* que transforma a autoincerteza de um MLLM num sinal de controlo global para a seleção de tokens em vídeos longos. O AdaptToken divide um vídeo em grupos, extrai a atenção multimodal para classificar os tokens dentro de cada grupo e usa a entropia da resposta do modelo para estimar a relevância de cada grupo para o *prompt*. Este sinal de entropia permite uma alocação global do orçamento de tokens entre os grupos e suporta ainda a paragem antecipada (AdaptToken-Lite), saltando os grupos restantes quando o modelo se torna suficientemente certo. Em quatro *benchmarks* de vídeo longo (VideoMME, LongVideoBench, LVBench e MLVU) e múltiplos MLLMs base (7B-72B), o AdaptToken melhora consistentemente a precisão (ex: +6.7 em média sobre o Qwen2.5-VL 7B) e continua a beneficiar de entradas extremamente longas (até 10K *frames*), enquanto o AdaptToken-Lite reduz o tempo de inferência para cerca de metade com desempenho comparável. Página do projeto: https://haozheqi.github.io/adapt-token
A patologia computacional necessita de modelos de base para imagens de lâmina completa (WSI) que se transfiram entre diversas tarefas clínicas. No entanto, as abordagens atuais permanecem amplamente centradas na lâmina, frequentemente dependem de dados privados e de supervisão dispendiosa com relatórios emparelhados, e não modelam explicitamente as relações entre múltiplas lâminas do mesmo paciente. Apresentamos o MOOZY, um modelo de base para patologia com abordagem centrada no paciente, no qual o caso clínico, e não a lâmina individual, é a unidade central de representação. O MOOZY modela explicitamente as dependências entre todas as lâminas do mesmo paciente através de um *transformer* de caso durante o pré-treinamento, combinando auto-supervisão aberta em múltiplos estágios com supervisão de tarefas escalável e de baixo custo. No Estágio 1, pré-treinamos um codificador de lâmina apenas visual em 77.134 grelhas de características de lâminas públicas usando auto-distilação mascarada. No Estágio 2, alinhamos essas representações com a semântica clínica usando um *transformer* de caso e supervisão multi-tarefa em 333 tarefas de 56 conjuntos de dados públicos, incluindo 205 tarefas de classificação e 128 tarefas de sobrevivência em quatro *endpoints*. Em oito tarefas retidas com avaliação de *probe* de características congeladas e validação cruzada de cinco partes, o MOOZY alcança o melhor desempenho ou empata no melhor desempenho na maioria das métricas e melhora as médias macro em relação ao TITAN em +7,37%, +5,50% e +7,83%, e em relação ao PRISM em +8,83%, +10,70% e +9,78% para F1 ponderado, ROC-AUC ponderado e precisão balanceada, respetivamente. O MOOZY é também eficiente em parâmetros, com 85,77 milhões de parâmetros, 14 vezes menor que o GigaPath. Estes resultados demonstram que um pré-treinamento aberto e reproduzível ao nível do paciente produz *embeddings* transferíveis, fornecendo um caminho prático para modelos de base em histopatologia escaláveis e centrados no paciente.
Os modelos generativos destacam-se na síntese de movimento para um número fixo de agentes, mas lutam para generalizar com quantidades variáveis de agentes. Com base em dados limitados e específicos de domínio, os métodos existentes empregam modelos autoregressivos para gerar movimento recursivamente, o que sofre de ineficiência e acumulação de erros. Propomos o Unified Motion Flow (UMF), que consiste no Pyramid Motion Flow (P-Flow) e no Semi-Noise Motion Flow (S-Flow). O UMF decompõe a geração de movimento independente do número de agentes em um estágio de geração de prior de movimento de passagem única e estágios de geração de reação de múltiplas passagens. Especificamente, o UMF utiliza um espaço latente unificado para preencher a lacuna de distribuição entre conjuntos de dados de movimento heterogéneos, permitindo um treinamento unificado eficaz. Para a geração de prior de movimento, o P-Flow opera em resoluções hierárquicas condicionadas a diferentes níveis de ruído, mitigando assim os custos computacionais. Para a geração de reação, o S-Flow aprende um caminho probabilístico conjunto que executa adaptativamente a transformação de reação e a reconstrução de contexto, aliviando a acumulação de erros. Resultados extensivos e estudos de utilizador demonstram a eficácia do UMF como um modelo generalista para a geração de movimento multi-pessoa a partir de texto. Página do projeto: https://githubhgh.github.io/umf/.
A segmentação contextual (ICS) visa segmentar conceitos arbitrários, por exemplo, objetos, partes ou instâncias personalizadas, a partir de um exemplo visual anotado. Os trabalhos existentes baseiam-se (i) no *fine-tuning* de modelos de base de visão (VFMs), o que melhora os resultados no domínio, mas prejudica a generalização, ou (ii) na combinação de múltiplos VFMs congelados, o que preserva a generalização, mas resulta em complexidade arquitetónica e granularidades de segmentação fixas. Revisitamos a ICS a partir de uma perspetiva minimalista e questionamos: Pode um *backbone* auto-supervisionado único suportar tanto a correspondência semântica como a segmentação, sem qualquer supervisão ou modelos auxiliares? Mostramos que características densas auto-supervisionadas em escala do DINOv3 exibem uma forte estrutura espacial e correspondência semântica. Apresentamos o INSID3, uma abordagem livre de treino que segmenta conceitos em várias granularidades apenas a partir das características congeladas do DINOv3, dado um exemplo contextual. O INSID3 alcança resultados state-of-the-art em segmentação semântica, de partes e personalizada *one-shot*, superando trabalhos anteriores em +7,5 % mIoU, utilizando 3 vezes menos parâmetros e sem qualquer supervisão a nível de máscara ou categoria. O código está disponível em https://github.com/visinf/INSID3.
A modelagem de plasma é fundamental para o projeto de reatores de fusão nuclear, no entanto, a simulação da cinética de plasma colisional a partir dos primeiros princípios continua a ser um desafio computacional formidável: o sistema Vlasov-Maxwell-Landau (VML) descreve o transporte no espaço de fase de seis dimensões sob campos eletromagnéticos auto-consistentes em conjunto com o operador de colisão de Landau não linear e não local. Um método determinístico de partículas recente para o sistema VML completo estima a função *score* de velocidade através do método *blob*, uma aproximação baseada em *kernel* com custo O(n²). Neste trabalho, substituímos o estimador *blob* por modelagem de transporte baseada em *score* (SBTM), na qual uma rede neural é treinada dinamicamente via correspondência implícita de *score* com custo O(n). Provamos que o operador de colisão aproximado preserva o momento e a energia cinética, e dissipa uma entropia estimada. Também caracterizamos o estado estacionário global único do sistema VML e sua redução eletrostática, fornecendo a base para a validação numérica. Em três *benchmarks* canónicos – amortecimento de Landau, instabilidade de dois feixes e instabilidade de Weibel – o SBTM é mais preciso do que o método *blob*, alcança o relaxamento correto para o equilíbrio Maxwelliano em longo prazo, onde o método *blob* falha, e proporciona um tempo de execução 50% mais rápido com um pico de memória 4 vezes menor.