Artigos de pesquisa em IA selecionados diariamente com traduções
A percepção egocêntrica permite que os seres humanos experienciem e compreendam o mundo diretamente a partir do seu próprio ponto de vista. A tradução de vídeos exocêntricos (terceira pessoa) em vídeos egocêntricos (primeira pessoa) abre novas possibilidades para uma compreensão imersiva, mas permanece um grande desafio devido às variações extremas na pose da câmera e à sobreposição mínima de visão. Esta tarefa requer a preservação fiel do conteúdo visível, enquanto sintetiza regiões não visíveis de uma forma geometricamente consistente. Para alcançar este objetivo, apresentamos o EgoX, uma nova estrutura para geração de vídeos egocêntricos a partir de uma única entrada exocêntrica. O EgoX aproveita o conhecimento espaço-temporal pré-treinado de modelos de difusão de vídeo em larga escala através de uma adaptação leve por LoRA e introduz uma estratégia de condicionamento unificada que combina *priors* exocêntricos e egocêntricos via concatenação por largura e canal. Adicionalmente, um mecanismo de autoatenção guiado por geometria atende seletivamente a regiões espacialmente relevantes, garantindo coerência geométrica e alta fidelidade visual. A nossa abordagem alcança uma geração de vídeo egocêntrica coerente e realista, demonstrando ao mesmo tempo forte escalabilidade e robustez em vídeos não vistos e em cenários do mundo real.
A interpretação confiável de dados multimodais em odontologia é essencial para a assistência odontológica automatizada, no entanto, os atuais modelos de linguagem multimodal (MLLMs) lutam para capturar detalhes visuais odontológicos refinados e carecem de capacidade de raciocínio suficiente para diagnósticos precisos. Para superar essas limitações, apresentamos o DentalGPT, um MLLM odontológico especializado desenvolvido por meio de injeção de conhecimento de domínio de alta qualidade e aprendizado por reforço. Especificamente, o maior conjunto de dados multimodais anotado para odontologia até hoje foi construído agregando mais de 120 mil imagens odontológicas emparelhadas com descrições detalhadas que destacam características visuais clinicamente relevantes, tornando-o o conjunto de dados multimodal com a coleção mais extensa de imagens odontológicas até à data. O treinamento neste conjunto de dados melhora significativamente a compreensão visual do MLLM sobre condições odontológicas, enquanto a fase subsequente de aprendizado por reforço fortalece ainda mais sua capacidade de raciocínio complexo multimodal. Avaliações abrangentes em benchmarks de imagens intraorais e panorâmicas, juntamente com subconjuntos odontológicos de benchmarks de VQA médica, mostram que o DentalGPT alcança desempenho superior em tarefas de classificação de doenças e VQA odontológico, superando muitos MLLMs de última geração apesar de possuir apenas 7 bilhões de parâmetros. Estes resultados demonstram que dados odontológicos de alta qualidade combinados com adaptação em etapas fornecem um caminho eficaz para a construção de MLLMs odontológicos capacitados e especializados no domínio.
A geração visual baseada em representações de Modelos de Base Visual (VFMs) oferece um caminho unificado altamente promissor para integrar compreensão, percepção e geração visual. Apesar desse potencial, o treinamento de modelos de difusão de grande escala para texto em imagem inteiramente dentro do espaço de representação do VFM permanece amplamente inexplorado. Para preencher esta lacuna, nós dimensionamos a estrutura SVG (Representações Auto-supervisionadas para Geração Visual), propondo o SVG-T2I para suportar a síntese de texto para imagem de alta qualidade diretamente no domínio de características do VFM. Ao aproveitar um pipeline padrão de difusão de texto para imagem, o SVG-T2I alcança um desempenho competitivo, atingindo 0.75 no GenEval e 85.78 no DPG-Bench. Este desempenho valida o poder representacional intrínseco dos VFMs para tarefas generativas. Nós disponibilizamos o projeto em código aberto, incluindo o autoencoder e o modelo de geração, juntamente com seus pipelines de treinamento, inferência, avaliação e pesos pré-treinados, para facilitar pesquisas futuras em geração visual orientada por representações.
Os modelos atuais de animação de retratos baseados em difusão concentram-se predominantemente na melhoria da qualidade visual e do realismo das expressões, negligenciando a latência de geração e o desempenho em tempo real, o que restringe sua aplicabilidade em cenários de transmissão ao vivo. Propomos o PersonaLive, uma nova estrutura baseada em difusão para animação de retratos em tempo real em streaming, com receitas de treinamento em múltiplos estágios. Especificamente, adotamos primeiro sinais implícitos híbridos, nomeadamente representações faciais implícitas e pontos-chave implícitos 3D, para alcançar um controle expressivo de movimento a nível de imagem. Em seguida, é proposta uma estratégia de destilação de aparência com menos etapas para eliminar a redundância aparente no processo de remoção de ruído, melhorando significativamente a eficiência da inferência. Por fim, introduzimos um paradigma de geração em streaming de micro-segmentos autorregressivos, equipado com uma estratégia de treinamento deslizante e um mecanismo de quadros-chave históricos, para permitir geração de vídeo de longo prazo com baixa latência e estabilidade. Experimentos extensivos demonstram que o PersonaLive alcança desempenho de ponta com aceleração de até 7-22x em relação aos modelos anteriores de animação de retratos baseados em difusão.
Os modelos de geração de vídeo em larga escala têm demonstrado um potencial notável na modelagem de aparência fotorrealista e interações de iluminação em cenas do mundo real. No entanto, uma estrutura de circuito fechado que compreenda conjuntamente propriedades intrínsecas da cena (por exemplo, albedo, normal, material e irradiância), as utilize para síntese de vídeo e suporte representações intrínsecas editáveis permanece inexplorada. Apresentamos o V-RGBX, o primeiro *framework* de ponta a ponta para edição de vídeo com consciência intrínseca. O V-RGBX unifica três capacidades principais: (1) renderização inversa de vídeo em canais intrínsecos, (2) síntese de vídeo fotorrealista a partir dessas representações intrínsecas e (3) edição de vídeo baseada em *keyframes* condicionada nos canais intrínsecos. O cerne do V-RGBX é um mecanismo de condicionamento intercalado que permite uma edição de vídeo intuitiva e fisicamente fundamentada através de *keyframes* selecionados pelo utilizador, suportando a manipulação flexível de qualquer modalidade intrínseca. Resultados qualitativos e quantitativos extensivos mostram que o V-RGBX produz vídeos fotorrealistas e temporalmente consistentes, propagando as edições dos *keyframes* ao longo das sequências de uma forma fisicamente plausível. Demonstramos a sua eficácia em diversas aplicações, incluindo edição da aparência de objetos e reiluminação a nível de cena, superando o desempenho de métodos anteriores.
Apresentamos o SHARP, uma abordagem para síntese de visualizações fotorrealistas a partir de uma única imagem. Dada uma única fotografia, o SHARP regride os parâmetros de uma representação de Gaussianas 3D da cena retratada. Isso é feito em menos de um segundo em uma GPU padrão por meio de uma única passagem *feedforward* através de uma rede neural. A representação de Gaussianas 3D produzida pelo SHARP pode então ser renderizada em tempo real, gerando imagens fotorrealistas de alta resolução para visualizações próximas. A representação é métrica, com escala absoluta, suportando movimentos de câmera métricos. Resultados experimentais demonstram que o SHARP oferece generalização robusta *zero-shot* entre conjuntos de dados. Ele estabelece um novo estado da arte em múltiplos conjuntos de dados, reduzindo o LPIPS em 25-34% e o DISTS em 21-43% em comparação com o melhor modelo anterior, enquanto reduz o tempo de síntese em três ordens de magnitude. Código e pesos são fornecidos em https://github.com/apple/ml-sharp.
O mecanismo de auto-atenção em Modelos de Linguagem Grande (LLMs) baseados em Transformer escala quadraticamente com o comprimento da entrada, tornando a inferência de contexto longo dispendiosa. A atenção por janela deslizante (SWA) reduz este custo para complexidade linear, mas a ativação ingênua de SWA completa durante a inferência em modelos pré-treinados com atenção completa (FA) causa severa degradação de desempenho em contexto longo devido ao desalinhamento treino-inferência. Isto nos leva a questionar: LLMs pré-treinados com FA podem ser bem adaptados à SWA sem novo pré-treinamento? Investigamos isto propondo a Adaptação por Atenção de Janela Deslizante (SWAA), um conjunto de receitas práticas que combina cinco métodos para melhor adaptação: (1) aplicar SWA apenas durante o preenchimento prévio; (2) preservar tokens "âncora"; (3) intercalar camadas FA/SWA; (4) cadeia de pensamento (CoT); e (5) ajuste fino. Nossos experimentos mostram que a adaptação SWA é viável porém não trivial: nenhum método único é suficiente, mas combinações sinérgicas específicas recuperam efetivamente o desempenho original em contexto longo. Analisamos ainda os trade-offs desempenho-eficiência de diferentes configurações SWAA e fornecemos receitas recomendadas para diversos cenários. Nosso código está disponível em https://github.com/yuyijiong/sliding-window-attention-adaptation.
A aprendizagem multimodal tem avançado rapidamente na compreensão visual, principalmente através dos modelos de linguagem grandes multimodais (MLLMs) que utilizam LLMs poderosos como núcleos cognitivos. Na geração visual, no entanto, estes modelos centrais poderosos são tipicamente reduzidos a codificadores de texto globais para modelos de difusão, deixando a maior parte da sua capacidade de raciocínio e planeamento por utilizar. Isto cria uma lacuna: os actuais MLLMs multimodais podem analisar layouts complexos, atributos e cenas intensivas em conhecimento, mas lutam para gerar imagens ou vídeos com um controlo igualmente preciso e estruturado. Propomos o MetaCanvas, uma estrutura leve que permite aos MLLMs raciocinar e planear directamente em espaços latentes espaciais e espaço-temporais e interagir estreitamente com geradores de difusão. Implementamos empiricamente o MetaCanvas em três backbones de difusão diferentes e avaliamo-lo em seis tarefas, incluindo geração de texto para imagem, geração de texto/imagem para vídeo, edição de imagem/vídeo e geração de vídeo em contexto, cada uma exigindo layouts precisos, vinculação robusta de atributos e controlo intensivo em raciocínio. O MetaCanvas supera consistentemente as linhas de base de condicionamento global, sugerindo que tratar os MLLMs como planeadores de espaço latente é uma direcção promissora para reduzir a lacuna entre a compreensão e a geração multimodais.
Métodos baseados em primitivas, como o 3D Gaussian Splatting, revolucionaram a síntese de novas vistas com renderização em tempo real. No entanto, suas representações baseadas em pontos permanecem incompatíveis com pipelines baseados em malha que alimentam motores de AR/VR e jogos. Apresentamos o MeshSplatting, uma abordagem de reconstrução baseada em malha que otimiza conjuntamente geometria e aparência por meio de renderização diferenciável. Ao impor conectividade via triangulação de Delaunay restrita e refinar a consistência superficial, o MeshSplatting cria malhas suaves de ponta a ponta e de alta qualidade visual que renderizam com eficiência em motores 3D em tempo real. No Mip-NeRF360, ele aumenta o PSNR em +0,69 dB em relação ao estado da arte atual (MiLo) para síntese de novas vistas baseada em malha, enquanto treina 2x mais rápido e usa 2x menos memória, unindo a renderização neural e os gráficos 3D interativos para uma interação de cena em tempo real perfeita. A página do projeto está disponível em https://meshsplatting.github.io/.
A realidade é uma dança entre restrições rígidas e estruturas deformáveis. Para modelos de vídeo, isso significa gerar movimento que preserve tanto a fidelidade quanto a estrutura. Apesar dos avanços nos modelos de difusão, produzir movimento realista que preserve a estrutura continua a ser um desafio, especialmente para objetos articulados e deformáveis, como humanos e animais. Até agora, apenas aumentar a escala dos dados de treino não conseguiu resolver transições fisicamente implausíveis. As abordagens existentes dependem de condicionamento com representações de movimento ruidosas, como fluxo ótico ou esqueletos extraídos usando um modelo externo imperfeito. Para enfrentar estes desafios, introduzimos um algoritmo para destilar *priors* de movimento que preservam a estrutura a partir de um modelo de rastreamento de vídeo autorregressivo (SAM2) para um modelo de difusão de vídeo bidirecional (CogVideoX). Com o nosso método, treinámos o SAM2VideoX, que contém duas inovações: (1) um módulo de fusão de características bidirecional que extrai *priors* de movimento globais que preservam a estrutura de um modelo recorrente como o SAM2; (2) uma função de perda *Local Gram Flow* que alinha a forma como as características locais se movem em conjunto. Experiências no VBench e em estudos com humanos mostram que o SAM2VideoX proporciona ganhos consistentes (+2,60% no VBench, FVD 21-22% menor e 71,4% de preferência humana) face a *baselines* anteriores. Especificamente, no VBench, alcançámos 95,51%, superando o REPA (92,91%) em 2,60%, e reduzimos o FVD para 360,57, uma melhoria de 21,20% e 22,46% em relação ao REPA e ao *fine-tuning* LoRA, respetivamente. O website do projeto pode ser encontrado em https://sam2videox.github.io/.
O pré-treinamento de LLMs modernos consome quantidades vastas de capacidade computacional e dados de treinamento, tornando o comportamento de escalonamento, ou leis de escalonamento, de diferentes modelos um fator distintivo fundamental. Modelos de linguagem por difusão discreta (DLMs) foram propostos como uma alternativa aos modelos de linguagem autorregressivos (ALMs). No entanto, o seu comportamento de escalonamento ainda não foi totalmente explorado, com trabalhos anteriores sugerindo que eles requerem mais dados e poder computacional para igualar o desempenho dos ALMs. Nós estudamos o comportamento de escalonamento de DLMs em diferentes tipos de ruído, interpolando suavemente entre difusão mascarada e difusão uniforme, prestando atenção rigorosa a hiperparâmetros cruciais, como tamanho do lote e taxa de aprendizagem. Nossos experimentos revelam que o comportamento de escalonamento dos DLMs depende fortemente do tipo de ruído e é consideravelmente diferente do dos ALMs. Embora todos os tipos de ruído convirjam para valores de perda semelhantes no escalonamento limitado por computação, descobrimos que a difusão uniforme requer mais parâmetros e menos dados para um treinamento computacionalmente eficiente em comparação com a difusão mascarada, tornando-a um candidato promissor em cenários limitados por dados. Escalonamos nosso modelo de difusão uniforme até 10 bilhões de parâmetros, treinado com 10^{22} FLOPs, confirmando o comportamento de escalonamento previsto e tornando-o o maior modelo de difusão uniforme publicamente conhecido até à data.
Propomos o LEO-RobotAgent, uma estrutura de agente inteligente de propósito geral orientada por linguagem para robôs. Nesta estrutura, os LLMs (Large Language Models) podem operar diferentes tipos de robôs para concluir tarefas complexas e imprevisíveis em vários cenários. Esta estrutura apresenta forte generalização, robustez e eficiência. O sistema de nível aplicativo construído em torno dela pode aprimorar totalmente a compreensão bidirecional da intenção humano-robô e diminuir o limiar para a interação humano-robô. Em relação ao planejamento de tarefas robóticas, a grande maioria dos estudos existentes concentra-se na aplicação de grandes modelos em cenários de tarefa única e para tipos únicos de robôs. Esses algoritmos frequentemente possuem estruturas complexas e carecem de generalização. Assim, a estrutura LEO-RobotAgent proposta foi concebida com uma estrutura simplificada sempre que possível, permitindo que os grandes modelos pensem, planejem e ajam de forma independente dentro desta estrutura clara. Fornecemos um conjunto de ferramentas modular e de fácil registro, permitindo que os grandes modelos chamem flexivelmente várias ferramentas para atender a diferentes requisitos. Paralelamente, a estrutura incorpora um mecanismo de interação humano-robô, permitindo que o algoritmo colabore com os humanos como um parceiro. Os experimentos verificaram que esta estrutura pode ser facilmente adaptada a plataformas robóticas principais, incluindo Veículos Aéreos Não Tripulados (VANTs), braços robóticos e robôs com rodas, e executar com eficiência uma variedade de tarefas cuidadosamente elaboradas com diferentes níveis de complexidade. O nosso código está disponível em https://github.com/LegendLeoChen/LEO-RobotAgent.
Os modelos de base para estereoscopia alcançam uma forte generalização zero-shot, mas permanecem computacionalmente proibitivos para aplicações em tempo real. As arquiteturas estereoscópicas eficientes, por outro lado, sacrificam a robustez pela velocidade e requerem um ajuste fino custoso por domínio. Para preencher esta lacuna, apresentamos o Fast-FoundationStereo, uma família de arquiteturas que alcança, pela primeira vez, uma forte generalização zero-shot à taxa de frames em tempo real. Empregamos uma estratégia de aceleração de dividir-e-conquistar com três componentes: (1) destilação de conhecimento para comprimir a espinha dorsal híbrida num único estudante eficiente; (2) pesquisa de arquitetura neural por blocos para descobrir automaticamente projetos ótimos de filtragem de custo sob orçamentos de latência, reduzindo a complexidade da pesquisa exponencialmente; e (3) poda estruturada para eliminar a redundância no módulo de refinamento iterativo. Adicionalmente, introduzimos um pipeline automático de pseudo-rotulagem usado para curar 1.4M de pares estereoscópicos do mundo real para complementar os dados de treino sintéticos e facilitar a destilação de conhecimento. O modelo resultante pode ser executado mais de 10 vezes mais rápido que o FoundationStereo, equiparando-se de perto à sua precisão zero-shot, estabelecendo assim um novo estado da arte entre os métodos em tempo real. Página do projeto: https://nvlabs.github.io/Fast-FoundationStereo/
Os modelos de linguagem de grande escala (LLMs) revolucionaram a inteligência artificial, mas suas enormes demandas de memória e computação exigem uma quantização agressiva, empurrando cada vez mais as representações para o limite teórico de um único bit. Embora os LLMs de valor complexo, como o iFairy, ofereçam uma oportunidade superior para representação de baixo bit em comparação com os homólogos de valor real, eles exigem treinamento a partir do zero, impedindo a utilização do vasto ecossistema de modelos base pré-treinados de valor real. Aqui apresentamos o Fairy2i, uma estrutura universal que transforma camadas pré-treinadas de valor real numa forma complexa de linearidade ampla equivalente, permitindo uma quantização extremamente baixa de bits enquanto reutiliza *checkpoints* existentes. Ao provar uma equivalência matemática sem perdas entre mapas reais e de linearidade ampla, convertemos *Transformers* padrão para o domínio complexo e empregamos um esquema de quantização consciente da fase com um *codebook* altamente eficiente das raízes quartas da unidade. Além disso, introduzimos um mecanismo de quantização residual recursiva que minimiza iterativamente o erro de quantização, permitindo que a inferência prossiga via acumulação eficiente e livre de multiplicação. Demonstramos que o Fairy2i restaura o desempenho do LLaMA-2 7B numa precisão efetiva de 2 bits para níveis quase comparáveis com as linhas de base de precisão total, superando significativamente os métodos state-of-the-art de quantização binária e ternária de valor real. Este trabalho preenche a lacuna entre a eficiência representacional da aritmética de valor complexo e a utilidade prática dos modelos pré-treinados, abrindo um novo caminho para inferência eficiente em *hardware* comercial.
Apresentamos o Particulate, uma abordagem de propagação direta que, dado um único modelo 3D estático de um objeto do quotidiano, infere diretamente todos os atributos da estrutura articulada subjacente, incluindo as suas partes 3D, a estrutura cinemática e os limites de movimento. O seu núcleo é uma rede *transformer*, o Part Articulation Transformer, que processa uma nuvem de pontos da malha de entrada usando uma arquitetura flexível e escalável para prever todos os atributos mencionados, com suporte nativo para múltiplas juntas. Treinamos a rede de ponta a ponta numa coleção diversificada de ativos 3D articulados de conjuntos de dados públicos. Durante a inferência, o Particulate eleva a previsão da rede de propagação direta para a malha de entrada, produzindo um modelo 3D totalmente articulado em segundos, muito mais rápido do que as abordagens anteriores que exigiam otimização por objeto. O Particulate também pode inferir com precisão a estrutura articulada de ativos 3D gerados por IA, permitindo a extração completa de objetos 3D articulados a partir de uma única imagem (real ou sintética) quando combinado com um gerador imagem-para-3D convencional. Introduzimos ainda um novo e desafiante benchmark para estimativa de articulação 3D, selecionado a partir de ativos 3D públicos de alta qualidade, e redesenvolvemos o protocolo de avaliação para ser mais consistente com as preferências humanas. Resultados quantitativos e qualitativos mostram que o Particulate supera significativamente as abordagens state-of-the-art.
A avaliação LLM-como-juiz tornou-se o padrão de facto para escalar a avaliação de modelos, mas a prática é estatisticamente incorreta: escores não calibrados podem inverter preferências, intervalos de confiança ingênuos sobre escores não calibrados atingem cobertura próxima de 0%, e estimadores ponderados por importância colapsam sob sobreposição limitada apesar de um tamanho amostral efetivo (ESS) alto. Apresentamos a Avaliação de Juiz Causal (CJE), uma estrutura que corrige todas as três falhas. Em n=4.961 prompts do Chatbot Arena (após filtragem de 5k), a CJE atinge 99% de precisão de classificação pareada no tamanho amostral total (94% em média entre configurações), correspondendo à qualidade do oráculo, a um custo 14x menor (para classificar 5 políticas) calibrando um juiz 16x mais barato com apenas 5% de rótulos do oráculo (~250 rótulos). A CJE combina três componentes: (i) AutoCal-R, calibração de recompensa via regressão isotônica de média preservada; (ii) SIMCal-W, estabilização de pesos via empilhamento de candidatos S-monotônicos; e (iii) inferência Ciente da Incerteza do Oráculo (OUA) que propaga a incerteza de calibração para os intervalos de confiança. Formalizamos o diagnóstico de Eficiência Limitada pela Cobertura (CLE), que explica por que estimadores no estilo IPS falham mesmo quando o ESS excede 90%: o logger raramente visita regiões onde as políticas-alvo se concentram. Principais achados: SNIPS inverte classificações mesmo com calibração de recompensa (38% pareado, tau de Kendall negativo) devido à instabilidade dos pesos; IPS calibrado permanece próximo do aleatório (47%) apesar da estabilização de pesos, consistente com o CLE; OUA melhora a cobertura de próximo de 0% para ~86% (Direto) e ~96% (DR-empilhado), onde intervalos ingênuos subcobrem severamente.
Apresentamos uma política visão-ação que conquistou o 1º lugar no Desafio BEHAVIOR 2025 - um benchmark de grande escala que apresenta 50 tarefas domésticas diversas e de longo horizonte em simulação fotorrealista, exigindo manipulação bimanual, navegação e tomada de decisão contextual. Com base na arquitetura Pi0.5, introduzimos várias inovações. Nossa principal contribuição é o ruído correlacionado para *flow matching*, que melhora a eficiência do treinamento e permite a restauração de imagem (*inpainting*) com consciência de correlação para sequências de ações suaves. Também aplicamos atenção mista em camadas (*learnable mixed-layer attention*) e rastreamento de estágio do Sistema 2 para resolução de ambiguidades. O treinamento emprega *flow matching* com múltiplas amostras para reduzir a variância, enquanto a inferência utiliza compressão de ações e regras de correção específicas para o desafio. Nossa abordagem atinge um *q-score* de 26% em todas as 50 tarefas, tanto no *leaderboard* público quanto no privado.
A integração de modelos de linguagem (MLs) em sistemas de saúde tem grande potencial para melhorar os fluxos de trabalho médicos e a tomada de decisões. No entanto, uma barreira crítica para a sua adoção no mundo real é a falta de uma avaliação confiável da sua confiabilidade, especialmente em contextos de saúde multilíngues. Os MLs existentes são predominantemente treinados em idiomas de alto recurso, o que os torna mal preparados para lidar com a complexidade e a diversidade de consultas de saúde em idiomas de recursos médios e baixos, representando desafios significativos para a sua implantação em contextos globais de saúde, onde a diversidade linguística é fundamental. Neste trabalho, apresentamos o CLINIC, um Benchmark Multilíngue Abrangente para avaliar a confiabilidade dos modelos de linguagem na área da saúde. O CLINIC avalia sistematicamente os MLs em cinco dimensões-chave de confiabilidade: veracidade, imparcialidade, segurança, robustez e privacidade, operacionalizadas por meio de 18 tarefas diversas, abrangendo 15 idiomas (cobrindo todos os continentes principais) e englobando uma ampla gama de tópicos críticos de saúde, como condições de doenças, ações preventivas, testes diagnósticos, tratamentos, cirurgias e medicamentos. Nossa avaliação extensiva revela que os MLs lutam com a correção factual, demonstram viés entre grupos demográficos e linguísticos e são suscetíveis a violações de privacidade e a ataques adversariais. Ao destacar essas deficiências, o CLINIC estabelece as bases para melhorar o alcance global e a segurança dos MLs na saúde em diversos idiomas.
A análise de grandes corpora de texto é um desafio central no aprendizado de máquina, crucial para tarefas como a identificação de comportamentos indesejáveis de modelos ou vieses nos dados de treinamento. Os métodos atuais frequentemente dependem de técnicas dispendiosas baseadas em LLMs (por exemplo, anotação de diferenças em conjuntos de dados) ou modelos de incorporação densa (por exemplo, para clustering), que não permitem controlar as propriedades de interesse. Propomos o uso de autoencoders esparsos (SAEs) para criar incorporações SAE: representações cujas dimensões mapeiam conceitos interpretáveis. Por meio de quatro tarefas de análise de dados, mostramos que as incorporações SAE são mais econômicas e confiáveis do que LLMs e mais controláveis do que as incorporações densas. Utilizando o grande espaço de hipóteses dos SAEs, podemos descobrir *insights*, como (1) diferenças semânticas entre conjuntos de dados e (2) correlações inesperadas de conceitos em documentos. Por exemplo, ao comparar respostas de modelos, descobrimos que o Grok-4 esclarece ambiguidades com mais frequência do que outros nove modelos de fronteira. Em relação aos LLMs, as incorporações SAE revelam diferenças maiores a um custo 2 a 8 vezes menor e identificam vieses com mais confiabilidade. Além disso, as incorporações SAE são controláveis: ao filtrar conceitos, podemos (3) agrupar documentos ao longo de eixos de interesse e (4) superar as incorporações densas na recuperação de informações baseada em propriedades. Utilizando as incorporações SAE, estudamos o comportamento do modelo com dois estudos de caso: investigando como o comportamento dos modelos da OpenAI mudou ao longo do tempo e descobrindo frases "gatilho" aprendidas pelo Tulu-3 (Lambert et al., 2024) a partir de seus dados de treinamento. Esses resultados posicionam os SAEs como uma ferramenta versátil para a análise de dados não estruturados e destacam a importância negligenciada de interpretar modelos por meio de seus dados.
Os seres humanos conseguem paralelizar intuitivamente atividades complexas, mas será que um modelo pode aprender isso observando uma única pessoa? Dado um vídeo egocêntrico, introduzimos o Problema dos N-Corpos: como N indivíduos poderiam, hipoteticamente, realizar o mesmo conjunto de tarefas observado neste vídeo. O objetivo é maximizar a aceleração (speed-up), mas a atribuição ingénua de segmentos de vídeo a indivíduos viola frequentemente restrições do mundo real, levando a cenários fisicamente impossíveis, como duas pessoas a usar o mesmo objeto ou a ocupar o mesmo espaço. Para resolver isto, formalizamos o Problema dos N-Corpos e propomos um conjunto de métricas para avaliar tanto o desempenho (aceleração, cobertura de tarefas) como a viabilidade (colisões espaciais, conflitos de objetos e restrições causais). Em seguida, introduzimos uma estratégia de prompting estruturado que orienta um Modelo de Visão e Linguagem (VLM) a raciocinar sobre o ambiente 3D, a utilização de objetos e as dependências temporais para produzir uma execução paralela viável. Em 100 vídeos dos conjuntos EPIC-Kitchens e HD-EPIC, o nosso método para N = 2 aumenta a cobertura de ações em 45% face a um prompt base para o Gemini 2.5 Pro, reduzindo simultaneamente as taxas de colisão, os conflitos de objetos e os conflitos causais em 55%, 45% e 55%, respetivamente.
A estimativa de incerteza é essencial para a implantação clínica segura de sistemas de segmentação de imagens médicas, permitindo a identificação de previsões não confiáveis e apoiando a supervisão humana. Embora trabalhos anteriores tenham se concentrado amplamente na incerteza a nível de pixel, a segmentação baseada em marcos anatômicos oferece garantias topológicas inerentes, mas permanece pouco explorada sob a perspectiva da incerteza. Neste trabalho, estudamos a estimativa de incerteza para segmentação baseada em marcos anatômicos em radiografias de tórax. Inspirados por arquiteturas híbridas de redes neurais que combinam codificadores convolucionais de imagem padrão com decodificadores generativos baseados em grafos, e aproveitando seu espaço latente variacional, derivamos duas medidas complementares: (i) incerteza latente, capturada diretamente dos parâmetros da distribuição aprendida, e (ii) incerteza preditiva, obtida pela geração de múltiplas previsões de saída estocásticas a partir de amostras latentes. Através de experimentos de corrupção controlada, mostramos que ambas as medidas de incerteza aumentam com a severidade da perturbação, refletindo degradação global e local. Demonstramos que estes sinais de incerteza podem identificar previsões não confiáveis através da comparação com anotações de referência manuais, e apoiar a detecção de dados fora da distribuição no conjunto de dados CheXmask. Mais importante, disponibilizamos o CheXmask-U (huggingface.co/datasets/mcosarinsky/CheXmask-U), um conjunto de dados em larga escala com 657.566 segmentações de marcos anatômicos de radiografias de tórax com estimativas de incerteza por nó, permitindo que os pesquisadores considerem variações espaciais na qualidade da segmentação ao usar estas máscaras anatômicas. Nossos resultados estabelecem a estimativa de incerteza como uma direção promissora para aumentar a robustez e a implantação segura de métodos de segmentação anatómica baseados em marcos em radiografias de tórax. Uma demonstração interativa totalmente funcional do método está disponível em huggingface.co/spaces/matiasky/CheXmask-U e o código-fonte em github.com/mcosarinsky/CheXmask-U.