Artigos de pesquisa em IA selecionados diariamente com traduções
A construção de Modelos de Mundo capazes de aprender, simular e raciocinar sobre as leis físicas objetivas constitui um desafio fundamental na busca pela Inteligência Artificial Geral. Os avanços recentes representados por modelos de geração de vídeo, como o Sora, demonstraram o potencial das leis de escalonamento baseadas em dados para aproximar dinâmicas físicas, enquanto o emergente Modelo Multimodal Unificado (UMM) oferece um paradigma arquitetônico promissor para integrar percepção, linguagem e raciocínio. Apesar desses avanços, a área ainda carece de uma estrutura teórica fundamentada que defina as propriedades essenciais necessárias para um Modelo de Mundo Geral. Neste artigo, propomos que um Modelo de Mundo deve estar fundamentado na Trindade da Consistência: a Consistência Modal como interface semântica, a Consistência Espacial como base geométrica e a Consistência Temporal como motor causal. Através desta lente tripartida, revisamos sistematicamente a evolução da aprendizagem multimodal, revelando uma trajetória que vai desde módulos especializados fracamente acoplados até arquiteturas unificadas que permitem a emergência sinérgica de simuladores internos do mundo. Para complementar esta estrutura conceitual, introduzimos o CoW-Bench, um benchmark centrado em cenários de raciocínio e geração multiframe. O CoW-Bench avalia tanto modelos de geração de vídeo quanto UMMs sob um protocolo de avaliação unificado. O nosso trabalho estabelece um caminho fundamentado em direção a modelos de mundo gerais, esclarecendo tanto as limitações dos sistemas atuais quanto os requisitos arquitetónicos para progressos futuros.
Com o aumento de escala dos Modelos Multimodais de Grande Porte (LMMs) e a maturação dos métodos de aprendizagem por reforço (RL), os LMMs têm registado progressos notáveis no raciocínio complexo e na tomada de decisões. No entanto, o treino ainda depende de dados estáticos e de receitas fixas, dificultando o diagnóstico de pontos cegos de capacidade ou o fornecimento de reforço dinâmico e direcionado. Motivados pela descoberta de que a exposição a erros orientada por testes e a correção baseada em *feedback* superam a prática repetitiva, propomos a Evolução Progressiva Orientada por Diagnóstico (DPE), um ciclo espiral em que o diagnóstico orienta a geração de dados e o reforço, e cada iteração reavalia o modelo atualizado para orientar a próxima ronda de melhoria direcionada. O DPE tem dois componentes-chave. Primeiro, múltiplos agentes anotam e controlam a qualidade de grandes volumes de dados multimodais não rotulados, utilizando ferramentas como pesquisa na Web e edição de imagem para produzir amostras diversificadas e realistas. Segundo, o DPE atribui falhas a fraquezas específicas, ajusta dinamicamente a mistura de dados e orienta os agentes a gerar dados focados nas fraquezas para um reforço direcionado. Experiências realizadas com os modelos Qwen3-VL-8B-Instruct e Qwen2.5-VL-7B-Instruct mostram ganhos estáveis e contínuos em onze *benchmarks*, indicando que o DPE é um paradigma escalável para o treino contínuo de LMMs sob distribuições abertas de tarefas. O nosso código, modelos e dados estão publicamente disponíveis em https://github.com/hongruijia/DPE.
Agentes de planejamento de rotas baseados em grandes modelos de linguagem (LLMs) surgiram como um paradigma promissor para apoiar a mobilidade humana cotidiana por meio de interação em linguagem natural e tomada de decisão mediada por ferramentas. No entanto, a avaliação sistemática em contextos de mobilidade do mundo real é dificultada por demandas de roteamento diversificadas, serviços de mapeamento não determinísticos e reprodutibilidade limitada. Neste estudo, apresentamos o MobilityBench, um benchmark escalável para avaliar agentes de planejamento de rotas baseados em LLM em cenários de mobilidade do mundo real. O MobilityBench é construído a partir de consultas anônimas de usuários reais em larga escala, coletadas do Amap, e abrange um amplo espectro de intenções de planejamento de rotas em várias cidades ao redor do mundo. Para permitir uma avaliação reproduzível de ponta a ponta, projetamos um ambiente de simulação (sandbox) de reexecução de API determinístico que elimina a variância ambiental dos serviços ao vivo. Propomos ainda um protocolo de avaliação multidimensional centrado na validade do resultado, complementado por avaliações de compreensão de instruções, planejamento, uso de ferramentas e eficiência. Utilizando o MobilityBench, avaliamos vários agentes de planejamento de rotas baseados em LLM em diversos cenários de mobilidade do mundo real e fornecemos uma análise aprofundada de seus comportamentos e desempenho. Nossos resultados revelam que os modelos atuais têm um desempenho competente em tarefas básicas de Recuperação de Informações e Planejamento de Rotas, mas lutam consideravelmente com o Planejamento de Rotas com Restrições de Preferência, destacando um espaço significativo para melhorias em aplicações de mobilidade personalizada. Disponibilizamos publicamente os dados do benchmark, o kit de ferramentas de avaliação e a documentação em https://github.com/AMAP-ML/MobilityBench.
A inteligência humana integra naturalmente a percepção omnimodal — abrangendo visão, áudio e linguagem — com raciocínio complexo e uso de ferramentas para interagir com o mundo. No entanto, os LLMs multimodais atuais estão principalmente confinados a interações bimodais (por exemplo, visão-linguagem), carecendo das capacidades cognitivas unificadas necessárias para assistentes de IA gerais. Para preencher esta lacuna, introduzimos o OmniGAIA, um benchmark abrangente concebido para avaliar agentes omnimodais em tarefas que exigem raciocínio profundo e execução multi-iterativa de ferramentas através das modalidades de vídeo, áudio e imagem. Construído através de uma nova abordagem de grafo de eventos omnimodal, o OmniGAIA sintetiza consultas complexas e multi-etapa derivadas de dados do mundo real que requerem raciocínio cross-modal e integração de ferramentas externas. Adicionalmente, propomos o OmniAtlas, um agente de base nativamente omnimodal sob um paradigma de raciocínio integrado com ferramentas e percepção omnimodal ativa. Treinado em trajetórias sintetizadas através de uma estratégia de exploração em árvore guiada por hindsight e OmniDPO para correção granular de erros, o OmniAtlas melhora efetivamente as capacidades de uso de ferramentas de modelos open-source existentes. Este trabalho representa um passo em direção a assistentes de IA omnimodais nativos de próxima geração para cenários do mundo real.
O raciocínio visual latente visa imitar o processo de imaginação humana meditando através dos estados ocultos dos Modelos de Linguagem Multimodais de Grande Escala. Embora reconhecido como um paradigma promissor para o raciocínio visual, os mecanismos subjacentes que impulsionam sua eficácia permanecem obscuros. Motivados a desvendar a verdadeira fonte de sua eficácia, investigamos a validade do raciocínio latente usando Análise de Mediação Causal. Modelamos o processo como uma cadeia causal: a entrada como tratamento, os *tokens* latentes como mediador e a resposta final como resultado. Nossas descobertas revelam duas desconexões críticas: (a) Desconexão Entrada-Latente: perturbações drásticas na entrada resultam em alterações insignificantes nos *tokens* latentes, sugerindo que os *tokens* latentes não atendem efetivamente à sequência de entrada. (b) Desconexão Latente-Resposta: perturbações nos *tokens* latentes têm impacto mínimo na resposta final, indicando o limitado efeito causal que os *tokens* latentes exercem sobre o resultado. Além disso, uma extensa análise de *probing* revela que os *tokens* latentes codificam informações visuais limitadas e exibem alta similaridade. Consequentemente, questionamos a necessidade do raciocínio latente e propomos uma alternativa simples chamada CapImagine, que ensina o modelo a imaginar explicitamente usando texto. Experimentos em *benchmarks* centrados na visão mostram que o CapImagine supera significativamente as complexas linhas de base no espaço latente, destacando o potencial superior do raciocínio visual através da imaginação explícita.
A exploração continua a ser o principal obstáculo para agentes de modelos de linguagem grandes treinados com aprendizagem por reforço. Embora os métodos anteriores explorem conhecimento pré-treinado, eles falham em ambientes que exigem a descoberta de estados novos. Propomos o EMPO² (Optimização de Políticas On- e Off-Policy com Memória Exploratória), uma estrutura híbrida de aprendizagem por reforço que aproveita a memória para exploração e combina atualizações on- e off-policy para fazer com que os LLMs tenham um bom desempenho com memória, garantindo também robustez sem ela. No ScienceWorld e no WebShop, o EMPO² alcança melhorias de 128,6% e 11,3% em relação ao GRPO, respetivamente. Além disso, em testes de dados fora da distribuição, o EMPO² demonstra uma adaptabilidade superior a novas tarefas, exigindo apenas algumas tentativas com memória e sem atualizações de parâmetros. Estes resultados destacam o EMPO² como uma estrutura promissora para a construção de agentes baseados em LLM mais exploratórios e generalizáveis.
Embora os Sistemas Multiagente (MAS) se destaquem no raciocínio complexo, eles sofrem com o impacto em cascata de informações errôneas geradas por participantes individuais. As soluções atuais frequentemente recorrem a engenharia estrutural rígida ou a ajustes finos dispendiosos, limitando sua implantabilidade e adaptabilidade. Propomos o AgentDropoutV2, uma estrutura de poda de retificação ou rejeição em tempo de teste projetada para otimizar dinamicamente o fluxo de informações do MAS sem retreinamento. Nossa abordagem atua como um firewall ativo, interceptando as saídas dos agentes e empregando um retificador aumentado por recuperação para corrigir erros iterativamente com base em um pool de indicadores orientado por falhas. Este mecanismo permite a identificação precisa de erros potenciais usando padrões de falha destilados como conhecimento prévio. Saídas irreparáveis são subsequentemente podadas para evitar a propagação de erros, enquanto uma estratégia de contingência preserva a integridade do sistema. Resultados empíricos em extensos benchmarks matemáticos mostram que o AgentDropoutV2 aumenta significativamente o desempenho da tarefa do MAS, alcançando um ganho médio de precisão de 6,3 pontos percentuais em benchmarks matemáticos. Além disso, o sistema exibe generalização e adaptabilidade robustas, modulando dinamicamente os esforços de retificação com base na dificuldade da tarefa, enquanto aproveita indicadores conscientes do contexto para resolver um amplo espectro de padrões de erro. Nosso código e conjunto de dados estão disponíveis em https://github.com/TonySY2/AgentDropoutV2.
Apresentamos o MediX-R1, uma estrutura de Aprendizagem por Reforço (RL) de resposta aberta para modelos de linguagem grandes multimodais (MLLMs) médicos, que permite respostas de forma livre e clinicamente fundamentadas, indo além de formatos de múltipla escolha. O MediX-R1 ajusta finamente um modelo base de visão e linguagem com RL Baseado em Grupo e uma recompensa composta personalizada para o raciocínio médico: uma recompensa de precisão baseada em LLM que julga a correção semântica com uma decisão estrita de SIM/NÃO, uma recompensa semântica baseada em *embeddings* médicos para capturar paráfrases e variantes terminológicas, e recompensas leves de formato e modalidade que impõem o raciocínio interpretável e o reconhecimento de modalidade. Este design de múltiplos sinais fornece um *feedback* estável e informativo para saídas de resposta aberta, onde as recompensas tradicionais verificáveis ou baseadas apenas em MCQ são insuficientes. Para medir o progresso, propomos uma estrutura de avaliação unificada para tarefas apenas de texto e de imagem+texto que utiliza um LLM-como-juiz Baseado em Referência em substituição a métricas frágeis de sobreposição de texto, capturando a correção semântica, o raciocínio e o alinhamento contextual. Apesar de usar apenas 51K exemplos de instrução simulados, o MediX-R1 alcança excelentes resultados em *benchmarks* padrão de LLM médico (apenas texto) e VLM (imagem + texto), superando fortes *baselines* de código aberto e proporcionando ganhos particularmente grandes em tarefas clínicas de resposta aberta. Os nossos resultados demonstram que a RL de resposta aberta com sinais de recompensa abrangentes e avaliação baseada em LLM é um caminho prático para um raciocínio médico confiável em modelos multimodais. Os nossos modelos treinados, conjuntos de dados curados e código-fonte estão disponíveis em https://medix.cvmbzuai.com.
Os agentes de pesquisa profunda recentes melhoram principalmente o desempenho através da escalagem da profundidade do raciocínio, mas isso resulta em alto custo de inferência e latência em cenários de busca intensiva. Além disso, a generalização entre ambientes de pesquisa heterogéneos continua a ser um desafio. Neste trabalho, propomos o Search More, Think Less (SMTL), uma estrutura para busca agentiva de longo horizonte que visa simultaneamente eficiência e generalização. O SMTL substitui o raciocínio sequencial pela aquisição paralela de evidências, permitindo uma gestão eficiente do contexto sob orçamentos de contexto restritos. Para suportar a generalização entre tipos de tarefas, introduzimos ainda um pipeline unificado de síntese de dados que constrói tarefas de busca abrangendo tanto cenários de resposta a perguntas determinísticas como cenários de pesquisa abertos, com métricas de avaliação apropriadas para cada tarefa. Treinamos um agente de ponta a ponta usando afinação supervisionada e aprendizagem por reforço, alcançando um desempenho forte e frequentemente estado da arte em várias benchmarks, incluindo BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) e DeepResearch Bench (45,9%). Em comparação com o Mirothinker-v1.0, o SMTL com um máximo de 100 passos de interação reduz o número médio de passos de raciocínio no BrowseComp em 70,7%, enquanto melhora a precisão.
Apresentamos um modelo de reconstrução 3D escalável que aborda uma limitação crítica dos métodos *feed-forward* offline: seus requisitos computacionais e de memória crescem quadraticamente em relação ao número de imagens de entrada. Nossa abordagem é baseada na intuição fundamental de que esse gargalo decorre da representação do espaço Chave-Valor (KV) de comprimento variável da geometria da cena, que destilamos em uma *Multi-Layer Perceptron* (MLP) de tamanho fixo por meio de treinamento no momento do teste. O VGG-T³ (*Visual Geometry Grounded Test Time Training*) escala linearmente em relação ao número de visualizações de entrada, de forma semelhante aos modelos online, e reconstrói um conjunto de 1.000 imagens em apenas 54 segundos, alcançando uma aceleração de 11,6 vezes em relação às linhas de base que dependem de atenção *softmax*. Uma vez que nosso método mantém a capacidade de agregação global da cena, nosso erro de reconstrução do mapa de pontos supera outros métodos de tempo linear por amplas margens. Por fim, demonstramos as capacidades de localização visual do nosso modelo consultando a representação da cena com imagens não vistas.
Os modelos de difusão alcançaram progressos notáveis na geração de imagens, vídeos e áudio de alta fidelidade, porém a inferência permanece computacionalmente custosa. No entanto, os métodos atuais de aceleração de difusão baseados em paralelismo distribuído sofrem com artefatos de geração perceptíveis e não conseguem alcançar uma aceleração substancial proporcional ao número de GPUs. Portanto, propomos uma estrutura de paralelismo híbrida que combina uma nova estratégia de paralelismo de dados, o particionamento baseado em condições, com um método ótimo de escalonamento de pipeline, a comutação adaptativa de paralelismo, para reduzir a latência de geração e alcançar alta qualidade de geração em modelos de difusão condicionais. As ideias-chave são (i) aproveitar os caminhos de remoção de ruído condicionais e incondicionais como uma nova perspectiva de particionamento de dados e (ii) ativar de forma adaptativa o paralelismo de pipeline ótimo de acordo com a discrepância de remoção de ruído entre esses dois caminhos. Nossa estrutura alcança reduções de latência de 2,31 vezes e 2,07 vezes em SDXL e SD3, respectivamente, usando duas GPUs NVIDIA RTX~3090, preservando a qualidade da imagem. Este resultado confirma a generalidade da nossa abordagem em modelos de difusão baseados em U-Net e arquiteturas de correspondência de fluxo baseadas em DiT. Nossa abordagem também supera os métodos existentes em aceleração sob configurações de síntese de alta resolução. O código está disponível em https://github.com/kaist-dmlab/Hybridiff.
A promessa de agentes de propósito geral - sistemas que executam tarefas em ambientes não familiares sem engenharia específica de domínio - permanece em grande parte não realizada. Os agentes existentes são predominantemente especializados, e embora implementações emergentes como o OpenAI SDK Agent e o Claude Code sugiram capacidades mais amplas, nenhuma avaliação sistemática de seu desempenho geral foi realizada. Os benchmarks atuais para agentes pressupõem integração específica de domínio, codificando informações de tarefas de maneiras que impedem uma avaliação justa de agentes gerais. Este artigo enquadra a avaliação de agentes gerais como um objetivo de pesquisa de primeira classe. Propomos princípios conceituais para tal avaliação, um Protocolo Unificado que permite a integração agente-benchmark, e Exgentic - uma estrutura prática para avaliação de agentes gerais. Avaliamos cinco implementações proeminentes de agentes em seis ambientes como o primeiro Leaderboard Aberto de Agentes Gerais. Nossos experimentos mostram que agentes gerais se generalizam em diversos ambientes, alcançando desempenho comparável ao de agentes específicos de domínio sem qualquer ajuste específico do ambiente. Disponibilizamos nosso protocolo de avaliação, estrutura e leaderboard para estabelecer uma base para pesquisa sistemática sobre agentes de propósito geral.
Os comportamentos humanos no mundo real codificam naturalmente informações contextuais ricas e de longo prazo que podem ser aproveitadas para treinar agentes corporificados para percepção, compreensão e ação. No entanto, os sistemas de captura existentes geralmente dependem de configurações de estúdio dispendiosas e dispositivos vestíveis, limitando a coleta em larga escala de dados de movimento humano condicionados à cena em ambientes naturais. Para resolver isso, propomos o EmbodMocap, um pipeline de coleta de dados portátil e acessível que utiliza dois iPhones em movimento. Nossa ideia principal é calibrar conjuntamente sequências duplas de RGB-D para reconstruir tanto humanos quanto cenários dentro de um sistema de coordenadas mundial métrico unificado. O método proposto permite a captura em escala métrica e consistente com a cena em ambientes cotidianos, sem a necessidade de câmeras estáticas ou marcadores, integrando perfeitamente o movimento humano e a geometria da cena. Em comparação com a verdade terrestre de captura óptica, demonstramos que a configuração de visão dupla exibe uma capacidade notável de mitigar a ambiguidade de profundidade, alcançando um alinhamento e desempenho de reconstrução superiores aos modelos de iPhone único ou monoculares. Com base nos dados coletados, capacitamos três tarefas de IA corporificada: reconstrução monocular humano-cenário, na qual afinamos modelos *feedforward* que produzem humanos e cenários alinhados no espaço mundial em escala métrica; animação de personagens baseada em física, onde provamos que nossos dados podem ser usados para escalar habilidades de interação humano-objeto e rastreamento de movimento consciente do cenário; e controle de movimento robótico, onde treinamos um robô humanóide via RL *sim-to-real* para replicar movimentos humanos retratados em vídeos. Os resultados experimentais validam a eficácia do nosso *pipeline* e suas contribuições para o avanço da pesquisa em IA corporificada.
A avaliação rigorosa da inteligência das máquinas em comparação com o amplo espectro da inteligência geral humana tornou-se cada vez mais importante e desafiadora nesta era de rápido avanço tecnológico. Os benchmarks convencionais de IA normalmente avaliam apenas capacidades específicas em um leque limitado de atividades humanas. A maioria também é estática, saturando-se rapidamente à medida que os desenvolvedores otimizam para eles, explícita ou implicitamente. Propomos que uma forma mais promissora de avaliar a inteligência geral semelhante à humana em sistemas de IA é através de uma forma particularmente forte de jogo geral: estudar como e quão bem eles jogam e aprendem a jogar todos os jogos humanos concebíveis, em comparação com jogadores humanos com o mesmo nível de experiência, tempo ou outros recursos. Definimos um "jogo humano" como um jogo concebido por humanos para humanos, e argumentamos a favor da adequação avaliativa deste espaço de todos os jogos que as pessoas podem imaginar e desfrutar – o "Multiverso dos Jogos Humanos". Dando um primeiro passo em direção a esta visão, apresentamos o AI GameStore, uma plataforma escalável e de natureza aberta que utiliza LLMs com humanos no ciclo para sintetizar novos jogos humanos representativos, através do fornecimento e adaptação automáticos de variantes padronizadas e containerizadas de ambientes de jogo a partir de plataformas populares de jogos digitais humanos. Como prova de conceito, gerámos 100 desses jogos com base nos rankings principais da Apple App Store e da Steam, e avaliamos sete modelos de visão e linguagem (VLMs) de vanguarda em episódios curtos de jogo. Os melhores modelos alcançaram menos de 10% da pontuação média humana na maioria dos jogos, e lutaram especialmente com jogos que desafiam a aprendizagem de modelos do mundo, a memória e o planeamento. Concluímos com um conjunto de próximos passos para desenvolver o AI GameStore como uma forma prática de medir e impulsionar o progresso em direção a uma inteligência geral semelhante à humana em máquinas.
Os modelos preditivos de mundo baseados em energia oferecem uma abordagem poderosa para planejamento visual multi-etapa ao raciocinar sobre paisagens de energia latentes em vez de gerar pixels. No entanto, as abordagens existentes enfrentam dois grandes desafios: (i) suas representações latentes são tipicamente aprendidas em espaço Euclidiano, negligenciando a estrutura geométrica e hierárquica subjacente entre estados, e (ii) elas lutam com previsão de longo horizonte, o que leva à rápida degradação ao longo de rollouts estendidos. Para enfrentar esses desafios, introduzimos o GeoWorld, um modelo de mundo geométrico que preserva a estrutura geométrica e relações hierárquicas através de um JEPA Hiperbólico, que mapeia representações latentes do espaço Euclidiano para variedades hiperbólicas. Introduzimos ainda o Reforço Geométrico de Aprendizagem para otimização baseada em energia, permitindo planejamento multi-etapa estável no espaço latente hiperbólico. Experimentos extensivos no CrossTask e COIN demonstram uma melhoria de aproximadamente 3% na Taxa de Sucesso (SR) no planejamento de 3 etapas e 2% de melhoria na SR no planejamento de 4 etapas em comparação com o estado da arte V-JEPA 2. Site do projeto: https://steve-zeyu-zhang.github.io/GeoWorld.
Os recentes avanços nos modelos de difusão de movimento melhoraram substancialmente o realismo da síntese de movimento humano. No entanto, as abordagens existentes dependem de modelos de difusão de sequência completa com geração bidirecional, o que limita a causalidade temporal e a aplicabilidade em tempo real, ou de modelos autorregressivos que sofrem com instabilidade e erros cumulativos. Neste trabalho, apresentamos os Modelos de Difusão de Movimento Causal (CMDM), uma estrutura unificada para geração autorregressiva de movimento baseada em um transformador de difusão causal que opera em um espaço latente semanticamente alinhado. O CMDM é construído sobre um Causal VAE Alinhado com Linguagem de Movimento (MAC-VAE), que codifica sequências de movimento em representações latentes temporalmente causais. Sobre esta representação latente, um transformador de difusão autorregressivo é treinado usando forçamento de difusão causal para realizar desruído ordenado temporalmente entre os quadros de movimento. Para alcançar inferência rápida, introduzimos um esquema de amostragem por quadro com incerteza causal, onde cada quadro subsequente é previsto a partir de quadros anteriores parcialmente desruídos. A estrutura resultante suporta geração de texto para movimento de alta qualidade, síntese em fluxo contínuo e geração de movimento de longo horizonte em taxas interativas. Experimentos no HumanML3D e SnapMoGen demonstram que o CMDM supera os modelos de difusão e autorregressivos existentes tanto em fidelidade semântica quanto em suavidade temporal, enquanto reduz substancialmente a latência de inferência.
O Fully Sharded Data Parallel (FSDP), também conhecido como ZeRO, é amplamente utilizado para treinar modelos de grande escala, destacando-se pela sua flexibilidade e intrusão mínima no código do modelo. No entanto, os sistemas FSDP atuais enfrentam dificuldades com métodos de treinamento com consciência estrutural (por exemplo, treinamento quantizado em blocos) e com otimizadores não elementares (por exemplo, Shampoo e Muon) usados em modelos de ponta (por exemplo, Gemini, Kimi K2). Os formatos de fragmentação fixos, por elemento ou por linha, do FSDP entram em conflito com os cálculos de estrutura em blocos. Além disso, as implementações atuais são insuficientes em termos de eficiência de comunicação e memória, limitando a escalabilidade para dezenas de milhares de GPUs. Apresentamos o veScale-FSDP, um sistema FSDP redesenhado que combina um formato de fragmentação flexível, o RaggedShard, com um algoritmo de planeamento com consciência estrutural para oferecer flexibilidade e desempenho em escala. O veScale-FSDP suporta nativamente o posicionamento eficiente de dados exigido pelo FSDP, permitindo a quantização em blocos e otimizadores não elementares. Como resultado, o veScale-FSDP alcança um throughput 5~66% superior e um uso de memória 16~30% inferior aos sistemas FSDP existentes, escalando eficientemente para dezenas de milhares de GPUs.
A segmentação de vocabulário aberto (SVA) estende as capacidades de reconhecimento zero-shot dos modelos visão-linguagem (MVLs) para a previsão em nível de pixel, permitindo a segmentação de categorias arbitrárias especificadas por prompts de texto. Apesar dos progressos recentes, a SVA fica atrás das abordagens totalmente supervisionadas devido a dois desafios: a supervisão em nível de imagem, de baixo detalhe, usada para treinar os MVLs e a ambiguidade semântica da linguagem natural. Nós abordamos essas limitações introduzindo um cenário de poucas amostras (few-shot) que aumenta os prompts textuais com um conjunto de suporte de imagens anotadas em pixel. Com base nisso, propomos um adaptador de teste aumentado por recuperação (retrieval) que aprende um classificador leve, por imagem, fundindo características de suporte textuais e visuais. Diferente de métodos anteriores que dependem de uma fusão tardia e manualmente elaborada, nossa abordagem realiza uma fusão aprendida e por consulta, alcançando uma sinergia mais forte entre as modalidades. O método suporta conjuntos de suporte em expansão contínua e se aplica a tarefas de granularidade fina, como a segmentação personalizada. Experimentos mostram que reduzimos significativamente a lacuna entre a segmentação zero-shot e a supervisionada, preservando a capacidade de vocabulário aberto.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se o paradigma dominante para aprimorar o raciocínio em Modelos de Linguagem de Grande Escala (LLMs). No entanto, os algoritmos padrão de RLVR sofrem de uma patologia bem documentada: embora melhorem a precisão Pass@1 por meio de uma amostragem mais aguçada, eles simultaneamente estreitam a fronteira de raciocínio do modelo e reduzem a diversidade das gerações. Identificamos uma causa fundamental que os métodos existentes negligenciam: a penalização uniforme de erros. As abordagens atuais – sejam métodos de filtragem de dados que selecionam *prompts* por dificuldade, ou esquemas de normalização de vantagem – tratam todos os *rollouts* incorretos dentro de um grupo de forma idêntica. Mostramos que essa uniformidade permite que erros superconfiantes (caminhos de raciocínio incorretos que o processo de RL reforçou espuriamente) persistam e monopolizem a massa de probabilidade, suprimindo, em última análise, trajetórias exploratórias válidas. Para resolver isso, propomos a Penalidade de Erro Assimétrica com Consciência de Confiança (ACE). A ACE introduz uma métrica de deslocamento de confiança por *rollout*, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), para modular dinamicamente as vantagens negativas. Teoricamente, demonstramos que o gradiente da ACE pode ser decomposto no gradiente de um regularizador seletivo restrito a erros superconfiantes, mais um residual bem caracterizado que modera parcialmente a força do regularizador. Realizamos extensivos experimentos de *fine-tuning* dos modelos Qwen2.5-Math-7B, Qwen3-8B-Base e Llama-3.1-8B-Instruct no conjunto de dados DAPO-Math-17K usando GRPO e DAPO dentro da estrutura VERL. Avaliados no MATH-500 e no AIME 2025, a ACE compõe-se perfeitamente com métodos existentes e melhora consistentemente todo o espectro Pass@k em todas as três famílias de modelos e *benchmarks*.
As alucinações em Modelos de Linguagem de Grande Porte (LLMs) são geralmente tratadas como defeitos do modelo ou de sua estratégia de decodificação. Com base na linguística clássica, argumentamos que a forma de uma consulta também pode moldar a resposta de um ouvinte (e do modelo). Operacionalizamos essa percepção construindo um vetor de características de consulta de 22 dimensões, abrangendo complexidade de cláusulas, raridade lexical, e o fundamento de anáfora, negação, capacidade de resposta e intenção, todos conhecidos por afetar a compreensão humana. Utilizando 369.837 consultas do mundo real, perguntamos: existem certos tipos de consultas que tornam a alucinação mais provável? Uma análise em larga escala revela um "panorama de risco" consistente: certas características, como o aninhamento profundo de cláusulas e a subespecificação, estão alinhadas com uma maior propensão à alucinação. Em contraste, um fundamento de intenção claro e a capacidade de resposta estão alinhados com taxas mais baixas de alucinação. Outras, incluindo a especificidade de domínio, mostram efeitos mistos, dependentes do conjunto de dados e do modelo. Assim, esses achados estabelecem uma representação empiricamente observável de características da consulta correlacionada com o risco de alucinação, pavimentando o caminho para a reescrita guiada de consultas e futuros estudos de intervenção.
Apresentamos o DLT-Corpus, a maior coleção de textos de domínio específico para pesquisa em Tecnologia de Ledger Distribuído (DLT) até à data: 2,98 mil milhões de tokens provenientes de 22,12 milhões de documentos, abrangendo literatura científica (37.440 publicações), patentes do United States Patent and Trademark Office (USPTO) (49.023 registos) e redes sociais (22 milhões de publicações). Os recursos existentes de Processamento de Linguagem Natural (PLN) para DLT focam-se estreitamente na previsão do preço de criptomoedas e em contratos inteligentes, deixando a linguagem específica do domínio subexplorada, apesar da capitalização de mercado do setor de aproximadamente 3 biliões de dólares e da sua rápida evolução tecnológica. Demonstramos a utilidade do DLT-Corpus através da análise de padrões de emergência tecnológica e correlações entre mercado e inovação. Os resultados revelam que as tecnologias têm origem na literatura científica antes de chegarem às patentes e redes sociais, seguindo os padrões tradicionais de transferência de tecnologia. Enquanto o sentimento nas redes sociais se mantém esmagadoramente optimista, mesmo durante os "invernos" das criptomoedas, a atividade científica e de patentes cresce independentemente das flutuações do mercado, acompanhando a expansão geral do mercado num ciclo virtuoso em que a investigação precede e possibilita o crescimento económico, que por sua vez financia mais inovação. Disponibilizamos publicamente o DLT-Corpus completo; o LedgerBERT, um modelo adaptado ao domínio que alcança uma melhoria de 23% face ao BERT-base numa tarefa de Reconhecimento de Entidades Mencionadas (REM) específica para DLT; e todas as ferramentas e códigos associados.
As capacidades avançadas de raciocínio em Modelos de Linguagem de Grande Porte (LLMs) têm levado a alucinações mais frequentes; no entanto, a maior parte do trabalho de mitigação foca-se em modelos de código aberto para deteção pós-hoc e edição de parâmetros. A escassez de estudos que se concentram em alucinações em modelos de código fechado é especialmente preocupante, uma vez que estes constituem a vasta maioria dos modelos em implementações institucionais. Apresentamos os QueryBandits, uma estrutura de bandidos contextuais agnóstica ao modelo que aprende adaptativamente online para selecionar a estratégia ótima de reformulação de consultas, aproveitando uma função de recompensa empiricamente validada e calibrada. Em 16 cenários de Pergunta-Resposta, o nosso melhor QueryBandit (Amostragem de Thompson) alcança uma taxa de sucesso de 87,5% sobre uma linha de base Sem Reformulação e supera políticas estáticas de zero-shot (por exemplo, Parafrasear ou Expandir) em 42,6% e 60,3%, respetivamente. Além disso, todos os bandidos contextuais superam bandidos simples em todos os conjuntos de dados, com uma maior variância de características coincidindo com uma maior variância na seleção de braços. Isto corrobora a nossa descoberta de que não existe uma única política de reformulação ótima para todas as consultas. Também descobrimos que certas políticas estáticas incorrem em um arrependimento cumulativo maior do que Sem Reformulação, indicando que uma política de reformulação de consultas inflexível pode piorar as alucinações. Assim, aprender uma política online sobre características semânticas com os QueryBandits pode alterar o comportamento do modelo apenas através de mecanismos de passagem direta (forward-pass), permitindo o seu uso com modelos de código fechado e contornando a necessidade de re-treino ou adaptação baseada em gradientes.
Com os avanços na aprendizagem por imitação (IL) e os grandes conjuntos de dados de condução, a condução autónoma de ponta a ponta (E2E-AD) tem registado grandes progressos recentemente. Atualmente, os métodos baseados em IL tornaram-se um paradigma dominante: os modelos baseiam-se em comportamentos de condução padrão fornecidos por especialistas e aprendem a minimizar a discrepância entre as suas ações e as ações do especialista. No entanto, este objetivo de "apenas conduzir como o especialista" sofre de generalização limitada: ao deparar-se com cenários raros ou de cauda longa não observados, fora da distribuição das demonstrações do especialista, os modelos tendem a produzir decisões inseguras na ausência de experiência prévia. Isto levanta uma questão fundamental: Pode um sistema E2E-AD tomar decisões fiáveis sem qualquer supervisão de ações de especialistas? Motivados por isto, propomos um quadro unificado denominado Controlo Preditivo de Modelo do Mundo com Consciência de Risco (RaWMPC) para resolver este dilema de generalização através de controlo robusto, sem depender de demonstrações de especialistas. Na prática, o RaWMPC aproveita um modelo do mundo para prever as consequências de múltiplas ações candidatas e seleciona ações de baixo risco através de uma avaliação explícita de risco. Para dotar o modelo do mundo da capacidade de prever os resultados de comportamentos de condução de risco, concebemos uma estratégia de interação com consciência de risco que expõe sistematicamente o modelo do mundo a comportamentos perigosos, tornando os resultados catastróficos previsíveis e, assim, evitáveis. Além disso, para gerar ações candidatas de baixo risco durante o teste, introduzimos um método de destilação por autoavaliação para destilar capacidades de evitamento de risco do modelo do mundo bem treinado para uma rede generativa de proposta de ações, sem qualquer demonstração de especialista. Experiências extensivas mostram que o RaWMPC supera os métodos mais avançados tanto em cenários dentro como fora da distribuição, ao mesmo tempo que fornece uma interpretabilidade de decisão superior.
A segmentação de imagens médicas continua a ser um desafio devido à escassez de anotações para treinamento, características anatômicas ambíguas e variações de domínio. Embora modelos de visão e linguagem, como o CLIP, ofereçam representações cruzadas robustas, o seu potencial para a segmentação densa de imagens médicas guiada por texto permanece pouco explorado. Apresentamos o MedCLIPSeg, uma estrutura inovadora que adapta o CLIP para uma segmentação de imagens médica robusta, eficiente em dados e consciente da incerteza. Nossa abordagem aproveita os embeddings do CLIP a nível de *patch* por meio de atenção cruzada probabilística, permitindo uma interação bidirecional entre os *tokens* de imagem e texto e uma modelagem explícita da incerteza preditiva. Juntamente com uma função de perda contrastiva suave a nível de *patch* que incentiva uma aprendizagem semântica mais refinada através de diversos *prompts* textuais, o MedCLIPSeg melhora eficazmente a eficiência de dados e a generalização de domínio. Experimentos extensos em 16 conjuntos de dados, abrangendo cinco modalidades de imagem e seis órgãos, demonstram que o MedCLIPSeg supera métodos anteriores em precisão, eficiência e robustez, fornecendo simultaneamente mapas de incerteza interpretáveis que destacam a confiabilidade local dos resultados de segmentação. Este trabalho demonstra o potencial da modelagem probabilística de visão e linguagem para a segmentação de imagens médicas orientada por texto.
A geração de gestos conversacionais realistas é essencial para alcançar interações naturais e socialmente envolventes com humanos digitais. No entanto, os métodos existentes geralmente mapeiam um único fluxo de áudio para o movimento de um único orador, sem considerar o contexto social ou modelar a dinâmica mútua entre duas pessoas envolvidas em uma conversa. Apresentamos o DyaDiT, um transformer de difusão multimodal que gera movimento humano contextualmente apropriado a partir de sinais de áudio diádicos. Treinado no Seamless Interaction Dataset, o DyaDiT utiliza áudio diádico com *tokens* de contexto social opcionais para produzir movimentos contextualmente adequados. Ele funde informações de ambos os oradores para capturar a dinâmica da interação, usa um dicionário de movimento para codificar *priors* de movimento e pode, opcionalmente, utilizar os gestos do parceiro conversacional para produzir movimentos mais responsivos. Avaliamos o DyaDiT em métricas padrão de geração de movimento e realizamos estudos de usuário quantitativos, demonstrando que ele não apenas supera os métodos existentes em métricas objetivas, mas também é fortemente preferido pelos usuários, destacando sua robustez e geração de movimento socialmente favorável. O código e os modelos serão disponibilizados após a aceitação.
A escalabilidade do alinhamento multimodal entre vídeo e áudio é um desafio, particularmente devido aos dados limitados e ao descompasso entre as descrições textuais e a informação vídeo a nível de *frame*. Neste trabalho, abordamos o desafio de escalabilidade na geração multimodal-para-áudio, investigando se modelos treinados em instâncias curtas podem generalizar para instâncias mais longas durante os testes. Para enfrentar este desafio, apresentamos redes hierárquicas multimodais, denominadas MMHNet, uma extensão aprimorada dos modelos state-of-the-art de vídeo-para-áudio. A nossa abordagem integra um método hierárquico e Mamba não causal para suportar a geração de áudio de longa duração. O nosso método proposto melhora significativamente a geração de áudio longo, até mais de 5 minutos. Também provamos que treinar com dados curtos e testar com dados longos é possível nas tarefas de geração de vídeo-para-áudio sem treinar nas durações mais longas. Mostramos nas nossas experiências que o nosso método proposto pode alcançar resultados notáveis em *benchmarks* de vídeo longo para áudio, superando trabalhos anteriores em tarefas de vídeo-para-áudio. Além disso, demonstramos a capacidade do nosso modelo em gerar mais de 5 minutos, enquanto os métodos anteriores de vídeo-para-áudio se mostram incapazes de gerar áudio com durações longas.
A decodificação neural eficiente em dados é um desafio central para as interfaces cérebro-computador de fala. Apresentamos a primeira demonstração de aprendizagem por transferência e decodificação cruzada de tarefas para modelos de fala baseados em MEG, abrangendo perceção e produção. Pré-treinamos um modelo baseado no Conformer com 50 horas de dados de audição de um único sujeito e afinamos com apenas 5 minutos por sujeito em 18 participantes. A aprendizagem por transferência produz melhorias consistentes, com ganhos de precisão intra-tarefa de 1-4% e ganhos cruzados maiores de até 5-6%. Não só o pré-treinamento melhora o desempenho dentro de cada tarefa, como também permite uma decodificação cruzada confiável entre a perceção e a produção. Crucialmente, os modelos treinados na produção de fala decodificam a audição passiva acima do acaso, confirmando que as representações aprendidas refletem processos neurais partilhados e não atividade motora específica da tarefa.
A aprendizagem contínua é um requisito fundamental para modelos de linguagem em produção, contudo, os fluxos padrão de treinamento e *fine-tuning* permanecem frágeis perante dados não estacionários. Atualizações online frequentemente induzem o esquecimento catastrófico, enquanto métodos que melhoram a estabilidade geralmente aumentam a latência, a pegada de memória ou a computação densa de formas que não são escaláveis para contextos longos. Apresentamos o TRC² (*Thalamically Routed Cortical Columns*), uma arquitetura base *decoder-only* que aborda a aprendizagem contínua a nível arquitetural. O TRC² combina o roteamento talâmico esparso sobre colunas corticais com mecanismos de modulação, predição, memória e *feedback*, juntamente com uma via corretiva rápida que suporta adaptação rápida sem desestabilizar parâmetros mais lentos. O bloco resultante é esparso e paralelizável por *chunks*, permitindo treinamento e inferência eficientes enquanto preserva *ablations* limpas de cada subsistema. Instanciamos uma pilha de treinamento e avaliação reproduzível e um *harness* de aprendizagem contínua que mede o esquecimento por procuração sob mudanças de domínio em fluxo. Em benchmarks de modelagem de linguagem e aprendizagem contínua, o TRC² melhora o equilíbrio estabilidade-plasticidade com custo computacional comparável, permitindo rápida adaptação em fluxo enquanto preserva comportamentos previamente adquiridos.