Artigos de pesquisa em IA selecionados diariamente com traduções
Os agentes de IA atuais podem invocar ferramentas de forma flexível e executar tarefas complexas, mas seu avanço a longo prazo é limitado pela falta de acumulação e transferência sistemática de competências. Sem um mecanismo unificado para consolidação de habilidades, os agentes frequentemente "reinventam a roda", redescobrindo soluções em contextos isolados sem aproveitar estratégias anteriores. Para superar essa limitação, apresentamos a SkillNet, uma infraestrutura aberta projetada para criar, avaliar e organizar competências de IA em escala. A SkillNet estrutura as habilidades dentro de uma ontologia unificada que suporta a criação de competências a partir de fontes heterogêneas, estabelece conexões relacionais ricas e realiza avaliação multidimensional em Segurança, Integridade, Executabilidade, Mantenibilidade e Consciência de Custos. Nossa infraestrutura integra um repositório com mais de 200.000 habilidades, uma plataforma interativa e um kit de ferramentas Python versátil. Avaliações experimentais no ALFWorld, WebShop e ScienceWorld demonstram que a SkillNet melhora significativamente o desempenho do agente, aumentando as recompensas médias em 40% e reduzindo as etapas de execução em 30% em vários modelos de base. Ao formalizar habilidades como ativos evolutivos e combináveis, a SkillNet fornece uma base robusta para que os agentes avancem da experiência transitória para o domínio duradouro.
Embora os grandes modelos de linguagem (LLMs) mostrem potencial na descoberta científica, as pesquisas existentes concentram-se em inferência ou treinamento orientado por feedback, deixando inexplorada a modelagem direta do processo de raciocínio generativo, P(hipótese|contexto) (P(h|b)). Demonstramos que treinar diretamente P(h|b) é matematicamente intratável devido à complexidade combinatória (O(N^k)) inerente à recuperação e composição de inspirações a partir de uma vasta base de conhecimento. Para superar esta barreira, introduzimos o MOOSE-Star, uma estrutura unificada que possibilita treinamento tratável e inferência escalável. No melhor caso, o MOOSE-Star reduz a complexidade de exponencial para logarítmica (O(log N)) ao (1) treinar em subtarefas decompostas derivadas da equação probabilística da descoberta, (2) empregar busca hierárquica guiada por motivação para permitir recuperação logarítmica e podar subespaços irrelevantes, e (3) utilizar composição limitada para robustez contra ruídos de recuperação. Para viabilizar isto, disponibilizamos o TOMATO-Star, um conjunto de dados com 108.717 artigos decompostos (38.400 horas de GPU) para treinamento. Adicionalmente, mostramos que, enquanto a amostragem por força bruta atinge uma "parede de complexidade", o MOOSE-Star exibe escalabilidade contínua em tempo de teste.
Os agentes de LLM (Large Language Models) podem automatizar fluxos de trabalho de ciência de dados, mas muitos métodos estatísticos rigorosos implementados em R permanecem subutilizados porque os LLMs têm dificuldade com conhecimento estatístico e recuperação de ferramentas. As abordagens existentes de aumento por recuperação focam na semântica a nível de função e ignoram a distribuição dos dados, produzindo correspondências subótimas. Propomos o DARE (Distribution-Aware Retrieval Embedding), um modelo de recuperação leve e plug-and-play que incorpora informações de distribuição de dados nas representações de funções para recuperação de pacotes R. Nossas principais contribuições são: (i) RPKB, uma Base de Conhecimento de Pacotes R curada, derivada de 8.191 pacotes CRAN de alta qualidade; (ii) DARE, um modelo de incorporação que funde características distribucionais com metadados de função para melhorar a relevância da recuperação; e (iii) RCodingAgent, um agente LLM orientado a R para geração confiável de código R e um conjunto de tarefas de análise estatística para avaliar sistematicamente agentes LLM em cenários analíticos realistas. Empiricamente, o DARE atinge um NDCG@10 de 93,47%, superando os modelos de incorporação de código aberto mais avançados em até 17% na recuperação de pacotes, enquanto utiliza substancialmente menos parâmetros. A integração do DARE no RCodingAgent resulta em ganhos significativos em tarefas de análise subsequentes. Este trabalho ajuda a reduzir a lacuna entre a automação por LLM e o ecossistema estatístico maduro do R.
Os agentes multimodais do mundo real resolvem fluxos de trabalho multi-etapa fundamentados em evidências visuais. Por exemplo, um agente pode diagnosticar problemas num dispositivo relacionando uma foto da fiação a um esquema e validar a correção com documentação online, ou planear uma viagem interpretando um mapa de transportes e verificando horários sob restrições de roteamento. No entanto, os benchmarks multimodais existentes avaliam principalmente o raciocínio visual de turno único ou competências específicas de ferramentas, e não capturam totalmente o realismo, a subtileza visual e o uso de ferramentas de longo horizonte que os agentes práticos exigem. Apresentamos o AgentVista, um benchmark para agentes multimodais generalistas que abrange 25 subdomínios em 7 categorias, emparelhando cenários visuais realistas e ricos em detalhes com o uso híbrido natural de ferramentas. As tarefas exigem interações de longo horizonte com ferramentas através de modalidades, incluindo pesquisa na web, pesquisa de imagens, navegação de páginas e operações baseadas em código para processamento de imagem e programação geral. A avaliação abrangente de modelos state-of-the-art expõe lacunas significativas na sua capacidade de realizar o uso multimodal de ferramentas de longo horizonte. Mesmo o melhor modelo na nossa avaliação, o Gemini-3-Pro com ferramentas, atinge apenas 27,3% de precisão global, e instâncias difíceis podem exigir mais de 25 turnos de chamada de ferramentas. Esperamos que o AgentVista acelere o desenvolvimento de agentes multimodais mais capazes e confiáveis para a resolução de problemas realistas e ultra-desafiadores.
A escalabilidade da aprendizagem por imitação é fundamentalmente limitada pela eficiência da coleta de dados. Embora as interfaces portáteis tenham surgido como uma solução escalável para aquisição de dados em ambientes reais, elas operam predominantemente de forma de malha aberta: os operadores coletam demonstrações cegamente, sem conhecer as fraquezas da política subjacente, resultando numa cobertura ineficiente das distribuições de estado críticas. Por outro lado, métodos interativos como o DAgger abordam eficazmente o *covariate shift*, mas dependem da execução física do robô, o que é dispendioso e difícil de escalar. Para conciliar este conflito, apresentamos o RoboPocket, um sistema portátil que permite a Iteração de Política Instantânea sem Robô utilizando um único *smartphone* de consumo. A sua inovação central é uma estrutura de Inferência Remota que visualiza a trajetória prevista pela política através de Previsão Visual por Realidade Aumentada (RA). Este *feedback* imersivo permite que os coletores identifiquem proativamente falhas potenciais e foquem a coleta de dados nas regiões fracas da política, sem necessitar de um robô físico. Adicionalmente, implementamos um pipeline assíncrono de Ajuste Fino Online que atualiza continuamente a política com os dados recebidos, fechando efetivamente o ciclo de aprendizagem em minutos. Experimentos extensivos demonstram que o RoboPocket segue as leis de escalabilidade de dados e duplica a eficiência dos dados em comparação com estratégias de escalabilidade offline, superando o seu antigo estrangulamento de eficiência. Além disso, o nosso ciclo de iteração instantânea também aumenta a eficiência amostral em até 2 vezes em ambientes distribuídos com um pequeno número de correções interativas por pessoa. Página do projeto e vídeos: https://robo-pocket.github.io.
Imagens de produtos com humanos, que demonstram a integração entre pessoas e produtos, desempenham um papel vital na publicidade, comércio eletrónico e marketing digital. O desafio essencial na geração de tais imagens reside em garantir a preservação de alta fidelidade dos detalhes do produto. Entre os paradigmas existentes, o preenchimento por referência oferece uma solução direcionada, utilizando imagens de referência do produto para orientar o processo de reconstrução. No entanto, persistem limitações em três aspetos-chave: a escassez de dados de treino em grande escala e diversificados, a dificuldade dos modelos atuais em focar-se na preservação de detalhes do produto e a incapacidade de uma supervisão grosseira para alcançar uma orientação precisa. Para resolver estas questões, propomos o HiFi-Inpaint, uma nova estrutura de preenchimento por referência de alta fidelidade, concebida para gerar imagens de produtos com humanos. O HiFi-Inpaint introduz o Mecanismo de Atenção de Aprimoramento Partilhado (SEA) para refinar características de granularidade fina do produto e uma Função de Perda Sensível a Detalhes (DAL) para impor uma supervisão precisa a nível de píxel usando mapas de alta frequência. Adicionalmente, construímos um novo conjunto de dados, o HP-Image-40K, com amostras curadas a partir de dados de auto-síntese e processadas com filtragem automática. Resultados experimentais mostram que o HiFi-Inpaint alcança um desempenho state-of-the-art, produzindo imagens de produtos com humanos que preservam detalhes.
Qual modelo multimodal devemos usar para classificação? Estudos anteriores sugerem que a resposta está nos Modelos de Linguagem e Visão (VLMs) contrastivos do tipo CLIP, devido ao seu desempenho notável em classificação *zero-shot*. Em contraste, os Grandes Modelos Multimodais (LMMs) são mais adequados para tarefas complexas. Neste trabalho, argumentamos que esta resposta negligencia uma capacidade importante dos LMMs: o aprendizado em contexto (*in-context learning*). Avaliamos LMMs de última geração em diversos conjuntos de dados para classificação em mundo fechado e descobrimos que, embora seu desempenho *zero-shot* seja inferior ao do CLIP, os LMMs com alguns exemplos em contexto podem igualar ou mesmo superar os VLMs contrastivos com adaptadores baseados em *cache*, seu equivalente "em contexto". Estendemos esta análise para o cenário de mundo aberto, onde a natureza generativa dos LMMs os torna mais adequados para a tarefa. Neste cenário desafiador, os LMMs apresentam dificuldades sempre que recebem informações de contexto imperfeitas. Para resolver este problema, propomos o CIRCLE, um método simples, sem necessidade de treinamento, que atribui *pseudo-labels* aos exemplos em contexto, refinando-os iterativamente com o próprio contexto disponível. Através de extensos experimentos, mostramos que o CIRCLE estabelece uma base robusta para classificação em mundo aberto, superando as contrapartes VLM e destacando o potencial dos LMMs para atuar como classificadores unificados e uma alternativa flexível a modelos especializados.
A quantização pós-treinamento (PTQ) com invariância computacional para Modelos de Linguagem de Grande Porte (LLMs) tem demonstrado avanços notáveis, porém sua aplicação em Modelos Multimodais de Linguagem de Grande Porte (MLLMs) apresenta desafios substanciais. Neste artigo, analisamos o SmoothQuant como estudo de caso e identificamos dois problemas críticos: o Desalinhamento da Suavização e a Invariância Computacional Transmodal. Para resolver essas questões, propomos a Quantização por Suavização com Consciência Modal (MASQuant), uma nova estrutura que introduz (1) a Suavização com Consciência Modal (MAS), que aprende fatores de suavização separados e específicos por modalidade para prevenir o Desalinhamento da Suavização, e (2) a Compensação Transmodal (CMC), que aborda a Invariância Computacional Transmodal usando o branqueamento por SVD para transformar diferenças de ativação multimodal em formas de baixo posto, permitindo quantização unificada entre modalidades. O MASQuant demonstra desempenho de quantização estável tanto em MLLMs bimodais quanto trimodais. Resultados experimentais mostram que o MASQuant é competitivo entre os algoritmos PTQ mais avançados. Código-fonte: https://github.com/alibaba/EfficientAI.
Os benchmarks padrão tornaram-se cada vez menos confiáveis devido à saturação, subjetividade e fraca generalização. Argumentamos que avaliar a capacidade do modelo de adquirir informações ativamente é importante para aferir sua inteligência. Propomos Benchmarks Interativos, um paradigma de avaliação unificado que examina a capacidade de raciocínio do modelo num processo interativo sob restrições orçamentárias. Instanciamos este framework em dois cenários: Provas Interativas, onde os modelos interagem com um juiz para deduzir verdades ou respostas objetivas em lógica e matemática; e Jogos Interativos, onde os modelos raciocinam estrategicamente para maximizar utilidades de longo prazo. Nossos resultados demonstram que os benchmarks interativos proporcionam uma avaliação robusta e fidedigna da inteligência dos modelos, revelando que ainda há espaço substancial para melhorias em cenários interativos. Página do projeto: https://github.com/interactivebench/interactivebench
A atenção de baixa precisão, como a SageAttention, surgiu como uma abordagem eficaz para acelerar a inferência do modelo, mas sua aplicabilidade ao treinamento permanece pouco compreendida. Em trabalhos anteriores, introduzimos a SageBwd, uma atenção treinável em INT8 que quantiza seis das sete multiplicações matriciais de atenção, preservando o desempenho do fine-tuning. No entanto, a SageBwd exibiu uma lacuna de desempenho persistente em relação à atenção de precisão total (FPA) durante o pré-treinamento. Neste trabalho, investigamos por que essa lacuna ocorre e demonstramos que a SageBwd iguala a atenção de precisão total durante o pré-treinamento. Por meio de experimentos e análise teórica, chegamos a algumas conclusões e insights importantes: (i) a QK-norm é necessária para um treinamento estável com um grande número de tokens por etapa, (ii) os erros de quantização surgem principalmente do gradiente de pontuação dS na passagem backward, (iii) reduzir os tokens por etapa permite que a SageBwd iguale o desempenho da FPA no pré-treinamento, e (iv) o K-smoothing permanece essencial para a estabilidade do treinamento, enquanto o Q-smoothing oferece benefício limitado durante o pré-treinamento.
Apesar dos avanços impressionantes na geração de vídeos, os modelos existentes continuam limitados à plausibilidade superficial, carecendo de uma compreensão coerente e unificada do mundo. As abordagens anteriores normalmente incorporam apenas uma única forma de conhecimento relacionado ao mundo ou dependem de estratégias rígidas de alinhamento para introduzir conhecimento adicional. No entanto, alinhar um único conhecimento mundial é insuficiente para constituir um modelo de mundo, que requer a modelagem conjunta de múltiplas dimensões heterogêneas (por exemplo, senso comum físico, consistência 3D e temporal). Para superar esta limitação, introduzimos o DreamWorld, uma estrutura unificada que integra conhecimento mundial complementar em geradores de vídeo através de um Paradigma de Modelagem Conjunta do Mundo, prevendo conjuntamente pixels de vídeo e características de modelos de base para capturar dinâmicas temporais, geometria espacial e consistência semântica. No entanto, otimizar ingenuamente esses objetivos heterogêneos pode levar a instabilidade visual e cintilação temporal. Para mitigar este problema, propomos o Recozimento de Restrição Consistente (CCA) para regular progressivamente as restrições em nível mundial durante o treinamento, e a Orientação Interna de Múltiplas Fontes para impor prioridades mundiais aprendidas na inferência. Avaliações extensivas mostram que o DreamWorld melhora a consistência mundial, superando o Wan2.1 em 2.26 pontos no VBench. O código será disponibilizado publicamente em https://github.com/ABU121111/DreamWorld{mypink{Github}}.
Apresentamos o Timer-S1, um robusto modelo de base para séries temporais baseado em Mistura de Especialistas (MoE) com 8,3 bilhões de parâmetros totais, 0,75 bilhão de parâmetros ativados por token e um contexto de 11,5 mil tokens. Para superar o gargalo de escalabilidade nos modelos de base pré-treinados existentes para séries temporais, realizamos uma Escalagem Serial em três dimensões: arquitetura do modelo, conjunto de dados e pipeline de treinamento. O Timer-S1 integra blocos esparsos TimeMoE e blocos genéricos TimeSTP para Predição Serial de Tokens (STP), um objetivo de treinamento genérico que adere à natureza serial da previsão. O paradigma proposto introduz computações seriais para melhorar as previsões de longo prazo, evitando ao mesmo tempo a custosa inferência do tipo "rolling" e a acentuada acumulação de erros na predição padrão do próximo token. Buscando um conjunto de dados de treinamento de alta qualidade e não enviesado, compilamos o TimeBench, um corpus com um trilhão de pontos temporais, e aplicamos uma meticulosa augmentação de dados para mitigar o viés preditivo. Além disso, pioneiramente implementamos uma etapa de pós-treinamento, incluindo pré-treinamento contínuo e extensão de contexto longo, para melhorar o desempenho em curto prazo e em contextos longos. Avaliado na extensa leaderboard GIFT-Eval, o Timer-S1 alcança um desempenho de previsão state-of-the-art, obtendo os melhores escores MASE e CRPS como modelo pré-treinado. O Timer-S1 será disponibilizado para facilitar pesquisas futuras.
Os atuais modelos de geração de vídeo não conseguem simular consequências físicas de ações 3D, como forças e manipulações robóticas, por carecerem de compreensão estrutural sobre como as ações afetam cenas tridimensionais. Apresentamos o RealWonder, o primeiro sistema em tempo real para geração de vídeo condicionada por ações a partir de uma única imagem. Nossa principal inovação reside no uso da simulação física como ponte intermediária: em vez de codificar ações contínuas diretamente, as traduzimos por meio da simulação física em representações visuais (fluxo óptico e RGB) processáveis por modelos de vídeo. O RealWonder integra três componentes: reconstrução 3D a partir de imagens únicas, simulação física e um gerador de vídeo destilado que requer apenas 4 etapas de difusão. Nosso sistema atinge 13,2 FPS em resolução 480x832, permitindo exploração interativa de forças, ações robóticas e controles de câmera em objetos rígidos, corpos deformáveis, fluidos e materiais granulares. Vislumbramos que o RealWonder abre novas oportunidades para aplicar modelos de vídeo em experiências imersivas, AR/VR e aprendizado robótico. Nosso código e pesos dos modelos estão disponíveis publicamente em: https://liuwei283.github.io/RealWonder/
A preensão é uma capacidade fundamental para que os robôs interajjam com o mundo físico. Os seres humanos, equipados com duas mãos, selecionam autonomamente estratégias de preensão apropriadas com base na forma, tamanho e peso dos objetos, permitindo uma preensão robusta e subsequente manipulação. Em contraste, a preensão robótica atual permanece limitada, particularmente em ambientes multiestratégia. Embora esforços substanciais tenham sido direcionados para a preensão com pinças paralelas e com uma única mão, a preensão hábil para robôs bimanuais permanece pouco explorada, sendo os dados um dos principais gargalos. Alcançar preensões fisicamente plausíveis e geometricamente conformes que possam suportar torques externos apresenta desafios significativos. Para abordar essas questões, apresentamos o UltraDexGrasp, uma estrutura para preensão hábil universal com robôs bimanuais. O pipeline de geração de dados proposto integra a síntese de preensão baseada em otimização com a geração de demonstrações baseada em planeamento, produzindo trajetórias de alta qualidade e diversificadas em múltiplas estratégias de preensão. Com esta estrutura, reunimos o UltraDexGrasp-20M, um conjunto de dados de preensão multiestratégia em larga escala, composto por 20 milhões de quadros em 1.000 objetos. Com base no UltraDexGrasp-20M, desenvolvemos ainda uma política de preensão simples mas eficaz que recebe nuvens de pontos como entrada, agrega características da cena através de atenção unidirecional e prevê comandos de controlo. Treinada exclusivamente com dados sintéticos, a política alcança uma transferência robusta sim-para-real de *zero-shot* e tem sucesso consistentemente em objetos novos com várias formas, tamanhos e pesos, atingindo uma taxa de sucesso média de 81,2% na preensão hábil universal do mundo real. Para facilitar futuras investigações sobre preensão com robôs bimanuais, disponibilizamos como código aberto o pipeline de geração de dados em https://github.com/InternRobotics/UltraDexGrasp.
Os transformadores de visão demonstraram sucesso notável em classificação ao aproveitar a auto-atenção global para capturar dependências de longo alcance. No entanto, este mesmo mecanismo pode obscurecer detalhes espaciais de alta granularidade cruciais para tarefas como segmentação. Neste trabalho, buscamos melhorar o desempenho de segmentação de transformadores de visão após o treinamento padrão de classificação a nível de imagem. Mais especificamente, apresentamos um complemento simples, porém eficaz, que melhora o desempenho em tarefas de segmentação, mantendo as capacidades de reconhecimento a nível de imagem dos transformadores de visão. Em nossa abordagem, modulamos a auto-atenção com um kernel Gaussiano treinável que direciona a atenção para os *patches* vizinhos. Ainda refinamos as representações dos *patches* para aprender *embeddings* melhores nas posições dos *patches*. Essas modificações incentivam os *tokens* a focar no entorno local e garantem representações significativas nas posições espaciais, preservando a capacidade do modelo de incorporar informações globais. Experimentos demonstram a eficácia das nossas modificações, evidenciada por ganhos substanciais de segmentação em três *benchmarks* (por exemplo, mais de 6% e 4% no ADE20K para ViT Tiny e Base), sem alterar o regime de treinamento ou sacrificar o desempenho de classificação. O código está disponível em https://github.com/sinahmr/LocAtViT/.
Os modelos de raciocínio pensam em voz alta, mas grande parte do que dizem é ruído. Apresentamos o OPSDC (On-Policy Self-Distillation for Reasoning Compression), um método que ensina os modelos a raciocinar de forma mais concisa, destilando seu próprio comportamento conciso de volta neles mesmos. Toda a abordagem resume-se a uma ideia: condicionar o mesmo modelo a uma instrução "seja conciso" para obter *logits* do professor e minimizar a divergência reversa de Kullback-Leibler (*reverse KL*) por token nos próprios *rollouts* do aluno. Sem respostas fundamentadas (*ground-truth*), sem orçamentos de tokens, sem estimadores de dificuldade. Apenas auto-destilação. No entanto, esta simplicidade esconde uma sofisticação surpreendente: o OPSDC comprime automaticamente problemas fáceis de forma agressiva, preservando a deliberação necessária para os difíceis. No Qwen3-8B e Qwen3-14B, alcançamos uma redução de 57-59% nos tokens no MATH-500, enquanto melhoramos a precisão em 9-16 pontos absolutos. No AIME 2024, o modelo de 14B ganha 10 pontos com 41% de compressão. O segredo? Grande parte do que os modelos de raciocínio produzem não é apenas redundante - é ativamente prejudicial, agravando erros a cada token desnecessário.
Apresentamos um sistema para treinar agentes de busca empresarial via aprendizagem por reforço que atinge desempenho de última geração em um conjunto diversificado de tarefas de busca agentiva difíceis de verificar. Nosso trabalho faz quatro contribuições centrais. Primeiro, introduzimos o KARLBench, um conjunto de avaliação de múltiplas capacidades abrangendo seis regimes distintos de busca, incluindo busca de entidades com restrições, síntese de relatórios cross-documento, raciocínio numérico tabular, recuperação exaustiva de entidades, raciocínio procedural sobre documentação técnica e agregação de fatos sobre notas internas da empresa. Segundo, mostramos que modelos treinados em comportamentos heterogêneos de busca generalizam substancialmente melhor do que aqueles otimizados para qualquer benchmark único. Terceiro, desenvolvemos um pipeline de síntese agentiva que emprega raciocínio de longo horizonte e uso de ferramentas para gerar dados de treinamento diversificados, fundamentados e de alta qualidade, com bootstrapping iterativo a partir de modelos progressivamente mais capazes. Quarto, propomos um novo paradigma de pós-treinamento baseado em RL iterativa *off-policy* com grandes lotes que é eficiente em amostras, robusto a discrepâncias entre motor de treinamento e inferência, e naturalmente se estende ao treinamento multitarefa com generalização fora da distribuição. Comparado ao Claude 4.6 e GPT 5.2, o KARL é Pareto-ótimo no KARLBench em termos de compensações custo-qualidade e latência-qualidade, incluindo tarefas que estavam fora da distribuição durante o treinamento. Com poder computacional suficiente no tempo de teste, ele supera os modelos fechados mais fortes. Esses resultados mostram que dados sintéticos personalizados em combinação com aprendizagem por reforço multitarefa permitem agentes de conhecimento de alto desempenho e custo-eficientes para raciocínio fundamentado.
Embora os conjuntos de dados para compreensão de vídeo tenham escalado para durações de longas horas, eles geralmente consistem em clipes densamente concatenados que diferem da vida diária natural e não roteirizada. Para preencher essa lacuna, apresentamos o MM-Lifelong, um conjunto de dados projetado para Compreensão Multimodal ao Longo da Vida. Compreendendo 181,1 horas de filmagem, ele é estruturado em escalas de Dia, Semana e Mês para capturar densidades temporais variadas. Avaliações extensivas revelam dois modos críticos de falha nos paradigmas atuais: MLLMs de ponta a ponta sofrem de um Gargalo de Memória de Trabalho devido à saturação de contexto, enquanto bases de referência agentes representativas experimentam um Colapso de Localização Global ao navegar em linhas do tempo esparsas e mensais. Para resolver isso, propomos o Agente Multimodal Recursivo (ReMA), que emprega gerenciamento dinâmico de memória para atualizar iterativamente um estado de crença recursivo, superando significativamente os métodos existentes. Por fim, estabelecemos divisões de conjunto de dados projetadas para isolar vieses temporais e de domínio, fornecendo uma base rigorosa para pesquisas futuras em aprendizado supervisionado e generalização fora da distribuição.
Os agentes de linguagem natural de grande porte (LLM) aumentados por ferramentas prometem unificar o raciocínio científico com a computação, mas sua implantação em domínios de alto risco como a descoberta de medicamentos é limitada por duas barreiras críticas: governança não restrita do uso de ferramentas e baixa confiabilidade em horizontes temporais longos. Em pipelines farmacêuticos com alta dependência, os agentes autónomos frequentemente desviam-se para trajetórias irreprodutíveis, onde alucinações em fases iniciais se multiplicam em falhas a jusante. Para superar isso, apresentamos Mozi, uma arquitetura de dupla camada que une a flexibilidade da IA generativa com o rigor determinístico da biologia computacional. A Camada A (Plano de Controlo) estabelece uma hierarquia supervisionada de supervisor-trabalhador que impõe isolamento de ferramentas baseado em funções, limita a execução a espaços de ação restritos e conduce o replaneamento baseado em reflexão. A Camada B (Plano de Fluxo de Trabalho) operacionaliza as etapas canónicas da descoberta de medicamentos – da Identificação de Alvos à Otimização de Candidatos – como grafos de habilidades composáveis e com estado. Esta camada integra contratos de dados rigorosos e pontos de verificação estratégicos com intervenção humana (HITL) para salvaguardar a validade científica em fronteiras de decisão de alta incerteza. Operando com o princípio de design de "raciocínio de forma livre para tarefas seguras, execução estruturada para pipelines de longo horizonte", o Mozi fornece mecanismos de robustez incorporados e auditabilidade ao nível do rastreio para mitigar completamente a acumulação de erros. Avaliamos o Mozi no PharmaBench, um benchmark curado para agentes biomédicos, demonstrando uma precisão de orquestração superior em relação às linhas de base existentes. Além disso, através de estudos de caso terapêuticos de ponta a ponta, demonstramos a capacidade do Mozi de navegar em espaços químicos massivos, impor filtros de toxicidade rigorosos e gerar candidatos *in silico* altamente competitivos, transformando efetivamente o LLM de um conversador frágil num co-cientista confiável e governado.
Apresentamos o Latent Particle World Model (LPWM), um modelo de mundo centrado em objetos e auto-supervisionado, dimensionado para conjuntos de dados multi-objeto do mundo real e aplicável na tomada de decisões. O LPWM descobre autonomamente pontos-chave, caixas delimitadoras e máscaras de objetos diretamente a partir de dados de vídeo, permitindo-lhe aprender decomposições de cena ricas sem supervisão. A nossa arquitetura é treinada de ponta a ponta apenas a partir de vídeos e suporta condicionamento flexível com base em ações, linguagem e objetivos de imagem. O LPWM modela a dinâmica estocástica de partículas através de um novo módulo de ação latente e alcança resultados de última geração em diversos conjuntos de dados sintéticos e do mundo real. Para além da modelação estocástica de vídeo, o LPWM é prontamente aplicável à tomada de decisões, incluindo aprendizagem por imitação condicionada a objetivos, conforme demonstramos no artigo. Código, dados, modelos pré-treinados e sequências de vídeo estão disponíveis: https://taldatech.github.io/lpwm-web
Aprender um modelo de transporte que mapeie uma distribuição de origem para uma distribuição alvo é um problema canônico no aprendizado de máquina, mas as aplicações científicas exigem cada vez mais modelos capazes de generalizar para distribuições de origem e alvo não vistas durante o treinamento. Apresentamos o transporte condicionado por distribuição (DCT), uma estrutura que condiciona mapas de transporte a embeddings aprendidos de distribuições de origem e alvo, permitindo a generalização para pares de distribuição não observados. O DCT também permite o aprendizado semissupervisionado para problemas de previsão distribucional: como aprende a partir de pares de distribuição arbitrários, pode aproveitar distribuições observadas em apenas uma condição para melhorar a previsão de transporte. O DCT é agnóstico ao mecanismo de transporte subjacente, suportando modelos que variam desde o *flow matching* até modelos baseados em divergência distribucional (por exemplo, Wasserstein, MMD). Demonstramos os benefícios de desempenho prático do DCT em benchmarks sintéticos e quatro aplicações em biologia: transferência de efeito de lote em genômica de célula única, previsão de perturbação a partir de dados de citometria de massa, aprendizagem da dinâmica transcricional clonal na hematopoiese e modelagem da evolução de sequências de receptores de células T.
O treinamento de grandes modelos de linguagem para raciocinar com motores de busca através de aprendizagem por reforço é dificultado por um problema fundamental de atribuição de crédito: métodos existentes, como o Search-R1, fornecem apenas uma recompensa de resultado esparsa após uma trajetória completa de múltiplos passos, tornando inviável atribuir o sucesso ou o fracasso a decisões individuais de raciocínio e recuperação. Métodos de recompensa de processo, como o StepSearch, aliviam isso introduzindo supervisão a nível de passo, mas dependem de recompensas heurísticas, como a sobreposição TF-IDF com documentos de referência, e ainda amostram k trajetórias completas por exemplo, mantendo uma alta variância do gradiente. Propomos o SLATE, uma estrutura construída sobre duas ideias complementares: (1) amostragem truncada a nível de passo, que gera k trajetórias que compartilham um prefixo comum e diferem apenas no passo seguinte, e (2) recompensas densas de "LLM-como-juiz", que substituem a pontuação heurística por um avaliador LLM capaz que avalia a qualidade de cada passo de raciocínio, consulta de busca e resposta, fornecendo uma supervisão mais rica e confiável. Provamos teoricamente que, sob a mesma estrutura de recompensa densa, a amostragem truncada reduz a variância das estimativas de vantagem em até um fator de T em comparação com a amostragem de trajetória completa para trajetórias de T passos, resultando em gradientes de política com menor variância e mais bem direcionados. Experimentos em sete benchmarks de Q&A confirmam que o SLATE supera consistentemente tanto as linhas de base de recompensa esparsa quanto as de recompensa de processo, com os maiores ganhos em tarefas mais difíceis de múltiplos saltos e em modelos menores.
A Reidentificação Multimodal de Objetos (ReID) visa explorar informações complementares de diferentes modalidades para recuperar objetos específicos. No entanto, os métodos existentes frequentemente dependem de filtragem rígida de *tokens* ou estratégias de fusão simples, o que pode levar à perda de pistas discriminativas e ao aumento da interferência de fundo. Para enfrentar esses desafios, propomos o STMI, uma nova estrutura de aprendizagem multimodal composta por três componentes principais: (1) o módulo de Modulação de Características Guiada por Segmentação (SFM) aproveita máscaras geradas pelo SAM para aprimorar as representações do primeiro plano e suprimir o ruído de fundo por meio de modulação de atenção aprendível; (2) o módulo de Realocação Semântica de *Tokens* (STR) emprega *tokens* de consulta aprendíveis e um mecanismo de realocação adaptativa para extrair representações compactas e informativas sem descartar nenhum *token*; (3) o módulo de Interação em Hipergrafo Multimodal (CHI) constrói um hipergrafo unificado entre modalidades para capturar relações semânticas de alta ordem. Experimentos extensivos em *benchmarks* públicos (RGBNT201, RGBNT100 e MSVR310) demonstram a eficácia e a robustez da nossa estrutura STMI proposta em cenários de ReID multimodal.
Os robôs que operam em ambientes partilhados com humanos não só precisam de navegar, interagir e detetar o seu entorno, como também devem interpretar e responder a comportamentos humanos dinâmicos e, frequentemente, imprevisíveis. Embora avanços recentes tenham mostrado potencial na melhoria da perceção robótica e no seguimento de instruções através de Modelos de Visão e Linguagem (VLMs), estes continuam limitados na abordagem das complexidades das interações humano-robô (HRI) multimodais. Motivados por este desafio, introduzimos um módulo de feedback leve de linguagem para visão que fecha o ciclo entre um Modelo de Linguagem Grande (LLM) e o codificador de visão nos VLMs. O módulo projeta os estados ocultos dos tokens de imagem através de um Perceptron Multicamadas (MLP) com porta de volta para a entrada do codificador, solicitando uma segunda passagem que reinterpreta a cena sob contexto textual. Avaliamos esta abordagem em três tarefas centradas em robótica: navegação num ambiente simulado (Habitat), descrição sequencial de cenas (Mementos-Robotics) e reconhecimento de intenções humanas (nosso conjunto de dados HRI). Os resultados mostram que o nosso método melhora o Qwen 2.5 (7B) em 3.3% (menos distância), +0.057 de pontuação de descrição e +2.93% de precisão, com menos de 3% de parâmetros extra; o Gemma 3 (4B) e o LLaVA OV 1.5 (4B) mostram resultados mistos na navegação, mas ganhos de +0.111, +0.055 e +10.81%, +4.79% nas duas últimas tarefas. O código está disponível em https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.