Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o HY-World 2.0, uma estrutura de modelo de mundo multimodal que avança nosso projeto anterior, o HY-World 1.0. O HY-World 2.0 acomoda diversas modalidades de entrada, incluindo instruções de texto, imagens de visão única, imagens multivista e vídeos, e produz representações de mundo em 3D. Com entradas de texto ou imagem de visão única, o modelo realiza a geração de mundos, sintetizando cenas navegáveis de alta fidelidade usando a técnica de *3D Gaussian Splatting* (3DGS). Isso é alcançado por meio de um método em quatro estágios: a) Geração de Panorama com o HY-Pano 2.0, b) Planejamento de Trajetória com o WorldNav, c) Expansão do Mundo com o WorldStereo 2.0 e d) Composição do Mundo com o WorldMirror 2.0. Especificamente, introduzimos inovações-chave para melhorar a fidelidade do panorama, permitir a compreensão e o planejamento de cenas 3D, e atualizar o WorldStereo, nosso modelo de geração de vistas baseado em *keyframes* com memória consistente. Também atualizamos o WorldMirror, um modelo *feed-forward* para predição 3D universal, refinando a arquitetura do modelo e a estratégia de aprendizado, permitindo a reconstrução do mundo a partir de imagens multivista ou vídeos. Adicionalmente, introduzimos o WorldLens, uma plataforma de renderização 3DGS de alto desempenho que apresenta uma arquitetura flexível e independente de *engine*, iluminação IBL automática, detecção eficiente de colisões e co-design de treinamento e renderização, permitindo a exploração interativa de mundos 3D com suporte a personagens. Experimentos extensivos demonstram que o HY-World 2.0 atinge um desempenho de ponta em vários benchmarks entre as abordagens de código aberto, fornecendo resultados comparáveis ao modelo de código fechado Marble. Liberamos todos os pesos dos modelos, código e detalhes técnicos para facilitar a reprodutibilidade e apoiar pesquisas futuras em modelos de mundo 3D.
A condução autónoma de alto nível requer planeadores de movimento capazes de modelar incertezas futuras multimodais, mantendo-se robustos em interações de ciclo fechado. Embora os planeadores baseados em difusão sejam eficazes na modelação de distribuições complexas de trajetórias, frequentemente sofrem de instabilidades estocásticas e da falta de *feedback* corretivo negativo quando treinados apenas com aprendizagem por imitação. Para resolver estas questões, propomos o RAD-2, um *framework* unificado de gerador-discriminador para planeamento em ciclo fechado. Especificamente, um gerador baseado em difusão é usado para produzir candidatos de trajetória diversos, enquanto um discriminador otimizado por Aprendizagem por Reforço (RL) reclassifica estes candidatos de acordo com a sua qualidade de condução a longo prazo. Este design desacoplado evita a aplicação direta de recompensas esparsas ao espaço completo de trajetórias de alta dimensão, melhorando assim a estabilidade da otimização. Para melhorar ainda mais a aprendizagem por reforço, introduzimos a Otimização de Política Relativa de Grupo Temporalmente Consistente, que explora a coerência temporal para aliviar o problema de atribuição de crédito. Adicionalmente, propomos a Otimização de Gerador *On-policy*, que converte o *feedback* de ciclo fechado em sinais de otimização longitudinal estruturados e desloca progressivamente o gerador para *manifolds* de trajetória de alta recompensa. Para suportar um treino eficiente em larga escala, introduzimos o BEV-Warp, um ambiente de simulação de alto débito que realiza avaliação em ciclo fechado diretamente no espaço de características de Visão Topográfica (*Bird's-Eye View*) através de deformação espacial. O RAD-2 reduz a taxa de colisão em 56% em comparação com planeadores baseados em difusão robustos. A implementação no mundo real demonstra ainda uma melhoria na segurança percebida e na suavidade de condução em tráfego urbano complexo.
Os Agentes de Pesquisa Profunda (DRAs) visam resolver tarefas de pesquisa complexas e de longo prazo que envolvem planejamento, recuperação de informações, compreensão multimodal e geração de relatórios. No entanto, sua avaliação permanece desafiadora devido aos ambientes web dinâmicos e a definições de tarefas ambíguas. Propomos o DR³-Eval, um benchmark realista e reproduzível para avaliar agentes de pesquisa profunda na geração de relatórios multimodais e multiarquivo. O DR³-Eval é construído a partir de materiais autênticos fornecidos por usuários e emparelhado com um corpus estático de sandbox de pesquisa por tarefa que simula a complexidade da web aberta, mantendo-se totalmente verificável, contendo documentos de apoio, distratores e ruído. Além disso, introduzimos uma estrutura de avaliação multidimensional que mede a Recuperação de Informações, a Precisão Factual, a Cobertura de Citações, o Seguimento de Instruções e a Qualidade de Profundidade, e validamos seu alinhamento com os julgamentos humanos. Experimentos com nosso sistema multiagente desenvolvido, o DR³-Agent, baseado em múltiplos modelos de linguagem state-of-the-art, demonstram que o DR³-Eval é altamente desafiador e revela modos críticos de falha na robustez da recuperação e no controle de alucinações. Nosso código e dados estão publicamente disponíveis.
Uma estratégia amplamente adotada para aprimoramento de modelos é utilizar dados sintéticos gerados por um modelo mais forte para ajuste fino supervisionado (SFT). No entanto, para modelos emergentes de raciocínio como o Qwen3-8B, essa abordagem frequentemente falha em melhorar as capacidades de raciocínio e pode até levar a uma queda substancial de desempenho. Neste trabalho, identificamos uma divergência estilística substancial entre os dados gerados pelo professor e a distribuição do aluno como um fator principal que impacta o SFT. Para superar essa lacuna, propomos um framework de Síntese de Dados por Cooperação Professor-Aluno (TESSY), que entrelaça os modelos do professor e do aluno para gerar alternadamente tokens de estilo e de não-estilo. Consequentemente, o TESSY produz sequências sintéticas que herdam as capacidades avançadas de raciocínio do professor, mantendo ao mesmo tempo a consistência estilística com a distribuição do aluno. Em experimentos de geração de código usando o GPT-OSS-120B como professor, o ajuste fino do Qwen3-8B com dados gerados pelo professor resultou em quedas de desempenho de 3,25% no LiveCodeBench-Pro e 10,02% no OJBench, enquanto o TESSY obteve melhorias de 11,25% e 6,68%, respectivamente.
Os grandes modelos de linguagem (LLMs), apesar de alinhados para segurança, exibem comportamentos de recusa frágeis que podem ser contornados por simples alterações linguísticas. Como o *jailbreak* por tempo verbal demonstra - modelos que recusam pedidos nocivos frequentemente os atendem quando reformulados no passado - revela-se uma lacuna crítica de generalização nos métodos atuais de alinhamento, cujos mecanismos subjacentes são pouco compreendidos. Neste trabalho, introduzimos o *Activation-Scaling Guard* (ASGuard), uma estrutura perspicaz e mecanicamente informada que mitiga cirurgicamente essa vulnerabilidade específica. Na primeira etapa, usamos análise de circuitos para identificar os cabeçalhos de atenção específicos causalmente ligados ao *jailbreak* alvo, como um ataque de mudança de tempo verbal. Em segundo lugar, treinamos um vetor de escalonamento preciso, canal a canal, para recalibrar a ativação dos cabeçalhos vulneráveis ao tempo verbal. Por fim, aplicamo-lo numa "afinação preventiva", forçando o modelo a aprender um mecanismo de recusa mais robusto. Em quatro LLMs, o ASGuard reduz efetivamente a taxa de sucesso do ataque de *jailbreak* alvo, preservando capacidades gerais e minimizando a recusa excessiva, alcançando um equilíbrio Pareto-ótimo entre segurança e utilidade. Nossas descobertas ressaltam como sufixos adversários suprimem a propagação da direção mediadora da recusa, com base em análise mecanicista. Adicionalmente, nosso trabalho demonstra como uma compreensão profunda dos componentes internos do modelo pode ser aproveitada para desenvolver métodos práticos, eficientes e direcionados para ajustar o comportamento do modelo, traçando um rumo para uma segurança de IA mais confiável e interpretável.
A alocação espacial eficiente de primitivas serve como base para o *Splatting* Gaussiano 3D, uma vez que dita diretamente a sinergia entre a compacidade da representação, a velocidade de reconstrução e a fidelidade de renderização. As soluções anteriores, baseadas em otimização iterativa ou inferência *feed-forward*, sofrem com comprometimentos significativos entre estes objetivos, principalmente devido à dependência de estratégias de alocação locais e orientadas por heurísticas que carecem de uma consciência global da cena. Especificamente, os métodos *feed-forward* atuais são largamente alinhados a píxeis ou voxels. Ao desprojectar píxeis em primitivas densas e alinhadas à vista, eles incorporam redundância no ativo 3D. À medida que mais vistas de entrada são adicionadas, o tamanho da representação aumenta e a consistência global torna-se frágil. Para tal, introduzimos o *GlobalSplat*, uma estrutura construída sobre o princípio de *align first, decode later*. A nossa abordagem aprende uma representação de cena latente, global e compacta que codifica a entrada multi-vista e resolve correspondências entre vistas antes de descodificar qualquer geometria 3D explícita. Crucialmente, esta formulação permite reconstruções compactas e globalmente consistentes sem depender de *backbones* de previsão de píxeis pré-treinados ou de reutilizar características latentes de linhas de base densas. Utilizando um currículo de treino do grosso para o fino que aumenta gradualmente a capacidade descodificada, o *GlobalSplat* previne naturalmente o inchaço da representação. No *RealEstate10K* e no *ACID*, o nosso modelo atinge um desempenho competitivo em síntese de novas vistas enquanto utiliza apenas 16K Gaussianas, significativamente menos do que o exigido por *pipelines* densas, obtendo uma pegada ligeira de 4MB. Adicionalmente, o *GlobalSplat* permite uma inferência significativamente mais rápida do que as linhas de base, operando em menos de 78 milissegundos num único *forward pass*. A página do projeto está disponível em https://r-itk.github.io/globalsplat/.
Embora os modelos de Visão-Linguagem-Ação (VLA) de ponta a ponta ofereçam um paradigma promissor para a manipulação robótica, o seu ajuste fino com dados de controle restritos frequentemente compromete as capacidades de raciocínio profundo herdadas dos seus modelos base de Visão e Linguagem (VLM). Para resolver este compromisso fundamental, propomos o HiVLA, uma estrutura hierárquica centrada no *grounding* visual que desacopla explicitamente o planeamento semântico de alto nível do controle motor de baixo nível. Na parte de alto nível, um planeador VLM executa primeiro a decomposição da tarefa e o *grounding* visual para gerar planos estruturados, compreendendo uma instrução de subtarefa e uma caixa delimitadora (*bounding box*) de alvo precisa. Em seguida, para traduzir este plano em ações físicas, introduzimos na parte de baixo nível um especialista em ação baseado num *Diffusion Transformer* (DiT) com correspondência de fluxo (*flow-matching*), equipado com um novo mecanismo de atenção cruzada em cascata. Este projeto funde sequencialmente o contexto global, recortes (*crops*) de alta resolução centrados no objeto e a semântica da habilidade, permitindo que o DiT se concentre puramente na execução robusta. A nossa arquitetura desacoplada preserva o raciocínio de *zero-shot* do VLM, permitindo simultaneamente a melhoria independente de ambos os componentes. Experimentos extensivos em simulação e no mundo real demonstram que o HiVLA supera significativamente os modelos de referência (*baselines*) de ponta a ponta do estado da arte, destacando-se particularmente na composição de habilidades de longo horizonte e na manipulação de granulação fina de objetos pequenos em cenários desordenados.
O Claude Code é uma ferramenta de codificação agentiva que pode executar comandos shell, editar arquivos e chamar serviços externos em nome do usuário. Este estudo descreve sua arquitetura abrangente por meio da análise do código-fonte TypeScript publicamente disponível e compara-a ainda com o OpenClaw, um sistema de agente de IA open-source independente que responde a muitas das mesmas questões de projeto a partir de um contexto de implantação diferente. Nossa análise identifica cinco valores humanos, filosofias e necessidades que motivam a arquitetura (autoridade de decisão humana, segurança e proteção, execução confiável, amplificação de capacidade e adaptabilidade contextual) e os rastreia através de treze princípios de projeto até escolhas de implementação específicas. O núcleo do sistema é um simples loop *while* que chama o modelo, executa ferramentas e repete. A maior parte do código, no entanto, reside nos sistemas em torno deste loop: um sistema de permissões com sete modos e um classificador baseado em *machine learning*, um pipeline de compactação de cinco camadas para gerenciamento de contexto, quatro mecanismos de extensibilidade (MCP, *plugins*, *skills* e *hooks*), um mecanismo de delegação de subagentes com isolamento de árvore de trabalho e armazenamento de sessão orientado a anexos. Uma comparação com o OpenClaw, um *gateway* de assistente pessoal multicanal, mostra que as mesmas questões de projeto recorrentes produzem respostas arquiteturais diferentes quando o contexto de implantação muda: desde a classificação de segurança por ação até o controle de acesso no nível do perímetro, de um único loop de CLI a um *runtime* embutido dentro de um plano de controle de *gateway*, e de extensões de janela de contexto ao registro de capacidades em todo o *gateway*. Finalmente, identificamos seis direções abertas de projeto para futuros sistemas de agentes, fundamentadas na literatura empírica, arquitetônica e de políticas recente.
A Geração Aumentada por Recuperação (RAG) estende os Grandes Modelos de Linguagem e Visão (LVLMs) com conhecimento visual externo. No entanto, os sistemas visuais de RAG existentes normalmente dependem de sinais de recuperação genéricos que ignoram a semântica visual refinada, essencial para o raciocínio complexo. Para superar esta limitação, propomos o UniDoc-RL, uma estrutura unificada de aprendizagem por reforço na qual um agente LVLM executa conjuntamente a recuperação, reordenação, perceção visual ativa e raciocínio. O UniDoc-RL formula a aquisição de informação visual como um problema de tomada de decisão sequencial com um espaço de ação hierárquico. Especificamente, ele refina progressivamente a evidência visual, desde a recuperação de documentos de granularidade grossa até a seleção de imagens de granularidade fina e o recorte ativo de regiões, permitindo que o modelo suprima conteúdo irrelevante e se concentre em regiões densas em informação. Para um treino eficaz de ponta a ponta, introduzimos um esquema de recompensa múltipla densa que fornece supervisão consciente da tarefa para cada ação. Com base na Otimização de Política Relativa de Grupo (GRPO), o UniDoc-RL alinha o comportamento do agente com múltiplos objetivos sem depender de uma rede de valor separada. Para suportar este paradigma de treino, reunimos um conjunto de dados abrangente de trajetórias de raciocínio de alta qualidade com anotações de ação refinadas. Experiências em três benchmarks demonstram que o UniDoc-RL supera consistentemente as linhas de base mais avançadas, alcançando ganhos de até 17,7% em relação a métodos anteriores baseados em RL.
Os Modelos de Visão-Linguagem (VLMs) demonstraram capacidades notáveis na compreensão conjunta de visão e linguagem, mas sua grande escala impõe desafios significativos para implantação em cenários com recursos limitados. A Destilação de Conhecimento (KD) oferece uma forma viável de melhorar as capacidades do modelo sem aumentar seu tamanho ou requisitos de dados, tornando a implantação mais eficiente. No entanto, a aplicação de KD a VLMs é dificultada pela supervisão modal-específica: embora o conhecimento multimodal nos VLMs seja fundido dentro do espaço linguístico, os métodos atuais supervisionam cada modalidade separadamente sem abordar explicitamente o alinhamento multimodal, resultando em transferência inconsistente de conhecimento multimodal. Para resolver isso, propomos o Switch-KD, uma estrutura de destilação com comutação visual que unifica a transferência de conhecimento visão-linguagem dentro de um espaço compartilhado de probabilidade textual. O Switch-KD compreende dois componentes principais: (1) Destilação por Comutação Visual, que comuta as saídas visuais do estudante para o pathway linguístico do professor para construir referências probabilísticas cruzadas para transferência implícita de conhecimento visual; e (2) a perda por Diferença de Logits Bidirecional Dinâmica (DBiLD), que alinha adaptativamente regiões probabilísticas informativas enquanto preserva as estruturas distribucionais do professor e do estudante através de supervisão bidirecional. Guiado pelo Switch-KD, um TinyLLaVA de 0,5B destila efetivamente conhecimento multimodal rico de seu professor de 3B, produzindo uma melhoria média de 3,6 pontos em 10 benchmarks multimodais sem qualquer modificação arquitetural.
A previsão precisa de vídeos futuros exige alta fidelidade visual e consistência na semântica da cena, particularmente em ambientes dinâmicos complexos, como a condução autónoma. Apresentamos o Re2Pix, uma estrutura hierárquica de previsão de vídeo que decompõe a previsão em duas etapas: previsão da representação semântica e síntese visual guiada por representação. Em vez de prever diretamente os quadros RGB futuros, a nossa abordagem prevê primeiro a estrutura futura da cena no espaço de características de um modelo de base de visão congelado e, em seguida, condiciona um modelo de difusão latente nessas representações previstas para renderizar quadros fotorrealistas. Esta decomposição permite que o modelo se concentre primeiro na dinâmica da cena e depois na geração da aparência. Um desafio fundamental surge do desajuste treino-inferência entre as representações de referência disponíveis durante o treino e as representações previstas usadas na inferência. Para resolver isto, introduzimos duas estratégias de condicionamento, *nested dropout* e supervisão mista, que melhoram a robustez a previsões autorregressivas imperfeitas. Experiências em benchmarks desafiadores de condução demonstram que o design proposto, com prioridade à semântica, melhora significativamente a consistência semântica temporal, a qualidade perceptual e a eficiência do treino em comparação com fortes linhas de base baseadas em difusão. Disponibilizamos o código de implementação em https://github.com/Sta8is/Re2Pix.
Cada chamada a um endpoint de classificação de LLM produz um par entrada-saída rotulado que é automaticamente retido nos logs de produção. Esses pares constituem um conjunto de treinamento gratuito e em crescimento: um *surrogate* leve treinado com eles pode absorver uma parcela significativa do tráfego futuro a um custo marginal de inferência próximo de zero. As questões em aberto são quando o *surrogate* é suficientemente confiável para ser implantado, o que ele processa versus o que ele delega, e como essa fronteira evolui à medida que os dados se acumulam. Apresentamos o TRACER (*Trace-based Adaptive Cost-Efficient Routing*), um sistema de código aberto que treina *surrogates* de ML nos próprios *traces* de produção de um LLM e gerencia sua implantação por meio de um *gate* de paridade: o *surrogate* é ativado apenas quando seu acordo com o LLM excede um limite α definido pelo usuário. Para tornar a fronteira de roteamento transparente, o TRACER gera artefatos de interpretabilidade que descrevem quais regiões de entrada o *surrogate* processa, onde ele estabiliza e por que ele delega. Em um *benchmark* de intenção com 77 classes usando um *teacher* Sonnet 4.6, o TRACER alcança uma cobertura do *surrogate* entre 83% e 100%, dependendo do objetivo de qualidade α; em um *benchmark* de 150 classes, o *surrogate* substitui completamente o *teacher*. Em uma tarefa de inferência em linguagem natural, o *gate* de paridade recusa corretamente a implantação porque a representação de *embeddings* não suporta uma separação confiável. O sistema está disponível como software de código aberto.
A modelação de Interação Humano-Objeto (HOI) capta a forma como os seres humanos atuam sobre e se relacionam com objetos, tipicamente expressa como triplos <pessoa, ação, objeto>. As abordagens existentes dividem-se em duas famílias distintas: a geração de HOI sintetiza cenas a partir de triplos estruturados e layouts, mas falha em integrar condições mistas, como entidades de HOI e apenas objetos; e a edição de HOI modifica interações através de texto, mas luta para desacoplar a pose do contacto físico e para dimensionar para múltiplas interações. Apresentamos o OneHOI, uma estrutura unificada de transformadores de difusão que consolida a geração e edição de HOI num único processo condicional de remoção de ruído, orientado por representações estruturadas partilhadas de interações. No seu núcleo, o Relational Diffusion Transformer (R-DiT) modela relações mediadas por verbos através de tokens de HOI conscientes do papel e da instância, de uma Ancoragem Espacial de Ação baseada em layout, de uma Atenção Estruturada a HOI para impor a topologia de interação, e de HOI RoPE para separar cenas multi-HOI. Treinado em conjunto com *dropout* de modalidade no nosso conjunto HOI-Edit-44K, juntamente com conjuntos de dados centrados em HOI e objetos, o OneHOI suporta controlo guiado por layout, livre de layout, com máscara arbitrária e de condições mistas, alcançando resultados de última geração tanto na geração como na edição de HOI. O código está disponível em https://jiuntian.github.io/OneHOI/.
Este artigo concentra-se no alinhamento de modelos de correspondência de fluxo (flow matching) com as preferências humanas. Uma abordagem promissora é o ajuste fino (fine-tuning) através da retropropagação direta dos gradientes de recompensa pelo processo de geração diferenciável do flow matching. No entanto, a retropropagação através de trajetórias longas resulta em custos de memória proibitivos e em explosão de gradientes. Consequentemente, os métodos de gradiente direto têm dificuldade em atualizar os passos iniciais de geração, que são cruciais para determinar a estrutura global da imagem final. Para resolver este problema, introduzimos o LeapAlign, um método de ajuste fino que reduz o custo computacional e permite a propagação direta do gradiente da recompensa para os passos iniciais de geração. Especificamente, encurtamos a trajetória longa para apenas dois passos, projetando dois saltos consecutivos, cada um ignorando múltiplos passos de amostragem de EDO e prevendo os latentes futuros em um único passo. Ao randomizar os passos de tempo de início e fim dos saltos, o LeapAlign permite atualizações de modelo eficientes e estáveis em qualquer etapa de geração. Para melhor utilizar essas trajetórias encurtadas, atribuímos pesos de treinamento mais elevados àquelas que são mais consistentes com o caminho de geração longo. Para melhorar ainda mais a estabilidade do gradiente, reduzimos os pesos dos termos de gradiente com magnitude grande, em vez de removê-los completamente, como é feito em trabalhos anteriores. Ao ajustar o modelo Flux, o LeapAlign supera consistentemente os métodos baseados em GRPO e de gradiente direto de última geração em várias métricas, alcançando qualidade de imagem e alinhamento imagem-texto superiores.
Os modelos visão-linguagem (VLM) avançaram significativamente a interpretação e emissão de relatórios de imagens médicas complexas, como a tomografia computadorizada (TC), orientadas por IA. No entanto, os métodos existentes relegam amplamente os clínicos à condição de observadores passivos dos resultados finais, sem oferecer um rastro de raciocínio interpretável para inspecionar, validar ou refinar. Para resolver isso, apresentamos o RadAgent, um agente de IA que utiliza ferramentas para gerar relatórios de TC por meio de um processo gradual e interpretável. Cada relatório resultante é acompanhado por um rastro totalmente inspecionável de decisões intermediárias e interações com ferramentas, permitindo que os clínicos examinem como os achados relatados são derivados. Em nossos experimentos, observamos que o RadAgent melhora a geração de relatórios de TC de tórax em comparação com sua contraparte VLM 3D, o CT-Chat, em três dimensões. A precisão clínica melhora em 6,0 pontos (36,4% relativo) no macro-F1 e 5,4 pontos (19,6% relativo) no micro-F1. A robustez sob condições adversas melhora em 24,7 pontos (41,9% relativo). Além disso, o RadAgent alcança 37,0% em fidelidade (faithfulness), uma nova capacidade totalmente ausente em sua contraparte VLM 3D. Ao estruturar a interpretação da TC de tórax como um rastro de raciocínio explícito, aumentado por ferramentas e iterativo, o RadAgent nos aproxima de uma IA transparente e confiável para radiologia.
O rápido progresso das ferramentas de Conteúdo Gerado por Inteligência Artificial (AIGC) permite que imagens, vídeos e visualizações sejam criados sob demanda para o design de páginas web, oferecendo um paradigma flexível e cada vez mais adotado para a UI/UX moderna. No entanto, a integração direta de tais ferramentas na geração automatizada de páginas web frequentemente resulta em inconsistência de estilo e baixa coerência global, uma vez que os elementos são gerados de forma isolada. Propomos o MM-WebAgent, uma estrutura agentiva hierárquica para geração multimodal de páginas web que coordena a geração de elementos baseada em AIGC por meio de planejamento hierárquico e autorreflexão iterativa. O MM-WebAgent otimiza conjuntamente o layout global, o conteúdo multimodal local e a sua integração, produzindo páginas web coerentes e visualmente consistentes. Introduzimos ainda um benchmark para geração multimodal de páginas web e um protocolo de avaliação multinível para uma avaliação sistemática. Os experimentos demonstram que o MM-WebAgent supera as linhas de base baseadas em geração de código e em agentes, especialmente na geração e integração de elementos multimodais. Código & Dados: https://aka.ms/mm-webagent.
Os modelos de linguagem multimodal (MLLMs) apresentam bom desempenho em muitas tarefas de visão e linguagem, mas frequentemente têm dificuldades com problemas centrados na visão que exigem raciocínio visual refinado. Evidências recentes sugerem que essa limitação surge não de representações visuais fracas, mas da subutilização de informações visuais durante o ajuste por instrução, onde muitas tarefas podem ser parcialmente resolvidas usando apenas conhecimentos prévios linguísticos. Propomos uma abordagem simples e leve que amplia o ajuste por instrução visual com um pequeno número de tarefas auto supervisionadas visualmente fundamentadas, expressas como instruções em linguagem natural. Ao reformular tarefas clássicas de pretexto auto supervisionadas, como previsão de rotação, correspondência de cores e correspondência entre vistas, como tripletos imagem-instrução-resposta, introduzimos supervisão que não pode ser resolvida sem depender de evidências visuais. Nossa abordagem não requer anotações humanas, modificações arquiteturais nem estágios adicionais de treinamento. Em vários modelos, regimes de treinamento e benchmarks, a injeção de apenas uma pequena fração (3-10%) dessas instruções visualmente fundamentadas melhora consistentemente o desempenho em avaliações centradas na visão. Nossas descobertas destacam o ajuste por instrução com tarefas de auto supervisão visualmente fundamentadas como uma alavanca poderosa para melhorar o raciocínio visual em MLLMs por meio de ajustes simples na distribuição de dados de treinamento. Código disponível em: https://github.com/sirkosophia/V-GIFT
O Aprendizado por Reforço (RL) emergiu como um fator crítico para aprimorar as capacidades de raciocínio dos Grandes Modelos de Linguagem (LLMs). Embora avanços recentes tenham se concentrado na engenharia de recompensas ou na síntese de dados, poucos estudos exploram as características intrínsecas de representação do modelo para orientar o processo de treinamento. Neste artigo, observamos primeiro a presença de ativações de alta magnitude nos vetores de consulta e chave durante o processamento de contextos longos. Inspirados pela quantização de modelos – que estabelece a criticidade de tais ativações de alta magnitude – e pela percepção de que o raciocínio de contexto longo exibe inerentemente uma estrutura esparsa, levantamos a hipótese de que esses pesos atuam como os fatores cruciais para uma otimização eficaz do modelo. Com base nessa percepção, propomos o LongAct, uma estratégia que muda de atualizações uniformes para atualizações esparsas guiadas por saliência. Ao atualizar seletivamente apenas os pesos associados a essas ativações significativas, o LongAct alcança uma melhoria aproximada de 8% no LongBench v2 e aprimora a generalização no benchmark RULER. Além disso, nosso método exibe notável universalidade, aumentando consistentemente o desempenho em diversos algoritmos de RL, como GRPO e DAPO. Estudos abrangentes de ablação sugerem que o foco nessas características salientes é a chave para desbloquear o potencial de contextos longos.
Os Modelos de Linguagem de Grande Porte (LLMs) dependem fortemente do cache Chave-Valor (KV) para minimizar a latência de inferência. No entanto, os caches KV padrão são dependentes do contexto: reutilizar um documento em cache em um novo contexto exige o recálculo dos estados KV para contabilizar mudanças na distribuição de atenção. Soluções existentes, como CacheBlend, EPIC e SAM-KV, mitigam esse problema ao recalcular seletivamente um subconjunto de tokens; entretanto, elas ainda incorrem em sobrecarga computacional (FLOPs) não negligenciável e aumento da latência do Tempo para o Primeiro Token (TTFT). Neste artigo, propomos o KV Packet, uma estrutura de reutilização de cache livre de recálculo que trata documentos em cache como "pacotes" imutáveis encapsulados em adaptadores de tokens leves e treináveis, os quais são treinados via destilação auto supervisionada para superar descontinuidades de contexto. Experimentos com Llama-3.1 e Qwen2.5 demonstram que o método KV Packet proposto alcança FLOPs próximos de zero e TTFT menor do que as linhas de base baseadas em recálculo, mantendo escores F1 comparáveis aos da linha de base de recálculo completo.
Estudamos o aprendizado por reforço com regularização comportamental (RL), onde a regularização em direção a uma distribuição de referência (o conjunto de dados no RL offline ou o modelo base no ajuste fino de LLM via RL) é essencial para evitar a superotimização de valor causada pela extrapolação errônea fora da distribuição. Os métodos existentes dependem ou de gradientes de política reparametrizados, que são difíceis de dimensionar para grandes modelos generativos, ou de amostragem por rejeição, que pode ser excessivamente conservadora ao tentar ir além do suporte comportamental. Neste artigo, propomos o Fluxo de Gradiente de Valor (VGF), um novo paradigma escalável para RL com regularização comportamental. O VGF enquadra o RL regularizado comportamental como um problema de transporte ótimo que mapeia a distribuição de referência para a distribuição de política ótima induzida pelo valor. Resolvemos este problema de transporte via fluxo de gradiente discreto, onde os gradientes de valor guiam partículas inicializadas a partir da distribuição de referência. Nossa análise mostra que o VGF impõe a regularização implicitamente ao controlar o orçamento de transporte. O VGF elimina a parametrização explícita da política, mantendo-se expressivo e flexível, o que permite um dimensionamento adaptativo durante o teste ao ajustar o orçamento de transporte. Experimentos extensivos demonstram que o VGF supera significativamente métodos anteriores, alcançando resultados state-of-the-art em benchmarks de RL offline (D4RL, OGBench) e tarefas de RL para LLM. O código e execuções podem ser encontrados em https://ryanxhr.github.io/vgf.
Os agentes de codificação de IA operam em um paradoxo: possuem vasto conhecimento paramétrico, mas não conseguem lembrar uma conversa de uma hora atrás. Os sistemas de memória existentes armazenam texto em bancos de dados vetoriais com recuperação de canal único, requerem LLMs em nuvem para operações principais e não implementam nenhum dos processos cognitivos que tornam a memória humana eficaz. Apresentamos o SuperLocalMemory V3.3 ("O Cérebro Vivo"), um sistema de memória para agentes com arquitetura *local-first* que implementa a taxonomia cognitiva completa da memória com dinâmicas de ciclo de vida matemáticas. Construindo sobre os fundamentos de geometria da informação da V3.2 (arXiv:2603.14588), introduzimos cinco contribuições: (1) *Fisher-Rao Quantization-Aware Distance* (FRQAD) – uma nova métrica no manifold estatístico Gaussiano que alcança 100% de precisão ao preferir *embeddings* de alta fidelidade em vez de quantizados (vs. 85,6% do cosseno), sem *state of the art* prévio; (2) *Ebbinghaus Adaptive Forgetting* com quantização consciente do ciclo de vida – a primeira curva de esquecimento matemática em memória de agente local, acoplada à compressão progressiva de *embeddings*, alcançando 6,7x de poder discriminativo; (3) Recuperação cognitiva de 7 canais abrangendo canais semântico, de palavra-chave, de grafo de entidades, temporal, de ativação propagada, de consolidação e associativo de Hopfield, alcançando 70,4% no LoCoMo no Modo A (zero-LLM); (4) Parametrização de memória implementando memória implícita de longo prazo via *soft prompts*; (5) *Pipeline* auto-cognitivo de atrito zero que automatiza o ciclo de vida completo da memória. No LoCoMo, a V3.3 alcança 70,4% no Modo A (zero-LLM), com +23,8 p.p. em *multi-hop* e +12,7 p.p. em adversário. A V3.2 alcançou 74,8% no Modo A e 87,7% no Modo C; a diferença de 4,4 p.p. reflete uma troca arquitetural deliberada. O SLM V3.3 é *open source* sob a Licença Elástica 2.0, executa totalmente na CPU e possui mais de 5.000 downloads mensais.
A inversão orientada por texto de modelos generativos é um paradigma central para manipular conteúdo 2D ou 3D, desbloqueando inúmeras aplicações, como edição baseada em texto, transferência de estilo ou problemas inversos. No entanto, ela depende da premissa de que os modelos generativos permanecem sensíveis a comandos de linguagem natural. Demonstramos que, para os mais avançados modelos generativos nativos de texto-para-3D, essa premissa frequentemente colapsa. Identificamos um modo crítico de falha em que as trajetórias de geração são atraídas para "armadilhas de sumidouro" latentes: regiões onde o modelo se torna insensível a modificações do comando. Nesses regimes, alterações no texto de entrada não conseguem modificar as representações internas de forma a alterar a geometria de saída. Crucialmente, observamos que esta não é uma limitação da expressividade geométrica do modelo; os mesmos modelos generativos possuem a capacidade de produzir uma vasta diversidade de formas, mas, como demonstramos, tornam-se insensíveis à orientação textual fora da distribuição. Investigamos esse comportamento analisando as trajetórias de amostragem do modelo generativo e descobrimos que geometrias complexas ainda podem ser representadas e produzidas aproveitando o prior generativo incondicional do modelo. Isso leva a uma estrutura mais robusta para a edição de formas 3D baseada em texto que contorna os sumidouros latentes, desacoplando o poder de representação geométrica de um modelo de sua sensibilidade linguística. Nossa abordagem aborda as limitações dos *pipelines* 3D atuais e permite a manipulação semântica de alta fidelidade de formas 3D fora da distribuição. Página do projeto: https://daidedou.sorpi.fr/publication/beyondprompts
A Geração Aumentada por Recuperação (RAG) ancora as respostas de LLMs em evidências externas, mas trata o modelo como um consumidor passivo dos resultados de busca: ele nunca vê como o corpus está organizado ou o que ainda não foi recuperado, limitando sua capacidade de retroceder ou combinar evidências dispersas. Apresentamos o Corpus2Skill, que destila um corpus de documentos em um diretório hierárquico de habilidades offline e permite que um agente de LLM navegue por ele durante o tempo de serviço. O pipeline de compilação agrupa documentos iterativamente, gera resumos escritos por LLM em cada nível e materializa o resultado como uma árvore de arquivos de habilidades navegáveis. No tempo de serviço, o agente recebe uma visão panorâmica do corpus, aprofunda-se em ramos de tópicos por meio de resumos progressivamente mais refinados e recupera documentos completos por ID. Como a hierarquia é explicitamente visível, o agente pode raciocinar sobre onde procurar, retroceder de caminhos improdutivos e combinar evidências entre ramos. No WixQA, um benchmark empresarial de suporte ao cliente para RAG, o Corpus2Skill supera as linhas de base de recuperação densa, RAPTOR e RAG agencial em todas as métricas de qualidade.
Os grandes modelos de linguagem (LLMs) têm recebido atenção significativa recentemente como uma abordagem promissora para acelerar a descoberta científica. No entanto, a sua aplicação em domínios científicos de natureza aberta, como a biologia, permanece limitada, principalmente devido à falta de explicações factualmente fundamentadas e acionáveis. Para resolver esta limitação, introduzimos um formalismo de explicação estruturada para células virtuais que representa o raciocínio biológico como grafos de ação mecanicista, permitindo a verificação e falseamento sistemáticos. Com base nisto, propomos o VCR-Agent, uma arquitetura de multiagentes que integra a recuperação de conhecimento biologicamente fundamentado com uma abordagem de filtragem baseada em verificador para gerar e validar raciocínios mecanicistas de forma autónoma. Utilizando esta arquitetura, disponibilizamos o conjunto de dados VC-TRACES, que consiste em explicações mecanicistas verificadas derivadas do atlas Tahoe-100M. Empiricamente, demonstramos que o treino com estas explicações melhora a precisão factual e fornece um sinal de supervisão mais eficaz para a tarefa subsequente de previsão de expressão génica. Estes resultados sublinham a importância do raciocínio mecanicista fiável para células virtuais, alcançado através da sinergia entre multiagentes e verificação rigorosa.
A destilação entre tokenizadores diferentes (CTD), a transferência de conhecimento de um modelo de linguagem professor para um aluno quando os dois utilizam tokenizadores distintos, permanece um problema em grande parte não resolvido. As abordagens existentes dependem de estratégias heurísticas para alinhar vocabulários incompatíveis, introduzindo uma complexidade considerável. Neste artigo, propomos uma linha de base simples, mas eficaz, denominada Destilação em Nível de Byte (BLD), que permite a CTD ao operar numa interface comum entre tokenizadores: o nível do byte. Em mais detalhe, convertemos a distribuição de saída do professor em probabilidades a nível de byte, acoplamos um cabeçote decodificador leve de nível de byte ao aluno e realizamos a destilação através desta interface compartilhada de bytes. Apesar da sua simplicidade, a BLD apresenta um desempenho competitivo com – e em várias benchmarks supera – métodos de CTD significativamente mais sofisticados, numa variedade de tarefas de destilação com modelos que variam de 1B a 8B de parâmetros. Os nossos resultados sugerem que o nível de byte é um terreno natural comum para a transferência de conhecimento entre tokenizadores, ao mesmo tempo que destacam que melhorias consistentes em todas as tarefas e benchmarks permanecem elusivas, sublinhando que a CTD ainda é um problema em aberto.
A verificação aumentada por rubricas orienta os modelos de recompensa com critérios de avaliação explícitos, produzindo julgamentos mais confiáveis do que a verificação por modelo único. No entanto, a maioria dos métodos existentes requer anotações de rubricas dispendiosas, limitando a escalabilidade. Além disso, descobrimos que a geração de rubricas é vulnerável a uma falha de cooperação; rubricas de baixa qualidade induzem ativamente os modelos de recompensa ao erro em vez de ajudar. Inspirados pelo princípio da comunicação cooperativa, propomos a modelagem de recompensa Cooperativa mas Crítica (C2), uma estrutura que melhora significativamente os julgamentos do modelo de recompensa ao fazer com que este colabore criticamente com um gerador de rubricas treinado apenas a partir de preferências binárias. No C2, sintetizamos pares de rubricas úteis e enganosas medindo como cada rubrica desloca o modelo de recompensa para mais perto ou para mais longe da preferência correta. Usando esses pares contrastantes, treinamos um gerador de rubricas cooperativo para propor rubricas úteis e um verificador crítico para avaliar a validade da rubrica antes de fazer seu julgamento, seguindo apenas as rubricas que considera úteis no momento da inferência. O C2 supera os modelos de recompensa baseados em raciocínio treinados nas mesmas preferências binárias, com ganhos de até 6,5 pontos no RM-Bench e 6,0 pontos na taxa de vitória controlada por comprimento no AlpacaEval 2.0. Sem anotações externas de rubricas, o C2 permite que um modelo de recompensa de 8B atinja um desempenho equivalente ao obtido com rubricas de um modelo 4 vezes maior. No geral, nosso trabalho demonstra que eliciar uma cooperação deliberada na verificação aumentada por rubricas torna os modelos de recompensa mais confiáveis de forma escalável.
Apresentamos o Three-Phase Transformer (3PT), um prior estrutural para o fluxo residual de Transformers *decoder-only* sobre uma arquitetura padrão com *backbone* SwiGLU + RMSNorm + RoPE + GQA. O vetor oculto é particionado em N canais cíclicos de tamanho igual, cada um mantido por operações que respeitam a fase: um RMSNorm por canal, uma rotação 2D de Givens entre a atenção e a FFN que rotaciona cada canal por theta + i*(2*pi/N), e uma restrição no número de *heads* alinhando os *heads* GQA com a partição. A arquitetura é um equilíbrio autoestabilizante entre embaralhamento e reimposição, não um módulo acoplado. A partição delimita um subespaço DC unidimensional ortogonal aos canais, no qual injetamos um perfil fixo de trombeta de Gabriel r(p) = 1/(p+1) como um canal lateral de posição absoluta que compõe ortogonalmente com a rotação de posição relativa do RoPE. A configuração canônica N=3 empresta sua metáfora de um sistema trifásico balanceado de CA, onde três senoides defasadas em 120 graus somam zero sem nenhum par anticorrelacionado. Com 123M de parâmetros no WikiText-103, o 3PT alcança uma redução de perplexidade de -7,20% (-2,62% em *bits-per-byte*) sobre uma linha de base RoPE-Only equivalente, com acréscimo de apenas +1.536 parâmetros (0,00124% do total), e uma aceleração de convergência de 1,93x na contagem de etapas (1,64x em *wall-clock*). N se comporta como um botão de compartilhamento de parâmetros, não um ótimo único: em 5,5M, uma varredura de N em {1,2,3,4,6,8,12} é quase monotônica, com N=1 vencendo; em 123M, uma varredura com três *seeds* mostra N=3 e N=1 estatisticamente indistinguíveis. O mecanismo estrutural é o fluxo residual particionado por canal, a rotação por bloco, a normalização por fase e a injeção DC da trombeta. Caracterizamos (a) a autoestabilização da geometria sem imposição explícita, um novo exemplo da estrutura de leis de conservação para redes neurais; (b) um perfil de profundidade em forma de U para a deriva do ângulo de rotação em 12 camadas; (c) a composição ortogonal com RoPE, atenção e FFN.
A votação majoritária sobre múltiplas tentativas de LLM melhora o raciocínio matemático, mas erros correlacionados limitam o tamanho efetivo da amostra. Uma solução natural é atribuir diferentes estratégias de raciocínio a diferentes votantes. A abordagem, denominada *Diverse Prompt Mixer*, foi testada na competição AIMO 3: 3 modelos, 23+ experimentos, 50 problemas de nível Olimpíada Internacional de Matemática (IMO), um H100 80 GB, limite de 5 horas. Toda intervenção a nível de *prompt* falha. A amostragem com alta temperatura já descorrelaciona os erros; estratégias mais fracas reduzem a precisão mais do que reduzem a correlação. Através de uma lacuna de capacidade de 8 pontos com N=8 igual e todas as otimizações testadas, a capacidade do modelo é dominante. A diferença entre a melhor pontuação por votação majoritária (42/50) e o *pass@20* (~45,5) é uma perda por seleção, não uma perda por *prompt*. Um seletor baseado em verificador poderia fechá-la. A engenharia de *prompts* não pode.
Na aprendizagem incremental online, os dados chegam continuamente com mudanças distributivas substanciais, criando um desafio significativo, pois as amostras anteriores têm valor de reapresentação limitado ao aprender uma nova tarefa. Pesquisas anteriores geralmente dependiam de um único centróide adaptativo ou múltiplos centróides fixos para representar cada classe no espaço latente. No entanto, tais métodos lutam quando os fluxos de dados de classe são inerentemente multimodais e exigem atualizações contínuas de centróides. Para superar isso, introduzimos uma estrutura de aprendizagem de Modelo de Mistura online baseada na teoria do Transporte Ótimo (MMOT), onde os centróides evoluem incrementalmente com novos dados. Esta abordagem oferece duas vantagens principais: (i) fornece uma caracterização mais precisa de fluxos de dados complexos e (ii) permite uma estimativa melhorada da similaridade de classes para amostras não vistas durante a inferência por meio de centróides derivados do MMOT. Além disso, para fortalecer a aprendizagem de representação e mitigar o esquecimento catastrófico, projetamos uma estratégia de Preservação Dinâmica que regula o espaço latente e mantém a separabilidade de classes ao longo do tempo. Avaliações experimentais em conjuntos de dados de referência confirmam a eficácia superior do nosso método proposto.