Artigos de pesquisa em IA selecionados diariamente com traduções
A capacidade de contexto ultra-longo está se tornando indispensável para LLMs de ponta: fluxos de trabalho agentivos, raciocínio de código em escala de repositório e memória persistente exigem que o modelo atenda conjuntamente a centenas de milhares a milhões de tokens, mas o custo quadrático da atenção softmax torna isso inviável em escala de implantação. Apresentamos a Atenção Esparsa MiniMax (MSA), uma atenção esparsa por blocos construída sobre a Atenção de Consulta Agrupada (GQA). Um Ramo de Índice leve pontua blocos de chave-valor e seleciona independentemente um subconjunto Top-k para cada grupo GQA, permitindo recuperação esparsa específica por grupo enquanto mantém a execução eficiente em nível de bloco; o Ramo Principal então realiza atenção esparsa exata por blocos apenas sobre os blocos selecionados. Projetada em torno de um princípio de simplicidade e escalabilidade, a MSA é deliberadamente simplificada, tornando-a direta para implantação eficiente em uma ampla gama de GPUs. Para traduzir a esparsidade em acelerações práticas, co-projetamos a MSA com um caminho de execução em GPU que utiliza seleção Top-k sem exp e atenção esparsa KV-externa para melhorar a utilização de núcleos tensoriais sob acesso granular por bloco. Em um modelo de 109B parâmetros com treinamento multimodal nativo, a MSA tem desempenho equivalente ao GQA enquanto reduz o cálculo de atenção por token em 28,4x no contexto de 1M. Combinada com nosso kernel co-projetado, a MSA alcança acelerações de tempo de parede de 14,2x no preenchimento e 7,6x na decodificação em H800. Nosso kernel de inferência está disponível em: https://github.com/MiniMax-AI/MSA. Um modelo multimodal nativo de nível de produção alimentado por MSA foi lançado publicamente em: https://huggingface.co/MiniMaxAI/MiniMax-M3.
Agentes de modelo de linguagem de grande porte (LLM) alcançaram um desempenho robusto em uma ampla gama de benchmarks, mas a maioria das avaliações pressupõe ambientes estáticos. Em contraste, a implantação no mundo real é inerentemente dinâmica, exigindo que os agentes alinhem continuamente seu conhecimento, habilidades e comportamento com ambientes em mudança e condições de tarefa atualizadas. Para preencher essa lacuna, introduzimos o EvoArena, um conjunto de benchmarks que modela mudanças ambientais como sequências de atualizações progressivas nos domínios de terminal, software e social. Propomos ainda o EvoMem, um paradigma de memória baseado em patches que registra a evolução da memória como históricos de atualização estruturados, permitindo que os agentes raciocinem sobre a evolução ambiental por meio de mudanças em sua memória. Experimentos mostram que os agentes atuais têm dificuldade no EvoArena, alcançando uma precisão média de 39,6% nos domínios evolutivos de terminal, software e preferência social. O EvoMem melhora consistentemente o desempenho, produzindo um ganho médio de 1,5% no EvoArena e também melhorando benchmarks padrão como GAIA e LoCoMo em 6,1% e 4,8%. Além de tarefas individuais, o EvoMem ainda melhora a precisão em nível de cadeia em 3,7% no EvoArena, onde o sucesso exige completar uma sequência consecutiva de subtarefas evolutivas relacionadas. A análise mecanicista mostra que o EvoMem melhora a captura de evidências na memória, indicando melhor preservação de estados ambientais evolutivos completos. Nossos resultados destacam a importância de modelar a evolução tanto na avaliação quanto na memória para uma implantação confiável de agentes.
Agentes de uso de computador (CUAs) operam cada vez mais em ambientes de execução que combinam controle visual de desktop, execução de linha de comando, edição de código, navegadores e ferramentas externas. No entanto, os benchmarks existentes frequentemente avaliam essas interfaces como capacidades separáveis, deixando a orquestração entre interfaces de horizonte longo subtestada. Assim, apresentamos o WeaveBench, um benchmark de interface híbrida de horizonte longo com 114 tarefas em 8 domínios de trabalho do mundo real, baseado em solicitações reais de usuários e artefatos publicamente verificáveis. Cada tarefa exige que os agentes combinem observações/ações de GUI com operações de CLI/código dentro de uma única trajetória. Avaliamos essas tarefas em um desktop Ubuntu real dentro de ambientes de execução de agentes CLI implantados, aumentados com um plugin mínimo de controle de desktop. Também propomos um juiz companheiro ciente de trajetória que inspeciona entregas, arquivos, capturas de tela, logs e rastros de ação, enquanto detecta comportamentos de atalho, como evidência visual fabricada ou métricas codificadas. Em todas as combinações modelo-ambiente de execução de fronteira, a melhor Taxa de Aprovação atinge apenas 41,2%, mostrando que o benchmark está longe de estar saturado. O juiz ciente de trajetória revela ainda que a avaliação baseada apenas no resultado superestima substancialmente o desempenho do agente. No geral, o WeaveBench expõe uma lacuna crítica na avaliação de CUAs e fornece um ambiente de teste eficaz para medir se os agentes podem orquestrar operações de GUI, CLI e código em tarefas do mundo real de horizonte longo.
O raciocínio espacial, a capacidade de determinar onde os objetos estão, como se relacionam e como se movem em 3D, continua sendo um desafio fundamental para os modelos de visão-linguagem (MVLs). Agentes aumentados por ferramentas tentam resolver isso aumentando os MVLs com módulos especializados de percepção, mas sua eficácia é limitada pela interface de ação através da qual essas ferramentas são invocadas. Neste trabalho, estudamos como o design dessa interface molda a capacidade do agente para o raciocínio espacial de final aberto. Agentes espaciais existentes ou empregam execução de código de passagem única, que se compromete com uma estratégia de análise completa antes que qualquer resultado intermediário seja observado, ou dependem de uma interface de chamada de ferramenta estruturada que muitas vezes oferece menos flexibilidade para compor operações livremente ou adaptar a análise a cada tarefa. Ambos os designs oferecem flexibilidade limitada para raciocínio espacial 3D/4D complexo e de final aberto. Portanto, propomos o SpatialClaw, um framework livre de treinamento para raciocínio espacial que adota código como interface de ação. O SpatialClaw mantém um kernel Python com estado, pré-carregado com quadros de entrada e um conjunto de primitivas de percepção e geometria, permitindo que um agente baseado em MVL escreva uma célula executável por passo, condicionada a todas as saídas anteriores, capacitando o agente a compor e manipular resultados de percepção de forma flexível e adaptar sua análise tanto a observações textuais e visuais intermediárias quanto às demandas de cada problema. Avaliado em 20 benchmarks de raciocínio espacial abrangendo uma ampla gama de tarefas de raciocínio espacial 3D/4D estáticas e dinâmicas, o SpatialClaw alcança 59,9% de precisão média, superando o agente espacial recente em +11,2 pontos, com ganhos consistentes em seis MVLs de base de duas famílias de modelos, sem qualquer adaptação específica a benchmark ou modelo.
Apresentamos o MaxProof, um framework de escalonamento em tempo de teste a nível populacional para provas matemáticas de nível competitivo na série MiniMax-M3. O M3 primeiro treina três capacidades orientadas a provas — geração de provas, verificação de provas e reparo de provas condicionado a críticas — utilizando um verificador generativo de defesa em profundidade projetado para baixa taxa de falsos positivos. Essas capacidades são integradas em um único modelo M3 disponibilizado. Em tempo de teste, o MaxProof trata o modelo como gerador, verificador, refinador e ranqueador, busca em uma população de provas candidatas e retorna uma prova final por meio de seleção por torneio. Com o escalonamento em tempo de teste do MaxProof, o modelo M3 alcança 35/42 na IMO 2025 e 36/42 na USAMO 2026, superando o limiar humano de medalha de ouro em ambas.
Geradores de imagem recentes demonstraram fotorrealismo impressionante e capacidade de seguir instruções na geração e edição de imagens individuais. No entanto, limitados por suas arquiteturas, eles não conseguem realizar geração intercalada (sequência texto-imagem), que tem aplicações cruciais em narrativas visuais, orientação e manipulação incorporada. Mesmo os mais recentes Modelos Multimodais Unificados (UMMs) de código aberto apresentam desempenho limitado nesse aspecto. Neste artigo, apresentamos o InterleaveThinker, o primeiro pipeline multiagente projetado para dotar qualquer gerador de imagem existente com capacidades de geração intercalada. Especificamente, empregamos um agente planejador para organizar a sequência de entrada imagem-texto, instruindo o gerador de imagem sobre a execução necessária em cada etapa. Em seguida, introduzimos um agente crítico para avaliar as saídas do gerador, identificar amostras que se desviam das instruções planejadas e refinar as instruções para regeneração. Para implementar esse pipeline, construímos os conjuntos Interleave-Planner-SFT-80k e Interleave-Critic-SFT-112k para realizar uma inicialização a frio de formato. Depois, desenvolvemos o Interleave-Critic-RL-13k para reforçar a capacidade de correção de instruções passo a passo dentro de uma trajetória de geração, utilizando GRPO. Como uma única trajetória de geração intercalada pode envolver mais de 25 chamadas ao gerador, otimizar toda a trajetória é computacionalmente inviável. Portanto, propomos recompensa por precisão e recompensa passo a passo, permitindo que o RL de etapa única guie efetivamente toda a trajetória de geração. Os resultados mostram que o InterleaveThinker melhora o desempenho em vários geradores de imagem. Em benchmarks de geração intercalada, alcança desempenho comparável ao Nano Banana e ao GPT-5. Surpreendentemente, também aprimora significativamente o modelo base em benchmarks baseados em raciocínio; por exemplo, no FLUX.2-klein de 4 etapas, observamos ganhos substanciais no WISE e no RISE.
Os Modelos de Linguagem Grandes e Multimodais (MLLMs) demonstraram um sucesso notável na compreensão visual, no entanto, seu desempenho degrada significativamente sob corrupções visuais do mundo real. Embora existam abordagens existentes para melhoria da robustez, estas são limitadas: o alinhamento de características em caixa preta carece de interpretabilidade, e o raciocínio baseado em texto em caixa branca não consegue restaurar detalhes perdidos em nível de pixel. Este trabalho investiga uma questão de pesquisa fundamental: os MLLMs podem recuperar conteúdo visual corrompido por si mesmos? Para abordar isso, propomos Robust-U1, uma nova estrutura que dota os MLLMs de capacidade explícita de autorrecuperação visual para compreensão robusta. A abordagem compreende três estágios centrais: ajuste fino supervisionado para reconstrução inicial, aprendizado por reforço com recompensas duplas (SSIM em nível de pixel e similaridade CLIP em nível semântico) para alinhar alta qualidade visual, e raciocínio multimodal que considera conjuntamente tanto a entrada corrompida quanto a imagem recuperada. Experimentos extensivos demonstram que Robust-U1 alcança robustez de ponta no referencial de corrupção do mundo real e mantém desempenho superior sob corrupções adversariais em referenciais gerais de VQA. A análise confirma que a recuperação visual de alta qualidade melhora diretamente o desempenho do raciocínio, estabelecendo a autorrecuperação como um mecanismo crítico para a compreensão visual robusta. O código-fonte está disponível em https://github.com/jqtangust/Robust-U1.
Treinar agentes de busca profunda exige perguntas verificáveis cujas respostas permaneçam indisponíveis até que evidências suficientes sejam adquiridas por meio da busca. Métodos de síntese existentes frequentemente aumentam a dificuldade aparente enriquecendo estruturas de grafos, mas a complexidade estrutural por si só não garante dificuldade de busca realizada: o processo de busca pretendido pode colapsar por meio de uma via de identificação mais barata. Formalizamos essa lacuna com um arcabouço de dificuldade sensível a atalhos e identificamos quatro riscos de atalho acionáveis: co-cobertura de evidências, seletividade de pista única, constantes expostas e vinculação de conhecimento prévio. Para diagnosticar seus efeitos realizados, utilizamos assinaturas de trajetória, incluindo custo de resolução, tempo de acerto da resposta e taxa de atalhos prévios. Guiado por esse arcabouço, introduzimos o FORT, um Framework de Síntese de Dados de Treinamento Resistente a Atalhos. O FORT constrói dados de treinamento resistentes a atalhos controlando riscos de atalho em seleção de entidades, construção de grafos de evidência, formulação de perguntas e refinamento adversarial. Experimentos mostram que o FORT induz buscas pré-resposta mais longas e menos padrões de atalho do que conjuntos de dados de busca profunda de código aberto existentes. Usando as trajetórias resultantes, treinamos o FORT-Searcher apenas com ajuste fino supervisionado (SFT), e ele alcança o melhor desempenho geral entre agentes de busca de código aberto de tamanho comparável em benchmarks desafiadores de busca profunda. Recursos relevantes serão disponibilizados em https://github.com/RUCAIBox/FORT-Searcher.
Laboratórios científicos recorrem cada vez mais a sistemas de IA para raciocinar sobre experimentos, mas o ato físico de fazer ciência permanece em grande parte fora de seu alcance. A IA pode auxiliar na leitura de literatura, na geração de hipóteses e no planejamento de protocolos, porém a execução desses protocolos na bancada ainda exige um operador humano. Modelos Visão-Linguagem-Ação (VLA) oferecem uma possível interface entre protocolos escritos e execução robótica, mas as políticas existentes são treinadas principalmente em demonstrações domésticas e de bancada, raramente encontrando os instrumentos, líquidos transparentes ou fluxos de trabalho de protocolos fixos presentes em laboratórios científicos. Fechar essa lacuna exige tanto supervisão específica para laboratórios quanto uma estrutura de aprendizado unificada que possa acomodar as diversas incorporações robóticas usadas para executar protocolos experimentais. Identificamos, portanto, os dados e a incorporação como gargalos centrais, juntamente com o design do modelo. Para abordar o lado dos dados, construímos o RoboGenesis, um motor de dados e fluxo de trabalho baseado em simulação que compõe fluxos de trabalho laboratoriais configurados a partir de habilidades atômicas, valida e filtra rollouts, e exporta demonstrações estruturadas para perfis robóticos suportados. No lado da política, apresentamos o LabVLA, treinado com uma receita de dois estágios: o pré-treinamento de tokens de ação FAST torna o backbone Qwen3-VL-4B-Instruct consciente de ações antes de qualquer controle contínuo ser aprendido, e o pós-treinamento por correspondência de fluxo anexa um especialista em ação DiT sob isolamento de conhecimento. No benchmark LabUtopia, o LabVLA atinge a maior taxa média de sucesso entre todas as linhas de base avaliadas, tanto em configurações dentro da distribuição quanto fora dela.
Decodificação especulativa (DE) aborda os altos custos de inferência de LLMs ao fazer rascunhadores leves gerarem candidatos para que verificadores grandes os validem em paralelo. Métodos existentes de rascunho-verificação usam decisões binárias: aceitar ou recomputar completamente. No entanto, descobrimos que muitos tokens rejeitados podem ser verificados corretamente por um submodelo enxuto derivado do verificador completo via roteamento intramodelo, em vez do verificador completo. Isso motiva nosso verificador enxuto a lidar com tokens que exigem recursos moderados de verificação, reduzindo chamadas caras ao modelo grande. Propomos Verificação via Roteamento Intramodelo para Decodificação Especulativa (VIA-DE), um arcabouço multicamadas que utiliza um verificador enxuto roteado. Tokens rascunhados são processados hierarquicamente: aceitação direta para casos de alta confiança, regeneração pelo verificador enxuto para casos de confiança moderada e verificação pelo modelo completo para casos incertos. Em quatro tarefas representativas e múltiplas famílias de modelos, VIA-DE reduz as taxas de rejeição em 0,10-0,22 e proporciona acelerações de 10-20% em relação a fortes referências de DE, alcançando ao mesmo tempo aceleração de 2,5-3x sobre a decodificação sem rascunho. Além disso, VIA-DE é compatível com arcabouços existentes de DE sem modificar seus procedimentos de treinamento. Nossos resultados sugerem a DE multicamadas como um paradigma geral para inferência escalável e eficiente de LLMs. Página do projeto: https://zju-xyc.github.io/VIA-SD-Project-Page/
A fusão de imagens multimodais visa integrar informações complementares de diferentes modalidades em uma imagem fusionada que preserve detalhes locais ricos enquanto mantém uma aparência globalmente consistente. As abordagens existentes constroem representações compartilhadas em grades de características 2D, que se destacam na modelagem de estruturas locais, mas oferecem alavancagem limitada sobre fatores de aparência global em nível de imagem. Para equilibrar esses objetivos, introduzimos uma interface compacta de tokens 1D baseada em um tokenizador de imagens pré-treinado congelado para modelar fatores de aparência/base não locais. Em vez de usar o tokenizador como um backbone de reconstrução, nosso design utiliza o espaço de tokens 1D como um transportador global, mantendo o caminho espacial 2D para restauração de estruturas locais. Especificamente, introduzimos a Edição Seletiva de Tokens (STE), que atualiza/substitui esparsamente um pequeno conjunto de tokens críticos, fornecendo um mecanismo leve para orientar a coerência da aparência global, mantendo o backbone de fusão inalterado e evitando perdas extras. Experimentos em quatro benchmarks comumente utilizados mostram que nosso método atinge o melhor desempenho geral, com melhorias consistentes e multimétricas tanto na coerência global quanto na fidelidade local. Página do projeto: https://zju-xyc.github.io/1D-Fusion-Project-Page/
Tokenizadores visuais holísticos são fundamentais para modelos multimodais unificados (MMUs), pois mapeiam entradas visuais diversas em um espaço de representação unificado. Neste artigo, apresentamos o HYDRA-X, o primeiro MMU que unifica a tokenização de imagens e vídeos em um único Vision Transformer (ViT). Nosso projeto é motivado por dois desafios principais: injetar eficientemente capacidade de reconstrução espaçotemporal em um ViT nativo, e incorporar consciência semântica no nível de imagem e vídeo no espaço latente. Para abordar o primeiro, ablações abrangentes revelam duas descobertas principais: (1) a atenção temporal causal no nível do quadro é suficiente para a reconstrução visual, enquanto a atenção espaçotemporal completa a degrada; e (2) a compressão temporal hierárquica supera substancialmente as alternativas de etapa única. Para lidar com o segundo, propomos um descompressor leve que realiza upsampling de características temporalmente comprimidas sob supervisão conjunta de professor imagem-vídeo, impondo assim estruturas semânticas complementares dentro do espaço latente compacto. Com base neste tokenizador holístico, propomos ainda uma melhoria fundamentada no pipeline de edição: a interação fonte-alvo deve ocorrer no nível latente dentro do tokenizador, em vez de no nível semântico dentro do LLM, melhorando substancialmente a consistência da edição e acelerando a convergência. Instanciado no modelo denso de 7B, o HYDRA-X alcança desempenho robusto em tarefas de compreensão e geração de imagens e vídeos, abrindo caminho para futuros MMUs com tokenizador unificado.
Agentes baseados em LLM têm demonstrado um potencial crescente na automatização da descoberta científica. Dado uma métrica otimizável e um ambiente de execução, eles podem propor, validar e iterar soluções científicas, e têm produzido resultados que superam abordagens projetadas por humanos. À medida que as capacidades dos modelos continuam a melhorar, argumentamos que o gargalo para a descoberta científica autônoma está se deslocando da prescrição de fluxos de trabalho dos agentes para o design de ambientes dos agentes: os recursos, restrições e interfaces que moldam o comportamento dos agentes. Enquadramos isso como engenharia de ambiente: construir ambientes que amplificam comportamentos produtivos, como exploração aberta, gerenciamento sistemático de artefatos e colaboração entre agentes, enquanto suprimem comportamentos prejudiciais, como manipulação de recompensas e supervisão humana de alto atrito. Apresentamos o EurekAgent, um sistema de agente com engenharia de ambiente para descoberta científica autônoma orientada por métrica. O EurekAgent projeta o ambiente ao longo de quatro dimensões: engenharia de permissões para execução limitada do agente e avaliação isolada; engenharia de artefatos para colaboração baseada em sistema de arquivos e Git; engenharia de orçamento para exploração consciente de orçamento; e engenharia de humano-no-circuito para fácil supervisão e intervenção humana. O EurekAgent estabelece novos resultados de estado da arte em múltiplas tarefas de matemática, engenharia de kernel e aprendizado de máquina, incluindo novos resultados de estado da arte para empacotamento de 26 círculos descobertos com menos de US$ 11 em custo total de API. Disponibilizamos nosso código e resultados como código aberto, e defendemos a engenharia de ambiente como uma direção central de pesquisa para o desenvolvimento de agentes de pesquisa autônomos confiáveis.
O sucesso dos Modelos de Linguagem de Grande Porte no raciocínio matemático depende fortemente da geração de caminhos de solução diversos e válidos durante a fase de gerar trajetórias. No entanto, as técnicas atuais de geração de trajetórias enfrentam uma troca fundamental: a amostragem em nível de token frequentemente produz trajetórias redundantes que diferem apenas na reformulação, enquanto os métodos em nível de embeddings que utilizam ruído aleatório frequentemente rompem a consistência semântica. Para resolver isso, introduzimos o N-GRPO, uma nova estratégia de exploração integrada à estrutura de Otimização de Política Relativa em Grupo (GRPO). Nossa abordagem, em vez de depender de amostragem em nível de token ou de ruído nativo em nível de embeddings, utiliza a Mistura de Vizinhos Semânticos. Esse mecanismo constrói dinamicamente representações de entrada ao misturar os embeddings de um token âncora e seus vizinhos semânticos mais próximos, injetando diversidade enquanto adere estritamente à variedade semântica local. Avaliações experimentais nos modelos DeepSeek-R1-Distill-Qwen de diferentes tamanhos mostram que o N-GRPO não apenas alcança melhorias consistentes em relação a referências robustas em benchmarks de raciocínio matemático, mas também exibe capacidades de generalização robustas em tarefas fora da distribuição.
A cadeia de pensamento latente comprime o raciocínio ao substituir vestígios de raciocínio visíveis por recorrência contínua do estado oculto, mas as formulações existentes são difíceis de otimizar com a aprendizagem por reforço (RL) on-policy padrão e difíceis de interpretar causalmente. Nossa percepção fundamental é que um único par de tokens explícitos de fronteira pode resolver ambas as questões simultaneamente: âncoras discretas de entrada e saída tornam o bloco latente compatível com RL on-policy padrão, e as mesmas âncoras oferecem um ponto de apoio natural para análise mecanicista. Motivados por isso, propomos o SWITCH, uma estrutura de raciocínio latente comutável. O modelo emite <swi> para entrar no modo latente e </swi> para sair. Como as fronteiras são tokens discretos comuns, a razão da política GRPO é bem definida em cada ponto de decisão. As mesmas âncoras também expõem as etapas latentes a sondagens diretas e intervenções causais. Treinamos o modelo com um currículo visível-para-latente e um objetivo Switch-GRPO que propaga gradientes através da computação latente recorrente. O SWITCH supera consistentemente abordagens anteriores de raciocínio latente por recorrência de estado oculto em escalas semelhantes. A análise mecanicista através dos tokens de fronteira revela ainda três descobertas: (i) <swi> é uma política de comutação aprendida e nitidamente localizada, e não um artefato estilístico; (ii) a etapa latente que ele abre realiza uma computação causalmente importante e específica do problema, em vez de atuar como um espaço reservado inerte; e (iii) essa computação está concentrada em uma única transição de estado oculto na entrada. Juntos, esses resultados mostram que o raciocínio latente por recorrência de estado oculto é tanto treinável por RL quanto aberto a análise mecanicista direta, inclusive de como a própria RL on-policy melhora o modelo internamente.
Apresentamos o VideoMDM, uma estrutura baseada em difusão que treina priors de movimento humano 3D diretamente a partir de poses 2D precisas extraídas de vídeos monoculares, sem qualquer dado de referência 3D. Um estimador 2D-para-3D pré-treinado fornece sequências aproximadas de poses 3D que servem como um professor ruidoso: estas são difundidas, desruídas pelo modelo em 3D, e supervisionadas em 2D ao reprojetar a previsão e compará-la com pontos-chave precisos. Mostramos que, sob premissas brandas, uma perda de reprojeção 2D ponderada por profundidade é equivalente em expectativa à supervisão 3D direta, e adaptamos regularizadores padrão de movimento 3D — consistência de velocidade e alinhamento de representação superparametrizada — para este cenário 2D. Ao contrário de métodos que elevam 2D para 3D apenas na inferência, o VideoMDM aprende uma variedade de movimento 3D coerente durante o treinamento. No HumanML3D, ele quase elimina a diferença para o MDM totalmente supervisionado em 3D (FID 0,88 vs 0,54). Nos conjuntos de dados de vídeo reais Fit3D e NBA, o método aprende a gerar movimentos consistentemente preferidos por humanos, com resultados quantitativos robustos.
Apesar de gerarem imagens cada vez mais fotorrealistas, os modelos de texto para imagem (T2I) ainda apresentam falhas localizadas, sutis e estruturalmente complexas. Diagnosticar essas falhas requer feedback em nível de instância que responda onde ocorre um defeito, qual é o seu tipo, por que é defeituoso e sua importância para a qualidade geral da imagem. Embora métodos recentes de feedback denso superem a supervisão escalar, suas representações centradas em mapas de calor ainda formulam o diagnóstico como regressão em campos de pixels, dificultando a localização de defeitos de cardinalidade variável e a vinculação de razões semânticas a falhas individuais. Para resolver esse gargalo de representação, propomos a Fundamentação Estruturada de Defeitos (SDG), que aborda o diagnóstico de T2I como predição de conjuntos estruturados, modelando cada defeito como uma tupla (localização, tipo, razão, importância). Para tornar essa formulação treinável e mensurável, apresentamos o SDG-30K, um conjunto de dados com 30.000 imagens e anotações baseadas em caixas delimitadoras de quatro geradores T2I modernos, juntamente com um protocolo de avaliação dedicado, o SDG-Eval. Com base nessa representação estruturada, apresentamos ainda um framework de diagnóstico para alinhamento no qual um Modelo de Visão e Linguagem (VLM) atua como detector SDG, e o BoxFlow-GRPO converte conjuntos de defeitos previstos em recompensas espaciais ponderadas por importância, derivadas de caixas, para alinhamento de modelos de difusão. Experimentos extensivos mostram que nosso detector SDG supera VLMs proprietários de ponta na fundamentação estruturada de defeitos, enquanto as recompensas guiadas por SDG melhoram consistentemente o alinhamento de T2I e suportam refinamento localizado de imagens. Esses resultados estabelecem o SDG como uma interface unificada em nível de instância para diagnosticar, avaliar e aprimorar modelos generativos modernos.
Apresentamos o MoVerse, um modelo de mundo de vídeo em tempo real que cria uma cena navegável interativamente a partir de uma única imagem com campo de visão estreito. Essa configuração é desafiadora porque a entrada observa apenas uma pequena fração do ambiente, enquanto a navegação interativa requer um mundo circundante completo, geometria persistente, movimento de câmera controlável e observações de alta fidelidade temporalmente coerentes. O MoVerse aborda esse problema separando a construção do mundo da renderização de observações. Primeiro, ele expande a entrada em um panorama de 360° alinhado à gravidade com difusão ciente de topologia, fechando o campo de visão ausente antes do raciocínio 3D. Em seguida, ele eleva o panorama para um arcabouço 3D Gaussiano persistente usando predição residual ciente de geometria panorâmica, produzindo uma memória espacial densa e diretamente renderizável. Finalmente, um renderizador de vídeo condicionado por Gaussianos traduz as renderizações do arcabouço ao longo de trajetórias de câmera especificadas pelo usuário em vídeo fotorrealista. Para tornar este renderizador prático para interação, treinamos um professor de difusão bidirecional para renderização condicional de alta qualidade e o destilamos em um aluno autoregressivo causal para streaming de latência limitada. Este design combina a controlabilidade e a consistência de longo alcance das representações 3D explícitas com a qualidade perceptual dos modelos generativos de vídeo. O MoVerse suporta navegação de cena em tempo real a 8 FPS em uma única GPU NVIDIA RTX 4090, demonstrando um caminho prático para a criação de mundo a partir de uma única imagem com saída de vídeo interativa.
Modelos de linguagem de grande escala estão sendo cada vez mais implantados como agentes para tarefas de longo horizonte, no entanto, seu desempenho é moldado não apenas pela capacidade do modelo e pelo design do ambiente, mas também pelo arnês que media a interação agente-ambiente. Os arneses existentes são em grande parte projetados manualmente, dificultando sua escalabilidade à medida que as trajetórias se tornam mais longas e as interações mais complexas. Neste trabalho, investigamos se o arnês pode ser gerado por um módulo plug-in aprendível, treinável de forma ponta a ponta. Apresentamos o HarnessBridge, um controlador de arnês leve e aprendível que parametriza a interface agente-ambiente como uma projeção bidirecional. O HarnessBridge aprende duas projeções bidirecionais: a projeção de observação, que destila trajetórias brutas em estados compactos e relevantes para a decisão; e a projeção de ação, que converte ações propostas em transições executáveis ou rejeições fundamentadas na trajetória. Treinamos o HarnessBridge em um conjunto de dados de supervisão de arnês por meio de ajuste de instrução unificado. No Terminal-Bench~2.0 e SWE-bench Verified, o HarnessBridge iguala ou supera arneses especializados robustos, ao mesmo tempo que reduz substancialmente o uso de tokens e o comprimento das trajetórias, e generaliza de geradores menores para modelos comerciais maiores.
A destilação de difusão em poucas etapas tornou-se cada vez mais madura para geração em 4 a 8 etapas, contudo, avançar para 2 etapas continua sendo desafiador. Neste trabalho, apresentamos o Z-Image Turbo++, um modelo de geração de imagens em 2 etapas de alta qualidade, destilado do professor Z-Image Turbo de 8 etapas. Nosso método aborda os gargalos centrais do aumento da dificuldade da tarefa e da capacidade limitada do modelo na geração em 2 etapas por meio de três escolhas de design simples, porém eficazes, adaptadas a esse regime. Primeiro, propomos o Aprendizado Adversarial Alinhado por Distribuição, que utiliza imagens geradas pelo professor, em vez de imagens reais externas, como amostras reais para o treinamento GAN, fornecendo um alvo adversarial mais acessível e informativo. Segundo, adotamos a Parametrização Desacoplada por Etapas, atribuindo parâmetros de modelo independentes às duas etapas de remoção de ruído para melhor atender às suas demandas distintas de capacidade. Terceiro, realizamos Treinamento Fim a Fim com Regularização Iterativa, permitindo que a primeira etapa receba gradientes da qualidade final da imagem, ao mesmo tempo que preserva uma geração intermediária significativa por meio de uma perda explícita da etapa 1. Juntos, esses designs reduzem substancialmente a lacuna de qualidade entre a geração em 2 e 8 etapas, tanto em avaliações qualitativas quanto quantitativas, destacando o potencial de estratégias de destilação cuidadosamente adaptadas para melhorar o equilíbrio entre qualidade e eficiência na geração em poucas etapas.
A pesquisa profunda exige que agentes respondam a perguntas complexas por meio de pesquisa na web em múltiplas etapas, navegação, comparação de evidências e síntese. Um desafio central é decidir como pesquisar quando várias direções parecem plausíveis, mas apenas algumas levarão posteriormente a evidências confiáveis. Se um agente segue de forma gulosa a direção aparentemente melhor no momento, pode continuar estendendo uma continuação fraca. Se explora sem disciplina, pode desperdiçar o orçamento em tentativas desconexas. Propomos o TreeSeeker, uma estrutura de tempo de inferência para tentativa e erro controlada em pesquisa profunda. O TreeSeeker organiza a pesquisa como uma busca com ramificação e retorno sobre estados estruturados em árvore, onde cada ramo representa uma direção provisória para um subobjetivo. A cada rodada, o TreeSeeker lê todas as árvores de subobjetivos, identifica objetivos ativos e usa sinais textuais UCB de valor, incerteza e risco para selecionar entre explorar um ramo promissor, explorar uma alternativa incerta ou podar uma continuação improdutiva e retornar a um ponto de ramificação anterior. O TreeMem apoia esse loop de controle ao manter evidências, incerteza, conflitos, progresso e indícios de falha vinculados aos ramos que os produziram, de modo que os resultados das tentativas possam orientar decisões posteriores. Experimentos no XBench-DeepSearch, BrowseComp e BrowseComp-ZH mostram que o TreeSeeker supera consistentemente linhas de base robustas de código aberto, sugerindo que o controle explícito de ramificação e retorno complementa um raciocínio e execução de ferramentas mais fortes.
Avaliações de robustez adversarial de grandes modelos de linguagem (LLMs) normalmente relatam a taxa de sucesso do ataque (ASR) sob orçamentos fixos de consultas, tratando implicitamente todos os ataques como igualmente custosos. Na prática, o custo computacional de diferentes estratégias de ataque pode variar por ordens de grandeza. Consequentemente, a ASR em um orçamento fixo pode obscurecer o esforço real necessário para quebrar as restrições de um modelo, dificultando a determinação de se o custo de um ataque justifica seu retorno para o atacante. Propomos uma estrutura de avaliação ciente de computação baseada em pressão computacional, medida em operações de ponto flutuante acumuladas (FLOPs), como uma proxy para o esforço adversarial. Introduzimos curvas de risco-computação, que mapeiam orçamentos computacionais para risco de ataque, e derivamos duas métricas que resumem a pressão média necessária para um determinado ataque ter sucesso. Em dez modelos abrangendo três famílias e quatro estágios diferentes no treinamento e alinhamento de modelos de linguagem, avaliados com três estratégias de ataque (baseado em gradiente, refinamento iterativo e baseado em templates) em dois benchmarks de robustez de jailbreak, descobrimos: (1) o treinamento de alinhamento tem efeitos não monotônicos na robustez em espaço computacional; (2) aumentar o tamanho do modelo reduz a eficácia de ataques baseados em gradiente, mas tem impacto limitado em ataques baseados em templates mais baratos; (3) ataques baseados em gradiente otimizados em um modelo substituto podem transferir para um modelo alvo separado, fornecendo uma maneira de reduzir os custos do atacante; (4) o custo computacional varia em até {approx}5× entre categorias de dano dentro de um único modelo; e (5) o RL alinhado à segurança aumenta o custo agregado, enquanto deixa algumas categorias desproporcionalmente acessíveis. Disponibilizamos nossa estrutura para permitir avaliação e análise de risco ciente de computação.
O raciocínio visual requer a integração de evidências distribuídas entre regiões, atributos e relações, tornando o raciocínio em cadeia única propenso a comprometimento perceptual precoce e alucinação. Propomos o Visual Para-Thinker++, uma estrutura multiagente de política única na qual uma política MLLM compartilhada é instanciada como Agentes Principal, Trabalhador e Resumidor condicionados a papéis. O Agente Principal decompõe a tarefa com padrões de alocação fixos; os Agentes Trabalhadores raciocinam em paralelo sob isolamento de contexto; e o Agente Resumidor reconcilia os traços completos de raciocínio dos Trabalhadores, em vez de votação majoritária sobre rótulos finais. A política compartilhada é treinada por Injeção de Capacidade Multiagente e Otimização Multiagente Desacoplada por Papéis, que atribuem recompensas e vantagens específicas de papel a segmentos de token correspondentes para reduzir conflitos de gradiente entre papéis colaborativos. Um mecanismo de inferência nativo permite uma implantação multiagente eficiente por meio de prefixo visual compartilhado e reutilização de cache KV. Em V*, CountBench, a família RefCOCO e HallusionBench, o Visual Para-Thinker++ supera consistentemente as linhas de base de trajetória única e paralelas em tempo de inferência, com ganhos especialmente fortes em raciocínio visual sensível a alucinações.
Antecipar tendências comportamentais de LLMs a partir de sondas psicométricas de baixo custo é crucial para uma implantação segura, mas apenas se os autorrelatos (SR) preverem comportamento de forma confiável. Trabalhos recentes documentaram dissociação substancial entre SR e comportamento em LLMs, mas basearam-se em traços amplos de personalidade (Big Five) que preveem comportamentos específicos de forma fraca, até mesmo em humanos. Além disso, o isolamento das sessões conversacionais combinado com um fraco alinhamento de contexto deixou em aberto se os LLMs realmente carecem de coerência ou se as condições necessárias para detectar tal coerência não foram atendidas. Comparamos o Big Five com a Teoria do Comportamento Planejado (TPB), que mede a intenção direcionada a um comportamento específico e prevê o comportamento humano substancialmente melhor do que traços amplos. Realizamos experimentos em quatro tarefas comportamentais e 11 LLMs de fronteira, variando também o contexto da sessão e a indução de identidade. Constatamos que a coerência entre SR e comportamento existe, mas é seletiva. 1) Dentro de uma mesma conversa, a Teoria do Comportamento Planejado atinge coerência em nível humano; o Big Five não. 2) Entre conversas separadas, a coerência sobrevive apenas para comportamentos ancorados fora do prompt imediato, como viés implícito moldado pelo treinamento, e colapsa quando o comportamento é fortemente influenciado pelo contexto, como no caso da adulação. 3) O prompt de persona torna os autorrelatos mais consistentes entre as conversas, mas não alinha o comportamento. Esses achados sugerem que frameworks amplos de personalidade, como o Big Five, podem não ser as melhores ferramentas para testar o comportamento durante a implantação. São necessários instrumentos mais específicos para tarefas e comportamentos, e mesmo estes devem ser avaliados em diferentes tarefas e contextos.
A destilação on-policy (OPD) treina um aluno em suas próprias trajetórias com supervisão densa por token de um professor mais forte, e frequentemente supera a destilação off-policy e o aprendizado por reforço padrão. No entanto, descobrimos que sua eficácia depende implicitamente de duas suposições que frequentemente falham na prática: alinhamento em nível de trajetória entre o aluno e o professor, e confiabilidade uniforme em nível de token das preferências do professor. Portanto, propomos a Destilação On-Policy com Portão de Sinal (SG-OPD), que utiliza um verificador binário como sinal de confiança para o professor em duas granularidades complementares: amostragem faseada do professor que incorpora rolagens do professor endossadas pelo verificador no início frio, e um portão de consistência de sinal que extrapola a atualização de destilação em tokens onde o professor concorda com a direção corrigida pelo verificador e a interpola onde discorda. Experimentos em benchmarks de raciocínio matemático em nível de competição mostram que o SG-OPD supera consistentemente o OPD padrão, com ganhos médios de 1,98 e 7,50 nos níveis por amostra e por questão, respectivamente.
Modelos de linguagem compactos reduzem custo, latência e risco de implantação para agentes de ferramentas. No entanto, o uso de ferramentas no estilo MCP exige mais do que chamadas de função isoladas: um agente deve descobrir ferramentas a partir de catálogos ativos, satisfazer esquemas, preservar dependências entre saídas intermediárias e fundamentar respostas finais em evidências executadas. Planejadores pequenos frequentemente geram grafos de workflow plausíveis que falham na resolução de ferramentas, validação de parâmetros, rastreamento de dependências ou execução. Argumentamos que esse modo de falha é mal tratado pela destilação em corpus pequeno. Algumas centenas de rastros do professor podem ensinar o formato do workflow, mas raramente cobrem o comportamento de recuperação necessário para reparar planos falhos em catálogos de ferramentas em mudança. Apresentamos o Evoflux, um método de busca evolutiva em tempo de inferência que trata o uso compacto de ferramentas como reparo de workflows de ferramentas executáveis. Ele evolui grafos de workflow tipados por meio de edições estruturadas, feedback de execução, intensidade adaptativa, redesign guiado por meta e poda de diversidade. Em tarefas retidas do MCP-Bench, abrangendo servidores MCP ativos e 250 ferramentas, o Evoflux eleva a viabilidade de execução de aproximadamente 3% para 17-24% em planejadores pequenos. Em contraste, SFT e SFT+DPO sobre os mesmos dados minerados por busca igualam, têm desempenho inferior ou colapsam abaixo do desempenho zero-shot; o ReAct atinge picos mais altos, mas com maior variância e custo de tokens. Esses resultados mostram que a busca fundamentada em execução é mais confiável sob orçamentos escassos de rastros do professor.
Agentes LLM interativos estão se tornando parte do trabalho diário, mas não se tornam, de forma confiável, mais fáceis de usar ao longo do tempo: uma correção lembrada em uma sessão pode ainda ser violada na próxima. Estudamos essa lacuna entre o acesso à preferência e a conformidade com a preferência. Em tarefas derivadas de casos anonimizados de atritos de usuários reais, a memória Mem0 ainda deixa 57,5% das verificações de preferência aplicáveis violadas. Apresentamos a Aquisição de Regras e Aplicação Compilada em Tempo de Teste (TRACE, na sigla em inglês), um pipeline de camada de habilidades plug-and-play para ambientes de execução de agentes de codificação que extrai correções do usuário, as reescreve como regras atômicas e as compila em verificações de tempo de execução que devem ser aprovadas antes que um agente conclua tarefas futuras. Diferentemente das verificações de tempo de execução escritas antecipadamente por desenvolvedores, as habilidades TRACE vêm das próprias correções do usuário em chat. Avaliamos o TRACE com experimentos simulados de usuário no circuito em tarefas de agente de codificação ClawArena e tarefas intensivas em memória derivadas do MemoryArena. No ClawArena, o TRACE reduz a violação de preferência retida de 100,0% para 37,6% em tarefas dentro da distribuição e de 100,0% para 2,0% em tarefas fora da distribuição. Em tarefas derivadas do MemoryArena, o TRACE reduz a violação dentro da distribuição de 100,0% para 60,5%, ao mesmo tempo que iguala ou supera a linha de base de memória mais forte no passe de tarefa. Esses resultados sugerem que compilar correções em aplicação em tempo de execução pode abordar um modo de falha de atrito repetido que apenas a memória não resolve de forma confiável, reduzindo a necessidade de os usuários reafirmarem a mesma correção em sessões futuras. O código do experimento está disponível em https://github.com/YujunZhou/TRACE_exp, e a habilidade implantável está disponível em https://github.com/YujunZhou/tellonce.
Agentes de busca — modelos de linguagem de grande escala aumentados com ferramentas de busca — intensificaram a necessidade de benchmarks de avaliação à prova do futuro. Benchmarks existentes, como o BrowseComp, dependem de conhecimento estático, tornando-os vulneráveis à contaminação do conjunto de teste e à memorização paramétrica. Consequentemente, os modelos podem alcançar altas pontuações por meio de recuperação factual em vez de busca genuína, obscurecendo a verdadeira competência de navegação através de atalhos de raciocínio. Neste artigo, apresentamos o EvoBrowseComp, um benchmark evolutivo composto por 400 questões complexas em inglês e 400 em chinês, livres de contaminação, sintetizadas via navegação na web ao vivo. Para coletar essas questões, projetamos um framework colaborativo de três agentes: (1) um agente de síntese de QA que recupera conhecimento atualizado da web ao vivo para sintetizar pares de pergunta e resposta; (2) um agente de filtragem de informações que filtra o conhecimento recuperado quanto à credibilidade e popularidade para bloquear atalhos paramétricos; e (3) um agente de orientação de alto nível que formaliza as questões em grafos de raciocínio para reduzir a redundância lógica e atalhos nos pares de QA sintetizados. Como o framework suporta síntese totalmente automatizada, o EvoBrowseComp pode ser atualizado regularmente para prevenir contaminação de dados e manter a atualidade temporal. Experimentos extensivos confirmam sua grande dificuldade, exigindo ampla busca horizontal. Ele estabelece um paradigma escalável para benchmarking auto-atualizável e de alta dificuldade que acompanha tanto a evolução do conhecimento mundial quanto o avanço das capacidades dos agentes.
A geometria é invariante em relação ao ponto de vista, o que faz de qualquer coleção de imagens uma codificação redundante de um único estado 3D. Os modelos existentes de reconstrução feed-forward não exploram isso: métodos por vista emitem mapas de pontos sobrepostos e desalinhados que crescem linearmente com o número de entradas, enquanto métodos de latente global se comprometem com uma saída fixa e de baixa resolução. Apresentamos o Surflo, que comprime um número variável de vistas RGB não posicionadas em K tokens latentes — um único estado global — e decodifica pontos de superfície 3D orientados, transportando-os independentemente do ruído para a superfície via correspondência de fluxo (flow matching). Isso libera a saída de qualquer grade fixa ou orçamento de tokens: o mesmo latente produz desde alguns milhares até um milhão de pontos em uma única passagem direta. Para suprimir as inconsistências locais inerentes à decodificação independente ponto a ponto, um termo de orientação em tempo de inferência correlaciona pontos próximos injetando um gradiente fotométrico durante a integração da EDO. O Surflo iguala ou supera as linhas de base feed-forward em métricas de superfície, é uma ordem de grandeza mais rápido que métodos baseados em otimização que exigem centenas de vistas, e é a única abordagem feed-forward que combina um latente global com decodificação de resolução arbitrária.
Apresentamos o Flash-GMM, um kernel Triton fundido para o cálculo eficiente de Modelos de Misturas Gaussianas (GMMs) em dados de grande escala em uma única passagem pela GPU. Ao eliminar a necessidade de materializar a matriz completa de responsabilidades na memória da GPU, o Flash-GMM atinge uma aceleração de 20 vezes em relação às implementações existentes e permite o treinamento em conjuntos de dados mais de 100 vezes maiores do que anteriormente viável em um único dispositivo. Para demonstrar seu impacto, integramos o Flash-GMM ao quantizador grosseiro IVF para busca aproximada de vizinhos mais próximos (ANN). Mostramos que o agrupamento suave por GMM é agora uma substituição direta viável para o k-means, e que as responsabilidades do GMM podem ser aproveitadas para atribuir vetores de fronteira a múltiplos clusters. Nossa abordagem atinge alvos fixos de recall com até 1,7 vezes menos cálculos de distância, ou, equivalentemente, produz +2–12 recall@10 com custo computacional equivalente. Disponibilizamos o kernel como um projeto de código aberto.
O alinhamento de representações com modelos de visão pré-treinados tem demonstrado recentemente um forte potencial para acelerar o treinamento de transformers de difusão. Ao alinhar características intermediárias de difusão com representações de imagens limpas provenientes de codificadores visuais auto-supervisionados, métodos existentes melhoram a convergência e a qualidade da geração. No entanto, tal alinhamento também introduz uma restrição significativa: modelos de difusão operam sobre entradas ruidosas, cuja informação utilizável varia ao longo dos passos de tempo, enquanto as características de referência são extraídas de imagens limpas. Neste artigo, revisitamos essa incompatibilidade sob uma perspectiva de nível de token. Descobrimos que, sob o alinhamento de representações de tokens completos, tokens com grandes normas de gradiente de alinhamento exibem uma preferência espacial estável, sugerindo que o objetivo de alinhamento não afeta todos os tokens de maneira uniforme e pode incentivar o modelo a depender do conjunto completo de tokens de imagens limpas. Para abordar esse problema, propomos o MaskAlign, um método de alinhamento de representações por subconjuntos de tokens que aplica o alinhamento a subconjuntos de tokens amostrados aleatoriamente durante o treinamento. Ao expor o modelo a diferentes subconjuntos de tokens ao longo das iterações, o MaskAlign reduz a dependência do alinhamento de representações em relação ao conjunto completo de tokens e incentiva um comportamento de alinhamento mais estável sob perturbações de subconjuntos de tokens. Para mitigar a perda de informação causada pelo descarte direto de tokens, introduzimos ainda um bloco leve de mistura de tokens pré-máscara que compartilha informações entre tokens antes da mascaramento.
Simuladores robóticos são uma pedra angular da pesquisa moderna em robótica aérea, servindo tanto como veículo para o desenvolvimento de novos algoritmos de controle quanto como fonte de dados para treinamento de políticas de aprendizado por reforço (AR). No entanto, os ambientes de aprendizado para quadricópteros existentes frequentemente enfrentam um trade-off entre fidelidade física, suporte a múltiplos agentes e a taxa de transferência exigida por pipelines modernos de AR profundo. Neste artigo, apresentamos o MuJoCo-Drones-Gym, um ambiente multi-drone de código aberto compatível com Gymnasium, construído sobre o motor de física MuJoCo. O MuJoCo-Drones-Gym suporta um número arbitrário de nano-quadricópteros Bitcraze Crazyflie 2.x e expõe uma API modular para selecionar (i) o modelo físico (MuJoCo de corpo rígido, dinâmica Python explícita, ou qualquer subconjunto de efeito solo, arrasto das pás e downwash entre drones), (ii) a interface de ação (RPMs por motor, empuxo normalizado coletivo, setpoints de velocidade ou comandos de waypoint PID), e (iii) o espaço de observação (vetores de estado cinemático, câmeras RGB/profundidade/segmentação, ou informações de adjacência de vizinhança). Um wrapper PettingZoo ParallelEnv possibilita o aprendizado por reforço multiagente direto, enquanto um conjunto de sete ambientes de tarefa — pairar, rastreamento de velocidade, pairar com múltiplos drones, navegação por waypoints, voo em formação, corrida de gates e um template multiagente genérico — demonstra a amplitude da interface. Descrevemos o design do ambiente, a física subjacente e a dinâmica dos quadricópteros, e ilustramos seu uso por meio de exemplos de controle e aprendizado que espelham os do projeto relacionado gym-pybullet-drones, enquanto aproveitamos o tratamento de contato, renderização e paralelização aprimorados do MuJoCo.
Sistemas multiagente comunicam-se principalmente por texto, arcando com um custo de decodificação e recodificação que envolve perdas e é computacionalmente caro. A comunicação por cache KV é uma alternativa promissora, porém a maioria dos trabalhos anteriores é homogênea, utilizando cópias duplicadas do mesmo modelo, e evita o desafio central do alinhamento latente entre modelos; métodos heterogêneos existentes também são restritivos, normalmente assumindo entrada compartilhada e usando caches transferidos principalmente para direcionamento. Estudamos uma questão mais fundamental: agentes heterogêneos podem ser alinhados suficientemente bem para realizar uma verdadeira "leitura mental" e transferir tanto o que um agente vê quanto como ele pensa? Nossa análise de estrutura informacional revela uma dualidade: a transferência ciente do contexto é orientada por sinais de raciocínio esparsos, enquanto a transferência não ciente do contexto, onde o receptor não vê entrada alguma, requer preservação densa do conhecimento contextual. Motivados por isso, propomos alinhamento denso para comunicação heterogênea de cache KV por meio de uma transformação de cache leve entre modelos e treinamento em duas fases: reconstrução seguida de geração. Em todas as seis direções de {Qwen3-4B, 8B, 14B} e seis benchmarks dentro e fora do domínio, nosso método supera as linhas de base heterogêneas anteriores, iguala ou excede a comunicação por texto em configurações cientes do contexto com aproximadamente 2 a 3 vezes menos custo computacional, e permanece eficaz na transferência não ciente do contexto, onde métodos anteriores colapsam.
Os impactos potenciais dos modelos de mundo (WMs, ou seja, simuladores aprendidos) na robótica são de grande alcance — avaliação de políticas, melhoria de políticas e planejamento em tempo de teste — tudo isso com interação limitada com o mundo real. Para desbloquear essas capacidades downstream, um WM precisa atender conjuntamente a três requisitos: (i) fidelidade (isto é, produzir trajetórias simuladas que se correlacionam com a realidade), (ii) consistência (isto é, produzir trajetórias simuladas que sejam coerentes ao longo de horizontes longos) e (iii) eficiência (isto é, produzir trajetórias simuladas rapidamente). Propomos o WEAVER (Estimação Mundial Através de Vistas para Raciocínio Corporificado): uma arquitetura de WM que atinge simultaneamente todos os três requisitos, fornecendo resultados de última geração em tarefas de manipulação robótica. O WEAVER é um WM multivistas treinado para prever latentes futuros e valores de recompensa por meio de uma perda de correspondência de fluxo (flow-matching loss). Destilamos as principais decisões de projeto relativas à arquitetura do modelo, memória e objetivos de previsão necessárias para desbloquear os tipos de tarefas de manipulação dinâmica de longo horizonte que têm desafiado abordagens anteriores de modelagem de mundo. Aplicamos o WEAVER em hardware robótico, demonstrando sua eficácia na avaliação de políticas (ρ=0,870 de correlação com a taxa de sucesso no mundo real), melhoria de políticas (aumento de 38% na taxa de sucesso no mundo real em relação ao modelo robótico fundamental π_{0.5}) e planejamento em tempo de teste (aumento de 14% na taxa de sucesso no mundo real com uma aceleração de 5 a 10 vezes em relação a WMs anteriores). O WEAVER também demonstra desempenho superior em comparação com WMs anteriores quando avaliado em cenários fora da distribuição. Código, modelos e vídeos em: https://arnavkj1995.github.io/WEAVER/ .
A navegação autônoma na web continua desafiadora para agentes de LLM, e os sistemas generalistas mais fortes dependem de modelos de raciocínio proprietários cujo custo de inferência é proibitivo para as tarefas repetitivas onde tais agentes seriam mais úteis. Argumentamos que essa lacuna não decorre de capacidade insuficiente do modelo, mas de arquiteturas de agente que falham em replicar três vantagens cognitivas humanas: atenção seletiva a regiões relevantes da página, memória persistente da estrutura do site e fluência procedural em padrões comuns de interação. Apresentamos o WebChallenger, um framework de agente web que aborda cada lacuna por meio do design da arquitetura, e não da escala do modelo, construído em torno do PageMem: uma representação de página estruturada construída deterministicamente a partir do DOM que expõe cada página como uma hierarquia de seções semânticas com resumos curtos. Nesse substrato compartilhado, construímos três mecanismos que espelham as três vantagens cognitivas: um pipeline de observação do tipo dividir e conquistar que permite ao agente examinar resumos de seções e extrair detalhes apenas de regiões relevantes para a tarefa; um sistema leve de exploração e memória que percorre cada site uma vez para construir um mapa reutilizável de páginas e comportamentos de elementos; e fluxos de trabalho de ações compostas que condensam interações comuns de múltiplas etapas em ações únicas do agente, lidando automaticamente com mudanças parciais de estado. Como todos os três operam sobre o PageMem, o framework generaliza entre sites sem adaptadores específicos. Usando modelos de peso aberto prontos para uso sem ajuste fino, nosso sistema alcança 56,3% no WebArena, 48,7% no VisualWebArena, 51,0% no Online-Mind2Web e 70,9% no WorkArena, aproximando-se de sistemas proprietários de ponta por uma fração do custo. Nosso código está disponível em https://github.com/jayoohwang1/webchallenger.
Construídos sobre modelos de base de visão (VFMs) pré-treinados, os autoencoders de representação (RAEs) emergiram recentemente como uma abordagem promissora para a construção de espaços latentes semanticamente ricos para geração de imagens. No entanto, sua qualidade de reconstrução frequentemente permanece abaixo do ideal, em grande parte porque as representações profundas dos VFMs não preservam detalhes visuais suficientemente refinados. Essa limitação torna-se ainda mais severa após a discretização, onde informações perdidas de baixo nível são difíceis de recuperar. De fato, observamos que as características rasas dos VFMs retêm consideravelmente mais detalhes locais de aparência e estrutura, o que complementa a semântica de alto nível transportada pelas características profundas usadas nos RAEs existentes. Motivados por essa propriedade complementar, propomos o Ideal, uma estrutura de Alinhamento Profundo para autoencoding de representação discreta. Ao alinhar conjuntamente tokens quantizados com características rasas e profundas dos VFMs, o Ideal permite que os tokens visuais discretos resultantes preservem tanto a fidelidade visual quanto a semântica rica. Experimentos extensos demonstram que o Ideal produz desempenho de reconstrução superior, alcançando 0,61 rFID no ImageNet e superando o melhor método anterior em 0,28. Quando usado para geração de imagens autorregressiva, o Ideal produz ainda um gFID de 1,89, estabelecendo um novo estado da arte para geração de imagens autorregressiva.
Modelos de Linguagem de Grande Escala Multimodais (MLLMs) têm demonstrado capacidades promissoras de raciocínio em domínios gerais, mas seu desempenho ainda é limitado em contextos especializados, como a área da saúde, especialmente em cenários multilíngues e de baixos recursos. Essa lacuna é crítica em regiões como a Índia rural, onde pacientes frequentemente expressam consultas médicas complexas em línguas indianas nativas e dependem de entradas multimodais, como imagens médicas. Os MLLMs existentes, centrados no inglês, têm dificuldade em apoiar tais casos de uso, limitando o acesso equitativo à assistência médica baseada em IA. Para enfrentar esse desafio, apresentamos o ArogyaBodha, um conjunto de dados multilíngue e multimodal de perguntas e respostas médicas em larga escala, construído a partir de oito fontes heterogêneas, abrangendo 31 sistemas corporais, seis modalidades de imagem e 21 domínios clínicos, em inglês e sete línguas indianas principais. Propomos ainda o ArogyaSutra, um framework multiagente baseado em ator-crítico que integra fundamentação de ferramentas com mecanismos de memória dupla para tomada de decisão passo a passo consciente do raciocínio, e utiliza trajetórias de simulação ator-crítico armazenadas para destilação. Experimentos mostram que nosso conjunto de dados e framework melhoram a precisão do raciocínio médico multilíngue em todas as línguas indianas, com ablações validando a contribuição de cada componente. O código-fonte e o conjunto de dados estão disponíveis em: https://iitp-cse.github.io/ArogyaSutra/
Estamos rodeados por diversos objetos com partes móveis e articuladas, como caixas, alças e portas. Uma percepção precisa e generalizável de partes articuladas é essencial para aprimorar as capacidades de manipulação robótica. Com base nessa necessidade, esforços recentes na percepção de partes articuladas seguiram duas direções principais: uma linha de trabalho utiliza representação baseada em pose, que exige alto custo manual; em paralelo, métodos baseados em affordances extraem o movimento futuro de objetos a partir do rastreamento de pontos, sem esforços manuais adicionais, mas sofrem com dados de baixa qualidade. Neste artigo, propomos uma nova representação de partes articuladas, a Estrutura Geométrica Primária (GPS), uma abstração da estrutura geométrica das partes que equilibra escalabilidade e qualidade. Para uma coleta de dados eficiente e escalável, o GPS é integrado a um dispositivo portátil de Realidade Virtual (RV) e requer apenas um minuto para anotar uma sequência de objetos. Essa anotação humana direta oferece maior qualidade do que as affordances estimadas. Com esse sistema eficiente VR-GPS, coletamos 41 mil quadros de 234 objetos em seis classes de partes e treinamos um modelo GPS generalizável com uma única imagem RGB-D do objeto como entrada. Para a manipulação de objetos, empregamos uma política heurística baseada na predição do GPS. Sem qualquer ajuste fino no domínio, nosso método alcança uma taxa de sucesso de 73%, abrangendo 270 estados iniciais para 9 objetos. Nosso código, dados e ferramenta reutilizável estão disponíveis em https://enlighten0707.github.io/gps.
Agentes LLM com chamada de ferramentas são igualmente seguros ao longo de uma conversa? Descobrimos que não: os agentes são mais vulneráveis no início de uma sessão e tornam-se substancialmente mais seguros após algumas tarefas agênticas regulares — um fenômeno que denominamos lacuna de segurança de início frio. Para estudar isso sistematicamente, apresentamos o SODA (Safety Over Depth for Agents), um benchmark que controla quantas tarefas agênticas regulares o agente completa antes de encontrar uma ameaça à segurança, suportando até 20 tarefas anteriores. Avaliando 7 modelos de 4 famílias, a segurança melhora entre 9% e 52% à medida que o número de tarefas agênticas regulares anteriores aumenta de zero para vinte. A análise de representações confirma que os estados ocultos do modelo gradualmente se deslocam para uma região alinhada à segurança à medida que mais tarefas anteriores estão presentes. Ao estudar sistematicamente qual parte da conversa anterior é mais relevante, descobrimos que as próprias tarefas agênticas regulares são o principal impulsionador da segurança, enquanto as respostas anteriores do próprio agente têm efeito menor na segurança, mas são essenciais para preservar a utilidade posterior. Essa conclusão é corroborada por avaliações em benchmarks de segurança de código aberto (AgentHarm, Agent Safety Bench) e benchmarks de utilidade (BFCL, API-Bank), confirmando que aquecer o agente com tarefas agênticas regulares antes da implantação o torna mais seguro e preserva toda a sua capacidade. Com base nesses achados, recomendamos uma estratégia simples de implantação: fazer o agente completar algumas tarefas agênticas regulares antes da possível exposição a solicitações críticas de segurança mitiga a lacuna de segurança de início frio. Nosso código está disponível em https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.
Modelos de linguagem amplos implantados como agentes sobre catálogos extensos de ferramentas enfrentam um gargalo crítico na recuperação de ferramentas. Como as abordagens de recuperação baseadas em embeddings dependem de codificadores compactos que podem subestimar a semântica especializada das ferramentas, a recuperação paramétrica de ferramentas aborda isso codificando cada ferramenta como um token virtual anexado ao vocabulário do LLM, ajustado em dois estágios (memorização e depois SFT de recuperação) para usar o LLM como um recuperador, alcançando desempenho forte nos benchmarks padrão de recuperação do ToolBench. No entanto, esses benchmarks utilizam consultas verbosas e totalmente especificadas, e sua avaliação aplica decodificação restrita que limita as saídas a caminhos de token válidos, o que não revela se o modelo realmente compreende suas ferramentas. Apresentamos o ToolSense, uma estrutura de diagnóstico baseada em LLM de código aberto que aceita qualquer catálogo de ferramentas como entrada e gera automaticamente três benchmarks: um Benchmark de Recuperação Realista (RRB) com consultas em três níveis de ambuiguidade, um benchmark de sondagem MCQ e um benchmark de sondagem QA. A aplicação do ToolSense ao ToolBench (~47 mil ferramentas) e a avaliação de cinco configurações de treinamento de modelo paramétrico revelam uma dissociação conhecimento-recuperação: em consultas RRB, várias configurações colapsam em ~50-64 pontos percentuais em comparação com os benchmarks totalmente especificados do ToolBench, ficando abaixo da linha de base do modelo de embeddings. Além disso, apesar do forte desempenho em recuperação, alguns modelos pontuam quase aleatoriamente em sondagens factuais, sugerindo uma dissociação conhecimento-recuperação. Disponibilizamos o framework ToolSense e os benchmarks de diagnóstico do ToolBench como código aberto em https://github.com/SAP/toolsense.
A renderização expressiva de performance (EPR) tem como objetivo gerar performances realistas condicionadas a sequências de notas. No entanto, modelos de edição de áudio baseados em correspondência de fluxo manipulam apenas amostras musicais sincronizadas de mesma duração, limitando sua compreensão do tempo expressivo. Apresentamos o PianoKontext, um modelo de renderização por correspondência de fluxo para música clássica de piano que gera performances de duração variável no espaço latente de um modelo Music2Latent pré-treinado. Sintetizamos partituras MIDI em áudio inexpressivo e empregamos o Dynamic Time Warping (DTW) no espaço latente para construir dados pareados para treinamento. As incorporações alinhadas são concatenadas em blocos DiT, permitindo um aprendizado simples e eficaz das dependências entre a partitura e as performances. Amostras de áudio estão disponíveis em nossa página de demonstração: https://realfolkcode.github.io/pianokontext_demo/.
Os avanços no reconhecimento de texto manuscrito têm permitido a transcrição em larga escala de documentos históricos, mas ainda oferecem acesso limitado a medidas visuais interpretáveis para a paleografia, o estudo de escritas históricas. Neste artigo, nossa principal percepção é que a análise morfológica da escrita, em particular a capacidade de aprender protótipos de caracteres a partir de transcrições em nível de linha, permite a definição de medidas paleográficas escaláveis, significativas e estáveis. Mais precisamente, utilizamos uma arquitetura de detecção baseada em transformer juntamente com um módulo de reconstrução de linha baseado em protótipos para aprender caracteres prototípicos e sua ocorrência, deformação e posicionamento. Nossas contribuições são duplas. Primeiro, introduzimos uma arquitetura profunda e metodologia de aprendizado que possibilita a modelagem eficiente de caracteres com apenas supervisão de transcrição em nível de linha, melhorando significativamente em relação à linha de base Learnable Typewriter e permitindo a predição precisa de caixas delimitadoras de caracteres, desbloqueando seu potencial para medidas paleográficas. Segundo, introduzimos e demonstramos a relevância paleográfica de medidas automáticas possibilitadas por nossa arquitetura para caracteres, bigramas e espaços entre unidades gráficas. Para esta demonstração, estendemos as anotações do códice Paris, BnF, fr. 2813, encomendado no final do século XIV por Carlos V e copiado por quatro escribas, para 160 páginas. Visualizamos nossas medidas nessas páginas, mostrando como elas nos permitem não apenas diferenciar perfis gráficos, mas também descobrir e analisar variações sutis. Este estudo de caso delineia a escalabilidade de nossa abordagem e sua frugalidade em termos de dados de treinamento necessários, já que uma única coluna de texto é suficiente para calcular nossas medidas em cada uma das 160 páginas. Os dados e o código estão disponíveis publicamente em: https://malamatenia.github.io/morphology4metrology-analysis.
A aprendizagem de representações compatíveis visa aprender representações de características que possam ser intercambiadas ao longo do tempo sempre que um modelo sofrer atualizações. Neste artigo, demonstramos que representações estacionárias aprendidas por classificadores fixos d-Simplex implicam compatibilidade conforme sua definição formal. Esse resultado estabelece uma base para trabalhos futuros e pode ser diretamente explorado em cenários práticos de aprendizado. Abordamos o desafio de aprender compatibilidade usando classificadores fixos d-Simplex quando o modelo é ajustado finamente de forma sequencial. Aprender de acordo com um classificador fixo d-Simplex com a perda de entropia cruzada alinha as distribuições de características nas estatísticas de primeira ordem. Consequentemente, pode não capturar totalmente as dependências de ordem superior na representação entre atualizações do modelo. Para resolver esse problema, demonstramos que treinar o modelo usando um classificador fixo d-Simplex por meio de uma combinação convexa da perda de entropia cruzada e de uma perda contrastiva não apenas captura dependências de ordem superior, mas também equivale a aprender com a entropia cruzada sob as restrições de compatibilidade. Confirmamos nossas descobertas com experimentos extensos, considerando também um novo cenário em que um modelo pré-treinado é ajustado finamente de forma sequencial e ocasionalmente substituído por um modelo melhorado. Mostramos que representações estacionárias permitem serviços de recuperação ininterruptos (sem reprocessar imagens da galeria) enquanto melhoram o desempenho durante atualizações e substituições de modelos, alcançando o estado da arte. Código em https://github.com/miccunifi/iamcl2r.
Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais utilizados para anotação zero-shot e tarefas de "LLM como juiz", mas sua confiabilidade depende de como os priores internalizados pelo modelo interagem com as instruções fornecidas pelo usuário. Investigamos três dimensões dessa interação: (1) como a familiaridade de um LLM com dados e definições de tarefas afeta seu desempenho, (2) até que ponto informações adicionais em prompts podem corrigir erros zero-shot ("aderência decisória"), e (3) a suscetibilidade do modelo a definições de tarefas desalinhadas. Por meio de experimentos em detecção de toxicidade em diversos conjuntos de dados (abrangendo mídias sociais, jogos, notícias e fóruns), utilizando tanto modelos densos quanto modelos de mistura de especialistas, descobrimos que quase dois terços dos erros zero-shot são resistentes à correção, com uma taxa geral de resgate (fração de erros iniciais corrigidos por meio de prompting) de apenas 34,8%. Erros de alta confiança mostraram-se especialmente resistentes à correção. Quando recebem definições desalinhadas, os LLMs as seguem, mantendo níveis de confiança inalterados em relação à condição alinhada. Crucialmente, introduzimos a Familiaridade Específica da Definição (DSF, do inglês *Definition-Specific Familiarity*), que mede o alinhamento entre o conceito interno do modelo e a definição da tarefa. Após controlar fatores de confusão ao nível do conjunto de dados, a DSF mostra uma associação positiva com o desempenho do modelo (r parcial = +0,41), enquanto três métricas distintas de memorização (ROUGE-L, BERTScore e similaridade de cosseno de embeddings) falham em apresentar associação positiva. Esses resultados evidenciam as limitações da correção baseada em prompts em tarefas de anotação, destacando a importância do alinhamento das definições em detrimento da memorização no nível textual.