Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem Grande Multimodais (MLLMs) avançaram significativamente a compreensão de documentos, no entanto, as avaliações atuais de Doc-VQA pontuam apenas a resposta final e deixam a evidência de suporte sem verificação. Essa abordagem centrada apenas na resposta mascara um modo crítico de falha: um modelo pode chegar à resposta correta enquanto a fundamenta na passagem errada – um risco crítico em domínios de alto risco como direito, finanças e medicina, onde cada conclusão deve ser rastreável a uma região de origem específica. Para abordar isso, apresentamos o CiteVQA, um benchmark que exige que os modelos retornem citações em caixas delimitadoras no nível de elemento juntamente com cada resposta, avaliando ambos conjuntamente. O CiteVQA compreende 1.897 perguntas em 711 PDFs abrangendo sete domínios e dois idiomas, com média de 40,6 páginas por documento. Para garantir fidelidade e escalabilidade, as citações de referência (ground-truth) são geradas por um pipeline automatizado – que identifica evidências cruciais por meio de ablação por mascaramento – e posteriormente validadas por revisão de especialistas. No centro da nossa avaliação está a Acurácia Atribuída Estrita (SAA), que credita uma previsão apenas quando a resposta e a região citada estão ambas corretas. A auditoria de 20 MLLMs revela uma Alucinação de Atribuição generalizada: os modelos frequentemente produzem a resposta correta enquanto citam a região errada. O sistema mais forte (Gemini-3.1-Pro-Preview) alcança uma SAA de apenas 76,0, e o MLLM de código aberto mais forte atinge apenas 22,5. Por fim, rumo à inteligência documental confiável, o CiteVQA expõe uma lacuna de confiabilidade que as avaliações centradas apenas na resposta ignoram, fornecendo a instrumentação necessária para fechá-la. Nosso repositório está disponível em https://github.com/opendatalab/CiteVQA.
Modelos visão-linguagem-ação avançaram rapidamente, mas as trajetórias de robôs sozinhas fornecem cobertura limitada para o aprendizado de uma compreensão física ampla. O PhysBrain 1.0 estuda uma rota complementar: converter grandes volumes de vídeo egocêntrico humano em supervisão estruturada de senso comum físico antes da adaptação do robô. Nosso mecanismo de dados extrai elementos de cena, dinâmicas espaciais, execução de ações e relações com profundidade, transformando-os em supervisão de perguntas e respostas para treinar os VLMs do PhysBrain. Os priores físicos resultantes são então transferidos para políticas VLA por meio de um projeto de adaptação que preserva capacidades e é sensível à linguagem. Em benchmarks multimodais de QA e benchmarks de controle incorporado, incluindo ERQA, PhysBench, SimplerEnv-WidowX, LIBERO e RoboCasa, o PhysBrain 1.0 alcança resultados de estado da arte e mostra desempenho especialmente forte fora do domínio no SimplerEnv. Esses resultados sugerem que escalar o senso comum físico a partir de vídeos de interação humana pode fornecer uma ponte eficaz da compreensão multimodal para a ação robótica.
Habilidades reutilizáveis tornaram-se um substrato central para melhorar as capacidades dos agentes, mas a maioria dos pacotes de habilidades existentes codifica comportamentos reutilizáveis principalmente como prompts textuais, código executável ou rotinas aprendidas. Para agentes visuais, no entanto, o conhecimento processual é inerentemente multimodal: a reutilização depende não apenas de qual operação realizar, mas também do reconhecimento do estado relevante, da interpretação da evidência visual de progresso ou falha, e da decisão sobre o que fazer a seguir. Formalizamos esse requisito como conhecimento processual multimodal e abordamos três desafios práticos: (I) o que um pacote de habilidades multimodal deve conter; (II) de onde tais pacotes podem ser derivados a partir de experiências de interação pública; e (III) como os agentes podem consultar evidências multimodais no momento da inferência sem excesso de contexto de imagem ou ancoragem excessiva em capturas de tela de referência. Introduzimos o MMSkills, uma estrutura para representar, gerar e usar procedimentos multimodais reutilizáveis para tomada de decisão visual em tempo de execução. Cada MMSkill é um pacote compacto e condicionado ao estado que combina um procedimento textual com cartões de estado em tempo de execução e quadros-chave multivisão. Para construir esses pacotes, desenvolvemos um Gerador de trajetória-para-habilidade agentivo que transforma trajetórias públicas de não avaliação em habilidades multimodais reutilizáveis por meio de agrupamento de fluxos de trabalho, indução de procedimentos, fundamentação visual e auditoria guiada por meta-habilidades. Para utilizá-las, introduzimos um agente de habilidade multimodal com carga de ramificação: cartões de estado e quadros-chave selecionados são inspecionados em uma ramificação temporária, alinhados com o ambiente ao vivo e destilados em orientação estruturada para o agente principal. Experimentos em benchmarks de agentes visuais baseados em GUI e jogos mostram que o MMSkills melhora consistentemente tanto agentes multimodais de fronteira quanto menores, sugerindo que o conhecimento processual multimodal externo complementa os conhecimentos prévios internos do modelo.
Customização de vídeo centrada no ser humano, particularmente ao nível do vestuário, tem demonstrado um valor comercial significativo. No entanto, as abordagens existentes não conseguem suportar um controlo de vestuário de baixa latência e interativo, que é crucial para aplicações como comércio eletrónico e criação de conteúdo. Este artigo estuda como alcançar a customização interativa de vídeo com múltiplas peças de vestuário, preservando a coerência de movimento, utilizando apenas dados de vídeo de uma única peça de vestuário. Apresentamos o FashionChameleon, uma estrutura em tempo real e interativa para customização de vestuário humano em geração de vídeo autorregressiva, onde os utilizadores podem trocar interativamente a peça de vestuário durante a geração. O FashionChameleon consiste em três técnicas principais: (i) Em vez de treinar em dados de vídeo com múltiplas peças de vestuário, treinamos um Modelo Professor com Aprendizado no Contexto num único par referência-vestuário. Ao reter o paradigma de treino imagem-para-vídeo enquanto impõe uma incompatibilidade entre a imagem de referência e a imagem da peça de vestuário, o modelo é incentivado a preservar implicitamente a coerência durante a troca de uma única peça de vestuário. (ii) Para alcançar consistência e eficiência durante a geração, introduzimos a Destilação em Fluxo com Aprendizado no Contexto, que ajusta o modelo com forçamento do professor no contexto e melhora a consistência de extrapolação via destilação de correspondência de distribuição com reponderação de gradiente. (iii) Para estender o modelo para customização interativa de vídeo com múltiplas peças de vestuário, propomos o Reagendamento de Cache KV Livre de Treinamento, que inclui atualização de KV da peça de vestuário, retirada de KV histórico e desembaraçamento de KV de referência para alcançar a troca de vestuário enquanto preserva a coerência de movimento. O nosso FashionChameleon suporta exclusivamente customização interativa e extrapolação consistente de vídeos longos, enquanto atinge geração em tempo real a 23.8 FPS numa única GPU, 30 a 180 vezes mais rápido que as linhas de base existentes.
A destilação on-policy (OPD) emergiu como um paradigma eficiente de pós-treinamento para modelos de linguagem de grande escala. No entanto, estudos existentes atribuem em grande parte essa vantagem a uma supervisão mais densa e estável, enquanto os mecanismos ao nível dos parâmetros subjacentes à eficiência da OPD permanecem pouco compreendidos. Neste trabalho, argumentamos que a eficiência da OPD decorre de uma forma de "previsão": ela estabelece uma trajetória de atualização estável em direção ao modelo final logo no início do treinamento. Essa previsão se manifesta em dois aspectos. Primeiro, no Nível de Alocação de Módulos, a OPD identifica regiões com baixa utilidade marginal e concentra as atualizações em módulos mais críticos para o raciocínio. Segundo, no Nível de Direção de Atualização, a OPD exibe uma concentração de baixo posto mais forte, com seus subespaços dominantes se alinhando estreitamente ao subespaço de atualização final já no início do treinamento. Com base nessas descobertas, propomos o EffOPD, um método de aceleração plug-and-play que acelera a OPD ao selecionar adaptativamente um tamanho de passo de extrapolação e mover-se ao longo da direção de atualização atual. O EffOPD não requer módulos treináveis adicionais ou ajuste complexo de hiperparâmetros, e alcança uma aceleração média de treinamento de 3 vezes, mantendo um desempenho final comparável. No geral, nossos achados fornecem uma perspectiva de dinâmica de parâmetros para compreender a eficiência da OPD e oferecem insights práticos para projetar métodos de pós-treinamento mais eficientes para modelos de linguagem de grande escala.
Alcançar a manipulação em nível humano requer mãos robóticas hábeis capazes de interações complexas com objetos. Avançar ainda mais essas capacidades exige benchmarks padronizados para avaliação sistemática. No entanto, os benchmarks hábeis existentes carecem de tarefas que reflitam as capacidades únicas de manipulação das mãos hábeis em relação aos grippers paralelos, bem como pipelines de avaliação abrangentes. Neste artigo, apresentamos o DexJoCo, um benchmark e toolkit para manipulação hábil orientada a tarefas, composto por 11 tarefas funcionalmente fundamentadas que avaliam o uso de ferramentas, coordenação bimanual, execução de longo horizonte e raciocínio. Desenvolvemos um sistema de coleta de dados de baixo custo e coletamos 1,1 mil trajetórias nessas tarefas, com suporte para randomização de domínio para avaliar a robustez. Avaliamos modelos modernos em diversas condições, incluindo randomização visual e de dinâmica, treinamento multitarefa e adaptação de cabeça de ação. Por meio de análise empírica extensa, identificamos várias percepções importantes e limitações comuns das políticas atuais em manipulação hábil, destacando desafios-chave para pesquisas futuras em aprendizado de robôs com mãos hábeis. Página do projeto disponível em: https://dexjoco.github.io
Destilar grandes modelos de raciocínio é essencial para tornar prático o raciocínio Long-CoT, uma vez que a inferência em escala total permanece computacionalmente proibitiva. As abordagens existentes baseadas em curadoria selecionam traços de raciocínio completos a posteriori, ignorando a colaboração entre professores heterogêneos e carecendo de exploração dinâmica, o que leva a amostragem redundante e à perda de raciocínio complementar. Apresentamos o CoRD, uma estrutura de decodificação colaborativa com múltiplos professores que realiza síntese de raciocínio passo a passo guiada por pontuação preditiva baseada em perplexidade e busca em feixe. Isso permite que LRMs heterogêneos construam conjuntamente trajetórias de raciocínio coerentes, preservando eficientemente hipóteses diversas e de alto potencial. Experimentos mostram que o CoRD produz dados de raciocínio de maior qualidade e alcança desempenho estudantil próximo ao do professor com menos sinais de supervisão estruturados, sem sobrecarga substancial de eficiência. O CoRD também se generaliza bem para ambientes fora do domínio e abertos. O conjunto de dados e o modelo estão disponíveis em https://github.com/DISL-Lab/CoRD{https://github.com/DISL-Lab/CoRD}.
Textos e rostos estão entre os padrões mais perceptualmente salientes e praticamente importantes na geração visual, ainda assim permanecem desafiadores para geradores autorregressivos construídos sobre tokenização discreta. Um gargalo central é o tokenizador: a subamostragem agressiva e a quantização frequentemente descartam as estruturas de granulação fina necessárias para preservar glifos legíveis e características faciais distintivas. Atribuímos essa lacuna ao fato de que os objetivos padrão dos tokenizadores discretos estão fracamente alinhados com a legibilidade do texto e a fidelidade facial, uma vez que esses objetivos tipicamente otimizam a reconstrução genérica enquanto comprimem conteúdo diverso de maneira uniforme. Para abordar isso, propomos o InsightTok, uma estrutura de tokenização visual discreta simples, porém eficaz, que melhora a fidelidade de texto e rosto por meio de perdas perceptuais localizadas e conscientes do conteúdo. Com um codebook compacto de 16k e uma taxa de subamostragem de 16x, o InsightTok supera significativamente tokenizadores anteriores na reconstrução de texto e rosto sem comprometer a qualidade geral da reconstrução. Esses ganhos são consistentemente transferidos para a geração de imagens autorregressiva no InsightAR, produzindo imagens com textos mais nítidos e detalhes faciais mais fiéis. No geral, nossos resultados destacam o potencial da supervisão especializada no treinamento de tokenizadores para avançar a geração discreta de imagens.
A Otimização de Política Relativa ao Grupo (Group Relative Policy Optimization - GRPO) tornou-se essencial para alinhar modelos de difusão de vídeo com preferências humanas, mas enfrenta um gargalo computacional crítico: treinar um modelo com 14 bilhões de parâmetros normalmente exige centenas de dias de GPU por experimento. Métodos de eficiência existentes reduzem os custos por meio de subamostragem por janela deslizante dos passos de tempo de treinamento, mas comprometem fundamentalmente a otimização, apresentando instabilidade severa e não conseguindo atingir o desempenho completo da trajetória. Apresentamos o Flash-GRPO, uma estrutura de treinamento em etapa única que supera o treinamento de trajetória completa em qualidade de alinhamento sob orçamentos computacionais baixos, ao mesmo tempo que melhora substancialmente a eficiência do treinamento. O Flash-GRPO aborda dois desafios críticos: o agrupamento iso-temporal elimina a variância confundida por passos de tempo ao impor consistência temporal por prompt, desacoplando o desempenho da política da dificuldade do passo de tempo; a retificação do gradiente temporal neutraliza o fator de escala dependente do tempo que causa magnitudes de gradiente vastamente inconsistentes entre os passos de tempo. Experimentos em modelos de 1,3 a 14 bilhões de parâmetros validam a eficácia do Flash-GRPO, demonstrando aceleração substancial do treinamento com estabilidade consistente e qualidade de alinhamento de última geração.
A aprendizagem por reforço com recompensas verificáveis (RLVR) emergiu como um paradigma escalável para melhorar as capacidades de raciocínio de modelos de linguagem de grande escala. No entanto, sua eficácia é fundamentalmente limitada pela exploração: a política só pode melhorar nas trajetórias que já amostrou. Embora aumentar o número de *rollouts* alivie esse problema, essa escalabilidade por força bruta é computacionalmente cara, e abordagens existentes que modificam o objetivo de otimização fornecem controle limitado sobre o que é explorado. Neste trabalho, propomos o NudgeRL, uma estrutura para exploração estruturada e orientada pela diversidade em RLVR. Nossa abordagem introduz o *Strategy Nudging*, que condiciona cada *rollout* a contextos leves no nível de estratégia para induzir trajetórias de raciocínio diversas sem depender de supervisão cara de oráculo. Para aprender eficazmente com essa exploração estruturada, propomos ainda um objetivo unificado, que decompõe o sinal de recompensa em componentes inter e intra-contexto e incorpora um objetivo de destilação para transferir comportamentos descobertos de volta para a política base. Empiricamente, o NudgeRL supera o GRPO padrão com orçamentos de *rollout* até 8 vezes maiores, ao mesmo tempo que supera a linha de base de RL orientada por oráculo em média em cinco *benchmarks* desafiadores de matemática. Esses resultados demonstram que a exploração estruturada e orientada por contexto pode servir como uma alternativa eficiente e escalável tanto para a escalabilidade de *rollouts* por força bruta quanto para métodos orientados à viabilidade baseados em informações privilegiadas. Nosso código está disponível em https://github.com/tally0818/NudgeRL.
Os modelos atuais de mundo de jogos simulam ambientes a partir de uma perspectiva subjetiva e centrada no jogador. No entanto, ao tratar o Personagem Não-Jogável (PNJ) meramente como pixels de fundo, esses modelos não conseguem capturar as interações entre jogador e PNJ. Nesse sentido, eles atuam como renderizadores passivos de vídeo, em vez de verdadeiros motores de simulação, carecendo da compreensão física necessária para modelar reatividades do PNJ induzidas por ações. Apresentamos o ReactiveGWM, um modelo de mundo de jogo reativo que sintetiza interações dinâmicas entre o jogador e o PNJ. Em vez de embaralhar todas as dinâmicas de interação, o ReactiveGWM desacopla explicitamente os controles do jogador dos comportamentos do PNJ. As ações do jogador são injetadas na espinha dorsal de difusão por meio de um viés aditivo leve, enquanto as respostas do PNJ de alto nível (por exemplo, Ofensiva, Controle, Defensiva) são fundamentadas por módulos de atenção cruzada. Crucialmente, esses módulos aprendem uma representação agnóstica de jogo da lógica interativa. Isso possibilita a transferência de estratégia zero-shot: nossos módulos aprendidos podem ser conectados diretamente a modelos de mundo prontos para uso e não anotados de diferentes jogos. Isso instantaneamente desbloqueia interações controláveis com o PNJ, sem necessidade de retreinamento específico de domínio. Avaliado em dois jogos Street Fighter, o ReactiveGWM mantém a controlabilidade refinada do jogador, ao mesmo tempo que alcança uma adesão robusta e alinhada com comandos à estratégia do PNJ, abrindo caminho para interações escaláveis e ricas em estratégia com o PNJ.
A Otimização de Política Relativa a Grupos (GRPO) aprimora modelos de linguagem de grande escala ao estimar vantagens em um grupo de trajetórias amostradas. No entanto, mapear essas vantagens em nível de trajetória para atualizações de política requer a agregação de probabilidades em nível de token dentro de cada sequência. Depender de um mecanismo de agregação fixo para essa etapa limita fundamentalmente a adaptabilidade do algoritmo. Empiricamente, observamos um trade-off crítico: certas agregações fixas frequentemente sofrem colapso no treinamento, enquanto outras não conseguem produzir desempenho satisfatório. Para resolver isso, propomos o HölderPO, uma estrutura generalizada de otimização de política que unifica a agregação de probabilidades em nível de token por meio da média de Hölder. Ao modular explicitamente o parâmetro p, nossa estrutura oferece controle contínuo sobre o trade-off entre concentração do gradiente e limites de variância. Teoricamente, provamos que um p maior concentra o gradiente para amplificar sinais de aprendizado esparsos, enquanto um p menor limita estritamente a variância do gradiente. Como nenhuma configuração estática pode resolver universalmente esse trade-off entre concentração e estabilidade, instanciamos a estrutura com um algoritmo de recozimento dinâmico que agenda progressivamente o p ao longo do ciclo de vida do treinamento. Avaliações extensas demonstram estabilidade e convergência superiores em relação às linhas de base existentes. Especificamente, nossa abordagem atinge uma precisão média de 54,9% em múltiplos benchmarks matemáticos, resultando em um ganho relativo substancial de 7,2% sobre a GRPO padrão, e garante uma taxa de sucesso excepcional de 93,8% no ALFWorld.
Grandes modelos de linguagem (LLMs) ainda enfrentam dificuldades com as exigências rigorosas de raciocínio da programação competitiva de alto nível. Embora frameworks multiagentes recentes tentem superar essa lacuna de confiabilidade, eles permanecem fundamentalmente sem estado: dependem de recuperação estática e descartam a valiosa experiência de resolução de problemas e depuração obtida em tarefas anteriores. Para lidar com isso, apresentamos o Solvita, um framework de evolução agentiva que possibilita aprendizado contínuo sem exigir atualizações de peso no LLM subjacente. O Solvita reorganiza a resolução de problemas em um sistema de ciclo fechado composto por seleção de estratégia, síntese de programas, supervisão certificada e hacking direcionado, executado por quatro agentes especializados: Planejador, Solucionador, Oráculo e Hacker. Crucialmente, cada agente é emparelhado com uma rede de conhecimento estruturada em grafo e treinável. Conforme o sistema opera, sinais de resultado — como vereditos de aprovação/reprovação, qualidade da certificação de testes e vulnerabilidades adversárias descobertas pelo Hacker — são reformulados como atualizações de aprendizado por reforço nesses pesos da rede. Isso permite que os agentes roteiem dinamicamente consultas futuras com base em sucessos e falhas passados, acumulando efetivamente experiência de raciocínio transferível ao longo do tempo. Avaliado nos conjuntos CodeContests, APPS, AetherCode e em rodadas ao vivo do Codeforces, o Solvita estabelece um novo estado da arte entre agentes de geração de código, superando pipelines multiagentes existentes e quase dobrando a precisão de linhas de base de passagem única.
Modelos modernos de edição de imagens produzem resultados realistas, mas enfrentam dificuldades com instruções abstratas e de múltiplas etapas (por exemplo, "torne este anúncio mais vegetariano"). Abordagens anteriores baseadas em agentes decompõem tais tarefas, mas dependem de pipelines artesanais ou imitação de professor, limitando a flexibilidade e desacoplando o aprendizado dos resultados reais da edição. Propomos uma estrutura experiencial para edição de imagens de longo horizonte, na qual um planejador gera decomposições atômicas estruturadas e um orquestrador seleciona ferramentas e regiões para executar cada etapa. Um juiz de linguagem visual fornece recompensas baseadas nos resultados quanto à adesão às instruções e à qualidade visual. O orquestrador é treinado para maximizar essas recompensas, e trajetórias bem-sucedidas são utilizadas para refinar o planejador. Ao acoplar estreitamente o planejamento à execução orientada por recompensas, nossa abordagem produz edições mais coerentes e confiáveis do que as linhas de base de etapa única ou de múltiplas etapas baseadas em regras.
Grandes modelos de visão-linguagem avançaram significativamente os agentes GUI, possibilitando interações executáveis em interfaces web, móveis e de desktop. No entanto, esses ganhos dependem amplamente de um paradigma tolerante a regiões, onde muitos pixels próximos dentro do mesmo componente permanecem válidos. A construção geométrica precisa quebra essa suposição: as ações devem incidir sobre pontos no espaço contínuo da tela, e não em regiões tolerantes. Como os primitivos geométricos carregam dependências ontológicas, um erro de coordenada local pode induzir falhas topológicas em cascata que distorcem objetos subsequentes e invalidam a construção final. Identificamos esse regime como tarefas GUI sensíveis à precisão, exigindo exatidão ao nível de ponto, verificação consciente da geometria e robustez à propagação de erros orientada por dependências. Para avaliá-lo, introduzimos o PAGE Bench, com 4.906 problemas e mais de 224 mil ações GUI supervisionadas por processo em nível de pixel. Propomos ainda o PAGER, um agente consciente da topologia que decompõe a construção em planejamento estruturado por dependências e execução em nível de pixel. O ajuste supervisionado fundamentado em pixels estabelece uma gramática de ação executável, enquanto o aprendizado por reforço alinhado à precisão mitiga o viés de exposição induzido por rollout por meio de feedback geométrico condicionado ao estado. Experimentos revelam uma pronunciada Lacuna Semântico-Execução: modelos multimodais gerais podem exceder 88% de precisão no tipo de ação, mas permanecem abaixo de 6% de sucesso na tarefa. O PAGER fecha essa lacuna, proporcionando um sucesso na tarefa 4,1 vezes maior do que a melhor linha de base geral avaliada e elevando a taxa de sucesso de etapas de menos de 9% para agentes especializados em GUI para mais de 62%, estabelecendo um novo estado da arte para controle GUI com precisão de ponto.
A aprendizagem visual 3D moderna depende de observações amostradas de ativos 3D métricos, no entanto, digitalizações, malhas, nuvens de pontos, simulações e reconstruções existentes não fornecem diretamente uma interface de treinamento panorâmica esparsa, comparável e geometricamente consistente. Trajetórias densas duplicam vistas próximas, políticas de renderização específicas de cada fonte produzem anotações heterogêneas, e heurísticas esparsas podem perder regiões importantes ou introduzir observações inconsistentes em profundidade. Estudamos como converter ativos 3D em dados panorâmicos RGB-D-pose esparsos que preservam cobertura completa da cena com baixa redundância e proveniência auditável. Propomos o COVER (Cobertura-Orientada para Curadoria de Pontos de Vista com Warping de Profundidade de Alcance ERP), um curador de pontos de vista ERP livre de treinamento que projeta a geometria observada a partir de vistas selecionadas em sondas ERP candidatas, pontua a cobertura incremental e penaliza conflitos de profundidade. Sob erro de proxy limitado, seu proxy de cobertura guloso preserva o comportamento padrão de aproximação do tipo cobertura até um termo de erro aditivo. Utilizando o COVER, construímos o CM-EVS (Conjunto de Vistas ERP Métricas Curadas por Cobertura), um conjunto de dados panorâmico RGB-D-pose com 36.373 quadros ERP curados de 1.275 cenas internas em Blender indoor, HM3D e ScanNet++, complementado por panoramas externos do TartanGround e OB3D recodificados no mesmo esquema. Cada quadro fornece RGB de esfera completa, profundidade métrica de alcance e pose calibrada; os quadros internos produzidos pelo COVER incluem registros de proveniência por etapa. Com uma mediana de apenas 25 quadros por cena interna, o CM-EVS cobre todos os 13 tipos de cômodos unificados, mantendo cobertura compacta no nível da cena. Experimentos mostram que o COVER melhora o trade-off cobertura-conflito, tornando o CM-EVS um recurso RGB-D-pose esparso, compacto e auditável para aprendizagem 3D panorâmica geometricamente consistente.
Modelos de Visão-Linguagem (VLMs) são excelentes em tarefas 2D, como ancoragem e legendagem, mas ainda são limitados na compreensão 3D. Uma limitação fundamental é seu paradigma de supervisão exclusivamente textual, que subdetermina a percepção visual refinada e impede a recuperação da geometria densa. Métodos anteriores ou destilam geometria de modelos de visão externos, introduzindo acumulação de erros, ou permitem predição direta com consulta ineficiente por pixel ou saídas grosseiras em nível de token. Neste artigo, propomos DepthVLM, uma estrutura simples, porém eficaz, que transforma um único VLM em um preditor nativo de geometria densa, preservando sua capacidade multimodal. Ao anexar uma cabeça de profundidade leve ao backbone do LLM e treinar sob um paradigma unificado de supervisão visão-texto com uma programação de dois estágios, DepthVLM gera mapas de profundidade em resolução total juntamente com saídas de linguagem em uma única passagem direta. Introduzimos também um benchmark unificado de profundidade métrica para ambientes internos e externos em formato compatível com VLM. Experimentos mostram que DepthVLM supera significativamente VLMs existentes com maior eficiência de inferência, ultrapassa modelos líderes puramente de visão e melhora o raciocínio espacial 3D complexo, avançando em direção a um modelo de fundação verdadeiramente unificado. Todo o código e checkpoints serão disponibilizados publicamente.
Sistemas multiagente automáticos visam instanciar fluxos de trabalho de agentes sem depender de orquestração projetada manualmente ou fixa. No entanto, as abordagens automáticas de MAS existentes permanecem apenas parcialmente adaptativas: elas realizam busca em tempo de teste sem treinamento ou otimizam o designer de nível meta enquanto mantêm os agentes executores a jusante congelados, o que cria um teto do executor congelado e deixa inexplorado o treinamento fim a fim de modelos agentes autoprojetáveis e autoexecutáveis. Para abordar isso, apresentamos o MetaAgent-X, uma estrutura de aprendizado por reforço fim a fim que otimiza conjuntamente o design automático de MAS e a execução. O MetaAgent-X possibilita geração de MAS baseada em script, coleta de rollouts de execução e atribuição de crédito para as trajetórias do designer e do executor. Para suportar uma otimização estável e escalável, propomos o Rollout Hierárquico Designer-Executor e a Coevolução por Estágios para melhorar a estabilidade do treinamento e expor a dinâmica da coevolução designer-executor. O MetaAgent-X supera consistentemente as linhas de base automáticas de MAS existentes, alcançando ganhos de até 21,7%. Ablações abrangentes mostram que tanto o designer quanto o executor melhoram ao longo do treinamento, e que o aprendizado automático eficaz de MAS segue um processo de coevolução por estágios. Esses resultados estabelecem o MAS automático treinável fim a fim como um paradigma prático para construir modelos agentes autoprojetáveis e autoexecutáveis.
O direcionamento de ativações é uma técnica popular de controle em caixa-branca que modifica as ativações do modelo para elicitar uma mudança abstrata em seu comportamento. Tornou-se também uma ferramenta padrão em pesquisas de interpretabilidade (por exemplo, sondando veracidade ou traduzindo ativações em explicações legíveis por humanos) e de segurança (por exemplo, jailbreakability). No entanto, não está claro se o comportamento direcionado é realizável por algum prompt textual. Neste trabalho, formulamos essa questão como um problema de sobrejetividade: para um modelo fixo, toda ativação direcionada admite uma pré-imagem sob a passagem forward natural do modelo? Sob suposições práticas, provamos que o direcionamento de ativações empurra o fluxo residual para fora da variedade de estados alcançáveis a partir de prompts discretos. Quase certamente, nenhum prompt pode reproduzir o mesmo comportamento interno induzido pelo direcionamento. Ilustramos também esse achado empiricamente em três LLMs amplamente utilizados. Nossos resultados estabelecem uma separação formal entre direcionabilidade em caixa-branca e prompting em caixa-preta. Portanto, alertamos contra a interpretação da facilidade e do sucesso do direcionamento de ativações como evidência de interpretabilidade ou vulnerabilidade baseada em prompts, e defendemos protocolos de avaliação que desacoplem explicitamente intervenções em caixa-branca e em caixa-preta.
Monitorar ativos industriais complexos depende de regras simbólicas elaboradas por engenheiros, que disparam com base em condições de sensores e instruem técnicos a realizar ações corretivas. O gargalo não é a detecção, mas a resposta: traduzir regras em etapas de manutenção exige conhecimento específico dos ativos, adquirido por meio de anos de prática. Investigamos se LLMs podem servir como suporte à decisão nessa etapa de regra para ação e introduzimos [NOME], um benchmark de 6.690 questões de múltipla escolha validadas por especialistas, provenientes de 118 pares regra-ação em 16 tipos de ativos. Contribuímos com: (i) um pipeline simbólico-para-MCQA que normaliza regras para a Forma Normal Disjuntiva, com amostragem de distratores baseada em embeddings; (ii) cinco variantes que investigam modos de falha distintos (Pro, Pert, Verbose, Aug, Rationale); e (iii) um benchmark com 29 LLMs e 4 baselines de embeddings. Uma avaliação humana (9 profissionais, média de 45,0%) confirma que [NOME] exige conhecimento especializado além da experiência operacional. Três descobertas se destacam. A fronteira se fechou: os três principais LLMs estão dentro de um ponto de Macro, com o Bradley-Terry Elo posicionando o claude-opus-4-6 30 pontos acima do modelo seguinte. No entanto, Pro expõe fragilidade: todo modelo perde de 13% a 60% de acurácia relativa sob expansão de distratores. Aug expõe correspondência de padrões: sob inversão de condições, os modelos de fronteira ainda selecionam a resposta original em 49% a 63% das vezes. O gargalo da implantação não é a capacidade, mas a calibração: os modelos de fronteira lidam com detecção de falhas no estilo de modelos prontos, mas quebram sob perturbação estrutural.
O recente avanço dos modelos de Visão-Linguagem-Ação (VLA) gerou uma demanda crítica por conjuntos de dados egocêntricos em grande escala. No entanto, os conjuntos de dados existentes frequentemente são limitados por curtas durações de episódios, geralmente abrangendo apenas alguns minutos, o que não captura as dependências temporais de longo horizonte necessárias para a execução de tarefas robóticas complexas. Para preencher essa lacuna, apresentamos o MobileEgo Anywhere, uma estrutura projetada para facilitar a coleta de trajetórias egocêntricas robustas, com duração de uma hora ou mais, utilizando hardware móvel comercial. Aproveitamos os conjuntos de sensores onipresentes dos smartphones modernos para fornecer rastreamento de pose de câmera de alta fidelidade e longo prazo, eliminando efetivamente as altas barreiras de hardware associadas à coleta tradicional de dados robóticos. Nossas contribuições são triplas: (1) disponibilizamos um novo conjunto de dados contendo 200 horas de dados egocêntricos diversos e de longa duração, com rastreamento persistente de estado; (2) disponibilizamos como código aberto um aplicativo móvel que permite a qualquer usuário gravar dados egocêntricos; e (3) fornecemos um pipeline de processamento abrangente para converter capturas brutas de dispositivos móveis em formatos padronizados e prontos para treinamento, voltados para pesquisas em modelos de Visão-Linguagem-Ação e modelos fundamentais. Ao democratizar o processo de coleta de dados, este trabalho possibilita a aquisição em escala massiva de dados de longo horizonte em diversos ambientes globais, acelerando o desenvolvimento de políticas robóticas generalizáveis.
A geração de imagens em poucas etapas tem avançado rapidamente, com métodos baseados em consistência e meanflow reduzindo significativamente o número de passos de amostragem. Apesar do baixo custo de inferência, essas abordagens frequentemente sofrem de instabilidade de treinamento e escalabilidade limitada. O Sphere Encoder é uma alternativa recente que produz imagens de alta qualidade em apenas algumas etapas; no entanto, ele requer transições repetidas entre o espaço de pixels e o espaço latente durante a inferência, enquanto otimiza conjuntamente reconstrução e geração em uma única arquitetura. Esse design leva à ineficiência computacional e ao conflito de objetivos entre reconstrução e geração. Para superar essas limitações, desacoplamos a estrutura em um codificador de imagem pré-treinado fixo e um modelo de denoising latente separado, treinado inteiramente em um espaço latente esférico. Nossa abordagem elimina operações repetidas no espaço de pixels durante o treinamento e a inferência, melhorando a eficiência e permitindo que a reconstrução e a geração se especializem de forma independente. Nos conjuntos de dados Animal-Faces, Oxford-Flowers e ImageNet-1K, nosso método supera significativamente o Sphere Encoder tanto em qualidade de geração quanto em velocidade de inferência, ao mesmo tempo que obtém resultados competitivos em relação a fortes baselines de poucas e múltiplas etapas.
Modelos de visão-linguagem pré-treinados em larga escala, como o CLIP, demonstram desempenho notável em zero-shot em diversas tarefas. No entanto, o ajuste fino desses modelos para melhorar o desempenho downstream frequentemente degrada a robustez contra mudanças de distribuição. Abordagens recentes tentaram mitigar esse trade-off, mas muitas vezes dependem de orientação textual computacionalmente cara. Propomos um novo método para ajuste fino robusto, SAE-FT, que opera apenas nas representações visuais do modelo. O SAE-FT regulariza mudanças nessas representações penalizando a adição e remoção de características semanticamente significativas identificadas por um Autoencoder Esparso treinado no modelo pré-treinado. Essa restrição previne o esquecimento catastrófico e torna o processo de ajuste fino interpretável, permitindo análise direta das mudanças semânticas. O SAE-FT é tanto mecanicamente transparente quanto computacionalmente eficiente, igualando ou superando o desempenho do estado da arte no ImageNet e em seus benchmarks associados de mudança de distribuição. O código está disponível publicamente em: https://github.com/Fabian-Mor/sae-ft.
A reconstrução de avatares tradicionalmente depende de otimização por sujeito, que exige horas de computação, ou de pré-processamento caro que limita a escalabilidade. Apresentamos o FFAvatar, uma arquitetura generalizável de feed-forward que reconstrói avatares de cabeça Gaussianos 3D animáveis e de alta qualidade a partir de imagens de retrato não posadas com poucas amostras em segundos. O FFAvatar funde informações de múltiplas imagens de origem em uma representação Gaussiana canônica unificada por meio do Multi-View Query-Former, a qual é animada via parâmetros FLAME previstos de ponta a ponta diretamente a partir dos pixels, eliminando a sobrecarga da extração offline do FLAME. Propomos ainda um currículo de treinamento em três estágios que alcança tanto ampla generalização quanto reconstrução de alta fidelidade: (i) pré-treinamento escalável em dados extensos de vídeo monocular com mais de 1 milhão de identidades para aprender fortes prioridades generalizáveis; (ii) ajuste fino multivisão em um conjunto de dados pequeno, porém de alta qualidade, com capturas de 360 graus para aprimorar a fidelidade geométrica e a consciência de visões extremas; e (iii) personalização opcional que se adapta a identidades específicas para máxima fidelidade em até 500 passos de otimização. Experimentos extensos demonstram que o FFAvatar estabelece um novo padrão para preservação de identidade, consistência geométrica e fidelidade de animação. No benchmark NeRSemble, ele supera o estado da arte LAM com um ganho substancial de 5,5 PSNR. Além disso, o FFAvatar possibilita implantação em tempo real, reconstruindo avatares em 2 segundos sem personalização e em 10 segundos com personalização, além de suportar animação a 49 FPS em uma única GPU NVIDIA A100.
Agentes baseados em modelos de linguagem de grande escala frequentemente falham em ambientes desconhecidos devido à exploração prematura: uma tendência a agir com base em conhecimento prévio antes de adquirir informações suficientes específicas do ambiente. Identificamos a exploração autônoma como uma capacidade crítica, porém subexplorada, para construir agentes adaptativos. Para formalizar e quantificar essa capacidade, introduzimos a Cobertura de Pontos de Verificação de Exploração, uma métrica verificável que mede quão amplamente um agente descobre estados, objetos e affordances-chave. Nossa avaliação sistemática revela que agentes treinados com aprendizado por reforço padrão orientado a tarefas exibem consistentemente comportamentos estreitos e repetitivos que prejudicam o desempenho downstream. Para abordar essa limitação, desenvolvemos uma estratégia de treinamento que intercala execuções de tarefas e explorações, com cada tipo de execução otimizado por sua recompensa verificável correspondente. Com base nessa estratégia de treinamento, propomos o paradigma Explorar-depois-Agir, que desacopla a coleta de informações da execução de tarefas: os agentes primeiro utilizam um orçamento de interação para adquirir conhecimento ambiental fundamentado e, em seguida, o aproveitam para a resolução de tarefas. Nossos resultados demonstram que aprender a explorar sistematicamente é imperativo para construir agentes generalizáveis e prontos para o mundo real.
Recentemente, sistemas de modelagem de mundos 3D baseados em síntese generativa de cenas, como o Marble, conseguem criar ambientes 3D coerentes e exploráveis, porém seus resultados são tipicamente ativos monolíticos estáticos, com editabilidade limitada e interação física restrita. Isso limita seu uso na criação de conteúdo imersivo e simulação incorporada, onde os mundos gerados precisam ser ativamente modificados e manipulados. Para enfrentar esse desafio, apresentamos o WorldAct, uma estrutura que converte mundos 3D gerados estaticamente em cenas editáveis e prontas para interação. O WorldAct utiliza um agente multimodal para orientar a decomposição da cena, identificar objetos acionáveis, reconstruir malhas no nível de objeto geometricamente alinhadas para interação e restaurar o fundo residual por meio de inpaint 3D. As cenas resultantes suportam edição no nível de objeto, manipulação ciente de colisões e execução de tarefas incorporadas, preservando a coerência global da cena. Experimentos mostram que o WorldAct possibilita cenários de interação mais ricos do que as cenas geradas originalmente, sugerindo um caminho prático em direção a modelos de mundos 3D editáveis e interativos.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma eficaz para aprimorar as capacidades de raciocínio de grandes modelos de linguagem. No entanto, o treinamento RLVR é frequentemente prejudicado por recompensas binárias esparsas e atribuição de crédito fraca, resultando em sinais de otimização ambíguos e subutilização das informações úteis embutidas em trajetórias fracassadas. Para enfrentar esse desafio, propomos a Otimização de Política Orientada a Correção (CIPO), uma extensão simples e eficaz do RLVR que converte trajetórias fracassadas on-policy em supervisão orientada a correção, sem depender de sinais externos. Ao otimizar conjuntamente amostras de correção derivadas das próprias tentativas fracassadas do modelo, juntamente com o objetivo padrão do RLVR, o CIPO melhora a eficácia do aprendizado enquanto aumenta explicitamente a capacidade do modelo de corrigir seus próprios erros. Experimentos abrangentes em 11 benchmarks que abrangem raciocínio matemático e geração de código demonstram que o CIPO supera consistentemente e significativamente as linhas de base fortes tanto no desempenho de raciocínio quanto de correção. Além disso, o CIPO produz ganhos mais fortes em pass@K, indicando que melhora a capacidade intrínseca de raciocínio do modelo, em vez de meramente redistribuir a massa de probabilidade sobre as respostas corretas existentes.
Em direção ao autoaperfeiçoamento recursivo, investigamos agentes LLM projetando autonomamente modelos fundacionais além dos Transformers padrão. Introduzimos uma abordagem de dupla estrutura: AIRA-Compose para busca de arquitetura de alto nível e AIRA-Design para implementação mecanicista de baixo nível. O AIRA-Compose utiliza 11 agentes para explorar primitivas computacionais fundamentais dentro de um orçamento de 24 horas. Os agentes avaliam candidatos com milhões de parâmetros, extrapolando os designs principais para escalas de 350M, 1B e 3B. Isso resulta em 14 arquiteturas em duas famílias: AIRAformers (baseadas em Transformer) e AIRAhybrids (Transformer-Mamba). Pré-treinados na escala de 1B, esses modelos superam consistentemente o Llama 3.2 e as baselines do Composer-found. Em tarefas downstream, o AIRAformer-D e o AIRAhybrid-D melhoram a precisão em 2,4% e 3,8% em relação ao Llama 3.2. Além disso, o AIRA-Compose encontra modelos com fronteiras de escalabilidade altamente eficientes: o AIRAformer-C escala 54% e 71% mais rápido que o Llama 3.2 e o melhor Transformer do Composer, enquanto o AIRAhybrid-C supera o Nemotron-2 em 23% e o melhor híbrido do Composer em 37%. O AIRA-Design encarrega 20 agentes de escrever mecanismos de atenção inovadores para dependências de longo alcance e scripts de treinamento de alto desempenho. No benchmark Long Range Arena, as arquiteturas projetadas por agentes alcançam até 2,3% e 2,6% do estado da arte humano em correspondência de documentos e classificação de texto. No benchmark Autoresearch, o Greedy Opus 4.5 atinge 0,968 bits por byte de validação sob um orçamento de tempo fixo, superando o mínimo publicado. Juntas, essas estruturas mostram que agentes de IA podem descobrir autonomamente arquiteturas e otimizações algorítmicas que igualam ou superam baselines projetados manualmente. Isso estabelece um paradigma poderoso para descobrir modelos fundacionais de próxima geração, marcando um passo claro em direção ao autoaperfeiçoamento recursivo.
Quer seja navegando em um edifício, operando um robô ou jogando um jogo, um agente que atua efetivamente em um ambiente deve primeiro aprender um modelo interno de como esse ambiente funciona. Processos de Decisão de Markov Parcialmente Observáveis (POMDPs) fornecem uma classe de modelagem flexível para tais modelos de mundo interno, mas aprendê-los apenas a partir de trajetórias de observação-ação é desafiador e tipicamente requer extensa interação com o ambiente. Investigamos se priores de modelos de linguagem podem reduzir a interação custosa ao aproveitar conhecimento prévio e introduzimos o Pinductor (POMDP-inductor): um LLM propõe modelos candidatos de POMDP a partir de algumas trajetórias de observação-ação e os refina iterativamente para otimizar uma pontuação de verossimilhança baseada em crença. Apesar de usar estritamente menos informação, o Pinductor iguala o desempenho e a eficiência amostral de métodos de aprendizado de POMDP baseados em LLM que assumem acesso privilegiado ao estado oculto, enquanto supera significativamente a eficiência amostral de baselines tabulares de POMDP. Resultados adicionais mostram que o desempenho escala com a capacidade do LLM e se degrada de forma gradual à medida que informações semânticas sobre o ambiente são omitidas. Em conjunto, esses resultados posicionam os priores de modelos de linguagem como uma ferramenta prática para o aprendizado eficiente de modelos de mundo sob observabilidade parcial e um passo em direção a agentes generalistas em ambientes do mundo real. O código está disponível em https://github.com/atomresearch/pinductor.
Camadas de Mistura Esparsa de Especialistas (MoE) roteiam tokens por um punhado de especialistas, e a compressão sem aprendizado dessas camadas reduz o custo de inferência sem retreinamento. Uma obstrução sutil bloqueia todos os compressores existentes nesta família: três especialistas podem ser compatíveis aos pares, mas formar um ciclo irredutível quando mesclados juntos, de modo que qualquer escore que classifique especialistas com base em sinais aos pares é estruturalmente cego quanto a quais triplas são conjuntamente mescláveis. Mostramos que a obstrução é um objeto matemático preciso, o núcleo harmônico do Laplaciano simplicial em um 2-complexo cujos vértices são especialistas, cujas arestas carregam barreiras de mesclagem KL e cujas faces carregam barreiras de tripletos; decompor o sinal de barreira das arestas via Hodge isola o núcleo exatamente. Transformamos o diagnóstico em um objetivo de seleção: HodgeCover cobre greedy as arestas harmonicamente críticas e os triângulos críticos para tripletos, e uma variante híbrida do HodgeCover o combina com poda de pesos padrão nos sobreviventes. Em três backbones MoE Esparsos de pesos abertos sob redução agressiva de especialistas, HodgeCover iguala as linhas de base sem aprendizado do estado da arte no eixo de redução de especialistas, lidera na fronteira de compressão agressiva do eixo híbrido e equilibra de forma única a massa retida em todos os quatro componentes de Hodge. Esses resultados mostram que expor o núcleo harmônico de uma estrutura MoE aprendida altera qual compressor vence no regime que mais importa.
A geração de vídeo cross-embodiment visa transferir movimentos entre diferentes corpos humanoides, como de humano para robô e de robô para robô, possibilitando a geração escalável de dados para inteligência incorporada. Um grande desafio nesse cenário é que a dinâmica de movimento é parcialmente transferível entre corpos, enquanto a aparência e a morfologia permanecem específicas de cada corpo. Abordagens existentes frequentemente entrelaçam esses fatores, e muitas exigem dados pareados para cada corpo alvo, o que limita a escalabilidade para novos robôs. Apresentamos o OmniHumanoid, uma estrutura que fatoriza o aprendizado de movimento transferível e a adaptação específica do corpo. Nosso método aprende um modelo compartilhado de transferência de movimento a partir de vídeos pareados alinhados por movimento abrangendo múltiplos corpos, enquanto se adapta a um novo corpo usando apenas vídeos não pareados por meio de adaptadores leves específicos do corpo. Para reduzir a interferência entre a transferência de movimento e a adaptação do corpo, introduzimos ainda um design de atenção com ramificações isoladas que separa o condicionamento de movimento da modulação específica do corpo. Além disso, construímos um conjunto de dados sintético cross-embodiment com vídeos pareados alinhados por movimento renderizados em diversos ativos humanoides, cenas e pontos de vista. Experimentos em benchmarks sintéticos e do mundo real mostram que o OmniHumanoid alcança alta fidelidade de movimento e consistência do corpo, ao mesmo tempo que possibilita adaptação escalável a corpos humanoides não vistos sem retreinar o modelo de movimento compartilhado.
A detecção de mudanças em sensoriamento remoto (DMSR) tem como objetivo localizar alterações entre duas imagens da mesma região geográfica. Na prática, as máscaras de mudança frequentemente seguem convenções de anotação a nível de região, em vez de diferenças puramente locais de aparência, tornando-as dependentes do contexto e, ocasionalmente, ambíguas. A maioria dos métodos de ponta utiliza classificação discriminativa por pixel, que produz uma única previsão por entrada e não modela explicitamente a região alterada como um todo coerente. Uma alternativa natural é a formulação generativa, que pode modelar uma distribuição de máscaras plausíveis, permitindo a amostragem para capturar ambiguidade e promover consistência global. No entanto, as abordagens generativas existentes para DMSR geralmente ficam atrás de fortes linhas de base discriminativas devido ao alto custo computacional da geração no espaço de pixels e à complexidade de seus mecanismos de condicionamento. Para superar as limitações dos métodos discriminativos e generativos anteriores, propomos o ChangeFlow, uma estrutura generativa que reformula a detecção de mudanças como a síntese de uma máscara de mudança no espaço latente por meio de fluxo retificado. O ChangeFlow é guiado por um sinal de condicionamento estruturado, porém leve, e seu design estocástico suporta naturalmente o ensemble de previsões baseado em amostragem. Ou seja, agregar múltiplas máscaras de mudança previstas melhora a robustez, enquanto o acordo entre amostras fornece uma estimativa prática de confiança que destaca regiões ambíguas. Em quatro conjuntos de referência, o ChangeFlow atinge um F1 médio de 80,4%, melhorando em 1,3 pontos percentuais em média em relação ao melhor método anterior, mantendo uma velocidade de inferência comparável a linhas de base fortes recentes. Página do projeto: https://blaz-r.github.io/changeflow_cd
Agentes de LLM operam cada vez mais dentro de mecanismos de execução que despacham ferramentas, alocam recursos e roteiam mensagens entre componentes especializados. No entanto, um mecanismo pode retornar uma resposta correta e benigna ao longo de uma trajetória que acessa recursos não autorizados ou vaza contexto para o agente errado. A avaliação no nível de saída não consegue detectar essas falhas, embora a maioria dos benchmarks de segurança avalie apenas resultados finais ou estados terminais, mesmo que muitas violações ocorram no meio da trajetória, e não no término. A questão central é se o mecanismo respeita a intenção do usuário, os limites de permissão e as restrições de fluxo de informação durante toda a execução. Para preencher essa lacuna, propomos o HarnessAudit, uma estrutura que audita trajetórias completas de execução quanto à conformidade de limites, fidelidade de execução e estabilidade do sistema, com foco em mecanismos multiagente, onde esses riscos são mais pronunciados. Apresentamos também o HarnessAudit-Bench, um benchmark de 210 tarefas em oito domínios do mundo real, instanciado em configurações de agente único e multiagente com restrições de segurança embutidas. Avaliando dez configurações de mecanismos em modelos de fronteira e três estruturas multiagente, constatamos que: (i) a conclusão de tarefas está desalinhada com a execução segura, e as violações se acumulam com o comprimento da trajetória; (ii) os riscos de segurança variam entre domínios, tipos de tarefa e papéis dos agentes; (iii) a maioria das violações se concentra no acesso a recursos e na transferência de informações entre agentes; e (iv) a colaboração multiagente expande a superfície de risco de segurança, enquanto o design do mecanismo estabelece o limite superior da implantação segura.
Auditamos o pipeline de avaliação multimodal de física de ponta a ponta e documentamos três práticas de construção não detectadas que distorcem a forma como o campo mede o raciocínio visão-linguagem: contaminação treino-avaliação, deriva de tradução e saturação de MCQ. (1) Os conjuntos de treinamento públicos (UGPhysics-Train, SciInstruct, MMK12) passam por auditorias de Jaccard de 5-gramas em estágio único com zero acertos em todas as seis avaliações públicas de física; uma auditoria de três estágios (Jaccard -> cosseno mxbai-embed-large -> juiz LLM Haiku-4.5) revela 134 quase-duplicatas e 4.846 candidatos a paráfrase apenas no SciInstruct. (2) Um delta de 17 p.p. do Sonnet 4.5 em 59 problemas pareados de olimpíada em estoniano-inglês (30,5% vs. 13,6%; teste de sinal p=0,011, McNemar p=0,021, bootstrap pareado IC 95% [+5,1, +28,9] p.p.). (3) Um gradiente de formato e novidade de 46 p.p. nos mesmos pesos do Sonnet entre MCQ (79,7% no PhyX) e avaliação aberta de olimpíada (33,4% no PhysOlym-A). Disponibilizamos quatro artefatos para abordar essas lacunas: PhysCorp-A (corpus multimodal auditado em três estágios com 6.432 registros), PhysR1Corp (pool de RL de forma fechada com 2.268 registros), PhysOlym-A (avaliação de olimpíada retida com 500 problemas, 99,8% de fontes novas, com rótulos de dificuldade nativos e um subconjunto bilíngue EN/ET), e Physics-R1, uma receita de referência GSPO+DAPO inicializada a frio a partir do Qwen3-VL-8B-Thinking. Em 3 sementes, o Physics-R1 eleva o corpus auditado em relação à base 8B em +18,3 p.p. no PhysOlym-A liberal (8,0 -> 26,3 +/- 1,7; 7,1 p.p. atrás do Sonnet 4.5), +15,7 p.p. no PhysReason (23,9 -> 39,6 +/- 6,4; à frente do Qwen3-VL-32B e Gemini 2.5 Pro), +6,9 p.p. no OlympiadBench-Physics (46,2 +/- 1,5) e +4,1 p.p. no PhyX MCQ (77,8 +/- 0,3).
A Atenção Latente de Múltiplas Cabeças (MLA), a atenção utilizada no DeepSeek-V2/V3, comprime conjuntamente chaves e valores em um latente de baixo posto e alinha-se quase perfeitamente ao roofline do H100. Seus pesos treinados, no entanto, expõem apenas um caminho de decodificação — uma forma MQA absorvida — que vincula a inferência eficiente a taxas de computação-largura de banda da classe H100, perde o paralelismo de tensores ao longo do eixo das cabeças e não produz ganho de Predição de Múltiplos Tokens (MTP) em GPUs de inferência comuns, como a H20 com restrições de exportação. Propomos a Atenção Latente de Consulta em Grupo (GQLA), uma modificação mínima do MLA cujos pesos treinados expõem dois caminhos de decodificação algebricamente equivalentes sobre os mesmos parâmetros: um caminho MQA-absorvido idêntico ao do MLA, e um caminho GQA com um cache expandido por grupo. O runtime seleciona o caminho que corresponde ao hardware alvo — sem retreinamento, sem kernels personalizados — de modo que um único conjunto de pesos GQLA atinge os rooflines tanto do H100 (MQA-absorvido, s_q=1) quanto do H20 (GQA + MTP, s_q=2), enquanto suporta paralelismo de tensores com zero redundância de até 8 vias no caminho GQA. Para evitar o pré-treinamento do zero, estendemos o TransMLA para o TransGQLA, que converte um checkpoint GQA pré-treinado em um modelo GQLA; no LLaMA-3-8B, ele comprime o cache KV por token para 28,125% da linha de base GQA no caminho MQA-absorvido, enquanto preserva estruturalmente o tráfego de nível GQA no caminho por grupo.
Avaliações padrão de desaprendizado medem a supressão comportamental em precisão total, imediatamente após o treinamento, apesar de todo modelo de linguagem implantado ser primeiro quantizado. Trabalhos recentes mostraram que a quantização pós-treinamento de 4 bits pode reverter o desaprendizado de máquina; demonstramos que isso não é um artefato de ajuste, mas uma falha dupla sistemática: métodos baseados em gradiente que alcançam esquecimento significativo perdem-no sob compressão, enquanto métodos que sobrevivem à quantização mal alteram o modelo. Ambas as falhas têm a mesma causa raiz: em todas as linhas de base, as atualizações por parâmetro ficam 47-828x abaixo da largura do bin de quantização NF4; atualizações difundidas por bilhões de parâmetros não conseguem ultrapassar os limites dos bins de quantização, consequência que formalizamos como um tradeoff de esparsidade-permanência. Apresentamos o MANSU (Mechanistic-Aligned Null-Space Unlearning, ou Desaprendizado de Espaço Nulo Alinhado Mecanicamente), que resolve ambos os modos combinando atribuição causal de circuitos para isolar o subgrafo mínimo de esquecimento, projeção de espaço nulo restrita ao circuito com um limite de retenção baseado na Fisher diagonal, e um piso de magnitude por parâmetro que garante a sobrevivência à quantização por construção. Além disso, introduzimos a Divergência de Atribuição de Circuito (CAD), uma métrica de verificação mecanicista que distingue apagamento estrutural de supressão comportamental, uma distinção que métricas existentes não conseguem fazer. Em múltiplas famílias de modelos e benchmarks de risco, o MANSU é o primeiro método a satisfazer conjuntamente todas as quatro propriedades com margem em cada uma (esquecimento significativo, preservação da retenção, gap PTQ não positivo e apagamento estrutural), enquanto as linhas de base baseadas em gradiente recuperam até +0,05 de acurácia sob compressão.
Abordagens existentes para geração controlável normalmente dependem de ajuste fino, redes auxiliares ou busca em tempo de teste. Mostramos que a correspondência de fluxo (flow matching) admite uma interface de controle diferente: adaptação por meio de exemplos. Para interpolantes determinísticos, o campo de velocidade é governado exclusivamente por uma média condicional do ponto final; deslocar essa média desloca o próprio fluxo. Isso resulta em um princípio simples para geração controlável: orientar um modelo pré-treinado alterando o conjunto de referência que ele segue. Materializamos essa ideia em duas formas. A Orientação por Média de Referência (Reference-Mean Guidance) dispensa treinamento: calcula uma correção de média do ponto final em forma fechada a partir de um banco de referência e a aplica a um modelo FLUX.2-klein (4B) congelado, permitindo controlar cor, identidade, estilo e estrutura, mantendo fixos o prompt, a semente e os pesos. A Orientação Semiparamétrica (Semi-Parametric Guidance) amortiza a mesma ideia por meio de uma âncora de média explícita e um refinador residual aprendido, igualando a qualidade do DiT-B/4 incondicional no AFHQv2, ao mesmo tempo que permite que o conjunto de referência seja trocado na inferência. Esses resultados apontam para uma direção mais ampla: modelos generativos que se adaptam por meio de dados, não por atualizações de parâmetros.
Reconstruir uma representação gráfica vetorial estruturada a partir de uma imagem rasterizada de uma planta baixa é tipicamente um pré-requisito importante para tarefas computacionais que envolvem plantas baixas, como o entendimento automatizado ou fluxos de trabalho em CAD. No entanto, as técnicas existentes enfrentam dificuldades em gerar fielmente a estrutura e a semântica transmitidas por plantas baixas complexas que retratam grandes espaços internos com muitos cômodos e um número variável de vértices de polígonos. Para isso, propomos o Raster2Seq, que enquadra a reconstrução de plantas baixas como uma tarefa sequência a sequência, na qual os elementos da planta—como cômodos, janelas e portas—são representados como sequências de polígonos rotuladas que codificam conjuntamente geometria e semântica. Nossa abordagem introduz um decodificador autorregressivo que aprende a prever o próximo vértice condicionado às características da imagem e aos vértices gerados anteriormente, utilizando orientação de âncoras aprendíveis. Essas âncoras representam coordenadas espaciais no espaço da imagem, permitindo direcionar efetivamente o mecanismo de atenção para se concentrar em regiões informativas da imagem. Ao adotar o mecanismo autorregressivo, nosso método oferece flexibilidade no formato de saída, possibilitando lidar eficientemente com plantas baixas complexas, com numerosos cômodos e diversas estruturas poligonais. Nosso método alcança desempenho de ponta em referências padrão como Structure3D, CubiCasa5K e Raster2Graph, além de demonstrar forte generalização para conjuntos de dados mais desafiadores, como WAFFLE, que contêm estruturas de cômodos variadas e complexas variações geométricas.
O Modelo Segment Anything 2 (SAM2) apresenta forte generalização para segmentação orientável em clipes de vídeo; no entanto, sua integração com a modalidade de áudio permanece pouco explorada. Abordagens existentes ou convertem áudio em prompts visuais (e.g., caixas delimitadoras) por meio de modelos fundacionais, ou injetam adaptadores no codificador de imagem para fusão audiovisual. No entanto, ambas as direções são insuficientes em cenários com intervenção humana devido à precisão limitada dos prompts e ao aumento da sobrecarga de inferência. Em particular, esses métodos baseados em adaptadores frequentemente sofrem de diluição do prompt de áudio, onde o sinal enfraquece gradualmente à medida que se propaga pela rede. Neste trabalho, propomos o AuralSAM2, que integra áudio ao SAM2 enquanto preserva amplamente sua capacidade de segmentação orientável. Seu módulo central, o AuralFuser, funde características de áudio e visuais para gerar prompts esparsos e densos. Guiados pelo áudio e construídos sobre a pirâmide de características do SAM2, esses prompts propagam pistas auditivas pelas camadas visuais, reforçando a influência entre modalidades. Para alinhar ainda mais as modalidades, introduzimos uma perda contrastiva guiada por áudio que enfatiza a relevância auditiva nas características visuais dominantes. Nosso método alcança ganhos notáveis de precisão em benchmarks públicos com impacto mínimo na eficiência interativa da segmentação orientável. Nosso código está disponível em https://github.com/yyliu01/AuralSAM2.
Apresentamos o ProofGrid, um conjunto de benchmarks para avaliar o raciocínio de LLMs por meio de provas verificáveis por máquina, em vez de apenas respostas finais. O ProofGrid contém 15 tarefas que abrangem escrita de provas, verificação de provas, mascaramento de provas e preenchimento de lacunas em provas. As tarefas são expressas em notação formal mínima, especialmente NDL, uma linguagem compacta de dedução natural que cabe em prompts curtos e suporta verificação precisa e auditável. Isso proporciona uma avaliação mecânica, reproduzível e de granularidade fina, em vez de julgamentos feitos por humanos ou LLMs. O ProofGrid cobre um espectro de dificuldade calibrado, desde testes fundamentais de raciocínio até tarefas desafiadoras estruturalmente ricas que nenhum modelo atual resolve, ao mesmo tempo que minimiza a dependência de conhecimento de domínio, delegação a solucionadores e artefatos de contexto longo. Também desenvolvemos uma estrutura comparativa para benchmarks de raciocínio e a utilizamos para situar o ProofGrid em relação a trabalhos existentes em termos de representação, garantias de verificação e profundidade de raciocínio. Metodologicamente, introduzimos um pipeline instrumentado de verificação de provas que tolera pequenos desvios superficiais enquanto localiza a primeira falha substantiva de raciocínio, melhorando a resolução da medição e separando o planejamento da prova do ruído de execução de baixo nível. Usando esse pipeline, avaliamos uma ampla gama de modelos abertos e proprietários. Os resultados mostram progresso rápido, mas limites substanciais remanescentes: modelos de fronteira apresentam bom desempenho em várias tarefas fundamentais, mas tarefas difíceis, especialmente aquelas que exigem raciocínio combinatório global ou síntese de provas de baixo nível, permanecem longe de serem resolvidas. Também identificamos instabilidade epistêmica, na qual os modelos geram provas falhas, mas rejeitam corretamente essas inferências locais isoladamente, e formalizamos isso com um Índice de Estabilidade Epistêmica. Por fim, complementamos a acurácia com análises IRT 2PL, mapas de Wright e uma medida normalizada de discriminação de tarefas baseada na informação de Fisher.
À medida que agentes baseados em LLM navegam cada vez mais na web em nome dos usuários, surge uma pergunta natural: os sites podem identificar passivamente qual modelo subjacente alimenta um agente? Fazer isso representaria um risco de segurança significativo, possibilitando ataques direcionados adaptados a vulnerabilidades conhecidas do modelo. Em 14 LLMs de ponta e quatro ambientes web abrangendo tarefas de recuperação de informações e compras, mostramos que as ações de um agente e os tempos de interação, capturados por um rastreador JavaScript passivo, são suficientes para identificar o modelo subjacente com até 96% de F1. Formalizamos essa superfície de ataque demonstrando que classificadores treinados em ações de agentes generalizam entre tamanhos e famílias de modelos. Mostramos ainda que classificadores robustos podem ser treinados a partir de poucos traços de interação e que a identidade do agente pode ser inferida logo no início de um episódio. Injetar atrasos temporais aleatórios entre ações degrada substancialmente o desempenho do classificador, mas não oferece proteção robusta: um classificador retreinado com traços atrasados recupera em grande parte o desempenho. Disponibilizamos nosso harness e um corpus rotulado de traços de agentes em https://github.com/KabakaWilliam/known_actions{here}.
Modelos de Fundação Geoespaciais (GFMs, na sigla em inglês) foram propostos como backbones generalizáveis para resposta a desastres, mapeamento de cobertura do solo, monitoramento de segurança alimentar e outras tarefas de Observação da Terra de alto risco. No entanto, a literatura publicada sobre esses modelos não oferece a revisores ou usuários informações suficientes para determinar qual modelo se adequa a uma determinada tarefa. Argumentamos que ninguém sabe qual é o estado da arte atual em modelos de fundação geoespaciais. Os métodos podem ser úteis, mas a literatura sobre GFMs não padroniza avaliações, protocolos de treinamento e teste, pesos liberados ou controles de pré-treinamento de forma que permita compará-los ou classificá-los. Em uma auditoria de 152 artigos, encontramos 46 discordâncias entre artigos de pelo menos 10 pontos percentuais para o mesmo modelo, referência e protocolo; 94 dos 126 artigos com dados de pré-treinamento extraíveis utilizam uma configuração que nenhum outro artigo utiliza; e 39% dos artigos sobre GFMs não liberam pesos de modelo. Essa falta de padrões comunitários pode ser solucionada. Propomos seis expectativas concretas: liberação de pesos com licença nominal, avaliações centrais compartilhadas, anotações de linha de base copiadas versus reexecutadas, relato de variância, um arcabouço de avaliação compartilhado e controles de dados versus arquitetura versus algoritmo. Essas lacunas constituem uma falha de coordenação, não uma falha de nenhum laboratório individual; os autores deste artigo, como muitos outros na comunidade de GFMs, contribuíram para elas. Em vez de apenas criticar a comunidade, buscamos oferecer passos concretos rumo a um entendimento compartilhado de como inovar em GFMs.
A Recuperação Multilíngue de Informação é cada vez mais importante em cenários reais de busca, onde os usuários realizam consultas em corpora de idiomas mistos. As avaliações existentes recompensam principalmente a relevância semântica independente de idioma, tratando passagens relevantes igualmente independentemente do idioma. No entanto, a utilidade da recuperação também depende do idioma das passagens recuperadas: os usuários podem preferir resultados que possam ler e verificar no idioma da consulta, e a incompatibilidade de idioma entre consulta e passagem pode complicar a fundamentação downstream e a verificação de respostas em sistemas de Geração Aumentada por Recuperação. Para avaliar essa dimensão consciente de idioma, apresentamos o MLAIRE, um protocolo de Avaliação de Recuperação de Informação Multilíngue Consciente de Idioma que separa a recuperação semântica multilíngue da preferência pelo idioma da consulta. O MLAIRE constrói conjuntos controlados com passagens paralelas em vários idiomas, permitindo medir a precisão da recuperação semântica e a preferência pelo idioma da consulta quando traduções equivalentes estão disponíveis. Propomos métricas conscientes de idioma, incluindo a Taxa de Preferência de Idioma (LPR) e o Lang-nDCG, juntamente com uma decomposição em quatro vias que separa falhas de preferência semântica e de idioma da consulta. Avaliando 31 recuperadores densos, esparsos e de interação tardia, mostramos que métricas padrão obscurecem comportamentos distintos: recuperadores semanticamente fortes podem retornar conteúdo correto em um idioma diferente do da consulta, enquanto recuperadores com preferência mais forte pelo idioma da consulta podem recuperar passagens semanticamente menos relevantes.