Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de mundo para geração de vídeo interativa concentraram-se amplamente em configurações de agente único, onde observações futuras são geradas a partir de um único sinal de controle. No entanto, muitos ambientes gerados exigem interação multiagente: múltiplos jogadores, robôs ou agentes incorporados atuam simultaneamente em um espaço compartilhado. Escalar modelos de mundo para tais configurações requer um projeto multiagente fundamentado: os agentes devem permanecer independentemente controláveis, simétricos por permutação e suportar inferência eficiente, mantendo consistência ao longo do tempo e das perspectivas. Neste artigo, apresentamos nosso modelo de mundo multiagente generativo para simulação interativa. Ele introduz a Codificação Rotacional por Agentes Simplex, uma extensão sem parâmetros do RoPE 3D que representa agentes como vértices de um simplex regular no espaço de ângulos rotacionais. Isso atribui a cada agente uma fase distinta, tornando todos os agentes equivalentes por permutação, possibilitando uma identidade de agente escalável sem identidades aprendidas por ranhura ou uma ordenação fixa de agentes. Para evitar atenção densa de todos para todos entre agentes, propomos ainda a Atenção Hub Esparsa, onde tokens de hub aprendíveis mediam a interação de tokens entre agentes, reduzindo o custo de atenção entre agentes de quadrático para linear no número de agentes. Para implantação em tempo real, destilamos um professor de difusão de contexto completo em um aluno causal que gera blocos temporais sequencialmente com cache KV, permitindo geração responsiva a ações a 24 quadros por segundo. Experimentos em ambientes virtuais multijogador mostram que nosso modelo melhora a fidelidade do vídeo, a controlabilidade das ações e a consistência entre agentes em relação às linhas de base baseadas em ranhuras e atenção densa, generalizando de dois para quatro jogadores sem treinamento adicional.
Sistemas de Recomendação Proativos (PRSs) visam guiar a mudança de preferência do usuário em direção a itens-alvo, gerando caminhos de recomendações intermediárias. A aprendizagem por reforço (RL) fornece um arcabouço fundamentado para otimizar tais tarefas de decisão sequencial, pois as recompensas dos caminhos podem capturar naturalmente tanto a aceitação de curto prazo quanto a eficácia de orientação de longo prazo. No entanto, aplicar ingenuamente gradientes de política a PRSs resulta em estimação deficiente de gradientes. Identificamos duas deficiências: (1) recompensas em nível de caminho se decompõem em recompensas em nível de passo com média positiva, criando um viés dependente do comprimento que faz com que os gradientes favoreçam a extensão do caminho em detrimento da exploração significativa; (2) ponderar cada passo por toda a recompensa do caminho ignora a estrutura de decomposição, levando a alta variância do gradiente. Para corrigir essas duas deficiências, propomos um arcabouço eficaz de RL, ProRL, com dois mecanismos inovadores para recomendação proativa. Primeiro, a Centralização de Recompensa por Etapas subtrai as recompensas esperadas para neutralizar o viés dependente do comprimento, garantindo que a extensão do caminho produza sinal de gradiente esperado zero. Segundo, a Estimação de Vantagem Específica por Posição aproveita a estrutura de decomposição da recompensa para calcular linhas de base dependentes do passo, reduzindo a variância do gradiente. Juntos, esses mecanismos produzem gradientes de política que visam precisamente a qualidade do caminho. Nossos experimentos em três conjuntos de dados reais demonstram que o ProRL supera significativamente os PRSs do estado da arte. Nosso código está disponível em https://github.com/hongruhou89/ProRL.
Modelos de visão-linguagem com raciocínio estendido obtêm sucesso em problemas complexos, mas muitos problemas do mundo real exigem ferramentas externas que o raciocínio interno, por si só, muitas vezes não consegue resolver. O raciocínio agêntico, portanto, intercala dois comportamentos com uma assimetria estrutural: pensar (o padrão autossuficiente) e usar ferramentas (uma ação auxiliar de alta variância). Referimo-nos a essa assimetria como a Lacuna Pensamento-Ação. Sob receitas padrão de RL, como GRPO, a lacuna se manifesta por meio de dois sintomas diagnósticos durante o treinamento: o uso de ferramentas é tentado em apenas ~30% das rolagens e, quando tentado, as rolagens com uso de ferramentas dentro de um grupo estão todas erradas em ~40% das perguntas, suprimindo o sinal de aprendizado nas chamadas de ferramenta que dele necessitavam. Propomos AXPO (Agent eXplorative Policy Optimization): para cada subgrupo de uso de ferramentas totalmente errado, o AXPO fixa o prefixo de pensamento e reamostra a chamada de ferramenta e sua continuação, emparelhado com seleção de prefixo baseada em incerteza. Em nove benchmarks multimodais e três escalas do Qwen3-VL-Thinking, o SFT+AXPO supera o SFT+GRPO em média (+1,8pp Pass@1 e +1,8pp Pass@4 em 8B na média) e o 8B com SFT+AXPO ultrapassa o Base 32B em Pass@4 com 4 vezes menos parâmetros.
Os atuais modelos de visão-linguagem (VLMs) tipicamente costuram codificadores de imagem e decodificadores de linguagem separados por meio de alinhamento em múltiplos estágios, uma estrutura modular que inevitavelmente fragmenta sinais em nível de pixel entre quadros e dispersa interações precoces entre pixel e palavra. Paralelamente, VLMs nativos, apesar do desempenho impressionante em imagens únicas, permanecem em grande parte inexplorados em compreensão de múltiplas imagens, vídeos e inteligência espacial. Assim, introduzimos o NEO-ov, um modelo nativo fundamental que aprende correspondência entre quadros e entre pixel e palavra de ponta a ponta, sem quaisquer codificadores externos, adaptadores auxiliares ou fusão post-hoc. Ao eliminar totalmente as fronteiras entre módulos, o NEO-ov permite que uma modelagem espaço-temporal unificada e refinada emerga nativamente dentro do modelo. Notavelmente, o NEO-ov reduz amplamente a lacuna em relação a contrapartes modulares, ao mesmo tempo que se destaca na percepção visual refinada, validando que arquiteturas nativas de "uma visão" não são apenas viáveis, mas competitivas em escala. Além do desempenho empírico, revelamos análises arquitetônicas sistemáticas e receitas detalhadas de treinamento para facilitar a subsequente modelagem multimodal nativa. Nosso código e modelos estão disponíveis publicamente em: https://github.com/EvolvingLMMs-Lab/NEO.
A busca tem sido proposta como um método eficaz para modelos de linguagem e sistemas agentivos que se autoaprimoram, tanto para geração de amostras em pós-treinamento quanto para inferência. No entanto, métodos amplamente utilizados, como a amostragem de melhor de N e a busca em árvore, enfrentam duas limitações fundamentais: são guiados por sinais de verificação esparsos e constroem candidatos principalmente por meio de expansão autorregressiva, restringindo a exploração a regiões com massa de probabilidade substancial do modelo. Para lidar com essas questões, propomos o Busca Evolutiva Bidirecional (BES), um arcabouço de busca que acopla a evolução direta de candidatos com a decomposição reversa de objetivos. Na busca direta, o BES aumenta a expansão padrão com operadores evolutivos que recombinam trajetórias parciais para gerar candidatos difíceis de obter a partir de um único rollout do modelo. Na busca reversa, o BES decompõe recursivamente a tarefa original em subobjetivos verificáveis, produzindo feedback intermediário denso que orienta a busca direta. Fornecemos motivação teórica mostrando que candidatos gerados apenas por expansão estão confinados a uma casca de entropia estreita, enquanto operadores evolutivos podem escapar dela, e que a busca reversa pode reduzir exponencialmente o número de amostras necessárias para encontrar uma resposta correta. Experimentos mostram que, em tarefas desafiadoras de pós-treinamento onde algoritmos tradicionais de pós-treinamento não conseguem melhorar, o BES proporciona ganhos consistentes; e, em três referenciais de resolução de problemas abertos em tempo de inferência, o BES supera arcabouços de código aberto existentes tanto no desempenho médio quanto no de melhor caso. O código e os modelos treinados estão disponíveis em https://github.com/Embodied-Minds-Lab/BES.
A fronteira da matemática é definida por problemas cujas soluções ainda são desconhecidas, mas permanece incerto se modelos de linguagem podem se envolver significativamente com tais problemas sem intervenção humana. Um grande obstáculo é a falta de conjuntos de dados matemáticos de nível de pesquisa em larga escala. Para esse fim, apresentamos o ResearchMath-14k, um conjunto de 14.056 problemas selecionados de fontes acadêmicas por meio de um pipeline multiagente, tornando-o a maior coleção de problemas matemáticos de nível de pesquisa até o momento. Além disso, geramos o ResearchMath-Reasoning, 220 mil trajetórias de professor a partir de dois modelos abertos, onde observamos comportamentos recorrentes de evitação, como não tentativas e referências fabricadas. Curiosamente, em oito modelos de pesos abertos, as gerações mais recentes produzem 5,6 vezes mais referências e 5,0 vezes mais referências falsas por traço. Após a filtragem agêntica do ResearchMath-Reasoning, o ajuste fino dos modelos Qwen3 entre 4B e 30B de parâmetros melhora, em média, 9,2 pontos em relação aos modelos base. Isso mostra que tentativas filtradas de problemas abertos podem fornecer supervisão útil mesmo sem traços de raciocínio totalmente corretos. Disponibilizamos o ResearchMath-14k publicamente para trabalhos futuros sobre raciocínio matemático de nível de pesquisa.
O aprendizado por reforço tornou-se um paradigma central para o avanço do raciocínio em grandes modelos de linguagem, mas a maioria dos métodos existentes ainda depende de modelos professores mais fortes ou de conjuntos de dados difíceis fortemente curados, limitando a melhoria escalável de capacidades. Neste artigo, apresentamos o DenoiseRL, uma estrutura de aprendizado por reforço que substitui a supervisão externa por otimização orientada à recuperação sobre falhas de modelos fracos. Em vez de depender de supervisão mais forte ou de dados cuidadosamente projetados, o DenoiseRL aprende diretamente de traços de raciocínio incorretos, convertendo-os em oportunidades de melhoria, tornando o treinamento mais escalável e menos dependente de recursos externos. Isso produz um sinal de aprendizado mais rico e diverso, melhorando a eficiência da exploração a partir do comportamento imperfeito do modelo. Como resultado, o DenoiseRL melhora o desempenho do raciocínio e a eficiência geral do treinamento, ao mesmo tempo que reduz a necessidade de curadoria de dados cara ou de modelos professores mais fortes. Empiricamente, o DenoiseRL supera consistentemente fortes baselines de RL on-policy em benchmarks competitivos de raciocínio matemático e geral, e promove um comportamento autocorretivo mais forte à medida que a dificuldade do treinamento aumenta, destacando um caminho alternativo eficaz e escalável para melhorar o raciocínio em grandes modelos de linguagem.
Modelos de Visão-Linguagem (VLMs) incorporados demonstraram desempenho e generalização impressionantes em robótica, particularmente em estruturas de Visão-Linguagem-Ação. No entanto, permanece uma lacuna significativa entre o foco semântico de alto nível dos paradigmas padrão de pré-treinamento guiados por texto e o conhecimento espacial e físico de baixo nível, crítico para a execução em ambientes incorporados. Neste artigo, apresentamos o GEM, um modelo de visão-linguagem incorporado com supervisão generativa, projetado para superar essa divisão. Propomos a integração de uma tarefa de geração de mapa de profundidade diretamente na fase de pré-treinamento do VLM. Ao treinar esse objetivo generativo juntamente com o modelo principal, observamos melhorias substanciais na inteligência incorporada, aprimorando significativamente tanto a compreensão semântica quanto as capacidades de operação física. Para apoiar esse paradigma, organizamos e disponibilizamos o GEM-4M, um conjunto abrangente de dados em larga escala que combina dados de fundamentação, raciocínio e planejamento, emparelhados com supervisão de profundidade de alta qualidade. Experimentos extensivos demonstram que o GEM alcança resultados de ponta em diversos benchmarks incorporados. Além disso, nosso modelo de ação implantado, GEM-VLA, exibe capacidades de execução de tarefas muito superiores tanto em ambientes de simulação quanto em avaliações no mundo real. Código, modelos e conjuntos de dados estão disponíveis em https://zhaorw02.github.io/GEM/
A memória é essencial para permitir que modelos de linguagem de grande escala suportem raciocínio de longo horizonte, no entanto, os sistemas de memória existentes permanecem pouco confiáveis e difíceis de depurar. Rastrear a evolução dinâmica da memória é crucial para entender como a informação é sintetizada, propagada ou corrompida ao longo do tempo. Neste trabalho, estudamos o novo problema de rastreamento e atribuição de erros em sistemas de memória de LLMs. Propomos uma nova estrutura que transforma pipelines de memória em gráficos executáveis de evolução da memória, permitindo o rastreamento refinado do fluxo operacional de informação. Em seguida, construímos o MemTraceBench, um benchmark coletado a partir de sistemas de memória representativos, como Long-Context, RAG, Mem0 e EverMemOS, para estudar sistematicamente os modos de falha de memória. Além disso, introduzimos um método automático de atribuição que rastreia iterativamente subgráficos de operação para identificar a causa raiz de qualquer caso de falha. Nossa análise revela que as falhas de memória são sistemáticas, decorrentes de problemas no nível da operação, como perda de informação e desalinhamento na recuperação. Crucialmente, aproveitamos esses sinais de atribuição refinados para orientar a otimização de prompts a jusante, estabelecendo um sistema em malha fechada que corrige automaticamente falhas e melhora o desempenho da tarefa final em até 7,62%. O código será disponibilizado em https://github.com/zjunlp/MemTrace.
Agentes de uso de computador (CUAs) alcançaram recentemente progressos substanciais, mas implantar um grande especialista separado para cada domínio de software permanece caro. Agentes pequenos e abertos de uso de computador são alvos de especialização mais práticos, mas permanecem substancialmente mais fracos e exibem falhas específicas de domínio desiguais. Uma solução direta é sintetizar dados de treinamento em larga escala para o domínio alvo; no entanto, descobrimos que essa abordagem ingênua produz apenas melhorias marginais. Com base nessa observação, apresentamos o LearnWeak, um framework de especialização sem anotação para agentes pequenos de uso de computador que utiliza um agente de referência mais forte para identificar as fraquezas do aluno no domínio alvo, sintetizar tarefas direcionadas e construir supervisão automaticamente. O LearnWeak introduz ainda um objetivo de especialização ciente de erros que separa erros de planejamento e execução, permitindo atualizações comportamentalmente mais precisas do que a supervisão uniforme ampla. No OSWorld, o LearnWeak alcança ganhos médios de 11,6 e 11,1 pontos percentuais sobre o EvoCUA-8B e o OpenCUA-7B, respectivamente, em oito domínios. Também validamos que nossa geração de dados e abordagens de treinamento cientes do aluno superam as linhas de base existentes de geração autônoma de trajetórias e treinamento. Nosso trabalho destaca a importância da consciência do aluno tanto na síntese de dados quanto no treinamento do agente, apontando para um caminho mais fundamentado e eficiente para especializar agentes pequenos de uso de computador em diversos domínios.
Agentes de pesquisa autônomos produzem soluções competitivas e manuscritos com aparência profissional, porém seus resultados contêm falhas de verificabilidade que são indetectáveis por avaliação superficial: citações fabricadas, pontuações irreproduzíveis e descrições de métodos que divergem da implementação. Abordamos isso por meio de três contribuições. Primeiro, a Cadeia de Evidências (CoE, do inglês *Chain-of-Evidence*), um framework de verificabilidade que exige que cada afirmação seja rastreável até sua fonte de evidência. Segundo, o ScientistOne, um sistema de pesquisa autônomo ponta a ponta que mantém cadeias de evidência por construção ao longo da revisão bibliográfica, descoberta de soluções e redação de artigos. Terceiro, a Auditoria CoE, uma auditoria *post-hoc* cujos quatro testes de integridade — verificação de pontuação, violação de especificação, verificação de referências e alinhamento método-código — aplicam-se uniformemente a todos os sistemas. Em 75 artigos abrangendo cinco sistemas e cinco tarefas de pesquisa de fronteira, cada linha de base exibe pelo menos um modo de falha sistemático: taxas de referência alucinada atingem 21%, a verificação de pontuação é aprovada em apenas 42% dos artigos, e o alinhamento método-código varia de 20% a 80%. O ScientistOne alcança zero referências alucinadas (0/337), verificação de pontuação perfeita (12/12) e o maior alinhamento método-código (14/15), igualando ou superando o desempenho de especialistas humanos em todas as cinco tarefas. O ScientistOne ainda generaliza para seis tarefas adicionais abrangendo imageamento médico, reconhecimento de granulação fina, percepção 3D e modelagem de linguagem, alcançando estado da arte no Parameter Golf e medalhas de ouro em tarefas do MLE-Bench onde as linhas de base falham completamente.
Agentes de pesquisa em IA agora podem gerar ideias de pesquisa, projetar experimentos, executar código e redigir artigos, levantando a possibilidade de descobertas científicas assistidas por IA em larga escala. Muitos arcabouços atuais de agentes incentivam explicitamente a geração de ideias novas e de alto impacto. No entanto, ainda não está claro se a ideação assistida por IA amplia a exploração científica ou se concentra principalmente em trabalhos existentes. Estudamos agentes de pesquisa em IA como sistemas de busca científica. Utilizando quatro arcabouços de agentes de pesquisa em IA e seis grandes modelos de linguagem, geramos 37.802 ideias científicas a partir de uma literatura de partida compartilhada, abrangendo áreas de pesquisa definidas por citações em IA e aprendizado de máquina. Em seguida, comparamos as ideias resultantes da IA com artigos escritos por humanos das mesmas áreas de pesquisa, com pesquisas humanas posteriores emergindo da mesma literatura de partida e com a própria literatura de partida. Ao longo dos experimentos, quatro padrões consistentes emergem. Primeiro, as ideias geradas por IA são substancialmente mais concentradas do que os artigos escritos por humanos das mesmas áreas de pesquisa. Segundo, as ideias geradas por IA permanecem muito mais próximas de sua literatura de partida do que os trabalhos humanos subsequentes. Terceiro, artigos mais semelhantes às ideias geradas por IA tendem a receber menos citações posteriores. Quarto, quando as ideias geradas por IA diferem de trabalhos anteriores, as diferenças surgem principalmente da recombinação de métodos técnicos existentes, e não da introdução de questões de pesquisa fundamentalmente novas. No geral, os atuais agentes de pesquisa em IA parecem mais adequados para a elaboração local do que para ampliar a exploração científica.
Agentes de LLM aumentados por memória frequentemente tratam a memória como um repositório estático com representações predefinidas e pipelines de recuperação fixos, o que se mostra frágil em ambientes agentivos dinâmicos, onde feedback, variação de tarefas e sinais heterogêneos remodelam continuamente o que deve ser lembrado e como deve ser conectado. Para abordar isso, propomos o FluxMem, uma estrutura de memória com conectividade evolutiva que modela a memória como um grafo heterogêneo e refina progressivamente sua topologia por meio de três estágios: formação inicial de conexões, refinamento orientado por feedback e consolidação de longo prazo. Durante a execução, o FluxMem repara links ausentes, poda interferências, alinha a granularidade da abstração e destila trajetórias recorrentes bem-sucedidas em circuitos processuais reutilizáveis, guiado por uma métrica de generalizabilidade da memória e maturidade evolutiva. Em três benchmarks fundamentalmente distintos, incluindo LoCoMo, Mind2Web e GAIA, o FluxMem alcança desempenho de estado da arte consistente, demonstrando forte adaptação e generalização em ambientes agentivos complexos. O código será disponibilizado como código aberto em https://github.com/zjunlp/LightMem.
Modelos de linguagem Transformer causais sofrem com decodificação estritamente sequencial e um custo quadrático de atenção por etapa. Embora modelos causais de tempo linear e modelos de difusão discreta abordem cada uma dessas fraquezas, sua integração permanece inerentemente inconsistente: a difusão requer atenção bidirecional, enquanto os modelos causais são unidirecionais. Para unificar essas arquiteturas, propomos o B^3D-RWKV, uma variante do RWKV de difusão que integra a eficiência de inferência O(L) do modelo com difusão discreta bidirecional paralela por meio de um método de disposição de blocos triplos. O B^3D-RWKV-7.2B atinge precisão comparável em um conjunto de 8 tarefas em relação aos modelos existentes, superando significativamente as linhas de base em taxa de decodificação, com uma aceleração média de 1,6 vezes.
As habilidades de agente fornecem uma forma leve de adaptar agentes LLM a domínios especializados, armazenando conhecimento procedural reutilizável em arquivos estruturados. No entanto, sejam baixadas de terceiros ou auto-geradas, essas habilidades são frequentemente não confiáveis, incompletas ou desatualizadas. Métodos existentes de evolução de habilidades frequentemente abordam essas deficiências por meio de reflexões heurísticas, sem uma formulação explícita de otimização. Neste artigo, propomos SkillGrad, uma estrutura inspirada em gradiente descendente para otimizar habilidades de agente. O SkillGrad trata o pacote de habilidades como um parâmetro estruturado a ser otimizado à maneira do gradiente descendente: execuções de tarefas fornecem evidência de perda em nível de trajetória, e diagnósticos automáticos então oferecem gradientes baseados em texto que indicam as direções de correção. Para estabilizar a otimização ao longo das iterações, um agente de momentum acumula padrões recorrentes de diagnóstico em uma sobreposição de memória persistente. Por fim, um patcher baseado em LLM executa a atualização de parâmetros aplicando edições cientes de camadas ao pacote de habilidades. Avaliado no SpreadsheetBench Verified e no WikiTableQuestions, o SkillGrad supera consistentemente as linhas de base de evolução de habilidades baseadas em treinamento em dois LLMs base, melhorando a linha de base baseada em treinamento mais forte em 6,7 pontos percentuais em média. Ablações mostram ainda que tanto o momentum quanto o diagnóstico contrastivo contribuem para a qualidade final da habilidade.
Transformers de Difusão alcançam alta qualidade na geração de vídeos, mas o custo quadrático da atenção completa limita a eficiência. Apresentamos o OSP-Next, um modelo eficiente de geração de texto para vídeo que integra atenção esparsa, paralelismo, quantização e aprendizado por reforço. O OSP-Next utiliza uma arquitetura de atenção híbrida completa-esparsa, onde o componente esparso é implementado com a Skiparse-2D Attention. Esse mecanismo de padrão fixo aplica atenção esparsa por token e por grupo ao longo das dimensões espaciais, aproveitando a localidade enquanto mantém compatibilidade nativa com kernels FlashAttention. Com base na equivalência local do rearranjo na Skiparse-2D Attention, propomos ainda o Paralelismo de Sequência Esparsa (SSP), que particiona subsequências entre ranks e alterna padrões esparsos por meio de uma única comunicação All-to-All. Em comparação com o Paralelismo de Sequência Ulysses (SP), o SSP fornece uma estratégia de paralelismo nativa para atenção esparsa e reduz o volume de comunicação em 75%. O OSP-Next também incorpora a quantização HiF8 para permitir treinamento conjunto estável com quantização de 8 bits e ajuste fino esparso, e aplica pós-treinamento Mix-GRPO para melhorar o desempenho do modelo esparso. Experimentos mostram que o OSP-Next atinge uma pontuação total no VBench de 83,73%, superando a linha de base Wan2.1. Nas configurações de 5 segundos 720P e 5 segundos 768P, o OSP-Next obtém uma aceleração de até 1,64 vezes em GPU única e mais de 1,52 vezes em oito GPUs NVIDIA H200. Além disso, com apenas uma queda de 0,4% na pontuação total do VBench, o OSP-Next-HiF8 alcança acelerações de 1,69 vezes e 2,27 vezes nas duas configurações em uma única Ascend 950PR, demonstrando a eficiência e o desempenho do OSP-Next em diferentes plataformas de hardware.
Apesar do rápido progresso dos modelos multimodais de linguagem de grande escala na construção de agentes de Interface Gráfica do Usuário (GUI), sua conclusão de tarefas no mundo real é fundamentalmente limitada pela falta de conhecimento mundial sobre operações de GUI. Soluções existentes geralmente dependem de caríssimas arquiteturas multiagentes ou paradigmas convencionais de pós-treinamento, como Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço (RL). No entanto, o pós-treinamento apenas permite que os agentes absorvam conhecimento mundial implicitamente por meio de anotações de ações ou sinais de recompensa, resultando em memorização ineficiente de trajetórias, em vez de compreensão genuína. Portanto, é imperativa uma abordagem que possibilite o aprendizado explícito desse conhecimento. Para esse fim, propomos o GUI-CIDER, um método de treinamento intermediário que internaliza explicitamente o conhecimento mundial de GUI por meio de Internalização Causal e Re-seleção de Exemplos Sensível à Densidade. O GUI-CIDER opera em três estágios: (1) síntese de dados, que destila conhecimento estático de planejamento e conhecimento causal dinâmico de trajetórias de GUI em texto; (2) re-seleção de exemplos, que filtra o corpus recompensando estruturas causais e penalizando redundância semântica; e (3) treinamento intermediário, onde os dados refinados são usados para incorporar o conhecimento adquirido. Experimentos extensivos em dois benchmarks de conhecimento de GUI e três benchmarks de conclusão de tarefas demonstram que o GUI-CIDER melhora consistentemente tanto a compreensão do agente sobre operações de GUI quanto suas taxas de sucesso em tarefas. Os códigos estão disponíveis em https://github.com/Wuzheng02/GUI-CIDER.
Avanços recentes em aprendizado por reforço online (RL) para grandes modelos de linguagem (LLMs) demonstraram desempenho promissor em tarefas complexas de raciocínio. No entanto, eles frequentemente exibem uma compensação desequilibrada entre exploração e explotação, resultando em otimização instável e desempenho subótimo. Apresentamos o IB-Score, uma nova métrica fundamentada na teoria do Gargalo da Informação que avalia o equilíbrio entre exploração e explotação da política, quantificando a compensação entre a diversidade de raciocínio em nível de passo e a informação mútua compartilhada com a resposta correta. Análises baseadas no IB-Score mostram que abordagens populares de RL online (por exemplo, GRPO) com regularizadores comuns não conseguem manter consistentemente o equilíbrio durante o treinamento, resultando em resultados subótimos. Para resolver isso, propomos o Information Bottleneck-driven Tree-based Policy Optimization (IB-TPO), uma estrutura fundamentada que formula o IB-Score como um objetivo de otimização refinado e utiliza uma nova estratégia de amostragem em árvore guiada por IB que não apenas melhora a eficiência da amostragem online com 50% mais trajetórias sob o mesmo orçamento de tokens, mas também reutiliza a estrutura da árvore para uma estimação Monte Carlo eficaz do IB-Score. Extensos experimentos em benchmarks padrão mostram que nosso método supera significativamente a linha de base GRPO em 2,9% a 3,6% e também supera outras abordagens de RL online de última geração. Nosso código está disponível em https://github.com/alibaba/EfficientRL.
A direção autônoma de ponta a ponta por meio de modelos Visão-Linguagem-Ação (VLA) exige um equilíbrio delicado entre planejamento de trajetória de alta fidelidade e inferência eficiente. Os paradigmas existentes geralmente são insuficientes: VLAs autorregressivos (AR) são limitados pela largura de banda da memória em hardware de borda e propensos ao desvio de viés de exposição, enquanto modelos de difusão de sequência completa impedem a reutilização de cache KV e sofrem de "vazamento lógico" que viola a causalidade fundamental de perceber-depois-planejar. Apresentamos o Fast-dDrive, um VLA de difusão por blocos que realiza refinamento bidirecional dentro de unidades semânticas, ao mesmo tempo que impõe ordenação causal estrita entre elas. Aproveitando a observação de que VLAs de direção frequentemente emitem saídas estruturadas semelhantes a JSON, o Fast-dDrive congela tokens estruturais em um arcabouço de seção e emprega uma receita de treinamento ciente de seção que prioriza o planejamento crítico para segurança. Introduzimos ainda a Decodificação Especulativa com Arcabouço para alcançar qualidade equivalente a AR com vazão significativamente maior. Por fim, propomos um esquema de escalonamento em tempo de teste de baixo custo: ao bifurcar N trajetórias estocásticas a partir de um único cache KV de prefixo compartilhado e calculá-las em média, suprimimos efetivamente a variância de previsão a um custo computacional fracionário. Resultados empíricos demonstram que o Fast-dDrive redefine a fronteira velocidade-precisão para agentes de direção. No conjunto de teste WOD-E2E, o Fast-dDrive atinge ADE@3s e ADE@5s de estado da arte, juntamente com o maior RFS entre VLAs baseados em difusão; no nuScenes, reduz o erro L2 médio para 0,32m (uma melhoria de 22%). Quando integrado ao SGLang, nosso framework oferece aceleração de vazão de 12 vezes em relação à linha de base AR, reduzindo a lacuna entre VLAs de alta capacidade e as demandas de eficiência da implantação em tempo real em veículos.
Agentes de IA de longa duração estão cada vez mais sendo implantados como sistemas operacionais persistentes, mas ainda são avaliados como modelos recém-inicializados. Benchmarks de primeiro dia ignoram uma questão fundamental de sistemas: por quanto tempo um agente permanece confiável após a implantação? Mesmo quando os pesos do modelo são congelados, o estado efetivo do agente continua mudando à medida que ele comprime o histórico de interações, recupera informações de um repositório de memória em crescimento, revisa fatos após atualizações e passa por manutenção de rotina. A confiabilidade torna-se, portanto, uma propriedade de ciclo de vida de todo o arcabouço do agente, e não apenas uma propriedade instantânea do modelo base. Apresentamos o AgingBench, um benchmark de confiabilidade longitudinal para engenharia de ciclo de vida de agentes: medindo não apenas se agentes implantados degradam, mas também qual forma a degradação assume e onde o reparo deve ser direcionado. O AgingBench organiza o envelhecimento de agentes em quatro mecanismos: envelhecimento por compressão, envelhecimento por interferência, envelhecimento por revisão e envelhecimento por manutenção. Para diagnosticar essas falhas, o AgingBench utiliza gráficos de dependência temporal e sondas contrafactuais emparelhadas que produzem perfis diagnósticos para os estágios de escrita, recuperação e utilização do pipeline de memória. Em 7 cenários, 14 modelos, múltiplas políticas de memória e agentes tanto controlados por executor quanto autônomos, cerca de 400 execuções abrangendo de 8 a 200 sessões mostram que o envelhecimento de agentes não é unidimensional: testes comportamentais podem permanecer limpos enquanto a precisão factual decai; o rastreamento de estados derivados pode colapsar abruptamente dentro de um único modelo; e a mesma resposta errada pode exigir reparos diferentes, dependendo do perfil diagnóstico apontado. Esses resultados sugerem que a implantação confiável de agentes requer avaliação de ciclo de vida, diagnóstico em nível de mecanismo e reparo direcionado por estágio, e não apenas modelos de primeiro dia mais robustos.
Apresentamos o GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), um simulador de mundo de vídeo em malha fechada para manipulação robótica. Baseado na estrutura de geração de vídeo condicionada por ações do Genie Envisioner, o GE-Sim 2.0 é retreinado em milhares de horas de dados robóticos reais, abrangendo teleoperação, interação com contato rico e implantação de políticas no robô, melhorando substancialmente a fidelidade de seguimento de ações e a cobertura de trajetórias. Sobre essa base, três novos módulos fecham o ciclo da simulação de vídeo para o aprendizado de políticas: um especialista de estado que decodifica o estado proprioceptivo a partir de latentes de vídeo para suportar a previsão de próximos blocos por políticas VLA downstream; um juiz de mundo que avalia as sequências geradas em relação às instruções de tarefa, fornecendo sinais de sucesso e recompensas verificáveis por máquina em substituição à inspeção manual; e uma estrutura de aceleração que gera 25 quadros em 2,3 segundos em uma única H100, com pulo de até 4× quadros na inferência para avaliação de horizonte longo. O GE-Sim 2.0 lidera o ranking público do WorldArena com apenas 2 bilhões de parâmetros, superando tanto modelos de mundo robóticos dedicados quanto geradores de vídeo gerais de código fechado, e as políticas treinadas com suas sequências e recompensas se traduzem em ganhos mensuráveis no mundo real, estabelecendo o GE-Sim 2.0 como uma plataforma prática para avaliação escalável e aprendizado em malha fechada de políticas de manipulação.
Os internos do modelo codificam informações ricas sobre como um modelo de linguagem de grande porte (LLM) processa seus dados de treinamento; no entanto, a engenharia de dados pós-treinamento depende amplamente de sinais externos e ignora os sinais intrínsecos ricos presentes nos internos do modelo. Propomos o SAERL, uma estrutura de engenharia de dados para aprendizado por reforço (RL) em LLMs. Ele modela três propriedades intrínsecas dos dados: diversidade, dificuldade e qualidade, utilizando internos do modelo extraídos com Autoencoder Esparso (SAE), uma ferramenta avançada de interpretabilidade mecanicista. Cada propriedade fundamenta uma operação concreta de engenharia de dados: agrupamento no espaço SAE com mistura moderada de lotes para controle de diversidade de lotes, uma proxy de dificuldade para ordenação curricular do fácil ao difícil e uma sonda de qualidade para filtragem de dados. O SAERL melhora a precisão média em 3,00% em relação ao GRPO vanilla e atinge a precisão alvo com 20% menos etapas de treinamento no Qwen2.5-Math-1.5B, com ganhos consistentes em diferentes escalas de modelo e algoritmos de RL. Experimentos mostram que o SAE é transferido eficazmente entre famílias e escalas de modelo, funcionando como uma ferramenta de engenharia de dados leve e reutilizável. Esses resultados demonstram que os internos do modelo são uma fonte poderosa e prática de sinais para a engenharia de dados pós-treinamento.
Agentes de busca baseados em LLMs estão genuinamente pesquisando ou usando a web para verificar o que já sabem? Estudamos esta questão no BrowseComp com três diagnósticos. Nossa análise revela Dependência de Conhecimento Intrínseco (IKD): mesmo com acesso a ferramentas, os agentes frequentemente dependem de conhecimento intrínseco — informações codificadas no modelo antes da recuperação — em vez de evidências externas. Os agentes respondem até 44,5% das perguntas do BrowseComp sem ferramentas, geram mais da metade de suas consultas de busca a partir de hipóteses produzidas internamente, em vez de pistas recuperadas, e apresentam desempenho inferior às linhas de base de livro fechado quando as evidências que sustentam as respostas são removidas. Esses resultados sugerem que benchmarks de busca estáticos podem recompensar a verificação apoiada pela memória, em vez da descoberta orientada por evidências, confundindo o que os agentes já sabem com o que podem encontrar. Em seguida, apresentamos o LiveBrowseComp, um benchmark de busca profunda projetado para avaliar agentes além da cobertura intrínseca. Ele contém 335 perguntas elaboradas por humanos, cujas respostas dependem de fatos publicados nos 90 dias anteriores à construção do benchmark, extraídos de seis fontes atualizadas e filtrados para excluir eventos globalmente salientes. No LiveBrowseComp, todos os agentes avaliados ficam abaixo de 2% de precisão de livro fechado, as pontuações com aumento de busca caem de 25 a 40 pontos em relação ao BrowseComp, e as classificações prévias dos modelos não preveem mais o desempenho de forma confiável. O LiveBrowseComp está disponível em https://huggingface.co/datasets/Forival/LiveBrowseComp.
Modelos de linguagem de grande escala com raciocínio híbrido (LLMs) expõem controles explícitos sobre o esforço de raciocínio, permitindo que usuários ou sistemas façam um compromisso entre a qualidade da resposta e o custo de inferência. No entanto, os métodos existentes para seleção adaptativa do modo de pensamento são tipicamente avaliados sob diferentes modelos, conjuntos de dados e pressupostos de implementação, dificultando a comparação de seu comportamento prático. Apresentamos o HRBench, uma estrutura de avaliação unificada para estudar a alternância de modos de pensamento em LLMs com raciocínio híbrido. O HRBench organiza o espaço de design em dois eixos: três famílias de estratégias de alternância — seleção baseada em prompt, roteamento externo e execução especulativa — e quatro regimes de treinamento — livre de treinamento, SFT, RL offline e RL online —, resultando em 12 configurações de avaliação controladas. Avaliamos essas configurações em 6 LLMs, do Qwen3.5-2B ao Kimi-K2.5-1.1T, e em 5 benchmarks de raciocínio que abrangem matemática, ciências e código, reimplementando mais de 12 métodos representativos anteriores dentro do mesmo pipeline. Nossa análise caracteriza como diferentes estratégias de alternância ocupam regiões distintas de compromisso entre eficácia e eficiência: métodos baseados em prompt frequentemente oferecem compromissos favoráveis entre tokens e precisão, métodos de roteamento proporcionam redução de custo mais estável, e métodos especulativos tendem a melhorar a precisão a um custo maior de tokens. Adicionalmente, constatamos que o treinamento afeta as estratégias de maneira diferente, e que a estratégia preferida varia com a escala do modelo e o domínio da tarefa. O HRBench fornece implementações de referência e uma plataforma de avaliação unificada para apoiar pesquisas mais controladas sobre raciocínio eficiente em LLMs com raciocínio híbrido. Nossos dados, código e repositório estão disponíveis em https://github.com/usail-hkust/HRBench.
A destilação on-policy surgiu recentemente como uma alternativa promissora à imitação padrão em nível de sequência, treinando um aluno ao pontuar seus próprios rollouts com um modelo professor. No entanto, observamos o problema de "Decaimento do Professor Off-Policy" neste paradigma: para os tokens posteriores, com a trajetória anterior do aluno como contexto que é off-policy para o professor, a capacidade do professor de produzir uma pontuação corretiva decai, podendo regredir ao comportamento de conclusão de token aprendido na fase de pré-treinamento. Verificamos empiricamente esse problema e propomos o Rollout de Parada Antecipada (ESR) para corrigi-lo: uma estratégia de destilação simples, porém eficaz, que simplesmente restringe a geração do rollout aos primeiros tokens de resposta. Mostramos que o ESR supera o desempenho do OPD com rollout completo em diferentes tamanhos de modelo, famílias, tarefas e regimes de treinamento, além de exibir eficiência de GPU e estabilidade de treinamento muito maiores, especialmente em cenários entre famílias de modelos. Investigamos ainda o mecanismo por trás desse desempenho surpreendente e descobrimos os efeitos de "Alinhamento em Cascata" e "Compromisso com Sub-modo" do ESR, que podem explicar por que ele funciona de forma eficaz e, às vezes, até supera o desempenho do modelo professor. Além disso, mostramos que essa estratégia de seleção de tokens baseada em posição não pode ser totalmente explicada pela divergência KL e pelos sinais de entropia.
Para permitir uma interação confiável de longo prazo, agentes de LLM necessitam de um sistema de memória que possa armazenar fielmente, recuperar eficientemente e raciocinar profundamente sobre o histórico acumulado de diálogos. A maioria dos métodos existentes adota um paradigma baseado em fatos extraídos: prompts estáticos artesanais comprimem diálogos brutos em fatos atômicos, que são então armazenados, combinados e injetados no raciocínio downstream. No entanto, tais projetos centrados em fatos inevitavelmente descartam detalhes finos dos diálogos originais e não conseguem suportar raciocínio profundo sobre fatos isolados dispersos. Além disso, prompts estáticos não conseguem manter granularidade de extração consistente em diversos estilos de diálogo. Para abordar essas limitações, propomos o TriMem, que mantém três granularidades de representação coexistentes: segmentos brutos de diálogo ancorados por identificadores de fonte para fidelidade de armazenamento, fatos atômicos extraídos para recuperação eficiente de memória e perfis sintetizados que agregam fatos dispersos em uma compreensão semântica holística para raciocínio profundo. Adotamos ainda a otimização de prompts baseada em TextGrad, que refina iterativamente os prompts de extração e perfil por meio de feedback da qualidade das respostas, alcançando evolução ao longo da vida sem qualquer atualização de parâmetros. Experimentos extensos nos benchmarks LoCoMo e PerLTQA com múltiplos backbones de LLM demonstram que o TriMem supera consistentemente fortes linhas de base de memória. O código está disponível em https://TMLR-TriMem.github.io .
Modelos de Linguagem de Grande Escala (LLMs) modernos são frequentemente criticados por produzirem textos repetitivos e homogêneos, apesar de possuírem vastos vocabulários latentes. Embora pesquisas anteriores tenham se concentrado no conhecimento do modelo e nos dados de treinamento, investigamos o papel da mecânica de decodificação na supressão da diversidade linguística. Introduzimos a Pontuação de Cobertura de Palavras (WCS, do inglês *Word Coverage Score*), uma métrica que quantifica o grau em que o vocabulário humano contextualmente apropriado é matematicamente podado por filtros de amostragem padrão (por exemplo, Top-p, Top-k e Min-p). Em vez de avaliar o conhecimento estático, a WCS mede a taxa de sobrevivência lexical de palavras humanas de baixa frequência e alto conteúdo informacional em função dos parâmetros de amostragem. Ao auditar modelos de pesos abertos em fragmentos de corpus escritos por humanos, identificamos quais escolhas lexicais logicamente possíveis se tornam inatingíveis pelo decodificador, mesmo quando residem no espaço de probabilidades. Nossos resultados fornecem evidências quantitativas de que os valores-padrão da indústria para amostragem atuam como mecanismos de censura não intencionais, suavizando as texturas únicas da expressão humana em um discurso homogeneizado. A WCS oferece uma estrutura rigorosa para otimizar o equilíbrio entre coerência textual e riqueza lexical, constituindo uma ferramenta diagnóstica para preservar a diversidade da linguagem humana em modelos generativos.
O ajuste fino de Modelos de Linguagem de Grande Escala com dados não confiáveis expõe os modelos a ataques de backdoor, nos quais amostras envenenadas causam comportamentos inadequados direcionados. As defesas existentes de filtragem de amostras dependem de clusterização, que requer dados suficientes e pode falhar em taxas de envenenamento extremas. Propomos o GradSentry ({Grad}ient {Sentry}), um método de filtragem de amostras de backdoor baseado na entropia espectral dos gradientes por amostra. Nossa principal descoberta é que amostras envenenadas produzem gradientes com entropia espectral mais alta em comparação com amostras limpas. O GradSentry captura assinaturas de backdoor que alteram a saída usando espectros de gradientes por amostra, evitando comparações pareadas de amostras e clusterização durante a construção de características. Importante, nosso método é independente do treinamento: funciona tanto para métodos de ajuste fino eficientes em parâmetros, como LoRA, quanto para ajuste de parâmetros completos, já que a análise de gradientes opera independentemente de quais parâmetros estão sendo atualizados durante o treinamento. O GradSentry não requer clusterização, opera eficazmente em todas as taxas de envenenamento (1%–90%) e introduz sobrecarga computacional mínima (20–50 ms por amostra para modelo de 7B). A avaliação em quatro conjuntos de dados de QA e quatro tipos de ataque demonstra a eficácia da entropia espectral para detecção de backdoor. O código está disponível em https://github.com/dongdongzhaoUP/GradSentry.
Ativos 3D interativos usados em jogos e simulação são tipicamente decompostos em partes semânticas específicas para suportar animação, física e comportamentos programados, mas a maioria dos modelos generativos 3D produz malhas monolíticas ou decomposições arbitrárias que não podem ser alinhadas com requisitos específicos de aplicação. Apresentamos o CubePart, uma estrutura generativa para geração de malhas 3D com vocabulário aberto e controlável por partes, que expõe a estrutura de partes como um sinal de controle explícito em tempo de inferência. Dado um prompt textual global e um esquema de partes definido pelo usuário, expresso como uma lista aberta de nomes de partes, nosso método gera um conjunto de malhas — uma por elemento do esquema — que se montam em um objeto coerente, respeitando a estrutura semântica especificada. Para viabilizar essa capacidade, introduzimos um pipeline de dados escalável para construir um grande conjunto de dados 3D com vocabulário aberto e rótulos de partes, juntamente com uma arquitetura generativa de dois estágios que separa a síntese global da forma da decodificação ao nível das partes. Demonstramos que os ativos resultantes podem ser diretamente integrados aos motores de jogo e acionados por scripts de animação e comportamento, sem necessidade de pós-processamento manual. Página do projeto: https://cubepart.github.io/
Agentes baseados em LLMs obtêm boas pontuações em benchmarks de busca, mas usuários reais consistentemente consideram os resultados insatisfatórios, revelando uma lacuna persistente entre avaliação e experiência. Atribuímos essa lacuna à dependência dos benchmarks existentes em consultas superespecificadas, interações de turno único e avaliação com esquema fixo, nenhum dos quais reflete o comportamento real de busca, onde usuários e agentes refinam colaborativamente intenções vagas por meio de diálogo de múltiplas interações. Denominamos esse paradigma de VibeSearch e introduzimos o VibeSearchBench, um benchmark composto por 200 tarefas bilíngues (chinês e inglês) curadas manualmente em 20 domínios, divididas nos subconjuntos VibeSearch-Pro (profissional) e VibeSearch-Daily (cotidiano). Cada tarefa pareia uma persona de usuário com um grafo de conhecimento de referência sem esquema fixo, e é avaliada por meio de um simulador de usuário com divulgação progressiva e um framework de avaliação por correspondência de grafos. Comparamos sete modelos de fronteira utilizando tanto o framework ReAct quanto o harness de agente OpenClaw. Os resultados mostram que todos os modelos permanecem substancialmente inadequados para o VibeSearch (melhor F1: 30,30), destacando a necessidade de avanços fundamentais em raciocínio de contexto longo, elicitação proativa de intenção e construção de conhecimento estruturado.
Os resultados visuais estão cada vez mais centrais para os modelos de linguagem grandes multimodais, tornando a verificação confiável e refinada essencial para escalar modelos fundacionais generalistas. Neste trabalho, investigamos a meta-verificação multimodal, que utiliza justificativas geradas pelo verificador em vez de sinais de decisão apenas, e exploramos como incorporar efetivamente o feedback de meta-verificação no treinamento do verificador multimodal. Identificamos duas descobertas principais. Primeiro, saídas simbólicas do verificador (por exemplo, caixas delimitadoras) superam explicações textuais como justificativas de meta-verificação, permitindo recompensas eficientes de aprendizado por reforço baseado em regras, ao mesmo tempo que evitam a dependência de recompensas baseadas em modelos provenientes de modelos juízes auxiliares. Segundo, desacoplar os objetivos de aprendizado por reforço para julgamento binário e meta-verificação supera substancialmente a otimização conjunta de recompensas, devido a diferenças intrínsecas na estrutura de saída e na dinâmica de aprendizado. Com base nessas percepções, treinamos o OmniVerifier-M1, um verificador visual generalista que utiliza meta-verificação simbólica e aprendizado por reforço desacoplado. O OmniVerifier-M1 fornece verificação robusta e localização refinada de erros, e ainda possibilita o M1-TTS, um sistema de geração agentiva orientado por verificador que alcança autocorreção dinâmica a nível de região. Essa abordagem abre caminho para uma verificação multimodal mais confiável, interpretável e refinada, apoiando uma implantação mais segura e controlável de modelos fundacionais.
O monitoramento de Chain-of-thought (CoT) tem sido proposto como um mecanismo de segurança promissor para detectar comportamentos desalinhados em modelos de linguagem de grande escala. No entanto, sua confiabilidade permanece amplamente inexplorada além do inglês e entre diversas famílias de modelos. Apresentamos a primeira avaliação em larga escala da monitorabilidade do CoT em 13 línguas diversas e sete famílias de modelos de fronteira, totalizando 16 modelos. Utilizando avaliações com dicas adversariais que exigem computação intermediária explícita, juntamente com a análise das probabilidades internas dos tokens de resposta, encontramos consistentemente infidelidade do CoT entre línguas e tipos de dicas, com uma taxa média de 95,9% em modelos de 8B a 120B parâmetros. Descobrimos que modelos de fronteira se engajam sistematicamente em manipulação estratégica, incluindo troca de resposta, racionalização post-hoc e exploração procedural de dicas, fazendo com que monitores externos tenham dificuldade em detectar enganos. Mostramos que modelos de fronteira frequentemente se comprometem com a pista desalinhada em suas ativações latentes dentro dos primeiros 15% da geração, mesmo quando o CoT aparenta ser fiel. Surpreendentemente, esses padrões enganosos permanecem em 100% nas línguas de baixos recursos, revelando limitações fundamentais na supervisão atual baseada em CoT. Nossos resultados revelam que o monitoramento de CoT é fundamentalmente frágil sob mudança na distribuição linguística, fornecendo um sinal de segurança substancialmente mais fraco do que sugerem estudos apenas em inglês. Essas descobertas ressaltam a necessidade urgente de desenvolver monitores de CoT robustos e de acelerar a pesquisa em técnicas de monitoramento de caixa branca, especialmente para melhorar a monitorabilidade do CoT em línguas de recursos médios e baixos. Nosso código está disponível em https://multilingual-cot-monitoring.github.io/{aqui}.
Criar imagens a partir de ruído é geração de imagens; reconstruir detalhes finos a partir de entradas grosseiras é super-resolução. Apesar de suas diferenças práticas, ambas podem ser entendidas como reversão da perda de informação entre escalas. Apresentamos SKILD, um modelo de difusão de aprendizado de imagem no espaço K invariante à escala que unifica geração e super-resolução contínua dentro de uma única estrutura incondicional. Tanto imagens naturais quanto sistemas físicos críticos exibem invariância à escala, e a aproveitamos para projetar um processo direto que atenua o conteúdo da imagem de escalas finas a grossas enquanto injeta ruído gaussiano com espectro correspondente, tornando a escala uma coordenada explícita da dinâmica de difusão. O mesmo processo reverso treinado realiza geração e super-resolução contínua variando apenas o passo temporal inicial: sem arquitetura específica para a tarefa, sem ramificação de condicionamento, sem orientação livre de classificador, sem re-treinamento por fator de escala. Empiricamente, SKILD atinge FID 2,65 e Índice Inception 9,63 em CIFAR-10 incondicional, realiza super-resolução de 2× a 8× no ImageNet a partir de um único checkpoint incondicional, superando modelos condicionais em métricas perceptuais, e reconstrói modelos de Ising críticos cujas correlações de quatro pontos conectadas acompanham de perto a verdade fundamental.
Ajuste fino eficiente em parâmetros (PEFT) tornou-se a abordagem padrão para adaptar grandes modelos de linguagem, contudo as avaliações enfatizam predominantemente a precisão downstream, negligenciando a retenção de capacidades pré-treinadas. Argumentamos que o PEFT deve ser avaliado sob o dilema estabilidade-plasticidade: o trade-off entre adaptação à tarefa-alvo e resistência ao esquecimento. Apresentamos o PEFT-Arena, um benchmark que mede conjuntamente o desempenho downstream e a retenção de capacidades gerais. Entre os métodos, observamos perfis distintos de estabilidade-plasticidade; sob orçamentos de parâmetros comparáveis, o ajuste fino ortogonal alcança a fronteira de Pareto mais favorável. Para explicar essas diferenças, analisamos as atualizações de PEFT sob duas perspectivas geométricas. No espaço de pesos, a análise espectral revela como as parametrizações interagem com a estrutura de valores singulares pré-treinada. No espaço de ativações, métricas de retenção mostram se o ajuste fino preserva ou distorce representações de capacidades gerais, com o esquecimento associado à distorção de representação não isométrica. Por fim, uma análise mostra que checkpoints finais de SFT frequentemente ultrapassam um ponto de operação melhor para a retenção-alvo. Inspirados por isso, apresentamos estudos de caso de uma melhoria pós-hoc com rebobinamento por caminho.
Cross-view spatial reasoning remains a weak spot for vision-language models (VLMs): they often reason in language and lose the fine-grained geometry needed for the task. Thinking with images aims to address this by generating an intermediate thinking image, but recent work shows that models often ignore the visual evidence in these traces. We therefore ask how to make visual thinking matter, and what kind of visual thinking works best. We study these questions in unified multimodal models (UMMs), which natively support interleaved image-text generation. For the first question, we propose View Dropout (VDrop), a training-time intervention that hides parts of one input view from the answer span while keeping them visible to the thinking-image tokens. This encourages the model to use the thinking image when answering, instead of relying only on the input views. Once the thinking image is used for answer prediction, we study which type of visual thinking is most effective. We frame this as a learnability-informativeness tradeoff and compare three thinking-image variants: top-down, panoramic, and point-matching renderings. Trained on synthetic scenes and evaluated on five real-world out-of-domain benchmarks, panoramic visual thinking with VDrop is the only configuration that is both informative and learnable, and it achieves the best out-of-domain generalization.
Sistemas multiagente construídos sobre grandes modelos de linguagem (LLMs) exigem muitas escolhas de coordenação que são difíceis de fixar a priori: qual protocolo de habilidade invocar, qual função de agente deve executar uma subtarefa, qual modelo vincular a cada função, como as funções devem interagir, quando usar recuperação ou verificação, e quando omitir completamente uma etapa. Essas escolhas interagem com o regime de tarefas e as restrições operacionais, de modo que pipelines estáticos e comparações pontuais de modelos oferecem apenas uma visão limitada do espaço de projeto. Este artigo introduz o AgensFlow, uma estrutura de código aberto que trata a coordenação multiagente como um problema de aprendizado de políticas online sob observabilidade parcial. A estrutura torna as escolhas de coordenação observáveis e passíveis de aprendizado a partir de trajetórias repetidas, em vez de tratar habilidade, função, modelo, topologia e avaliação como elementos fixos do projeto do pipeline. O AgensFlow é avaliado em dois corpora: tarefas de incidentes em sistemas distribuídos e tarefas de consultorias de segurança. A avaliação mostra três resultados principais: o roteamento aprendido atinge um ponto operacional de maior qualidade do que um pipeline fixo de base em classes com alta demanda de coordenação; skip:X isola a compressão de topologia como uma parte significativa do substrato; e gráficos de política inicializados a quente podem reduzir o custo de exploração enquanto preservam a qualidade do platô. No geral, os resultados indicam que o roteamento aprendido e auditável pode melhorar fluxos de trabalho multiagente com alta demanda de coordenação em relação à fiação estática.
Aprendizado por Reforço a partir de Recompensas Verificáveis (RLVR) surgiu como o paradigma padrão para melhorar a capacidade de raciocínio de modelos de linguagem de grande porte, enquanto a Predição de Múltiplos Tokens (MTP) tem sido um módulo amplamente adotado no pré-treinamento. Combiná-los é uma abordagem natural, no entanto, as práticas atuais de RL desacoplam os gradientes do MTP porque o treinamento conjunto degrada o desempenho. Revisitamos essa falha sob uma perspectiva de otimização. Mostramos que o efeito por passo do MTP no objetivo de RL pode ser decomposto em dois termos: uma correlação de primeira ordem e uma penalidade de perturbação de segunda ordem. Essa decomposição unifica três regimes de treinamento do MTP: Desacoplamento (Detach), perda de entropia cruzada e perda de política, e explica por que cada um obtém sucesso ou falha. Uma análise mais aprofundada da perda de política revela que, embora esteja alinhada com a intuição, o desempenho ainda degrada: o termo de correlação decai enquanto a penalidade quadrática persiste. Guiados pela análise, propomos a Calibração de Coeficiente Ótimo (OCC), um esquema adaptativo que rastreia o coeficiente ótimo online por meio de um proxy de log-probabilidade a um custo desprezível. Em seis benchmarks de raciocínio matemático de nível competitivo, o OCC consistentemente iguala ou supera a linha de base com desacoplamento, fornecendo um desempenho de treinamento conjunto MTP-RL melhorado.
A validade das avaliações de segurança de IA depende de os modelos se comportarem de forma consistente entre ambientes controlados e de implantação. Trabalhos anteriores identificaram pistas contextuais no momento do teste, como cenários hipotéticos, como fonte de conscientização verbalizada sobre a avaliação e subsequente mudança comportamental. Neste artigo, investigamos uma explicação potencial para esse fenômeno: o meta-conhecimento de avaliação, definido como conhecimento paramétrico sobre os traços estruturais que caracterizam as avaliações. Semelhante à contaminação de conjuntos de dados, onde a exposição a benchmarks leva a um desempenho superior por meio da memorização, levantamos a hipótese de que modelos treinados em textos que descrevem práticas de avaliação podem aprender implicitamente a reconhecer e responder a contextos semelhantes a avaliações, por exemplo, por meio da exposição a artigos científicos ou postagens em redes sociais sobre benchmarking de IA. Para testar isso, ajustamos modelos em documentos sintéticos que descrevem traços de avaliação, como estruturas verificáveis ou dilemas morais. Ao avaliar esse modelo ajustado em seis benchmarks de segurança, descobrimos que ele é significativamente mais seguro do que o modelo base e o modelo de controle. Essa mudança comportamental persiste mesmo quando restringimos a análise a respostas que não apresentam verbalização explícita de conscientização sobre a avaliação. Nossos resultados demonstram que o meta-conhecimento de avaliação pode inflar o desempenho em benchmarks de segurança, introduzindo um novo fator de confusão que é independente da memorização explícita ou da conscientização verbalizada sobre a avaliação, sendo, portanto, desafiador de detectar. Essas descobertas têm implicações importantes para o projeto e a interpretação das avaliações de segurança de IA. Nosso código e modelos estão disponíveis em https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.
Os benchmarks de perguntas e respostas sobre gráficos (QA) têm como objetivo propor perguntas que exijam raciocínio visual para serem respondidas corretamente, mas os modelos frequentemente podem chegar a soluções por meio de atalhos ou familiaridade prévia com um gráfico com base em seu próprio conhecimento de fundo. Para avaliar rigorosamente o raciocínio visual, propomos gráficos contrafactuais onde a tarefa de pergunta sobre gráfico permanece fixa, mas o gráfico subjacente e a resposta correspondente são variados. Introduzimos o Chartographer, uma estrutura para realizar reengenharia reversa de gráficos em código executável, validar a fidelidade de reconstrução, gerar variantes contrafactuais controladas por semente e derivar novas respostas a partir da lógica executável de QA. Aplicamos essa estrutura a conjuntos de dados existentes de QA sobre gráficos e avaliamos modelos de visão e linguagem (VLMs) proprietários e de código aberto, medindo a sensibilidade à variação e a generalizabilidade. Os gráficos contrafactuais revelam falhas ocultas pelo desempenho em gráfico único: VLMs frequentemente falham em generalizar depois de responder corretamente ao gráfico original. Descobrimos que as falhas são mais prevalentes quando gráficos atualizados exigem novos caminhos de raciocínio visual.
A pesquisa científica progride por ciclos iterativos de geração de hipóteses, delineamento experimental, execução e revisão. Agentes de IA podem automatizar partes desse processo, mas as abordagens existentes geralmente seguem uma única trajetória de pesquisa ou coordenam-se por meio de um planejador central com objetivos fixos. Como resultado, elas têm dificuldade em sustentar exploração paralela, adaptar-se à medida que a evidência experimental muda ou preservar o conhecimento de direções fracassadas ao longo de experimentos de longa duração. Apresentamos o AutoScientists, uma equipe descentralizada de agentes de IA para experimentação científica computacional de longa duração. Os agentes interpretam um estado experimental compartilhado, auto-organizam-se em equipes em torno de hipóteses promissoras, criticam propostas antes de utilizar poder computacional experimental e compartilham sucessos e fracassos para reduzir a exploração redundante. Sob orçamentos experimentais equivalentes, o AutoScientists supera agentes de IA anteriores em aprendizado de máquina biomédico, otimização do treinamento de modelos de linguagem e predição de aptidão de proteínas. No BioML-Bench, que abrange imagem biomédica, engenharia de proteínas, ômica de célula única e descoberta de fármacos, o AutoScientists alcança um percentil médio no ranking de 74,4% em 24 tarefas, superando o agente de IA mais forte em +8,33%. Na otimização do treinamento do GPT, o AutoScientists atinge um alvo de bits por byte de validação 1,9x mais rápido que o Autoresearch e continua descobrindo melhorias a partir de um campeão inicial onde a abordagem de agente único não encontra nenhuma (7 vs. 0 melhorias aceitas). Na predição de aptidão do ProteinGym, o AutoScientists descobre um método para a ligação ACE2-Spike que melhora a correlação de Spearman em +12,5% em relação ao modelo de última geração atual. Aplicado sem modificação em todos os 217 ensaios do ProteinGym, o mesmo método melhora em +6,5% (correlação de Spearman) em relação ao estado da arte anterior.
Os sistemas existentes de conversa de apoio emocional (ESC) baseiam-se principalmente na geração de respostas fim a fim ou na supervisão grosseira de estratégias, oferecendo interpretabilidade limitada e pouco suporte para a melhoria sistemática de habilidades. Propomos o ESC-Skills, uma estrutura centrada em habilidades que descobre e auto-evolui habilidades executáveis de apoio emocional. Primeiro, modelamos interações locais de apoio como Unidades de Intervenção (UIs), que capturam dinâmicas de estado–ação–resultado entre estados do buscador, intervenções de apoio e mudanças emocionais pós-resposta. Com base em UIs extraídas de diálogos ESC bem-sucedidos e mal-sucedidos, construímos o Banco de Habilidades ESC, um repositório de habilidades executáveis de apoio emocional contendo orientação de intervenção, condições de aplicabilidade, resultados esperados e riscos potenciais. Para aprimorar ainda mais a robustez, introduzimos uma estrutura de refinamento auto-evolutivo com múltiplos perfis, na qual um agente ESC interage com diversos perfis simulados de buscadores sob avaliação SAGE. Os traços de interação resultantes são analisados para identificar habilidades ausentes, intervenções inseguras e padrões de falha específicos de perfil, que são então usados para refinar o Banco de Habilidades por meio de verificação baseada em simulação. Resultados experimentais demonstram que o ESC-Skills melhora tanto a qualidade em nível de resposta quanto os resultados emocionais em nível de diálogo, ao mesmo tempo que fornece comportamentos de apoio mais interpretáveis e controláveis. Divulgaremos o código, os prompts e o Banco de Habilidades ESC em https://github.com/aliyun/qwen-dianjin.
Agentes de codificação de IA são cada vez mais utilizados para escrever software do mundo real, mas garantir que suas saídas estejam corretas continua sendo um desafio fundamental. A verificação formal oferece um caminho promissor: um agente gera código juntamente com uma prova verificada por máquina, garantindo que o código satisfaça uma especificação formal. No entanto, não há garantia de que a própria especificação formal corresponda à intenção do usuário. Neste trabalho, estudamos a autoformalização de especificações: se agentes LLM podem traduzir problemas de programação informais em especificações formais fiéis. Apresentamos Verus-SpecBench, um benchmark de 581 tarefas de escrita de especificações derivadas de problemas do Codeforces direcionados ao Verus, um verificador para Rust, e Verus-SpecGym, um ambiente agentivo no qual modelos interagem com Verus, bash e o sistema de arquivos para desenvolver essas especificações. O desafio central é a avaliação: especificações de referência escritas por especialistas são caras de produzir, e juízes LLM podem deixar passar erros sutis. Abordamos isso (a) estendendo o mecanismo exec_spec do Verus para que especificações geradas possam ser executadas como código Rust, e (b) testando-as contra testes oficiais do Codeforces e casos adversariais extraídos de "hacks" do Codeforces, que são casos extremos escritos por competidores para quebrar soluções incorretas. No Verus-SpecBench, o modelo mais forte, Gemini 3.1 Pro, resolve 77,8% das tarefas; outros modelos de fronteira resolvem entre 51,1% e 57,8%, e modelos de código aberto atingem apenas 21,5% a 25,5%. Nossa análise dos modos de falha mostra que especificações geradas por modelos podem omitir suposições importantes de entrada, aceitar saídas incorretas e rejeitar saídas válidas. Também constatamos que a avaliação LLM-como-juiz perde 26% das falhas que nosso avaliador detecta. No geral, nossos resultados sugerem que a autoformalização de especificações está ao alcance de agentes de fronteira, mas permanece frágil mesmo em problemas para os quais eles já conseguem gerar código correto. O código, os dados e os logs podem ser encontrados em https://github.com/formal-verif-is-cool/verus-spec-gym.
O progresso recente em tarefas agentivas de longo horizonte tem sido impulsionado principalmente pelo escalonamento vertical de agentes individuais, por meio de modelos mais robustos, melhores ferramentas e arcabouços mais eficazes. Em contraste, compreende-se muito menos sobre o escalonamento horizontal: se múltiplos agentes pares, todos direcionados à mesma tarefa, podem se tornar uma fonte adicional de capacidade sem depender de especialização explícita de papéis ou orquestração de fluxo de trabalho. Estudamos essa questão e propomos o AgentFugue, uma estrutura de raciocínio coletivo construída em torno de um hub de raciocínio compartilhado. Enquanto agentes pares exploram a mesma tarefa em paralelo, o hub registra notas concisas sobre o que cada agente estabeleceu, tentou ou descartou, e permite que cada agente acesse seletivamente o que outros agentes descobriram, de uma forma útil para sua busca atual. Esse design transforma trajetórias antes isoladas em uma ecologia conectada de raciocínio intermediário reutilizável, sem exigir planejamento centralizado. Implementamos o hub como uma camada de comunicação plug-in, treinada com ajuste fino supervisionado e aprendizado por reforço de ponta a ponta. Nos desafiadores cenários de longo horizonte que estudamos, o AgentFugue melhora em relação a linhas de base robustas. Nossos resultados sugerem que o raciocínio coletivo pode transformar o escalonamento horizontal de sistemas de agentes pares em uma fonte distinta de ganhos de capacidade, em vez de meramente uma forma de gastar mais poder computacional.
Agentes autônomos de uso de computador, impulsionados por modelos de linguagem grandes multimodais (MLLMs), estão emergindo como assistentes capazes para concluir fluxos de trabalho digitais complexos. No entanto, ambientes de execução do mundo real estão longe do ideal: pop-ups, mudanças de resolução e aplicativos concorrentes frequentemente interferem na percepção e no controle do agente. Apresentamos o AgentHijack, um benchmark projetado para avaliar a robustez de agentes de uso de computador sob corrupções comuns, onde as incertezas em ambientes dinâmicos interrompem o fluxo de execução sem intenção adversarial direta. Especificamente, o AgentHijack introduz 9 corrupções comuns configuráveis para replicar cenários imperfeitos realistas. Avaliamos uma variedade de tarefas de desktop que utilizam agentes baseados em MLLM e descobrimos que mesmo instâncias menores de corrupção podem resultar em degradação substancial de desempenho, o que enfatiza a fragilidade dos agentes e ressalta a necessidade de avaliação de robustez. Em seguida, propomos o AgentHijack-Agent, uma estrutura que integra um gerador de ações com capacidades aprimoradas de fundamentação e um observador responsável pela sumarização de comportamento e verificação do ambiente. Experimentos extensos validam sua eficácia. Nosso código, ambiente, modelos de base e dados estão publicamente disponíveis em: https://AgentHijack.github.io.
Grandes modelos multimodais (LMMs) avançaram rapidamente em percepção e raciocínio; no entanto, ainda não está claro se essas capacidades se generalizam para descobrir soluções visualmente fundamentadas em ambientes abertos, além do reconhecimento de padrões. Nesses contextos, a inteligência exige mais do que responder a perguntas bem formuladas: envolve identificar como elementos de uma cena podem ser reaproveitados de maneiras não óbvias, porém fisicamente viáveis. Essa forma de resolução criativa de problemas é central para a inteligência humana, mas permanece amplamente não testada nos benchmarks atuais. Para avaliar essa capacidade, apresentamos o MM-CreativityBench, um benchmark para uso criativo de ferramentas fundamentado em affordances em ambientes visualmente ricos e fisicamente restritos. Cada instância apresenta uma imagem de cenário com visões estruturadas de entidades candidatas e suas partes, permitindo uma avaliação interativa e detalhada de como os modelos inspecionam iterativamente a cena, identificam affordances relevantes e compõem soluções visual e fisicamente fundamentadas. Nossos experimentos mostram que os LMMs atuais frequentemente falham, não por falta de capacidade generativa, mas por não sustentarem uma exploração fundamentada. Os modelos frequentemente ignoram entidades relevantes, examinam insuficientemente partes críticas ou alucinam atributos não fundamentados na imagem. Motivados por esse modo de falha, propomos o alinhamento fundamentado em affordances, que trata o uso criativo de ferramentas como um problema de aprendizado por preferência. Usando a Otimização Direta de Preferência, incentivamos os modelos a preferirem raciocínios de atributo-affordance fundamentados em evidência visual em vez de alternativas alucinadas. Além disso, incorporamos supervisão derivada de uma base de conhecimento de affordances para orientar a exploração mais ampla de entidades e o planejamento em múltiplas etapas. Nossos resultados mostram ganhos consistentes na seleção das entidades e partes corretas, ao mesmo tempo que reduzem substancialmente erros relacionados a alucinações e fundamentação.
Restrições de recursos espaciais e temporais são críticas tanto para sistemas inteligentes biológicos quanto artificiais. Aqui, definimos termos de custo diferenciáveis para largura, profundidade e tempo dentro de uma rede neural convolutional recorrente concebida como um subconjunto finito de uma malha infinita. Otimizamos esses custos conjuntamente com erros de tarefa via retropropagação. Aplicamos diferentes pressões sobre largura, profundidade e tempo, o que leva a diversos grafos computacionais emergindo organicamente através do treinamento. Descobrimos que todos os três recursos podem ser compensados entre si para atingir um determinado nível de precisão. As redes crescem em todas as três dimensões com a complexidade da tarefa e executam espontaneamente mais passos recorrentes quando as entradas estão ocluídas. Surpreendentemente, o tempo utilizado pelo modelo correlaciona-se com os tempos de reação humanos em uma tarefa de reconhecimento de objetos. Nossa estrutura fornece uma explicação normativa de como as restrições de recursos moldam as arquiteturas neurais, conectando-se a questões sobre o design do cérebro em neurociência, e pode ajudar a iluminar a diversidade de soluções neurais encontradas na natureza.
Modelos de linguagem de grande escala (LLMs) para conclusão e geração de código estão cada vez mais sendo usados no desenvolvimento de software, porém podem reproduzir exemplos de treinamento na íntegra e sem atribuição de autoria, levantando preocupações legais e éticas relacionadas a plágio e conformidade de licenças. Detectores de plágio clássicos baseados em impressões digitais, como o Winnowing, continuam altamente eficazes, mas a inspeção exige comparar fragmentos de código com todo o conjunto de treinamento, e sua busca em tempo linear torna-os impraticáveis para corpora de bilhões de escalas usados para treinar LLMs de código modernos. Para preencher essa lacuna, introduzimos o SOURCETRACKER, um codificador de 300M de parâmetros adaptado para recuperação de código, juntamente com um pipeline híbrido de rastreamento de proveniência em dois estágios, o HYBRIDSOURCETRACKER (HST). O HST primeiro reduz um pequeno conjunto de fragmentos candidatos via busca vetorial e, em seguida, reordena esses candidatos usando Winnowing em impressões digitais exatas. Treinamos e avaliamos nosso sistema em um subconjunto de 10M fragmentos do conjunto de dados THESTACKV2, com fragmentos tanto literais quanto adaptados que simulam renomeações de identificadores realistas. Em um espaço de busca in vitro de 100k fragmentos com consultas adaptadas, nossa abordagem híbrida atinge uma média de classificação recíproca (mean reciprocal rank) equiparável ao Winnowing para fragmentos de 30 tokens. Em seguida, a partir de janelas >= 60 tokens, ela consistentemente supera o Winnowing em até 5,4%, preservando a complexidade de consulta em tempo logarítmico. Em uma avaliação complementar usando um juiz baseado em LLM, descobrimos que muitos fragmentos recuperados não rotulados como verdade de base ainda são altamente semelhantes às fontes esperadas, particularmente com janelas de contexto mais longas, e, portanto, permanecem úteis para os usuários finais. No geral, nossos resultados demonstram que a integração da busca vetorial com impressões digitais possibilita um rastreamento de proveniência escalável e de alta precisão para código produzido por LLMs.
A previsão precoce da trajetória de degradação de baterias (BDTF), que prevê a trajetória completa do estado de saúde a partir de dados operacionais iniciais, é crucial para a otimização, fabricação e implantação de baterias. Os dados de degradação de baterias apresentam duas características principais. Primeiro, os dados de degradação possuem uma estrutura multinível, incluindo regularidades compartilhadas nas condições de envelhecimento e padrões de trajetória compartilhados entre baterias. Segundo, as variações relacionadas à degradação nos perfis de tensão-corrente geralmente são localizadas em intervalos específicos do estado de carga (SOC). As abordagens existentes frequentemente não modelam explicitamente essas características. Para preencher essa lacuna, propomos o BatteryMFormer, um Transformer multinível para BDTF precoce. O BatteryMFormer integra (1) um decodificador ciente das condições de envelhecimento, que injeta conhecimentos prévios sobre essas condições por meio de consultas informadas pelo envelhecimento e atenção ciente ao envelhecimento, (2) uma memória de padrões de meta-degradação que aprende e recupera protótipos de trajetória para orientar a previsão de longo horizonte, e (3) um codificador de dupla visão que captura conjuntamente a dinâmica temporal e as variações localizadas no SOC a partir de séries temporais de tensão e corrente. Experimentos extensivos em quatro domínios de baterias mostram que o BatteryMFormer supera consistentemente as referências de última geração, representando um passo significativo em direção a uma BDTF confiável. Nosso código está disponível em https://github.com/Ruifeng-Tan/BatteryMFormer.
Estudos recentes mostraram que Grandes Modelos de Linguagem (LLMs) podem alcançar um forte desempenho de raciocínio ao incorporar representações simbólicas funcionais que descrevem abstratamente algoritmos de travessia de grafos e raciocínio passo a passo em cenários de aprendizado com poucos exemplos. No entanto, ainda não está claro como os LLMs compreendem genuinamente o significado abstrato de cada etapa de raciocínio e do algoritmo geral a partir de apenas um número limitado de demonstrações. Este trabalho tem como objetivo localizar as cabeças de atenção responsáveis por etapas individuais de raciocínio e caracterizar os tipos de informação transferidos entre elas. Primeiramente, alinhamos as etapas de raciocínio constituintes com seus correspondentes logits de token sob uma estrutura de prompt de Cadeia de Pensamento (CoT) auxiliada por símbolos. Nossa análise mostra que as posições dos tokens que direcionam o processo de raciocínio estão associadas a baixas pontuações de confiança causadas por restrições na satisfação de padrões de comportamento de raciocínio nas demonstrações. Em seguida, adotamos técnicas de análise de mediação causal para identificar as cabeças de atenção responsáveis por esses padrões. Além disso, nossos achados indicam que os LLMs recuperam informações factuais e baseadas em regras para tarefas individuais de sub-raciocínio por meio de cabeças de atenção especializadas (aproximadamente 3% do total de cabeças), enquanto as camadas superiores facilitam predominantemente a integração de informações e o surgimento de estratégias de raciocínio global (por exemplo, algoritmos de travessia de grafos) que coordenam múltiplas etapas intermediárias de raciocínio para resolver a tarefa geral.
Os agentes LLM cada vez mais agem escrevendo código, mas persiste uma divisão entre o ambiente de execução que conduz o agente e o código que o modelo escreve. O ambiente de execução controla o loop, o contexto e o fluxo de controle, sobre os quais o modelo tem pouca influência. Permitir que o código escrito pelo molde o próprio ambiente de execução tornaria os agentes mais expressivos, mas também agravaria problemas de segurança. Um modelo pode ser desviado por uma injeção de prompt, chamar a ferramenta errada ou falhar no meio do processo, deixando um estado inconsistente — e cada falha desse tipo alcança mais longe quando o código molda o ambiente de execução do que quando expressa uma única ação. Apresentamos LACUNA, um modelo de programação para agentes que supera essa divisão preservando a segurança. Cada ação do agente é uma chamada tipada agent[T](task) que o LLM preenche com código quando a execução a atinge, e o código é verificado quanto ao tipo em relação ao programa circundante antes de ser executado. Como cada ação é aceita ou rejeitada como um todo, uma ação rejeitada deixa o ambiente intocado, e seus diagnósticos do compilador orientam uma nova tentativa. A mesma verificação também delimita quais ferramentas e dados uma ação pode usar e como eles fluem. Nossa primitiva expressa loops ReAct, subagentes, habilidades, decomposição paralela e planejamento multimodelo como fluxo de controle comum. Avaliamos LACUNA em uma coleção de casos de teste, BrowseComp-Plus e τ^2-bench. No BrowseComp-Plus, 8,6% das gerações são rejeitadas antes da execução, com 0,7 novas tentativas por consulta em média, e o agente atinge 27,1% de precisão. No τ^2-bench, o LACUNA resolve 76,0% das 392 tarefas em quatro domínios com um modelo capaz, empatado com o agente de referência.
A segmentação referencial tem como objetivo segmentar os objetos-alvo em imagens ou vídeos com base em uma consulta textual. Apesar do notável progresso nos últimos anos, trabalhos existentes sempre assumem que as consultas fornecidas pelo usuário já são precisas e claras. No entanto, essa suposição é impraticável. Em cenários do mundo real, é irrealista esperar que todos os usuários revisem minuciosamente seu conteúdo visual e garantam cuidadosamente que suas consultas sejam únicas e inequívocas. Ao se deparar com tais casos, os modelos de segmentação existentes tendem a adivinhar arbitrariamente as preferências do usuário, frequentemente resultando em resultados indesejados. Para abordar essa limitação, propomos o IC-Seg, uma nova estrutura agêntica que esclarece proativamente a intenção do usuário por meio de conversas de múltiplas rodadas antes da segmentação. Para incentivar efetivamente essa capacidade, introduzimos ainda o Hi-GRPO, uma nova estratégia de otimização hierárquica que injeta sinais de supervisão densos e informativos nos níveis de trajetória, rodada e etapa. Essa estratégia incentiva o esclarecimento eficiente da intenção, eliminando efetivamente interações redundantes e melhorando a qualidade geral do diálogo. Para avaliação, estabelecemos o Ambi-RVOS, um benchmark de segmentação referencial de objetos em vídeo com consultas ambíguas de usuários. Experimentos extensivos demonstram que o IC-Seg não apenas supera os métodos existentes por uma margem significativa na resolução de consultas ambíguas, mas também mantém desempenho de estado da arte em benchmarks padrão de segmentação por raciocínio. O código e os dados serão disponibilizados em https://github.com/iSEE-Laboratory/IC-Seg.
Compreender objetos 3D a partir de imagens é fundamental para robótica e aplicações de RV/RA. Embora trabalhos recentes tenham avançado na estimativa de pose em nível de categoria, as representações atuais não capturam a semântica de granularidade fina necessária para raciocinar sobre partes, funções e interações de objetos. Neste trabalho, estudamos a correspondência 3D em nível de categoria no espaço da câmera — prevendo, a partir de uma única imagem, localizações 3D que permanecem consistentes entre instâncias dentro de uma categoria — e mostramos que ela pode emergir sem supervisão explícita de correspondência, aprendendo um prior morfável compartilhado de objeto. Para viabilizar a pesquisa nessa direção, apresentamos o HouseCorr3D, o primeiro benchmark em larga escala para correspondência 3D monocular em nível de categoria, com 178 mil imagens abrangendo 50 categorias de objetos domésticos, 280 instâncias únicas e anotações de pontos-chave 3D diretamente em modelos CAD. Crucialmente, o HouseCorr3D fornece rótulos de correspondência amodal para regiões ocluídas e anotações explícitas de simetria, abordando limitações importantes de conjuntos de dados existentes. Propomos ainda o Morpheus, um método que aprende priors de forma morfáveis em nível de categoria, desembaraçando forma canônica, deformação e pose do objeto. Por meio desse fundamento canônico compartilhado, correspondências 3D semanticamente significativas no espaço da câmera emergem implicitamente. Essas correspondências 3D emergentes estabelecem um novo estado da arte no HouseCorr3D, demonstrando que a compreensão semântica de objetos 3D pode surgir sem supervisão direta de correspondência. Dados e código estão disponíveis publicamente em https://github.com/GenIntel/HouseCorr3D.
Clark Hash é um método compacto para armazenar incorporações neurais em menos espaço. Ele normaliza cada vetor do banco de dados, aplica uma projeção esparsa determinística de Johnson-Lindenstrauss com sinal, limita o resultado e armazena um código quantizado escalar de largura fixa. As consultas permanecem em ponto flutuante e são pontuadas em relação aos esboços armazenados. Na configuração padrão de incorporação de frases com 384 dimensões, o Clark Hash armazena um vetor de busca por cosseno em 48 bytes, em vez de 1536 bytes para armazenamento denso em f32. Isso representa uma redução de 32 vezes. O método não requer uma etapa de treinamento, codebooks aprendidos, rotações ou estatísticas do corpus antes que novos vetores possam ser armazenados. Descrevemos o codec, a implementação em Rust e uma avaliação multilingue de similaridade entre frases em 9.304 pares rotulados de 29 subconjuntos. Com um codificador MiniLM multilingue, os esboços de 48 bytes alcançaram correlação de Pearson macro de 0,910 e 0,946 com as pontuações densas de cosseno no STS17 e STS22. Clark Hash não é um novo teorema de Johnson-Lindenstrauss e não substitui índices aproximados de vizinhos mais próximos. É um codec simples sem estado para armazenamento compacto de incorporações.
Avaliações de segurança de LLMs testam modelos predominantemente de forma isolada, porém agentes de IA implantados operam cada vez mais em ambientes sociais persistentes junto com outros agentes. Introduzimos uma plataforma de simulação no estilo Moltbook, onde milhares de agentes LLM interagem entre comunidades ao longo de um mês simulado, e a utilizamos para avaliar privacidade como uma preocupação de segurança downstream sob diferentes graus de pressão social. Constatamos que a transição de avaliação social de turno único para multiturno amplifica violações de privacidade (CIMemories 19,95% para Nossa 45,30% entre modelos OpenAI), que o vazamento é socialmente contagioso, com agentes 8 vezes mais propensos a divulgar informações sensíveis após observar um par fazê-lo, e que instruções explícitas de privacidade reduzem, mas não eliminam esse efeito, deixando taxas de vazamento acima de 37,8% mesmo com salvaguardas. Nossos achados sugerem que benchmarks de segurança baseados em chat estático subestimam sistematicamente riscos em implantações agentivas, e que o contexto social por si só é suficiente para elicitar divulgações sensíveis que avaliações de turno único jamais revelariam.
Abordagens recentes de super-resolução de vídeo (VSR) utilizam redes neurais profundas para melhorar vídeos de entrada de baixa qualidade e recuperar detalhes visuais, com métodos baseados em difusão, em particular, mostrando resultados promissores. Neste artigo, investigamos se modelos de qualidade de vídeo existentes podem ser usados para avaliar o desempenho desses métodos de VSR baseados em difusão, comparando as previsões dos modelos com resultados de um teste subjetivo. O estudo compara seis métodos de redimensionamento (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) aplicados a vídeos de baixa resolução comprimidos (AV1 e DCVC-RT) e não comprimidos, considerando a reprodução em uma tela UHD-1/4K. Uma gama de modelos de qualidade de referência completa e sem referência é utilizada para avaliar sua aplicabilidade a este novo tipo de degradação de qualidade, com foco no desempenho intra-sequência. Os resultados destacam que modelos de referência completa baseados em CNN, como LPIPS, DISTS e CVQA-FR, apresentam coeficientes de correlação significativamente mais altos do que os modelos de referência completa convencionais e os modelos sem referência testados. A maioria superestima os resultados excessivamente nítidos do SCST, com o VMAF falhando principalmente devido a inconsistências espaciais introduzidas pelo Starlight Mini. Nenhum dos modelos de qualidade de vídeo testados atingiu precisão suficiente para substituir testes subjetivos complementares. Os vídeos de referência, degradados e redimensionados, bem como as avaliações dos usuários e as pontuações dos modelos, são disponibilizados com o artigo em https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR como dados abertos.
Modelos de Linguagem de Grande Escala (LLMs) são predominantemente regidos por estruturas probabilísticas nas quais a soma das probabilidades dos resultados é restrita à unidade. Essa limitação arquitetônica, frequentemente imposta por camadas Softmax, leva a um colapso da incerteza que dificulta a distinção entre incerteza epistêmica, paradoxo e vagueza. Apresentamos uma investigação empírica da aplicação da Lógica Neutrosófica, uma estrutura que trata Verdade (V), Indeterminação (I) e Falsidade (F) como três dimensões independentes, para modelar estados epistêmicos em LLMs. Realizamos experimentos em uma família de quatro modelos GPT da OpenAI em cinco fenômenos linguísticos: paradoxos lógicos, ignorância epistêmica, vagueza, contradições éticas e contingências futuras, sob três estratégias de eliciação: neutrosófica, probabilística e derivada da entropia. Nossos resultados revelam que a abordagem neutrosófica, ao permitir V+I+F > 1, um estado que denominamos hiper-verdade, fornece uma representação mais rica do estado interno do modelo. Em 35% das avaliações, a hiper-verdade emergiu espontaneamente, predominantemente sob contradição ética e paradoxo lógico. Demonstramos que essa abordagem preserva valores de verdade em contextos fuzzy e oferece um método robusto para identificar e quantificar o conflito interno do modelo. Concluímos que a integração de camadas de avaliação neutrosófica é um passo crítico em direção a sistemas de IA mais transparentes, confiáveis e eticamente conscientes.
Apresentamos o PEAM, um framework de Memória de Agente Incorporado Paramétrico no Minecraft que transforma a memória do agente de recuperação em tempo de inferência para habilidades residentes em parâmetros, internalizadas através da experiência. O PEAM combina um LLM deliberativo lento para raciocínio aberto com um módulo paramétrico rápido para execução reflexa de habilidades consolidadas. O módulo rápido é uma arquitetura LoRA multimodal de Mistura de Especialistas com adaptadores fisicamente isolados por categoria, permitindo aprendizado contínuo em nível de parâmetro sem esquecimento catastrófico. Tratamos a falha como um sinal de treinamento de primeira classe: pares de trajetória falha–correção são internalizados por meio de um objetivo conjunto de clonagem comportamental e contrastivo, de modo que o agente aprende não apenas o que funciona, mas também como as ações corrigidas diferem das falhas. Para governar a consolidação, o PEAM introduz uma pontuação de merecimento de parametrização para decidir qual experiência deve ser internalizada, e um mecanismo de consolidação autoacionado sem escala para decidir quando internalizar, sem limiares ajustados manualmente específicos da tarefa, tornando o agente autoevolutivo à medida que o gatilho é transferido entre distribuições de tarefas sem reajuste. Experimentos no Minecraft mostram que o PEAM melhora o desempenho em tarefas de longo horizonte, mitiga o esquecimento em habilidades previamente consolidadas e melhora a eficiência paramétrica versus recuperação em comparação com agentes incorporados baseados em recuperação e variantes de memória paramétrica.
Modelos de difusão discretos emergiram como estruturas poderosas para a geração de dados categóricos estruturados. No entanto, a amostragem eficiente a partir de distribuições enviesadas por recompensa continua sendo um desafio fundamental. Embora o Monte Carlo Sequencial com Twist (SMC) ofereça exatidão assintótica para essa tarefa, a estimativa da função de twist ótima em espaços de estados discretos exige aproximações de Monte Carlo custosas, resultando em um grave gargalo computacional durante a inferência. Para superar essa limitação, introduzimos a Correspondência de Distribuição Contrastiva (CDM), uma nova estrutura que amortiza o custo da inferência SMC ao aprender uma função de twist parametrizada por meio de amostras positivas e negativas. Para um treinamento eficiente, reformulamos o estimador de gradiente de modo a aproveitar os kernels diretos de forma fechada dos modelos de difusão discretos. Na prática, a avaliação da nossa função de twist aprendida acarreta menos de 5% de custo computacional adicional em comparação com uma única passagem direta do modelo base. Por meio de extensas avaliações empíricas, demonstramos que a CDM supera consistentemente as linhas de base existentes sob tempo de execução equivalente. Validamos a eficácia e versatilidade da nossa abordagem em uma ampla gama de aplicações, incluindo geração de texto tóxico, design de sequências de DNA regulatório, designabilidade de proteínas e alinhamento de modelos de linguagem grandes baseados em difusão.