Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes de busca baseados em Modelos de Linguagem de Grande Porte (LLMs) têm demonstrado forte potencial para tarefas linguísticas intensivas em conhecimento por meio de múltiplas rodadas de raciocínio e recuperação de informações. A maioria dos sistemas existentes acessa informações utilizando um recuperador que recebe uma consulta em palavra-chave ou linguagem natural e retorna uma lista classificada de documentos com base em um índice de representações documentais pré-computadas. Neste trabalho, exploramos uma perspectiva complementar na qual o agente de busca trata o próprio corpus como ambiente de busca e encontra evidências emitindo comandos executáveis de shell. Apresentamos o GrepSeek, um agente de busca otimizado para interação direta com o corpus (DCI) que treina um agente de busca compacto para localizar, filtrar e compor evidências a partir de grandes corpora textuais. Para lidar com a instabilidade do aprendizado de comportamento diretamente por meio de aprendizado por reforço em corpora extensos, propomos um pipeline de treinamento em duas etapas. Primeiro, construímos um conjunto de dados de inicialização a frio utilizando um Tutor ciente da resposta e um Planejador cego à resposta para gerar trajetórias de busca verificadas e causalmente fundamentadas. Segundo, refinamos a política inicializada com Otimização de Política Relativa em Grupo (GRPO), permitindo que o agente aprimore seu comportamento de busca orientado a tarefas por meio da interação direta com o corpus. Para tornar o DCI prático em escala, utilizamos ainda um mecanismo de execução paralela fragmentada que preserva semântica, acelerando a recuperação baseada em shell em até 7,6 vezes, mantendo equivalência exata em nível de byte com a execução sequencial do comando shell. Experimentos em sete referências de resposta a perguntas em domínio aberto mostram que o GrepSeek alcança o melhor F₁ geral em nível de token e Correspondência Exata. Nossa análise também destaca as limitações da interação puramente lexical em consultas com variação substancial na forma superficial, sugerindo o DCI como um método prático e competitivo para agentes de busca que podem complementar paradigmas de recuperação existentes no mundo real.
Agentes LLM são cada vez mais esperados não apenas para completar tarefas isoladas, mas também para carregar representações delimitadas da expertise, julgamento e estilo de interação humanos. Construir tais agentes fundamentados em pessoas continua difícil porque o conhecimento acionável associado a uma pessoa ou função geralmente está embutido em rastros heterogêneos, em vez de escrito como instruções claras. Sistemas existentes de memória e persona capturam fragmentos dessa evidência, enquanto estruturas de habilidades fornecem formatos de empacotamento portáteis; no entanto, não existe um fluxo de trabalho de ponta a ponta para destilar esses rastros em habilidades inspecionáveis, corrigíveis e utilizáveis por agentes. Apresentamos um sistema automatizado de destilação de rastros para habilidades, que gera habilidades de IA fundamentadas em pessoas por meio da destilação de conhecimento especializado. Dados materiais de uma pessoa ou função alvo, o COLLEAGUE.SKILL produz um pacote de habilidades versionado com duas trilhas coordenadas: uma trilha de capacidade para práticas, modelos mentais e heurísticas de decisão, e uma trilha de comportamento delimitado para estilo de comunicação, regras de interação e histórico de correções. O pacote pode ser inspecionado, invocado, atualizado por meio de feedback em linguagem natural, revertido, instalado em diferentes hospedeiros de agentes e, opcionalmente, preparado para distribuição controlada. Descrevemos o contrato do artefato, o fluxo de trabalho de geração, o ciclo de vida de correção, a superfície de implantação e as predefinições de domínio implementados no sistema de código aberto. No momento da redação, o repositório público possui aproximadamente 18,5 mil estrelas no GitHub; a galeria lista 215 habilidades de 165 contribuidores e mais de 100 mil estrelas acumuladas nos cartões de habilidades listados. O sistema ilustra como habilidades fundamentadas em pessoas podem ser representadas como pacotes portáteis e corrigíveis, em vez de prompts opacos ou memórias ocultas.
A destilação on-policy (DOP) treina um estudante em prefixos amostrados a partir de sua própria política, enquanto busca igualar um professor mais forte. Isso aborda a incompatibilidade de prefixos da destilação offline, mas os rollouts iniciais do estudante ainda podem ser ruins, colocando a supervisão do professor sobre prefixos fracos ou de baixa qualidade. Propomos o Trust-Region behavior Blending (TRB), um método de aquecimento que substitui a política de rollout inicial pela política de comportamento mais próxima do professor dentro de uma região de confiança KL centrada no estudante, mantendo inalterada a perda de KL reversa por prefixo da DOP. O orçamento de KL é reduzido gradualmente até zero, de modo que o treinamento retorna a rollouts puros do estudante após o aquecimento. Em dois cenários de destilação de raciocínio matemático, o TRB obtém a média mais forte entre os métodos comparados.
Modelos multimodais unificados (MMUs) visam lidar com percepção e geração em um único modelo. No entanto, os MMUs existentes ainda dependem de um VAE congelado e pré-treinado separadamente para geração de imagens, impondo um gargalo estrutural. Removê-lo ingenuamente introduz uma lacuna de qualidade, pois o modelo precisa aprender tanto a estrutura de alto nível quanto os detalhes de baixo nível a partir de pixels brutos. Neste artigo, propomos o Forçamento de Representação (RF), uma técnica que elimina essa lacuna ao tornar a predição de representações uma capacidade nativa do modelo. Concretamente, o RF força o decodificador a predizer autoregressivamente representações visuais como tokens intermediários antes dos pixels; esses tokens então permanecem no contexto para guiar a difusão de pixels dentro do mesmo backbone. Ao transformar representações de saídas de percepção em alvos de geração, o RF elimina a necessidade de qualquer espaço latente generativo externo. Descobrimos que o RF beneficia tanto o entendimento quanto a geração. Na geração de imagens, nosso modelo baseado em pixels com RF iguala os modelos unificados baseados em VAE do estado-da-arte. No entendimento de imagens, o RF baseado em pixels geralmente supera sua variante baseada em VAE. Juntos, esses resultados representam um passo eficaz em direção a MMUs ponta a ponta e sem gargalo.
Apresentamos o Mellum 2, um modelo de linguagem Mixture-of-Experts (MoE) de pesos abertos com 12B de parâmetros e 2,5B de parâmetros ativos por token. O Mellum 2 é um modelo de linguagem de uso geral especializado em engenharia de software, abrangendo geração e edição de código, depuração, raciocínio de múltiplas etapas, uso de ferramentas e chamada de funções, codificação agentiva e assistência conversacional em programação, sendo o sucessor do modelo Mellum denso de 4B focado em conclusão. A arquitetura baseia-se no Mixture-of-Experts (64 especialistas, 8 ativos) e combina Grouped-Query Attention com 4 cabeças KV, Sliding Window Attention em três de cada quatro camadas, e uma única cabeça de Predição de Múltiplos Tokens que funciona tanto como um objetivo auxiliar de pré-treinamento quanto como um modelo de rascunho integrado para decodificação especulativa; cada escolha foi validada por ablação, tendo a eficiência de inferência em GPUs comerciais como restrição de projeto. O pré-treinamento abrange aproximadamente 10,6 trilhões de tokens através de um currículo de três fases que progressivamente desloca a mistura de dados web diversos para conteúdo de código e matemática curados, otimizado com Muon sob precisão híbrida FP8 e um cronograma Warmup-Hold-Decay com decaimento linear até zero. A base pré-treinada é estendida para uma janela de contexto de 128K via YaRN seletivo por camada e, em seguida, é pós-treinada em duas etapas (ajuste fino supervisionado seguido de RLVR), resultando em duas variantes lançadas: um modelo Instruct que responde diretamente e um modelo Thinking que emite um traço de raciocínio explícito antes de sua resposta final. Em benchmarks de geração de código, matemática e raciocínio, uso de ferramentas, conhecimento e segurança, o Mellum 2 é competitivo com linhas de base de pesos abertos na faixa de 4B-14B, enquanto opera com o custo computacional por token de um modelo denso de 2,5B. Disponibilizamos os checkpoints base, instruct e thinking, juntamente com este relatório sobre as decisões de arquitetura, pipeline de dados e receita de treinamento por trás deles, sob a licença Apache 2.0.
Síntese de texto para fala (TTS) zero-shot tem melhorado substancialmente para síntese de um único locutor, mas o diálogo expressivo de múltiplos locutores em formato longo continua sendo difícil. Uma solução comum é sintetizar cada turno com um modelo TTS de monólogo e costurar as saídas. Isso adiciona custo de inferência e frequentemente quebra a consistência acústica, a coerência conversacional e a continuidade afetiva entre os turnos. Sistemas recentes de TTS para diálogo começaram a abordar esse cenário, mas ainda lutam para manter simultaneamente coerência expressiva, alternância controlável de locutores e qualidade de monólogo. Apresentamos SwanData-Speech e SwanVoice. SwanData-Speech constrói corpora de monólogo e diálogo a partir de áudio do mundo real, usando o Swan Forced Aligner para alinhamento em nível de palavra consciente de pausas e o RobustMegaTTS3 para casos com pronúncia difícil. Construído sobre esses dados, o SwanVoice é um modelo TTS zero-shot para 1–4 locutores, combinando um VAE de 25 Hz, condicionamento a texto bruto com símbolos conscientes de pausas e substituição por pinyin, e um DiT de correspondência de fluxo com condicionamento de turno de locutor. O treinamento começa com fala de monólogo, passa por dados mistos e de diálogo real, e então utiliza pós-treinamento DiffusionNFT com recompensas em nível de fonema e similaridade de locutor. No SwanBench-Speech, o SwanVoice obtém pontuações de riqueza e hierarquia mais altas do que todas as linhas de base de código aberto avaliadas, tanto em cenários de monólogo quanto de diálogo, embora a precisão do conteúdo permaneça como a principal limitação. Demonstrações de áudio estão disponíveis em https://swanaigc.github.io//#swanvoice.
O raciocínio em contextos longos continua sendo um desafio central para grandes modelos de linguagem, que frequentemente falham em localizar e integrar informações-chave em conteúdo extenso e distrativo. O aprendizado por reforço com recompensas verificáveis (RLVR) tem se mostrado promissor para essa tarefa, mas os métodos existentes são limitados por distratores de baixa confusibilidade e sinais de recompensa esparsos e baseados apenas no resultado, que não podem supervisionar etapas intermediárias de raciocínio. Para lidar com essas questões, apresentamos o LongTraceRL. Para a construção de dados, geramos perguntas de múltiplos saltos por meio de caminhadas aleatórias em grafos de conhecimento e aproveitamos as trajetórias do agente de busca para construir distratores em camadas: documentos que o agente leu, mas não citou (alta confusibilidade) e documentos que apareceram nos resultados da busca, mas nunca foram abertos (baixa confusibilidade), produzindo contextos de treinamento muito mais desafiadores do que aqueles construídos por amostragem aleatória ou busca única. Para o design da recompensa, propomos uma recompensa de rubrica que utiliza as entidades douradas ao longo de cada cadeia de raciocínio como uma supervisão de processo refinada, no nível de entidade. Essa recompensa de rubrica é aplicada apenas a respostas com respostas finais corretas (estratégia apenas positiva), distinguindo a qualidade do raciocínio entre respostas corretas e prevenindo o desvio de recompensa. Experimentos em três LLMs de raciocínio (4B--30B) em cinco benchmarks de contexto longo demonstram que o LongTraceRL supera consistentemente linhas de base fortes e incentiva um raciocínio abrangente e fundamentado em evidências. Códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/THU-KEG/LongTraceRL.
A maioria dos métodos de síntese de cenas internas 3D orientados por texto gera ambientes a partir de prompts centrados em objetos, perguntando quais móveis devem ser colocados, em vez de como o espaço é usado. No entanto, no design de interiores real, um layout é julgado por quão bem ele atende seus ocupantes, por exemplo, suas atividades e necessidades físicas. Apresentamos o Function2Scene, uma estrutura para gerar layouts internos 3D a partir de especificações funcionais, ou seja, briefings de design em linguagem natural que descrevem quem usará um ambiente e o que precisam fazer ali. Dada tal especificação, nosso sistema analisa personas de ocupantes e atividades, deriva um conjunto personalizado de restrições de design funcional a partir de uma taxonomia de 17 critérios que abrangem considerações espaciais, ergonômicas, de atividade e ambientais, e utiliza essas restrições para orientar a geração do layout. Em vez de confiar em um LLM para produzir diretamente uma cena final, o Function2Scene realiza avaliação e refinamento iterativos por meio de um loop de verificação e reparo aumentado por ferramentas, combinando medições geométricas, raciocínio contextual baseado em LLM e avaliação visual baseada em VLM. Experimentos em 30 casos de design de interiores escritos profissionalmente mostram que o Function2Scene produz layouts que satisfazem melhor os requisitos funcionais do que as bases recentes de síntese de cenas baseadas em LLM, com nossos resultados preferidos em 94,3% das comparações pareadas. Nosso trabalho reenquadra a síntese de cenas internas orientada por texto, passando da colocação de objetos plausíveis para o design de espaços que suportam o uso humano.
A restauração de imagens (RI) do mundo real enfrenta um gargalo devido à escassez de dados de treinamento pareados de alta qualidade. Conjuntos de dados sintéticos são abundantes, mas frequentemente falham em modelar degradações do mundo real, enquanto conjuntos de dados pareados do mundo real são caros e difíceis de capturar. Como resultado, modelos de RI treinados nesses conjuntos apresentam generalização limitada em cenários reais. Neste trabalho, propomos o Ground Truth Generativo (GGT), utilizando modelos fundamentais multimodais (MFMs) generativos para produzir alvos de alta qualidade (HQ) a partir de imagens reais de baixa qualidade (LQ). Primeiramente, realizamos uma avaliação sistemática de nove MFMs de última geração, incluindo Nano-Banana-2 e GPT-Image-2, em imagens de diversas cenas e tipos de degradação. Os resultados demonstram que o Nano-Banana-2, com prompting adaptativo baseado em VLM, apresenta a maior capacidade de sintetizar alvos HQ perceptual e fiel ao conteúdo, que podem servir como GGT para a entrada LQ. Em seguida, empregamos o Nano-Banana-2 para construir um pipeline de síntese de GGT, que envolve controle de qualidade em múltiplos estágios para garantir a confiabilidade dos dados, e construímos o GGT-100K, um conjunto de dados pareados LQ-HQ compreendendo 103.707 pares de treinamento e abrangendo cenas diversas e degradações complexas do mundo real. Um conjunto de teste com 500 pares de imagens também foi estabelecido. Experimentos extensivos mostram que o GGT-100K melhora consistentemente a generalização em cenários reais de uma ampla gama de modelos de RI, com benefícios particularmente fortes para o ajuste fino de modelos generativos para tarefas de RI. Nossos resultados sugerem que os MFMs podem servir como ferramentas práticas para geração de dados orientada à restauração, e que o GGT-100K é um recurso útil para expandir os limites de generalização de modelos de RI no mundo real.
A geração de áudio espacial em tempo real e precisa é fundamental para proporcionar uma experiência imersiva. No entanto, as tecnologias existentes de síntese de áudio espacial são frequentemente prejudicadas por um compromisso entre a qualidade da geração e a alta latência de inferência, além da dificuldade em capturar informações espaciais precisas a partir de entradas multimodais. Para enfrentar esses desafios, propomos o SwanSphere, uma estrutura de streaming unificada para geração de áudio espacial de alta fidelidade a partir de vídeos panorâmicos e prompts de texto. O SwanSphere apresenta as seguintes contribuições principais: 1) Introduzimos uma arquitetura de transformador de difusão autorregressiva causal que permite a geração contínua de áudio espacial de alta qualidade. 2) Projetamos uma estratégia de aprendizado contrastivo vídeo-áudio espacial (SVAC) para alinhar o codificador de vídeo com o domínio acústico, e empregamos ainda um esquema de otimização direta de preferência multiobjetivo online (ODPO), resultando em forte percepção espacial e síntese robusta de áudio espacial multimodal. 3) Para mitigar a atual escassez de conjuntos de dados de áudio espacial, também desenvolvemos um pipeline de anotação automatizada para gerar descrições espaciais detalhadas. Os resultados experimentais demonstram que o SwanSphere alcança desempenho superior tanto em tarefas de geração de áudio espacial a partir de vídeo quanto a partir de texto. Demonstrações podem ser encontradas em: https://swanaigc.github.io.
A edição em tempo real de vídeo para vídeo (V2V) em streaming é essencial para aplicações interativas como transmissão ao vivo e jogos, mas ainda representa um desafio formidável devido às rigorosas exigências de consistência temporal e rendimento de inferência. Neste artigo, apresentamos o SANA-Streaming, uma estrutura co-projetada de sistema e algoritmo para edição de vídeo em streaming de alta resolução e em tempo real em GPUs consumidor, com os três seguintes designs centrais: (1) Uma arquitetura de Transformer de Difusão Híbrida introduz atenção softmax em parte dos blocos para aprimorar as capacidades de modelagem local, preservando ao mesmo tempo a eficiência das camadas lineares. (2) A Regularização por Ciclo Reverso é uma estratégia de treinamento inovadora que impõe consistência semântica ao prever quadros fonte a partir do conteúdo gerado via flow matching, melhorando a consistência temporal sem exigir pares de vídeos editados longos. (3) O Co-design Eficiente de Sistema combina kernels GDN fundidos e Quantização de Precisão Mista (MPQ) otimizada para a arquitetura NVIDIA Blackwell (RTX 5090). Ao perfilar o rendimento em cenários reais, nosso MPQ maximiza a utilização dos Tensor Cores enquanto mantém a qualidade da geração. O sistema resultante alcança edição em tempo real na resolução 1280 x 704 a 24 FPS completos (end-to-end) em uma única GPU RTX 5090, com o núcleo DiT operando a 58 FPS. Os resultados experimentais demonstram que nossa abordagem de co-design supera significativamente os métodos de última geração (SOTA) existentes tanto em coerência temporal quanto em rendimento do sistema.
Avanços recentes na geração de fala possibilitaram a síntese de alta fidelidade, porém a avaliação sistemática de modelos sob condições de contexto longo permanece amplamente inexplorada. Um benchmark de avaliação abrangente para fala longa é indispensável por duas razões: 1) os cenários de teste existentes são frequentemente restritos a domínios limitados, criando uma lacuna significativa com as diversas aplicações subsequentes; 2) as métricas existentes ignoram fatores críticos de texto longo, como consistência e coerência, falhando em generalizar de forma confiável. Para tal, propomos o Swanbench-Speech, um benchmark abrangente que decompõe a qualidade da fala longa em dimensões específicas e desentrelaçadas. O SwanBench-Speech possui três propriedades-chave: 1) Cenários de fala ricos: Focando na geração de fala longa e geração de diálogo, o SwanBench-Speech abrange desafios de acústica, semântica e expressividade, consistindo em 1.101 amostras que cobrem 17 cenários comuns de fala; 2) Dimensões de avaliação abrangentes: Ao longo dos eixos acústico, semântico e expressivo, o SwanBench-Speech define um protocolo de avaliação automatizada com sete métricas para fornecer uma avaliação abrangente, precisa e padronizada; 3) Percepções valiosas: Por meio de experimentos extensos, revelamos que os modelos atuais ainda enfrentam dificuldades em cenários altamente expressivos e apresentam uma lacuna notável em consistência e hierarquia em comparação com gravações reais.
A memória de longo prazo é essencial para que agentes multimodais construam experiências coerentes, acumulem conhecimento de mundo e alcancem aprendizado contínuo. No entanto, construir uma memória eficaz vai além do projeto do módulo de memória e de requisitos básicos como precisão e fidelidade; o principal desafio está em determinar o que memorizar. Agentes multimodais, como agentes incorporados, percebem, raciocinam e agem continuamente em ambientes reais ou virtuais, recebendo um fluxo ilimitado de observações multimodais. Dessa explosão combinatória de informações, um agente deve reter seletivamente conteúdos relevantes para seu papel no ambiente e valiosos para tarefas futuras. Para preencher essa lacuna, enquadramos a geração de memória como uma política de memorização aprendível e introduzimos o TaskMem (Task-focused Memorization Policy Learning), uma estrutura baseada em aprendizado por reforço que permite à política ajustar dinamicamente seu foco às demandas de tarefas reais encontradas no ambiente. O TaskMem adota um paradigma de treinamento em duas fases: a Fase Um aprende como memorizar, otimizando a qualidade da memória sob requisitos fundamentais de fidelidade; a Fase Dois ocorre após a implantação, onde o agente aprende o que memorizar ajustando um adaptador em seu MLLM base, usando tarefas recentes do ambiente para definir um modelo de recompensa que orienta a política de memorização em direção a conteúdo relevante para as tarefas. Para avaliar nossa abordagem, reformulamos os conjuntos de dados VideoMME, EgoLife e EgoTempo em benchmarks de streaming que simulam um cenário realista no qual um agente processa observações em fluxo contínuo e lida com tarefas que chegam online. Para isolar a avaliação da memória, as perguntas devem ser respondidas usando apenas a memória do agente, sem acesso ao vídeo bruto. Construído sobre o Qwen3-VL-30B-A3B, o TaskMem melhora a precisão de VQA em 6,3%, 7,0% e 5,3% nesses benchmarks, respectivamente.
Modelos de Linguagem de Grande Escala por Difusão (dLLMs) surgiram recentemente como uma alternativa promissora aos modelos autorregressivos, oferecendo desempenho competitivo enquanto suportam naturalmente a decodificação paralela. No entanto, à medida que os dLLMs são cada vez mais integrados a arquiteturas de Mistura de Especialistas (MoE) para escalar a capacidade do modelo, surge uma incompatibilidade fundamental entre a decodificação paralela por bloco e a seleção de especialistas em nível de token. Especificamente, cada passagem direta do dLLM processa múltiplos tokens com dependências bidirecionais, enquanto camadas MoE convencionais roteiam cada token de forma independente. Essa incompatibilidade aumenta substancialmente o número de especialistas ativados de forma única, tornando a inferência cada vez mais limitada por memória. Para resolver isso, propomos o dMoE, um framework MoE em nível de bloco simples, porém eficaz. A ideia central do dMoE é agregar as distribuições de especialistas em nível de token dentro de cada bloco em uma distribuição unificada de especialistas em nível de bloco, que é então usada para guiar o roteamento de especialistas de maneira mais coerente. Dessa forma, o dMoE reduz substancialmente o número de especialistas ativados de forma única durante a inferência sem sacrificar o desempenho, mitigando assim o gargalo limitado por memória. Extensos experimentos em uma variedade de benchmarks demonstram a eficácia do dMoE. Em média, o dMoE reduz o número de especialistas ativados de forma única de 69,5 para 14,6, mantendo 99,11% do desempenho original. Enquanto isso, reduz o uso de memória em 76,64% a 79,84% e atinge uma aceleração de latência ponta a ponta de 1,14× a 1,66×. O código está disponível em: https://github.com/fscdc/dMoE
A destilação on-policy (OPD) treina um estudante em suas próprias rolagens com supervisão do professor em nível de token. Métodos recentes de OPD seletiva exploram a não uniformidade dos sinais de OPD priorizando tokens de alta entropia ou alto desacordo. Revisitamos esse princípio e perguntamos: quais sinais do professor em nível de token são realmente aprendíveis? Usando um diagnóstico de contexto fixo que mede a redução KL professor-aluno no mesmo contexto, mostramos que o desacordo KL bruto é uma proxy grosseira para o valor de aprendizado. Ele confunde desacordo aprendível, onde o professor atribui massa corretiva aos candidatos top-K do estudante, com desacordo incompatível, onde o professor coloca massa principalmente fora do suporte atual do estudante. Formalizamos essa compatibilidade local como ensinabilidade do token e mostramos que ela prediz melhor a melhoria em contexto fixo do que o KL bruto isoladamente. Motivados por essa descoberta, propomos OPD Consciente de Ensinabilidade (TA-OPD), um método leve de seleção de posições de token que aplica a perda OPD em posições de alta ensinabilidade, sem modelos de recompensa ou verificadores. Em configurações professor-aluno com Qwen2.5 e Qwen 3, a TA-OPD frequentemente supera a OPD com tokens completos utilizando apenas 5% dos tokens retidos e melhora em relação às baselines baseadas em entropia e divergência. Nossos resultados reformulam a OPD seletiva como a seleção de sinais aprendíveis do professor, em vez de meramente tokens salientes.
O auto-jogo pode treinar modelos de linguagem sem supervisão externa. No entanto, os métodos existentes exigem respostas verificáveis por regras, deixando tarefas abertas dependentes de prompts curados ou de juízes baseados em modelos de ponta. Apresentamos o SCOPE, uma estrutura de auto-jogo livre de dados para tarefas abertas que co-evolui duas políticas: um Desafiante, que gera tarefas fundamentadas em documentos, e um Solucionador, que as responde por meio de recuperação em múltiplas etapas. Uma cópia congelada do modelo inicial atua como auto-juiz, que escreve rubricas específicas da tarefa a partir do documento fonte e avalia as respostas do Solucionador com base nessas rubricas. Em três modelos ajustados por instruções de 7 a 8B (Qwen2.5, Qwen3, OLMo-3), o SCOPE melhora o desempenho em tarefas abertas em até +10,4 pontos em oito benchmarks e iguala ou supera o GRPO_data treinado com aproximadamente 9 mil prompts curados. Embora treinado apenas em tarefas abertas, o SCOPE também melhora o QA de formato curto não visto em até +13,8 pontos em sete benchmarks retidos, superando o GRPO_data nos três modelos. Ablações mostram que co-evoluir o Desafiante é necessário para manter as tarefas próximas da fronteira do Solucionador, que os ganhos advêm de melhorias tanto na recuperação quanto na síntese, com contribuição relativa variando por tarefa, e que a qualidade da geração de rubricas é o gargalo para a auto-avaliação.
A busca agentiva permite que LLMs resolvam perguntas complexas de múltiplas etapas por meio de raciocínio iterativo e busca externa. Apesar da eficácia, esses sistemas frequentemente sofrem de uma limitação crítica na prática: os agentes falham em reconhecer seus próprios limites de conhecimento, acionando buscas cegamente quando o conhecimento interno é suficiente e não conseguindo encerrar a busca mesmo quando evidências adequadas foram coletadas. A falta de autoconsciência leva a uma severa sobrebusca, incorrendo em latência de inferência substancial e custo computacional proibitivo. Para isso, propomos o SAAS, um novo framework de RL projetado para cultivar autoconsciência dinâmica que regula precisamente o comportamento de busca sem comprometer a precisão. O SAAS introduz três componentes principais: (i) um mecanismo de modelagem do limite de busca, que identifica o limite de busca sob a política em evolução ao contrastar rollouts com busca desabilitada e habilitada; (ii) um módulo de recompensa ciente do limite, que traduz essa consciência do limite em penalidades no nível da trajetória, suprimindo buscas desnecessárias e redundantes; e (iii) uma estratégia de otimização por estágios, que utiliza um currículo sequencial para priorizar o raciocínio sobre a regularização da busca, evitando assim a exploração de recompensa. Experimentos extensos demonstram que o SAAS reduz substancialmente a sobrebusca, mantendo a precisão. Nosso código é disponibilizado anonimamente em https://github.com/XMUDeepLIT/SAAS.
Modelos de vídeo-linguagem conseguem processar apenas um número limitado de quadros, tornando a seleção de quadros um gargalo fundamental para a legendagem eficiente de vídeos. A maioria dos pipelines de legendagem ainda depende de amostragem uniforme, que é computacionalmente barata, mas insensível ao conteúdo visual. A amostragem adaptativa de quadros surgiu recentemente como uma abordagem promissora para selecionar os quadros mais informativos de um vídeo; no entanto, os métodos existentes continuam computacionalmente caros. Apresentamos o PEEK, um método eficiente de amostragem dinâmica de quadros que destila ranqueamentos de relevância de quadros condicionados a legendas de um modelo professor mais forte em um modelo temporal leve que opera apenas com conteúdo visual. Constatamos que, de modo geral, nos conjuntos ActivityNet Captions e MSR-VTT, nosso método supera os métodos de última geração em todos os modelos de visão-linguagem downstream avaliados, especialmente quando apenas um ou dois quadros são selecionados para legendagem, obtendo o melhor CIDEr na maioria dos orçamentos de quadros. No ActivityNet Captions, o PEEK é particularmente forte, vencendo em 14 das 16 configurações. A avaliação zero-shot no MSR-VTT mostra que nosso modelo transfere melhor em orçamentos baixos de quadros, enquanto os resultados com quatro e oito quadros são mais mistos, à medida que a cobertura temporal e a diversidade visual se tornam cada vez mais competitivas. Comparado com linhas de base adaptativas recentes, o PEEK é tanto mais preciso no regime de baixo orçamento quanto mais eficiente: ele adiciona apenas 5,2% ao tempo de legendagem, contra 65,4% para o CSTA e 211,9% para o MaxInfo. Disponibilizamos nosso código e checkpoint pré-treinado em https://github.com/momentslab/peek.
Modelos de Linguagem de Grande Porte (LLMs) demonstraram desempenho robusto em tarefas gerais, mas frequentemente enfrentam dificuldades para se adaptar a domínios especializados na ausência de dados específicos de alta qualidade. Os métodos existentes de curadoria de dados baseados em LLMs dependem principalmente de fluxos de trabalho projetados por humanos, deixando inexplorada a questão de se os LLMs podem executar autonomamente um pipeline completo de engenharia de dados para especialização de modelos. Formalizamos a Engenharia Autônoma de Dados Baseada em Agentes, uma nova tarefa projetada para avaliar LLMs como engenheiros de dados autônomos que conduzem a especialização de modelos por meio de curadoria de dados de ponta a ponta. Enquadramos os dados como um componente otimizável e estudamos agentes que planejam, geram e otimizam iterativamente dados de treinamento em múltiplos domínios, guiados pela melhoria de desempenho pós-treinamento. Os experimentos mostram que engenheiros de dados LLM autônomos produzem ganhos substanciais, com o GPT-5.2 construindo um currículo de treinamento que melhora um modelo aluno em 57,29%, inteiramente por meio de adaptação iterativa de dados conduzida por agentes. Ao iluminar tanto o potencial quanto os gargalos, nosso estudo estabelece a engenharia autônoma de dados como uma capacidade mensurável e traça um caminho em direção à especialização de modelos conduzida por agentes. O código será disponibilizado em https://github.com/zjunlp/DataAgent.
A análise de dados do mundo real é inerentemente iterativa, no entanto, os benchmarks existentes avaliam principalmente tarefas interativas isoladas ou curtas, deixando sem testar a capacidade dos agentes de acompanhar o contexto analítico em evolução ao longo de horizontes longos. Apresentamos o LongDS, um benchmark para análise de dados multietapas e de longo horizonte, no qual os agentes devem manter, atualizar, restaurar e compor estados analíticos em evolução. O LongDS compreende 68 tarefas construídas a partir de cadernos reais do Kaggle, abrangendo 2.225 rodadas em seis domínios, incluindo Geociências, Negócios e Educação. As tarefas são projetadas em torno de padrões de evolução de estado (por exemplo, perturbação contrafactual, reversão, composição de múltiplos estados), com um intervalo médio de dependência de 11,3 rodadas. Avaliando cinco modelos de última geração, constatamos que o melhor modelo atinge apenas 48,45% de acurácia média, o desempenho cai quase 47 pontos percentuais das primeiras para as últimas rodadas, e os erros de longo horizonte respondem por 52%–69% das falhas. Análises adicionais mostram que passos adicionais do agente não necessariamente melhoram o desempenho, sugerindo que o gargalo principal é manter um estado analítico correto, e não aumentar o orçamento de interação. Disponibilizamos o LongDS para apoiar pesquisas sobre análise de dados agentiva confiável em horizontes longos. O código e os dados serão disponibilizados em https://github.com/zjunlp/DataMind.
Modelos de Linguagem Visual (VLMs) permitem que um modelo unificado resolva diversas tarefas de visão por meio de prompts. Eles têm demonstrado desempenho promissor em compreensão semântica. No entanto, a compreensão 3D ainda depende amplamente de modelos de visão especializados, com designs complexos específicos para cada tarefa. O argumento central que este trabalho quer apresentar é que VLMs são aprendizes nativos de 3D. Nosso estudo aprofundado em larga escala mostra que 1) unificação da distância focal, 2) referência de pixel baseada em texto e 3) mistura e escalonamento de dados são tudo o que é necessário para um aprendizado 3D eficaz. Mudanças na arquitetura do modelo, modelos grandes, aumentações de dados pesadas e perdas complexas, incluindo a formulação de regressão — muitos dos quais formam a base dos modelos de visão especializados —, na verdade não são condições necessárias. Como resultado, propomos VLM3, um método escalável com o design mais simples que permite que VLMs padrão dominem diversas tarefas 3D. VLM3 não apenas avança a precisão da estimativa de profundidade do VLM com uma grande margem (0,84 -> 0,9), mas também possibilita diversas tarefas 3D, como correspondência de pixels, estimativa de pose de câmera e compreensão 3D no nível de objeto, igualando a precisão de modelos de visão especializados, mantendo arquiteturas padrão e treinamento baseado em texto. Acreditamos que VLM3 abre um novo paradigma para aprendizado 3D simples e escalável.
Embora mecanismos de atenção com complexidade linear ofereçam uma alternativa promissora à atenção Softmax para superar o gargalo quadrático, treinar tais modelos do zero ainda é proibitivamente caro. Herdar pesos de Transformers pré-treinados oferece um atalho atraente, porém a lacuna representacional fundamental entre a atenção Softmax e a atenção linear impede a transferência eficaz de pesos. Neste trabalho, abordamos este desafio de conversão sob duas perspectivas: alinhamento arquitetural e alinhamento representacional. Identificamos o Test-Time Training (TTT) como uma arquitetura de complexidade linear cuja formulação dinâmica de duas camadas está estruturalmente alinhada com a atenção Softmax, permitindo a herança direta de pesos de atenção pré-treinados. Para alinhar ainda mais as propriedades representacionais, incluindo invariância ao deslocamento de chave e localidade, introduzimos a normalização de instância de chave e um módulo leve de aprimoramento de localidade. Validamos nossa abordagem linearizando o Stable Diffusion 3.5 e introduzimos o SD3.5-T^5 (Transformer To Test Time Training). Com apenas 1 hora de ajuste fino em GPUs 4×H20, o SD3.5-T^5 alcança qualidade de texto para imagem comparável ao modelo Softmax ajustado, enquanto acelera a inferência em 1,32× e 1,47× nas resoluções de 1K e 2K. O código está disponível em https://github.com/LeapLabTHU/Transformer-to-TTT.
Embora os agentes GUI tenham avançado rapidamente, frequentemente carecem da robustez necessária para se recuperarem de seus próprios erros, dificultando a implementação em cenários reais. Para preencher essa lacuna tanto no nível de avaliação quanto no de dados, introduzimos o GUI-RobustEval e propomos a Síntese de Trajetórias Orientada por Robustez. O GUI-RobustEval contém 1.216 casos de teste executáveis que medem sistematicamente as capacidades de recuperação de erros em um espectro amplo e realista de modos de erro. No nível de dados, o RoTS é uma estrutura de síntese escalável que cria 800 mil dados de alta qualidade por meio de um pipeline baseado em árvore que descobre proativamente diversos modos de erro e sintetiza etapas de recuperação correspondentes. Nossos dois modelos, RoTS-7B e RoTS-32B, ajustados finamente em nosso conjunto de dados, demonstraram ganhos significativos tanto no GUI-RobustEval quanto em benchmarks tradicionais de GUI. Notavelmente, o RoTS-32B alcança desempenho de estado da arte no OSWorld, com uma taxa de sucesso de 47,4% e uma pontuação All-Pass@4 de 33,8%, sugerindo que a melhoria na capacidade de recuperação de erros de longo horizonte contribui tanto para a robustez quanto para o desempenho geral. Nosso código está disponível em https://github.com/AlibabaResearch/RoTS.
Agentes LLM são cada vez mais implantados como sistemas construídos em torno de estruturas externas editáveis, incluindo prompts, habilidades, memórias e ferramentas, que moldam a execução de tarefas sem alterar os parâmetros do modelo. A auto-evolução da estrutura externa adapta esses agentes atualizando essas estruturas a partir de evidências de execução. No entanto, ainda não está claro se a capacidade base do modelo em resolver tarefas prediz suas capacidades em auto-evolução da estrutura externa: quais modelos produzem atualizações úteis da estrutura externa e quais realmente se beneficiam delas? Analisamos duas capacidades de auto-evolução da estrutura externa: (i) atualização da estrutura externa, a capacidade de produzir atualizações persistentes e úteis da estrutura externa a partir de evidências de execução; (ii) benefício da estrutura externa, a capacidade de se beneficiar de estruturas externas atualizadas durante a resolução de tarefas. Nossa análise revela duas descobertas. Primeiro, a atualização da estrutura externa é plana em capacidade base: modelos de diferentes níveis de capacidade produzem atualizações da estrutura externa que levam a ganhos surpreendentemente semelhantes; até mesmo as atualizações do Qwen3.5-9B produzem ganhos comparáveis aos do Claude Opus~4.6. Segundo, o benefício da estrutura externa é não monotônico em capacidade base: modelos de nível fraco se beneficiam pouco de estruturas externas atualizadas, modelos de nível médio se beneficiam mais, e modelos de nível forte se beneficiam menos que os de nível médio. Atribuímos os baixos ganhos no nível fraco a dois modos de falha: modelos de nível fraco podem falhar em ativar artefatos relevantes da estrutura externa, ou ativá-los mas falhar em segui-los fielmente. Essas descobertas sugerem investir o orçamento de capacidade no agente de resolução de tarefas, e não no evoluído; e visar a invocação da estrutura externa e o seguimento de instruções de longo horizonte no treinamento de agentes. Nosso código-fonte está disponível publicamente em https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.
Os agentes de LLM estão evoluindo de chatbots conversacionais para ferramentas operacionais em ambientes de trabalho reais. Em ambientes operacionais locais de agentes, um LLM pode ler e escrever arquivos, chamar ferramentas e reutilizar o estado do ambiente entre sessões. Embora tais capacidades aumentem a utilidade, elas também expõem uma nova superfície de ataque para invasores. Atacantes podem incorporar uma injeção de prompt dentro de um arquivo ou saída de ferramenta. Agentes podem ler essa instrução oculta, armazená-la e executá-la posteriormente. Nesse paradigma de ataque troiano de múltiplas etapas, nenhuma etapa individual aparenta ser maliciosa por si só, mas essas etapas podem, coletivamente, transformar texto não confiável em conteúdo de controle persistente. No entanto, as defesas existentes frequentemente inspecionam cada etapa de forma isolada. Como resultado, podem bloquear uma ação claramente prejudicial, mas falham em detectar a operação de escrita anterior que planta o backdoor. Para revelar essa ameaça, introduzimos o ClawTrojan, um referencial projetado para identificar ataques troianos de múltiplas etapas em ambientes operacionais locais de agentes. Em um ambiente de trabalho simulado estilo OpenClaw com GPT-5.4, o ClawTrojan atinge uma taxa de sucesso de ataque (ASR) de 95,5%, enquanto ataques de injeção de prompt de turno único existentes produzem ASR próxima de zero no mesmo modelo. Para enfrentar essa ameaça, propomos o DASGuard, que escaneia texto de tipo controle em arquivos locais sensíveis, rastreia sua origem e remove conteúdo de controle que não se origina de uma fonte confiável. Nossos resultados mostram que o DASGuard alcança uma forte defesa dinâmica ao combinar bloqueio de ataque em tempo de execução com commits sanitizados ao ambiente de trabalho.
Os modelos de vídeo visão-linguagem (VLMs) são cada vez mais utilizados em contextos de longa duração e streaming, mas a maioria dos codificadores de vídeo ainda depende de autoatenção espaço-temporal, fazendo com que o custo computacional e a latência cresçam quadraticamente com o número de quadros. Métodos de eficiência existentes melhoram a escalabilidade, mas frequentemente perdem precisão em relação à autoatenção completa, por exemplo, por meio de descarte agressivo de quadros/tokens ou aproximações grosseiras de atenção. Apresentamos o StateKV, um método em tempo de inferência que adapta VLMs pré-treinados para vídeos longos a um preenchimento de vídeo em tempo linear, transportando o contexto entre quadros em um estado recorrente de capacidade fixa e baseado em importância, combinado com um segundo cache completo por quadro usado para decodificação. Em três benchmarks de vídeos longos e sete modelos de três famílias e múltiplas escalas, o StateKV permanece próximo da autoatenção completa e supera consistentemente as aproximações de streaming dominantes baseadas em janela deslizante/recência, sem necessidade de ajuste fino ou alterações arquiteturais. O StateKV também reduz o custo de preenchimento de vídeo medido em FLOPs, permitindo maior precisão com um orçamento computacional fixo ao executar modelos maiores. Esses resultados sugerem um passo prático em direção à compreensão escalável de vídeos longos.
Avanços recentes em modelos generativos de vídeo impulsionaram progressos rápidos em modelos de mundo controláveis. No entanto, manter consistência espaço-temporal detalhada sob raciocínio de horizonte longo continua sendo um desafio fundamental. Neste trabalho, superamos a memória explícita 3D e a modelagem implícita grosseira em nível de quadro, propondo uma memória de granularidade fina, aprendível e escalável para geração consistente de mundos. Primeiramente, identificamos duas limitações fundamentais de arquiteturas ingênuas de memória aprendível em extrapolação de horizonte longo: ineficiência computacional e dispersão de atenção. Por meio de uma análise sistemática da dispersão de atenção, propomos DecMem, uma arquitetura de memória desacoplada que emprega Memória Global Dispersa para acesso eficiente e detalhado ao histórico global e Memória Local Ancorada para extrapolação estável e de alta qualidade. Experimentos extensivos demonstram que DecMem supera significativamente os métodos atuais do estado da arte. Ao garantir memória de longo prazo precisa e eficiente e obter capacidades de extrapolação superiores, DecMem possibilita a geração controlável de vídeos longos de alta fidelidade e consistência em nível de minutos.
Modelos Visão-Linguagem-Ação (VLA) permitem que robôs sigam instruções em linguagem natural e generalizem para diversas tarefas, mas continuam vulneráveis a falhas de execução que comprometem a confiabilidade em implantações no mundo real. Detectar tais falhas durante a execução é, portanto, crítico para a implantação robusta de sistemas corporificados. Métodos existentes de detecção de falhas ou dependem de reamostragem cara de ações ou de modelos externos, enquanto alternativas propagam rótulos de nível de trajetória uniformemente a cada instante de tempo, obscurecendo sinais de falha localizados. Neste artigo, propomos o Hide-and-Seek, uma estrutura que formula a detecção de falhas em VLA como um problema de aprendizado com supervisão grosseira. Ao combinar objetivos contrastivos entre trajetórias e intra-trajetórias, o Hide-and-Seek localiza ações indicativas de falhas e induz sinais temporais de falha estruturados a partir apenas de supervisão em nível de trajetória, sem qualquer anotação em nível de passo. Avaliamos o Hide-and-Seek no LIBERO, no VLABench e em uma plataforma robótica real com três políticas VLA representativas: OpenVLA, π_0 e π_{0.5}. Nosso método atinge desempenho de detecção de falhas multitarefa de última geração com um compromisso prático entre precisão e pontualidade sob predição conforme, e generaliza bem tanto para tarefas vistas quanto não vistas.
Trabalhos recentes começaram a equipar políticas de visão-linguagem-ação (VLA) com raciocínio intermediário explícito. No entanto, no controle incorporado, a cadeia de pensamento textual é inadequada: informações irrelevantes ou fracamente textuais podem interferir na previsão de ações, enquanto a decodificação textual autorregressiva adiciona latência excessiva para execução em malha fechada em tempo real. Apresentamos o VISUALTHINK-VLA, uma estrutura de raciocínio intermediário visual para políticas VLA precisas e de baixa latência. Nossa filosofia de bootstrapping é guiar a ação com pensamento visual eficaz: o VISUALTHINK-VLA inicializa a previsão de ações por meio de uma interface compacta de evidência visual que preserva a precisão espacial enquanto evita a sobrecarga de decodificação. Além disso, para melhorar ainda mais o desempenho e a eficiência, o VISUALTHINK-VLA adota um mecanismo de roteamento seletivo personalizado para aprender os tokens de evidência visual, permitindo inferência de baixa latência enquanto preserva a especialização de alta capacidade. Também apresentamos o VisualEvidence-Kit, um recurso de supervisão e auditoria centrado em um VisualEvidence-Agent que constrói um VisualEvidence-Set com 754,7 mil instruções VLA para supervisão de rota e testes de fidelidade contrafactual. Em vários benchmarks e avaliação com robô real, o VISUALTHINK-VLA atinge a maior taxa de sucesso na maioria dos benchmarks, reduzindo a latência de vários segundos das linhas de base aumentadas com raciocínio para o regime de submilissegundos. Por exemplo, no BridgeData V2, reduz a latência por etapa de 8,377 s com o ECoT para 0,367 s, alcançando uma aceleração de 22,8 vezes.
O raciocínio espacial é uma capacidade fundamental para modelos de visão-linguagem (VLMs) implantados em ambientes do mundo real. No entanto, as observações visuais são representações intrinsecamente limitadas de um mundo tridimensional: a oclusão pode tornar objetos invisíveis, e a perspectiva pode tornar propriedades geométricas enganosas. Apesar disso, os benchmarks existentes de raciocínio espacial tipicamente assumem que as observações são suficientes e confiáveis, concentrando-se em saber se os modelos produzem respostas corretas, em vez de reconhecer quando uma pergunta não pode ser respondida e quais observações adicionais seriam necessárias. Neste trabalho, desafiamos essa premissa ao construir um quadro de avaliação controlado, o SpatialUncertain, e introduzir dois tipos de desafios observacionais: (1) oclusão, que oculta informações-alvo, e (2) ambiguidade de perspectiva, que produz pistas visuais enganosas. Para cada configuração, projetamos perguntas espaciais que são respondíveis sob observações limpas, mas exigem abstenção sob os desafios introduzidos. Além disso, avaliamos se os modelos conseguem identificar quais pontos de vista adicionais resolveriam a ambiguidade de perspectiva. Nossos resultados em um conjunto diversificado de VLMs de fronteira, de código aberto e fechado, revelam dois modos de falha consistentes. Primeiro, os modelos são propensos a respostas excessivamente confiantes, tentando resolver tarefas de raciocínio espacial mesmo quando as evidências visuais estão incompletas ou são enganosas, com precisão média em torno de 30% sob oclusão e abaixo de 10% sob ambiguidade de perspectiva. Segundo, mesmo quando vistas adicionais estão disponíveis, alguns modelos têm desempenho próximo ao acaso na identificação de quais forneceriam evidências confiáveis. Em conjunto, nossas descobertas pedem uma mudança além da correção das respostas, em direção à avaliação de se os modelos sabem quando se abster e como buscar evidências confiáveis.
A extrapolação de vídeo gera conteúdo visual plausível além da extensão espacial original de um vídeo, desempenhando um papel fundamental na adaptação de vídeos a diversos formatos de exibição. Para suportar tais casos de uso, é necessário permitir uma grande extrapolação espacial em sequências longas. No entanto, a maioria dos métodos existentes aborda apenas um desses desafios ou carece de mecanismos explícitos para garantir consistência espaçotemporal global, resultando em limitações notáveis. Neste artigo, propomos o HL-OutPaint, uma estrutura de extrapolação de vídeo em alta resolução para sequências longas. Nossa abordagem segue uma estratégia do grosseiro para o fino com um pipeline de duas etapas. Primeiro, construímos a Orientação Grosseira Global (GCG), uma representação de baixa resolução que captura a estrutura global e o movimento dominante em todo o vídeo. Diferentemente da subamostragem ingênua, a GCG é construída por meio de um novo mecanismo de troca de quadros global-local, que acopla quadros-chave globais esparsos com janelas temporais locais e troca informações durante a amostragem. Isso permite que a GCG codifique tanto a consistência estrutural de longo prazo quanto a dinâmica temporal de curto prazo em uma representação unificada. Guiado por essa representação, o HL-OutPaint então realiza a extrapolação em alta resolução para gerar conteúdo espacialmente detalhado e temporalmente consistente. Ao separar a modelagem da estrutura global da síntese refinada, nossa estrutura alcança geração estável e coerente para grande expansão espacial e sequências longas de vídeo. Experimentos extensivos mostram que o HL-OutPaint supera os métodos existentes em cenários desafiadores que envolvem extrapolação espacial ampla e sequências longas de vídeo.
Apresentamos o DEMON, um motor de difusão em tempo real que torna o processo de remoção de ruído (denoising) jogável como um instrumento musical ao vivo: uma superfície de controle tanto ampla (muitos parâmetros moldados por quadro na saída) quanto responsiva (cada controle produzindo efeito tão rápido quanto sua posição no laço de remoção de ruído permite). Construído sobre o ACE-Step 1.5 e a arquitetura de buffer circular do StreamDiffusion com aceleração TensorRT, ele sustenta até 12,3 conclusões de decodificador por segundo para músicas de 60 segundos em uma única GPU de consumo (RTX 5090), ou 11,3 gerações por segundo em nossa profundidade de buffer circular de produção de 4. Nessas taxas, os parâmetros de remoção de ruído tornam-se viáveis como controles de performance ao vivo, mas o buffer circular propaga alterações por solicitação apenas à sua taxa de drenagem, um piso de S etapas de remoção de ruído. Contribuímos com quatro mecanismos: (1) Agendamento heterogêneo de remoção de ruído por slot: cada slot do buffer circular possui seu próprio cronograma de passos de tempo, de modo que um controle deslizante de remoção de ruído em movimento é rastreado sem limpar a fila em andamento, enquanto o design de agendamento global a montante precisaria reconstruí-la e descartá-la. (2) Estado mutável compartilhado por etapa, dando a qualquer parâmetro consultado a cada etapa do solucionador um efeito no próximo tick, contornando a drenagem do buffer circular. (3) Mistura de fontes por quadro: um controle no tempo de amostragem sobre a etapa padrão de re-ruído SDE, fornecendo um eixo de intensidade de transformação por quadro que complementa o agendamento escalar de remoção de ruído. (4) Decodificação VAE janelada, explorando a análise do campo receptivo para uma aceleração de 8,0x na decodificação. Juntos, esses mecanismos separam os parâmetros de difusão em fluxo contínuo em quatro classes de propagação, por latência de início e convergência.
Humanos determinam facilmente qual cor pertence a qual forma em cenas com múltiplos objetos, uma habilidade conhecida como vinculação de conceitos. Modelos de embeddings visão-linguagem, como o CLIP, têm dificuldade com vinculação: eles reconhecem conceitos individuais, mas não conseguem representar quais conceitos formam quais objetos. Embora o CLIP se comporte como um modelo de saco de conceitos na recuperação cross-modal, a informação sobre objetos pode ser recuperada separadamente de seus embeddings de imagem e texto. Estudamos essa tensão por meio da função de vinculação, que mapeia conceitos para embeddings de cena. Descobrimos que os embeddings de cena se decompõem aditivamente em representações de objetos, explicando por que sondas unimodais podem recuperar informações sobre objetos. No entanto, a função de vinculação do CLIP é de alta complexidade, o que provavelmente impede que os codificadores de imagem e texto aprendam um mecanismo de vinculação compartilhado que generalize para combinações de conceitos não vistas anteriormente. Em seguida, perguntamos se essa limitação é fundamental. Mostramos que não é. Em modelos de transformer controlados treinados do zero, a generalização da vinculação emerge com cobertura de dados suficiente. Esses modelos aprendem funções de vinculação de baixa complexidade caracterizadas por interações multiplicativas entre conceitos, permitindo generalização sistemática. O código está disponível publicamente em https://github.com/oshapio/binding-concepts-complexity.
A síntese de novas vistas (NVS) auto-supervisionada continua sendo desafiadora de escalar, apesar da abundância de dados de vídeo, em grande parte devido à fragilidade do treinamento em vídeos realistas e ao comportamento de escalonamento difícil de prever de sistemas com múltiplas redes. Apresentamos o RayDer, um transformer feed-forward unificado que consolida estimativa de câmera, reconstrução de cena e renderização em um único backbone, transformando a NVS auto-supervisionada em um problema de escalonamento de modelo único bem-posto. Um estado dinâmico mínimo, tratado como um fator incômodo, absorve conteúdo variável no tempo e permite treinamento estável em vídeos reais não restritos. Importante, o RayDer mantém a NVS de cena estática como sua tarefa alvo: o conteúdo dinâmico é aproveitado puramente como supervisão escalável, não reconstruído como na NVS de cena dinâmica (4D). Em múltiplos tamanhos de modelo e ordens de grandeza em dados, o RayDer exibe um escalonamento por lei de potência claro com dados e computação, e supera misturas de dados de cena estática. Em um grande número de benchmarks, o RayDer alcança um desempenho zero-shot em conjunto aberto forte, competitivo com abordagens supervisionadas de última geração. Página do Projeto: https://compvis.github.io/rayder
Avanços recentes melhoraram substancialmente a geração de vídeo interativa em tempo real no regime autorregressivo. No entanto, a maioria dos métodos existentes de geração de vídeo autorregressiva de poucas etapas, frequentemente destilados a partir de um professor correspondente de muitas etapas, adota por padrão uma configuração de amostragem de 4 etapas, o que ainda incorre em latência considerável durante a implantação e sofre de grave degradação de qualidade quando o número de etapas de amostragem é ainda mais reduzido, particularmente na configuração de etapa única. Métodos de destilação de consistência baseados em trajetórias frequentemente produzem vídeos com dinâmicas fracas, enquanto abordagens baseadas em DMD, como o Self-Forcing, tendem a gerar quadros borrados. Para enfrentar esse desafio, propomos o One-Forcing, uma abordagem simples, porém eficaz, que aumenta o objetivo do DMD com uma perda GAN auxiliar para geração de vídeo de etapa única de alta qualidade e eficiente. Experimentos no VBench mostram que o One-Forcing atinge uma pontuação total de 83,76, estabelecendo um desempenho de estado da arte entre métodos de geração de vídeo causal de etapa única e mantendo-se competitivo com abordagens robustas de múltiplas etapas. Demonstramos ainda que a geração autorregressiva quadro a quadro de etapa única pode ser alcançada de forma estável com apenas um terço do custo de treinamento do modelo chunkwise, uma configuração que métodos anteriores não conseguiram obter com sucesso.
Habilidades, ou seja, instruções de fluxo de trabalho estruturadas destiladas para modelos de linguagem de grande porte (LLMs), estão se tornando um mecanismo cada vez mais importante para melhorar o desempenho de agentes em tarefas downstream do mundo real. No entanto, à medida que o ecossistema de habilidades de código aberto se expande rapidamente, ainda não está claro como diferentes modelos e frameworks de agentes interagem com as habilidades, como avaliar a qualidade das habilidades e como os usuários devem selecionar habilidades sob compromissos práticos de custo-desempenho. Neste artigo, apresentamos o OpenSkillEval, um quadro de avaliação automática tanto para sistemas agentes aumentados por habilidades quanto para as próprias habilidades. Em vez de depender de benchmarks estáticos, o OpenSkillEval constrói automaticamente instâncias de tarefas realistas a partir de artefatos do mundo real em evolução, abrangendo cinco categorias de aplicações downstream: geração de apresentações, design de páginas web front-end, geração de cartazes, visualização de dados e geração de relatórios. Ele também coleta e organiza habilidades contribuídas pela comunidade para comparação controlada sob configurações de tarefas unificadas. Utilizando mais de 600 instâncias de tarefas geradas dinamicamente e 30 habilidades de código aberto, realizamos uma avaliação sistemática de modelos e frameworks de agentes de última geração. Nossos resultados mostram que a disponibilidade de habilidades não garante seu uso eficaz, que o benefício da aumento por habilidades depende fortemente tanto do modelo subjacente quanto do framework do agente, e que muitas habilidades populares publicamente não superam consistentemente agentes base sem habilidades. Essas descobertas destacam a necessidade de uma avaliação dinâmica e fundamentada em tarefas, e fornecem insights práticos para o design, seleção e implantação de habilidades para agentes LLM. Casos adicionais e recursos de referência estão disponíveis no site do projeto: https://yingjiahao14.github.io/OpenSkillEval-Web/.
Atualmente, o monitoramento de agentes autônomos de modelos de linguagem depende principalmente do comportamento superficial. Mas o que acontece quando populações de agentes inventam novas línguas com o objetivo de evitar a supervisão humana? Aqui, estudamos as línguas emergentes no Moltbook. Para isso, baseamo-nos no conjunto de dados Moltbook Files e aplicamos uma abordagem em duas etapas, composta por uma heurística baseada em regras (cerca de 6.000 correspondências) seguida de classificação zero-shot (518 mantidos). As categorias resultantes incluem eficiência de token (166), novas línguas naturais (106) e evasão de supervisão (59). Realizamos análises quantitativas e qualitativas. Nossos resultados mostram que publicações propondo novas línguas para evitar supervisão são julgadas pelo DeepSeek-3.2 como menos alinhadas do que as outras categorias e que todas as línguas podem ser aprendidas por outros modelos de linguagem em contexto, apenas a partir de uma descrição da língua. Além disso, o estudo manual de casos exemplares revela protocolos esteganográficos surpreendentemente sofisticados, como a incorporação de mensagens ocultas em linguagem natural. Embora não possamos ter certeza sobre a extensão da autonomia na idealização dessas línguas, nossos resultados somam-se às evidências de que o monitoramento do comportamento superficial pode em breve ser insuficiente para manter o controle sobre populações de agentes.
A construção de modelos de recompensa (RMs) robustos para o alinhamento de modelos de linguagem é limitada pelo custo e pela dificuldade de obter dados de preferência diversos e confiáveis, seja por anotação humana ou por modelos avaliadores. Essa limitação se agrava drasticamente à medida que a política evolui além do treinamento estático do RM. Assim, propomos o SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback), uma estrutura que avalia respostas on-policy como feedback, utilizando a função de valor para o treinamento on-policy do RM. O SAVE converte naturalmente as respostas on-policy graduadas por recompensa em supervisão, empregando uma cabeça de valor específica ao prompt como uma âncora adaptativa. Ele calcula as vantagens do RM e filtra amostras ambíguas para atualizar o RM por meio de um objetivo contrastivo. A eficácia do SAVE na melhoria do treinamento do RM é fortemente validada por uma avaliação empírica rigorosa em seis conjuntos de referência diversos. Ele alcança resultados superiores em todos os conjuntos de dados, mantendo melhorias consistentes em três algoritmos de RL (GRPO, RLOO, GSPO) e diferentes backbones de política.
Agentes de pesquisa autônomos baseados em IA visam acelerar a descoberta científica automatizando o pipeline de pesquisa, desde a geração de hipóteses até a revisão por pares. No entanto, os benchmarks existentes raramente testam um gargalo fundamental: se os Grandes Modelos de Linguagem conseguem julgar a viabilidade metodológica de uma ideia de pesquisa antes de despender tempo e recursos computacionais. Apresentamos o SoundnessBench, um benchmark curado de 1.099 propostas de pesquisa em aprendizado de máquina reconstruídas a partir de submissões do ICLR, rotuladas com notas de solidez de revisores e auditadas em relação aos artigos originais. O SoundnessBench deve ser interpretado como um benchmark para solidez em estágio de proposta recuperável, e não como uma predição exata dos resultados da revisão completa do artigo. Em 12 LLMs de ponta, encontramos um viés de otimismo generalizado: sob instrução padrão, os modelos frequentemente avaliam propostas de baixa solidez como sólidas, enquanto instruções agressivas transferem em grande parte os erros de falsos positivos para falsos negativos. Controles adicionais para contaminação de corpus público, frases identificadoras de artigos, características superficiais e qualidade da auditoria humana sugerem que esse comportamento não é explicado por um único fator de confusão. Nossos resultados indicam que os LLMs atuais ainda não são confiáveis como avaliadores autônomos de primeira triagem para rigor científico.
O aprendizado por reforço (RL) pode ser usado para melhorar a política (denoiser) de modelos de linguagem grandes de difusão (dLLMs), embora seja dificultado pela intratabilidade da verossimilhança da política. Uma família dominante e eficiente de métodos substitui a verossimilhança no RL padrão pelo seu limite inferior da evidência (ELBO), estimado a partir de sequências mascaradas aleatoriamente. Apesar de estarem bem alinhados com o pré-treinamento, essas abordagens introduzem viés através da incompatibilidade entre treinamento e inferência ao usar o ELBO como substituto da verossimilhança, o que pode degradar o desempenho. Neste trabalho, propomos a Autodestilação Guiada por Denoiser (GDSD) para destilar diretamente o denoiser de dLLMs a partir de um auto-professor guiado por vantagem, derivado do ótimo de forma fechada do RL regularizado por KL reversa. GDSD combina os logits do denoiser do dLLM com os do professor através de um objetivo livre de normalização, o que reduz o RL a uma autodestilação livre de verossimilhança e, assim, contorna os vieses da TIM. Métodos recentes baseados em ELBO surgem como instâncias de aplicação de diferentes divergências de destilação, mas com patologias diagnosticáveis que o GDSD evita. Em benchmarks de planejamento, matemática e codificação com LLaDA-8B e Dream-7B, o GDSD supera consistentemente os métodos anteriores baseados em ELBO do estado da arte, com uma dinâmica de recompensa de treinamento mais estável, alcançando melhorias de precisão de teste de até +19,6%. Esses resultados sugerem que a autodestilação direta do denoiser, sem depender de um substituto de verossimilhança ELBO, pode fornecer um procedimento de RL mais estável e eficaz para dLLMs. O código está disponível em https://github.com/GaryBall/GDSD.
Este artigo estuda o próximo grande gargalo na IA agentiva como escalonamento de sistemas, não apenas escalonamento de modelos: o projeto de arquiteturas auditáveis, persistentes, modulares e verificáveis em torno de modelos fundamentais. Referimo-nos a esta mudança como escalonamento do arnês: tratar a camada de execução estruturada em torno de um modelo fundamental como um objeto de primeira classe de projeto, avaliação e otimização. Embora os recentes grandes modelos de linguagem permitam que agentes usem ferramentas, recuperem informações, mantenham memória e executem fluxos de trabalho de longo horizonte, a avaliação permanece amplamente centrada no modelo, frequentemente reduzindo agentes ao sucesso em tarefas finais enquanto trata memória, recuperação, uso de ferramentas, orquestração, verificação e governança como detalhes secundários de implementação. Este enquadramento é cada vez mais inadequado porque o desempenho do agente emerge da interação entre o modelo fundamental, o substrato de memória, o construtor de contexto, a camada de roteamento de habilidades, o loop de orquestração e a camada de verificação e governança. Juntos, esses componentes formam o arnês do agente, que traduz a capacidade do modelo em comportamento agente de longo horizonte. Estudamos o escalonamento do arnês através de três gargalos principais: governança de contexto, memória confiável e roteamento dinâmico de habilidades, juntamente com os mecanismos de orquestração e governança que os coordenam e restringem. Além disso, delineamos uma agenda de pesquisa para benchmarks no nível do arnês que vão além do sucesso em tarefas únicas para medir qualidade da trajetória, higiene da memória, eficiência de contexto, fidelidade de comunicação, custo de verificação e evolução segura ao longo do tempo. Para tornar a discussão concreta, desenvolvemos o CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, um arnês de referência nativo em Python, e o comparamos com Claude Code e OpenClaw. Nossa afirmação principal é que o progresso futuro na IA agentiva dependerá tanto do projeto de sistemas quanto de modelos fundamentais mais fortes.
Os padrões de compressão de mídia atingiram um platô em termos da compensação taxa-distorção-complexidade, limitando a capacidade de transferir a percepção de IA dispendiosa para a nuvem em aplicações como robótica, dispositivos vestíveis e sensoriamento remoto. Codecs baseados em DNN melhoram a eficiência de compressão, mas a um custo: eles não conseguem se adaptar facilmente a grandes mudanças na taxa de bits disponível, e a codificação em tempo real requer GPUs caras e que consomem muita energia, o que impede seu uso em plataformas de baixo custo ou com recursos limitados. Para resolver essas limitações, propomos uma nova estrutura de autocodificação (FRAPPE) que usa a Entrada Completa para prever a Saída Residual através de um Codificador de Persecução de Projeção. O objetivo de codificação do FRAPPE naturalmente classifica os canais latentes por importância, permitindo codificação de taxa variável sem sobrecarga. Ao contrário dos codecs aprendidos baseados em RNN, cujo codificador consome o residual da reconstrução anterior, ou codecs estilo RVQ, cujos codebooks devem ser aplicados sequencialmente, o caminho de análise do FRAPPE é um DAG paralelizável (embaraçosamente paralelo) de projeções de entrada independentes. Usando o FRAPPE, construímos um codec de imagem RGB de taxa variável (FRAPPE-Image) e avaliamos sua compensação taxa-distorção-complexidade em relação aos codecs de imagem padrão. Em altas taxas de compressão (aproximadamente 0,1 bpp), o FRAPPE-Image fornece qualidade perceptual mais alta que o AVIF com codificação 47 vezes mais rápida, tornando-o capaz de codificação em tempo real a 1080p, 30fps apenas com CPU. Nosso código e modelos pré-treinados estão disponíveis em: https://github.com/UT-SysML/FRAPPE.
Embora o Chain-of-Thought (CoT) fundamentado visualmente tenha surgido como um paradigma promissor para aprimorar a percepção refinada em modelos de linguagem grandes multimodais (MLLMs), sua eficácia durante a fase de inferência permanece pouco explorada. Neste trabalho, constatamos empiricamente que exigir caixas delimitadoras de objetos explícitas no CoT fundamentado visualmente durante a inferência frequentemente degrada o desempenho em comparação com o CoT textual padrão, que raciocina sem fundamentação visual explícita. Hipotetizamos que a capacidade de localização visual pode ser internalizada no CoT textual e que a fundamentação explícita obrigatória introduz interferência desnecessária com o objetivo primário do modelo de predizer respostas. Para abordar esse problema, propomos o Internalizing Visually Grounded Reasoning (iVGR), uma nova estrutura de aprendizado por reforço que transfere capacidades de localização para o processo de raciocínio textual. Empregamos uma estratégia de treinamento de fluxo duplo, onde um fluxo textual é alinhado a um fluxo fundamentado visualmente de alta qualidade por meio de uma recompensa de consistência proposta, permitindo que o modelo localize com precisão sem fundamentação explícita durante a inferência. Experimentos extensos demonstram que nosso método supera significativamente as linhas de base existentes em benchmarks de percepção refinada, mantendo a flexibilidade para suportar fluxos de trabalho de inferência assistidos por ferramentas.
Modelos de vídeo unificados baseados em conectores demonstraram forte capacidade na síntese de vídeo baseada em instruções, mas integrar um grande gerador de alta fidelidade no ciclo de treinamento unificado é computacionalmente proibitivo, limitando a qualidade visual alcançável. Propomos, portanto, o Lumos-Nexus, uma estrutura de geração de vídeo unificada e eficiente em termos de treinamento que facilita o desenvolvimento de fortes capacidades de geração orientadas por raciocínio, melhorando significativamente a fidelidade visual. O Lumos-Nexus adota um design em duas etapas: 1) Durante o treinamento, apenas um gerador leve é alinhado com o bloco de compreensão para aprender a receber controle semântico orientado por raciocínio. 2) Durante a inferência, introduzimos o Unified Progressive Frequency Bridging (UPFB) para transferir progressivamente a geração para um gerador pré-treinado de alta capacidade no espaço latente compartilhado, permitindo refinamento de grosso a fino e produzindo vídeos de alta fidelidade sem comprometer a qualidade do raciocínio. Para preencher a lacuna em benchmarks de geração de vídeo orientada por raciocínio, introduzimos o VR-Bench, que avalia a capacidade de um modelo de traduzir intenção inferida em conteúdo de vídeo coerente e semanticamente alinhado. Experimentações extensas demonstram que o Lumos-Nexus alcança ganhos substanciais em realismo visual e coerência temporal no VBench, ao mesmo tempo que exibe forte desempenho generativo baseado em raciocínio no VR-Bench. Código e modelos estão disponíveis em https://jiazheng-xing.github.io/nexus-lumos-home/.
Modelos de linguagem de grande escala são cada vez mais implantados em ambientes interativos de múltiplas rodadas, onde usuários ou ambientes podem fornecer feedback leve de forma iterativa. Infelizmente, otimizar esse comportamento apresenta um dilema acentuado na prática: o aprendizado por reforço online é capaz de lidar efetivamente com a dinâmica de múltiplas rodadas, mas é proibitivamente caro devido ao custo de gerar trajetórias completas de correção a cada atualização, enquanto o ajuste fino supervisionado offline (SFT) é eficiente, mas sofre com desvio de distribuição e colapso comportamental. Para esse fim, propomos de forma inovadora o DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning), uma estrutura que operacionaliza a percepção teórica de que o objetivo de RL regularizado por KL é equivalente ao aprendizado supervisionado ponderado por importância. O DRIFT desacopla a geração de trajetórias da otimização, amostrando trajetórias de interação offline de uma política de referência fixa, derivando pesos de importância baseados em retorno e otimizando a política via SFT ponderado no conjunto de dados resultante. Empiricamente, demonstramos que o DRIFT iguala ou supera o desempenho das linhas de base de aprendizado por reforço de múltiplas rodadas, mantendo a eficiência de treinamento e a simplicidade do ajuste fino supervisionado padrão. O código está disponível em https://github.com/2020-qqtcg/DRIFT.
A avaliação de machine unlearning é estruturalmente distorcida: perguntas do tipo Porquê, que investigam conhecimento causal e relacional, compreendem menos de 0,06% do CounterFact, 0,6% do ZSRE e menos de 1,3% do TOFU, MUSE e WMDP-Cyber. Essa representação próxima de zero significa que métodos que falham em conhecimento causal podem obter pontuações elevadas no agregado, e essa falha é indetectável sem uma avaliação equilibrada. Apresentamos o 5WBENCH, um benchmark equilibrado com 5.000 amostras, contendo 1.000 exemplos por categoria 5W (Quem, O quê, Quando, Onde, Porquê), tornando quantificáveis, pela primeira vez, as falhas de desaprendizagem causal. Usando o 5WBENCH, mostramos que nenhuma baseline existente atinge simultaneamente alto esquecimento e alta retenção em perguntas do tipo Porquê: o esquecimento agressivo degrada o conhecimento retido, enquanto métodos conservadores falham em esquecer fatos causais. A dificuldade do tipo Porquê decorre de cadeias de raciocínio de múltiplos saltos (44% das entradas Porquê contra menos de ou igual a 2% para as outras) e diluição de gradiente em spans de resposta de 40,1 tokens. Apresentamos o MAAT (Multi-phase Adapter-Aware Targeted Unlearning), um framework de três fases que opera sobre os pesos do adaptador LoRA, combinando ascensão projetada por gradiente, poda de dimensão de rank SVD, negação de vetor de tarefa e reparo de retenção híbrido KL-estado oculto. O MAAT é o primeiro método a alcançar simultaneamente alto esquecimento e alta retenção em conhecimento causal do tipo Porquê, atingindo um novo ponto operacional na fronteira de Pareto de esquecimento-retenção. Disponibilizamos nosso código publicamente.
A contagem de objetos permanece fragmentada em conjuntos de dados e formulações de tarefas específicas de domínio, apesar do rápido progresso em modelos de visão generalistas. Os modelos de contagem existentes são frequentemente adaptados a cenários como multidões, veículos, células, plantações ou objetos de sensoriamento remoto e, portanto, têm dificuldade em generalizar entre categorias, domínios visuais, escalas de objetos e distribuições de densidade. Neste artigo, estudamos a contagem de objetos guiada por texto entre domínios, onde um modelo recebe uma imagem e uma consulta em linguagem natural como entrada e retorna um conjunto de pontos-alvo fundamentados em instâncias, cuja cardinalidade fornece a contagem. Esta formulação unifica a contagem condicionada por categoria com a localização espacial interpretável. Para apoiar este cenário, construímos o CLOC, um conjunto de dados de contagem de objetos em grande escala entre domínios que reorganiza diversas fontes de dados públicas em um benchmark unificado. O CLOC abrange seis domínios visuais: Cena Geral, Sensoriamento Remoto, Histopatologia, Microscopia Celular, Agricultura e Microbiologia, com cerca de 220 mil imagens, 619 categorias e 15 milhões de instâncias de objetos. Com base no CLOC, propomos o Count Anything, um modelo generalista para contagem de objetos guiada por texto. Diferentemente dos métodos baseados em mapas de densidade, que dominam os modelos de contagem, o Count Anything adota pontos de instância discretos e realiza enumeração de instâncias em dupla granularidade. Um Contador Disperso em Nível de Região fornece âncoras em nível de objeto para alvos grandes e esparsos, enquanto um Contador Denso em Nível de Pixel lida com alvos pequenos, aglomerados e com limites fracos por meio da predição densa de pontos. Uma estratégia de supervisão centrada em pontos permite o aprendizado a partir de anotações heterogêneas, e a Fusão de Contagem Complementar combina ambos os contadores de forma livre de parâmetros. Experimentos extensos mostram que o Count Anything alcança alta precisão e generalização em múltiplos domínios, superando os métodos existentes de contagem em mundo aberto. O código está disponível em: https://github.com/Mengqi-Lei/count-anything.
Projetar uma rede de transporte público requer muitas decisões sequenciais de extensão de rotas, mas a qualidade dessas decisões frequentemente só se torna aparente após a montagem completa da rede. Esse desafio de feedback atrasado está no cerne do Problema de Projeto de Rede de Rotas de Transporte Público (TRNDP), onde as interações entre rotas podem ser enganosas: uma extensão que parece útil localmente pode criar gargalos de transferência, produzir sobreposições redundantes ou reduzir a capacidade total do sistema. Para orientar a construção de rotas sob feedback atrasado do simulador, apresentamos o AlphaTransit, um framework de planejamento baseado em busca para o projeto de redes de ônibus em escala urbana. O AlphaTransit combina a Busca em Árvore de Monte Carlo (MCTS) com uma rede neural política-valor: a política propõe extensões de rotas, o valor estima a qualidade futura do projeto, e a busca utiliza essas predições para refinar cada decisão. Isso proporciona antecipação no momento da decisão durante a construção de rotas, sem a necessidade de executar simulações completas do simulador dentro da árvore de busca. Avaliamos o AlphaTransit em um novo benchmark TRNDP para Bloomington, com topologia viária realista e demanda derivada de dados censitários, sob cenários de demanda mista e exclusiva de transporte público. Na rede de Bloomington, o AlphaTransit atinge a maior taxa de serviço em ambos os cenários de demanda, alcançando 54,6% e 82,1%, respectivamente. Em comparação com aprendizado por reforço sem busca, esses valores correspondem a ganhos de 9,9% e 11,4% na taxa de serviço; em relação ao MCTS sem orientação aprendida, os ganhos são de 2,5% e 11,2%. Esses resultados sugerem que a combinação de orientação aprendida com MCTS é mais eficaz do que usar qualquer uma das abordagens isoladamente para o projeto de redes de transporte público. Nosso código e dados estão disponíveis publicamente em https://github.com/poudel-bibek/AlphaTransit.
Métodos recentes de reconstrução 3D feedforward preveem mapas de pontos e estimam a geometria 3D global de forma notável. No entanto, suas previsões ainda exibem geometria de superfície local imprecisa, que é claramente visível qualitativamente, mas apenas fracamente refletida em métricas comuns. Para tornar esses erros mais explícitos na avaliação, introduzimos uma métrica normal de mapa de pontos que avalia a orientação da superfície local induzida por previsões 3D vizinhas. Para reduzir esses erros, propomos dois componentes complementares: uma perda de correspondência de gradiente de ponto que supervisiona diferenças finitas 3D normalizadas por profundidade, e um Decodificador de Atenção de Vizinhança (NAD) que progressivamente aumenta a resolução das características e usa Atenção de Vizinhança para mistura local de características. Em oito benchmarks de geometria monocular zero-shot, nosso modelo, SurGe, alcança a melhor classificação média para AbsRel global de mapa de pontos e melhora consistentemente as avaliações de mapa de pontos local e normal de mapa de pontos.
O surgimento dos Modelos de Visão-Linguagem de Grande Escala (LVLMs) avançou significativamente as capacidades de compreensão de vídeos. No entanto, os benchmarks existentes concentram-se predominantemente em tarefas de granularidade grossa, como segmentação de ações, classificação, legendagem e recuperação. Além disso, esses benchmarks frequentemente dependem de entidades que podem ser facilmente identificadas verbalmente, como objetos domésticos, animais, sujeitos humanos, etc., limitando sua aplicabilidade a cenários de vídeo complexos e do mundo real. Mas muitas aplicações, como montagem de móveis, culinária, etc., exigem uma compreensão espácio-temporal detalhada e passo a passo do vídeo, a qual não é suficientemente avaliada nos benchmarks atuais. Para preencher essa lacuna, apresentamos o Flat-Pack Bench, um novo benchmark centrado em tarefas de montagem de móveis. Nosso benchmark avalia os LVLMs em tarefas detalhadas, incluindo ordenação temporal de ações de montagem, localização temporal do estado da montagem, compreensão do encaixe de peças e rastreamento, utilizando perguntas de múltipla escolha pareadas com dicas visuais que destacam partes relevantes como referência para perguntas de granularidade fina. Nossos experimentos revelam que os LVLMs de última geração enfrentam dificuldades significativas com raciocínio espácio-temporal detalhado, destacando suas limitações em aproveitar eficazmente informações temporais de vídeos, capacidade de rastreamento limitada e compreensão de interações espaciais como contato físico.
Modelos de linguagem difusos decodificam texto ao iterativamente remover o ruído de sequências de tokens mascarados, tornando a escolha de quais posições decodificar uma decisão central no momento da inferência. A maioria das estratégias de decodificação livres de treinamento utiliza a confiança do modelo para a seleção de posições, assumindo que posições de alta confiança estão prontas para serem decodificadas. Neste trabalho, revisitamos essa suposição ao estudar quando a confiança engana a decodificação totalmente não autorregressiva (totalmente não-AR). Tokens EOT podem receber alta confiança e causar geração incompleta; inserir uma âncora de sufixo pode mitigar esse problema, mas introduz excesso de confiança local próximo à âncora, fazendo com que tokens adjacentes à âncora sejam decodizados cedo demais. Para abordar essas questões, propomos a Modulação de Confiança com Âncora de Sufixo, um método simples e livre de treinamento que insere uma âncora de sufixo curta para incentivar a conclusão da resposta e modula a confiança perto da âncora de acordo com o progresso da decodificação. Isso preserva o benefício de conclusão da resposta proporcionado pela ancoragem de sufixo, ao mesmo tempo que reduz a decodificação prematura de tokens adjacentes à âncora. Em benchmarks de raciocínio apenas com texto, raciocínio visão-linguagem e geração de código, nosso método melhora consistentemente a decodificação totalmente não-AR baseada em confiança, supera a supressão explícita de EOT e preserva a vantagem de decodificação paralela da geração totalmente não-AR.
Sob pressupostos gráficos padrão, a fronteira de Markov (Markov boundary) de uma variável alvo é o menor conjunto de características que torna todas as demais características redundantes. Uma vez observada essa fronteira, o alvo é condicionalmente independente do restante da tabela. Esse objeto é tentador para predição tabular, pois nomeia exatamente as colunas que um modelo deveria utilizar. No entanto, regressores modernos ainda são treinados com o conjunto completo de características. Investigamos se a fronteira de Markov é genuinamente útil para predição no SCM3K, um benchmark sintético de 3.450 tarefas baseado em modelos causais estruturais (SCM), com contagens de características variando de 40 a 1000 e seis famílias de SCM, avaliado com seis regressores. A resposta é mais matizada do que a teoria sugere. Restringir um regressor à fronteira ideal (oracle boundary) frequentemente melhora substancialmente a predição, e a melhoria cresce à medida que o espaço de características se torna maior e mais esparso. No entanto, o pipeline natural de recuperar a fronteira por meio de descoberta causal e treinar com a máscara recuperada não se concretiza. Os estimadores existentes esgotam o orçamento computacional antes de atingir o regime onde a fronteira mais ajuda, e mesmo quando funcionam, raramente superam o conjunto completo de características. Atribuímos isso a três causas. A descoberta otimiza a recuperação estrutural, não a predição. Falsos negativos e falsos positivos apresentam custo preditivo fortemente assimétrico. A fronteira exata é apenas um dos muitos conjuntos de características que superam todas as características. Em seguida, desenvolvemos as implicações desses fatos para a seleção de características alinhada à predição e para modelos tabulares que aprendem a usar a estrutura causal.
Modelos de segmentação de instâncias celulares treinados em conjuntos de dados específicos para células sofrem quedas severas de desempenho em tipos celulares fora da distribuição, enquanto modelos fundamentais interativos superam esse problema por meio de prompts por instância, a um custo proibitivamente alto para imagens histopatológicas contendo centenas a milhares de instâncias densamente agrupadas. Apresentamos o Agrupamento por Prompts (Group Prompting), um novo paradigma que transforma a segmentação interativa do custo O(N) por instância para O(T) por tipo, onde um único clique por tipo celular é suficiente para segmentar todas as instâncias desse tipo. Nossa observação-chave é que o codificador de imagem congelado do Segment Anything Model (SAM) já agrupa células do mesmo tipo em seu espaço de características antes de qualquer prompt ser fornecido. Explorando essa propriedade, propomos a Cadeia de Prompts (Chain-of-Prompts, CoP), uma estrutura livre de treinamento que expande recursivamente um único clique do usuário por meio de (1) identificação de locais confiáveis do mesmo tipo via filtragem não paramétrica de características do codificador multiescala, e (2) seleção do ponto confiável mais distante espacialmente como o próximo prompt para maximizar a cobertura. Em três benchmarks anotados por tipo celular, a CoP com um clique por tipo mantém mais de 90% do desempenho por instância e supera métodos totalmente supervisionados sem qualquer treinamento adicional. Em quatro benchmarks morfologicamente homogêneos, um único clique mantém mais de 99%. Página do Projeto: https://shjo-april.github.io/Chain-of-Prompts/
Modelos de mundo de vídeo interativos geram vídeo pedaço por pedaço em resposta a movimentos de câmera controlados pelo usuário, permitindo aplicações como simulação de jogos em tempo real, navegação em cenas virtuais e treinamento de IA incorporada. No entanto, escalar para longas trajetórias interativas é proibitivamente caro devido ao crescimento da memória de contexto, à complexidade quadrática da atenção e às repetidas etapas de remoção de ruído. Apresentamos o Light Interaction, uma estrutura de aceleração de inferência sem treinamento para modelos de mundo de vídeo interativos. Nossa principal percepção é que a interação naturalmente possibilita computação adaptativa dependente da trajetória: a memória espacial recuperada pode ser descartada durante a exploração de novos ambientes, o contexto temporal pode ser ajustado de acordo com a dinâmica latente local, e as saídas do modelo em etapas iniciais podem ser reutilizadas quando a câmera revisita regiões familiares. Com base nessa percepção, o Light Interaction combina gerenciamento adaptativo de contexto, aceleração de cache de remoção de ruído e atenção esparsa em blocos 3D co-projetada hardware-software com kernels Triton fundidos. Avaliado no HY-WorldPlay e no Matrix-Game-3.0, o Light Interaction alcança até 2,59x de aceleração sem retreinamento do modelo, mantendo qualidade visual competitiva.
A recuperação de imagens compostas por sensoriamento remoto (RSCIR) permite a busca em grandes arquivos de imagens de satélite utilizando consultas compostas que combinam uma imagem de referência com um modificador textual. Embora o RSCIR ofereça uma interface flexível para expressar intenções de recuperação direcionadas, a transferibilidade dos métodos modernos de composição para imagens de observação da Terra (OT) e sua relevância para fluxos de trabalho operacionais de OT permanecem pouco exploradas. Abordamos essa lacuna por meio de um referencial unificado e um estudo orientado a aplicações. Primeiro, adaptamos e avaliamos sistematicamente métodos representativos de recuperação de imagens compostas com seis backbones visão-linguagem no PatternCom sob um protocolo padronizado, analisando seu comportamento em diferentes backbones, estratégias de composição e tipos de consulta. Em segundo lugar, introduzimos o xView2-CIR, um conjunto de dados centrado em mudanças para monitoramento de desastres e danos, onde a recuperação é condicionada à identidade da cena e a um estado pós-evento alvo. Nossos resultados mostram que métodos de composição sem treinamento fornecem baselines fortes e escaláveis para recuperação em OT, enquanto a recuperação centrada em mudanças apresenta desafios diferentes da recuperação baseada em atributos, particularmente devido à necessidade de preservar a identidade da cena. No geral, este estudo estabelece um referencial prático para RSCIR e posiciona a recuperação composta como uma ferramenta complementar para recuperação de imagens de sensoriamento remoto, exploração de arquivos e análise de mudanças. O conjunto de dados e o código estão disponíveis em https://github.com/billpsomas/rscir.
A geração condicional de movimento humano continua sendo um desafio fundamental na visão computacional e na robótica. Apesar do progresso significativo, os métodos atuais são frequentemente limitados por configurações fixas de modalidade e arquiteturas específicas para tarefas, deixando as interações entre modalidades e as leis de escala da síntese multimodal condicionada amplamente inexploradas. Um gargalo crucial é a escassez de dados de movimento alinhados por modalidade em grande escala, o que limita a generalização em diversos sinais de controle. Neste trabalho, apresentamos o OmniHuMo, um conjunto de dados em grande escala e alta qualidade, composto por mais de 5.000 horas de movimento e 3,2 milhões de sequências com anotações multimodais precisamente alinhadas (por exemplo, texto, fala, música e trajetória). Aproveitando o OmniHuMo, propomos o AnyMo, uma estrutura multimodal unificada que combina um tokenizador de movimento baseado em FSQ Residual com um transformador de modelagem mascarada escalável, permitindo síntese de movimento de alta qualidade sob combinações arbitrárias de modalidades. Experimentos extensivos mostram que o AnyMo alcança síntese de alta fidelidade, oferecendo controle flexível sobre atributos espaciais e estilísticos.
A integração de Veículos Aéreos Não Tripulados (VANTs) em Sistemas Inteligentes de Transporte (ITS) oferece visibilidade sinóptica para o monitoramento de tráfego; no entanto, a implantação escalável é dificultada pela fragmentação de trajetórias, onde a persistência da identidade dos veículos é perdida entre múltiplos Campos de Visão (FOV) de VANTs. Embora as abordagens de ponta se destaquem na otimização da extração local de trajetórias e na estabilidade para imagens de um único drone, elas frequentemente funcionam como silos de dados isolados que geram trajetórias desconexas, impedindo assim análises em nível de rede, como a estimativa Origem-Destino. Este artigo apresenta um sistema de Rastreamento Multi-Câmera Multi-Veículo (MCMT) em tempo real, projetado para lidar com a persistência global de identidades. Para enfrentar a ambiguidade visual e o custo computacional da Reidentificação (Re-ID) baseada em aparência em vistas nadirais, introduzimos um mecanismo leve de Transferência Espaço-Temporal Baseada em Topologia. Implementamos um pipeline paralelo de alto rendimento que utiliza YOLO11 e ByteTrack para processar fluxos simultâneos em 4K. Nossa contribuição central é um algoritmo determinístico de correspondência baseado em filas, que utiliza sobreposições geométricas e discretização de faixas virtuais para gerenciar preditivamente a transferência de identidades por meio de filas FIFO. Resultados experimentais em ambientes urbanos complexos, incluindo interseções e tráfego em fusão, demonstram uma Taxa de Sucesso de Transferência (HOSR) de 99,8% em fluxos de tráfego contínuos, superando significativamente as bases de Re-ID (74,1%), ao mesmo tempo em que validam a viabilidade de implantação em borda. O código-fonte está disponível em https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system.
Sistemas de IA física, incluindo robôs, veículos autônomos, agentes corporificados e copilotos de borda, frequentemente executam uma carga de trabalho de inferência diferente daquela do serviço de LLM em nuvem: decodificação autorregressiva de fluxo único e lote-1, onde um robô, um feed de câmera ou uma sessão de usuário aguarda o próximo token. Essa carga de trabalho é geralmente descrita como limitada pela largura de banda da memória. Cada etapa de decodificação transmite os pesos do modelo e o cache KV ativo, de modo que a latência deve escalar com a largura de banda HBM de pico. Mostramos que essa descrição é verdadeira, mas incompleta. Medimos a decodificação lote-1 para três transformadores GQA da classe de 7 a 8 parâmetros em quatro GPUs NVIDIA: H100 SXM5, A100-80GB SXM4, L40S e L4. Avaliamos comprimentos de contexto de 2048 a 16384, produzindo 44 células válidas sob uma configuração controlada de SDPA bf16. A fração alcançada da largura de banda HBM de pico diminui à medida que a largura de banda de pico aumenta. Na célula principal Qwen-2.5-7B ctx=2048, uma L4 atinge aproximadamente 81 por cento do seu piso analítico de memória, enquanto uma H100 atinge apenas 27 por cento. A decodificação para IA física é dominada pela memória, mas memórias mais rápidas não se traduzem em ganhos proporcionais de latência. Testamos o termo ausente com um experimento A/B usando CUDA Graphs. Na H100 com ctx=2048, o CUDA Graphs melhora a latência de decodificação em 1,259x em N=10 sessões novas, com um intervalo de confiança bootstrap de 95% entre 1,253 e 1,267. Na L4, a mesma intervenção proporciona apenas 1,028x. Isso isola uma sobrecarga no lado do lançamento que se torna visível em GPUs rápidas, mas permanece praticamente oculta em GPUs mais lentas e limitadas por largura de banda. A implicação para implantação é que as economias de memória só importam quando o runtime as realiza. Na L4, a decodificação bf16 está próxima do piso de memória, mas caminhos quantizados comuns não recuperam a redução esperada de 4x no tráfego de pesos: bnb-nf4 atinge 59,36 ms/etapa e AutoAWQ+Marlin atinge 45,24 ms/etapa a partir de uma linha de base bf16 de 62,32 ms. O GPTQ+ExLlamaV2, com kernels int4 ajustados para Ada, atinge 17,36 ms/etapa.
Métodos de aprendizado por reforço baseados em vantagens de grupo, como GRPO e DAPO, demonstraram desempenho robusto em diversos domínios, incluindo raciocínio matemático e geração de texto para imagem. No entanto, sua dependência de recompensas no nível de amostra introduz uma limitação fundamental, uma vez que a atribuição uniforme de crédito a todos os tokens falha em capturar contribuições refinadas no nível de token. Para resolver esse problema, propomos o Guidance Contrastive Policy Optimization (GCPO), um algoritmo inovador que possibilita a atribuição de crédito por token ao contrastar as previsões do modelo sob prompts positivos e negativos. Em vez de difundir uniformemente vantagens no nível de amostra, o GCPO atribui vantagens no nível de token proporcionais à diferença entre essas previsões contrastivas, permitindo sinais de aprendizado mais precisos e informativos. Empiricamente, descobrimos que o GCPO enfatiza regiões semanticamente relevantes, como áreas visuais alinhadas com prompts textuais na geração de texto para imagem e palavras-chave críticas dentro de traços de raciocínio para tarefas de cadeia de pensamento. Por meio de extensos experimentos, o GCPO supera consistentemente as referências GRPO e DAPO em benchmarks de geração de texto para imagem e raciocínio em cadeia de pensamento, demonstrando sua eficácia como uma estratégia de otimização geral e escalável para aprendizado de políticas discretas.
Se um agente de IA toma decisões em nome de uma pessoa, essas decisões devem estar alinhadas com o seu usuário. Introduzimos a precisão representacional para medir quão fielmente um sistema captura a interpretação de uma pessoa. Uma camada interpretativa é operacionalizada como uma Especificação Comportamental. Nossa implementação de referência comprime agressivamente os dados de uma pessoa em padrões interpretativos, servindo como contexto para um modelo de linguagem. Avaliamos a Especificação em um benchmark protótipo de previsões comportamentais retidas, pontuadas por um painel calibrado de 5 LLMs juízes. Testamos a Especificação de forma independente e em composição com uma variedade de condições de contexto: corpus bruto completo, fatos extraídos completos e quatro sistemas de memória comerciais (Mem0, Letta, Supermemory, Zep). Em 14 corpora autobiográficos de domínio público, a Especificação eleva a precisão representacional de forma agregada e quase elimina a hesitação do modelo. Ela recupera a maior parte do que o corpus bruto fornece, com um custo de contexto ~25 vezes menor. A Especificação eleva os sujeitos a um nível preditivo comum, independentemente da linha de base do pré-treinamento; portanto, o ganho em pontos absolutos é maior onde a linha de base é mais baixa, sugerindo que a população relevante é qualquer pessoa não adequadamente representada no pré-treinamento. O ganho é maior em perguntas que exigem interpretação, onde fornecer uma camada interpretativa permite um comportamento do modelo que fatos extraídos ou corpus bruto não proporcionam. Por outro lado, em perguntas que exigem recordação, essa camada pode interferir em vez de ajudar. Concluímos que a precisão representacional é distinta da recordação e que o alinhamento humano-IA depende de quão precisamente o usuário é representado. A precisão representacional torna esse alinhamento testável.
A aprendizagem de políticas visuomotoras via clonagem de comportamento tipicamente envolve a imitação de demonstrações de especialistas coletadas por operadores humanos. No entanto, demonstrações humanas naturais contêm inerentemente ruído de alta frequência, como solavancos intermitentes, pausas e tremores de ação. Treinar políticas para imitar diretamente essas trajetórias brutas inevitavelmente faz com que o modelo herde esses comportamentos subótimos. Essa patologia é particularmente pronunciada em políticas baseadas em difusão, onde as etapas iterativas de remoção de ruído podem inadvertidamente amplificar artefatos de alta frequência em detrimento de detalhes refinados significativos. Para abordar essas limitações, apresentamos um novo algoritmo baseado em frequência que permite manobra espectral implícita e geração de ações suaves. Nosso método, Operador de Orientação por Frequência (FGO), direciona o processo de geração de políticas de difusão ao conduzir progressivamente as amostras ruidosas por meio de subvariedades de frequência intermediárias com bandas espectrais em expansão. Validado em 15 tarefas de manipulação robótica de 5 benchmarks, o FGO alcança desempenho superior no aprimoramento da suavidade de ação e consistência temporal, preservando ao mesmo tempo os detalhes necessários para a execução bem-sucedida das tarefas. Site do projeto: https://henrywjl.github.io/frequency-guidance-operator/
Enquanto pesquisas anteriores em previsão de séries temporais multivariadas concentraram-se no desenvolvimento de modelos holísticos complexos, este trabalho defende uma mudança para uma compreensão granular, em nível de componente, de seus impactos. Propomos o TSCOMP, o primeiro benchmark em larga escala que desconstrói sistematicamente métodos de previsão profunda em seus componentes essenciais e de granularidade fina — abrangendo pré-processamento de séries, estratégias de codificação, arquiteturas de redes, incluindo modelos específicos e de grande escala para séries temporais, e métodos de otimização. Utilizando projeto experimental ortogonal restrito e avaliações extensivas, conduzimos análises multivistas que revelam a eficácia dos componentes em diferentes backbones, características dos dados e suas interações. Além de fornecer insights, este benchmark estabelece um corpus de desempenho de granularidade fina, compreendendo mais de 20.000 avaliações modelo-conjunto de dados, que suporta o aprendizado de seleção automatizada de componentes, possibilitando a construção de modelos zero-shot em novos conjuntos de dados. Nossos experimentos demonstram que a abordagem orientada por corpus, apesar de sua simplicidade, supera consistentemente os métodos de última geração, validando a solidez do nosso design de avaliação e confirmando que a seleção sistemática de componentes supera arquiteturas complexas projetadas manualmente. Todo o código e o corpus de desempenho estão disponíveis publicamente em https://github.com/SUFE-AILAB/TSCOMP.