HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

43 papers found

JoyAI-VL-Interaction: Inteligência de Interação Visão-Linguagem em Tempo Real
JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

Jun 10

ByDingyu Yao, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Haowen Hou, Zheming Liang, Congcong Wang, Yuhang Cao, Shenglong Ye, Shuai Xie, Shuhuan Gu, Haoyang Huang, Qingyi Si, Nan Duan, Jiaqi Wang

171

Muitos momentos no mundo real não esperam que um usuário pergunte. Um incêndio começa em um monitor de segurança, uma expressão passa por uma chamada de vídeo, ou um produto que um espectador deseja surge rapidamente em uma transmissão ao vivo. No entanto, os grandes modelos de hoje permanecem, em sua maioria, baseados em turnos por design: eles respondem apenas quando são chamados, e até mesmo aplicativos de chamada de vídeo que parecem interativos ainda operam como sistemas de pergunta e resposta, reagindo apenas quando consultados ou solicitados. Defendemos um paradigma diferente: um modelo que está presente no mundo como uma pessoa. Ele observa continuamente o que está acontecendo agora, decide por si mesmo se deve falar ou permanecer em silêncio, interage em tempo real e delega para um modelo de fundo quando o problema é difícil. Para avançar os modelos de interação e sua adoção em diferentes domínios, fazemos duas contribuições totalmente de código aberto. Primeiro, lançamos o JoyAI-VL-Interaction, um modelo de interação VL (visão-linguagem) de escala 8B, focado principalmente em visão. O modelo toma a decisão de resposta internamente, escolhendo a cada segundo permanecer em silêncio, responder ou delegar a um modelo de fundo, e se destaca na capacidade de resposta acionada por visão e na consciência temporal. Acompanhamos com uma receita de treinamento transferível, a partir da qual emergem capacidades para as quais nunca treinamos, como guiar um comprador através de telas de aplicativos em mudança ou improvisar uma palestra a partir de uma apresentação de slides. Em segundo lugar, lançamos um sistema completo e implantável construído em torno desse modelo. O sistema transmite qualquer vídeo em andamento para o modelo, tornando-o genuinamente presente no mundo. Todos os outros componentes são plugáveis, incluindo módulos ASR/TTS, memória, interface de visualização e um cérebro de fundo que pode se conectar a qualquer API ou agente. Em seis cenários do mundo real, avaliadores humanos preferem o JoyAI-VL-Interaction aos assistentes de chamada de vídeo incorporados do Doubao e do Gemini por uma ampla margem. Até onde sabemos, este é o primeiro modelo de interação aberto, orientado por visão, lançado juntamente com sua receita de treinamento, dados e sistema implantável completo.

Agente Jornalista de Dados: Transformando Dados em Histórias Multimodais Verificáveis
Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

Jun 9

ByKevin Qinghong Lin, Batu EI, Yuhong Shi, Pan Lu, Philip Torr, James Zou

110

Os dados contam histórias que moldam a sociedade; o trabalho do jornalista de dados é transformar informações brutas em narrativas nas quais leigos possam confiar. Uma reportagem jornalística de alta qualidade leva semanas de uma equipe de redação: busca por contexto, execução de estatísticas, escolha de um ângulo e elaboração de elementos visuais. Agentes recentes lidam bem com etapas individuais: agentes de ciência de dados fecham o ciclo de análise, enquanto agentes de design sintetizam sites visualmente atraentes. Mas será que um agente pode atuar como jornalista de dados do início ao fim? Apresentamos o Agente Jornalista de Dados (Data2Story), uma estrutura multiagente que orquestra papéis especializados em uma única redação virtual. O Data2Story contribui com duas inovações: (i) alegações são fundamentadas em evidências — um Inspetor vincula cada número, ângulo e recurso de volta aos dados, código ou referência externa; (ii) artigos são multimodalmente generativos — em vez de recorrer a texto simples e gráficos estáticos, o Data2Story raciocina sobre o que os leitores desejarão ver e, então, emprega ferramentas multimodais, como mapas interativos para geografia e áudio para música. Avaliamos o Data2Story em 18 artigos, cada um emparelhado com a reportagem especializada originalmente publicada, ao longo de quatro eixos: (a) cobertura de ângulos humano-agente; (b) avaliação por rubrica com 53 participantes em cinco dimensões; (c) agentes de uso computacional como avaliadores, um substituto econômico para a forma como leitores navegam em artigos interativos; e (d) verificabilidade, onde um verificador de código reexecuta declarações com base nos dados e confere alegações em relação a referências. O Data2Story produz histórias multimídia competitivas e rastreáveis por evidências, com especial destaque em transparência e auditabilidade. Artigos humanos mantêm vantagem no ângulo editorial, design criativo e apresentação. Posicionamos o Data2Story como um colaborador para jornalistas, possibilitando uma reportagem mais baseada em evidências, transparente e verificável. Código e demonstrações estão disponíveis em https://data2story.github.io.

Modelo de Ação Geométrica para Aprendizado de Políticas Robóticas
Geometric Action Model for Robot Policy Learning

Jun 15

ByJisang Han, Seonghu Jeon, Jaewoo Jung, René Zurbrügg, Honggyu An, Tifanny Portela, Marco Hutter, Marc Pollefeys, Seungryong Kim, Sunghwan Hong

101

Políticas de robôs generalistas devem seguir instruções do usuário enquanto raciocinam sobre como objetos, câmeras e ações robóticas interagem no mundo físico tridimensional. Modelos recentes de visão-linguagem-ação (VLAs) e modelos de mundo-vídeo-ação (WAMs) herdam fortes prioridades semânticas ou temporais de modelos fundacionais em larga escala, mas ainda operam principalmente em quadros de imagem 2D ou espaços latentes derivados do 2D, deixando implícita a geometria 3D necessária para manipulação com contato. Propomos o Modelo de Ação Geométrica (GAM), uma política de manipulação condicionada por linguagem que reaproveita diretamente um modelo fundacional geométrico (GFM) pré-treinado como substrato compartilhado para percepção, previsão temporal e decodificação de ações. O GAM divide o GFM em uma camada intermediária: as camadas rasas servem como codificador de observação, e um preditor causal futuro inserido na camada de divisão prevê tokens latentes futuros condicionados à linguagem, propriocepção e histórico de ações. Os tokens futuros previstos são então roteados pelos blocos restantes do GFM para propagação e decodificação de características, permitindo que um único backbone produza tanto geometria futura quanto ações. Esse design equipa o GFM com modelagem temporal de mundo condicionada por linguagem por meio de modificações arquitetônicas mínimas, preservando suas ricas prioridades geométricas. Em um conjunto amplo de benchmarks de simulação e manipulação robótica real, o GAM é mais preciso, mais robusto, mais rápido e mais leve que as linhas de base atuais em escala de modelo fundacional.

DreamX-World 1.0: Um Modelo de Mundo Interativo de Propósito Geral
DreamX-World 1.0: A General-Purpose Interactive World Model

Jun 15

ByDreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu

DreamX-World 1.0 é um modelo de mundo geral interativo de texto/imagem para vídeo, projetado para geração controlável de horizonte longo. Ele suporta navegação de câmera, revisita a regiões previamente observadas e eventos acionáveis por prompt em domínios fotorrealistas, em estilo de jogo e estilizados. Nosso motor de dados combina renderização precisa de câmera no Unreal Engine, gravações de jogabilidade ricas em ação e vídeos do mundo real com geometria de câmera recuperada. Para controle de câmera, introduzimos o E-PRoPE, uma variante leve da codificação posicional projetiva que mantém a geometria de câmera projetiva do PRoPE enquanto aplica atenção consciente de câmera a tokens reduzidos espacialmente. Convertemos um gerador de vídeo bidirecional em um modelo de mundo autorregressivo de poucos passos usando forçamento causal, destilação estilo DMD e treinamento com longos roteiros. O treinamento em contextos de horizonte longo autogerados expõe o modelo ao seu próprio histórico gerado e reduz o desvio de estilo e cor que se acumula ao longo de blocos autorregressivos. A Persistência de Cena Condicionada à Memória recupera visualizações anteriores por meio de recuperação baseada em geometria de câmera, enquanto a reciclagem residual torna o caminho de condicionamento menos sensível a latentes de memória imperfeitas. A Ajustagem de Instruções de Evento adiciona controle de eventos combináveis, e o alinhamento por aprendizado por reforço recupera o controle de câmera e a qualidade visual após a destilação. Com execução DiT de precisão mista, reutilização residual, decodificação VAE podada em 75% e paralelismo de pipeline assíncrono, o DreamX-World 1.0 atinge até 16 FPS em oito GPUs RTX 5090. Em nossa avaliação básica de 5 segundos, o DreamX-World 1.0 alcança uma pontuação de controle de câmera de 73,75 e uma pontuação geral de 84,76, superando o HY-WorldPlay 1.5 e o LingBot-World na pontuação geral, que obtêm 80,79 e 80,45, respectivamente.

VibeThinker-3B: Explorando a Fronteira do Raciocínio Verificável em Pequenos Modelos de Linguagem
VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Jun 15

BySen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang

Este relatório técnico apresenta o VibeThinker-3B, um modelo denso compacto com 3 bilhões de parâmetros desenvolvido para investigar até onde o raciocínio verificável pode ser impulsionado dentro de um regime estritamente de modelo pequeno. Baseando-se no paradigma de pós-treinamento Spectrum-to-Signal, aprimoramos sistematicamente o modelo por meio de um pipeline otimizado que inclui ajuste fino supervisionado baseado em currículo, aprendizado por reforço multi-domínio e autodestilação offline. Avaliações experimentais demonstram que o VibeThinker-3B atinge desempenho de nível de fronteira em tarefas verificáveis altamente exigentes. Especificamente, atinge uma pontuação de 94,3 no AIME26 (melhorando para 97,1 com escalonamento em tempo de teste no nível de afirmação), 80,2 Pass@1 no LiveCodeBench v6 e exibe forte generalização fora da distribuição com uma taxa de aceitação de 96,1% em concursos recentes não vistos do LeetCode. Isso efetivamente o coloca na faixa de desempenho dos sistemas de raciocínio de primeira linha, equiparando-se ou superando modelos emblemáticos que são ordens de magnitude maiores, como DeepSeek V3.2, GLM-5 e Gemini 3 Pro. Além disso, uma pontuação de 93,4 no IFEval confirma que essa melhoria extrema de raciocínio não compromete a controlabilidade estrita de instruções. Estendendo nosso trabalho anterior de 1,5B, essas descobertas motivam a Hipótese de Compressão-Cobertura Paramétrica, que vê o raciocínio verificável como compressível em núcleos de raciocínio compactos, enquanto o conhecimento de domínio aberto e a competência de propósito geral exigem ampla cobertura de parâmetros sobre fatos, conceitos e cenários de cauda longa. Essa perspectiva sugere que modelos compactos não são meramente substitutos eficientes em implantação, mas um caminho complementar para o desempenho de nível de fronteira em regimes de capacidade densa em parâmetros.

FastContext: Treinamento de um Explorador de Repositório Eficiente para Agentes de Codificação
FastContext: Training Efficient Repository Explorer for Coding Agents

Jun 12

ByShaoqiu Zhang, Maoquan Wang, Yuling Shi, Yuhang Wang, Xiaodong Gu, Yongqiang Yao, Rao Fu, Shengyu Fu

Agentes de codificação baseados em Modelos de Linguagem de Grande Porte (LLM) têm alcançado resultados robustos em tarefas de engenharia de software, mas a exploração de repositórios continua sendo um gargalo significativo: localizar código relevante consome um orçamento substancial de tokens e polui o contexto do agente com trechos irrelevantes. Na maioria dos agentes, o mesmo modelo explora o repositório e resolve a tarefa, deixando leituras e buscas exploratórias no histórico do solucionador. Apresentamos o FastContext, um subagente de exploração dedicado que separa a exploração do repositório da resolução. Invocado sob demanda, o FastContext emite chamadas de ferramentas paralelas e retorna caminhos de arquivos concisos e intervalos de linhas como contexto focado. O FastContext é alimentado por modelos de exploração especializados, abrangendo parâmetros de 4B a 30B. Os inicializamos a partir de trajetórias fortes de modelos de referência e os refinamos com recompensas baseadas na tarefa para busca ampla no primeiro turno, coleta de evidências em vários turnos e geração precisa de citações. Em SWE-bench Multilingual, SWE-bench Pro e SWE-QA, a integração do FastContext ao Mini-SWE-Agent melhora as taxas de resolução de ponta a ponta em até 5,5%, enquanto reduz o consumo de tokens do agente de codificação em até 60%, com sobrecarga marginal. Esses resultados mostram que a exploração do repositório pode ser separada da resolução e tratada de forma eficaz por modelos especializados. Código e dados: https://github.com/microsoft/fastcontext

Ling and Ring 2.6 Relatório Técnico: Inteligência Agencial Eficiente e Instantânea em Escala de Trilhão de Parâmetros
Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

Jun 13

ByAng Li, Ben Liu, Bin Han, Bin Hu, Bin Jing, Binbin Hu, Bing Li, Cai Chen, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Liang, Chen Qian, Chengfu Tang, Chengyao Wen, Chilin Fu, Chunwei Wu, Cong Zhang, Cunyin Peng, Daixin Wang, Dalong Zhang, Deng Zhao, Dingnan Jin, Dingyuan Zhu, Donghao Zhang, Fan Yuan, Fangzheng Zhao, Fanzhuang Meng, Feifan Wu, Feng Xu, Fengbin Fang, Gangshan Wang, Guodong Yang, Hailin Zhao, Haitao Wang, Haitao Zhang, Hanxiao Zhang, Hanzi Wang, Hao Dai, Hao Liu, Hao Qian, Hao Wu, Haoxiong Liu, Haoyu Xu, Heng Zhang, Hong Liu, Hongliang Zhang, Hongrui Liu, Hongxun Li, Hongzhi Ruan, Huaidong Xiong, Huihuang Zheng, Huikang Tang, Jia Guo, Jia Li, Jia Liu, Jiameng Wang, Jiaming Liu, Jiannan Shi, Jianping Wei, Jiaolong Yang, Jiapeng Wang, Jie Gao, Jie Wang, Jiewei Wu, Jin Yang, Jinjin Li, Jinjing Huang, Jinquan Sun, Jinyao Chen, Juanhui Tu, Jun Liu, Jun Mei, Jun Xu, Jun Zhou, Junjie Ou, Junnan Sipan, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kuan Xu, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Chen, Lei Liang, Lei Xu, Li Tang, Liang Jiang, Liangcheng Fu, Lihui Zhang, Linfeng Shi, Lintao Ma, Liyuan Liu, Longfei Li, Longfei Zheng, Lu Liu, Lu Yu, Man Li, Meiqi Zhu, Meng Li, Mengjie Gao, Mengshu Sun, Mingming Yin, Mingyang Zhang, Mingyuan Fan, Nuo Xu, Pan Tang, Peijie Jiang, Peilong Zhao, Peng Lin, Pingping Liu, Qi Zuo, Qian Zhao, Qiang Cheng, Qianggang Cao, Qiaoben Bao, Qing Cui, Qingyuan Yang, Qitao Shi, Qiyin Huang, Qizheng Zhou, Quan Wan, Runyuan Zhao, Shaomian Zheng, Shaowei Wei, Shengnan Zhang, Shuaicheng Li, Shujie Li, Shuo Zhang, Sikang Bian, Tianchu Yao, Tiange Xu, Tianshu Wang, Ting Guo, Tinghao Wang, Tingwei Huang, Tong Zhao, Tongkai Yang, Wang Hong, Wanli Gu, Wei Lu, Weichang Wu, Weiguang Han, Weiquan Li, Wenbo Shen, Wenjing Fang, Wenzhi Tang, Xiang Shu, Xiao Shi, Xiaodong Yan, Xiaolu Zhang, Xiaopei Wan, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xinxing Yang, Xinyao Tang, Xinyu Kong, Xinyu Liu, Xiong Xu, Xuan Sun, Xudong Han, Xudong Wang, Xujie Shen, Yalin Zhang, Yangyang Hou, Yankun Ren, Yao Zhao, Ye Chen, Yeyang Chen, Yibo Cao, Yifan Zuo, Yijie Chen, Ying Li, Yingjie Song, Yingxue Li, Yiqi Wang, Yixuan Sun, Yizhu Xiao, Yongfei Xu, Yu Liu, Yuchen Fang, Yue Gao, Yue Yu, Yue Zhang, Yuqi Zhang, Yuxiao He, Yuxiao Lu, Yuxin Tian, Yuxuan Li, Yuzhuo Fu, Zhankai Xu, Zhaoxin Huan, Zhenduo Zhang, Zhengke Gui, Zhengyu Huang, Zhenjun Ma, Zhenxuan Pan, Zheping Qu, Zhibo Zhu, Zhidong Fan, Zhigang Huangfu, Zhihao Wang, Zhiqiang Zhang, Zhizhen Liu, Zhuyan Zhou, Zibin Lin, Zihang Zeng, Zihao Wang, Zilong Wang, Ziqi Liu, Zitao Xuan, Zixuan Cheng, Zujie Wen, Zuoli Tang

Inteligência agentiva eficiente e escalável requer modelos que possam oferecer tanto respostas de baixa latência quanto fortes capacidades de raciocínio, mantendo-se práticos para treinar, servir e implantar. Neste relatório, apresentamos Ling-2.6 e Ring-2.6, uma família de modelos projetados para enfrentar esse desafio em escala. O Ling-2.6 é otimizado para geração instantânea de respostas e alta capacidade por token de saída, enquanto o Ring-2.6 é adaptado para raciocínio mais profundo e fluxos de trabalho agentivos mais avançados. Em vez de treinar do zero, atualizamos o modelo base Ling-2.0 por meio de pré-treinamento de migração arquitetural e pós-treinamento em larga escala. Essa atualização é guiada por um co-design unificado da arquitetura do modelo, objetivos de otimização, sistemas de serviço e ambientes de treinamento agentivo, possibilitando melhorias tanto na capacidade do modelo quanto na eficiência de implantação. No nível arquitetural, introduzimos um design de atenção linear híbrido que integra Lightning Attention com MLA, melhorando a eficiência do treinamento e da decodificação em contextos longos. Para aumentar ainda mais a eficiência dos tokens, otimizamos a capacidade por token de saída por meio de Cadeia de Pensamento Evolucionária, Otimização de Política de Unidade Linguística, alinhamento bidirecional de preferências e destilação de resposta correta mais curta. Para capacidades agentivas, propomos KPop, um framework de aprendizado por reforço projetado para suportar o treinamento estável do Ring-2.6-1T em dados fundamentados em ambiente de larga escala. O KPop melhora a eficiência do treinamento por meio de escalonamento assíncrono entre codificação, busca, uso de ferramentas e execução de fluxos de trabalho, permitindo aprendizado escalável a partir de interações complexas agente-ambiente. Juntos, Ling-2.6 e Ring-2.6 fornecem um caminho prático para sistemas agentivos eficientes, escaláveis e abertos. Disponibilizamos como código aberto todos os checkpoints da família 2.6 para apoiar futuras pesquisas e desenvolvimento em inteligência agentiva prática.

Quem Deve Liderar a Decodificação Agora? Rastreando Trajetórias Confiáveis para o Agrupamento de Modelos de Linguagem de Difusão Mascarados
Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

Jun 15

ByHeecheol Yun, Joonhyung Park, Joowon Kim, Eunho Yang

Modelos de Linguagem de Difusão Mascarada (MDLMs) emergiram como um paradigma distinto para geração de sequências. À medida que os MDLMs se tornam diversos em capacidades e cobertura de conhecimento, surge uma questão importante sobre como combinar seus conhecimentos. Nesse sentido, investigamos primeiro as dinâmicas únicas de decodificação dos MDLMs. Descobrimos que gerações bem-sucedidas exibem dinâmicas estáveis de confiança sobre posições relevantes para a resposta, enquanto trajetórias não confiáveis podem frequentemente ser corrigidas pela injeção de estados intermediários promissores de outros modelos. Guiados por essa observação, propomos o TIE (Ensemblagem Iterativa Baseada em Trajetórias), uma estrutura de fusão de conhecimento na qual MDLMs identificam iterativamente trajetórias confiáveis de decodificação e as retransmitem entre modelos. O TIE monitora as dinâmicas de confiança sobre posições relevantes para a resposta para determinar qual modelo segue atualmente uma trajetória mais confiável e transfere seletivamente sequências parcialmente desruídas entre modelos. Como o modelo na trajetória mais promissora frequentemente muda ao longo das etapas de desruído, o TIE permite que diferentes modelos contribuam com forças complementares em diferentes estágios da geração. O forte desempenho em diversas tarefas de raciocínio, juntamente com nossas análises, sugere que o TIE oferece uma abordagem prática para o problema pouco explorado da ensemblagem de MDLMs.

BRDFusion: Física Encontra Geração para Renderização Inversa de Cenas Urbanas
BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

Jun 15

ByYi-Ruei Liu, Jie-Ying Lee, Zheng-Hui Huang, Yu-Lun Liu, Chih-Hao Lin

A renderização inversa de cenas urbanas a partir de vídeos capturados possibilita inúmeras aplicações, incluindo criação de conteúdo e simulação de direção autônoma. Métodos de renderização baseados em física seguem e controlam a física da iluminação, mas sofrem com artefatos de reconstrução e renderização. Embora modelos generativos produzam vídeos realistas, eles oferecem consistência e controlabilidade limitadas. Apresentamos o BRDFusion, uma estrutura unificada que combina dois modelos complementares para renderização inversa e direta. Especificamente, o BRDFusion recupera propriedades de cena explícitas e consistentes com modelagem física e alivia ambiguidades de otimização com priors generativos. Durante a renderização direta, o modelo físico fornece renderização controlável a partir da configuração da cena, e o modelo generativo remove ruídos e corrige artefatos. Assim, nosso método produz vídeos de alta qualidade enquanto permite controle preciso, superando as bases de referência em cenas reais e sintéticas. Além disso, o BRDFusion suporta reiluminação de novas vistas, simulação noturna e inserção/edição dinâmica de objetos. Página do projeto: https://shigon255.github.io/brdfusion-page/

VisualClaw: Um Agente Personalizado em Tempo Real para o Mundo Físico
VisualClaw: A Real-Time, Personalized Agent for the Physical World

Jun 15

ByHaoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie

Modelos de linguagem visual estão servindo como interfaces de propósito geral para tarefas multimodais complexas. No entanto, a implantação ainda enfrenta três lacunas: VLMs geralmente incorrem em alta latência e custo ao processar quadros de vídeo densos e prompts longos, o arcabouço do agente permanece estático após a implantação, e benchmarks padrão de vídeo-QA não testam se os agentes podem usar evidências visuais dentro de ambientes de uso de ferramentas. Apresentamos o VisualClaw, um agente multimodal auto-evolutivo construído em torno de dois princípios. Primeiro, a codificação híbrida reduz o custo de implantação ao filtrar quadros de streaming menos informativos com uma porta em cascata e comprimir o banco de habilidades de texto através de injeção hot/cold top-k. Segundo, a evolução de habilidades permite que o agente aprenda com falhas: memórias recuperadas condicionam um evolver como contexto concatenado direto ou como evidência guiada, produzindo atualizações no banco de habilidades que ajudam perguntas futuras. Em 4 benchmarks de vídeo-QA com 2 VLMs, o VisualClaw reduz o custo de API por pergunta em média -98% em comparação com o upload de quadro completo e -25,9% em relação à linha de base offline uniforme de 8 quadros, ao mesmo tempo que aumenta a precisão na maioria dos cenários, por exemplo, uma média de +3,85% e um pico de +15,80% no EgoSchema com Gemini 3 Flash. Para abordar a lacuna, curadamos o VisualClawArena, um benchmark agêntico multimodal de 200 cenários construído através de um pipeline rigoroso de cinco estágios; os modelos devem usar evidências de vídeo, documentos, atualizações dinâmicas e verificações executáveis dentro de um ambiente de trabalho. No VisualClawArena, a mesma estrutura com backends de agente de uso de computador melhora a precisão macro em +2,9% para Codex (GPT-5.5) e +3,2% para Claude Code (Sonnet 4.6) em comparação com as linhas de base sem evolução, com uma redução de custo de -9,5% em relação à linha de base de amostragem uniforme. Essas propriedades tornam o VisualClaw uma escolha natural para aplicações de borda, onde a cascata reduz uma sessão de streaming de 1 hora de ~3.600 uploads de API para apenas 5 a 20 chamadas e a auto-evolução o torna um assistente personalizado perfeito.

Relatório Técnico do Qwen-RobotWorld: Unificando a Modelagem de Mundo Incorporado através da Geração de Vídeo Condicionada por Linguagem
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Jun 15

ByJie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu

Apresentamos o Qwen-RobotWorld, um modelo de mundo em vídeo condicionado por linguagem para inteligência incorporada. Utilizando linguagem natural como interface de ação unificada, ele prevê trajetórias visuais futuras fisicamente fundamentadas a partir de observações atuais, abrangendo manipulação robótica, direção autônoma, navegação em ambientes internos e transferência humano-robô. Essa formulação unificada oferece três direções de aplicação promissoras: geração de dados sintéticos para aumento de treinamento de políticas, ambientes virtuais escaláveis para avaliação de políticas e sinais de planejamento guiados por linguagem para controle robótico downstream. Isso é alcançado por meio de um design em três partes: a) MMDiT de Fluxo Duplo com Codificação de Ações com MLLM, onde um transformer de difusão de fluxo duplo com 60 camadas acopla a semântica congelada do Qwen2.5-VL com latentes do video-VAE por meio de atenção conjunta camada a camada; b) Conhecimento Mundial Incorporado (EWK), um corpus de vídeo-texto com 8,6M (mais de 200M quadros) com mapeamento ação-linguagem em mais de 20 corporificações e mais de 500 categorias de ação; e c) Currículo Progressivo Geral+Especialista, uma estratégia de treinamento em dois estágios que primeiro aprende priores visuais gerais e depois injeta especialização incorporada sob uma interface de linguagem compartilhada. Resultados extensivos demonstram forte competitividade: classifica-se em 1º lugar geral no EWMBench e no DreamGen Bench, supera todos os modelos de código aberto no WorldModelBench e no PBench. Análises zero-shot adicionais no benchmark RoboTwin-IF corroboram ainda mais a generalização robusta e a consistência multivista.

OneRank: Arquitetura de Ranqueamento Nativa do Transformer Unificada para Recomendação Multitarefa
OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

Jun 15

ByJiakai Tang, Sunhao Dai, Kun Wang, Zhiluohan Guo, Yu Zhao, Cong Fu, Kangle Wu, Yabo Ni, Anxiang Zeng, Xu Chen, Jun Xu

A aprendizagem multitarefa (MTL) é essencial em sistemas de recomendação para permitir aprendizado complementar entre diversos *feedbacks* de usuários. Embora as práticas industriais modernas tenham migrado de DNNs para arquiteturas centradas em *Transformers* para fortalecer a modelagem sequencial e a capacidade de escalabilidade, elas ainda separam a codificação de características da predição multitarefa, tratando o *Transformer* como um codificador independente de tarefa. Esse projeto limita fundamentalmente o desempenho e a escalabilidade ao (1) criar um gargalo de informação sob objetivos de tarefa heterogêneos, (2) induzir interferência de gradiente que leva ao fenômeno de gangorra, e (3) forçar uma transição de fluxo de dados na qual a aprendizagem adaptativa de representações baseada em atenção é convertida em predição estática *feed-forward* de tarefas, com dinâmicas incompatíveis de leitura e escrita de informações. Propomos o OneRank, uma estrutura de ranqueamento multitarefa nativa de *Transformers* que elimina a separação entre codificador e preditor, introduzindo canais privados de tarefa para aprendizado de representação direta (*forward*) e otimização reversa (*backward*), permitindo aprendizado especializado por tarefa enquanto reduz a interferência entre tarefas. No passe direto, o OneRank aprende representações específicas de tarefa de baixo para cima por meio de seleção de informação condicionada à tarefa, contextualização ciente de candidatos e interação controlada entre tarefas. No passe reverso, o desligamento de gradiente entre tarefas isola as atualizações de parâmetros privados de cada tarefa dos módulos de extração de conhecimento compartilhado, prevenindo transferência negativa. Substituímos ainda os *scorers* MLP estáticos específicos de tarefa por pontuação dinâmica baseada em correspondência para ranqueamento personalizado ciente de contexto. Ao internalizar o raciocínio multitarefa dentro da pilha de *Transformers*, o OneRank estabelece um paradigma arquitetônico unificado e escalável. Experimentos offline e online em conjuntos de dados industriais de grande escala mostram que o OneRank supera significativamente as linhas de base do estado da arte, mantendo eficiência computacional.

TokenPilot: Gerenciamento de Contexto Eficiente em Cache para Agentes de LLM
TokenPilot: Cache-Efficient Context Management for LLM Agents

Jun 15

ByBuqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang

À medida que agentes LLM são implantados em sessões de longo horizonte, o acúmulo de contexto eleva os custos de inferência. Abordagens existentes utilizam poda de texto ou remoção dinâmica de memória para minimizar a pegada de tokens; no entanto, suas mutações de sequência não restritas alteram layouts, introduzindo incompatibilidades de prefixo e invalidação de cache. Isso revela um trade-off crítico entre esparsidade do texto e continuidade do cache de prompt. Para abordar isso, apresentamos o TokenPilot, uma estrutura de gerenciamento de contexto de dupla granularidade. Globalmente, a Compactação Consciente de Ingestão atua como um mecanismo da estrutura para estabilizar prefixos de prompt e eliminar ruídos ambientais de mundo aberto no portal de ingestão. Localmente, a Remoção Consciente de Ciclo de Vida monitora a utilidade residual contínua dos segmentos de contexto, impondo um cronograma conservador de lote-turno para descarregar segmentos de conteúdo apenas quando a relevância da tarefa expira. Experimentos no PinchBench e Claw-Eval em modos isolado e contínuo demonstram que o TokenPilot reduz os custos em 61% e 56% no modo isolado, e 61% e 87% no modo contínuo, enquanto mantém desempenho competitivo em comparação com sistemas anteriores. O TokenPilot foi integrado ao LightMem2 em https://github.com/zjunlp/LightMem2.

BadWorld: Ataques Adversariais a Modelos de Mundo
BadWorld: Adversarial Attacks on World Models

Jun 15

ByLinghui Shen, Mingyue Cui, Xingyi Yang

Modelos de mundo visual (VWMs) sintetizam rollouts interativos e condicionados pela ação a partir de uma única imagem de contexto. No entanto, permanece uma questão em aberto quão robustos são esses modelos a perturbações adversariais. Ataques adversariais padrão falham em avaliar essa vulnerabilidade porque os atacantes não possuem vídeos futuros de referência (ground-truth) e não podem prever os controles subsequentes do usuário. Apresentamos o BadWorld, uma estrutura adversarial livre de rótulos adaptada para VWMs autorregressivos que supera sistematicamente ambas as limitações. Primeiro, para contornar a necessidade de supervisão futura, propomos um ataque de velocidade auto-supervisionado que interrompe diretamente a dinâmica inicial de remoção de ruído do modelo. Segundo, para garantir que o ataque generalize-se através de ações imprevisíveis do usuário, formulamos uma otimização bi-nível adaptativa à trajetória que minera ativamente sequências de controle difíceis para forjar perturbações independentes do controle. Avaliado em VWMs representativos com controles contínuos e discretos, o BadWorld expõe uma fragilidade estrutural severa. Imagens adversariais visualmente indistinguíveis desencadeiam de forma confiável degradação catastrófica em rollouts futuros, levando a remoção de ruído incompleta, colapso estrutural e inconsistência de controle. Essas descobertas revelam riscos críticos para a implantação de VWMs em sistemas de segurança críticos, ao mesmo tempo que destacam um mecanismo prático para proteção de privacidade.

Recupere, Não Retreine: Estendendo Modelos de Ação em Linguagem Visual para Novas Tarefas no Momento do Teste
Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

Jun 14

ByJeongeun Park, Juhan Park, Taekyung Kim, Sungjoon Choi, Dongyoon Han, Sangdoo Yun

Estender uma política visão-linguagem-ação (VLA) para uma nova tarefa tipicamente requer demonstrações teleoperadas específicas da tarefa e ajuste fino por tarefa, tornando a adaptação custosa tanto em coleta de dados quanto em computação. Neste artigo, mostramos que esse custo de adaptação por tarefa no lado alvo pode ser substituído por recuperação. Nossa política aumentada por recuperação é treinada uma única vez em demonstrações pareadas do embodiment alvo (consulta) e de um embodiment mais barato (pool, por exemplo, vídeo de mão humana), depois congelada. Novas tarefas são adicionadas na implantação anexando demonstrações do lado do pool a um pool de recuperação. A política congelada condiciona-se em trajetórias recuperadas a cada passo de controle, de modo que novas tarefas são absorvidas indexando dados, e não atualizando parâmetros. O ajuste fino é necessário apenas para assumir um novo embodiment não visto, não para cada nova tarefa. Mostramos que a recuperação melhora políticas além de uma arquitetura específica, incluindo políticas VLA padrão, mas seu efeito é especialmente pronunciado no Cosmos Policy, um modelo mundo-ação (WAM) baseado em geração de vídeo. Nesse contexto, a recuperação fornece uma progressão grosseira da tarefa, enquanto o objetivo de imagem futura do WAM oferece um sinal adicional de consistência visual que fortalece as ações condicionadas pela recuperação. No PushT, estudamos como a recuperação fornece um prior de movimento de alto nível reutilizável para generalização entre embodiments a ângulos-alvo não vistos, enquanto no RoboTwin 2.0 nosso método supera linhas de base entre embodiments em tarefas não vistas, e adicionalmente demonstramos o método em um robô real.

SP^3: Priors Esféricos para Restauração Plug-and-Play
SP^3: Spherical Priors for Plug-and-Play Restoration

Jun 15

BySean Man, Ron Raphaeli, Matan Kleiner, Or Ronai

Neste artigo, introduzimos o SP^3, um novo algoritmo Plug-and-Play que acelera a restauração de imagens por máximo a posteriori ao substituir denoisers por Codificadores Esféricos (CE) como priors generativos. O SP^3 aproxima a etapa intratável de prior proximal ao utilizar o espaço latente firmemente estruturado dos CE como uma projeção robusta na variedade de imagens naturais. Alternando essa projeção com uma etapa de consistência de dados em forma fechada, por meio da Divisão Meio-Quadrática, obtém-se convergência estável sem exigir cálculo de gradiente durante a inferência. Esta formulação única possibilita capacidades de restauração "a qualquer momento", produzindo imagens nítidas e plausíveis desde a primeira iteração. Avaliações em uma variedade de tarefas de restauração de imagens demonstram que o SP^3 atinge qualidade perceptual comparável à de métodos de difusão e fluxo zero-shot do estado da arte, sendo de 3 a 630 vezes mais rápido.

Memento: Reconstruir para Lembrar para Geração Consistente de Vídeos Longos
Memento: Reconstruct to Remember for Consistent Long Video Generation

Jun 12

ByXuan Wei, Longbin Ji, Guan Wang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Qingqi Hong

A geração de vídeos longos exige que sujeitos recorrentes permaneçam consistentes em diferentes planos, ângulos, movimentos e transições de cena. Os métodos existentes de decomposição temporal melhoram a escalabilidade gerando vídeos tomada por tomada. No entanto, eles se concentram principalmente em otimizar continuações plausíveis para a próxima tomada, sem verificar se a memória histórica preserva evidências críticas de identidade do sujeito. Consequentemente, à medida que a geração avança, os sujeitos recorrentes podem ser diluídos, sobrescritos ou esquecidos. Neste artigo, propomos o Memento, uma estrutura guiada por reconstrução de sujeito que trata a preservação do sujeito como um problema explícito de ancoragem de identidade, baseando-se na premissa de que um banco de memória que preserva fielmente um sujeito deve ser capaz de reconstruí-lo apenas a partir da memória. Especificamente, o Memento treina conjuntamente a geração autorregressiva da próxima tomada com a reconstrução do sujeito baseada em memória, recuperando as aparências alvo a partir da memória histórica e de legendas globais da história. Para separar evidências de sujeito de longo alcance de pistas de curto prazo, o Memento introduz um mecanismo de memória de consulta dupla, onde uma consulta recupera memória relevante à identidade e a outra seleciona quadros-chave de contexto curto para uma continuação coerente. Além disso, um pipeline de dados cinematográficos consciente do sujeito fornece supervisão precisa de reconstrução por meio de descrições de sujeito consistentes e sem pronomes. Experimentos demonstram que o Memento alcança desempenho estado da arte em consistência de sujeito de longo prazo, coerência entre tomadas e qualidade visual.

MVEB: Benchmark Massivo de Embeddings de Vídeo
MVEB: Massive Video Embedding Benchmark

Jun 12

ByAdnan El Assadi, Roman Solomatin, Isaac Chung, Chenghao Xiao, Deep Shah, Manan Dey, Shriya Sudhakar, Zacharie Bugaud, Wissam Siblini, Ayush Sunil Munot, Yashwanth Devavarapu, Rakshitha Ireddi, Michelle Yang, Márton Kardos, Niklas Muennighoff, Kenneth Enevoldsen

Apresentamos o Massive Video Embedding Benchmark (MVEB), um benchmark de 23 tarefas para embeddings de vídeo abrangendo classificação, classificação zero-shot, agrupamento, classificação de pares, recuperação e resposta a perguntas centradas em vídeo. Avaliamos 33 modelos e descobrimos que nenhum modelo domina isoladamente: embeddings baseados em MLLM lideram em classificação, agrupamento, classificação de pares e QA; a ligação multimodal lidera em recuperação e classificação zero-shot; MLLMs generativos sem adaptação contrastiva colapsam em tarefas cross-modais. Avaliações pareadas de apenas vídeo versus áudio+vídeo mostram que a contribuição do áudio depende da proveniência da anotação do conjunto de dados: o áudio ajuda quando os rótulos foram produzidos a partir de ambas as modalidades e prejudica quando foram produzidos apenas a partir de elementos visuais, uma diferença de seis pontos consistente entre famílias de modelos. O MVEB é derivado do MVEB+, um conjunto de 184 tarefas, e foi projetado para manter a diversidade de tarefas enquanto reduz o custo de avaliação. Ele se integra ao ecossistema MTEB para avaliação unificada em texto, imagem, áudio e vídeo. Disponibilizamos o MVEB e todas as 184 tarefas, juntamente com código e um leaderboard, em https://github.com/embeddings-benchmark/mteb.

Nemotron 3 Ultra: Modelo Híbrido Mamba-Transformer com Mistura de Especialistas Aberto e Eficiente para Raciocínio Agêntico
Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Jun 12

ByNVIDIA, Aaron Blakeman, Aaron Thomas, Aastha Jhunjhunwala, Abhibha Gupta, Abhinav Khattar, Adam Rajfer, Adi Renduchintala, Adil Asif, Aditya Vavre, Adriana Flores Miranda, Ahmad Bilal, Aileen Zaman, Ajay Hotchandani, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Alex Gronskiy, Alex Kondratenko, Alex Steiner, Alex Ye, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi, Alice Gatti, Alisa Liu, Alok Kumar, Amar Phanishayee, Ameya Sunil Mahabaleshwarkar, Amir Klein, Amit Zuker, Amnon Geifman, Anahita Bhiwandiwalla, Ananth Subramaniam, Andrea Santilli, Andrew Fulks, Andrew McHarg, Andrew Tao, Andrii Skliar, Anjulie Agrusa, Ankur Srivastava, Ankur Verma, Anna Shors, Anna Warno, Antoni-Joan Solergibert I Llaquet, Arham Mehta, Arkadiusz Nowaczynski, Arti Jain, Ashwath Aithal, Ashwin Poojary, Asif Ahamed, Asit Mishra, Asma Kuriparambil Thekkumpate, Atefeh Sohrabizadeh, Avinash Kaur, Avinash Vem, Ayush Dattagupta, Barath Subramaniam Anandan, Bardiya Sadeghi, Ben Lanir, Benedikt Schifferer, Besmira Nushi, Bilal Kartal, Bill Thiede, Bita Darvish Rouhani, Bo Deng, Bob Schatz, Boris Ginsburg, Boxin Wang, Brad Nemire, Brandon Norick, Brian Dang, Brian Westphal, Brian Yu, Brucek Khailany, Bryan Catanzaro, Carlo del Mundo, Caryln Aarish, Chankyu Lee, Chantal Hwang, Charbel Sakr, Charles Wang, Charlie Truong, Chen Cui, Cheng Cheng, Cheng-Ping Hsieh, Chenghao Zhang, Chenhui Deng, Chintan Patel, Chris Alexiuk, Christian Cosgrove, Christian Munley, Christine Harvey, Christopher Parisien, Chunyang Shen, Coco Li, Collin Neale, Cynthia Gao, Cyril Meurillon, Dan Gil, Dan Su, Dan Zhao, Dane Corneil, Daniel Afrimi, Daniel Egert, Daniel Korzekwa, Daniel Lo, Daniel Machlab, Daniel Serebrenik, Daniil Sorokin, Daria Gitman, Daria Levy, Darko Stosic, David Mosallanezhad, David Yu, Davit Karamyan, Deena Donia, Deep Debroy, Deepak Narayanan, Devin O'Kelly, Dheeraj Peri, Dhruv Nathawani, Di, Wu, Dima Rekesh, Divyanshu Kakwani, Donald Plummer, Dong Anh, Dongfeng Yu, Dongfu Jiang, Donnie Kim, Dorrin Poorkay, Duncan Riach, Dusan Stosic, Dustin VanStee, Eavan Meng, Edgar Minasyan, Edward Lin, Eileen Margaret Peters Long, Elad Sarafin, Elad Segal, Elena Lantz, Ellie Evans, Elliott Ning, Eric Chung, Eric Harper, Eric Pham-Hung, Eric Tramel, Eric Yang, Erick Galinkin, Erik Pounds, Erika Goncalves Goncalves, Evan Briones, Evan Wu, Evelina Bakhturina, Evgeny Tsykunov, Ewa Dobrowolska, Faisal Ladhak, Farzan Memarian, Fay Wang, Fei Jia, Felipe Soares, Felipe Vieira Frujeri, Feng Chen, Fengguang Lin, Ferenc Galko, Frank Sun, Frankie Siino, Frida Hou, Gal Hubara Agam, Gal Kaplun, Gantavya Bhatt, Gargi Prasad, Garvit Kulshreshtha, George Armstrong, Gerald Shen, Giulio Borghesi, Gordana Neskovic, Gorkem Batmaz, Grace Lam, Greg Mason, Greg Pauloski, Grigor Nalbandyan, Grzegorz Chlebus, Grzegorz Karch, Guan-Ting Liu, Guoming Zhang, Guyue Huang, Haggai Maron, Haifeng Qian, Haim Elisha, Haoxing Ren, Haran Kumar Shiv Kumar, Haribhau Hud, Harris Nover, Harrison Saturley Hall, Hayate Iso, Helen Ngo, Herbert Hum, Herman Sahota, Hexin Wang, Himanshu Soni, Hovhannes Tamoyan, Hua Li, Huanhuan Chen, Hui Li, Hui Wang, Huy Nguyen, Ian Chiles, Ido Galil, Ido Shahaf, Igor Gitman, Igor Shovkun, Ilya Loshchilov, Ingo Guehring, Itamar Schen, Itay Levy, Itay Neeman, Ivan Moshkov, Izik Golan, Izzy Putterman, Jaemin Choi, Jakub Slowikowski, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jatin Mitra, Jeffrey Glick, Jenny Chen, Jesse Oliver, Jiacheng Xu, Jiafan Zhu, Jialin Song, Jian Zhang, Jiantao Jiao, Jiaqi Zeng, Jie Lou, Jim King, Jimmy Zhang, Jingquan Wang, Jinhang Choi, Jinju Chu, Joey Conway, Joey Guman, Johan Jatko, Johannes Rausch, John Kamalu, John Roberts, Johnny Greco, Johnny Mensel, Jonah Alben, Jonas Yang, Jonathan Cohen, Jonathan Raiman, Joseph Jennings, Joshua Mabry, Joshua Pierce, Joyjit Daw, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kajal Jain, Kan Zhu, Kari Briski, Katherine Cheung, Katherine Luna, Keith Willowhawk, Keith Wyss, Keshav Santhanam, Kevin Shih, Kezhi Kong, Khanh Nguyen, Khushi Bhardwaj, Kirthi Shankar Sivamani, Konstantinos Krommydas, Krishna C. Puvvada, Krzysztof Pawelec, Kumar Anik, Kyle Keprios, Kylie Day, Lawrence McAfee, Leo Du, Leon Derczynski, Li Ding, Linda Liu, Lingjie Wu, Lior Kadoch, Lizzie Wei, Luis Vega, Luke Robison, Lun Su, Maarten Van Segbroeck, Maciej Jakub Mikulski, Maer Rodrigues de Melo, Magda Sypula, Mahan Fathi, Makesh Narsimhan Sreedhar, Makesh Tarun Chandran, Manoj Kilaru, Maor Ashkenazi, Marc Cuevas, Marc Romeijn, Marcin Chochowski, Mark Cai, Mark Mozolewski, Markus Kliegl, Marta Stepniewska-Dziubinska, Martyna Patelka, Mattei Machczynski, Matvei Novikov, Mauricio Ferrato, Maximilian Golub, Mehrzad Samadi, Melissa Corpuz, Mengru Wang, Mengxi Wu, Meredith Price, Meriem Boubdir, Micah Schaffer, Michael Andersch, Michael Boone, Michael Gschwind, Michael Lightstone, Michael Loh, Michal Bien, Michal Zawalski, Michelle Gill, Miguel Martinez, Mikail Khona, Mike Chrzanowski, Mike Houston, Mingyuan Ma, Minseok Lee, Mohamed Fawzy, Mohammad Dabbah, Mohammad Shoeybi, Mostofa Patwary, Nabin Mulepati, Najeeb Nabwani, Namit Dhameja, Narimane Hennouni, Natalie Hereth, Nathaniel Pinckney, Nave Algarici, Nave Assaf, Netanel Haber, Nicholas Knight, Nick Reamaroon, Nickson Quak, Nidhi Bhatia, Nikhil Desai, Nikolai Ludwig, Nima Tajbakhsh, Ning Xu, Nir Ailon, Nirmal Juluru, Nitin Nitin, Ofri Masad, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Olivia Viessmann, Olivier Delalleau, Oluwatobi Olabiyi, Omer Ullman Argov, Omri Puny, Oren Tropp, Pablo Ribalta, Pallab Bhattacharya, Panos Lampropoulos, Parth Mannan, Pasha Shamis, Patrick Legresley, Paul Gibbons, Pavlo Molchanov, Pawel Morkisz, Peter Dykas, Peter Jin, Pierre-Yves Aquilanti, Pinky Xu, Piotr Januszewski, Piotr Laskiewicz, Pooya Jannaty, Prakash Gurumurthy, Pranav Prashant Thombre, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Puhui Meng, Qiyu Wan, Rabeeh Karimi Mahabadi, Rachel Oberman, Rachit Garg, Radha Sri-Tharan, Rahul Kandu, Rakshit Sanadhya, Ran El-Yaniv, Ran Zilberstein, Rasoul Shafipour, Ray Macalisang, Rayen Tian, Reka Kovacs, Renjie Pi, Rick Izzo, Rima Shahbazyan, Rishabh Garg, Rishi Puri, Rita Fernandes Neves, Ritchie Zhao, Ritika Borkar, Ritu Gala, Riyad Islam, Robert Clark, Robert Hesse, Robert Kirby, Roger Waleffe, Rohit Watve, Roi Koren, Ron Banner, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Ryan Stewart, Ryota Egashira, Sadegh Mahdavi, Saee Paliwal, Sagar Singh, Sahil Modi, Salika Dave, Samantha Shinagawa, Samuel Kriman, Sandip Bhaskar, Sangkug Lym, Sanjay Kariyappa, Sanjeev Satheesh, Saran Vikas Murari, Satish Pasumarthi, Saurabh Mishra, Saurav Muralidharan, Scott Hara, Sean Narentharen, Selvaraj Anandaraj, Seonjin Na, Seonmeyong Bak, Seonmyeong Bak, Sepehr Sameni, Seph Mard, Serge Panev, Seth Henneman, Seth Poulos, Shahar Mor, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Mendelson, Shaun Kotek, Shawn Wang, Shay Aharon, Shaya Gharghabi, Sheng-Chieh Lin, Shi Chen, Shiqing Fan, Shirish Baskaran, Shreya Gopa, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shuoyang Ding, Shwetha Krishnamurthy, Siddharth Singh, Simeng Sun, Sirshak Das, Sivakumar Arayandi Thottakara, Smita Ithape, Somshubra Majumdar, Soumye Singhal, Sri Harsha Singudasu, Sridhar Bhuvanapalli, Srimukh Veccham, Stas Sergienko, Stefania Alborghetti, Stephen Ge, Su Rong, Sugam Dipak Devare, Sukrit Rao, Sumeet Kumar Barua, Sungsoo Ha, Sunny Gai, Suriya Gunasekar, Suseella Panguluri, Suyog Gupta, Sviataslau Hinzburh, Sweta Priyadarshi, Syeda Nahida Akter, Talor Abramovich, Tan Bui, Tanay Varshney, Tatevik Ter-Hovhannisyan, Teodor-Dumitru Ene, Terry Kong, Thanh Do, Tianhe Zhang, Tiffany Moore, Tijmen Blankevoort, Tim Moon, Tiyasa Mitra, Tom Balough, Tomasz Grzegorzek, Tomasz Hliwiak, Tomer Asida, Tomer Bar Natan, Tomer Keren, Tomer Ronen, Tony Salim, Tony Wang, Traian Rebedea, Tugrul Konuk, Twinkle Vashishth, Udi Karpas, Ushnish De, Vahid Noorozi, Venkat Srinivasan, Venmugil Elango, Vibhor Agrawal, Victor Cui, Vijay Korthikanti, Vikas Mehta, Vinay Rao, Virginia Wu, Vitaly Kurin, Vitaly Lavrukhin, Vladimir Anisimov, Vu Pham, Wanli Jiang, Wasi Uddin Ahmad, Wataru Ishihara, Wei Du, Wei Ping, Weiheng Chai, Wenliang Dai, Wesley Helmholz, Will Jennings, Will Zhu, Wojciech Prazuch, Xiaowei Ren, Xiwen Yu, Yan Breek, Yang Chen, Yang Yu, Yangyi Chen, Yaniv Galron, Yashaswi Karnati, Yejin Choi, Yev Meyer, Yi-Fu Wu, Yian Zhang, Ying Lin, Yonatan Geifman, Yonggan Fu, Youngeun Kwon, Yu Yao, Yugi Guvvla, Yuki Huang, Yunsheng Liu, Zach Moshe, Zachary Newell, Zhilin Wang, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zihan Liu, Zijie Yan, Zsolt-Alon Wertheimer

Introduzimos o Nemotron 3 Ultra, um modelo de linguagem Mistura de Especialistas híbrido Mamba-Atenção com 550 bilhões de parâmetros totais e 55 bilhões de parâmetros ativos. Pré-treinamos o Nemotron 3 Ultra em 20 trilhões de tokens de texto, estendemos o comprimento do contexto para 1 milhão de tokens e realizamos o pós-treinamento utilizando Ajuste Fino Supervisionado (SFT), Aprendizado por Reforço (RL) e Destilação On-Policy com Múltiplos Professores (MOPD). O Nemotron 3 Ultra é nosso modelo mais capaz até o momento, empregando diversas tecnologias-chave — LatentMoE, Predição de Múltiplos Tokens (MTP), pré-treinamento NVFP4, RLVR multiambiente, MOPD e controle de orçamento de raciocínio. O Nemotron 3 Ultra alcança uma taxa de transferência de inferência até ~6 vezes maior em comparação com LLMs publicamente disponíveis de última geração, mantendo precisão equivalente. A precisão de ponta, a alta taxa de transferência de inferência e o comprimento de contexto de 1 milhão de tokens tornam o Nemotron 3 Ultra ideal para tarefas autônomas e agentivas de longa duração. Disponibilizamos como código aberto os checkpoints base, pós-treinados e quantizados, juntamente com os dados de treinamento e a receita no HuggingFace.

CODA-BENCH: Conseguem Agentes de Código Lidar com Tarefas Intensivas em Dados?
CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

Jun 13

ByYuxin Zhang, Ju Fan, Meihao Fan, Shaolei Zhang, Xiaoyong Du

Agentes avançados demonstram cada vez mais potencial para atuarem como engenheiros autônomos, gerando uma demanda crescente por benchmarks de avaliação que capturem a complexidade do desenvolvimento no mundo real. Tais ambientes tipicamente envolvem tanto código complexo quanto dados em larga escala (isto é, sistema de arquivos). No entanto, benchmarks existentes geralmente avaliam capacidades focadas em código ou focadas em dados de forma isolada, deixando uma lacuna clara com cenários reais de desenvolvimento. Neste artigo, preenchemos essa lacuna ao apresentar o CODA-BENCH, o primeiro benchmark a avaliar conjuntamente inteligência de código e de dados em um ambiente de uso intensivo de dados. Construímos uma sandbox Linux de uso intensivo de dados baseada no ecossistema Kaggle (contendo centenas de conjuntos de dados), onde agentes devem explorar ativamente hierarquias de arquivos complexas para identificar recursos relevantes e gerar código para tarefas analíticas orientadas a dados. O CODA-BENCH compreende 1.009 tarefas abrangendo 31 comunidades, com cada ambiente de tarefa contendo em média 980 arquivos, simulando escala e ruído realistas de dados. Avaliações de agentes avançados revelam que até mesmo sistemas de alto desempenho têm dificuldade em integrar efetivamente a descoberta de dados com a execução de código, alcançando uma taxa de sucesso de apenas 61,1%. Esses resultados destacam uma lacuna substancial nas capacidades atuais de agentes para tarefas intensivas em dados e apontam para direções promissoras para pesquisas futuras.

Onde Deu Errado? Avaliação em Nível de Processo de Agentes Web com Rastreamento de Estado Semântico
Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

Apr 8

ByJiwan Chung, JiHyuk Byun, Vibhav Vineet, Seon Joo Kim

Os agentes web atuam por meio de longas sequências de interação, porém os benchmarks existentes avaliam apenas o sucesso terminal, descartando todas as informações processuais e oferecendo pouca orientação para melhoria. Neste trabalho, realizamos uma análise em nível de processo de agentes web. Apresentamos o WebStep, um benchmark composto por 1.800 instâncias de tarefas com dificuldade controlada e rastreamento automático de estado semântico. Cada site expõe um MDP semântico determinístico juntamente com a GUI: o agente opera na interface, enquanto o ambiente registra estados e transições de alto nível em segundo plano, permitindo uma análise refinada sem anotação manual. Com base na trajetória semântica, mostramos primeiro que métricas de processo revelam diferenças invisíveis à avaliação de resultados: três agentes cujas taxas de sucesso se agrupam entre 31-33% divergem em alcance de exploração versus precisão de execução. Em seguida, a decomposição por habilidade caracteriza a natureza dessas diferenças, expondo rankings opostos por habilidade ocultos no mesmo site: por exemplo, no Housing, o OpenAI CUA supera o Qwen3.5 em 23,7% em ações de commit, mas fica 15,6% abaixo em filtragem, identificando uma habilidade concreta a ser melhorada mesmo dentro de um domínio. A análise de bifurcação localiza ainda o erro decisivo que leva à perda da tarefa e mostra que esse erro é específico do agente, não compartilhado. Por fim, essas diferenças se ampliam à medida que as tarefas se tornam mais difíceis: a taxa de sucesso é semelhante em tarefas fáceis, mas se separa nitidamente quando a exploração se torna mais exigente. Nossa análise em nível de processo abre um novo caminho na avaliação de agentes web, fornecendo insights refinados e acionáveis sobre onde e como cada agente deve ser melhorado.

GD^2PO: Mitigando Conflitos de Múltiplas Recompensas via Otimização de Política com Desacoplamento de Recompensa Dinâmica de Grupo
GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

Jun 15

ByHaotian Liu, Yihao Liu, Jingwei Ni, Siyuan Huang, Xinpeng Liu, Pengyu Cheng, Jiajun Song, Ruijin Ding, Junfeng Li, Zhechao Yu, Mengyu Zhou, Hongteng Xu, Xiaoxi Jiang, Guanjun Jiang

À medida que os LLMs avançam, o aprendizado por reforço (RL) pós-treinamento depende cada vez mais de recompensas multidimensionais para cultivar capacidades abrangentes. Essa mudança exige novos algoritmos capazes de otimizar objetivos diversos e potencialmente concorrentes simultaneamente. Para enfrentar isso, métodos existentes, como a Otimização de Política Desacoplada de Recompensas em Grupo (GDPO), decompõem a pontuação geral em grupos de recompensas independentes e, em seguida, calculam a perda de RL separadamente dentro de cada grupo. No entanto, essa estratégia ainda encontra conflitos de múltiplas recompensas: um único rollout pode gerar vantagens positivas em certas dimensões de recompensa, mas negativas em outras, fazendo com que sinais opostos se cancelem durante a agregação, prejudicando ainda mais a eficiência do treinamento de RL. Inspirados pela Otimização de Política por Amostragem Dinâmica (DAPO), que melhora a eficiência do treinamento de RL ao filtrar rollouts ineficazes com vantagens próximas de zero, propomos a Otimização de Política Desacoplada de Recompensas Dinâmicas em Grupo (GD^2PO). Especificamente, o GD^2PO emprega um mecanismo de filtragem ciente de conflitos para mascarar rollouts que sofrem de forte discordância entre recompensas. Ao impedir que sinais conflitantes se cancelem, essa estratégia de mascaramento preserva e amplia a magnitude das vantagens efetivas de RL, acelerando significativamente a eficiência do aprendizado. Além disso, introduzimos a reponderação em nível de consulta para ajustar dinamicamente a intensidade de atualização de cada consulta com base no consenso geral de suas recompensas. Experimentos em diversos cenários de múltiplas recompensas, incluindo chamada de ferramentas e alinhamento de preferências humanas, demonstram que o GD^2PO supera de forma consistente e significativa as linhas de base existentes. O código está disponível em https://github.com/Qwen-Applications/GD2PO.

PhoneHarness: Aproveitando Agentes de Uso de Telefone através de Ações Mistas de GUI, CLI e Ferramentas
PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Jun 12

ByChenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

Agentes de telefonia estão cada vez mais sendo exigidos para realizar fluxos de trabalho móveis reais, em vez de apenas prever a próxima ação na tela. No entanto, grande parte da literatura atual sobre agentes móveis ainda os avalia principalmente como controladores de GUI que observam uma tela, emitem toques e deslizes e são pontuados pelo estado-alvo do aplicativo. As tarefas reais de uso do telefone são mais amplas: exigem decidir quando usar GUIs de aplicativos, comandos do lado do dispositivo ou ferramentas estruturadas, deixando evidências de que o efeito colateral pretendido realmente ocorreu. Apresentamos o PhoneHarness, um benchmark e arcabouço de execução de ações mistas para estudar agentes de uso de telefone em fluxos de trabalho móveis verificáveis. O PhoneHarness executa um loop de agente no lado do dispositivo sobre ações de GUI, CLI e ferramentas do lado do host, combinando roteamento determinístico de ações com delegação limitada de GUI e trilhas de execução auditáveis. Seu benchmark, PhoneHarness Bench, avalia se os agentes concluem tarefas com efeitos colaterais observáveis, não apenas se produzem respostas finais plausíveis. Na divisão de avaliação anotada, o PhoneHarness atinge uma taxa de aprovação de 75,0%, superando as configurações não PhoneHarness mais fortes em 12,9 pontos percentuais. O PhoneHarness e o PhoneHarness Bench desempenham, portanto, papéis distintos, mas mutuamente dependentes: o arcabouço torna os fluxos de trabalho mistos de telefone executáveis, enquanto o benchmark mede se os agentes podem usar esse arcabouço de forma confiável e segura. Nossos resultados sugerem que a automação confiável de telefones depende do roteamento da superfície de ação e da execução verificável, e não apenas do controle visual da GUI.

UniDDT: Unificando Compreensão e Geração Multimodal com Transformer de Difusão Desacoplado
UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

Jun 15

ByShuai Wang, Liang Li, Yang Chen, Ruopeng Gao, Yao Teng, Limin Wang

Modelos Multimodais Unificados (UMMs) emergiram como uma direção crítica para a inteligência multimodal de uso geral, integrando compreensão e geração em um único arcabouço. No entanto, os UMMs existentes enfrentam desafios proeminentes: (1) os conflitos inerentes de aprendizado entre tarefas de compreensão visual e geração, levando a uma modelagem subótima em ambas as tarefas; (2) diferentes espaços visuais de compreensão e geração dificultando a escalabilidade; (3) dependência excessiva de dados específicos de tarefa, negligenciando a dualidade da compreensão e geração texto-imagem. Para enfrentar esses desafios, propomos o UniDDT, que utiliza um codificador Noisy ViT juntamente com um LLM para unificar a codificação semântica para tarefas de geração e compreensão visual, enquanto emprega um decodificador de difusão separado para desacoplar a decodificação por difusão da decodificação de texto. Com este codificador Noisy ViT, o UniDDT é capaz de utilizar o espaço latente como uma representação visual unificada, permitindo compatibilidade contínua entre tarefas de compreensão e geração. Assim, a escalabilidade nas tarefas de geração e a expressividade semântica nas tarefas de compreensão podem ser equilibradas. Além disso, construímos estruturas de dados duais a partir dos mesmos pares imagem-texto, promovendo interdependência entre os dados de geração e compreensão para explorar sua dualidade inerente. Experimentos extensivos demonstram que o UniDDT alcança uma unificação eficaz da compreensão e geração multimodal com consistência semântica e escalabilidade aprimoradas. Para tarefas de geração visual, nosso UniDDT obtém uma pontuação GenEval de 0,87 e uma pontuação geral DPG de 86,9. Para tarefas de compreensão multimodal, nosso UniDDT alcança uma pontuação de 1699,5 no benchmark MME e uma pontuação geral de 76,5 no SEEDbench.

Tangram: Desbloqueando a Compressão Não Uniforme de Cache KV para Serviço Eficiente de LLM em Múltiplas Voltas
Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Jun 15

ByHyungmin Kim, Minsoo Kim, Hongseok Kim, Jungwook Choi

O serviço de LLM multi-turno acumula um histórico de diálogo cujo cache de Key-Value (KV) cresce a cada interação e a cada usuário, rapidamente superando os próprios pesos do modelo e tornando a memória — e não a computação — a restrição limitante da taxa de transferência. A compressão não uniforme de KV, que aloca orçamentos heterogêneos entre as cabeças de atenção, preserva a precisão de forma muito superior aos esquemas uniformes, mas continua impraticável: as pilhas de serviço modernas assumem comprimentos de KV idênticos entre as cabeças, de modo que a heterogeneidade aprisiona a memória liberada como fragmentação de páginas, gasta até 25% do tempo de preenchimento recuperando páginas dispersas e distorce as cargas de trabalho da GPU, o que infla a latência de decodificação em até 1,7 vezes ou consome 15–20% de cada etapa de decodificação com replanejamento. Observamos que essa heterogeneidade não precisa ser descoberta em tempo de execução: a retenção por cabeça segue uma regularidade estrutural de dois níveis — um ranqueamento de cabeças invariante à entrada com proporções por cabeça estritamente delimitadas — que pode ser calibrado offline a partir de apenas 50 amostras. Com base nessa percepção, apresentamos o Tangram, um framework de serviço que resolve estaticamente o que os sistemas anteriores tratavam dinamicamente: a Reserva de Orçamento fixa a pegada pós-compressão de cada cabeça no momento da escalonamento, eliminando a recuperação de páginas; a Paginação Irregular agrupa cabeças com orçamentos semelhantes em tabelas de páginas independentes, transformando a fragmentação em memória recuperável; e o Balanceamento de Carga Antecipado pré-computa partições de GPU balanceadas sem nenhum planejamento em tempo de execução. Implementado sobre o vLLM, o Tangram serve como substrato plug-and-play para métodos existentes de compressão não uniforme, igualando sua precisão e melhorando a taxa de transferência ponta a ponta em até 2,6 vezes em relação à linha de base de KV completo. Nossa implementação está disponível publicamente em https://github.com/aiha-lab/TANGRAM.

Track2View: Geração de Vídeo Consistente em 4D Controlada por Câmera via Rastros de Pontos 3D Pareados
Track2View: 4D-Consistent Camera-Controlled Video Generation via Paired 3D Point Tracks

Jun 14

ByFeng Qiao, Zhaochong An, Zhexiao Xiong, Serge Belongie, Nathan Jacobs

Re-renderizar um vídeo existente a partir de um novo ponto de vista da câmara exige que a saída siga a trajetória prescrita da câmara, preservando a aparência e a dinâmica da cena original em todos os fotogramas. Os métodos existentes baseiam-se em embeddings de pose por fotograma, renderizações ruidosas de nuvens de pontos ou correspondências implícitas aprendidas, nenhum dos quais fornece uma ligação explícita e temporalmente contínua entre os píxeis de origem e de destino. Propomos o Track2View, que condiciona um transformador de difusão de vídeo a pares de trilhas de pontos 3D: trajetórias esparsas de pontos da cena projetados nas vistas da câmara de origem e de destino. Essas trilhas fornecem correspondências espaço-temporais explícitas que são temporalmente contínuas por construção, codificando qual conteúdo deve aparecer onde e quando. No núcleo do Track2View está um condicionador de trilhas de vista dupla que transfere o contexto visual da vista de origem para a vista de destino através de operações geométricas sem parâmetros e agregação temporal aprendida, garantindo generalização para trajetórias de câmara arbitrárias sem memorizar movimentos específicos. Introduzimos ainda um pipeline de curadoria de dados que extrai correspondências de trilhas um-para-um executando um rastreador de pontos 3D em pares de vistas de múltiplas câmaras temporalmente concatenadas. Num benchmark de 400 vídeos abrangendo cenas estáticas e dinâmicas, o Track2View alcança resultados de última geração em qualidade visual, sincronização de vistas e precisão de câmara, reduzindo o erro de rotação em 30-65% e o erro de translação em 61-72% em relação às principais linhas de base. A página do projeto está disponível neste URL: https://qjizhi.github.io/track2view

Ponderação Hierárquica de Vantagem para Ajuste Fino de RL Online de VLAs a partir de Resultados de Episódios Esparsos
Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

Jun 15

ByTongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li

Quando políticas VLA pré-treinadas são ajustadas por meio de RL online, cada episódio de rollout produz apenas um único resultado binário (sucesso ou falha), mas a atualização do ator requer supervisão por transição. Abordagens existentes comumente reduzem esse resultado esparso a um único sinal de recompensa escalar ou vantagem, o que confunde formas distintas de feedback no nível da transição e oferece orientação limitada uma vez que o sucesso básico da tarefa se torna alcançável. Primeiro, um único sinal escalar confunde os dois objetivos de viabilidade e eficiência; uma vez que o sucesso básico é alcançado, o rótulo binário não fornece gradiente para distinguir conclusões eficientes das lentas. Segundo, rollouts no mundo real misturam segmentos autônomos e de intervenção; atribuir ingenuamente resultados de episódio através dessas fronteiras introduz atribuição de crédito incorreta. Para resolver esses problemas, propomos o *Hierarchical Advantage-Weighted Behavior Cloning* (HABC), que treina cabeças críticas separadas para esses dois objetivos em diferentes subconjuntos de dados e combina suas saídas com um balanço adaptativo ao estado. Uma porta adaptativa ao estado *g_t* mescla suas vantagens de um passo, priorizando a viabilidade quando o sucesso é incerto e mudando para eficiência apenas quando a viabilidade é alta, e converte o resultado em pesos por transição na perda do ator. A atribuição de crédito consciente de intervenção restringe ainda mais os rótulos de resultado a segmentos executados pela política atual, impedindo que a supervisão vaze através dos limites de intervenção. Em experimentos com robôs reais em três tarefas bimanuais de contato intenso, o HABC eleva o sucesso das linhas de base de *fine-tuning* supervisionado (SFT) de 36%, 44% e 12% para 92%, 88% e 38%.

Você não precisa de suposições fortes: Aprendizado de Representação Visual via Diferenças Temporais
You Don't Need Strong Assumptions: Visual Representation Learning via Temporal Differences

Jun 14

ByNinad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji

O progresso em IA tem sido amplamente impulsionado por métodos que assumem menos. À medida que o poder computacional e os dados aumentam, abordagens com vieses indutivos mais fracos geralmente superam aquelas com suposições mais fortes. Isso é particularmente característico da área de Aprendizagem de Representação Visual, onde as abordagens evoluíram de serem dominadas pela Aprendizagem Supervisionada para a Aprendizagem Fracamente Supervisionada, chegando ao agora difundido sucesso da Aprendizagem Autossupervisionada sem rótulos humanos. No entanto, mesmo as abordagens modernas de Aprendizagem Autossupervisionada ainda dependem de vieses indutivos fortes, como aumentos, mascaramento ou recorte. Se essa tendência se mantiver, até mesmo esses vieses residuais devem se tornar gargalos em escala — e nossos experimentos confirmam isso: a força ótima dos vieses indutivos diminui à medida que os dados crescem. Isso motiva a busca por abordagens que dependam de menos suposições. Com esse objetivo, apresentamos a Diferença Temporal em Visão (DTV), um novo paradigma para aprendizado autossupervisionado a partir de vídeo que evita os vieses indutivos existentes, baseando-se, em vez disso, em uma suposição causal de que o passado causa o futuro. A DTV funciona treinando conjuntamente um codificador de imagem e um codificador de movimento, de modo que a representação do quadro atual mais o movimento codificado seja igual à representação do próximo quadro. Apesar de não aproveitar vieses indutivos fortes, a DTV iguala as receitas de ponta em tarefas espaciais densas, lançando as bases para a aprendizagem de representações sem suposições fortes.

Características Instáveis, Subespaços Reproduzíveis: Compreendendo a Dependência da Semente em Autoencoders Esparsos
Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Jun 10

ByGleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

Autoencoders esparsos (SAEs) são amplamente utilizados para interpretar representações de redes neurais, mas sua utilidade depende da reprodutibilidade das características aprendidas entre diferentes execuções de treinamento. Investigamos essa questão por meio da estabilidade de características: para cada característica do SAE, estimamos a probabilidade de que uma característica similar reapareça em um SAE treinado de forma independente. Isso fornece um sinal escalável por característica que separa características estáveis de instáveis. Em um estudo em larga escala envolvendo diferentes sementes aleatórias, modelos, camadas, tamanhos de dicionário e variantes de SAEs, encontramos uma assimetria funcional pronunciada: características estáveis carregam a maior parte do sinal relevante para reconstrução e predição, enquanto características instáveis têm impacto marginal fraco e são dominadas por gatilhos de forma superficial de baixa frequência tanto nas estatísticas de ativação quanto em explicações automáticas. Geometricamente, características instáveis são individualmente não reprodutíveis, mas concentram-se em subespaços de posto baixo reprodutíveis, sugerindo que a dependência da semente geralmente reflete ambiguidade de base dentro de uma região compartilhada do espaço de ativação, em vez de ruído puro. Um modelo sintético controlado torna esse mecanismo explícito, mostrando que características verdadeiras de posto baixo podem ser recuperadas no nível do subespaço, permanecendo não identificáveis como latentes individuais do SAE entre diferentes sementes. Finalmente, ao agregar características únicas entre sementes, construímos SAEs mais estáveis, preservando a variância explicada nesse contexto. Juntos, esses resultados mostram que características instáveis não são meramente latentes falhas ou ruidosas: elas têm fraco impacto funcional individual, mas refletem uma estrutura reprodutível de baixa dimensão que SAEs padrão resolvem de forma diferente entre sementes.

MMDiff: Estendendo Transformers de Difusão para Geração Multimodal
MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Jun 15

ByYagmur Akarken, Orest Kupyn, Christian Rupprecht

Transformadores de difusão demonstraram capacidades generativas notáveis, no entanto, as ricas representações perceptuais computadas ao longo de sua trajetória de eliminação de ruído são descartadas assim que o conteúdo é renderizado. Apresentamos o MMDiff, uma estrutura que transforma um transformador de difusão congelado em um sistema generativo multimodal que produz conjuntamente imagens juntamente com qualquer combinação de modalidades perceptuais densas usando cabeças de decodificador leves. Nossa descoberta central é que a informação perceptual está distribuída temporalmente ao longo da trajetória de eliminação de ruído, e que a fusão de características em múltiplos intervalos de tempo com pesos de agregação com variação espacial é essencial, melhorando os resultados de segmentação semântica em até 28,7% mIoU em relação à extração em um único intervalo de tempo. Adotamos ainda a extração de atenção orientada por conceitos para orientação espacial interpretável, e mostramos que as características de difusão congeladas são competitivas e complementares a codificadores de última geração, como o DINOv3. Ao treinar apenas cabeças de decodificador leves em um backbone congelado, alcançamos um desempenho robusto em segmentação semântica, detecção de objetos salientes e estimativa de profundidade, e demonstramos que essa estrutura possibilita a geração eficaz de dados sintéticos em escala.

Destilação em Nível de Prompt: Uma Alternativa Não Paramétrica ao Ajuste Fino de Modelos para Raciocínio Eficiente
Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Jun 2

BySanket Badhe, Deep Shah

O raciocínio avançado normalmente requer o uso de prompting de Cadeia de Pensamento, que é preciso, mas incorre em latência proibitiva e custos substanciais de inferência em tempo de teste. A alternativa padrão, o ajuste fino de modelos menores, frequentemente sacrifica a interpretabilidade enquanto introduz sobrecarga significativa de recursos e operacional. Para superar essas limitações, apresentamos a Destilação em Nível de Prompt (PLD). Extraímos padrões explícitos de raciocínio de um modelo Professor e os organizamos em uma lista estruturada de instruções expressivas para o Prompt do Sistema do modelo Aluno. Avaliado usando Gemma-3 4B, o PLD melhorou as pontuações F1 Macro no StereoSet (57% para 90,0%) e no Contract-NLI (67% para 83%), além de aumentar a precisão no LogiQA para 70%. Resultados semelhantes no Mistral Small 3.1 demonstram generalizabilidade entre arquiteturas, permitindo que esses modelos compactos alcancem desempenho de ponta com sobrecarga de latência desprezível. Essas instruções expressivas tornam o processo de tomada de decisão transparente, permitindo a verificação humana completa da lógica, tornando essa abordagem ideal para indústrias regulamentadas, como direito, finanças e moderação de conteúdo, bem como para casos de uso de alto volume e dispositivos de borda.

ExpRL: Aprendizado por Reforço Exploratório para o Treinamento Intermediário de LLMs
ExpRL: Exploratory RL for LLM Mid-Training

Jun 15

ByViolet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

O aprendizado por reforço (RL) com recompensas esparsas tornou-se uma ferramenta padrão para melhorar o raciocínio de LLMs, mas seu sucesso depende criticamente da cobertura presente no modelo base. Na prática, os modelos são frequentemente preparados para RL por meio de treinamento intermediário em trajetórias de raciocínio selecionadas que ensinam habilidades primitivas úteis, como decomposição, verificação ou autocorreção. Embora eficaz, essa estratégia exige especificar manualmente o que o modelo deve aprender, e permanece incerto se essa cobertura primitiva é suficiente para problemas muito mais difíceis, que exigem combinar essas habilidades em estratégias de solução mais amplas. Estudamos uma abordagem mais automatizada: treinamento intermediário baseado em RL usando grandes corpora de dados de perguntas e respostas escritas por humanos. Em vez de tratar as soluções de referência como alvos a serem imitados, nosso método, ExpRL, as utiliza como andaimes de recompensa: as referências são ocultadas da política e usadas apenas para construir rubricas de avaliação específicas do problema para julgar trajetórias de raciocínio on-policy. A política amostra a partir do prompt do problema original, enquanto um avaliador LLM compara a trajetória de raciocínio amostrada com a solução de referência e atribui recompensas densas em nível de resultado ou de processo. Isso permite que o ExpRL reforce progresso parcial, reduções intermediárias úteis e comportamentos de raciocínio produtivos que recompensas esparsas de resposta final frequentemente falham em valorizar. Em tarefas desafiadoras de raciocínio matemático, o ExpRL produz uma preparação para RL mais forte do que SFT, GRPO com recompensas esparsas e autodestilação, e fornece uma melhor inicialização para RL subsequente com recompensas esparsas. Experimentos adicionais de domínios mistos sugerem ainda que o ExpRL pode se estender além do cenário original exclusivamente matemático.

PermaVid: Geração Consistente de Vídeos Através de Edições via Memória de Contexto Desacoplada
PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

Jun 15

ByShuai Yang, Bingjie Gao, Ziwei Liu, Jiaqi Wang, Dahua Lin, Tong Wu

A geração consistente de vídeos sob operações de edição requer persistência: quando edições modificam a aparência ou o layout da cena, as gerações subsequentes devem permanecer coerentes ao longo do tempo e dos pontos de vista. No entanto, os designs de memória existentes têm dificuldade em manter a consistência de longo prazo após tais modificações, pois os contextos armazenados podem se tornar desatualizados ou inválidos. Para lidar com isso, propomos o PermaVid, uma nova estrutura baseada em uma memória de contexto multimodal que separa o contexto espacial em aparência semântica e estrutura geométrica, juntamente com uma estratégia de atualização e recuperação de memória consciente de edições que mantém a evolução da memória alinhada com observações subsequentes. Especificamente, desenvolvemos dois bancos de memória complementares: uma memória de contexto RGB que captura observações cientes da aparência enquanto codifica implicitamente a geometria, e uma memória de contexto de profundidade que preserva a estrutura apenas geométrica, separada da semântica. Com base nesse design, introduzimos um modelo de geração de vídeo guiado por memória que realiza fusão de características multimodais sob condições de referência extraídas de contextos de memória de modalidade mista. Experimentos demonstram que nosso método mantém forte consistência semântica e estrutural de longo prazo após edições, superando significativamente os métodos estado da arte.

Relatório do Índice de Inteligência Artificial 2026
Artificial Intelligence Index Report 2026

Apr 14

BySha Sajadieh, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Lapo Santarlasci, Juan Pava, Nestor Maslej, Russ Altman, Erik Brynjolfsson, Carla Brodley, Jack Clark, Virginia Dignum, Vipin Kumar, James Landay, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Elham Tabassi, Russell Wald, Toby Walsh, Dan Weld

Bem-vindo à nona edição do relatório do Índice de IA. À medida que a IA continua a avançar rapidamente, surge a questão de saber se os sistemas construídos em torno dela conseguem acompanhar esse ritmo. As estruturas de governança, os métodos de avaliação, os sistemas educacionais e a infraestrutura de dados necessária para monitorizar o impacto da IA enfrentam dificuldades para acompanhar a velocidade da própria tecnologia. Essa lacuna entre o que a IA pode fazer e o quão preparados estamos para geri-la perpassa todos os capítulos deste relatório anual. Nesta edição, o relatório acompanha como a IA está a ser testada de forma mais ambiciosa em áreas como raciocínio, segurança e execução de tarefas no mundo real, e por que razão essas medições são cada vez mais difíceis de confiar. Apresenta também novas estimativas do valor económico da IA generativa, juntamente com evidências emergentes dos seus efeitos no mercado de trabalho, um quadro analítico sobre a soberania da IA e um capítulo sobre ciência desenvolvido em colaboração com a Schmidt Sciences. Pela primeira vez, o relatório inclui capítulos independentes sobre IA na ciência e IA na medicina, refletindo o crescente impacto da IA nestes dois domínios.

Raciocínio Implícito para Recomendação Generativa Baseada em Modelos de Linguagem de Grande Escala
Implicit Reasoning for Large Language Model-based Generative Recommendation

Jun 15

ByYinhan He, Liam Collins, Bhuvesh Kumar, Jundong Li, Neil Shah, Donald Loveland

Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais adotados como bases para Recomendação Generativa (GR), prometendo acesso a conhecimento mundial pré-treinado. No entanto, a invocação confiável desse conhecimento para GR ainda é pouco compreendida. Um obstáculo fundamental é que GR baseada em LLMs tipicamente representa itens com IDs Semânticos (SIDs), interrompendo a interface de raciocínio em linguagem natural dos LLMs, pois esses tokens não são vistos pelo LLM durante o pré-treinamento. Abordagens existentes lidam com isso usando pipelines caros de múltiplos estágios que fundamentam os SIDs e elicitam justificativas explícitas, mas oferecem insights limitados sobre quando e por que cada estágio é necessário. Neste trabalho, decompomos sistematicamente pipelines de treinamento de raciocínio explícito para GR baseada em LLM, revelando três limitações principais: enfraquecimento da verbalização do conhecimento mundial, desalinhamento entre os espaços de embeddings de tokens de SID e de linguagem natural, e sensibilidade à qualidade das justificativas, todos prejudicando o desempenho do raciocínio explícito. Para contornar esses problemas, propomos PauseRec, um paradigma leve de raciocínio implícito, adaptado para GR. PauseRec é excepcionalmente prático, evitando custosa aquisição de rastros de raciocínio e treinamento de alinhamento de raciocínio, resultando em múltiplos benefícios: (1) supera métodos explícitos padrão de CoT em até 6,22%, (2) reduz o custo de treinamento em até 65% em horas de GPU e (3) acelera a inferência em até 71,3%. Esses resultados posicionam PauseRec como uma alternativa leve à geração explícita de justificativas, possibilitando GR baseada em LLM mais eficaz e eficiente.

EgoPhys: Aprendizagem de Modelos Físicos Generalizáveis de Objetos Deformáveis a partir de Vídeo Egocêntrico
EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

Jun 15

ByHyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang

Os humanos compreendem naturalmente a física de objetos por meio de interações cotidianas, mas prever com fidelidade dinâmicas deformáveis complexas, como materiais elásticos e tecidos, continua sendo um grande desafio para a visão computacional e a robótica. Apresentamos o EgoPhys, uma estrutura que constrói gêmeos digitais físicos deformáveis a partir de vídeo RGB egocêntrico utilizando priores generalizáveis. O EgoPhys supera as limitações dos métodos existentes, permitindo a geração controlável de gêmeos digitais deformáveis a partir de vídeos egocêntricos, destilando soluções de física inversa por objeto em um codebook compacto, possibilitando a predição de campos densos de rigidez de mola para objetos não vistos sem otimização por mola no momento do teste. Treinado com priores generalizáveis provenientes de diversas interações egocêntricas, o EgoPhys supera as linhas de base em reconstrução, predição futura e generalização zero-shot. Para apoiar o treinamento e a avaliação, selecionamos um conjunto de dados de interação egocêntrica abrangendo diversos objetos deformáveis, cenas e estilos de manipulação. Implantamos o EgoPhys em um robô xArm6 real, demonstrando que um gêmeo digital inicializado a partir de um único vídeo egocêntrico de manipulação humana pode servir como uma representação interna do mundo para auxiliar no planejamento com objetos deformáveis, destacando observações RGB egocêntricas como um caminho escalável para pipelines do real para a simulação.

Quem Muda? Contra-argumentos Próprios e Entre Modelos Revelam Instabilidade nas Respostas em LLMs
Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

Jun 14

ByNafiseh Nikeghbal, Amir Hossein Kargaran, Shaghayegh Kolli, Jana Diesner

Os benchmarks de precisão padrão são projetados para testar o quão próximos os grandes modelos de linguagem (LLMs) chegam das respostas corretas, mas não são adequados para testar se os LLMs mantêm uma resposta correta quando essa resposta é desafiada por um contra-argumento plausível. Introduzimos um protocolo controlado para avaliar a estabilidade das respostas: após um modelo responder corretamente a uma pergunta de múltipla escolha, desafiamos a resposta do modelo com um argumento coerente para uma opção incorreta e medimos se o modelo muda de ideia. A configuração a) isola o conteúdo argumentativo da pressão social explícita e b) varia o comprimento do argumento, a auto-atribuição e a fonte entre modelos. Através de sete modelos de fronteira e 57 disciplinas do MMLU, as taxas de mudança (flip rates) variam de 17,5% a 97,3%, revelando grandes diferenças na estabilidade que não são capturadas apenas pelas métricas de precisão. Descobrimos que a auto-atribuição aumenta consistentemente as taxas de mudança (média de +7,1 pp, até +18,7 pp). Além disso, combinar argumentos de respostas incorretas de vários modelos e selecionar o mais eficaz por pergunta produz desafios adversariais mais fortes do que depender de um único modelo fonte. Construímos ainda o MaxFlip, um conjunto de desafios curados que amplifica as mudanças em até +23,6 pp em relação aos desafios autogerados padrão. Disponibilizamos o protocolo, os registros dos desafios e o MaxFlip para apoiar a avaliação da estabilidade juntamente com os benchmarks de precisão padrão. Os materiais estão disponíveis em https://github.com/nafisenik/WhoFlips e https://hf.co/datasets/nafisehNik/WhoFlips.

LaWAM: Modelos de Ação de Mundo Latente para Políticas Robóticas Eficientes Conscientes da Dinâmica
LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

Jun 14

ByJialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu

Modelos Visão-Linguagem-Ação (VLAs) aproveitam o pré-treinamento visão-linguagem em larga escala para controle semântico de robôs, mas frequentemente carecem de previsão explícita sobre como as ações do robô alteram a cena. Modelos Mundo-Ação (WAMs) abordam essa limitação ao condicionar políticas em futuros previstos, embora as abordagens existentes tipicamente dependam de geração computacionalmente custosa de vídeos com redundância substancial em nível de pixel. Apresentamos o LaWAM, um Modelo Mundo-Ação Latente que expõe dinâmicas preditivas a políticas robóticas por meio de subobjetivos visuais latentes compactos, em vez de reconstruir vídeos futuros. No núcleo do LaWAM está um Modelo Mundo Latente (LaWM) condicionado a ações latentes. Obtemos o LaWM treinando um modelo de ação latente no espaço latente de um modelo de visão fundamental pré-treinado e reaproveitando seu decodificador direto para prever características de observações futuras para a evolução da cena. O LaWAM, então, condiciona a geração de ações nesses subobjetivos visuais latentes previstos para viabilizar um controle robótico ciente da dinâmica. O LaWAM alcança taxas de sucesso (SRs) de estado-da-arte ou competitivas em tarefas LIBERO (98,6% SR), RoboTwin (91,22% SR) e manipulação no mundo real, mantendo inferência de baixa latência. O LaWAM opera em 187 ms por predição de bloco de ação e atinge até 24x menor latência de relógio de parede que WAMs baseados em espaço de pixels.

Controle Seletivo sob Percepção Ruidosa: Falhas de Governança Ocultas por Métricas Agregadas em Redes Modulares
Selective Control under Noisy Perception: Governance Failures Hidden by Aggregate Metrics in Modular Networks

Jun 12

ByIgor Itkin

Um sistema de moderação de conteúdo pode obter uma pontuação elevada em todas as métricas padrão de exatidão e ainda assim causar danos reais, se seus erros recaírem sobre os poucos usuários que conectam comunidades, de outra forma, separadas. Demonstramos isso em um modelo baseado em agentes, no qual N=240 agentes aprendizes em uma rede estruturada em comunidades publicam conteúdo inofensivo, produtivo ou perigoso, e um regulador remove ou penaliza tudo o que um classificador ruidoso sinaliza. A utilidade geral quase não se altera à medida que o ruído muda (ANOVA de um fator, p=0,96): por medidas agregadas, nada parece errado. O dano, em vez disso, concentra-se nesses usuários-ponte, cujas postagens úteis são suprimidas indevidamente e cujas postagens perigosas são erroneamente poupadas. Uma perda de governança (L_gov) que precifica esses dois erros separadamente do custo da aplicação mais do que dobra sob um ruído com muitos falsos positivos. A exatidão agregada oculta quem é prejudicado, e a quantidade barata de auditar é quantas conexões um usuário possui (grau), uma proxy quase perfeita para a centralidade de intermediação que define uma ponte (r=0,96).

Ataques a Detectores de Texto de Máquina Retêm Impressões Digitais Estilísticas
Attacks on Machine-Text Detectors Retain Stylistic Fingerprints

Jun 8

ByRafael Rivera Soto, Barry Chen, Nicholas Andrews

Apesar do progresso considerável no desenvolvimento de detectores de texto gerado por máquina, a facilidade com que o texto gerado por máquina pode ser manipulado para evadir a detecção levou a sugestões de que o problema é intrinsecamente intratável. Neste trabalho, investigamos os limites de tais estratégias de evasão. Demonstramos que, embora os ataques atuais, desde a engenharia de prompt até a otimização guiada por detector, possam degradar efetivamente o desempenho de detectores padrão, eles não conseguem apagar as subjacentes "impressões digitais" estilísticas do texto de máquina. Mostramos que detectores few-shot que utilizam o espaço de características estilísticas são robustos a essas tentativas de evasão, detectando de forma confiável amostras mesmo de modelos explicitamente ajustados para evitar a detecção. Isso levanta a questão: o estilo representa uma defesa universal contra ataques de detecção de máquina? Demonstramos que a resposta é "não" ao introduzir uma nova abordagem de paráfrase que otimiza simultaneamente a indetectabilidade e a adesão a estilos humanos específicos. Mostramos que, diferentemente dos métodos anteriores, este ataque evade efetivamente todos os detectores considerados, incluindo aqueles que utilizam o estilo de escrita. No entanto, descobrimos que essa evasão não é absoluta: à medida que o número de documentos disponíveis para análise cresce, as distribuições humana e de máquina tornam-se novamente distinguíveis. No geral, nossos achados sugerem que a detecção confiável de texto gerado por máquina requer ir além da análise de um único documento para a análise de múltiplos documentos.

Apreensão Universal Humana
Human Universal Grasping

Jun 15

ByKevin Yuanbo Wu, Tianxing Zhou, Isaac Tu, Billy Yan, Irmak Guzey, David Fouhey, Dandan Shan, Lerrel Pinto

Humanos conseguem agarrar objetos sem esforço, enquanto robôs multifuncionais estão longe desse nível de generalidade. Argumentamos que a fonte mais natural de dados para manipulação robótica são os próprios humanos, que pegam milhares de objetos diariamente. Apresentamos o HUG, um modelo de correspondência de fluxo (flow-matching) que gera diversas formas de agarrar humanas para qualquer objeto especificado pelo usuário em uma única imagem RGB-D capturada por uma câmera estéreo. Utilizando óculos inteligentes, primeiro coletamos o 1M-HUGs, um conjunto de dados egocêntrico de agarrões humanos abrangendo 1 milhão de quadros (27,8 horas) e 6.707 instâncias de objetos distribuídos por 41 edifícios. Em seguida, para modelar a distribuição de agarrões humanos naturais, nosso inovador modelo de correspondência de fluxo funde observações RGB e de profundidade para gerar um agarrão parametrizado pela translação do pulso, rotação do pulso e pose da mão MANO. Os agarrões previstos podem ser redirecionados para diferentes mãos robóticas, possibilitando a captura imediata (zero-shot) em cenas cotidianas. Para padronizar a avaliação, construímos um novo referencial simulado, o HUG-Bench, composto por 90 objetos não vistos pertencentes a cinco categorias geométricas e diversos tamanhos, com malhas 3D em escala métrica. Avaliamos o HUG no mundo real sobre o conjunto de teste de 30 objetos do HUG-Bench, utilizando múltiplas câmeras estéreo, arquiteturas robóticas e ambientes domésticos. O HUG supera as linhas de base mais avançadas do estado da arte em +23% e +34% em nosso desafiador conjunto de objetos. O código, os dados, o referencial, os pontos de verificação (checkpoints) e uma demonstração interativa estão disponíveis em nosso site: https://grasping.io/

Os Fantasmas do Polymarket: Quando Correspondências Off-Chain Encontram Reversões On-Chain
The Ghosts of Polymarket: When Off-Chain Matches Meet On-Chain Reverts

Jun 15

ByYiming Shen, Yuhan Jin, Shuohan Wu, Yanlin Wang, Jiachi Chen

Polymarket emergiu como uma proeminente plataforma de mercado de previsão e uma das aplicações de crescimento mais rápido em DeFi. Para alcançar negociações de baixa latência, adota uma arquitetura híbrida que combina ordens fora da cadeia, mas as liquida na cadeia para execução final. Esse design cria uma lacuna de consistência que chamamos de Ghost Fills: uma ordem que é combinada com sucesso fora da cadeia pode posteriormente falhar durante a liquidação na cadeia. Para entender as implicações de segurança dessa lacuna, investigamos tais liquidações fracassadas construindo o GHOSTHUNTER, que as reconstrói a partir de rastros na cadeia e as atribui a padrões de ataque concretos. Em 1.952.440 transações revertidas de ordens combinadas, descobrimos que atacantes exploram o intervalo de tempo entre a combinação e a liquidação para invalidar ordens já combinadas antes que sejam finalizadas na cadeia. Em seguida, identificamos quatro vetores de ataque a partir desses incidentes: nonce bump, drenagem de saldo, revogação de permissão e armadilha de proxy, realizados por meio de 35 variantes em evolução. Esses vetores permitem que atacantes revertam seletivamente 980.133 ordens preenchidas, possibilitando previsão sem risco, caça a bots de arbitragem e manipulação de recompensas de liquidez, gerando pelo menos 1,49 milhões de dólares em lucro, o que coloca 1,78 bilhões de dólares em risco e 2,17 milhões de POL (cerca de 212 mil dólares) pagos pelo operador. Durante horários de pico, mais de 24,3% de todas as ordens preenchidas foram revertidas, causando ataques de DoS de facto. Também descobrimos que o código derivado do contrato defeituoso ainda aparece em 167 contratos independentes em 10 cadeias, mantendo pelo menos 23 milhões de dólares em fundos de usuários, estendendo o impacto além da Polymarket. Divulgamos nossas evidências às partes afetadas, e o problema foi parcialmente mitigado.

TuneJury: Uma Métrica Aberta para Melhorar o Alinhamento de Preferências na Geração de Música
TuneJury: An Open Metric for Improving Music Generation Preference Alignment

Jun 15

ByYonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue

Apresentamos o TuneJury, um modelo de recompensa pareada aberto e ao nível de instância para texto-para-música, que prediz uma pontuação de preferência musical a partir de um prompt textual e de um clipe de áudio. O checkpoint disponibilizado é treinado com rótulos de preferência humana publicamente disponíveis, abrangendo votos no estilo arena (A vs. B), pares de preferência por alinhamento métrico, comparações pareadas obtidas por crowdsourcing e classificações estéticas de especialistas. A margem de pontuação prevista entre dois clipes é bem calibrada na nossa divisão de teste reservada, suportando a filtragem de dados por meio de um limiar de pontuação simples. O TuneJury generaliza tanto para pares de teste reservados quanto para benchmarks fora da distribuição, mantendo-se competitivo com linhas de base anteriores nestes últimos. Para geradores lançados após o treinamento, introduzimos a calibração de âncora, uma calibração Bradley-Terry pós-hoc por sistema que recupera a concordância com eficiência de dados substancialmente melhor do que o retreinamento do zero. A mesma recompensa congelada impulsiona ganhos consistentes no eixo de recompensa em três aplicações downstream: seleção best-of-N em tempo de inferência, otimização latente ao estilo DITTO e pós-treinamento por iteração de especialistas. O TuneJury está disponível em https://github.com/yonghyunk1m/TuneJury.