HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

39 papers found

LocateAnything: Grounding Visão-Linguagem Rápido e de Alta Qualidade com Decodificação Paralela de Caixas
LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

May 26

ByShihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu

Modelos de linguagem visual (VLMs) comumente formulam o grounding visual e a detecção como um problema de geração de tokens de coordenadas, serializando cada caixa 2D em múltiplos tokens 1D que são aprendidos e decodificados em grande parte de forma independente. Essa decodificação token por token não corresponde à estrutura acoplada da geometria da caixa e cria um gargalo prático de inferência devido à geração estritamente sequencial. Apresentamos o LocateAnything, uma estrutura unificada de grounding e detecção generativa baseada na Decodificação Paralela de Caixas (PBD). Ao decodificar elementos geométricos como caixas delimitadoras e pontos como unidades atômicas em uma única etapa, o LocateAnything preserva a coerência geométrica intra-caixa e desbloqueia um paralelismo substancial. Mostramos que a PBD melhora tanto a taxa de transferência de decodificação quanto a precisão da localização. Desenvolvemos ainda um mecanismo de dados escalável e curadoria do LocateAnything-Data, um conjunto de dados em larga escala com mais de 138 milhões de amostras de treinamento, aumentando substancialmente a diversidade de dados para localização de alta precisão. Avaliações extensas mostram que o LocateAnything avança na fronteira velocidade-precisão, alcançando uma taxa de transferência de decodificação significativamente maior, enquanto melhora a qualidade da localização com alto IoU em diversos benchmarks. Os resultados destacam os benefícios complementares da Decodificação Paralela de Caixas e dos dados de treinamento em larga escala para permitir um grounding visual e uma detecção unificados, eficientes e precisos.

EvalVerse: Benchmarking Consciente do Pipeline e Calibrado por Especialistas para Geração Profissional de Vídeos Cinematográficos
EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

May 22

BySonglin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao

A rápida evolução dos modelos fundamentais generativos de vídeo impulsionou o campo em direção à síntese cinematográfica de nível profissional. Para alcançar essa qualidade exigente, a comunidade está migrando para o Aprendizado por Reforço (RL) e fluxos de trabalho agentivos. No entanto, a avaliação confiável emergiu como um gargalo crítico. Os referenciais existentes avaliam predominantemente "se está certo" (aderência básica ao prompt), negligenciando fundamentalmente "se é bom" (qualidade cinematográfica, atuação e estética). Além disso, as métricas automatizadas atuais carecem do rigor específico do domínio necessário para fornecer sinais confiáveis, criando uma grave lacuna de credibilidade entre a percepção estética humana e a pontuação da máquina. Para preencher essa lacuna, apresentamos o EvalVerse, uma estrutura de avaliação abrangente, ciente do pipeline e calibrada por especialistas. Tratamos a avaliação da geração de vídeos não meramente como uma tarefa de engenharia, mas como um problema científico central: a digitalização sistemática da expertise cinematográfica subjetiva. Primeiro, organizamos o conhecimento do domínio em uma taxonomia de avaliação alinhada ao fluxo de trabalho profissional de produção cinematográfica (pré-produção, produção e pós-produção). Segundo, destilamos julgamentos de especialistas humanos em um conjunto de dados curado com anotações humanas em larga escala. Terceiro, injetamos esse conhecimento em Modelos de Visão e Linguagem (VLMs) por meio de uma estratégia de ajuste fino calibrada por especialistas, permitindo que o VLM realize raciocínio explícito em Cadeia de Pensamento. Em comparação com trabalhos anteriores, o EvalVerse não apenas mantém a compatibilidade com métricas fundamentais de "correção", mas também expande significativamente os critérios para "qualidade" e amplia a cobertura de tarefas para sequenciamento complexo de múltiplas tomadas e integração audiovisual. Consequentemente, ao fornecer sinais diagnósticos granulares, o EvalVerse transcende um quadro de líderes estático e estabelece uma infraestrutura fundamental para trabalhos futuros, como modelos de recompensa e agentes avaliadores.

SpatialBench: O Seu Modelo de Base Espacial é um Jogador Completo?
SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

May 26

ByHaosong Peng, Hao Li, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu

Embora os modelos fundamentais espaciais tenham demonstrado desempenho impressionante em conjuntos de dados padrão, uma questão crítica permanece: eles são verdadeiramente modelos completos, capazes de generalizar de forma robusta em diversas tarefas downstream, pontos de vista arbitrários, domínios de cena em mudança, densidades de entrada variadas e restrições específicas de hardware? Responder a essa questão abrangente exige uma avaliação holística, porém os modelos atuais são principalmente avaliados em domínios específicos para os quais foram especificamente projetados ou treinados. Tais avaliações são intrinsecamente limitadas por cobertura restrita de paradigmas, domínios de cena limitados e amostragem arbitrária de quadros, tornando fundamentalmente difícil avaliar suas verdadeiras capacidades de generalização. Para preencher essa lacuna, apresentamos o SpatialBench, um benchmark interparadigmas e diverso em domínios para modelos fundamentais espaciais com amostragem determinística. O SpatialBench apresenta escala sem precedentes e design determinístico rigoroso, compreendendo 19 conjuntos de dados e 546 cenas em 5 domínios espaciais diversos. Ele avalia de forma abrangente 41 modelos em 6 paradigmas, em 5 conjuntos de tarefas, sob 4 configurações diferentes de densidade de entrada. Nossa extensa avaliação revela que os modelos atuais ainda não são jogadores completos e descobre insights cruciais para avanços futuros. Especificamente, demonstramos que a atenção de contexto completo maximiza a precisão, enquanto estratégias de memória limitada desbloqueiam a escalabilidade de sequências longas. Além disso, nossas avaliações empíricas em tarefas corporificadas e egocêntricas desafiadoras demonstram que o alinhamento estrito de domínio e a alta qualidade dos dados são muito mais críticos para o desempenho do que a simples ampliação do conjunto de dados. Ademais, para preencher a maior lacuna de dados identificada em nossa análise, vamos além da avaliação, introduzindo um conjunto de dados em grande escala, DA-Next-5M, e um modelo de linha de base robusto, DA-Next, ampliando os limites da aprendizagem de representação espacial.

MobileGym: Uma Plataforma de Simulação Verificável e Altamente Paralela para Pesquisa de Agentes de GUI Móvel
MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

May 25

ByDingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang

Apresentamos o MobileGym, um ambiente leve, totalmente controlável e hospedado em navegador, voltado para o uso cotidiano em dispositivos móveis, visando fidelidade de interação sem replicar backends proprietários. Ele possibilita duas capacidades anteriormente inacessíveis para aplicativos cotidianos: sinais de resultado verificáveis por meio de julgamento determinístico baseado em estado sobre o estado JSON estruturado, e RL online escalável por meio de rollouts paralelos de baixo custo. O estado completo do ambiente é capturado, configurado, bifurcado e comparado como JSON estruturado, e um único servidor pode hospedar centenas de instâncias paralelas, com cerca de 400 MB de memória por instância e cerca de 3 s de inicialização a frio. Um modelo de estado em camadas e um framework declarativo de definição de tarefas mantêm a programabilidade do estado e a criação de tarefas em escala prática, e um único mecanismo de julgamento programático fornece tanto vereditos de avaliação determinísticos quanto recompensas densas de RL. O acompanhante MobileGym-Bench oferece 416 modelos de tarefas parametrizados, incluindo 256 modelos de teste e 160 de treino, em 28 aplicativos, com juízes determinísticos e um protocolo AnswerSheet estruturado que evita falhas de correspondência de texto livre. Em um estudo de caso Sim-to-Real, o GRPO no Qwen3-VL-4B-Instruct obteve +12,8 pontos percentuais no conjunto de teste de 256 tarefas e, em um subconjunto de sinais de 59 tarefas em dispositivos reais, a execução no dispositivo real manteve 95,1% do ganho de treinamento do lado da simulação. Página do projeto: https://mobilegym.github.io.

Remoção de Ruído de Representações Conscientes da Geometria para Reconstrução 3D Robusta Multivista
Geometry-Aware Representation Denoising for Robust Multi-view 3D Reconstruction

May 25

ByJin Hyeon Kim, Jaeeun Lee, Claire Kim, Kyoungjin Oh, Paul Hyunbin Cho, Jaewon Min, Yeji Choi, Jihye Park, Hyunhee Park, Minkyu Park, Seungryong Kim

A reconstrução 3D multivista alcançou progresso notável com o advento de modelos feed-forward de reconstrução 3D. No entanto, esses modelos são tipicamente treinados e avaliados sob condições ideais de imagem, livres de degradações, enquanto observações do mundo real frequentemente contêm degradações que diferem significativamente dessas condições. Melhorar a robustez da reconstrução 3D multivista sob condições degradadas continua sendo um desafio importante. Apresentamos o Geometry-Aware Representation Denoising (GARD), uma nova abordagem que realiza restauração multivista baseada em difusão diretamente no espaço de características de um modelo feed-forward de reconstrução 3D. Este design explora as representações de características sensíveis à geometria do reconstruidor 3D para recuperar de forma eficaz a geometria precisa da cena. Além disso, ao empregar um decodificador de imagem RGB adicional, as representações refinadas também podem ser usadas para restaurar imagens RGB de alta qualidade, permitindo assim a recuperação simultânea da geometria da cena 3D e de imagens de alta qualidade. Experimentos abrangentes no benchmark Depth Anything 3 (DA3) demonstram a eficácia do framework GARD proposto.

LongAV-Compass: Rumo a uma Avaliação Unificada da Geração Audiovisual em Escala de Minutos em T2AV, I2AV e V2AV
LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

May 25

ByTengfei Liu, Yang Shi, Xuanyu Zhu, Jiafu Tang, Liu Yang, Qixun Wang, Zhuoran Zhang, Yuqi Tang, Fengxiang Wang, Yuhao Dong, Xinlong Chen, Bozhou Li, Bohan Zeng, Yue Ding, Xiaohan Zhang, Jialu Chen, Haotian Wang, Yuanxing Zhang, Pengfei Wan, Leye Wang

A geração audiovisual está avançando rapidamente de clipes curtos para conteúdo de um minuto de duração, enquanto os protocolos de avaliação existentes permanecem em grande parte limitados a contextos de formato curto. Os benchmarks atuais focam principalmente na geração condicionada a texto de 5 a 10 segundos e raramente oferecem suporte a uma avaliação unificada entre modalidades de condicionamento como texto, imagem e vídeo. Além disso, fornecem insights limitados sobre como a consistência de identidade, a coerência narrativa e o alinhamento audiovisual se degradam ao longo de horizontes temporais estendidos. Para preencher essa lacuna, apresentamos o LongAV-Compass, um benchmark sistemático para geração audiovisual de um minuto. O LongAV-Compass contém 284 casos de teste selecionados, abrangendo texto-para-áudio-vídeo (T2AV), imagem-para-áudio-vídeo (I2AV) e vídeo-para-áudio-vídeo (V2AV), organizados por cenário de aplicação e complexidade de geração. O benchmark combina a construção guiada por taxonomia com uma estrutura unificada de avaliação que integra a avaliação assistida por MLLM a métricas perceptuais e multimodais complementares, incluindo DINO-v2, ArcFace, CLIP e ImageBind. A estrutura avalia mais de 20 dimensões granulares, abrangendo qualidade intrassegmento, consistência interssegmento, coerência narrativa global, alinhamento semântico e sincronização audiovisual. Por meio de experimentos em 11 modelos representativos, juntamente com validação de alinhamento humano, o LongAV-Compass fornece um ambiente de teste diagnóstico para analisar as limitações dos sistemas atuais em manter geração audiovisual coerente, semanticamente alinhada e temporalmente consistente em escala de minuto, considerando diversas modalidades de entrada.

D^2-Monitor: Monitoramento Dinâmico de Segurança para LLMs de Difusão via Roteamento Sensível à Hesitação
D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

May 25

ByAoxi Liu, Yupeng Chen, James Oldfield, Guanzhe Hong, Junchi Yu, Baoyuan Wu, Philip Torr, Adel Bibi

Apesar do surgimento dos modelos de linguagem de difusão (D-LLMs) como alternativa aos modelos de linguagem autorregressivos (AR-LLMs), o monitoramento de segurança para D-LLMs permanece amplamente inexplorado. Ao contrário dos AR-LLMs, os D-LLMs geram texto por meio de um processo de remoção de ruído em múltiplas etapas, expondo representações ocultas intermediárias que podem conter informações relevantes para a segurança indisponíveis em configurações padrão de monitoramento de etapa única. Motivados pela adequação de sondas leves para monitoramento contínuo, analisamos quais sinais em nível de trajetória melhor indicam quando tais sondas provavelmente terão dificuldades. Descobrimos que o sinal mais informativo é a hesitação de segurança: estados ocultos intermediários que caem repetidamente dentro de uma pequena margem da fronteira de decisão da sonda. O número dessas etapas de hesitação na trajetória do D-LLM prediz efetivamente a falha da sonda, fornecendo um proxy da dificuldade da amostra. Com base nessa análise, propomos o D²-Monitor, um monitor de segurança de dois níveis para D-LLMs. O D²-Monitor adota uma sonda leve como monitor contínuo para estimar conjuntamente a hesitação e realizar a classificação base. Quando o nível de hesitação excede um limiar, uma sonda mais expressiva, porém computacionalmente mais pesada, é ativada. Esse mecanismo de roteamento dinâmico aloca eficientemente os recursos de monitoramento no momento do teste. Avaliado em 3 conjuntos de dados (WildguardMix, ToxicChat, OpenAI-Moderation) em 4 D-LLMs, o D²-Monitor alcança desempenho de ponta com uma pegada compacta de parâmetros (≤ 0,85M parâmetros) e exibe o melhor compromisso entre eficácia e eficiência em relação a 8 baselines.

A Série MiniMax-M2: Mini Ativações Desencadeando a Máxima Inteligência do Mundo Real
The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

May 26

ByMiniMax, Aili Chen, Aonian Li, Baichuan Zhou, Bangwei Gong, Binyang Jiang, Boji Dan, Changqing Yu, Chao Wang, Cheng Ma, Cheng Zhong, Cheng Zhu, Chengjun Xiao, Chengyi Yang, Chengyu Du, Chenyang Zhang, Chi Zhang, Chuangyi Huang, Chunhao Zhang, Chunhui Du, Chunyu Zhao, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dongyu Zhang, Enhui Yang, Fei Yu, Guang Zheng, Guodong Zheng, Guohong Li, Haichao Zhu, Haigang Zhou, Haimo Zhang, Han Ding, Hao Zhang, Haohai Sun, Haolin Lyu, Haonan Lu, Haoyu Wang, Huajie Shi, Huiyang Li, Jiacheng Chen, Jian Zhang, Jiaqi Zhuang, Jiaren Cai, Jiaxin Pan, Jiayao Li, Jiayuan Song, Jichuan Zhang, Jie Wang, Jihao Gu, Jin Zhu, Jingwei Dong, Jingyang Li, Jingyu Zhang, Jingze Zhuang, Jinhao Tian, Jinli Liu, Jinyi Hu, Jun Tao, Jun Zhang, Junbin Ruan, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kang Xu, Ke Ji, Ke Yang, Kecheng Xiao, Keyu Duan, Keyu Li, Le Han, Letian Ruan, Li Yuan, Lianfei Yu, Liheng Feng, Lijie Mo, Lin Li, Lingye Bao, Lingyu Yang, Lingyuan Zhou, Loki, Lu Chen, Lunbin Ceng, Ming Li, Ming Zhong, Mingliang Tao, Mingyuan Chi, Mujie Lin, Nan Hu, Ningxin Chen, Peiyin Zhu, Peng Gao, Pengcheng Gao, Pengfei Li, Penglin Li, Pengyu Zhao, Qibin Ren, Qidi Xu, Qihan Ren, Qile Li, Qin Wang, Quanliang Chen, Qunhong Ceng, Rong Tian, Rui Dong, Ruitao Leng, Ruize Zhang, Shanqi Liu, Shaoyu Chen, Sheng Jia, Shun Yao, Shuoran Zhao, Shuqi Yu, Sichen Li, Sicheng Pan, Songquan Zhu, Tengfei Li, Tian Xie, Tiancheng Qin, Tianrun Liang, Wei Liu, Weiqi Xu, Weitao Li, Weixiang Chen, Weiyu Cheng, Weiyu Zhang, Wenhu Chen, Wenqian Zhao, Xiancai Chen, Xiangjun Song, Xiangyuan Wang, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xiaojie Wu, Xihao Song, Xingyi Han, Xinyu Guan, Xuan Lu, Xun Zou, Xunhao Lai, Xutong Li, Yan Gong, Yang Wang, Yang Xu, Yangsen Wang, Ye Tang, Yicheng Chen, Yinran Qiu, Yiqi Shi, Yiting Guo, Yiwen Huang, Yixuan Wang, Yongyi Hu, Yu Gao, Yu Zhang, Yuanxiang Ying, Yuanzhen Zhang, Yubo Wang, Yuchen Song, Yufeng Yang, Yuhang Meng, Yuhang Miao, Yuhao Li, Yujie Liu, Yulin Hu, Yunan Huang, Yunji Li, Yunyi Huang, Yusen Zhang, Yusu Hong, Yutao Xie, Yutong Zhang, Yuwen Liao, Yuxuan Shi, Yuze Wenren, Zebin Li, Zehan Li, Zejian Luo, Zeyu Jin, Zeyuan Sun, Zhanpeng Zhou, Zhaochen Su, Zhendong Li, Zhengmao Zhu, Zhengyuan Peng, Zhenhua Fan, Zhi Zhang, Zhichao Xu, Zhiheng Lv, Zhikang Xu, Zhitao He, Zhiwei He, Zhongyuan Li, Zibo Gao, Zijia Wu, Zijian Song, Zijian Zhou, Zijun Sun, Zishan Huang, Ziying Chen, Ziyue Ge

Apresentamos a série MiniMax-M2, uma família de modelos de linguagem baseados em Mistura de Especialistas, construída em torno do princípio de que mini ativações podem desbloquear o máximo de inteligência no mundo real. O carro-chefe M2 contém 229,9 bilhões de parâmetros totais, com apenas 9,8 bilhões ativados por token. Projetada de ponta a ponta para implantação agêntica, a série M2 baseia-se em três componentes: (i) pipelines de dados orientados por agentes, que produzem trajetórias verificáveis em larga escala em codificação agêntica e cowork agêntico, cada uma fundamentada em um espaço de trabalho executável e uma recompensa alinhada a artefato; (ii) Forge, um sistema de RL nativo de agentes escalável que se adapta a trajetórias de agentes de horizonte longo, combinado com escalonamento FIFO em janela, mesclagem de árvore de prefixos, otimização de inferência e um desacoplamento limpo entre treinamento-inferência-agente que suporta agentes tanto de caixa branca quanto de caixa preta; (iii) o checkpoint mais recente M2.7 dá um passo inicial em direção à autoevolução — depurando autonomamente execuções de treinamento e modificando seu próprio arcabouço. Em toda a gama do M2 ao M2.7, essa combinação traduz uma pegada de mini ativação em desempenho de nível fronteiriço em benchmarks de codificação agêntica, busca profunda, tarefas de escritório e raciocínio.

Soap2Soap: Recriação de Vídeo Cinematográfico Longo via Colaboração Multiagente
Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration

May 17

ByYiren Song, Huilin Zhong, Kevin Qinghong Lin, Haofan Wang, Mike Zheng Shou

Estudamos a refilmagem cinematográfica em nível de série, um problema de geração de vídeo-para-vídeo de longo horizonte que localiza episódios ou filmes completos por meio de estilização ou substituição de atores, preservando estritamente a estrutura narrativa, a coreografia de movimento e a identidade do personagem em centenas de tomadas. Pipelines existentes de geração e edição de vídeos frequentemente falham nesse regime devido à deriva de identidade cumulativa, mutação de fundo e erosão semântica sob grandes movimentos de câmera e mudanças de ponto de vista. Propomos o Soap2Soap, um framework multiagente que impõe consistência linguístico-visual de longo prazo por meio de um mecanismo de Consistência de Ponte Dupla: um roteiro JSON ciente de cena servindo como espinha dorsal semântica persistente, e âncoras de referência visual alocadas dinamicamente nos níveis de cena e tomada. Para suprimir a deriva antes da síntese de vídeo, introduzimos a consistência de keyframes em lote, gerando conjuntamente múltiplos keyframes em um contexto latente compartilhado por meio de uma formulação baseada em grade. Um agente de verificação em malha fechada audita ainda identidade, estabilidade e alinhamento para acionar regeneração seletiva. Experimentos no SoapBench demonstram fortes melhorias em relação às APIs comerciais de geração de vídeo em consistência de longo prazo e fidelidade narrativa.

Compartilhe Mais, Pesquise Menos: Pensamento Paralelo Colaborativo para Escalonamento Eficiente em Tempo de Teste
Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

May 26

ByXinglin Wang, Hao Lin, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li

O Test-Time Scaling (TTS) aprimora as capacidades de raciocínio de grandes modelos de linguagem ao alocar poder computacional de inferência adicional para explorar o espaço de soluções. No entanto, os métodos paralelos de TTS existentes geralmente mantêm as ramificações isoladas durante a busca: descobertas intermediárias permanecem privadas da ramificação e não podem orientar outras ramificações a tempo. Esse isolamento de informações causa uma exploração substancialmente redundante, pois as ramificações redescobrem repetidamente informações já encontradas em outro lugar e exigem mais etapas de busca para coletar informações completas de decisão necessárias para chegar a respostas corretas. Para preencher essa lacuna, propomos o Pensamento Paralelo Colaborativo (CPT), uma estrutura de inferência livre de treinamento que permite o compartilhamento de informações em tempo de busca entre ramificações paralelas. O CPT extrai informações intermediárias compactas das ramificações em andamento, mantém um pool de informações em nível de consulta com deduplicação e transmite as entradas do pool por meio do contexto de entrada, permitindo que cada ramificação em etapas subsequentes de busca reutilize descobertas feitas por outras ramificações em vez de redescobrir as mesmas informações. Empiricamente, experimentos nos benchmarks HMMT e AIME mostram que o CPT estabelece uma fronteira de Pareto entre precisão e latência mais forte do que linhas de base robustas em diferentes orçamentos de rollout e escalas de modelo, destacando a colaboração em tempo de busca como uma direção eficaz para um TTS paralelo eficiente.

LLaVA-OneVision-2: Rumo à Inteligência Perceptual de Próxima Geração
LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

May 25

ByXiang An, Yin Xie, Feilong Tang, Yunyao Yan, Huajie Tan, Didi Zhu, Changrui Chen, Xiuwei Zhao, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Kaichen Zhang, Wenkang Zhang, Zheng Cheng, Nansen Zhang, Chunsheng Wu, Chunjiang Ge, Zimin Ran, Dehua Song, Chunyuan Li, Shikun Feng, Ming Hu, Zhangquan Chen, Junbo Niu, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Apresentamos o LLaVA-OneVision-2 (LLaVA-OV-2), o modelo visão-linguagem mais capaz da série LLaVA-OneVision até o momento, alcançando desempenho superior em uma ampla gama de benchmarks multimodais. O modelo é construído sobre um codificador OneVision nativo e incorpora Atenção Janelada para computação local eficiente, mantendo a resolução nativa. Seu principal avanço é a tokenização por fluxo de codec: ela trata o vídeo comprimido como um fluxo contínuo de custo de bits, onde a dinâmica do custo de bits determina grupos temporais adaptativos, e pistas de resíduo de movimento selecionam evidências espaciais salientes em telas visuais compactas. Essa alocação concentra um orçamento limitado de tokens em conteúdo portador de eventos, permitindo uma compressão de tokens de vídeo longo mais estável do que grupos fixos de imagens. Uma RoPE 3D compartilhada ainda posiciona telas de codec, quadros amostrados e imagens em um sistema de coordenadas espaço-temporais unificado. Além disso, construímos a pilha de dados e treinamento do LLaVA-OV-2 em torno de supervisão aberta em larga escala: aproximadamente 8 milhões de amostras de vídeo com legendas recapturadas para pré-treinamento, um corpus espacial de 4 milhões de amostras para ajuste fino. Também introduzimos o JumpScore, um benchmark de localização temporal voltado para ancoragem de granulação fina em movimentos de alta frequência e repetição densa, um regime sub-representado pelas avaliações de vídeo existentes. Uma capacidade de destaque do LLaVA-OV-2 é sua percepção unificada entre compreensão de vídeo, ancoragem temporal, ancoragem espacial e raciocínio de traço de manipulação. No JumpScore, o LLaVA-OneVision-2-8B atinge 74,9 mAP no JumpScore, superando o Qwen3-VL-8B (30,1) em +44,8 pontos; sob orçamentos equivalentes de tokens visuais no mesmo benchmark, as entradas de fluxo de codec melhoram a ancoragem temporal em relação à amostragem de quadros em +9,7 pontos. Em benchmarks padrão, o LLaVA-OneVision-2-8B supera ainda o Qwen3-VL-8B em +4,3 pontos médios em tarefas de vídeo, +5,3 em tarefas espaciais e +15,6 J&F médio em tarefas de rastreamento.

Desprezível em Tamanho, Significativo em Efeito: Sobre Vetores de Escala em Grandes Modelos de Linguagem
Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models

May 26

ByMingze Wang, Shuchen Zhu, Yuxin Fang, Binghui Li, Kai Shen, Shu Zhong

As camadas de normalização em grandes modelos de linguagem modernos (LLMs) consistem em uma operação de normalização determinística e um vetor de escala aprendível. Embora a operação de normalização tenha sido extensivamente estudada, o vetor de escala permanece pouco compreendido, apesar de seu uso ubíquo. Neste trabalho, apresentamos um estudo sistemático dos vetores de escala em LLMs sob as perspectivas de expressividade, otimização e estrutura arquitetural. Primeiro, mostramos empiricamente que, embora os vetores de escala constituam apenas uma fração insignificante dos parâmetros do modelo, removê-los degrada substancialmente o pré-treinamento de LLMs. Nossa teoria mostra ainda que, em arquiteturas Pré-Norm, os vetores de escala não aumentam a expressividade; em vez disso, eles melhoram a otimização por meio de um efeito de pré-condicionamento autoamplificador nos mapeamentos lineares subsequentes. Segundo, investigamos o papel do decaimento de peso para vetores de escala. Ao distinguir camadas Input-Norm e Output-Norm, mostramos teoricamente que o decaimento de peso é benéfico para as primeiras, mas prejudicial para as últimas, devido aos seus papéis distintos na otimização e expressividade. Terceiro, motivados por esse entendimento, propomos três melhorias leves e complementares para vetores de escala: heterogeneidade específica de ramificação, posicionamento aprimorado em torno de mapeamentos lineares e reparametrização de magnitude-direção. Tanto a teoria quanto os experimentos mostram que cada melhoria produz ganhos consistentes. Finalmente, combinamos essas melhorias em uma estratégia unificada de vetor de escala e a avaliamos por meio de extensos experimentos de pré-treinamento de LLMs em modelos densos e de mistura de especialistas, variando de 0,12B a 2B parâmetros, com múltiplos otimizadores e cronogramas de taxa de aprendizado, sob orçamentos de tokens em escala industrial. A estratégia unificada atinge consistentemente uma perda terminal menor do que as linhas de base bem ajustadas e exibe um comportamento de escalonamento mais favorável, ao mesmo tempo que adiciona uma sobrecarga insignificante de parâmetros e computação.

Repensando a Representação de VLM para Inicialização de VLA
Rethinking VLM Representation for VLA Initialization

May 25

ByWeifeng Lin, Siyuan Huang, Hao Li, Tingwei Chen, Ruichuan An, Xinyu Wei, Jianbo Liu, Hongsheng Li

Modelos Visão-Linguagem-Ação (VLA) adotam amplamente Modelos Visão-Linguagem (VLMs) pré-treinados como espinhas dorsais de políticas, mas ainda não está claro que tipo de representação VLM pré-treinada é útil como inicialização VLA. Neste artigo, estudamos a inicialização VLA como um problema controlado de design de representação ao longo de três eixos: supervisão de VQA incorporada em nível de capacidade, estratégia de atualização de parâmetros e pré-treinamento com dados robóticos. Nossos experimentos mostram que a representação VLM pré-treinada original é uma fonte chave de desempenho em ações. No entanto, a adaptação VQA incorporada não produz ganhos uniformes: seu benefício depende de gargalos downstream, e os ganhos de diferentes domínios de capacidade não são simplesmente aditivos. Para a estratégia de atualização, LoRA fornece uma inicialização mais confiável do que o Fine-Tuning Completo, indicando que remodelar excessivamente a representação pré-treinada pode enfraquecer a inicialização VLA. O pré-treinamento com dados robóticos melhora ainda mais a inicialização VLA, com a variante mais forte obtida por treinamento baseado em LoRA em estágios. Juntos, esses achados sugerem que a adaptação eficaz de VLM para VLA deve injetar sinais incorporados e de trajetória robótica relevantes para a ação, preservando ao mesmo tempo a representação VLM pré-treinada que permanece útil para o aprendizado de ações.

JLT: Predição de Latentes Limpos em Transformers de Difusão Latente
JLT: Clean-Latent Prediction in Latent Diffusion Transformers

May 26

ByFuning Fu, Tenghui Wang, Junyong Cen, Qichao Zhu, Guanyu Zhou

A correspondência de fluxo com predição de dados limpos demonstrou que regredir o ponto limpo explora a estrutura de baixa dimensão de forma mais eficaz do que prever uma quantidade ruidosa ambiente. Investigamos se esse princípio permanece útil após as imagens serem mapeadas para um espaço latente aprendido, onde a compressão já removeu grande parte da variabilidade bruta dos pixels. Apresentamos o JLT, um Transformer de difusão latente de 130M sobre códigos VAE FLUX.2 congelados, e comparamos a predição de latente limpo com um DiT de predição de velocidade correspondente, sob a mesma representação, arquitetura principal e configurações de treinamento. Embora as três variáveis x, epsilon e v sejam linearmente conversíveis para um tempo de corrupção fixo, uma análise gaussiana local mostra que a regressão de velocidade herda um piso isotrópico de covariância alvo e amplifica direções latentes de baixa variância, enquanto a predição limpa as atenua. No ImageNet 256x256, o JLT-B/1 obtém FID-50K 2,50 com orientação livre de classificador, apresentando uma grande diferença de alvo correspondente em relação à predição de velocidade. Esses resultados sugerem que os alvos de predição em difusão latente são escolhas geométricas dependentes da representação, e não parametrizações algébricas intercambiáveis.

Aprendizagem por Reforço Agentiva Eficiente com Aprimoramento da Fronteira de Conhecimento Intrínseco On-Policy
Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement

May 26

ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang

O aprendizado por reforço agentivo (RL) tem se mostrado eficaz para treinar agentes baseados em LLMs com capacidade de uso externo de ferramentas. No entanto, identificamos que o treinamento RL agentivo induz chamadas redundantes crescentes de ferramentas e desfoca o limite intrínseco de conhecimento do modelo, onde o modelo falha em distinguir quando ferramentas são necessárias versus quando o conhecimento paramétrico é suficiente. Soluções existentes baseadas em modelagem de recompensa criam alvos de otimização de granularidade grossa que tendem a incentivar a supressão indiscriminada de chamadas de ferramentas, levando à manipulação de recompensa. Neste artigo, propomos o AKBE (Agentic Knowledge Boundary Enhancement), um método on-policy que sonda dinamicamente o limite intrínseco de conhecimento do modelo através de rollouts de caminho duplo (com e sem ferramenta) durante o treinamento. Definimos o limite de conhecimento como a determinação por instância da necessidade de ferramentas e o número mínimo de chamadas de ferramenta necessárias. Ao comparar a correção entre os caminhos, o AKBE categoriza trajetórias e constrói sinais de supervisão direcionados que orientam padrões eficientes de uso de ferramentas para cada pergunta. Esses sinais são integrados perfeitamente ao loop de treinamento RL agentivo. Experimentos em sete benchmarks de QA demonstram que o AKBE melhora a precisão da tarefa em +1,85 em média e reduz chamadas de ferramenta em 18% em relação ao RL agentivo padrão, resultando em 25% maior produtividade de ferramentas sem qualquer trade-off entre precisão e eficiência. Análises adicionais sugerem sua compatibilidade plug-and-play com diferentes algoritmos de RL e o mecanismo de cada categoria de sinal. Nosso código está disponível em https://github.com/CuSO4-Chen/AKBE.

MUSE-Autoskill: Agentes Auto-Evolutivos via Criação de Habilidades, Memória, Gerenciamento e Avaliação
MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

May 26

ByHuawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

Agentes baseados em grandes modelos de linguagem (LLMs) dependem de habilidades reutilizáveis para resolver tarefas complexas. No entanto, as abordagens existentes para criação de habilidades tratam-nas como artefatos isolados e estáticos, limitando sua reutilização, confiabilidade e aprimoramento contínuo. Propomos o MUSE-Autoskill Agent (Agente de Evolução de Habilidades com Utilização de Memória), uma estrutura centrada em habilidades que permite aos agentes melhorar continuamente sua capacidade de resolução de tarefas por meio da criação, reutilização e refinamento de habilidades sob um ciclo de vida unificado (criação, memória, gerenciamento, avaliação e refinamento). Nossa estrutura capacita os agentes a criar habilidades sob demanda, armazená-las e reutilizá-las entre tarefas, organizá-las e selecioná-las de forma eficiente, além de avaliá-las por meio de testes unitários e feedback em tempo de execução para refinamento contínuo. Introduzimos também a memória em nível de habilidade, que acumula experiência para cada habilidade ao longo das tarefas, possibilitando reutilização e adaptação mais eficazes ao longo do tempo. Experimentos no SkillsBench fornecem evidências iniciais de que habilidades gerenciadas por ciclo de vida podem melhorar o sucesso, a eficiência, a reutilização e a transferência entre agentes, destacando a importância de tratar as habilidades como ativos duradouros, conscientes de experiência e testáveis.

QUACK: Questionamento, Compreensão e Auditoria de Conhecimento Comunicado em Agentes Multimodais de Dedução Social
QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents

May 26

ByYe Yuan, Rui Song, Weien Li, Zeyu Li, Haochen Liu, Xiangyu Kong, Changjiang Han, Yonghan Yang, Zichen Zhao, Zixuan Dong, Fuyuan Lyu, Bowei He, Haolun Wu, Jikun Kang, Xue Liu

Jogos de dedução social tornaram-se um campo de teste popular para investigar raciocínio, engano, coordenação e modelagem de crenças em agentes baseados em Modelos de Linguagem Grande (LLMs). No entanto, a maioria dos ambientes é avaliada apenas por resultados de jogo, como taxas de vitória, e permanece majoritariamente restrita a interação textual, dificultando a determinação se a linguagem de um agente está de fato ancorada no que ele percebeu e fez, ou a identificação dos modos de falha subjacentes ao seu comportamento. Para suprir essa lacuna, apresentamos QUACK, um ambiente e framework de avaliação de código aberto para auditar a ancoragem da linguagem dos agentes no raciocínio social multimodal. O QUACK avalia agentes em três níveis: resultados de jogo, trajetórias comportamentais e consistência no nível das falas. Seu núcleo, o Pipeline de Verificação de Afirmações, reconstrói a trajetória real de cada agente a partir dos logs do motor e verifica cada alegação feita em discussão, sinalizando automaticamente alucinação espacial, acusação sem fundamento, colapso do engano e inconsistência entre linguagem e ação. Ao avaliar três VLMs de ponta em configurações adversariais homogêneas e com modelos diferentes, constatamos que mesmo o agente mais forte alucina 15,1% de suas afirmações espaciais verificáveis e faz mais da metade de suas acusações sem evidências fundamentadas. Disponibilizamos o motor completo, o framework de avaliação, as ferramentas e os logs em https://github.com/AAAAA-Academia-Attractions/QUACK.

Ver mais significa saber mais? Normalização de Vantagem Mono-Ancorada para Raciocínio Visual de Múltiplas Fontes
Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning

May 25

ByFanhu Zeng, Zhicong Luo, Zefan Wang, You Li, Chi Chen, Maosong Sun

O raciocínio visual por meio de aprendizado por reforço com recompensas verificáveis (RLVR) tem alcançado progressos notáveis. No entanto, ao lidar com entradas de múltiplas fontes, as abordagens existentes tendem a tratá-las como mera acumulação de informações, carecendo de mecanismos explícitos para distinguir se a integração de fontes adicionais resulta em ganho de informação ou introduz interferência. Consequentemente, elas têm dificuldade em modelar eficazmente a interação dinâmica ao integrar múltiplas fontes, particularmente quando estas diferem significativamente em propriedades físicas e semânticas, como no caso de infravermelho e profundidade, levando a um desempenho inferior ao do raciocínio monofonte quando uma determinada fonte contém o sinal dominante. Para abordar esse problema, propomos o MARS, uma nova estrutura de raciocínio multifonte ancorada em uma única fonte que modela cada modalidade visual como uma fonte de informação independente. Especificamente, ao tratar recompensas de fonte única como âncoras dinâmicas, nosso método incorpora explicitamente o ganho de informação introduzido pela fusão multifonte na normalização de vantagens e enfatiza adaptativamente a promoção mútua entre as fontes, ao mesmo tempo que suprime possíveis ruídos ou conflitos durante o RLVR. A partir de uma análise teórica, nosso método quantifica efetivamente o ganho de informação introduzido pela integração multifonte na estimativa de gradientes, permitindo uma regulação consistente das modalidades. Resultados empíricos também mostram ganhos impressionantes de desempenho de 3,2% e 4,9% no GRPO e DAPO, respectivamente, em diversos conjuntos de dados, confirmando a eficácia do nosso método.

VitaBench 2.0: Avaliando Agentes Personalizados e Proativos em Interações de Longo Prazo com Usuários
VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions

May 26

ByYuxin Chen, Yi Zhang, Zhengzhou Cai, Yaorui Shi, Zhiyuan Yao, Chenhang Cui, Jingnan Zheng, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua

Modelos de linguagem de grande porte (LLMs) evoluíram para agentes interativos que colaboram com usuários em tarefas do mundo real. A colaboração eficaz nesses ambientes depende cada vez mais da compreensão do usuário além do que é explicitamente declarado, pois a intenção do usuário é frequentemente refletida em interações diárias fragmentadas e exige tanto modelagem personalizada quanto interação proativa. No entanto, os benchmarks existentes para agentes avaliam principalmente raciocínio e uso de ferramentas, negligenciando em grande parte os desafios de inferir e aproveitar preferências do usuário em cenários realistas. Para preencher essa lacuna, apresentamos o VitaBench 2.0, um benchmark para avaliar o comportamento personalizado e proativo de agentes em interações de longo prazo com usuários. No VitaBench 2.0, as tarefas são organizadas como sequências ordenadas temporalmente para usuários individuais, onde as preferências estão embutidas em interações fragmentadas e heterogêneas. A conclusão bem-sucedida das tarefas exige que o agente extraia, utilize e atualize continuamente as preferências do usuário a partir dessas interações. Além disso, avaliamos a proatividade por meio de tarefas que exigem que os agentes reconheçam informações ausentes e as adquiram ativamente dos usuários ou do ambiente antes de tomar decisões. Para apoiar a análise sistemática, fornecemos uma interface de memória extensível que permite comparação controlada entre diferentes arquiteturas de memória. Comparamos um conjunto diversificado de LLMs proprietários e de código aberto de ponta. Os resultados mostram que a personalização no mundo real continua sendo altamente desafiadora mesmo para modelos de última geração, revelando uma lacuna substancial entre as capacidades atuais e os requisitos práticos. Análises extensas revelam ainda os modos de falha e os gargalos de capacidade dos agentes atuais na tomada de decisão personalizada no mundo real, fornecendo insights para futuras melhorias nos modelos.

Confiança e Calibração de Oráculos de Ativação para Interpretação Confiável dos Internos de Modelos de Linguagem
Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals

May 25

ByFederico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech

Oráculos de ativação visam tornar as ativações de outros modelos legíveis para humanos, apresentando resultados promissores em comparação às técnicas de interpretabilidade de caixa branca. No entanto, a quantificação de incerteza (UQ) para as saídas em linguagem natural desses oráculos de ativação ainda é pouco estudada. Neste trabalho, investigamos 6 métodos diferentes para estimar a confiança de oráculos de ativação e avaliamos o quão bem calibrados estão seus escores de confiança. Nossos experimentos com 6.000 amostras por oráculo (variando verbalizador e prompts de contexto) revelam que a frequência do modo bootstrap é o método melhor calibrado entre os testados (ECE 5,7% vs. 25,5% para a log-probabilidade da palavra-resposta no Qwen3-8B; 10,3% vs. 13,1% no Qwen3.6-27B), e que a linha de base log-prob pode servir como um sinal de triagem rápido a uma fração do custo. O código e o treinador corrigido estão disponíveis em https://github.com/federicotorrielli/probabilistic_activation_oracles.

Além das Respostas Finais: Auditando Alucinações em Nível de Trajetória em Fluxos de Trabalho Industriais Multiagente
Beyond Final Answers: Auditing Trajectory-Level Hallucinations in Multi-Agent Industrial Workflows

May 26

ByHarshada Badave, Santosh Borse, Andrea Gomez, Harshitha Narahari, Sara Carter, Vishwa Bhatt, Aishani Rachakonda, Shuxin Lin, Dhaval Patel

Modelos de Linguagem de Grande Porte (LLMs) estão cada vez mais sendo implantados como agentes autônomos que raciocinam, utilizam ferramentas e agem em múltiplas etapas. No entanto, a maioria dos benchmarks de alucinação ainda avalia apenas a saída final, ignorando falhas que se originam nas etapas intermediárias de Pensamento-Ação-Observação. Apresentamos Trajel, um conjunto de dados e uma estrutura de avaliação para auditar alucinações em nível de trajetória em fluxos de trabalho industriais multiagente. Trajel introduz uma taxonomia de alucinação de cinco tipos (factual, referencial, lógica, procedural e baseada em escopo) sobre traços de agentes anotados por especialistas do AssetOpsBench. Avaliamos modelos de detecção supervisionados nos níveis de subtarefa, trajetória e contexto longo. Nossos resultados mostram que os modos de falha mais comuns são ignorados pelos benchmarks existentes, que quase metade das trajetórias alucinadas envolve múltiplos tipos simultaneamente, e que detectores automatizados com alta precisão binária ainda classificam erroneamente os tipos mais sutis. A detecção ciente de trajetória supera significativamente a verificação post-hoc padrão, tornando a avaliação fundamentada em taxonomia necessária para uma implantação mais segura de agentes.

DarkForest: Menos Conversa, Maior Precisão para LLMs Multiagente
DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs

May 24

ByYi Li, Songtao Wei, Dongming Jiang, Zhichun Guo, Qiannan Li, Bingzhe Li

Sistemas multiagente com LLMs melhoram o raciocínio ao combinar saídas de múltiplos agentes, mas métodos com alta interação podem introduzir propagação de erros e grande sobrecarga de comunicação. Quando os agentes trocam respostas brutas ou traços de raciocínio, raciocínios intermediários incorretos podem ser adotados e amplificados, levando a um consenso confiante, mas errado; a comunicação em múltiplas rodadas também aumenta o consumo de tokens, a latência e o custo de inferência. Neste artigo, propomos um arcabouço de coordenação com comunicação controlada chamado DarkForest. O DarkForest primeiro mantém os agentes independentes, de modo que cada agente produza uma resposta sem ver as saídas dos outros. Em seguida, ele analisa as respostas brutas em registros de candidatos estruturados, agrupa candidatos semanticamente equivalentes em clusters e estima uma distribuição de crenças calibrada sobre esses clusters usando confiabilidade do agente, confiança, qualidade da análise, confiabilidade do padrão de suporte e correções de independência. Um coordenador recebe apenas evidências permitidas pela política desse estado de crença, com comunicação controlada. Experimentos em seis referências de raciocínio mostram que o DarkForest alcança qualidade global líder, melhora a melhor linha de base em até 30,7% nas métricas de referência e reduz o consumo de tokens em até 6,5 vezes em comparação com linhas de base com alta comunicação.

MobileMoE: Escalonamento de Mistura de Especialistas em Dispositivo
MobileMoE: Scaling On-Device Mixture of Experts

May 26

ByYanbei Chen, Hanxian Huang, Ernie Chang, Jacob Szwejbka, Digant Desai, Zechun Liu, Vikas Chandra, Raghuraman Krishnamoorthi

Mistura de Especialistas (MoE) tornou-se a arquitetura de fato para modelos de linguagem com centenas de bilhões de parâmetros, porém suas vantagens em escalas sub-bilionárias para implantação em dispositivos permanecem amplamente inexploradas. Para preencher essa lacuna, apresentamos o MobileMoE, uma família de modelos de linguagem MoE para dispositivos com parâmetros ativos sub-bilionários (0,3-0,9B ativos e 1,3-5,3B totais) que estabelece uma nova fronteira de Pareto para LLMs em dispositivos. Primeiramente, formulamos uma lei de escalonamento MoE para dispositivos que otimiza conjuntamente a arquitetura MoE sob restrições de memória e computação móveis, identificando um ponto ideal para dispositivos — esparsidade moderada com especialistas refinados e compartilhados — que é simultaneamente ótimo em memória e computação. Com base nas arquiteturas derivadas, treinamos o MobileMoE com um roteiro de quatro etapas que abrange pré-treinamento, treinamento intermediário, ajuste fino por instruções e treinamento ciente de quantização, todos em conjuntos de dados de código aberto. Em 14 benchmarks, o MobileMoE iguala ou supera os principais LLMs densos para dispositivos com 2 a 4 vezes menos FLOPs de inferência, e iguala ou supera o estado da arte MoE OLMoE-1B-7B com até 60% menos parâmetros. Para preencher a última milha rumo à implantação em dispositivos móveis, fornecemos a primeira inferência MoE eficiente em smartphones comerciais com perfilamento abrangente em dispositivos. Com memória INT4 comparável para pesos, o MobileMoE-S oferece preenchimento 1,8 a 3,8 vezes mais rápido e decodificação 2,2 a 3,4 vezes mais rápida do que a linha de base densa MobileLLM-Pro.

Extraindo Capacidade de Modelos de Linguagem Grandes Multimodais para Geração Orientada por Sujeito
Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation

May 25

ByShuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

A geração de imagens orientada por sujeito visa sintetizar novas imagens que preservem a identidade do sujeito fornecido, seguindo instruções textuais. Abordagens existentes frequentemente codificam texto e imagens de referência separadamente, o que limita a capacidade de raciocínio multimodal e causa artefatos de copiar-colar. Estruturas recentes que conectam modelos multimodais e modelos de difusão melhoram o seguimento de instruções, mas negligenciam em grande parte a preservação de identidade. Para lidar com essas limitações, condicionamos modelos de difusão a Modelos de Linguagem Grande Multimodais (MLLMs) que codificam conjuntamente texto e imagens de referência, e os aumentamos com condicionamento de identidade baseado em VAE. Um novo módulo de Agregação de Dupla Camada (DLA) é projetado para agregar características MLLM de múltiplos níveis para condicionamento ideal, e uma estratégia de remoção de ruído em múltiplos estágios é aplicada para equilibrar progressivamente as informações semânticas do MLLM e os detalhes finos de identidade do VAE durante a inferência. Experimentos extensos demonstram que nossa abordagem harmoniza a compreensão multimodal com a preservação de identidade, mitiga problemas de copiar-colar e alcança desempenho superior em relação à preferência humana na geração de imagens orientada por sujeito. Nosso site do projeto está disponível em https://zsh2000.github.io/squeeze-mllm-subject-gen/.

Gemini Embedding 2: Um Modelo de Embedding Multimodal Nativo do Gemini
Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

May 26

ByMadhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Ábrego, Shih-Cheng Huang, Aashi Jain, Daniel Salz, Sonam Goenka, Chaitra Hegde, Ji Ma, Feiyang Chen, Jiaxing Wu, Tanmaya Dabral, Babak Samari, Kevin Poulet, Daniel Cer, Kaifeng Chen, Paul Suganathan, Hui Hui, Jovan Andonov, Philippe Schlattner, Jay Han, Iftekhar Naim, Wing Lowe, Vladimir Pchelin, Albert Yang, Yi-Ting Chen, Zhongli Ding, Grace Zhang, Georg Heigold, Yichang Chen, Antoine Reveillon, Brendan Mccloskey, Wenlei Zhou, Dahun Kim, Rui Meng, Emma Wang, Jack Zheng, Halley Fede, Zhen Yang, Keegan Mosley, Brian Potetz, Sahil Dua, Henrique Schechter Vera, Shen Gao, Hesen Zhang, Andreas Hess, Hengxuan Ying, Alberto Montes, Karan Gill, Min Choi, Sebastian Russo, Anja Hauth, Jinhyuk Lee, Michael Boratko, Megan Barnes, Vikram Rao, Claudiu Musat, Cyril Allauzen, Ehsan Variani, Shankar Kumar, Tom Bagby, Junyi Jiao, Yang Gu, Tengxin Li, Ayush Agrawal, Roberto Santana, Dev Nath, Stephen Karukas, Shuoxuan Han, Lucia Loher, Alice Twu, Nidhi Vyas, Siddharth Bhai, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Jizheng Yang, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sascha Rothe, Sean Nakamoto, Raphael Hoffmann, Zach Gleicher, Yunhsuan Sung, Qin Yin, Tom Duerig, Mojtaba Seyedhosseini

Apresentamos o Gemini Embedding 2, um modelo de embedding multimodal nativo que permite representar modalidades de vídeo, áudio, imagem e texto em um espaço de representação unificado. Aproveitamos as capacidades multimodais do Gemini para produzir embeddings para combinações arbitrárias de entradas intercaladas em todas essas modalidades, que generalizam bem em uma ampla variedade de tarefas. Ao aplicar aprendizado contrastivo em larga escala em um regime de treinamento multiestágio e multitarefa, alcançamos desempenho de estado da arte nos principais benchmarks de embedding, incluindo recuperação unimodal, multimodal e multimodal, abrangendo um conjunto diversificado de tarefas. Mostramos que nosso modelo de embedding apresenta forte desempenho (com pontuação de 62,9 R@1 no MSCOCO, 68,8 NDCG@10 no Vatex, 69,9 no MTEB multilíngue e 84,0 no MTEB Code) em uma variedade de tarefas, superando o desempenho de modelos especializados. Essas capacidades unificadas tornam o Gemini Embedding 2 um candidato promissor para casos de uso downstream, como RAG, recomendação e busca. Além disso, seu desempenho robusto em zero-shot em áreas distintas — da astronomia e biociência às belas-artes e artes culinárias — estabelece-o como uma representação confiável, pronta para uso, mesmo para domínios especializados.

Aprendendo a Agir sob Ruído: Melhorando a Robustez do Agente por meio de Ambientes Ruidosos
Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments

May 26

ByYuxin Chen, Xiaodong Cai, Junfeng Fang, Zhuowen Han, Yu Wang, Yaorui Shi, Yi Zhang, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua

Avanços recentes em modelos de linguagem de grande escala (LLMs) facilitaram a ampla implementação de LLMs como agentes interativos capazes de raciocínio, planejamento e uso de ferramentas. Apesar do desempenho robusto em referenciais (benchmarks) existentes, esses agentes frequentemente exibem degradação notável quando implantados em ambientes reais, onde os cenários são inerentemente estocásticos e imperfeitos. Argumentamos que essa discrepância decorre de uma incompatibilidade fundamental entre as configurações idealizadas de treinamento e as dinâmicas de interação do mundo real, onde os paradigmas atuais dependem de instruções de tarefa cuidadosamente curadas e ambientes estáveis e bem controlados. Para preencher essa lacuna, propomos o NoisyAgent, uma estrutura de treinamento agentivo que incorpora explicitamente as imperfeições ambientais no processo de aprendizado do agente. Identificamos duas fontes principais de ruído de interação em cenários reais: o ruído do usuário, que captura ambiguidade e variabilidade na interação com o usuário, e o ruído da ferramenta, que reflete falhas e anomalias na execução de ferramentas. Introduzimos tais perturbações no pipeline de treinamento modificando os padrões de interação do usuário e simulando os resultados da execução de ferramentas no ambiente de treinamento. Para estabilizar o treinamento e, ao mesmo tempo, incentivar os agentes a lidarem com imperfeições cada vez mais desafiadoras, o ruído é aplicado apenas a um subconjunto de trajetórias (rollouts) e sua dificuldade é aumentada progressivamente à medida que o modelo se adapta ao nível atual de ruído. Experimentos extensos demonstram que nossa abordagem melhora consistentemente a robustez do agente em ambientes ruidosos e dinâmicos. Nossa análise revela que o treinamento sob condições de ruído também produz ganhos de desempenho em referenciais idealizados, sugerindo que a exposição controlada ao ruído ambiental promove comportamentos de raciocínio e tomada de decisão mais generalizáveis. Nossos achados destacam a importância de modelar imperfeições de interação para superar a lacuna entre o treinamento de agentes e a implantação no mundo real.

FastKernels: Benchmarking de Geração de Kernels GPU em Produção
FastKernels: Benchmarking GPU Kernel Generation in Production

May 22

ByGabriele Oliaro, Yichao Fu, May Jiang, Owen Lu, Junli Wang, Zhihao Jia, Hao Zhang, Samyam Rajbhandari

Agentes baseados em LLM para geração de kernels de GPU estão avançando rapidamente, porém seu progresso é fundamentalmente limitado pelos benchmarks que otimizam. Os benchmarks atuais estão mal alinhados com frameworks de inferência em produção: avaliam kernels em uma única GPU com entradas sintéticas, ignoram a pilha de compilação circundante e recompensam a replicação de otimizações conhecidas em vez da descoberta de novas. Os sinais de recompensa resultantes são enganosos: os agentes aprendem a gerar kernels que pontuam bem em ambientes isolados, mas introduzem incompatibilidades de interface, conflitos na pilha de compilação e degradação silenciosa de corretude ao serem integrados em sistemas reais. Apresentamos o FastKernels, um benchmark de kernels construído em torno de um conjunto mínimo de 46 arquiteturas representativas abrangendo 8 categorias, cujos kernels coletivamente subsomem 96,2% (409/425) das arquiteturas do HuggingFace Transformers. O FastKernels também funciona como um framework de inferência minimalista de nível de produção que opera em paridade com sistemas consolidados como vLLM e SGLang na execução mainstream de LLMs e supera substancialmente as referências upstream em arquiteturas menos atendidas; a interface de cada tarefa espelha o módulo correspondente na biblioteca de última geração de sua família de arquitetura, permitindo a implantação direta de kernels otimizados em bases de código de produção. Avaliando agentes de kernels de última geração no FastKernels, constatamos que mesmo o agente mais forte atinge apenas um ganho agregado de 0,94 vezes em relação às linhas de base de produção, com agentes mais fracos em 0,78 e 0,53 vezes — confirmando que o desalinhamento entre benchmark e produção é um gargalo crítico para a área. Lançamos o FastKernels como um trampolim para agentes de kernels cujos ganhos em benchmark se traduzam diretamente em melhorias de throughput em produção. O código está disponível em https://github.com/Snowflake-AI-Research/fastkernels

ZeroUnlearn: Desaprendizagem de Conhecimento com Poucos Exemplos em Grandes Modelos de Linguagem
ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models

May 20

ByYujie Lin, Chengyi Yang, Zhishang Xiang, Yiping Song, Jinsong Su

Grandes modelos de linguagem inevitavelmente retêm informações sensíveis, definidas como entradas que podem induzir gerações prejudiciais, devido ao treinamento em vastos corpora da web, gerando preocupações quanto à privacidade e segurança. Métodos existentes de desaprendizado de máquina dependem principalmente de retreinamento ou ajuste fino agressivo, que são computacionalmente caros ou propensos a degradar o conhecimento relacionado e a utilidade geral do modelo. Neste trabalho, reformulamos o desaprendizado de máquina como um problema preciso de re-mapeamento de conhecimento por meio da edição de modelos. Propomos o ZeroUnlearn, uma estrutura de desaprendizado com poucos exemplos. Ele sobrescreve entradas sensíveis mapeando-as para um estado alvo neutro e removendo suas representações originais. O ZeroUnlearn impõe ortogonalidade representacional por meio de uma atualização multiplicativa de parâmetros com solução de forma fechada, permitindo um desaprendizado eficiente e direcionado. Estendemos ainda o ZeroUnlearn para uma variante baseada em gradiente para desaprendizado multi-amostra. Experimentos demonstram que nossa abordagem supera as linhas de base existentes, preservando a utilidade geral do modelo. Nosso código está disponível no github: https://github.com/XMUDeepLIT/ZeroUnlearn.

SAM: Memória Adaptativa de Estado para Agente de Raciocínio de Longo Horizonte
SAM: State-Adaptive Memory for Long-Horizon Reasoning Agent

May 23

ByYuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Ziliang Zhao, Jiejun Tan, Zheng Liu, Zhicheng Dou

Raciocínio agêntico de longo horizonte exige que modelos de linguagem de grande escala ajam ao longo de históricos de interação extensos, contendo pensamentos, chamadas de ferramentas, observações e conclusões parciais. O desafio não está apenas no crescimento desses históricos, mas no fato de que informações necessárias para a decisão atual podem estar dispersas por etapas distantes e só se tornar relevantes posteriormente. Abordagens existentes lidam com essa dificuldade truncando o histórico de interação, comprimindo-o em substitutos mais curtos ou recuperando partes selecionadas para reutilização, mas não modelam explicitamente como o acesso às interações passadas deve se adaptar ao estado evolutivo do agente. Em vez disso, tratamos o raciocínio de longo horizonte como um problema de memória adaptativa ao estado. Para tal, propomos a Memória Adaptativa ao Estado~(SAM, do inglês *State-Adaptive Memory*), um framework independente que consolida a interação contínua em pistas de memória compactas, preservando simultaneamente páginas brutas de trajetória para recuperação orientada por intenção. Essas pistas não são tratadas como substitutas do histórico; servem, em vez disso, como identificadores leves que permitem ao agente reconstruir informações temporalmente distantes de acordo com suas necessidades atuais, sem a necessidade de retreinar o arcabouço subjacente. Otimizamos adicionalmente o módulo de memória por meio de supervisão guiada por especialistas e aprendizado por reforço, alinhando-o à utilidade em nível de trajetória. Nos benchmarks BrowseComp, BrowseComp-ZH, WideSearch e HLE, o SAM supera consistentemente linhas de base fortes em diversos backbones de agentes. Nossos resultados sugerem que a modelagem explícita de memória fornece uma base simples e eficaz para o raciocínio agêntico de longo horizonte.

MRT: Transformer de Região Mascarada para Geração e Edição de Imagens em Camadas em Grande Escala
MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

May 26

ByZhicong Tang, Zhao Zhang, Jingye Chen, Mohan Zhou, Yifan Pu, Yuchi Liu, Yalong Bai, Ethan Smith, Yuhui Yuan

A geração e edição de imagens em camadas é uma capacidade fundamental que permite a reutilização, edição e composição de conteúdo visual gerado em camadas, de forma análoga à edição em nível de palavras na linguagem natural. Apesar de sua importância, essa área ainda é pouco explorada em larga escala. Para preencher essa lacuna, apresentamos o MRT, um modelo de difusão de região mascarada com 20 bilhões de parâmetros, projetado para geração e edição de imagens transparentes multicamadas, treinado em mais de 10 milhões de amostras de design multilíngue, abrangendo variadas proporções de aspecto e prompts textuais. Para aproveitar plenamente essa escala, fazemos duas contribuições técnicas principais. Primeiro, unificamos três tarefas complementares — texto para camadas, imagem para camadas e camadas para camadas — dentro de um framework compartilhado de difusão de região mascarada, onde o mascaramento seletivo de tokens permite geração e edição flexíveis em nível de camadas. Segundo, para possibilitar a geração de camadas de estouro (overflow), introduzimos uma camada de tela (canvas layer) ciente de estouro, que lida com inconsistências de borda e suporta síntese de fundo semitransparente, permitindo camadas editáveis completas que se estendem além dos limites visíveis da tela. Além disso, aplicamos destilação de difusão para alcançar geração multicamadas em tempo real com 8 passos, mantendo degradação mínima de qualidade. Experimentos extensivos demonstram que nosso framework supera significativamente abordagens anteriores de última geração, incluindo vários sistemas comerciais, em todas as três tarefas, estabelecendo um novo padrão para geração de imagens transparentes multicamadas. Notavelmente, nosso modelo supera substancialmente o modelo concorrente Qwen-Image-Layered na qualidade de imagem para camadas, de acordo com resultados de estudos de usuários, enquanto alcança inferência 10-100 vezes mais rápida e reduz o consumo de memória GPU ativa em 50-90% durante a inferência de imagem para camada.

RT-Lynx: Colocando a Esparsidade GEMM da Maneira Correta para Modelos de Difusão
RT-Lynx: Putting the GEMM Sparsity In a Right Way for Diffusion Models

May 26

ByXing Cong, Hanlin Tang, Kan Liu, Lan Tao, Lin Qu, Chenhao Xie

Transformadores de Difusão (DiT) alcançam desempenho robusto na geração de imagens, mas incorrem em custos substanciais de inferência. Embora trabalhos anteriores tenham reduzido esse custo por meio de quantização e destilação, a esparsidade semi-estruturada, que pode reduzir quase pela metade os FLOPs, permanece pouco explorada. Uma razão principal é que a maioria das abordagens existentes foca na esparsificação de pesos, e podar 50% dos pesos pode remover capacidade crítica do modelo e degradar a qualidade da geração. Nosso estudo, no entanto, mostra que as ativações do DiT são intrinsecamente esparsas e significativamente mais robustas à esparsificação semi-estruturada N:M do que os pesos. Motivados por essa observação, defendemos uma mudança de paradigma da esparsificação de pesos para a esparsificação de ativações. Propomos o RT-Lynx, que aplica esparsificação N:M às ativações e incorpora técnicas de compensação de erro para mitigar a perda de precisão. Além disso, implementamos kernels CUDA altamente otimizados adaptados a essa configuração, alcançando uma aceleração de até 1,55x em média nas camadas lineares. Extensos experimentos em múltiplos modelos de difusão demonstram que nosso método preserva a qualidade de geração dos modelos originais enquanto acelera substancialmente a inferência.

CLEAR Agentivo: Automatizando a Avaliação em Múltiplos Níveis de Agentes de LLM
Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents

May 21

ByAsaf Yehudai, Lilach Eden, Michal Shmueli-Scheuer

Os sistemas agentivos estão se tornando mais capazes: agentes definem estratégias, tomam ações e interagem com diferentes ambientes. Essa autonomia impõe sérios desafios para a supervisão e avaliação do comportamento dos agentes. A maioria das ferramentas atuais é limitada, focando na observabilidade com capacidades básicas de avaliação ou impondo taxonomias estáticas e artesanais de erros que não conseguem se adaptar a novos domínios. Para preencher essa lacuna, apresentamos o Agentic CLEAR, um framework de avaliação automático, dinâmico e fácil de usar. Ele produz insights textuais sobre o comportamento do agente em três níveis de granularidade: sistema, traço e nó. O Agentic CLEAR opera acima da camada de observabilidade, permitindo integração perfeita e contando com uma interface de usuário intuitiva que torna a avaliação do agente altamente acessível. Em nossos experimentos com quatro benchmarks, sete configurações agentivas e dezenas de milhares de chamadas de LLM, mostramos que o Agentic CLEAR produz feedback de alta qualidade, orientado por dados e perspicaz. Nossa análise demonstra forte alinhamento com erros anotados por humanos e a capacidade de prever a taxa de sucesso das tarefas.

Compreendendo o Impacto da Temporalidade dos Dados no Pré-treinamento de Grandes Modelos de Linguagem
Understanding Data Temporality Impact on Large Language Models Pre-training

May 21

ByPilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard

Modelos de linguagem de grande escala (LLMs) são geralmente treinados em corpora embaralhados, resultando em modelos cujo conhecimento é congelado no momento do treinamento e cuja ancoragem temporal permanece pouco compreendida. Neste trabalho, estudamos o impacto da dinâmica de pré-treinamento na aquisição de conhecimento factual sensível ao tempo, com foco específico na ordenação dos dados. Nossas principais contribuições são duas. Primeiro, introduzimos um benchmark abrangente de mais de 7.000 perguntas ancoradas temporalmente e um protocolo de avaliação que permite analisar se os modelos associam corretamente os fatos aos seus períodos de tempo correspondentes. Segundo, pré-treinamos modelos de 6 bilhões de parâmetros em instantâneos temporalmente ordenados do Common Crawl e os comparamos com o pré-treinamento embaralhado padrão. Nossos resultados mostram que modelos treinados sequencialmente equivalem às baselines embaralhadas em compreensão geral da linguagem e conhecimento comum, ao mesmo tempo que exibem consistentemente um conhecimento mais atualizado e temporalmente preciso. O pré-treinamento temporalmente ordenado resulta em frescor factual aprimorado, enquanto o pré-treinamento embaralhado atinge pico em dados mais antigos, possivelmente devido ao aumento da repetição factual. Essas descobertas, juntamente com a disponibilização de nosso código em https://github.com/kyutai-labs/kairos , checkpoints e conjuntos de dados em https://huggingface.co/collections/kyutai/kairos , fornecem uma base para pesquisas futuras sobre aprendizado contínuo para LLMs.

Os LLMs Podem Fazer Introspecção? Um Teste de Realidade
Can LLMs Introspect? A Reality Check

May 25

ByShashwat Singh, Tal Linzen, Shauli Ravfogel

Modelos de linguagem de grande escala podem detectar e relatar seus próprios estados internos? Diversos estudos argumentam que a resposta a esta pergunta é sim. Nós argumentamos, com base em lições da pesquisa em metacognição humana, que essa conclusão pode ser prematura: para nos convencermos dessa conclusão, precisamos distinguir introspecção genuína de correspondência de padrões baseada em pistas superficiais. Além disso, argumentamos que apenas evidências comportamentais são inerentemente insuficientes para estabelecer afirmações introspectivas robustas. Reexaminamos dois paradigmas de avaliação recentemente introduzidos à luz dessa consideração. No primeiro paradigma, espera-se que os modelos detectem se seus estados internos foram adulterados. Descobrimos que os modelos não conseguem distinguir de forma confiável tais intervenções em seus estados internos de manipulações na entrada, sugerindo que seu sucesso nos estudos originais reflete sua capacidade de detectar anomalias de forma mais geral, em vez de intervenções em seus estados internos em particular. No segundo paradigma examinado, os modelos têm a tarefa de prever rótulos derivados de seus próprios estados ocultos. Aqui, descobrimos que classificadores que têm acesso apenas à entrada alcançam desempenho equivalente às próprias predições do modelo no contexto, indicando que os resultados originais não demonstram de forma conclusiva que o modelo tem acesso privilegiado às suas representações internas. Introduzimos ainda uma condição de controle re-rotulada, na qual os modelos não podem depender da semântica da tarefa para resolvê-la, tendo, em vez disso, que se basear na representação interna; os modelos têm desempenho próximo ao acaso nesta versão melhor controlada da tarefa. Em conjunto, esses resultados indicam que as evidências atuais são insuficientes para estabelecer que os LLMs exibem monitoramento metacognitivo.

NSF-SciFy: Mineração do Banco de Dados de Prêmios da NSF para Alegações Científicas
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

May 25

ByDelip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch

Apresentamos o NSF-SciFy, um conjunto de dados abrangente de alegações científicas e propostas de investigação extraídas de resumos de premiações da National Science Foundation. Embora conjuntos de dados anteriores de verificação de alegações científicas tenham sido limitados em tamanho e escopo, o NSF-SciFy representa um avanço significativo com 2,8 milhões de alegações provenientes de 400.000 resumos abrangendo todas as disciplinas de ciências e matemática. Apresentamos dois subconjuntos focados: NSF-SciFy-MatSci com 114.000 alegações de premiações de ciência dos materiais, e NSF-SciFy-20K com 135.000 alegações em cinco diretorias da NSF. Utilizando prompting zero-shot, desenvolvemos uma abordagem escalável para extração conjunta de alegações científicas e propostas de investigação. Demonstramos a utilidade do conjunto de dados por meio de três tarefas downstream: geração de resumo não técnico, extração de alegações e extração de propostas de investigação. O ajuste fino de modelos de linguagem em nosso conjunto de dados produz melhorias substanciais, com ganhos relativos frequentemente superiores a 100%, particularmente para tarefas de extração de alegações e propostas. Nossa análise de erros revela que as alegações extraídas exibem alta precisão, mas menor revocação, sugerindo oportunidades para refinamento metodológico adicional. O NSF-SciFy possibilita novas direções de pesquisa em verificação de alegações em larga escala, rastreamento de descobertas científicas e análise metacientífica. O código e os dados estão disponíveis em https://github.com/darpa-scify/NSFSciFy.

CroCo: Ajuste de Preferência Contrastivo Interlingual em Autogerações
CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

May 25

ByMike Zhang, Ali Basirat, Desmond Elliott

Trabalhos anteriores estabelecem que a contrastividade controlada entre respostas autogeradas por modelos de linguagem de grande escala, definida por pontuações de recompensa, melhora o ajuste de preferências downstream em inglês. Estendemos este método para múltiplos idiomas e avaliamos dois modelos em um total de 14 línguas de alto e baixo recurso em um conjunto diversificado de tarefas. Nossa principal descoberta é que o ajuste contrastivo de preferências entre línguas em autogerações (CroCo) se transfere sem anotação de preferências específica do idioma. Um modelo de recompensa treinado em preferências em inglês (sobre uma base multilíngue) produz classificações intra-idioma úteis na maioria das línguas, e o pareamento, seja em ambiente monolíngue ou multilíngue, melhora ambos os modelos na maioria das configurações, prevenindo o esquecimento catastrófico do ajuste fino supervisionado. Observamos que os ganhos requerem dados on-policy. Respostas off-policy reduzem o benefício, e a otimização de preferências online não consegue superar a variante offline. Especificamente, em tarefas estruturadas, nosso método corresponde ou supera a base em 6/7 idiomas para o EuroLLM-9B e em 4/7 configurações para o Aya-3B. Na geração aberta, ambos os modelos ajustados vencem suas respectivas bases em 11 idiomas avaliados. No geral, mostramos direções promissoras para o ajuste de preferências multilíngue.

Aprendizagem de Blocos de Ação Contínuos de Alta Frequência no Espaço Latente
Learning High-Frequency Continuous Action Chunks in Latent Space

May 24

ByKunyun Wang, Yuhang Zheng, Yupeng Zheng, Jieru Zhao, Wenchao Ding

Políticas robóticas modernas dependem cada vez mais do agrupamento de ações (action chunking) para executar tarefas complexas no mundo físico. Embora o agrupamento de ações melhore a consistência temporal em frequências moderadas de ação, torna-se insuficiente quando a frequência de ação é ainda mais aumentada (por exemplo, para 60~Hz). Nessas altas frequências, as políticas frequentemente falham em gerar ações que sejam temporalmente suaves e espacialmente consistentes. Abordamos esse desafio deslocando o aprendizado de ações de alta frequência do espaço de ações para um espaço latente com um autoencoder variacional (VAE). Essa formulação melhora significativamente tanto a consistência temporal quanto a espacial do controle em alta frequência. Para permitir uma execução suave em tempo real, introduzimos ainda o Reuse-then-Refine, uma estratégia de refinamento em nível de segmento (chunk) que melhora a continuidade entre segmentos de ação adjacentes sob inferência assíncrona. Como resultado, robôs controlados por nossa política podem executar tarefas complexas com contato intenso de forma contínua, com menos pausas e movimentos bruscos. Experimentos em três tarefas robóticas reais com contato intenso mostram que nossa abordagem completa consistentemente as tarefas com movimentos suaves. Nosso código e dados estão disponíveis em https://github.com/tars-robotics/RTR.

EverAnimate: Animação Humana em Escala de Minutos via Restauração de Fluxo Latente
EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

May 14

ByWuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi

Propomos o EverAnimate, um método eficiente de pós-treinamento para geração de vídeos animados de horizonte longo que preserva a qualidade visual e a identidade do personagem. A animação de longa duração continua desafiadora porque o movimento humano altamente dinâmico precisa ser sintetizado em ambientes relativamente estáticos, tornando a geração baseada em blocos propensa a deriva acumulada: (i) deriva de qualidade de baixo nível, como degradação progressiva de fundos estáticos, e (ii) deriva semântica de alto nível, como identidade inconsistente de personagens e atributos dependentes da visão. Para abordar esse problema, o EverAnimate restaura trajetórias de fluxo desviadas ao ancorar a geração em uma memória de contexto latente persistente, composta por dois mecanismos complementares. (i) A Propagação Latente Persistente mantém uma memória de contexto entre blocos para propagar identidade e movimento no espaço latente, mitigando o esquecimento temporal. (ii) O Casamento de Fluxo Restaurador introduz um objetivo de restauração implícito durante a amostragem por meio do ajuste de velocidade, melhorando a fidelidade intra-bloco. Com apenas um ajuste leve de LoRA, o EverAnimate supera os métodos de animação longa mais avançados tanto em cenários de horizonte curto quanto longo: em 10 segundos, melhora PSNR/SSIM em 8%/7% e reduz LPIPS/FID em 22%/11%; em 90 segundos, os ganhos aumentam para 15%/15% e 32%/27%, respectivamente.

STREAM: Uma Estrutura Centrada em Dados para Mineração de Diálogos de Alto Valor Orientados a Tarefas em Mídias de Streaming
STREAM: A Data-Centric Framework for Mining High-Value Task-Oriented Dialogues from Streaming Media

May 24

ByLiang Xue, Haoyu Liu, Cheng Wang, Pengyu Chen, Haozhuo Zheng, Yang Liu

Modelos de linguagem de grande porte para domínios verticais são limitados pela escassez de diálogos complexos e específicos de domínio orientados a tarefas. Os pipelines existentes de aquisição de dados enfrentam um trilema persistente: a anotação especializada é cara, as conversas reais de serviço são restritas por questões de privacidade e comerciais, e os corpora estáticos rapidamente se tornam temporalmente obsoletos. Propomos o Stream, uma estrutura centrada em dados que aproveita mídias de streaming publicamente disponíveis (transmissões ao vivo e vídeos curtos) para sintetizar diálogos de serviço de alto valor em escala. O Stream extrai sinais autênticos de interação de streams ruidosos e sintetiza conversas integrando a construção de persona baseada em papéis com a construção de Blueprint Conversacional; além disso, adota geração aumentada por recuperação (RAG) para suportar respostas com consciência de conhecimento. Com base no Stream, disponibilizamos o StreamDial, um conjunto de dados multidomínio de grande escala que abrange Automotivo, Restaurante e Hotel. O StreamDial contém 87.498 sessões de diálogo e 1.497.320 turnos no total, com uma média de 17,11 turnos por sessão e escala comparável entre domínios. Cada sessão é organizada como uma quádrupla estruturada ⟨P_u, P_a, B, H⟩ que combina o histórico de diálogo com personas explícitas de usuário/agente e um Blueprint Conversacional, capturando comportamentos realistas de serviço, como mineração de requisitos, conflitos de restrições, negociação e recuperação. Avaliações com juízes automáticos e tarefas subsequentes mostram que o StreamDial melhora a qualidade intrínseca do diálogo em relação a bases de referência robustas, e modelos treinados com StreamDial aprimoram o Rastreamento de Estado do Diálogo em diferentes arquiteturas; relatamos ainda um conjunto completo de avaliação humana e encorajadora transferência multilíngue no Qwen3-8B sob um orçamento de treinamento controlado. Os dados estão disponíveis em https://github.com/hitxueliang/DialogDataSetBySTREAM.