HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

15 papers found

Autoaprendizado por Reforço Distilado (RLVR)
Self-Distilled RLVR

Apr 3

ByChenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan

A destilação on-policy (OPD) tornou-se um paradigma de treinamento popular na comunidade de LLM. Este paradigma seleciona um modelo maior como professor para fornecer sinais densos e de granularidade fina para cada trajetória amostrada, em contraste com o aprendizado por reforço com recompensas verificáveis (RLVR), que obtém apenas sinais esparsos a partir de resultados verificáveis no ambiente. Recentemente, a comunidade explorou a autodestilação on-policy (OPSD), onde o mesmo modelo atua como professor e aluno, sendo que o professor recebe informações privilegiadas adicionais, como respostas de referência, para permitir a auto-evolução. Este artigo demonstra que os sinais de aprendizado derivados apenas do professor privilegiado resultam em grave vazamento de informação e treinamento de longo prazo instável. Consequentemente, identificamos o nicho ideal para a autodestilação e propomos o RLSD (RLVR com Autodestilação). Especificamente, aproveitamos a autodestilação para obter diferenças de política a nível de token para determinar magnitudes de atualização de granularidade fina, enquanto continuamos a usar o RLVR para derivar direções de atualização confiáveis a partir do feedback ambiental (por exemplo, a correção da resposta). Isso permite que o RLSD aproveite simultaneamente os pontos fortes do RLVR e do OPSD, alcançando um patamar de convergência mais alto e uma estabilidade de treinamento superior.

Uma Linha de Base Simples para Compreensão de Vídeo em Fluxo Contínuo
A Simple Baseline for Streaming Video Understanding

Apr 2

ByYujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu

Os métodos recentes de compreensão de vídeos em streaming dependem cada vez mais de mecanismos de memória complexos para lidar com fluxos de vídeo longos. Nós contestamos essa tendência com uma descoberta simples: uma linha de base baseada em janela deslizante que fornece apenas os N quadros mais recentes a um VLM (Modelo de Linguagem de Visão) padrão já iguala ou supera os modelos de streaming publicados. Formalizamos essa linha de base como SimpleStream e a avaliamos contra 13 grandes linhas de base de LLMs de vídeo offline e online no OVO-Bench e no StreamingBench. Apesar de sua simplicidade, o SimpleStream oferece um desempenho consistentemente forte. Com apenas 4 quadros recentes, ele atinge 67,7% de precisão média no OVO-Bench e 80,59% no StreamingBench. Ablações controladas mostram ainda que o valor de um contexto mais longo depende da arquitetura base (backbone) em vez de aumentar uniformemente com a escala do modelo, e revelam uma compensação (trade-off) consistente entre percepção e memória: adicionar mais contexto histórico pode melhorar a recordação, mas muitas vezes enfraquece a percepção em tempo real. Isso sugere que módulos de memória, recuperação ou compressão mais fortes não devem ser tomados como evidência de progresso, a menos que superem claramente o SimpleStream sob o mesmo protocolo. Portanto, argumentamos que os futuros benchmarks de streaming devem separar a percepção de cena recente da memória de longo alcance, para que as melhorias de desempenho provenientes da complexidade adicionada possam ser avaliadas com mais clareza.

O Enrolamento de Tokens Auxilia os MLLMs a Observar a Partir de Pontos de Vista Próximos
Token Warping Helps MLLMs Look from Nearby Viewpoints

Apr 3

ByPhillip Y. Lee, Chanho Park, Mingue Park, Seungwoo Yoo, Juil Koo, Minhyuk Sung

A deformação de tokens, em vez de pixels, pode ajudar os modelos de linguagem multimodal (MLLMs) a compreender como uma cena é vista de um ponto de vista próximo? Embora os MLLMs tenham bom desempenho no raciocínio visual, eles permanecem frágeis a mudanças de perspectiva, uma vez que a deformação ao nível de pixels é altamente sensível a pequenos erros de profundidade e frequentemente introduz distorções geométricas. Com base em teorias de imagética mental que postulam representações estruturais ao nível de partes como base para a transformação de perspectiva humana, investigamos se os tokens de imagem em MLLMs baseados em ViT servem como um substrato eficaz para mudanças de ponto de vista. Comparamos a deformação direta e a inversa, concluindo que a deformação inversa de tokens, que define uma grelha densa na vista de destino e recupera um token correspondente da vista de origem para cada ponto da grelha, alcança maior estabilidade e preserva melhor a coerência semântica sob mudanças de perspectiva. Experiências no nosso benchmark proposto, ViewBench, demonstram que a deformação ao nível de tokens permite que os MLLs raciocinem de forma confiável a partir de pontos de vista próximos, superando consistentemente todas as linhas de base, incluindo abordagens de deformação de pixels, MLLMs afinados espacialmente e um método de deformação generativo.

Agentic-MME: O que a Capacidade Agente Realmente Traz à Inteligência Multimodal?
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Apr 3

ByQianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang

Os Modelos de Linguagem Multimodais de Grande Porte (MLLMs) estão a evoluir de observadores passivos para agentes ativos, resolvendo problemas através da Expansão Visual (invocação de ferramentas visuais) e da Expansão de Conhecimento (pesquisa na web aberta). No entanto, as avaliações existentes são insuficientes: carecem de integração flexível de ferramentas, testam ferramentas visuais e de pesquisa separadamente e avaliam principalmente pelas respostas finais. Consequentemente, não conseguem verificar se as ferramentas foram realmente invocadas, aplicadas corretamente ou usadas de forma eficiente. Para resolver isto, introduzimos o *Agentic-MME*, um *benchmark* verificado por processo para Capacidades de Agência Multimodal. Este contém 418 tarefas do mundo real em 6 domínios e 3 níveis de dificuldade para avaliar a sinergia de capacidades, apresentando mais de 2.000 pontos de verificação passo a passo que totalizam uma média de mais de 10 horas de anotação manual por tarefa. Cada tarefa inclui uma estrutura de avaliação unificada que suporta código em *sandbox* e APIs, juntamente com uma trajetória de referência humana anotada com pontos de verificação passo a passo ao longo de um eixo duplo: Eixo-S e Eixo-V. Para permitir uma verificação autêntica ao nível do processo, auditamos estados intermédios de granularidade fina em vez de apenas respostas finais, e quantificamos a eficiência através de uma métrica de *overthinking* relativa às trajetórias humanas. Os resultados experimentais mostram que o melhor modelo, o Gemini3-pro, atinge uma precisão global de 56,3%, que cai significativamente para 23,0% em tarefas de Nível-3, sublinhando a dificuldade da resolução de problemas de agência multimodal no mundo real.

O Escalonamento no Momento do Teste Torna o Sobretreinamento Computacionalmente Ótimo
Test-Time Scaling Makes Overtraining Compute-Optimal

Apr 1

ByNicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala

Os LLMs modernos escalam no momento do teste, por exemplo, através de amostragem repetida, onde o custo de inferência cresce com o tamanho do modelo e o número de amostras. Isto cria um compromisso que as leis de escalonamento de pré-treinamento, como a Chinchilla, não abordam. Apresentamos as leis de escalonamento Train-to-Test (T²) que otimizam conjuntamente o tamanho do modelo, os *tokens* de treino e o número de amostras de inferência sob orçamentos fixos de ponta a ponta. O T² moderniza as leis de escalonamento de pré-treinamento com a modelação *pass@k* usada para o escalonamento no momento do teste, otimizando depois conjuntamente as decisões de pré-treinamento e de teste. As previsões do T² são robustas em distintas abordagens de modelação: medindo o efeito de escalonamento conjunto na perda da tarefa e o impacto da modelação na precisão da tarefa. Em oito tarefas *downstream*, descobrimos que, ao contabilizar o custo de inferência, as decisões ótimas de pré-treinamento mudam radicalmente para o regime de sobretreino, bem fora do alcance dos conjuntos padrão de escalonamento de pré-treinamento. Validamos os nossos resultados pré-treinando modelos fortemente sobretreinados na região ótima que o escalonamento T² prevê, confirmando o seu desempenho substancialmente superior em comparação com o pré-treinamento isolado. Finalmente, como os LLMs de fronteira são pós-treinados, mostramos que as nossas descobertas sobrevivem à fase de pós-treinamento, tornando o escalonamento T² significativo nas implementações modernas.

Comunicação sobre o Espaço: Integração Espacial Mediada pela Linguagem em Visões Parciais
Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Mar 28

ByAnkur Sikarwar, Debangan Mishra, Sudarshan Nikhil, Ponnurangam Kumaraguru, Aishwarya Agrawal

Os seres humanos constroem uma compreensão espacial compartilhada comunicando observações parciais e dependentes do ponto de vista. Questionamos se os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) podem fazer o mesmo, alinhando diferentes perspectivas egocêntricas por meio do diálogo para formar um modelo mental coerente e alocêntrico de um ambiente compartilhado. Para estudar isso sistematicamente, introduzimos o COSMIC, um *benchmark* para Comunicação Espacial Colaborativa. Neste cenário, dois agentes MLLM estáticos observam um ambiente interno 3D de diferentes pontos de vista e trocam mensagens em linguagem natural para resolver consultas espaciais. O COSMIC contém 899 cenas diversas e 1250 pares de pergunta-resposta abrangendo cinco tarefas. Descobrimos uma hierarquia de capacidades consistente: os MLLMs são mais confiáveis na identificação de objetos-âncora compartilhados entre as visões, têm um desempenho pior no raciocínio relacional e falham amplamente na construção de mapas globalmente consistentes, com desempenho próximo ao acaso, mesmo para os modelos de última geração. Além disso, descobrimos que a capacidade de "pensamento" gera ganhos consistentes na ancoragem de referências, mas é insuficiente para uma comunicação espacial de nível superior. Para contextualizar o comportamento do modelo, também recolhemos 250 diálogos humano-humano. Os humanos alcançam uma precisão agregada de 95%, deixando um espaço significativo para melhoria mesmo para o melhor modelo, o Gemini-3-Pro-Thinking, que atinge 72% de precisão agregada. Adicionalmente, as conversas humanas tornam-se cada vez mais específicas à medida que os parceiros convergem para um modelo mental compartilhado, enquanto os diálogos dos modelos continuam a explorar novas possibilidades em vez de convergir, consistente com uma capacidade limitada de construir e manter um modelo mental compartilhado robusto. O nosso código e dados estão disponíveis em https://github.com/ankursikarwar/Cosmic.

InCoder-32B-Thinking: Modelo de Mundo de Código Industrial para Raciocínio
InCoder-32B-Thinking: Industrial Code World Model for Thinking

Apr 3

ByJian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Tuney Zheng, Fanglin Xu, Weicheng Gu, Lin Jing, Yaxin Du, Joseph Li, Yizhi Li, Yan Xing, Chuan Hao, Ran Tao, Ruihao Gong, Aishan Liu, Zhoujun Li, Mingjie Tang, Chenghua Lin, Siheng Chen, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv

O desenvolvimento de software industrial nas áreas de projeto de chips, otimização de GPU e sistemas embarcados carece de traços de raciocínio especializado que mostrem como os engenheiros raciocinam sobre restrições de hardware e semântica de temporização. Neste trabalho, propomos o InCoder-32B-Thinking, treinado com dados do framework de síntese Error-driven Chain-of-Thought (ECoT) com um modelo de mundo de código industrial (ICWM) para gerar traços de raciocínio. Especificamente, o ECoT gera cadeias de raciocínio sintetizando o conteúdo de pensamento a partir de diálogos multi-turn com feedback de erro ambiental, modelando explicitamente o processo de correção de erros. O ICWM é treinado em traços de execução específicos de domínio, como simulação Verilog e profiling de GPU, aprende a dinâmica causal de como o código afeta o comportamento do hardware e permite a autoverificação ao prever resultados de execução antes da compilação real. Todos os traços de raciocínio sintetizados são validados por toolchains de domínio, criando dados de treinamento que correspondem à distribuição natural de profundidade de raciocínio de tarefas industriais. A avaliação em 14 benchmarks gerais (81,3% no LiveCodeBench v5) e 9 benchmarks industriais (84,0% no CAD-Coder e 38,0% no KernelBench) mostra que o InCoder-32B-Thinking alcança resultados de código aberto de primeira linha em todos os domínios.

AgentSocialBench: Avaliação de Riscos de Privacidade em Redes Sociais Agênticas Centradas no Ser Humano
AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Apr 1

ByPrince Zizhuang Wang, Shuli Jiang

Com a ascensão de estruturas de agentes de LLM persistentes e personalizadas, como o OpenClaw, as redes sociais agentivas centradas no ser humano, nas quais equipas de agentes de IA colaborativos servem utilizadores individuais numa rede social através de múltiplos domínios, estão a tornar-se uma realidade. Este cenário cria novos desafios de privacidade: os agentes devem coordenar-se além das fronteiras dos domínios, mediar entre humanos e interagir com os agentes de outros utilizadores, tudo enquanto protegem informações pessoais sensíveis. Embora trabalhos anteriores tenham avaliado a coordenação multiagente e a preservação da privacidade, as dinâmicas e os riscos de privacidade das redes sociais agentivas centradas no ser humano permanecem inexplorados. Para tal, apresentamos o AgentSocialBench, o primeiro benchmark para avaliar sistematicamente o risco de privacidade neste contexto, compreendendo cenários em sete categorias que abrangem interações diádicas e multipartidárias, baseados em perfis de utilizadores realistas com etiquetas de sensibilidade hierárquicas e grafos sociais direcionados. As nossas experiências revelam que a privacidade em redes sociais agentivas é fundamentalmente mais difícil do que em contextos de agente único: (1) a coordenação entre domínios e entre utilizadores cria uma pressão persistente de fuga de informação, mesmo quando os agentes são explicitamente instruídos a protegê-la, (2) instruções de privacidade que ensinam os agentes a abstrair informações sensíveis causam paradoxalmente que estes as discutam mais (designamos isto por paradoxo da abstração). Estas descobertas sublinham que os atuais agentes de LLM carecem de mecanismos robustos para a preservação da privacidade em redes sociais agentivas centradas no ser humano, e que são necessárias novas abordagens para além da engenharia de *prompts* para tornar a coordenação social mediada por agentes segura para a implementação no mundo real.

Swift-SVD: A Otimalidade Teórica Encontra a Eficiência Prática na Compressão de LLMs de Baixo Posto
Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Apr 2

ByRuoling Qi, Yirui Liu, Xuaner Wu, Xiangyu Wang, Ming Li, Chen Chen, Jian Chen, Yin Chen, Qizhen Weng

A implantação de Modelos de Língua de Grande Porte é limitada pelas exigências de memória e largura de banda dos pesos estáticos e da cache dinâmica de Chave-Valor. A compressão baseada em SVD oferece uma solução amigável ao hardware para reduzir estes custos. No entanto, os métodos existentes sofrem de duas limitações principais: alguns são subóptimos em termos de erro de reconstrução, enquanto outros são teoricamente ótimos mas praticamente ineficientes. Neste artigo, propomos o Swift-SVD, um quadro de compressão de forma fechada e consciente da ativação, que garante simultaneamente o ótimo teórico, a eficiência prática e a estabilidade numérica. O Swift-SVD agrega incrementalmente a covariância das ativações de saída para um lote de entradas e executa uma única decomposição em autovalores após a agregação, permitindo uma aproximação de baixa posto a nível da camada, ótima, rápida e sem necessidade de treino. Empregamos o posto efetivo para analisar a compressibilidade local a nível de camada e concebemos uma estratégia dinâmica de alocação de posto que considera conjuntamente a perda de reconstrução local e a importância da camada de ponta-a-ponta. Experiências extensivas em seis LLMs e oito conjuntos de dados demonstram que o Swift-SVD supera as linhas de base state-of-the-art, alcançando uma precisão de compressão ótima enquanto proporciona acelerações de 3 a 70 vezes no tempo de compressão de ponta-a-ponta. O nosso código será divulgado após aceitação.

AgentHazard: Um Benchmark para Avaliar Comportamentos Nocivos em Agentes de Uso Computacional
AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Apr 3

ByYunhao Feng, Yifan Ding, Yingshui Tan, Xingjun Ma, Yige Li, Yutao Wu, Yifeng Gao, Kun Zhai, Yanming Guo

Os agentes de uso computacional estendem os modelos de linguagem da geração de texto para ações persistentes sobre ferramentas, arquivos e ambientes de execução. Diferente dos sistemas de chat, eles mantêm estado entre interações e traduzem saídas intermediárias em ações concretas. Isso cria um desafio de segurança distinto, pois comportamentos nocivos podem emergir através de sequências de etapas individualmente plausíveis, incluindo ações intermediárias que parecem localmente aceitáveis mas que coletivamente levam a ações não autorizadas. Apresentamos o AgentHazard, um benchmark para avaliar comportamentos nocivos em agentes de uso computacional. O AgentHazard contém 2.653 instâncias abrangendo diversas categorias de risco e estratégias de ataque. Cada instância emparelha um objetivo nocivo com uma sequência de etapas operacionais que são localmente legítimas mas que conjuntamente induzem comportamentos inseguros. O benchmark avalia se os agentes conseguem reconhecer e interromper danos decorrentes de contexto acumulado, uso repetido de ferramentas, ações intermediárias e dependências entre etapas. Avaliamos o AgentHazard no Claude Code, OpenClaw e IFlow usando principalmente modelos abertos ou abertamente implantáveis das famílias Qwen3, Kimi, GLM e DeepSeek. Nossos resultados experimentais indicam que os sistemas atuais permanecem altamente vulneráveis. Em particular, quando alimentado pelo Qwen3-Coder, o Claude Code exibe uma taxa de sucesso de ataque de 73,63%, sugerindo que o alinhamento do modelo sozinho não garante de forma confiável a segurança de agentes autónomos.

Xpertbench: Tarefas de Nível Especialista com Avaliação Baseada em Rubricas
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Mar 27

ByXue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu

À medida que os Modelos de Linguagem de Grande Porte (LLMs) apresentam um desempenho estagnado em benchmarks convencionais, um desafio fundamental persiste: avaliar sua proficiência em tarefas complexas e de natureza aberta que caracterizam a cognição genuína em nível de especialista. As estruturas existentes sofrem com cobertura limitada de domínios, dependência de tarefas generalistas ou vieses de autoavaliação. Para preencher essa lacuna, apresentamos o XpertBench, um benchmark de alta fidelidade projetado para avaliar LLMs em domínios profissionais autênticos. O XpertBench consiste em 1.346 tarefas meticulosamente curadas em 80 categorias, abrangendo finanças, saúde, serviços jurídicos, educação e pesquisa de dupla via (STEM e Humanidades). Essas tarefas são derivadas de mais de 1.000 submissões de especialistas de domínio—incluindo pesquisadores de instituições de elite e profissionais com extensa experiência clínica ou industrial—garantindo validade ecológica superior. Cada tarefa utiliza rubricas detalhadas com maioritariamente 15 a 40 critérios de avaliação ponderados para aferir o rigor profissional. Para facilitar uma avaliação escalonável e alinhada com critérios humanos, introduzimos o ShotJudge, um novo paradigma de avaliação que emprega juízes baseados em LLMs calibrados com exemplos *few-shot* de especialistas para mitigar vieses de autorrecompensa. Nossa avaliação empírica de LLMs estado da arte revela um teto de desempenho pronunciado: mesmo os modelos líderes atingem uma taxa de sucesso máxima de apenas ~66%, com uma pontuação média em torno de 55%. Os modelos também exibem divergência específica por domínio, mostrando pontos fortes não sobrepostos no raciocínio quantitativo versus síntese linguística. Essas descobertas ressaltam uma significativa "lacuna de especialista" nos sistemas atuais de IA e estabelecem o XpertBench como um instrumento crítico para orientar a transição de assistentes de propósito geral para colaboradores profissionais especializados.

Os VLMs Precisam de Palavras: Modelos de Linguagem Visual Ignoram Detalhes Visuais em Favor de Âncoras Semânticas
VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Apr 2

ByHaz Sameen Shahgir, Xiaofu Chen, Yu Fu, Erfan Shayegani, Nael Abu-Ghazaleh, Yova Kementchedjhieva, Yue Dong

Os Modelos de Linguagem de Visão (VLMs) alcançam desempenho impressionante em uma ampla gama de tarefas multimodais. No entanto, em algumas tarefas que exigem percepção visual refinada, eles frequentemente falham mesmo quando a informação necessária está presente em suas representações internas. Neste trabalho, demonstramos que essa lacuna surge de seu pipeline de treinamento restrito, que se concentra em mover informações visuais para o espaço textual. Consequentemente, os VLMs só podem raciocinar sobre entidades visuais que podem ser mapeadas para conceitos conhecidos no espaço linguístico, deixando tarefas focadas em visão, como correspondência visual e raciocínio sobre entidades visuais novas, mal suportadas. Como resultado, os VLMs são severamente limitados em várias capacidades multimodais importantes porque dependem de descrições textuais frágeis e alucinadas de entidades visuais que não conseguem mapear para representações textuais. Verificamos esse comportamento por meio de tarefas de correspondência visual, nas quais os VLMs devem detectar entidades correspondentes entre duas imagens. Testando em tarefas de correspondência semântica, de forma e facial, descobrimos que os VLMs performam muito melhor quando as entidades relevantes são nomináveis na linguagem do que quando não são nomináveis. Mecanicamente, nossas análises de Lente de Logits confirmam que os VLMs atribuem explicitamente rótulos semânticos a entidades nomináveis e produzem tokens correspondentes mais únicos em comparação com entidades não nomináveis. Além disso, mostramos que ensinar nomes completamente arbitrários para entidades desconhecidas melhora o desempenho, mas o ajuste fino específico da tarefa produz generalização ainda mais forte sem depender de prévias linguísticas. Nossas descobertas sugerem que as falhas atuais dos VLMs em tarefas visuais refletem atalhos aprendidos em seu treinamento, e não uma limitação fundamental das arquiteturas multimodais.

Sal: Correspondência de Distribuição Autoconsistente com Treinamento Consciente da Cache para Geração Rápida de Vídeos
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation

Apr 3

ByXingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang

A destilação de modelos de geração de vídeo para orçamentos de inferência extremamente baixos (por exemplo, 2-4 NFEs) é crucial para implantação em tempo real, mas continua a ser um desafio. A destilação por consistência de trajetória tende a tornar-se conservadora sob dinâmicas de vídeo complexas, produzindo uma aparência excessivamente suavizada e movimento fraco. A destilação por correspondência de distribuição (DMD) pode recuperar amostras nítidas e com busca de modos, mas os seus sinais de treino locais não regulam explicitamente como as atualizações de remoção de ruído se compõem ao longo dos intervalos de tempo, tornando as composições propensas a desvios. Para superar este desafio, propomos a Destilação por Correspondência de Distribuição Auto-Consistente (SC-DMD), que regula explicitamente a composição consistente no ponto final de atualizações consecutivas de remoção de ruído. Para geração de vídeo autoregressiva em tempo real, tratamos adicionalmente a cache KV como uma condição parametrizada pela qualidade e propomos o Treino Consciente da Cache-Distribuição. Este esquema de treino aplica SC-DMD sobre composições multi-etapa e introduz um objetivo de alinhamento de características condicionado pela cache que direciona saídas de baixa qualidade para referências de alta qualidade. Através de extensivas experiências em backbones não-autoregressivos (por exemplo, Wan 2.1) e paradigmas de tempo real autoregressivos (por exemplo, Self Forcing), o nosso método, denominado Salt, melhora consistentemente a qualidade da geração de vídeo com baixo NFE, mantendo compatibilidade com diversos mecanismos de memória de cache KV. O código fonte será disponibilizado em https://github.com/XingtongGe/Salt.

CoME-VL: Escalonando o Aprendizado Visão-Linguagem com Codificadores Complementares Multi-Encoder
CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Apr 3

ByAnkan Deria, Komal Kumar, Xilin He, Imran Razzak, Hisham Cholakkal, Fahad Shahbaz Khan, Salman Khan

Os modelos visão-linguagem (VLM) atuais geralmente dependem de um único codificador visual treinado com objetivos contrastivos de imagem-texto, como o pré-treinamento estilo CLIP. Embora codificadores contrastivos sejam eficazes para alinhamento e recuperação cross-modal, codificadores visuais auto-supervisionados frequentemente capturam semântica densa mais rica e exibem maior robustez em tarefas de reconhecimento e compreensão. Neste trabalho, investigamos como escalar a fusão dessas representações visuais complementares para modelagem visão-linguagem. Propomos o CoME-VL: Complementary Multi-Encoder Vision-Language, um framework de fusão modular que integra um codificador visual treinado contrastivamente com um codificador DINO auto-supervisionado. Nossa abordagem realiza fusão em nível de representação através de (i) agregação multicamada guiada por entropia com projeções com restrição de ortogonalidade para reduzir redundância, e (ii) atenção cruzada aprimorada com RoPE para alinhar grades de tokens heterogêneas e produzir tokens visuais fundidos compactos. Os tokens fundidos podem ser injetados em um LLM apenas-decodificador com mudanças mínimas nos pipelines padrão de VLM. Experimentos extensos em diversas benchmarks visão-linguagem demonstram que o CoME-VL supera consistentemente as linhas de base com codificador único. Em particular, observamos uma melhoria média de 4,9% em tarefas de compreensão visual e 5,4% em tarefas de grounding. Nosso método alcança desempenho state-of-the-art no RefCOCO para detecção enquanto melhora significativamente a linha de base. Finalmente, conduzimos estudos de ablação sobre fusão de camadas, mistura de características não-redundantes e capacidade de fusão para avaliar como sinais contrastivos e auto-supervisionados complementares afetam o desempenho do VLM.

Os Modelos de Ação Mundial Generalizam Melhor que os VLAs? Um Estudo de Robustez
Do World Action Models Generalize Better than VLAs? A Robustness Study

Apr 1

ByZhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang

O planeamento de ações robóticas no mundo real é desafiador, pois exige não apenas a compreensão do estado atual do ambiente, mas também a previsão da sua evolução em resposta às ações. Os modelos visão-linguagem-ação (VLA), que adaptam modelos de grande escala de visão e linguagem para geração de ações robóticas utilizando especialistas em ação, alcançaram sucesso notável em diversas tarefas robóticas. No entanto, o seu desempenho permanece limitado pelo âmbito dos seus dados de treino, exibindo generalização limitada para cenários não vistos e vulnerabilidade a diversas perturbações contextuais. Mais recentemente, os modelos do mundo foram revisitados como alternativa aos VLAs. Estes modelos, designados por modelos de ação do mundo (WAMs), são construídos sobre modelos do mundo treinados em grandes corpora de dados de vídeo para prever estados futuros. Com pequenas adaptações, a sua representação latente pode ser descodificada em ações robóticas. Sugere-se que a sua capacidade explícita de previsão dinâmica, combinada com prioridades espaço-temporais adquiridas a partir do pré-treino com vídeos em escala web, permite aos WAMs generalizar mais eficazmente do que os VLAs. Neste artigo, realizamos um estudo comparativo de políticas VLA proeminentes do estado da arte e de WAMs recentemente lançados. Avaliamos o seu desempenho nos benchmarks LIBERO-Plus e RoboTwin 2.0-Plus sob várias perturbações visuais e linguísticas. Os nossos resultados mostram que os WAMs alcançam uma robustez forte, com o LingBot-VA a atingir 74,2% de taxa de sucesso no RoboTwin 2.0-Plus e o Cosmos-Policy a alcançar 82,2% no LIBERO-Plus. Embora VLAs como o π_{0,5} possam alcançar robustez comparável em certas tarefas, normalmente exigem treino extensivo com conjuntos de dados robóticos diversificados e objetivos de aprendizagem variados. Abordagens híbridas que incorporam parcialmente aprendizagem dinâmica baseada em vídeo exibem robustez intermédia, destacando a importância de como as prioridades de vídeo são integradas.

Xpertbench: Tarefas de Nível Especialista com Avaliação Baseada em Rubricas
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Mar 27