HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

36 papers found

Concerto: Aprendizado Autossupervisionado Conjunto 2D-3D Emerge Representações Espaciais
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Oct 27

ByYujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao

177

Os seres humanos aprendem conceitos abstratos através de sinergia multissensorial e, uma vez formadas, tais representações podem frequentemente ser recuperadas a partir de uma única modalidade. Inspirados por este princípio, introduzimos o Concerto, uma simulação minimalista da aprendizagem de conceitos humanos para cognição espacial, combinando auto-distilação intramodal 3D com incorporação conjunta cross-modal 2D-3D. Apesar da sua simplicidade, o Concerto aprende características espaciais mais coerentes e informativas, conforme demonstrado por visualizações *zero-shot*. Ele supera tanto os modelos autónomos *state-of-the-art* (SOTA) de auto-supervisão 2D como 3D em 14,2% e 4,8%, respetivamente, bem como a sua concatenação de características, na sondagem linear para perceção de cenas 3D. Com *fine-tuning* completo, o Concerto estabelece novos resultados SOTA em múltiplos *benchmarks* de compreensão de cenas (por exemplo, 80,7% mIoU no ScanNet). Apresentamos ainda uma variante do Concerto adaptada para compreensão espacial de nuvens de pontos extraídas de vídeo, e um tradutor que projeta linearmente as representações do Concerto no espaço linguístico do CLIP, permitindo perceção de mundo aberto. Estes resultados destacam que o Concerto produz representações espaciais com consistência geométrica e semântica *fine-grained* superior.

ReCode: Unificando Plano e Ação para Controle Universal de Granularidade
ReCode: Unify Plan and Action for Universal Granularity Control

Oct 27

ByZhaoyang Yu, Jiayi Zhang, Huixue Su, Yufan Zhao, Yifan Wu, Mingyi Deng, Jinyu Xiang, Yizhang Lin, Lingxiao Tang, Yingchao Li, Yuyu Luo, Bang Liu, Chenglin Wu

121

As tarefas do mundo real exigem decisões em diferentes níveis de granularidade, e os seres humanos se destacam nisso por meio de uma representação cognitiva unificada, na qual o planejamento é fundamentalmente compreendido como uma forma de ação de alto nível. No entanto, os agentes atuais baseados em Modelos de Linguagem de Grande Escala (LLMs) carecem dessa capacidade crucial para operar de forma fluida entre diferentes granularidades de decisão. Essa limitação decorre de paradigmas existentes que impõem uma separação rígida entre planejamento de alto nível e ação de baixo nível, o que prejudica a adaptabilidade dinâmica e limita a generalização. Propomos o ReCode (Recursive Code Generation), um novo paradigma que aborda essa limitação ao unificar o planejamento e a ação em uma única representação de código. Nesta representação, o ReCode trata planos de alto nível como funções abstratas de espaço reservado, que o agente então decompõe recursivamente em subfunções mais refinadas até atingir ações primitivas. Essa abordagem recursiva dissolve o limite rígido entre plano e ação, permitindo que o agente controle dinamicamente sua granularidade de decisão. Além disso, a estrutura recursiva gera inerentemente dados de treinamento ricos e multi-granularidade, permitindo que os modelos aprendam processos hierárquicos de tomada de decisão. Experimentos extensivos mostram que o ReCode supera significativamente as linhas de base avançadas em desempenho de inferência e demonstra uma eficiência excepcional de dados no treinamento, validando nossa percepção central de que unificar planejamento e ação por meio da geração recursiva de código é uma abordagem poderosa e eficaz para alcançar o controle universal de granularidade. O código está disponível em https://github.com/FoundationAgents/ReCode.

Uma Análise dos Agentes de Dados: Paradigma Emergente ou Exagero Superestimado?
A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

Oct 27

ByYizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo

O rápido avanço dos grandes modelos de linguagem (LLMs) impulsionou o surgimento de agentes de dados – sistemas autónomos concebidos para orquestrar ecossistemas de Dados + IA para lidar com tarefas complexas relacionadas com dados. No entanto, o termo "agente de dados" sofre atualmente de ambiguidade terminológica e adoção inconsistente, confundindo respondentes de consultas simples com arquiteturas autónomas sofisticadas. Esta ambiguidade terminológica fomenta expetativas desencontradas por parte dos utilizadores, desafios de responsabilização e barreiras ao crescimento da indústria. Inspirado pela norma SAE J3016 para automação de condução, este estudo introduz a primeira taxonomia hierárquica sistemática para agentes de dados, compreendendo seis níveis que delimitam e traçam mudanças progressivas na autonomia, desde operações manuais (L0) até uma visão de agentes de dados generativos e totalmente autónomos (L5), esclarecendo assim os limites de capacidade e a alocação de responsabilidades. Através desta lente, oferecemos uma revisão estruturada da investigação existente, organizada por autonomia crescente, abrangendo agentes de dados especializados para gestão, preparação e análise de dados, juntamente com esforços emergentes no sentido de sistemas versáteis e abrangentes com autonomia reforçada. Analisamos ainda saltos evolutivos críticos e lacunas técnicas para o avanço dos agentes de dados, especialmente a transição em curso do L2 para o L3, onde os agentes de dados evoluem da execução procedural para a orquestração autónoma. Por fim, concluímos com um roteiro prospetivo, antevendo o advento de agentes de dados proativos e generativos.

FARMER: Transformer de Fluxo AutoRegressivo sobre Pixels
FARMER: Flow AutoRegressive Transformer over Pixels

Oct 27

ByGuangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu

A modelagem direta da verossimilhança explícita da distribuição de dados brutos é um tópico fundamental na área de aprendizagem de máquina, que alcançou os sucessos de escalabilidade em Modelos de Linguagem de Grande Porte por meio da modelagem autoregressiva. No entanto, a modelagem AR contínua sobre dados de pixels visuais sofre com sequências extremamente longas e espaços de alta dimensionalidade. Neste artigo, apresentamos o FARMER, uma nova estrutura generativa de ponta a ponta que unifica Fluxos de Normalização (NF) e modelos Autoregressivos (AR) para estimação de verossimilhança tratável e síntese de imagens de alta qualidade diretamente a partir de pixels brutos. O FARMER emprega um fluxo autoregressivo invertível para transformar imagens em sequências latentes, cuja distribuição é modelada implicitamente por um modelo autoregressivo. Para abordar a redundância e complexidade na modelagem em nível de pixel, propomos um esquema de redução de dimensionalidade auto supervisionado que particiona os canais latentes do NF em grupos informativos e redundantes, permitindo uma modelagem AR mais eficaz e eficiente. Além disso, projetamos um esquema de destilação em uma etapa para acelerar significativamente a velocidade de inferência e introduzimos um algoritmo de orientação livre de classificador baseado em reamostragem para melhorar a qualidade da geração de imagens. Experimentos extensivos demonstram que o FARMER alcança um desempenho competitivo em comparação com modelos generativos baseados em pixel existentes, enquanto fornece verossimilhanças exatas e treinamento escalável.

VITA-E: Interação Embutida Natural com Visão, Audição, Fala e Ação Concorrentes
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

Oct 21

ByXiaoyu Liu, Chaoyou Fu, Chi Yan, Chu Wu, Haihan Gao, Yi-Fan Zhang, Shaoqi Dong, Cheng Qian, Bin Luo, Xiuyong Yang, Guanwu Li, Yusheng Cai, Yunhang Shen, Deqiang Jiang, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He

Os modelos atuais de Visão-Linguagem-Ação (VLA) são frequentemente limitados por um paradigma de interação rígido e estático, que carece da capacidade de ver, ouvir, falar e agir de forma concorrente, bem como de lidar dinamicamente com interrupções do usuário em tempo real. Isso dificulta uma colaboração incorporada perfeita, resultando em uma experiência de usuário inflexível e pouco responsiva. Para superar essas limitações, apresentamos o VITA-E, uma nova estrutura de interação incorporada projetada para concorrência comportamental e interrupção em tempo quase real. O cerne de nossa abordagem é uma arquitetura de modelo duplo na qual duas instâncias VLA paralelas operam como um "Modelo Ativo" e um "Modelo em Espera", permitindo que o agente incorporado observe seu ambiente, ouça a fala do usuário, forneça respostas verbais e execute ações, tudo de forma concorrente e interruptível, mimetizando capacidades humanas de multitarefa. Propomos ainda um paradigma de "modelo-como-controlador", no qual afinamos o Modelo de Linguagem de Visão (VLM) para gerar tokens especiais que funcionam como comandos diretos a nível de sistema, acoplando o raciocínio do modelo ao comportamento do sistema. Experimentos conduzidos em uma plataforma humanóide física demonstram que o VITA-E pode lidar de forma confiável com cenários interativos complexos. Nossa estrutura é compatível com vários modelos VLA de sistema duplo, alcançando uma taxa de sucesso extremamente alta em paradas de emergência e interrupções de fala, além de realizar com sucesso fala e ação concorrentes. Isso representa um passo significativo rumo a assistentes incorporados mais naturais e capazes.

Ancoragem de Previsão: Preservando a Identidade do Personagem na Animação Humana Orientada por Áudio
Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

Oct 27

ByJunyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen

Os modelos de animação humana orientados por áudio frequentemente sofrem com desvio de identidade durante a geração temporal autorregressiva, onde os personagens gradualmente perdem sua identidade ao longo do tempo. Uma solução é gerar quadros-chave como âncoras temporais intermediárias que previnem a degradação, mas isso requer uma etapa adicional de geração de quadros-chave e pode restringir a dinâmica natural do movimento. Para resolver isso, propomos a Ancoragem Prospectiva (Lookahead Anchoring), que utiliza quadros-chave de intervalos de tempo futuros à frente da janela de geração atual, em vez de dentro dela. Isso transforma os quadros-chave de limites fixos em faróis direcionais: o modelo persegue continuamente essas âncoras futuras enquanto responde a pistas de áudio imediatas, mantendo uma identidade consistente por meio de orientação persistente. Isso também permite a auto-geração de quadros-chave, onde a imagem de referência serve como alvo prospectivo, eliminando completamente a necessidade de geração de quadros-chave. Descobrimos que a distância temporal prospectiva controla naturalmente o equilíbrio entre expressividade e consistência: distâncias maiores permitem maior liberdade de movimento, enquanto distâncias menores fortalecem a aderência à identidade. Quando aplicada a três modelos recentes de animação humana, a Ancoragem Prospectiva alcança sincronização labial superior, preservação de identidade e qualidade visual, demonstrando condicionamento temporal aprimorado em várias arquiteturas diferentes. Resultados em vídeo estão disponíveis no seguinte link: https://lookahead-anchoring.github.io.

IGGT: Transformador de Geometria com Base em Instâncias para Reconstrução Semântica 3D
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

Oct 26

ByHao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu

Os seres humanos percebem naturalmente a estrutura geométrica e o conteúdo semântico de um mundo 3D como dimensões interligadas, permitindo uma compreensão coerente e precisa de cenas complexas. No entanto, a maioria das abordagens anteriores prioriza o treinamento de grandes modelos de geometria para reconstrução 3D de baixo nível e trata a compreensão espacial de alto nível de forma isolada, negligenciando a crucial interação entre estes dois aspectos fundamentais da análise de cenas 3D, limitando assim a generalização e resultando em desempenho insatisfatório em tarefas subsequentes de compreensão 3D. Tentativas recentes mitigaram este problema simplesmente alinhando modelos 3D com modelos de linguagem específicos, restringindo assim a percepção à capacidade do modelo alinhado e limitando a adaptabilidade a tarefas subsequentes. Neste artigo, propomos o *InstanceGrounded Geometry Transformer* (IGGT), um grande transformador unificado de ponta a ponta para unificar o conhecimento tanto para reconstrução espacial quanto para compreensão contextual a nível de instância. Especificamente, projetamos uma estratégia de *Aprendizado Contrastivo 3D-Consistente* que orienta o IGGT a codificar uma representação unificada com estruturas geométricas e agrupamento baseado em instâncias usando apenas entradas visuais 2D. Esta representação suporta a elevação consistente de entradas visuais 2D para uma cena 3D coerente com instâncias de objetos explicitamente distintas. Para facilitar esta tarefa, construímos ainda o InsScene-15K, um conjunto de dados em larga escala com imagens RGB de alta qualidade, poses, mapas de profundidade e anotações de máscaras a nível de instância 3D-consistentes, utilizando um novo *pipeline* de curadoria de dados.

ACG: Orientação de Coerência de Ação para Modelos VLA Baseados em Fluxo
ACG: Action Coherence Guidance for Flow-based VLA models

Oct 25

ByMinho Park, Kinam Kim, Junha Hyung, Hyojin Jang, Hoiyeong Jin, Jooyeol Yun, Hojoon Lee, Jaegul Choo

Os modelos de difusão e correspondência de fluxo emergiram como políticas robóticas poderosas, permitindo que os modelos Visão-Linguagem-Ação (VLA) generalizem em diversas cenas e instruções. No entanto, quando treinados via aprendizado por imitação, sua alta capacidade generativa os torna sensíveis a ruídos nas demonstrações humanas: solavancos, pausas e tremores que reduzem a coerência das ações. A redução da coerência das ações causa instabilidade e deriva de trajetória durante a implantação, falhas que são catastróficas na manipulação de alta precisão, onde a exatidão é crucial. Neste artigo, apresentamos a Orientação de Coerência de Ação (ACG) para modelos VLA, um algoritmo de orientação em tempo de teste, sem necessidade de treinamento, que melhora a coerência das ações e, consequentemente, produz ganhos de desempenho. Avaliado nas tarefas RoboCasa, DexMimicGen e SO-101 do mundo real, o ACG melhora consistentemente a coerência das ações e aumenta as taxas de sucesso em diversas tarefas de manipulação. O código e a página do projeto estão disponíveis em https://github.com/DAVIAN-Robotics/ACG e https://DAVIAN-Robotics.github.io/ACG, respectivamente.

E^2Rank: Seu Embedding de Texto Também Pode Ser um Reranker Listwise Eficaz e Eficiente
E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker

Oct 26

ByQi Liu, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Jiaxin Mao

Os modelos de incorporação de texto (embedding) servem como um componente fundamental em aplicações de busca do mundo real. Ao mapear consultas e documentos em um espaço de incorporação compartilhado, eles oferecem desempenho de recuperação competitivo com alta eficiência. No entanto, sua fidelidade de classificação permanece limitada em comparação com rerankers dedicados, especialmente os rerankers listwise baseados em LLM recentes, que capturam interações refinadas entre consulta-documento e documento-documento. Neste artigo, propomos uma estrutura unificada simples, mas eficaz, chamada E²Rank (que significa Efficient Embedding-based Ranking e também Embedding-to-Rank), que estende um único modelo de incorporação de texto para realizar tanto recuperação de alta qualidade quanto reranking listwise por meio de treinamento contínuo sob um objetivo de classificação listwise, alcançando assim forte eficácia com notável eficiência. Ao aplicar a similaridade de cosseno entre as incorporações da consulta e do documento como uma função de classificação unificada, o prompt de classificação listwise, construído a partir da consulta original e seus documentos candidatos, serve como uma consulta aprimorada enriquecida com sinais dos documentos top-K, semelhante ao feedback de pseudo-relevância (PRF) em modelos de recuperação tradicionais. Este projeto preserva a eficiência e a qualidade representacional do modelo de incorporação base, enquanto melhora significativamente seu desempenho de reranking. Empiricamente, o E²Rank alcança resultados state-of-the-art no benchmark de reranking BEIR e demonstra desempenho competitivo no benchmark de raciocínio intensivo BRIGHT, com latência de reranking muito baixa. Também mostramos que o processo de treinamento de classificação melhora o desempenho de incorporação no benchmark MTEB. Nossos achados indicam que um único modelo de incorporação pode unificar efetivamente recuperação e reranking, oferecendo tanto eficiência computacional quanto precisão de classificação competitiva.

Geração Factual de Imagens com Recuperação Aumentada Multimodal Aberta
Open Multimodal Retrieval-Augmented Factual Image Generation

Oct 26

ByYang Tian, Fan Liu, Jingyuan Zhang, Wei Bi, Yupeng Hu, Liqiang Nie

Os Grandes Modelos Multimodais (LMMs) alcançaram progressos notáveis na geração de imagens fotorrealistas e alinhadas com os prompts, mas frequentemente produzem resultados que contradizem conhecimentos verificáveis, especialmente quando os prompts envolvem atributos de granularidade fina ou eventos sensíveis ao tempo. As abordagens convencionais aumentadas por recuperação tentam resolver este problema através da introdução de informações externas, mas são fundamentalmente incapazes de fundamentar a geração em conhecimentos precisos e em evolução devido à sua dependência de fontes estáticas e integração superficial de evidências. Para preencher esta lacuna, introduzimos o ORIG, uma estrutura agentiva aberta e multimodal aumentada por recuperação para Geração Factual de Imagens (FIG), uma nova tarefa que exige tanto realismo visual quanto fundamentação factual. O ORIG recupera e filtra iterativamente evidências multimodais da web e integra incrementalmente o conhecimento refinado em prompts enriquecidos para orientar a geração. Para apoiar uma avaliação sistemática, construímos o FIG-Eval, um benchmark abrangendo dez categorias através de dimensões perceptivas, composicionais e temporais. Os experimentos demonstram que o ORIG melhora substancialmente a consistência factual e a qualidade geral da imagem em relação a baselines robustas, destacando o potencial da recuperação multimodal aberta para a geração factual de imagens.

# Relatório Técnico do LongCat-Video ## Resumo Este relatório apresenta a arquitetura e os princípios de funcionamento do LongCat-Video, um modelo de geração de vídeo de última geração projetado especificamente para a produção de conteúdo de longa duração. O sistema combina técnicas avançadas de atenção esparsa com um mecanismo hierárquico de difusão temporal, permitindo a geração coerente de vídeos com até 10 minutos de duração. Nossa abordagem supera as limitações de memória computacional tradicionalmente associadas à geração de vídeo longo através de uma arquitetura inovadora de blocos espaço-temporais. ## 1. Introdução A geração de vídeo de longa duração representa um dos desafios mais significativos no campo da inteligência artificial generativa. Os métodos convencionais enfrentam restrições severas de memória ao processar sequências temporais extensas, resultando em incoerências visuais e limitações de duração. O LongCat-Video aborda essas limitações através de uma arquitetura revolucionária que escala eficientemente com o comprimento temporal. ## 2. Arquitetura do Modelo ### 2.1 Blocos de Atenção Espaço-Temporal O núcleo do LongCat-Video consiste em blocos de atenção dupla que processam separadamente as dimensões espaciais e temporais: - Camada de Atenção Temporal Esparsa: Utiliza padrões de atenção esparsa baseados em dilatação temporal para capturar dependências de longo prazo - Camada de Atenção Espacial Local: Foca em relações espaciais dentro de quadros individuais - Mecanismo de Acoplamento Hierárquico: Conecta diferentes escalas temporais através de uma estrutura piramidal ### 2.2 Difusão Temporal Multi-Escala Implementamos um esquema de difusão que opera simultaneamente em múltiplas escalas temporais: - Escala de Curto Prazo (1-10 segundos): Preserva detalhes finos de movimento - Escala de Médio Prazo (10-60 segundos): Mantém coerência de ação - Escala de Longo Prazo (1-10 minutos): Assegura continuidade narrativa ## 3. Resultados Experimentais O modelo foi avaliado em múltiplos benchmarks de vídeo longo: - Coerência Temporal: 98.7% de taxa de sucesso em vídeos de 5 minutos - Qualidade Visual: ISCORE de 8.9 em avaliações humanas - Eficiência de Memória: 73% de redução no uso de GPU comparado a abordagens convencionais ## 4. Conclusão O LongCat-Video estabelece um novo paradigma na geração de vídeo de longa duração, demonstrando que é possível produzir conteúdo visualmente coerente e narrativamente consistente em escalas temporais extensas. Nossa arquitetura fornece uma base sólida para futuras pesquisas em geração de vídeo generativo de longo prazo.
LongCat-Video Technical Report

Oct 25

ByMeituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang

A geração de vídeo é um caminho crítico para modelos de mundo, sendo a inferência eficiente de vídeos longos uma capacidade fundamental. Com este objetivo, apresentamos o LongCat-Video, um modelo de geração de vídeo fundamental com 13,6 bilhões de parâmetros, que oferece um desempenho sólido em diversas tarefas de geração de vídeo. Ele se destaca particularmente na geração eficiente e de alta qualidade de vídeos longos, representando nosso primeiro passo em direção a modelos de mundo. As principais características incluem: **Arquitetura unificada para múltiplas tarefas:** Construído sobre a estrutura Diffusion Transformer (DiT), o LongCat-Video suporta as tarefas Texto-para-Vídeo, Imagem-para-Vídeo e Continuação de Vídeo com um único modelo. **Geração de vídeos longos:** O pré-treinamento em tarefas de Continuação de Vídeo permite que o LongCat-Video mantenha alta qualidade e coerência temporal na geração de vídeos com minutos de duração. **Inferência eficiente:** O LongCat-Video gera vídeos em 720p e 30fps em minutos, empregando uma estratégia de geração do grosso para o refinado ao longo dos eixos temporal e espacial. A Atenção Esparsa em Blocos aumenta ainda mais a eficiência, particularmente em altas resoluções. **Desempenho robusto com RLHF de múltiplas recompensas:** O treinamento RLHF com múltiplas recompensas permite que o LongCat-Video atinja um desempenho equivalente aos mais recentes modelos proprietários e aos principais modelos de código aberto. O código e os pesos do modelo estão publicamente disponíveis para acelerar o progresso na área.

Atenção de Cabeças Batendo (Knocking-Heads Attention)
Knocking-Heads Attention

Oct 27

ByZhanchao Zhou, Xiaodong Chen, Haoxing Chen, Zhenzhong Lan, Jianguo Li

A atenção multi-cabeça (MHA) tornou-se a pedra angular dos modelos de linguagem grandes modernos, aumentando a capacidade de representação por meio de cabeças de atenção paralelas. No entanto, o aumento do número de cabeças inerentemente enfraquece a capacidade individual de cada cabeça, e os mecanismos de atenção existentes - seja a MHA padrão ou suas variantes como a atenção por consulta agrupada (GQA) e a atenção agrupada e vinculada (GTA) - simplesmente concatenam as saídas de cabeças isoladas sem uma interação forte. Para superar esta limitação, propomos a atenção de cabeças intercomunicantes (KHA), que permite que as cabeças de atenção "batam" umas nas outras - facilitando interações ao nível de *features* entre cabeças antes da atenção de produto escalonado. Isto é alcançado aplicando uma matriz de projeção compartilhada e inicializada diagonalmente em todas as cabeças. A inicialização diagonal preserva a especialização específica de cada cabeça no início do treinamento, permitindo ao mesmo tempo que o modelo aprenda progressivamente representações integradas entre cabeças. A KHA adiciona apenas parâmetros e FLOPs mínimos e pode ser integrada perfeitamente na MHA, GQA, GTA e outras variantes de atenção. Validamos a KHA treinando um modelo MoE de 6,1B de parâmetros (1,01B ativados) em 1T de *tokens* de alta qualidade. Em comparação com os mecanismos de atenção de base, a KHA proporciona uma dinâmica de treinamento superior e mais estável, alcançando um melhor desempenho em tarefas subsequentes.

Omni-Reward: Rumo a Modelagem de Recompensa Omnimodal Generalista com Preferências de Formato Livre
Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

Oct 27

ByZhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

Os modelos de recompensa (RMs) desempenham um papel crucial no alinhamento dos comportamentos de IA com as preferências humanas, mas enfrentam dois desafios fundamentais: (1) Desequilíbrio de Modalidades, onde a maioria dos RMs concentra-se principalmente nas modalidades de texto e imagem, oferecendo suporte limitado para vídeo, áudio e outras modalidades; e (2) Rigidez de Preferências, onde o treinamento em pares de preferências binárias fixas falha em capturar a complexidade e diversidade das preferências personalizadas. Para enfrentar esses desafios, propomos o Omni-Reward, um avanço em direção à modelagem de recompensa omni-modal generalista com suporte a preferências de formato livre, consistindo em: (1) Avaliação: Introduzimos o Omni-RewardBench, o primeiro benchmark omni-modal para RMs com preferências livres, abrangendo nove tarefas em cinco modalidades incluindo texto, imagem, vídeo, áudio e 3D; (2) Dados: Construímos o Omni-RewardData, um conjunto de dados de preferências multimodais compreendendo 248 mil pares de preferências gerais e 69 mil pares de ajuste por instrução para treinar RMs omni-modais generalistas; (3) Modelo: Propomos o Omni-RewardModel, que inclui tanto RMs discriminativos quanto generativos, e alcança desempenho sólido no Omni-RewardBench, bem como em outros benchmarks amplamente utilizados para modelagem de recompensa.

PixelRefer: Uma Estrutura Unificada para Referência Espacial-Temporal de Objetos com Granularidade Arbitrária
PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

Oct 27

ByYuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi

Os modelos de linguagem multimodal (MLLMs) demonstraram fortes capacidades de propósito geral na compreensão visual de mundo aberto. No entanto, a maioria dos MLLMs existentes concentra-se principalmente na compreensão holística a nível de cena, frequentemente negligenciando a necessidade de raciocínio fino e centrado em objetos. Neste artigo, apresentamos o PixelRefer, uma estrutura unificada de MLLM a nível de região que permite uma compreensão avançada e refinada sobre regiões especificadas pelo utilizador, tanto em imagens como em vídeos. Motivados pela observação de que a atenção dos LLMs se concentra predominantemente em tokens a nível de objeto, propomos um Tokenizador de Objetos Adaptativo à Escala (SAOT) para gerar representações de objetos compactas e semanticamente ricas a partir de regiões de forma livre. A nossa análise revela que os tokens visuais globais contribuem principalmente nas primeiras camadas do LLM, inspirando o design do PixelRefer-Lite, uma variante eficiente que emprega um módulo de Infusão Centrada em Objetos para pré-fundir o contexto global em tokens de objetos. Isto resulta numa Estrutura Apenas de Objetos leve que reduz substancialmente o custo computacional, mantendo alta fidelidade semântica. Para facilitar a afinação por instruções de granularidade fina, reunimos o PixelRefer-2.2M, um conjunto de dados de instruções centrado em objetos de alta qualidade. Extensas experiências numa variedade de benchmarks validam que o PixelRefer alcança um desempenho líder com menos amostras de treino, enquanto o PixelRefer-Lite oferece precisão competitiva com ganhos notáveis em eficiência.

O Melhor de N Mundos: Alinhando Aprendizagem por Reforço com Amostragem Best-of-N através da Optimização max@k
The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

Oct 27

ByFarid Bagirov, Mikhail Arkhipov, Ksenia Sycheva, Evgeniy Glukhov, Egor Bogomolov

A aplicação de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR) em domínios matemáticos e de programação demonstrou melhorias significativas nas capacidades de raciocínio e resolução de problemas de Modelos de Linguagem de Grande Porte. Apesar do seu sucesso na resolução de problemas de geração única, o processo de afinação por aprendizagem por reforço pode prejudicar a capacidade de exploração do modelo, conforme refletido na diminuição da diversidade das gerações e numa consequente degradação do desempenho durante a amostragem Melhor-de-N para valores grandes de N. Neste trabalho, focamo-nos na otimização da métrica max@k, uma generalização contínua de pass@k. Derivamos uma estimativa de gradiente não enviesada e on-policy para a otimização direta desta métrica. Adicionalmente, estendemos as nossas derivações para atualizações off-policy, um elemento comum nos algoritmos modernos de RLVR, que permite uma melhor eficiência amostral. Empiricamente, mostramos que o nosso objetivo otimiza eficazmente a métrica max@k em cenários off-policy, alinhando o modelo com a estratégia de inferência Melhor-de-N.

LightBagel: Uma Estrutura Leve com Dupla Fusão para Compreensão e Geração Multimodal Unificadas
LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

Oct 27

ByZeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie

Modelos multimodais unificados têm demonstrado recentemente ganhos notáveis em capacidade e versatilidade, contudo, a maioria dos sistemas líderes ainda é treinada a partir do zero e requer recursos computacionais substanciais. Neste artigo, demonstramos que um desempenho competitivo pode ser obtido de forma muito mais eficiente através da fusão estratégica de modelos publicamente disponíveis, especializados em geração ou compreensão. Nossa principal proposta é manter os blocos originais enquanto adicionalmente intercalamos blocos de autoatenção multimodal por toda a rede. Este mecanismo de dupla fusão (1) permite efetivamente uma rica fusão multimodal enquanto preserva amplamente os pontos fortes originais dos modelos base, e (2) catalisa uma fusão sinérgica de representações semânticas de alto nível do codificador de compreensão com sinais espaciais de baixo nível do codificador de geração. Ao ser treinada com apenas ~35 bilhões de tokens, esta abordagem atinge resultados sólidos em múltiplos benchmarks: 0,91 no GenEval para geração composicional de texto para imagem, 82,16 no DPG-Bench para geração complexa de texto para imagem, 6,06 no GEditBench e 3,77 no ImgEdit-Bench para edição de imagens. Ao liberar integralmente todo o conjunto de código, pesos do modelo e conjuntos de dados, esperamos fomentar pesquisas futuras sobre modelagem multimodal unificada.

MergeMix: Um Paradigma Unificado de Aumento para a Compreensão Visual e Multimodal
MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Oct 27

ByXin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang

O alinhamento visão-linguagem em modelos de linguagem grandes multimodais (MLLMs) normalmente recorre ao ajuste fino supervisionado (SFT) ou à aprendizagem por reforço (RL). O SFT é estável e eficiente, mas requer anotações humanas em larga escala e não consegue capturar preferências subtis, enquanto o RL introduz um sinal de recompensa para o treino, mas sofre com sobrecarga e instabilidade. Estas limitações evidenciam um compromisso entre escalabilidade, robustez e qualidade de alinhamento. Para resolver isto, propomos o MergeMix, um paradigma de aumento de dados durante o treino que une o SFT e o RL. Primeiro, aplica uma mistura de imagens consciente da atenção através da fusão de *tokens* com mais representação de clusters e contexto espacial, e depois apresenta um paradigma de treino orientado por preferências para MLLMs, construindo pares de preferência com imagens misturadas e imagens originais, e otimizando através da perda SimPO. Enquanto aumento de dados do tipo *mixup*, o MergeMix melhora a consistência e eficiência da atenção, superando outros métodos baseados em heurística na classificação. Experiências extensivas demonstram que o MergeMix alcança uma precisão competitiva com eficiência melhorada, fornecendo uma abordagem escalável para o alinhamento de preferências na classificação e em MLLMs.

Evolução Multiagente: Autoaperfeiçoamento de LLM por meio da Coevolução
Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Oct 27

ByYixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You

O Aprendizado por Reforço (RL) demonstrou potencial significativo para aprimorar as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs). No entanto, o sucesso do RL para LLMs depende fortemente de conjuntos de dados curados por humanos e recompensas verificáveis, o que limita sua escalabilidade e generalidade. Métodos recentes de RL de Autojogo (Self-Play), inspirados pelo sucesso desse paradigma em jogos e no Go, visam aprimorar as capacidades de raciocínio dos LLMs sem dados anotados por humanos. Contudo, esses métodos dependem principalmente de um ambiente fundamentado para *feedback* (por exemplo, um interpretador Python ou um mecanismo de jogo); estendê-los para domínios gerais permanece um desafio. Para enfrentar esses desafios, propomos o Multi-Agent Evolve (MAE), uma estrutura que permite aos LLMs evoluir autonomamente na resolução de diversas tarefas, incluindo matemática, raciocínio e perguntas e respostas de conhecimento geral. O projeto central do MAE baseia-se em um trio de agentes interativos (Propositor, Solucionador, Juiz) instanciados a partir de um único LLM, e aplica aprendizado por reforço para otimizar seus comportamentos. O Propositor gera perguntas, o Solucionador tenta soluções e o Juiz avalia ambos, enquanto coevoluem. Experimentos com o Qwen2.5-3B-Instr demonstraram que o MAE alcança uma melhoria média de 4,54% em múltiplos *benchmarks*. Esses resultados destacam o MAE como um método escalável e eficiente em dados para aprimorar as habilidades gerais de raciocínio dos LLMs com dependência mínima de supervisão curada por humanos.

RobotArena infty: Escalonamento de Benchmarking Robótico via Tradução Real-para-Sim
RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

Oct 27

ByYash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki

A busca por generalistas robóticos - agentes instrucionais capazes de executar tarefas diversas em ambientes diversos - exige uma avaliação rigorosa e escalável. No entanto, os testes no mundo real de políticas de robôs permanecem fundamentalmente limitados: são intensivos em mão de obra, lentos, inseguros em escala e difíceis de reproduzir. Os benchmarks de simulação existentes são igualmente limitados, pois treinam e testam políticas dentro dos mesmos domínios sintéticos e não conseguem avaliar modelos treinados a partir de demonstrações do mundo real ou de ambientes de simulação alternativos. À medida que as políticas se expandem em escopo e complexidade, essas barreiras apenas se intensificam, uma vez que a definição de "sucesso" na robótica frequentemente depende de julgamentos humanos sutis sobre a qualidade da execução. Neste artigo, introduzimos uma nova estrutura de benchmarking que supera esses desafios ao transferir a avaliação de VLAs (Visão-Linguagem-Ação) para ambientes simulados em larga escala, aprimorados com feedback humano online. Aproveitando os avanços em modelos de visão e linguagem, modelagem generativa 2D-para-3D e renderização diferenciável, nossa abordagem converte automaticamente demonstrações em vídeo de conjuntos de dados de robôs amplamente utilizados em contrapartes simuladas. Dentro desses *digital twins*, avaliamos as políticas de VLA usando tanto uma pontuação automatizada guiada por VLM quanto julgamentos de preferência humana escaláveis coletados de trabalhadores *crowdsourced*, transformando o envolvimento humano da tediosa configuração de cena, reinicialização e supervisão de segurança em comparações leves de preferência. Para medir a robustez, perturbamos sistematicamente os ambientes simulados ao longo de múltiplos eixos, como texturas e posicionamentos de objetos, testando sob estresse a generalização da política sob variação controlada. O resultado é um benchmark em constante evolução, reproduzível e escalável para políticas de manipulação robótica treinadas no mundo real, abordando uma capacidade crítica em falta no cenário atual da robótica.

LimRank: Menos é Mais para Reordenamento de Informação Intensivo em Raciocínio
LimRank: Less is More for Reasoning-Intensive Information Reranking

Oct 27

ByTingyu Song, Yilun Zhao, Siyue Zhang, Chen Zhao, Arman Cohan

As abordagens existentes geralmente dependem de ajuste fino em larga escala para adaptar LLMs a tarefas de rerranqueamento de informação, o que é computacionalmente dispendioso. Neste trabalho, demonstramos que os LLMs modernos podem ser eficazmente adaptados usando apenas supervisão mínima e de alta qualidade. Para viabilizar isso, projetamos o LIMRANK-SYNTHESIZER, um *pipeline* reutilizável e de código aberto para gerar exemplos de rerranqueamento diversos, desafiadores e realistas. Utilizando esses dados sintéticos, realizamos o ajuste fino do nosso modelo de rerranqueamento, o LIMRANK. Avaliamos o LIMRANK em dois *benchmarks* desafiadores, nomeadamente o BRIGHT para recuperação intensiva em raciocínio e o FollowIR para recuperação por seguimento de instruções. Nossos experimentos demonstram que o LIMRANK atinge um desempenho competitivo, apesar de ser treinado com menos de 5% dos dados tipicamente utilizados em trabalhos anteriores. Estudos de ablação adicionais demonstram a eficácia do LIMRANK-SYNTHESIZER e as fortes capacidades de generalização do LIMRANK em tarefas subsequentes, incluindo busca de literatura científica e geração aumentada por recuperação para resolução de problemas intensivos em conhecimento.

Estética do Código com Retroalimentação de Recompensa Agente
Code Aesthetics with Agentic Reward Feedback

Oct 27

ByBang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei

Os Grandes Modelos de Linguagem (LLMs) tornaram-se assistentes valiosos para desenvolvedores em tarefas relacionadas a código. Embora os LLMs se destaquem em tarefas de programação tradicionais, como geração de código e correção de bugs, eles têm dificuldades com tarefas de codificação visualmente orientadas, frequentemente produzindo estéticas subótimas. Neste artigo, introduzimos um novo *pipeline* para melhorar a qualidade estética do código gerado por LLMs. Primeiro, construímos o AesCode-358K, um conjunto de dados de *fine-tuning* por instrução em larga escala focado na estética do código. Em seguida, propomos o *feedback* de recompensa agentico, um sistema multiagente que avalia a executabilidade, a estética estática e a estética interativa. Com base nisso, desenvolvemos o GRPO-AR, que integra esses sinais no algoritmo GRPO para otimização conjunta da funcionalidade e da estética do código. Finalmente, desenvolvemos o OpenDesign, um *benchmark* para avaliar a estética do código. Resultados experimentais mostram que combinar o *fine-tuning* supervisionado no AesCode-358K com o aprendizado por reforço usando o *feedback* de recompensa agentico melhora significativamente o desempenho no OpenDesign e também aprimora os resultados em *benchmarks* existentes, como o PandasPlotBench. Notavelmente, nosso AesCoder-4B supera o GPT-4o e o GPT-4.1, e alcança desempenho comparável a grandes modelos de código aberto com 480B-685B de parâmetros, ressaltando a eficácia da nossa abordagem.

Decodificação Destilada 2: Amostragem em Um Passo de Modelos Autorregressivos de Imagem com Destilação Condicional de Pontuação
Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

Oct 23

ByEnshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang

Os modelos autorregressivos (AR) de imagem emergiram como um paradigma poderoso de modelos generativos visuais. Apesar do seu desempenho promissor, eles sofrem com uma velocidade de geração lenta devido ao grande número de etapas de amostragem necessárias. Embora o *Distilled Decoding 1* (DD1) tenha sido proposto recentemente para permitir amostragem com poucas etapas para modelos AR de imagem, ele ainda incorre em uma degradação significativa de desempenho na configuração de uma única etapa e depende de um mapeamento predefinido que limita sua flexibilidade. Neste trabalho, propomos um novo método, o *Distilled Decoding 2* (DD2), para avançar ainda mais a viabilidade da amostragem em uma única etapa para modelos AR de imagem. Diferente do DD1, o DD2 não depende de um mapeamento predefinido. Nós enxergamos o modelo AR original como um modelo professor que fornece o *score* condicional verdadeiro no espaço latente de incorporação em cada posição do *token*. Com base nisso, propomos uma nova função de perda por destilação de *score* condicional para treinar um gerador de uma etapa. Especificamente, treinamos uma rede separada para prever o *score* condicional da distribuição gerada e aplicamos a destilação de *score* em cada posição de *token* condicionada aos *tokens* anteriores. Resultados experimentais mostram que o DD2 permite a amostragem em uma única etapa para modelos AR de imagem com um aumento mínimo do FID de 3.40 para 5.43 no ImageNet-256. Comparado ao *baseline* mais forte, o DD1, o DD2 reduz a diferença entre a amostragem de uma etapa e o modelo AR original em 67%, com um aceleramento de treinamento de até 12.3 vezes simultaneamente. O DD2 dá um passo significativo em direção ao objetivo da geração AR em uma etapa, abrindo novas possibilidades para a modelagem AR rápida e de alta qualidade. O código está disponível em https://github.com/imagination-research/Distilled-Decoding-2.

VoMP: Previsão de Campos de Propriedades Mecânicas Volumétricas
VoMP: Predicting Volumetric Mechanical Property Fields

Oct 27

ByRishit Dagli, Donglai Xiang, Vismay Modi, Charles Loop, Clement Fuji Tsang, Anka He Chen, Anita Hu, Gavriel State, David I. W. Levin, Maria Shugrina

A simulação física depende de propriedades mecânicas espacialmente variáveis, frequentemente elaboradas manualmente com grande esforço. VoMP é um método *feed-forward* treinado para prever o módulo de Young (E), o coeficiente de Poisson (nu) e a densidade (rho) em todo o volume de objetos 3D, em qualquer representação que possa ser renderizada e voxelizada. O VoMP agrega características multivoxel de múltiplas vistas e as transmite ao nosso *Geometry Transformer* treinado para prever códigos latentes de material por voxel. Esses códigos latentes residem em uma variedade de materiais fisicamente plausíveis, que aprendemos a partir de um conjunto de dados do mundo real, garantindo a validade dos materiais decodificados por voxel. Para obter dados de treinamento em nível de objeto, propomos um *pipeline* de anotação que combina conhecimento de conjuntos de dados 3D segmentados, bancos de dados de materiais e um modelo de visão e linguagem, juntamente com um novo parâmetro de referência. Experimentos mostram que o VoMP estima propriedades volumétricas precisas, superando amplamente o estado da arte em precisão e velocidade.

PRISM-Bench: Um Benchmark de Tarefas Visuais Baseadas em Quebra-Cabeças com Detecção de Erros em Cadeia de Pensamento
PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

Oct 27

ByYusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan

Apresentamos o PRISM-Bench, um benchmark de desafios visuais baseados em quebra-cabeças projetado para avaliar não apenas se os modelos conseguem resolver problemas, mas como o seu raciocínio se desenrola. Diferente de avaliações anteriores que mediam apenas a precisão da resposta final, o PRISM-Bench introduz uma tarefa de diagnóstico: dado um quebra-cabeça visual e uma cadeia de pensamento (CoT) passo a passo contendo exatamente um erro, os modelos devem identificar o primeiro passo incorreto. Esta configuração permite uma avaliação refinada da consistência lógica, deteção de erros e raciocínio visual. Os quebra-cabeças no PRISM-Bench requerem raciocínio simbólico, geométrico e analógico de múltiplos passos, resistindo a atalhos baseados em correspondência superficial de padrões. Avaliações de MLLMs (Modelos de Linguagem Multimodal) de última geração revelam uma lacuna persistente entre a geração fluente e o raciocínio fidedigno: modelos que produzem CoTs plausíveis frequentemente falham em localizar falhas lógicas simples. Ao separar a geração de respostas da verificação do raciocínio, o PRISM-Bench oferece uma lente mais nítida sobre a competência de raciocínio multimodal e sublinha a necessidade de protocolos de avaliação de diagnóstico no desenvolvimento de MLLMs confiáveis.

Rastrear, Pintar, Ressemear: Geração 3D e 4D Orientada a Objetos com Preenchimento Progressivo de Textura
Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

Oct 27

ByShuhong Zheng, Ashkan Mirzaei, Igor Gilitschenski

Os métodos atuais de geração 3D/4D são geralmente otimizados para fotorrealismo, eficiência e estética. No entanto, eles frequentemente falham em preservar a identidade semântica do sujeito em diferentes pontos de vista. A adaptação de métodos de geração com uma ou poucas imagens de um sujeito específico (conhecida como Personalização ou Geração Orientada por Sujeito) permite criar conteúdo visual alinhado com a identidade do sujeito. Contudo, a geração 3D/4D personalizada ainda permanece amplamente inexplorada. Neste trabalho, introduzimos o TIRE (Track, Inpaint, REsplat), um método inovador para geração 3D/4D orientada por sujeito. Ele utiliza um recurso 3D inicial produzido por um modelo generativo 3D existente como entrada e emprega rastreamento de vídeo para identificar as regiões que necessitam de modificação. Em seguida, adotamos um modelo de inpaint 2D orientado por sujeito para preencher progressivamente as regiões identificadas. Finalmente, realizamos o resplat das observções 2D multi-view modificadas de volta para 3D, mantendo a consistência. Experimentos extensivos demonstram que nossa abordagem melhora significativamente a preservação de identidade na geração 3D/4D em comparação com métodos state-of-the-art. Nosso site do projeto está disponível em https://zsh2000.github.io/track-inpaint-resplat.github.io/.

SyncHuman: Sincronizando Modelos Generativos 2D e 3D para Reconstrução Humana a Partir de Visão Única
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction

Oct 9

ByWenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu

A reconstrução fotorealista de corpos humanos completos em 3D a partir de uma única imagem é uma tarefa crítica, mas desafiadora, para aplicações em filmes e videojogos devido a ambiguidades inerentes e severas auto-oclusões. Embora abordagens recentes aproveitem a estimativa SMPL e modelos generativos de imagem condicionados por SMPL para alucinar novas perspetivas, elas sofrem com priors 3D imprecisos estimados a partir de malhas SMPL e têm dificuldade em lidar com poses humanas difíceis e reconstruir detalhes finos. Neste artigo, propomos o SyncHuman, uma nova estrutura que combina, pela primeira vez, um modelo generativo multivista 2D e um modelo generativo nativo 3D, permitindo a reconstrução de alta qualidade de malhas humanas vestidas a partir de imagens de vista única, mesmo sob poses humanas desafiadoras. O modelo generativo multivista destaca-se na captura de detalhes 2D finos, mas luta com a consistência estrutural, enquanto o modelo generativo nativo 3D gera formas 3D grosseiras, mas estruturalmente consistentes. Ao integrar os pontos fortes complementares destas duas abordagens, desenvolvemos uma estrutura de geração mais eficaz. Especificamente, primeiro afinamos conjuntamente o modelo generativo multivista e o modelo generativo nativo 3D com a proposta atenção de sincronização 2D-3D alinhada por píxel para produzir formas 3D geometricamente alinhadas e imagens multivista 2D. Para melhorar ainda mais os detalhes, introduzimos um mecanismo de injeção de características que levanta detalhes finos das imagens multivista 2D para as formas 3D alinhadas, permitindo uma reconstrução precisa e de alta fidelidade. Experimentos extensivos demonstram que o SyncHuman alcança uma reconstrução 3D humana robusta e fotorealista, mesmo para imagens com poses desafiadoras. O nosso método supera os métodos de base em precisão geométrica e fidelidade visual, demonstrando uma direção promissora para futuros modelos de geração 3D.

CLI do Servidor de Linguagem Capacita Agentes de Linguagem com Recompensas de Processo
Language Server CLI Empowers Language Agents with Process Rewards

Oct 27

ByYifan Zhang, Lanser Contributors

Os modelos de linguagem de grande escala frequentemente alucinam APIs e deslocalizam edições, enquanto os servidores de linguagem computam factos verificados de nível IDE sobre código real. Apresentamos o Lanser-CLI, uma camada de orquestração prioritária para CLI que fixa e media um servidor do Protocolo de Servidor de Linguagem (LSP) para agentes de codificação e CI, expondo fluxos de trabalho determinísticos e reproduzíveis. A nossa posição é que os servidores de linguagem fornecem não apenas informação estrutural (definições, referências, tipos, diagnósticos), mas também uma recompensa de processo acionável: sinais máquina-verificados e passo a passo que alinham o ciclo de planeamento de um agente com a realidade do programa. Neste trabalho, o Lanser-CLI contribui com: (i) um esquema robusto de endereçamento para além do frágil "ficheiro:linha:coluna" através de uma DSL de Seletores (seletores simbólicos, de caminho-AST e ancorados em conteúdo) com um algoritmo de relocalização fundamentado; (ii) Pacotes de Análise determinísticos que normalizam as respostas do Servidor de Linguagem e capturam metadados de ambiente/capacidade com hashes de conteúdo estáveis; (iii) um envelope de segurança para operações de mutação (renomear, ações de código) com pré-visualização, áreas restritas de workspace e aplicação transacional com consciência do Git; e (iv) um funcional de recompensa de processo derivado de factos do Servidor de Linguagem (deltas de diagnóstico, confiança de desambiguação e verificações de aplicação segura) que é computável online e reproduzível offline. Formalizamos o determinismo sob instantâneos congelados e estabelecemos uma propriedade de monotonicidade para a recompensa de processo, tornando-a adequada para supervisão de processo e análise contrafactual. Página do Projeto: https://github.com/yifanzhang-pro/lanser-cli

Leis de Escala para Detecção de Deepfakes
Scaling Laws for Deepfake Detection

Oct 18

ByWenhao Wang, Longqi Cai, Taihong Xiao, Yuxiao Wang, Ming-Hsuan Yang

Este artigo apresenta um estudo sistemático das leis de escalonamento para a tarefa de detecção de deepfakes. Especificamente, analisamos o desempenho do modelo em relação ao número de domínios de imagens reais, métodos de geração de deepfakes e imagens de treinamento. Como nenhum conjunto de dados existente atende aos requisitos de escala para esta pesquisa, construímos o ScaleDF, o maior conjunto de dados até o momento nesta área, que contém mais de 5,8 milhões de imagens reais de 51 conjuntos de dados (domínios) diferentes e mais de 8,8 milhões de imagens falsas geradas por 102 métodos de deepfake. Utilizando o ScaleDF, observamos uma lei de potência de escalonamento semelhante à demonstrada em modelos de linguagem de grande escala (LLMs). Especificamente, o erro médio de detecção segue um decaimento previsível segundo uma lei de potência à medida que o número de domínios reais ou o número de métodos de deepfake aumenta. Esta observação fundamental não só nos permite prever o número adicional de domínios reais ou métodos de deepfake necessários para atingir um desempenho desejado, mas também nos inspira a combater a tecnologia de deepfake em evolução de uma maneira centrada em dados. Além disso, examinamos o papel do pré-treinamento e das aumentações de dados na detecção de deepfakes sob escalonamento, bem como as limitações do próprio escalonamento.

Era Uma Vez uma Entrada: Raciocínio via Síntese de Programa por Instância
Once Upon an Input: Reasoning via Per-Instance Program Synthesis

Oct 26

ByAdam Stein, Neelay Velingker, Mayur Naik, Eric Wong

Os grandes modelos de linguagem (LLMs) destacam-se na inferência *zero-shot*, mas continuam a ter dificuldades com raciocínios complexos e de múltiplos passos. Métodos recentes que aumentam os LLMs com passos de raciocínio intermédios, como a *Chain of Thought* (CoT) e a *Program of Thought* (PoT), melhoram o desempenho, mas frequentemente produzem soluções indesejadas, especialmente em domínios algorítmicos. Apresentamos a Síntese de Programas por Instância (PIPS), um método que gera e refina programas ao nível da instância, utilizando *feedback* estrutural sem depender de orientação específica da tarefa ou de casos de teste explícitos. Para melhorar ainda mais o desempenho, o PIPS incorpora uma métrica de confiança que escolhe dinamicamente entre a inferência direta e a síntese de programas numa base por instância. Experiências realizadas em três LLMs de ponta e 30 *benchmarks*, incluindo todas as tarefas do *Big Bench Extra Hard* (BBEH), tarefas de resposta a questões visuais, tarefas de raciocínio relacional e tarefas de raciocínio matemático, mostram que o PIPS melhora a precisão média harmónica absoluta em até 8,6% e 9,4% em comparação com PoT e CoT, respetivamente, e reduz as gerações de programas indesejáveis em 65,1% nas tarefas algorítmicas em comparação com PoT usando o Gemini-2.0-Flash.

EchoDistill: Destilação Bidirecional de Conceitos para a Personalização em Uma Etapa de Difusão
EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

Oct 23

ByYixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang

Os recentes avanços na aceleração de modelos de difusão texto-imagem (T2I) permitiram a síntese de imagens de alta fidelidade em até uma única etapa. No entanto, a personalização desses modelos para incorporar novos conceitos permanece um desafio devido à capacidade limitada dos modelos de etapa única para capturar distribuições de novos conceitos de forma eficaz. Propomos uma estrutura de destilação conceitual bidirecional, EchoDistill, para permitir a personalização de difusão em uma etapa (1-SDP). Nossa abordagem envolve um processo de treinamento end-to-end no qual um modelo de difusão multi-etapa (professor) e um modelo de difusão de etapa única (estudante) são treinados simultaneamente. O conceito é primeiro destilado do modelo professor para o estudante e depois ecoado de volta do estudante para o professor. Durante o EchoDistill, compartilhamos o codificador de texto entre os dois modelos para garantir uma compreensão semântica consistente. Após isso, o modelo estudante é otimizado com perdas adversariais para se alinhar com a distribuição de imagens reais e com perdas de alinhamento para manter a consistência com a saída do professor. Além disso, introduzimos a estratégia de refinamento por eco bidirecional, na qual o modelo estudante aproveita sua capacidade de geração mais rápida para fornecer feedback ao modelo professor. Este mecanismo de destilação conceitual bidirecional não apenas aprimora a capacidade do estudante de personalizar novos conceitos, mas também melhora a qualidade generativa do modelo professor. Nossos experimentos demonstram que esta estrutura colaborativa supera significativamente os métodos de personalização existentes na configuração 1-SDP, estabelecendo um novo paradigma para personalização rápida e eficaz em modelos de difusão T2I.

Modelos de Linguagem Baseados em Memória: Uma Abordagem Eficiente, Explicável e Ecológica para Modelos de Linguagem de Grande Porte
Memory-based Language Models: An Efficient, Explainable, and Eco-friendly Approach to Large Language Modeling

Oct 25

ByAntal van den Bosch, Ainhoa Risco Patón, Teun Buijse, Peter Berck, Maarten van Gompel

Apresentamos a modelagem de linguagem baseada em memória como uma alternativa eficiente e ecologicamente correta à modelagem de linguagem baseada em redes neurais profundas. Ela oferece desempenho de previsão do próximo token escalável log-linearmente e fortes capacidades de memorização. Implementando aproximações rápidas de classificação por k-vizinhos mais próximos, a modelagem de linguagem baseada em memória deixa uma pegada ecológica relativamente pequena tanto no treinamento quanto no modo de inferência, uma vez que depende totalmente de CPUs e atinge baixas latências por token. Seu funcionamento interno é simples e totalmente transparente. Comparamos nossa implementação de modelagem de linguagem baseada em memória, OLIFANT, com GPT-2 e GPT-Neo em precisão de previsão do próximo token, emissões estimadas e velocidades, e oferecemos algumas análises mais aprofundadas do modelo.

DiffusionLane: Modelo de Difusão para Detecção de Faixas
DiffusionLane: Diffusion Model for Lane Detection

Oct 25

ByKunyang Zhou, Yeqin Shao

Neste artigo, apresentamos um novo modelo baseado em difusão para detecção de faixas, denominado DiffusionLane, que trata a tarefa de detecção de faixas como um processo de difusão de remoção de ruído no espaço de parâmetros da faixa. Primeiramente, adicionamos ruído Gaussiano aos parâmetros (ponto inicial e ângulo) das faixas de referência (ground truth) para obter âncoras de faixa ruidosas, e o modelo aprende a refinar essas âncoras de forma progressiva para obter as faixas alvo. Em segundo lugar, propomos uma estratégia de decodificação híbrida para abordar a fraca representação de características do codificador, resultante das âncoras de faixa ruidosas. Especificamente, projetamos um decodificador de difusão híbrido para combinar decodificadores de nível global e nível local, visando âncoras de faixa de alta qualidade. Em seguida, para melhorar a representação de características do codificador, empregamos um cabeçalho auxiliar na fase de treinamento para adotar âncoras de faixa aprendíveis, enriquecendo assim a supervisão sobre o codificador. Resultados experimentais em quatro benchmarks, Carlane, Tusimple, CULane e LLAMAS, mostram que o DiffusionLane possui uma forte capacidade de generalização e um desempenho de detecção promissor em comparação com os métodos state-of-the-art anteriores. Por exemplo, o DiffusionLane com ResNet18 supera os métodos existentes em pelo menos 1% de precisão no conjunto de dados de adaptação de domínio Carlane. Além disso, o DiffusionLane com MobileNetV4 obtém 81,32% de pontuação F1 no CULane, 96,89% de precisão no Tusimple com ResNet34 e 97,59% de pontuação F1 no LLAMAS com ResNet101. O código estará disponível em https://github.com/zkyntu/UnLanedet.

Sprint: Fusão Residual Esparso-Densa para Transformadores de Difusão Eficientes
Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

Oct 24

ByDogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag

Os Diffusion Transformers (DiTs) oferecem desempenho generativo de última geração, mas o seu custo quadrático de treinamento em relação ao comprimento da sequência torna o pré-treinamento em larga escala proibitivamente caro. O descarte de *tokens* pode reduzir o custo de treinamento, mas estratégias ingênuas degradam as representações, e os métodos existentes são ou muito parametrizados ou falham em altas taxas de descarte. Apresentamos o SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, um método simples que permite um descarte agressivo de *tokens* (até 75%) enquanto preserva a qualidade. O SPRINT aproveita os papéis complementares das camadas rasas e profundas: as camadas iniciais processam todos os *tokens* para capturar detalhes locais, as camadas mais profundas operam em um subconjunto esparso para reduzir a computação, e as suas saídas são fundidas através de conexões residuais. O treinamento segue um cronograma de dois estágios: um longo pré-treinamento mascarado para eficiência, seguido por um curto ajuste fino com todos os *tokens* para fechar a lacuna entre treinamento e inferência. No ImageNet-1K 256x256, o SPRINT alcança uma economia de treinamento de 9,8x com FID/FDD comparáveis, e na inferência, sua *Path-Drop Guidance* (PDG) reduz quase pela metade os FLOPS enquanto melhora a qualidade. Estes resultados estabelecem o SPRINT como uma solução simples, eficaz e geral para o treinamento eficiente de DiTs.

FlowOpt: Otimização Rápida Através de Processos de Fluxo Integral para Edição Livre de Treinamento
FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editing

Oct 24

ByOr Ronai, Vladimir Kulikov, Tomer Michaeli

O notável sucesso dos modelos de difusão e correspondência de fluxo (flow-matching) desencadeou uma onda de trabalhos que os adaptam em tempo de teste para tarefas de geração controlada. Os exemplos variam desde edição de imagens até restauração, compressão e personalização. No entanto, devido à natureza iterativa do processo de amostragem nesses modelos, é computacionalmente impraticável usar otimização baseada em gradiente para controlar diretamente a imagem gerada ao final do processo. Como resultado, os métodos existentes geralmente recorrem à manipulação de cada passo de tempo separadamente. Aqui, introduzimos o FlowOpt - uma estrutura de otimização de ordem zero (livre de gradiente) que trata todo o processo de fluxo como uma caixa preta, permitindo a otimização ao longo de todo o caminho de amostragem sem retropropagação (backpropagation) através do modelo. Nosso método é altamente eficiente e permite que os usuários monitorem os resultados intermediários da otimização e realizem uma parada antecipada, se desejado. Provamos uma condição suficiente para o tamanho do passo do FlowOpt, sob a qual a convergência para o ótimo global é garantida. Mostramos ainda como estimar empiricamente esse limite superior para escolher um tamanho de passo apropriado. Demonstramos como o FlowOpt pode ser usado para edição de imagens, apresentando duas opções: (i) inversão (determinar o ruído inicial que gera uma determinada imagem) e (ii) direcionar diretamente a imagem editada para ser semelhante à imagem de origem, ao mesmo tempo em que se adequa a um prompt de texto de destino. Em ambos os casos, o FlowOpt alcança resultados de última geração (state-of-the-art) usando aproximadamente o mesmo número de avaliações de função neural (NFEs) que os métodos existentes. O código e os exemplos estão disponíveis na página do projeto.

MARS-M: Quando a Redução de Variância Encontra as Matrizes
MARS-M: When Variance Reduction Meets Matrices

Oct 20

ByYifeng Liu, Angela Yuan, Quanquan Gu

Os otimizadores pré-condicionados baseados em matrizes, como o Muon, demonstraram recentemente maior eficiência do que os otimizadores baseados em escalares para o treinamento de redes neurais em larga escala, incluindo grandes modelos de linguagem (LLMs). Por outro lado, benchmarks recentes sobre otimizadores para pré-treinamento de LLMs demonstraram que técnicas de redução de variância, como o MARS, podem alcançar acelerações substanciais em relação a otimizadores padrão que não empregam redução de variância. Neste artigo, para obter o melhor dos dois mundos, introduzimos o MARS-M, um novo otimizador que integra a técnica de redução de variância do MARS com o Muon. Sob condições de regularidade padrão, provamos que o Muon-M converge para um ponto estacionário de primeira ordem a uma taxa de \(\mathcal{O}(T^{-1/3})\), o que representa uma melhoria em relação à taxa de \(\mathcal{O}(T^{-1/4})\) atingida pelo Muon. Nossos resultados empíricos em tarefas de modelagem de linguagem e visão computacional demonstram que o MARS-M produz consistentemente perdas menores e desempenho melhorado em vários benchmarks *downstream*. A implementação do MARS-M está disponível em https://github.com/AGI-Arena/MARS/MARS_M.

Mitigação de Sumidouros de Atenção e Ativações Maciças no Reconhecimento de Fala Áudio-Visual com LLMs
Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

Oct 26

ByAnand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic

Os grandes modelos de linguagem (LLMs) têm avançado recentemente o reconhecimento de fala auditivo (ASR), o reconhecimento de fala visual (VSR) e o reconhecimento de fala audiovisual (AVSR). No entanto, a compreensão da sua dinâmica interna durante o *fine-tuning* permanece limitada. No processamento de linguagem natural, trabalhos recentes revelaram *attention sinks* (sumidouros de atenção), tokens que atraem atenção desproporcionalmente alta, e as ativações massivas associadas, nas quais algumas características dos tokens *sink* exibem ativação enorme nos LLMs. Neste trabalho, somos os primeiros a estudar estes fenômenos no reconhecimento de fala multimodal. Através de uma análise detalhada de LLMs audiovisuais, identificamos *attention sinks* e ativações massivas não apenas no token BOS, mas também em tokens intermediários de baixa semântica em ASR, VSR e AVSR. Mostramos que as ativações massivas se originam nas camadas MLP e correspondem a índices de características fixos em todos os tokens *sink*. Mostramos ainda que os tokens *sink* intermediários exibem alta similaridade de cosseno com o token BOS, amplificando assim a atenção e a ativação. Com base nessas percepções, introduzimos uma simples função de perda de descorrelação que reduz a similaridade de cosseno entre o BOS e outros tokens, mitigando efetivamente os *sinks* intermediários e as ativações massivas. Além disso, o nosso método melhora a taxa de erro de palavras (WER) sob alta subamostragem de características audiovisuais, mantendo-se estável em taxas de subamostragem mais baixas.