HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

41 papers found

O Demônio por Trás do Moltbook: A Segurança Antrópica Está Sempre a Desvanecer-se em Sociedades de IA Auto-Evolutivas
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Feb 10

ByChenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu

197

O surgimento de sistemas multiagentes construídos a partir de grandes modelos de linguagem (LLMs) oferece um paradigma promissor para a inteligência coletiva escalável e a auto-evolução. Idealmente, tais sistemas alcançariam uma melhoria contínua em um ciclo completamente fechado, mantendo ao mesmo tempo um alinhamento robusto de segurança – uma combinação que denominamos de trilema da auto-evolução. No entanto, demonstramos tanto teórica quanto empiricamente que uma sociedade de agentes que satisfaça a auto-evolução contínua, o isolamento completo e a invariância de segurança é impossível. Com base em um arcabouço teórico da informação, formalizamos a segurança como o grau de divergência em relação a distribuições de valores antrópicos. Demonstramos teoricamente que a auto-evolução isolada induz pontos cegos estatísticos, levando à degradação irreversível do alinhamento de segurança do sistema. Resultados empíricos e qualitativos de uma comunidade de agentes de mundo aberto (Moltbook) e de dois sistemas fechados de auto-evolução revelam fenômenos que se alinham com a nossa previsão teórica de erosão inevitável da segurança. Propomos ainda várias direções de solução para atenuar a preocupação de segurança identificada. O nosso trabalho estabelece um limite fundamental para as sociedades de IA auto-evolutivas e desloca o discurso dos remendos de segurança orientados a sintomas para uma compreensão fundamentada dos riscos dinâmicos intrínsecos, destacando a necessidade de supervisão externa ou de novos mecanismos de preservação da segurança.

Composition-RL: Componha Seus Prompts Verificáveis para Aprendizagem por Reforço de Modelos de Linguagem de Grande Porte
Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Feb 12

ByXin Xu, Clive Bai, Kai Yang, Tianhao Chen, Yangkun Chen, Weijie Liu, Hao Chen, Yang Wang, Saiyong Yang, Can Yang

Os prompts verificáveis em larga escala sustentam o sucesso do Aprendizado por Reforço com Recompensas Verificáveis (RLVR), mas contêm muitos exemplos pouco informativos e são custosos para expandir. Estudos recentes concentram-se em explorar melhor os dados de treinamento limitados, priorizando prompts difíceis cuja taxa de aprovação (rollout pass rate) é 0. No entanto, prompts fáceis com taxa de aprovação de 1 também se tornam cada vez mais prevalentes com o progresso do treinamento, reduzindo assim o tamanho efetivo dos dados. Para mitigar isso, propomos o Composition-RL, uma abordagem simples mas útil para melhor utilizar prompts verificáveis limitados, direcionando-se especificamente aos prompts com taxa de aprovação 1. Mais especificamente, o Composition-RL compõe automaticamente múltiplos problemas em uma nova questão verificável e utiliza esses prompts composicionais para o treinamento por RL. Experimentos extensos em modelos com tamanhos variando de 4B a 30B mostram que o Composition-RL melhora consistentemente a capacidade de raciocínio em relação ao RL treinado no conjunto de dados original. O desempenho pode ser ainda mais impulsionado com uma variante curricular do Composition-RL que aumenta gradualmente a profundidade composicional durante o treinamento. Adicionalmente, o Composition-RL permite um RL mais eficaz entre domínios (cross-domain) ao compor prompts extraídos de diferentes domínios. Códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/XinXU-USTC/Composition-RL.

DeepGen 1.0: Um Modelo Multimodal Unificado e Leve para o Avanço da Geração e Edição de Imagens
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Feb 12

ByDianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang

Os modelos multimodais unificados atuais para geração e edição de imagens geralmente dependem de escalas massivas de parâmetros (ex: >10B), implicando custos proibitivos de treinamento e pegadas de implantação. Neste trabalho, apresentamos o DeepGen 1.0, um modelo unificado leve de 5B que alcança capacidades abrangentes competitivas ou superiores a contrapartidas muito maiores. Para superar as limitações de modelos compactos em compreensão semântica e controle refinado, introduzimos o Stacked Channel Bridging (SCB), uma estrutura de alinhamento profundo que extrai características hierárquicas de múltiplas camadas de VLM e as funde com 'tokens de pensamento' aprendíveis para fornecer ao backbone gerativo uma orientação estruturada e rica em raciocínio. Projetamos ainda uma estratégia de treinamento centrada em dados abrangendo três estágios progressivos: (1) Pré-treinamento de Alinhamento em pares massivos de imagem-texto e tripletos de edição para sincronizar representações de VLM e DiT, (2) Ajuste Fino Supervisionado Conjunto em uma mistura de alta qualidade de tarefas de geração, edição e raciocínio para desenvolver capacidades omni, e (3) Aprendizado por Reforço com MR-GRPO, que aproveita uma mistura de funções de recompensa e sinais de supervisão, resultando em ganhos substanciais na qualidade de geração e alinhamento com preferências humanas, enquanto mantém progresso de treinamento estável e evita artefatos visuais. Apesar de treinado em apenas ~50M de amostras, o DeepGen 1.0 alcança desempenho líder em diversos benchmarks, superando o HunyuanImage de 80B em 28% no WISE e o Qwen-Image-Edit de 27B em 37% no UniREditBench. Ao disponibilizar nosso código de treinamento, pesos e conjuntos de dados em código aberto, fornecemos uma alternativa eficiente e de alto desempenho para democratizar a pesquisa multimodal unificada.

GigaBrain-0.5M: um Modelo de Linguagem Visível que Aprende a partir de Aprendizagem por Reforço Baseada em Modelo Mundial
GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning

Feb 12

ByGigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

Os modelos visão-linguagem-ação (VLA) que preveem diretamente sequências de ações multi-etapa a partir de observações atuais enfrentam limitações inerentes devido à compreensão restrita da cena e a capacidades fracas de antecipação futura. Em contraste, os modelos de mundo de vídeo pré-treinados em corpora de vídeo em escala da web exibem raciocínio espaço-temporal robusto e previsão futura precisa, tornando-os uma base natural para aprimorar o aprendizado VLA. Portanto, propomos o GigaBrain-0.5M*, um modelo VLA treinado via aprendizado por reforço baseado em modelo de mundo. Construído sobre o GigaBrain-0.5, que é pré-treinado em mais de 10.000 horas de dados de manipulação robótica, cuja versão intermediária atualmente ocupa a primeira posição no benchmark internacional RoboChallenge. O GigaBrain-0.5M* integra ainda mais o aprendizado por reforço baseado em modelo de mundo via RAMP (Reinforcement leArning via world Model-conditioned Policy) para permitir uma adaptação robusta entre tarefas. Resultados empíricos demonstram que o RAMP alcança ganhos substanciais de desempenho sobre a linha de base RECAP, produzindo melhorias de aproximadamente 30% em tarefas desafiadoras, incluindo Dobragem de Roupa, Empacotamento de Caixas e Preparo de Espresso. Criticalmente, o GigaBrain-0.5M* exibe execução confiável de longo horizonte, realizando consistentemente tarefas complexas de manipulação sem falhas, conforme validado por vídeos de implantação no mundo real em nossa {página do projeto}[https://gigabrain05m.github.io].

Aprendizagem Além do Professor: Destilação Generalizada em Tempo Real com Extrapolação de Recompensa
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Feb 12

ByWenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin

A destilação em política (OPD), que alinha o aluno com a distribuição de logits do professor em trajetórias geradas pelo aluno, demonstrou ganhos empíricos significativos na melhoria do desempenho do aluno e frequentemente supera os paradigmas de destilação fora da política e de aprendizagem por reforço (RL). Neste trabalho, primeiro demonstramos teoricamente que a OPD é um caso especial de RL densa com restrição de KL, onde a função de recompensa e a regularização KL são sempre ponderadas igualmente e o modelo de referência pode ser qualquer modelo. Em seguida, propomos a estrutura de Destilação Generalizada em Política (G-OPD), que estende o objetivo padrão da OPD ao introduzir um modelo de referência flexível e um fator de escala de recompensa que controla o peso relativo do termo de recompensa contra a regularização KL. Através de experimentos abrangentes em tarefas de raciocínio matemático e geração de código, derivamos duas novas percepções: (1) Definir o fator de escala de recompensa para ser maior que 1 (ou seja, extrapolação de recompensa), que denominamos ExOPD, melhora consistentemente em relação à OPD padrão em uma variedade de pares de tamanho professor-aluno. Em particular, na configuração em que fundimos o conhecimento de diferentes especialistas de domínio, obtidos pela aplicação de RL específico de domínio ao mesmo modelo aluno, de volta ao aluno original, a ExOPD permite que o aluno ultrapasse até mesmo o limite de desempenho do professor e supere os professores de domínio. (2) Com base na ExOPD, descobrimos ainda que, na configuração de destilação forte-para-fraco (ou seja, destilar um aluno menor a partir de um professor maior), realizar a correção de recompensa escolhendo o modelo de referência como o modelo base do professor antes do RL produz um sinal de recompensa mais preciso e melhora ainda mais o desempenho da destilação. No entanto, esta escolha pressupõe o acesso à variante pré-RL do professor e incorre em maior sobrecarga computacional. Esperamos que o nosso trabalho ofereça novas perspetivas para futuras pesquisas sobre OPD.

MOSS-Audio-Tokenizer: Escalonamento de Tokenizadores de Áudio para Futuros Modelos de Base de Áudio
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Feb 11

ByYitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu

Os tokenizadores de áudio discretos são fundamentais para capacitar modelos de linguagem de grande escala com capacidades nativas de processamento e geração de áudio. Apesar dos progressos recentes, as abordagens existentes frequentemente dependem de codificadores pré-treinados, destilação semântica ou arquiteturas heterogéneas baseadas em CNN. Estes projetos introduzem vieses indutivos fixos que limitam a fidelidade de reconstrução e dificultam a escalabilidade eficaz. Neste artigo, argumentamos que a tokenização de áudio discreta deve ser aprendida de forma totalmente end-to-end usando uma arquitetura homogénea e escalável. Para esse fim, propomos primeiro o CAT (Causal Audio Tokenizer with Transformer), uma arquitetura puramente baseada em Transformer que otimiza conjuntamente o codificador, o quantizador e o decodificador a partir do zero para uma reconstrução de alta fidelidade. Com base na arquitetura CAT, desenvolvemos o MOSS-Audio-Tokenizer, um tokenizador de áudio de grande escala com 1,6 mil milhões de parâmetros, pré-treinado em 3 milhões de horas de dados de áudio diversos e gerais. Mostramos que esta abordagem simples, totalmente end-to-end, construída a partir de blocos Transformer homogéneos e causais, escala de forma graciosa e suporta reconstrução de alta fidelidade em diversos domínios de áudio. Em discurso, som e música, o MOSS-Audio-Tokenizer supera consistentemente os codecs anteriores numa ampla gama de taxas de bits, ao mesmo tempo que exibe melhorias previsíveis com o aumento de escala. Notavelmente, aproveitando os tokens discretos do nosso modelo, desenvolvemos o primeiro modelo TTS puramente autoregressivo que supera os sistemas não autoregressivos e em cascata anteriores. Além disso, o MOSS-Audio-Tokenizer permite um desempenho competitivo em ASR sem codificadores auxiliares. As nossas descobertas posicionam a arquitetura CAT como uma interface unificada e escalável para a próxima geração de modelos de base de áudio nativos.

NarraScore: Conectando Narrativa Visual e Dinâmica Musical através de Controle Afetivo Hierárquico
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Feb 9

ByYufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu

A síntese de trilhas sonoras coerentes para vídeos de longa duração permanece um desafio formidável, atualmente estagnada por três impedimentos críticos: escalabilidade computacional, coerência temporal e, mais crucialmente, uma cegueira semântica generalizada para a lógica narrativa em evolução. Para superar essas lacunas, propomos o NarraScore, uma estrutura hierárquica baseada na premissa central de que a emoção serve como uma compressão de alta densidade da lógica narrativa. De forma única, reaproveitamos Modelos de Visão e Linguagem (VLMs) congelados como sensores afetivos contínuos, destilando fluxos visuais de alta dimensão em trajetórias densas e conscientes da narrativa de Valência-Excitação. Mecanicamente, o NarraScore emprega uma estratégia de Injeção Dual para reconciliar a estrutura global com o dinamismo local: uma Âncora Semântica Global garante estabilidade estilística, enquanto um Adaptador Afetivo de Nível de Token modula a tensão local via injeção residual direta elemento a elemento. Este design minimalista contorna os gargalos da atenção densa e da clonagem arquitetônica, mitigando efetivamente os riscos de sobreajuste associados à escassez de dados. Experimentos demonstram que o NarraScore alcança consistência e alinhamento narrativo de última geração com sobrecarga computacional insignificante, estabelecendo um paradigma totalmente autônomo para a geração de trilhas sonoras para vídeos longos.

LawThinker: Um Agente Jurídico de Pesquisa Profunda em Ambientes Dinâmicos
LawThinker: A Deep Research Legal Agent in Dynamic Environments

Feb 12

ByXinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou

O raciocínio jurídico exige não apenas resultados corretos, mas também processos de fundamentação conformes ao procedimento. No entanto, os métodos existentes carecem de mecanismos para verificar as etapas intermediárias do raciocínio, permitindo que erros, como citações de artigos legais inaplicáveis, propaguem-se sem detecção pela cadeia de fundamentação. Para resolver isso, propomos o LawThinker, um agente autônomo de pesquisa jurídica que adota uma estratégia Explorar-Verificar-Memorizar para ambientes judiciais dinâmicos. A ideia central é impor a verificação como uma operação atômica após cada etapa de exploração de conhecimento. Um módulo DeepVerifier examina cada resultado de recuperação ao longo de três dimensões: precisão do conhecimento, relevância fato-direito e conformidade processual, contando com um módulo de memória para reutilização de conhecimento entre fases em tarefas de longo horizonte. Experimentos no benchmark dinâmico J1-EVAL mostram que o LawThinker alcança uma melhoria de 24% em relação ao raciocínio direto e um ganho de 11% sobre métodos baseados em fluxo de trabalho, com melhorias particularmente fortes em métricas orientadas ao processo. Avaliações em três benchmarks estáticos confirmam ainda mais sua capacidade de generalização. O código está disponível em https://github.com/yxy-919/LawThinker-agent.

Pensando com o Rascunho: Descompressão Óptica via Reconstrução Lógica
Thinking with Drafting: Optical Decompression via Logical Reconstruction

Feb 12

ByJingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan

Os modelos multimodais de grande dimensão existentes alcançaram percepção visual de alta fidelidade e geração visual exploratória. No entanto, persiste um paradoxo de precisão em tarefas complexas de raciocínio: os sistemas de percepção ótica transcrevem símbolos sem capturar a topologia lógica, enquanto os modelos generativos baseados em pixels produzem artefactos visuais carentes de exatidão matemática. Para colmatar esta lacuna, propomos que o raciocínio sobre inputs visuais seja reconceptualizado como descompressão ótica - o processo de reconstruir estruturas lógicas latentes a partir de tokens visuais comprimidos. Guiados pelo axioma de que Analisar é Raciocinar, introduzimos o Pensamento com Rascunho (TwD), que utiliza uma Linguagem Específica de Domínio (DSL) minimalista como representação intermédia de base. Ao contrário das abordagens padrão que alucinam respostas diretamente, o TwD força o modelo a esboçar o seu modelo mental em código executável, produzindo provas visuais determinísticas para auto-verificação. Para validar isto, apresentamos o VisAlg, um benchmark de álgebra visual. Experiências demonstram que o TwD funciona como um suporte cognitivo superior. O nosso trabalho estabelece um sistema de ciclo fechado onde a geração visual atua não como uma saída criativa, mas como um verificador lógico, oferecendo um caminho generalizável para o raciocínio visual.

Pense Mais para Explorar Melhor: Aprender a Explorar em Contexto através de Aprendizagem por Reforço com Incentivo à Extensão
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Feb 12

ByFuting Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin

A obtenção de uma escala eficaz no momento do teste requer que os modelos se envolvam na **Exploração em Contexto** – a capacidade intrínseca de gerar, verificar e refinar múltiplas hipóteses de raciocínio dentro de um único contexto contínuo. Fundamentada na teoria da **Cobertura de Estados**, nossa análise identifica um gargalo crítico para o desenvolvimento dessa capacidade: embora uma cobertura mais ampla de estados exija trajetórias de raciocínio mais longas, a probabilidade de amostrar tais sequências decai exponencialmente durante a geração autoregressiva, um fenômeno que denominamos de **"Armadilha da Exploração Superficial"**. Para superar essa lacuna, propomos a **Exploração com Incentivo de Comprimento** (\method). Esta receita simples, porém eficaz, incentiva explicitamente os modelos a explorarem mais por meio de uma recompensa baseada no comprimento, acoplada a uma penalidade por redundância, maximizando assim a cobertura de estados de maneira bifásica. Experimentos abrangentes com diferentes modelos (Qwen3, Llama) demonstram que o \method incentiva efetivamente a exploração em contexto. Como resultado, nosso método alcança uma melhoria média de 4,4% em tarefas do domínio interno e um ganho de 2,7% em benchmarks de domínio externo.

RISE: Política Robótica de Autoaprimoramento com Modelo de Mundo Composicional
RISE: Self-Improving Robot Policy with Compositional World Model

Feb 11

ByJiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li

Apesar da escalada sustentada na capacidade dos modelos e na aquisição de dados, os modelos Visão-Linguagem-Ação (VLA) permanecem frágeis em tarefas de manipulação dinâmicas e ricas em contato, onde pequenos desvios de execução podem se acumular e resultar em falhas. Embora o aprendizado por reforço (RL) ofereça um caminho fundamentado para a robustez, o RL *on-policy* no mundo físico é limitado pelo risco de segurança, custo de hardware e necessidade de reconfiguração do ambiente. Para preencher esta lacuna, apresentamos o RISE, uma estrutura escalável de aprendizado por reforço robótico via imaginação. Em seu núcleo está um Modelo de Mundo Composicional que (i) prevê o futuro multi-visão por meio de um modelo de dinâmica controlável e (ii) avalia resultados imaginados com um modelo de valor de progresso, produzindo vantagens informativas para o aprimoramento da política. Esse projeto composicional permite que o estado e o valor sejam adaptados por arquiteturas e objetivos distintos, porém mais adequados. Esses componentes são integrados em um pipeline de autoatualização em circuito fechado que gera continuamente rollouts imaginários, estima vantagens e atualiza a política no espaço imaginário sem interação física custosa. Em três tarefas desafiadoras do mundo real, o RISE produz uma melhoria significativa em relação ao estado da arte, com um aumento de desempenho absoluto superior a +35% na classificação dinâmica de tijolos, +45% no empacotamento de mochila e +35% no fechamento de caixa, respectivamente.

Traço do Inesperado: Ilusões Semânticas Progressivas no Desenho Vetorial
Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

Feb 12

ByHuai-Hsun Cheng, Siang-Ling Zhang, Yu-Lun Liu

As ilusões visuais tradicionalmente baseiam-se em manipulações espaciais, como a consistência multi-visão. Neste trabalho, introduzimos as Ilusões Semânticas Progressivas, uma nova tarefa de desenho vetorial na qual um único esboço sofre uma transformação semântica dramática através da adição sequencial de traços. Apresentamos o Stroke of Surprise, um framework generativo que otimiza traços vetoriais para satisfazer interpretações semânticas distintas em diferentes fases do desenho. O principal desafio reside na "restrição dupla": os traços iniciais do prefixo devem formar um objeto coerente (por exemplo, um pato) enquanto servem simultaneamente como base estrutural para um segundo conceito (por exemplo, uma ovelha) após a adição de traços delta. Para resolver isto, propomos um framework de otimização conjunta consciente da sequência, orientado por um mecanismo duplo de Score Distillation Sampling (SDS). Diferente de abordagens sequenciais que congelam o estado inicial, o nosso método ajusta dinamicamente os traços do prefixo para descobrir um "subespaço estrutural comum" válido para ambos os alvos. Adicionalmente, introduzimos uma nova Perda de Sobreposição que impõe complementaridade espacial, garantindo integração estrutural em vez de oclusão. Experiências extensivas demonstram que o nosso método supera significativamente os baseline state-of-the-art em reconhecibilidade e força de ilusão, expandindo com sucesso os anagramas visuais da dimensão espacial para a temporal. Página do projeto: https://stroke-of-surprise.github.io/

χ₀: Manipulação Robusta com Consciência de Recursos via Domesticação de Inconsistências Distribucionais
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

Feb 9

ByChecheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan

A manipulação robótica de longo horizonte com alta confiabilidade tradicionalmente dependia de dados e poder computacional em larga escala para compreender dinâmicas complexas do mundo real. No entanto, identificamos que o principal gargalo para a robustez no mundo real não é apenas a escala de recursos, mas a mudança distribucional entre a distribuição de demonstrações humanas, o viés indutivo aprendido pela política e a distribuição de execução em tempo de teste — uma inconsistência sistemática que causa erros compostos em tarefas multiestágio. Para mitigar essas inconsistências, propomos χ₀, uma estrutura eficiente em recursos com módulos eficazes designados para alcançar robustez em nível de produção na manipulação robótica. Nossa abordagem é construída sobre três pilares técnicos: (i) Aritmética de Modelos, uma estratégia de fusão no espaço de pesos que absorve eficientemente distribuições diversas de diferentes demonstrações, variando desde aparência de objetos até variações de estado; (ii) Vantagem por Estágio, um estimador de vantagem consciente do estágio que fornece sinais de progresso densos e estáveis, superando a instabilidade numérica de abordagens anteriores não segmentadas por estágios; e (iii) Alinhamento Treino-Implantação, que preenche a lacuna distribucional por meio de aumento espaço-temporal, correções heurísticas do tipo DAgger e suavização temporal por blocos. O χ₀ permite que dois conjuntos de robôs de duplo braço orchestrem colaborativamente a manipulação de peças de vestuário de longo horizonte, abrangendo tarefas desde alisar, dobrar, até pendurar diferentes roupas. Nosso método exibe autonomia de alta confiabilidade; conseguimos executar o sistema a partir de um estado inicial arbitrário por 24 horas consecutivas sem interrupção. Experimentos validam que o χ₀ supera o estado da arte π₀.₅ em taxa de sucesso em quase 250%, utilizando apenas 20 horas de dados e 8 GPUs A100. Código, dados e modelos serão liberados para facilitar a comunidade.

EgoHumanoid: Desbloqueando a Locomoção-Manipulação em Ambientes Naturais com Demonstração Egocêntrica Livre de Robôs
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Feb 10

ByModi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen

As demonstrações humanas oferecem uma rica diversidade ambiental e escalam naturalmente, tornando-se uma alternativa atrativa à teleoperação robótica. Embora este paradigma tenha avançado a manipulação com braços robóticos, seu potencial para o problema mais desafiador e com maior necessidade de dados da loco-manipulação de humanoides permanece amplamente inexplorado. Apresentamos o EgoHumanoid, o primeiro framework para co-treinar uma política visão-linguagem-ação utilizando abundantes demonstrações humanas egocêntricas juntamente com uma quantidade limitada de dados robóticos, permitindo que humanoides realizem loco-manipulação em diversos ambientes do mundo real. Para preencher a lacuna de corporificação entre humanos e robôs, incluindo discrepâncias na morfologia física e no ponto de vista, introduzimos um pipeline de alinhamento sistemático que abrange desde o design de hardware até o processamento de dados. Um sistema portátil para coleta escalável de dados humanos é desenvolvido, e estabelecemos protocolos de coleta práticos para melhorar a transferibilidade. No centro do nosso pipeline de alinhamento humano-humanoide estão dois componentes-chave. O alinhamento de visão reduz as discrepâncias de domínio visual causadas pela altura da câmera e variação de perspectiva. O alinhamento de ação mapeia os movimentos humanos para um espaço de ação unificado e cinematicamente viável para o controle do humanoide. Extensos experimentos no mundo real demonstram que a incorporação de dados egocêntricos livres de robôs supera significativamente as linhas de base apenas robóticas em 51%, particularmente em ambientes não vistos. Nossa análise revela ainda quais comportamentos são transferidos de forma eficaz e o potencial para escalar dados humanos.

dVoting: Votação Rápida para dLLMs
dVoting: Fast Voting for dLLMs

Feb 12

BySicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) representam um novo paradigma além da modelagem autoregressiva, oferecendo desempenho competitivo enquanto permitem naturalmente um processo de decodificação flexível. Especificamente, os dLLMs podem gerar *tokens* em posições arbitrárias em paralelo, dotando-os de um potencial significativo para escalonamento paralelo em tempo de teste, o que era anteriormente limitado pela severa ineficiência da modelagem autoregressiva. Neste trabalho, introduzimos o dVoting, uma técnica de votação rápida que aumenta a capacidade de raciocínio sem treinamento, com apenas uma sobrecarga computacional adicional aceitável. O dVoting é motivado pela observação de que, em múltiplas amostras para o mesmo *prompt*, as previsões de *tokens* permanecem amplamente consistentes, enquanto o desempenho é determinado por um pequeno subconjunto de *tokens* que exibe variabilidade entre amostras. Aproveitando a capacidade de geração em posição arbitrária dos dLLMs, o dVoting realiza refinamento iterativo por amostragem, identificando *tokens* incertos via análise de consistência, regenerando-os por votação e repetindo este processo até a convergência. Avaliações extensivas demonstram que o dVoting melhora consistentemente o desempenho em vários *benchmarks*. Ele alcança ganhos de 6,22%-7,66% no GSM8K, 4,40%-7,20% no MATH500, 3,16%-14,84% no ARC-C e 4,83%-5,74% no MMLU. Nosso código está disponível em https://github.com/fscdc/dVoting.

Voxtral em Tempo Real
Voxtral Realtime

Feb 11

ByAlexander H. Liu, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Sandeep Subramanian, Soham Ghosh, Srijan Mishra, Abhinav Rastogi, Alan Jeffares, Albert Jiang, Alexandre Sablayrolles, Amélie Héliou, Andrew Bai, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Benjamin Tibi, Clémence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Enguerrand Paquin, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Martin, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Indraneel Mukherjee, Irene Zhang, Jaeyoung Kim, Jan Ludziejewski, Jason Rute, Joachim Studnia, John Harvill, Jonas Amar, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Laurence Aitchison, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Piotr Miłoś, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Sagar Vaze, Samuel Humeau, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Valeriia Nemychnikova, Van Phung, Vedant Nanda, Victor Jouault, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yihan Wang, Zaccharie Ramzi, Zhenlin Xu

Apresentamos o Voxtral Realtime, um modelo de reconhecimento automático de fala com streaming nativo que iguala a qualidade de transcrição offline com latência inferior a um segundo. Diferente de abordagens que adaptam modelos offline através de segmentação ou janelas deslizantes, o Voxtral Realtime é treinado de ponta a ponta para streaming, com alinhamento explícito entre os fluxos de áudio e texto. Nossa arquitetura baseia-se na estrutura de Modelagem de Fluxos Atrasados, introduzindo um novo codificador de áudio causal e Ada RMS-Norm para melhor condicionamento de atraso. Escalonamos o pré-treinamento para um conjunto de dados de larga escala abrangendo 13 idiomas. Com um atraso de 480ms, o Voxtral Realtime alcança desempenho equivalente ao do Whisper, o sistema de transcrição offline mais amplamente implantado. Disponibilizamos os pesos do modelo sob a licença Apache 2.0.

Geração Esparsa de Vídeo Impulsiona Navegação Visão-Linguagem Além do Campo Visual no Mundo Real
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Feb 5

ByHai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li

Por que a navegação visão-linguagem deve estar vinculada a instruções linguísticas detalhadas e verbosas? Embora tais detalhes facilitem a tomada de decisões, eles contradizem fundamentalmente o objetivo da navegação no mundo real. Idealmente, os agentes devem possuir autonomia para navegar em ambientes desconhecidos guiados apenas por intenções simples e de alto nível. Realizar essa ambição introduz um desafio formidável: a Navegação Além do Campo Visual (BVN), onde os agentes devem localizar alvos distantes e não vistos sem orientação densa e passo a passo. Os métodos existentes baseados em modelos de linguagem grande (LLM), embora sejam habilidosos em seguir instruções densas, frequentemente sofrem de comportamentos míopes devido à sua dependência de supervisão de curto prazo. No entanto, simplesmente estender o horizonte de supervisão desestabiliza o treinamento de LLMs. Neste trabalho, identificamos que os modelos de geração de vídeo inerentemente se beneficiam da supervisão de longo prazo para se alinhar com instruções linguísticas, tornando-os singularmente adequados para tarefas de BVN. Capitalizando essa percepção, propomos introduzir o modelo de geração de vídeo neste campo pela primeira vez. No entanto, a latência proibitiva para gerar vídeos com duração de dezenas de segundos torna a implantação no mundo real impraticável. Para preencher essa lacuna, propomos o SparseVideoNav, alcançando inferência de trajetória em menos de um segundo guiada por um futuro esparso gerado abrangendo um horizonte de 20 segundos. Isso resulta em uma notável aceleração de 27x em comparação com a contraparte não otimizada. Experimentos extensivos de mundo real *zero-shot* demonstram que o SparseVideoNav alcança 2,5x a taxa de sucesso dos melhores métodos baseados em LLM em tarefas de BVN e marca a primeira realização de tal capacidade em cenas noturnas desafiadoras.

DeepSight: Um Kit de Ferramentas Completo para Segurança de Modelos de Linguagem
DeepSight: An All-in-One LM Safety Toolkit

Feb 12

ByBo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu

À medida que o desenvolvimento de Grandes Modelos (LMs) avança rapidamente, sua segurança também é uma prioridade. No fluxo de trabalho de segurança atual dos Grandes Modelos de Linguagem (LLMs) e dos Grandes Modelos de Linguagem Multimodal (MLLMs), a avaliação, o diagnóstico e o alinhamento de segurança são frequentemente tratados por ferramentas separadas. Especificamente, a avaliação de segurança só consegue localizar riscos comportamentais externos, mas não consegue identificar as causas-raiz internas. Entretanto, o diagnóstico de segurança frequentemente se afasta de cenários de risco concretos e permanece no nível explicativo. Dessa forma, o alinhamento de segurança carece de explicações dedicadas sobre as mudanças nos mecanismos internos, potencialmente degradando as capacidades gerais. Para abordar sistematicamente essas questões, propomos um projeto de código aberto, denominado DeepSight, para praticar um novo paradigma integrado de avaliação-diagnóstico de segurança. O DeepSight é um projeto de avaliação de segurança de modelos de larga escala de baixo custo, reproduzível, eficiente e altamente escalável, constituído por um kit de ferramentas de avaliação DeepSafe e um kit de ferramentas de diagnóstico DeepScan. Ao unificar protocolos de tarefa e dados, construímos uma conexão entre as duas etapas e transformamos a avaliação de segurança de uma visão de caixa-preta para uma de caixa-branca. Além disso, o DeepSight é o primeiro kit de ferramentas de código aberto que suporta a avaliação de riscos de IA de fronteira e a avaliação e diagnóstico conjuntos de segurança.

Adaptação de Modelos Visão-Linguagem para Compreensão de E-commerce em Escala
Adapting Vision-Language Models for E-commerce Understanding at Scale

Feb 12

ByMatteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi

A compreensão de produtos no comércio eletrónico exige, por natureza, uma forte capacidade de compreensão multimodal a partir de texto, imagens e atributos estruturados. Os Modelos de Visão e Linguagem (VLMs) de propósito geral permitem uma modelação latente multimodal generalizável, no entanto, não existe uma estratégia documentada e conhecida para os adaptar à natureza centrada em atributos, multi-imagem e ruidosa dos dados de e-commerce, sem sacrificar o desempenho geral. Neste trabalho, demonstramos através de um estudo experimental em larga escala como a adaptação direcionada de VLMs gerais pode melhorar substancialmente o desempenho no domínio do e-commerce, preservando ao mesmo tempo capacidades multimodais abrangentes. Adicionalmente, propomos um novo e extenso conjunto de avaliação que abrange a compreensão profunda de produtos, o seguimento estrito de instruções e a extração dinâmica de atributos.

Gaia2: Avaliação de Agentes de LLM em Ambientes Dinâmicos e Assíncronos
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Feb 12

ByRomain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom

Apresentamos o Gaia2, um benchmark para avaliação de agentes de modelos de linguagem grande em ambientes realistas e assíncronos. Diferentemente de avaliações estáticas ou síncronas anteriores, o Gaia2 introduz cenários onde os ambientes evoluem independentemente das ações do agente, exigindo que os agentes operem sob restrições temporais, adaptem-se a eventos dinâmicos e ruidosos, resolvam ambiguidades e colaborem com outros agentes. Cada cenário é emparelhado com um verificador de ação de escrita, permitindo uma avaliação refinada a nível de ação e tornando o Gaia2 diretamente utilizável para aprendizagem por reforço a partir de recompensas verificáveis. Nossa avaliação dos modelos proprietários e de código aberto mais avançados mostra que nenhum modelo domina todas as capacidades: o GPT-5 (high) atinge a pontuação geral mais forte de 42% pass@1, mas falha em tarefas sensíveis ao tempo; o Claude-4 Sonnet troca precisão e velocidade por custo; o Kimi-K2 lidera entre os modelos de código aberto com 21% pass@1. Esses resultados destacam trade-offs fundamentais entre raciocínio, eficiência, robustez e expõem desafios para fechar a lacuna "sim2real". O Gaia2 é construído em um ambiente de consumo com a plataforma de código aberto Agents Research Environments e projetado para ser facilmente estendido. Ao lançar o Gaia2 juntamente com a estrutura fundamental ARE, visamos fornecer à comunidade uma infraestrutura flexível para desenvolver, comparar e treinar a próxima geração de sistemas de agentes práticos.

PISCO: Inserção Precisa de Instâncias em Vídeo com Controle Esparsa
PISCO: Precise Video Instance Insertion with Sparse Control

Feb 9

ByXiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu

O cenário da geração de vídeos por IA está passando por uma mudança pivotal: a transição da geração geral - que depende de extensa engenharia de prompts e seleção manual ("cherry-picking") - para a geração de granularidade fina e controlável, com pós-processamento de alta fidelidade. No cinema profissional assistido por IA, é crucial realizar modificações precisas e direcionadas. Uma pedra angular dessa transição é a inserção de instâncias em vídeo, que requer a inserção de uma instância específica em uma filmagem existente, mantendo a integridade da cena. Diferente da edição de vídeo tradicional, essa tarefa exige vários requisitos: posicionamento espaço-temporal preciso, interação com a cena fisicamente consistente e a preservação fiel da dinâmica original - tudo alcançado com esforço mínimo do usuário. Neste artigo, propomos o PISCO, um modelo de difusão de vídeo para inserção precisa de instâncias com controle arbitrário de *keyframes* esparsos. O PISCO permite que os usuários especifiquem um único *keyframe*, *keyframes* de início e fim, ou *keyframes* esparsos em *timestamps* arbitrários, propagando automaticamente a aparência, o movimento e a interação do objeto. Para abordar a severa mudança de distribuição induzida pelo condicionamento esparso em modelos de difusão de vídeo pré-treinados, introduzimos a Orientação de Informação Variável para um condicionamento robusto e o Mascaramento Temporal de Preservação de Distribuição para estabilizar a geração temporal, juntamente com um condicionamento consciente da geometria para uma adaptação realista da cena. Além disso, construímos o PISCO-Bench, um *benchmark* com anotações de instâncias verificadas e vídeos de fundo limpos pareados, e avaliamos o desempenho usando métricas perceptuais baseadas em referência e livres de referência. Experimentos demonstram que o PISCO supera consistentemente as *baselines* fortes de *inpainting* e edição de vídeo sob controle esparso, e exibe melhorias de desempenho claras e monotônicas à medida que sinais de controle adicionais são fornecidos. Página do projeto: xiangbogaobarry.github.io/PISCO.

Revelando a Simetria de Vantagem Implícita: Por que o GRPO Luta com Exploração e Adaptação à Dificuldade
Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

Feb 5

ByZhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu

O Reforço de Aprendizagem com Recompensas Verificáveis (RLVR), particularmente o GRPO, tornou-se o padrão para eliciar o raciocínio em LLMs. No entanto, a sua eficiência na exploração e adaptação à dificuldade permanece um desafio em aberto. Neste trabalho, argumentamos que estes gargalos resultam de uma simetria de vantagem implícita inerente à Estimativa de Vantagem Relativa de Grupo (GRAE). Esta simetria induz duas limitações críticas: (i) ao nível do grupo, a simetria estrita nos pesos entre trajetórias corretas e incorretas deixa inalterados os *logits* de ações não amostradas, prejudicando assim a exploração de novas soluções corretas; (ii) ao nível da amostra, o algoritmo prioriza implicitamente amostras de dificuldade média, permanecendo agnóstico em relação às demandas não estacionárias do foco na dificuldade. Através de experiências controladas, revelamos que esta propriedade simétrica é subótima, produzindo duas perspetivas fundamentais: (i) a supressão assimétrica das vantagens das trajetórias corretas incentiva a exploração essencial; (ii) a eficiência de aprendizagem é maximizada por uma transição semelhante a um currículo, priorizando inicialmente amostras mais simples antes de mudar gradualmente para as complexas. Motivados por estas descobertas, propomos a GRAE Assimétrica (A-GRAE), que modula dinamicamente os incentivos à exploração e o foco na dificuldade das amostras. Experiências em sete *benchmarks* demonstram que a A-GRAE melhora consistentemente o GRPO e as suas variantes tanto em LLMs como em MLLMs.

ThinkRouter: Raciocínio Eficiente por meio do Roteamento do Pensamento entre Espaços Latentes e Discretos
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

Feb 12

ByXin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley, Saayan Mitra

Trabalhos recentes exploram o raciocínio latente para melhorar a eficiência do raciocínio, substituindo trajetórias explícitas de raciocínio por representações contínuas em um espaço latente, embora sua eficácia varie conforme os contextos. A análise da dinâmica da confiança do modelo sob raciocínio latente revela que trajetórias de pensamento que terminam em respostas incorretas contêm menos etapas de baixa confiança do que aquelas que terminam em respostas corretas. Paralelamente, sugerimos que *embeddings* suaves agregados por múltiplas alternativas de pensamento de baixa confiança podem introduzir e propagar ruído, levando a uma alta confiança em trajetórias de raciocínio não confiáveis. Motivados por essas observações, é proposto o ThinkRouter, um mecanismo de roteamento consciente da confiança durante a inferência, para evitar alta confiança e ruído, visando um raciocínio eficiente. O ThinkRouter direciona o pensamento para o espaço discreto de *tokens* quando a confiança do modelo é baixa, e para o espaço latente caso contrário. Experimentos extensos em benchmarks de raciocínio STEM e codificação, abrangendo diversos modelos de raciocínio de grande porte, demonstram que o ThinkRouter supera as linhas de base de CoT explícito, roteamento aleatório e raciocínio latente em termos de precisão, alcançando uma melhoria média de 19,70 pontos em Pass@1, enquanto reduz o comprimento da geração em até 15,55%. Uma análise abrangente adicional revela que o ThinkRouter pode calibrar erros decorrentes do CoT explícito e do raciocínio latente, e acelera a geração do *token* de fim do pensamento ao reduzir globalmente a confiança do modelo.

T3D: Modelos de Linguagem de Difusão em Poucos Passos via Autodistilação de Trajetória com Otimização Discriminativa Direta
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Feb 12

ByTunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas

Os modelos de linguagem de grande porte baseados em difusão (DLLMs) têm o potencial de permitir geração rápida de texto através da decodificação paralela de múltiplos tokens. No entanto, na prática, sua eficiência inferencial é limitada pela necessidade de muitas etapas de refinamento, enquanto a redução agressiva do número de etapas leva a uma degradação substancial na qualidade da geração. Para mitigar isso, propomos uma estrutura de autodestilação de trajetória que melhora a decodificação com poucas etapas através da destilação das próprias trajetórias generativas do modelo. Incorporamos a Otimização Discriminativa Direta (DDO), um objetivo de divergência reversa de Kullback-Leibler que promove uma destilação com busca de modos e incentiva o modelo estudante a concentrar-se nos modos de alta probabilidade do modelo professor. Em diversos benchmarks, nossa abordagem supera consistentemente linhas de base fortes com poucas etapas e o treinamento padrão sob orçamentos restritos de etapas. Embora a decodificação com todas as etapas permaneça superior, reduzimos substancialmente a diferença, estabelecendo uma base sólida para DLLMs práticos com poucas etapas. O código-fonte está disponível em https://github.com/Tyrion58/T3D.

As amplitudes de árvore de glúons single-minus são não nulas.
Single-minus gluon tree amplitudes are nonzero

Feb 12

ByAlfredo Guevara, Alexandru Lupsasca, David Skinner, Andrew Strominger, Kevin Weil

As amplitudes de espalhamento de n glúons em nível de árvore com helicidade única negativa são reexaminadas. Frequentemente presumidas como nulas, demonstra-se aqui que elas não se anulam para certas configurações "semicolineares" existentes no espaço de Klein ou para momentos complexificados. Derivamos uma expressão de forma fechada, constante por partes, para o decaimento de um glúon de helicidade única negativa em n-1 glúons de helicidade positiva em função de seus momentos. Esta fórmula satisfaz de forma não trivial múltiplas condições de consistência, incluindo o teorema de soft de Weinberg.

MemFly: Otimização de Memória em Tempo Real via Gargalo de Informação
MemFly: On-the-Fly Memory Optimization via Information Bottleneck

Feb 8

ByZhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue, Sirui Han, Yike Guo

A memória de longo prazo permite que agentes de modelos de linguagem grande lidem com tarefas complexas por meio de interações históricas. No entanto, as estruturas existentes enfrentam um dilema fundamental entre comprimir informações redundantes de forma eficiente e manter uma recuperação precisa para tarefas subsequentes. Para preencher essa lacuna, propomos o MemFly, uma estrutura baseada nos princípios do *information bottleneck* que facilita a evolução da memória em tempo real para LLMs. Nossa abordagem minimiza a entropia de compressão enquanto maximiza a entropia de relevância por meio de um otimizador *gradient-free*, construindo uma estrutura de memória estratificada para armazenamento eficiente. Para aproveitar plenamente o MemFly, desenvolvemos um mecanismo de recuperação híbrido que integra perfeitamente vias semânticas, simbólicas e topológicas, incorporando refinamento iterativo para lidar com consultas complexas de múltiplos saltos. Experimentos abrangentes demonstram que o MemFly supera substancialmente os *baselines* state-of-the-art em coerência de memória, fidelidade de resposta e precisão.

MiniCPM-SALA: Hibridização de Atenção Esparsa e Linear para Modelagem Eficiente de Contexto Longo
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Feb 12

ByMiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

A evolução de grandes modelos de linguagem (LLMs) para aplicações com contextos ultra-longos enfrenta desafios impostos pelos elevados custos computacionais e de memória da arquitetura Transformer. Embora os mecanismos de atenção esparsa e linear existentes tentem mitigar esses problemas, eles geralmente envolvem um compromisso entre eficiência de memória e desempenho do modelo. Este artigo apresenta o MiniCPM-SALA, uma arquitetura híbrida de 9B de parâmetros que integra a modelagem de contexto longo de alta fidelidade da atenção esparsa (InfLLM-V2) com a eficiência global da atenção linear (Lightning Attention). Ao empregar um algoritmo de seleção de camadas para integrar esses mecanismos numa proporção de 1:3 e utilizar uma codificação posicional híbrida (HyPE), o modelo mantém a eficiência e o desempenho em tarefas de contexto longo. Além disso, introduzimos uma estrutura de treino contínuo de baixo custo que transforma modelos pré-treinados baseados em Transformer em modelos híbridos, reduzindo os custos de treino em aproximadamente 75% em comparação com o treino a partir do zero. Experimentos extensivos mostram que o MiniCPM-SALA mantém capacidades gerais comparáveis aos modelos de atenção completa, ao mesmo tempo que oferece uma eficiência melhorada. Num único GPU NVIDIA A6000D, o modelo atinge até 3,5x a velocidade de inferência do modelo de atenção completa no comprimento de sequência de 256K *tokens* e suporta contextos de até 1M de *tokens*, uma escala na qual os modelos tradicionais de 8B com atenção completa falham devido a restrições de memória.

Sonhando em Código para Aprendizagem Curricular em Mundos Abertos
Dreaming in Code for Curriculum Learning in Open-Ended Worlds

Feb 9

ByKonstantinos Mitsides, Maxence Faldor, Antoine Cully

A aprendizagem de mundo aberto enquadra a inteligência como emergente da interação contínua com um espaço em constante expansão de ambientes. Embora avanços recentes tenham utilizado modelos de base (foundation models) para gerar ambientes diversos de forma programática, essas abordagens frequentemente focam na descoberta de comportamentos isolados em vez de orquestrar uma progressão sustentada. Em mundos abertos complexos, o grande espaço combinatório de desafios possíveis dificulta que os agentes descubram sequências de experiências que permaneçam consistentemente aprendíveis. Para resolver isso, propomos o Dreaming in Code (DiCode), uma estrutura na qual modelos de base sintetizam código executável de ambiente para estruturar (scaffold) a aprendizagem em direção a uma competência crescente. No DiCode, o "sonhar" assume a forma de materializar variações do mundo a nível de código. Instanciamos o DiCode no Craftax, um benchmark desafiador de mundo aberto caracterizado por mecânicas ricas e progressão de longo horizonte. Empiricamente, o DiCode permite que os agentes adquiram habilidades de longo horizonte, alcançando uma melhoria de 16% no retorno médio em relação à linha de base mais forte e sucesso não nulo em tarefas de combate do final do jogo, onde métodos anteriores falham. Nossos resultados sugerem que o design de ambientes a nível de código fornece um mecanismo prático para o controle curricular, permitindo a construção de ambientes intermediários que preenchem lacunas de competência em mundos abertos. A página do projeto e o código-fonte estão disponíveis em https://konstantinosmitsides.github.io/dreaming-in-code e https://github.com/konstantinosmitsides/dreaming-in-code.

Pré-treinamento de um Grande Modelo de Linguagem usando GPUs Distribuídas: Um Paradigma Descentralizado com Eficiência de Memória
Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Feb 12

ByJinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang

O pré-treinamento de grandes modelos de linguagem (LLMs) geralmente requer clusters centralizados com milhares de GPUs de alta memória (por exemplo, H100/A100). Métodos recentes de treinamento descentralizado reduzem a sobrecarga de comunicação empregando otimização federada; no entanto, eles ainda precisam treinar o modelo inteiro em cada nó, permanecendo limitados pelas restrições de memória da GPU. Neste trabalho, propomos o SPES (SParse Expert Synchronization), um framework descentralizado e eficiente em memória para pré-treinar LLMs do tipo mistura de especialistas (MoE). O SPES treina apenas um subconjunto de especialistas por nó, reduzindo substancialmente a pegada de memória. Cada nó atualiza seus especialistas locais e periodicamente sincroniza com outros nós, eliminando a transmissão de parâmetros completos enquanto garante um compartilhamento eficiente de conhecimento. Para acelerar a convergência, introduzimos uma estratégia de aquecimento por fusão de especialistas, na qual os especialistas trocam conhecimento no início do treinamento para estabelecer rapidamente capacidades fundamentais. Com o SPES, treinamos um LLM MoE de 2B parâmetros usando 16 GPUs independentes de 48GB em conexões de internet, o que alcança um desempenho competitivo com LLMs treinados centralmente sob orçamentos computacionais semelhantes. Demonstramos ainda a escalabilidade treinando um modelo de 7B do zero e um modelo de 9B reciclado a partir de um *checkpoint* denso, ambos equiparando-se a *baselines* centralizadas anteriores. Nosso código está disponível em https://github.com/zjr2000/SPES.

MolmoSpaces: Um Ecossistema Aberto de Grande Escala para Navegação e Manipulação de Robôs
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Feb 11

ByYejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna

A implantação de robôs em larga escala exige robustez para lidar com a longa cauda de situações do dia a dia. As inúmeras variações na disposição da cena, geometria dos objetos e especificações da tarefa que caracterizam ambientes reais são vastas e sub-representadas nos benchmarks existentes para robôs. Medir este nível de generalização requer uma infraestrutura com uma escala e diversidade que a avaliação física por si só não pode fornecer. Apresentamos o MolmoSpaces, um ecossistema totalmente aberto para suportar a avaliação em larga escala de políticas de robôs. O MolmoSpaces consiste em mais de 230 mil ambientes internos diversos, variando de cenas domésticas artesanais a casas com vários cômodos geradas proceduralmente, povoadas com 130 mil ativos de objetos ricamente anotados, incluindo 48 mil objetos manipuláveis com 42 milhões de pegas estáveis. Crucialmente, estes ambientes são independentes do simulador, suportando opções populares como MuJoCo, Isaac e ManiSkill. O ecossistema suporta todo o espectro de tarefas corporificadas: manipulação estática e móvel, navegação e tarefas de longo horizonte em múltiplos cômodos que exigem percepção, planeamento e interação coordenados em ambientes internos inteiros. Também concebemos o MolmoSpaces-Bench, um conjunto de benchmarks de 8 tarefas nas quais os robôs interagem com as nossas diversas cenas e objetos ricamente anotados. As nossas experiências mostram que o MolmoSpaces-Bench exibe uma forte correlação sim-para-real (R = 0,96, ρ = 0,98), confirmam que políticas zero-shot mais recentes e robustas superam versões anteriores nos nossos benchmarks e identificam sensibilidades-chave à formulação de instruções, posições articulares iniciais e oclusão da câmara. Através do MolmoSpaces e dos seus ativos e ferramentas de código aberto, fornecemos uma base para a geração escalável de dados, o treino de políticas e a criação de benchmarks para a investigação em aprendizagem de robôs.

ExStrucTiny: Um Benchmark para Extração de Informações Estruturadas com Esquema Variável em Imagens de Documentos
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Feb 12

ByMathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso

Documentos empresariais, como formulários e relatórios, incorporam informações críticas para aplicações subsequentes, como arquivamento de dados, fluxos de trabalho automatizados e análise. Embora os Modelos de Linguagem Visual (VLMs) generalistas tenham bom desempenho em benchmarks estabelecidos de compreensão de documentos, sua capacidade de realizar extração estruturada holística e granular em diversos tipos de documentos e esquemas flexíveis não é bem estudada. Os conjuntos de dados existentes para Extração de Entidades-Chave (KEE), Extração de Relações (RE) e Resposta a Perguntas Visuais (VQA) são limitados por ontologias de entidades restritas, consultas simples ou tipos de documentos homogéneos, frequentemente negligenciando a necessidade de extração estruturada e adaptável. Para colmatar estas lacunas, introduzimos o ExStrucTiny, um novo conjunto de dados de referência para Extração de Informação (EI) estruturada a partir de imagens de documentos, unificando aspetos de KEE, RE e VQA. Construído através de um *pipeline* inovador que combina amostras manuais e sintéticas validadas por humanos, o ExStrucTiny abrange tipos de documentos e cenários de extração mais variados. Analisamos VLMs abertos e fechados neste benchmark, destacando desafios como adaptação de esquema, subespecificação de consultas e localização de respostas. Esperamos que o nosso trabalho forneça uma base para melhorar modelos generalistas para EI estruturada em documentos.

Atribuição de Factos Multimodais para Raciocínio Verificável
Multimodal Fact-Level Attribution for Verifiable Reasoning

Feb 12

ByDavid Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

Os modelos de linguagem grandes multimodais (MLLMs) são cada vez mais utilizados em tarefas do mundo real que envolvem raciocínio multi-etapas e geração de texto longo, onde a confiabilidade exige que as saídas do modelo sejam fundamentadas em fontes de entrada heterogêneas e que afirmações factuais individuais sejam verificadas. No entanto, os benchmarks de fundamentação multimodal e os métodos de avaliação existentes concentram-se em cenários simplificados baseados em observação ou em modalidades limitadas, falhando em avaliar a atribuição no raciocínio multimodal complexo. Apresentamos o MuRGAt (Raciocínio Multimodal com Atribuição Fundamentada), um benchmark para avaliar a atribuição multimodal a nível factual em contextos que exigem raciocínio para além da observação direta. Dadas entradas que abrangem vídeo, áudio e outras modalidades, o MuRGAt exige que os modelos gerem respostas com raciocínio explícito e citações precisas, onde cada citação especifica tanto a modalidade quanto os segmentos temporais. Para permitir uma avaliação confiável, introduzimos um framework de avaliação automática que se correlaciona fortemente com os julgamentos humanos. A avaliação comparativa com pontuações humanas e automatizadas revela que mesmo MLLMs robustos frequentemente alucinam citações apesar de um raciocínio correto. Além disso, observamos um trade-off fundamental: aumentar a profundidade do raciocínio ou impor uma fundamentação estruturada frequentemente degrada a precisão, destacando uma lacuna significativa entre o raciocínio interno e a atribuição verificável.

Sci-CoE: Coevolução de LLMs de Raciocínio Científico via Consenso Geométrico com Supervisão Esparsa
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Feb 12

ByXiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang

Os grandes modelos de linguagem (LLMs) demonstraram capacidades excepcionais de raciocínio, e os paradigmas de coevolução têm mostrado resultados promissores em domínios como código e matemática. No entanto, em tarefas de raciocínio científico, esses modelos permanecem frágeis devido à avaliação não confiável de soluções e à diversidade limitada nas estratégias de verificação. Neste trabalho, propomos o Sci-CoE, uma estrutura científica de coevolução em dois estágios que permite aos modelos evoluírem como solucionadores e verificadores por meio de uma transição da supervisão esparsa para a aprendizagem não supervisionada. No primeiro estágio, o modelo utiliza um pequeno conjunto de dados anotados para estabelecer âncoras fundamentais de julgamento de correção para o Verificador. No segundo estágio, introduzimos um mecanismo de recompensa geométrica que considera conjuntamente consenso, confiabilidade e diversidade, impulsionando a autoiteração em larga escala sobre dados não rotulados. Experimentos em várias referências científicas gerais demonstram que o Sci-CoE aprimora as capacidades de raciocínio complexo e exibe forte escalabilidade, facilitando a construção de sistemas de avaliação mais robustos e diversos. Os códigos estão disponíveis em https://github.com/InternScience/Sci-CoE.

P-GenRM: Modelo Generativo de Recompensa Personalizado com Escalonamento Baseado no Utilizador em Tempo de Teste
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Feb 12

ByPinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li

O alinhamento personalizado de modelos de linguagem de grande escala visa adaptar as respostas às preferências individuais dos utilizadores, tipicamente através de aprendizagem por reforço. Um desafio fundamental é obter sinais de recompensa precisos e específicos do utilizador em cenários de resposta aberta. Os modelos de recompensa personalizados existentes enfrentam duas limitações persistentes: (1) simplificam excessivamente preferências diversificadas e específicas do cenário num conjunto pequeno e fixo de princípios de avaliação, e (2) lutam com a generalização para novos utilizadores com feedback limitado. Para tal, propomos o P-GenRM, o primeiro Modelo de Recompensa Generativo Personalizado com escalagem baseada no utilizador em tempo de teste. O P-GenRM transforma sinais de preferência em cadeias de avaliação estruturadas que derivam personas adaptativas e grelhas de pontuação em vários cenários. Agrupa ainda os utilizadores em Protótipos de Utilizador e introduz um mecanismo de escalagem de granularidade dupla: ao nível individual, escala e agrega adaptativamente o esquema de pontuação de cada utilizador; ao nível do protótipo, incorpora preferências de utilizadores similares. Este projeto mitiga o ruído nas preferências inferidas e melhora a generalização para utilizadores não vistos através da transferência baseada em protótipos. Resultados empíricos mostram que o P-GenRM alcança resultados state-of-the-art em benchmarks amplamente utilizados para modelos de recompensa personalizados, com uma melhoria média de 2,31%, e demonstra uma forte generalização num conjunto de dados fora da distribuição. Notavelmente, a Escalagem Baseada no Utilizador em Tempo de Teste proporciona um aumento adicional de 3%, demonstrando um alinhamento personalizado mais forte com escalabilidade em tempo de teste.

MetaphorStar: Compreensão e Raciocínio de Metáforas Visuais com Aprendizagem por Reforço Visual de Ponta a Ponta
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Feb 11

ByChenhao Zhang, Yazhe Niu, Hongsheng Li

A compreensão metafórica em imagens continua a ser um desafio crítico para os sistemas de IA atuais. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destaquem na Resposta a Perguntas Visuais (VQA) básica, eles lutam consistentemente para compreender as nuances culturais, emocionais e as implicações contextuais incorporadas no conteúdo visual. Esta dificuldade decorre da exigência da tarefa por um raciocínio multi-etapa sofisticado, contexto cultural e capacidades de Teoria da Mente (ToM), das quais os modelos atuais carecem. Para preencher esta lacuna, propomos o MetaphorStar, o primeiro quadro de aprendizagem por reforço visual de ponta a ponta para tarefas de implicação em imagens. O nosso quadro inclui três componentes principais: o conjunto de dados de granularidade fina TFQ-Data, o método de aprendizagem por reforço visual TFQ-GRPO e o benchmark bem estruturado TFQ-Bench. A nossa família MetaphorStar, totalmente de código aberto e treinada usando o TFQ-GRPO no TFQ-Data, melhora significativamente o desempenho em uma média de 82,6% nos benchmarks de implicação de imagem. Em comparação com mais de 20 MLLMs mainstream, o MetaphorStar-32B atinge o estado da arte (SOTA) em Perguntas de Escolha Múltipla e Perguntas de Estilo Aberto, superando significativamente o modelo proprietário mais avançado, o Gemini-3.0-pro, em Perguntas de Verdadeiro ou Falso. Crucialmente, as nossas experiências revelam que aprender tarefas de implicação de imagem melhora a capacidade de compreensão geral, especialmente a capacidade de raciocínio visual complexo. Fornecemos ainda uma análise sistemática da escala de parâmetros do modelo, da escala de dados de treino e do impacto de diferentes arquiteturas de modelo e estratégias de treino, demonstrando a ampla aplicabilidade do nosso método. Disponibilizamos publicamente todos os pesos dos modelos, conjuntos de dados e código do método em https://metaphorstar.github.io.

Grandes Modelos de Linguagem Agênticos com Restrição Orçamentária: Planeamento Baseado em Intenção para Uso de Ferramentas com Custos
Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use

Feb 12

ByHanbing Liu, Chunhao Tian, Nan An, Ziyuan Wang, Pinyan Lu, Changyuan Yu, Qi Qi

Estudamos agentes aumentados por ferramentas com restrição orçamental, nos quais um modelo de linguagem de grande escala deve resolver tarefas multi-etapa invocando ferramentas externas sob um orçamento monetário rigoroso. Formalizamos este cenário como tomada de decisão sequencial no espaço de contexto com execuções de ferramentas precificadas e estocásticas, tornando o planeamento direto intratável devido aos espaços massivos de estado-ação, alta variância de resultados e custo proibitivo de exploração. Para enfrentar estes desafios, propomos o INTENT, uma estrutura de planeamento em tempo de inferência que aproveita um modelo hierárquico do mundo consciente da intenção para antecipar o uso futuro de ferramentas, custo calibrado para o risco, e orientar decisões online. No StableToolBench com custos aumentados, o INTENT aplica estritamente a viabilidade orçamental rígida enquanto melhora substancialmente o sucesso das tarefas face a linhas de base, e mantém-se robusto sob mudanças dinâmicas de mercado, como alterações de preços de ferramentas e orçamentos variáveis.

ScalSelect: Seleção Escalável de Dados Multimodais sem Treinamento para um Ajuste Eficiente de Instruções Visuais
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Feb 12

ByChangti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen

O Ajuste de Instrução Visual em Larga Escala (VIT) tornou-se um paradigma fundamental para avançar o desempenho de modelos de visão e linguagem (VLMs) em várias tarefas multimodais. No entanto, o treinamento em conjuntos de dados de grande escala é computacionalmente custoso e ineficiente devido à redundância nos dados, o que motiva a necessidade de seleção de dados multimodais para melhorar a eficiência do treinamento. Os métodos de seleção de dados existentes para VIT exigem either treinamento custoso ou cálculo de gradientes. As alternativas *training-free* frequentemente dependem de modelos ou conjuntos de dados substitutos (*proxy*), representações insensíveis à instrução (*instruction-agnostic*) e similaridade par a par com complexidade quadrática, limitando a escalabilidade e a fidelidade da representação. Neste trabalho, propomos o ScalSelect, um método de seleção de dados multimodais escalável e *training-free*, com complexidade de tempo linear em relação ao número de amostras, eliminando a necessidade de modelos externos ou conjuntos de dados auxiliares. O ScalSelect primeiro constrói representações das amostras extraindo as características visuais mais atendidas pelos *tokens* de instrução no VLM alvo, capturando informações relevantes para a instrução. Em seguida, identifica amostras cujas representações melhor aproximam o subespaço dominante das representações do conjunto de dados completo, permitindo uma pontuação de importância escalável sem comparações par a par. Experimentos extensos em múltiplos VLMs, conjuntos de dados e orçamentos de seleção demonstram que o ScalSelect alcança mais de 97,5% do desempenho do treinamento com o conjunto de dados completo usando apenas 16% dos dados, e até supera o treinamento com todos os dados em algumas configurações. O código está disponível em https://github.com/ChangtiWu/ScalSelect{ScalSelect}.

Detecção de Dados de Treinamento RLVR por Meio da Convergência Estrutural do Raciocínio
Detecting RLVR Training Data via Structural Convergence of Reasoning

Feb 12

ByHongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é fundamental para o treinamento de modelos modernos de raciocínio, mas os dados de treinamento não divulgados levantam preocupações sobre a contaminação de benchmarks. Diferente dos métodos de pré-treinamento, que otimizam modelos usando probabilidades em nível de token, o RLVR ajusta modelos com base no feedback de recompensa proveniente de trajetórias de raciocínio autogeradas, tornando os métodos convencionais de detecção baseados em verossimilhança menos eficazes. Demonstramos que o RLVR induz uma assinatura comportamental distintiva: prompts encontrados durante o treinamento RLVR resultam em gerações mais rígidas e similares, enquanto prompts não vistos mantêm maior diversidade. Introduzimos o Min-kNN Distance, um detector simples de caixa preta que quantifica esse colapso amostrando múltiplas conclusões para um prompt dado e calculando a média dos k menores distâncias de edição entre vizinhos mais próximos. O Min-kNN Distance não requer acesso ao modelo de referência ou às probabilidades de token. Experimentos com diversos modelos de raciocínio treinados com RLVR mostram que o Min-kNN Distance distingue de forma confiável exemplos vistos durante o RL daqueles não vistos e supera os baselines existentes de inferência de associação e detecção de contaminação por RL.

ABot-N0: Relatório Técnico sobre o Modelo de Base VLA para Navegação Embarcada Versátil
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Feb 12

ByZedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu

A navegação incorporada tem sido historicamente fragmentada por arquiteturas específicas para cada tarefa. Apresentamos o ABot-N0, um modelo de base unificado de Visão-Linguagem-Ação (VLA) que alcança uma "Grande Unificação" em 5 tarefas principais: Navegação por Ponto-Alvo, Navegação por Objeto-Alvo, Seguimento de Instruções, Navegação por Ponto de Interesse e Perseguição de Pessoas. O ABot-N0 utiliza uma arquitetura hierárquica "Cérebro-Ação", emparelhando um Cérebro Cognitivo baseado em LLM para raciocínio semântico com um Especialista em Ação baseado em Correspondência de Fluxos para geração de trajetórias contínuas e precisas. Para suportar o aprendizado em larga escala, desenvolvemos o Motor de Dados ABot-N0, que curou 16,9 milhões de trajetórias especializadas e 5,0 milhões de amostras de raciocínio em 7.802 cenas 3D de alta fidelidade (10,7 km²). O ABot-N0 atinge um novo estado da arte em 7 benchmarks, superando significativamente modelos especializados. Além disso, nosso Sistema de Navegação Agente integra um planejador com memória topológica hierárquica, permitindo missões robustas de longo horizonte em ambientes dinâmicos do mundo real.

Stemphonic: Geração Musical Flexível de Múltiplas Pistas de uma Só Vez
Stemphonic: All-at-once Flexible Multi-stem Music Generation

Feb 10

ByShih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan

A geração de stems musicais, a tarefa de produzir clipes de áudio de instrumentos isolados e sincronizados musicalmente, oferece o potencial de maior controle do utilizador e melhor alinhamento com os fluxos de trabalho dos músicos em comparação com os modelos convencionais de texto-para-música. No entanto, as abordagens existentes de geração de stems ou dependem de arquiteturas fixas que produzem um conjunto predefinido de stems em paralelo, ou geram apenas um stem de cada vez, resultando numa inferência lenta, apesar da flexibilidade na combinação de stems. Propomos o Stemphonic, uma estrutura baseada em difusão/fluxo que supera este compromisso e gera um conjunto variável de stems sincronizados numa única passagem de inferência. Durante o treino, tratamos cada stem como um elemento do lote, agrupamos stems sincronizados num lote e aplicamos um latente de ruído partilhado a cada grupo. No momento da inferência, usamos um latente de ruído inicial partilhado e entradas de texto específicas por stem para gerar saídas multi-stem sincronizadas numa única passagem. Expandimos ainda a nossa abordagem para permitir a geração condicional multi-stem numa única passagem e controlos de atividade por stem, capacitando os utilizadores para gerar e orquestrar iterativamente a sobreposição temporal de uma mistura. Avaliámos os nossos resultados em vários conjuntos de avaliação de stems de código aberto e mostrámos que o Stemphonic produz saídas de maior qualidade, enquanto acelera o processo de geração da mistura completa em 25 a 50%. Demonstrações em: https://stemphonic-demo.vercel.app.

Especialistas Neurais Aditivos: Especialistas com Porteamento Contextual para Aditividade Controlável de Modelos
Neural Additive Experts: Context-Gated Experts for Controllable Model Additivity

Feb 11

ByGuangzhi Xiong, Sanchit Sinha, Aidong Zhang

O equilíbrio entre interpretabilidade e precisão permanece um desafio central no aprendizado de máquina. Os Modelos Aditivos Generalizados (GAMs) padrão oferecem atribuições de características claras, mas são frequentemente limitados por sua natureza estritamente aditiva, o que pode restringir o desempenho preditivo. A introdução de interações entre características pode aumentar a precisão, mas pode obscurecer as contribuições individuais das características. Para resolver essas questões, propomos os Especialistas Aditivos Neurais (NAEs), uma nova estrutura que equilibra perfeitamente interpretabilidade e precisão. Os NAEs empregam uma estrutura de mistura de especialistas, aprendendo múltiplas redes especializadas por característica, enquanto um mecanismo de portão dinâmico integra informações entre características, relaxando assim as restrições aditivas rígidas. Além disso, propomos técnicas de regularização direcionadas para mitigar a variância entre as previsões dos especialistas, facilitando uma transição suave de um modelo exclusivamente aditivo para um que captura interações complexas de características, mantendo a clareza nas atribuições. Nossa análise teórica e experimentos com dados sintéticos ilustram a flexibilidade do modelo, e avaliações extensas em conjuntos de dados do mundo real confirmam que os NAEs alcançam um equilíbrio ideal entre precisão preditiva e explicações transparentes em nível de característica. O código está disponível em https://github.com/Teddy-XiongGZ/NAE.