HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

20 papers found

mHC: Hiperconexões com Restrição de Variedade
mHC: Manifold-Constrained Hyper-Connections

Dec 31

ByZhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang

318

Recentemente, estudos exemplificados pelas Hiperconexões (HC) estenderam o paradigma ubíquo de conexões residuais estabelecido na última década, expandindo a largura do fluxo residual e diversificando os padrões de conectividade. Embora gerem ganhos substanciais de desempenho, essa diversificação compromete fundamentalmente a propriedade de mapeamento de identidade intrínseca à conexão residual, o que causa severa instabilidade no treinamento e escalabilidade restrita, além de incorrer em uma sobrecarga significativa de acesso à memória. Para enfrentar esses desafios, propomos as Hiperconexões com Restrição de Variedade (mHC), uma estrutura geral que projeta o espaço de conexão residual das HC em uma variedade específica para restaurar a propriedade de mapeamento de identidade, incorporando simultaneamente uma rigorosa otimização de infraestrutura para garantir eficiência. Experimentos empíricos demonstram que a mHC é eficaz para treinamento em escala, oferecendo melhorias tangíveis de desempenho e escalabilidade superior. Antecipamos que a mHC, como uma extensão flexível e prática das HC, contribuirá para uma compreensão mais profunda do projeto arquitetônico topológico e sugerirá direções promissoras para a evolução de modelos fundamentais.

Youtu-LLM: Desbloqueando o Potencial de Agência Nativa para Modelos de Linguagem de Grande Porte Leves
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

Dec 31

ByJunru Lu, Jiarui Qin, Lingfeng Qiao, Yinghui Li, Xinyi Dai, Bo Ke, Jianfeng He, Ruizhi Qiao, Di Yin, Xing Sun, Yunsheng Wu, Yinsong Liu, Shuangyin Liu, Mingkong Tang, Haodong Lin, Jiayi Kuang, Fanxu Meng, Xiaojuan Tang, Yunjia Xi, Junjie Huang, Haotong Yang, Zhenyi Shen, Yangning Li, Qianwen Zhang, Yifei Yu, Siyu An, Junnan Dong, Qiufeng Wang, Jie Wang, Keyu Chen, Wei Wen, Taian Guo, Zhifeng Shen, Daohai Yu, Jiahao Li, Ke Li, Zongyi Li, Xiaoyu Tan

152

Apresentamos o Youtu-LLM, um modelo de linguagem leve, porém poderoso, que harmoniza alta eficiência computacional com inteligência agentiva nativa. Diferente dos modelos pequenos típicos que dependem de destilação, o Youtu-LLM (1.96B) é pré-treinado do zero para cultivar sistematicamente capacidades de raciocínio e planejamento. Os principais avanços técnicos são os seguintes: (1) **Arquitetura Compacta com Suporte a Contexto Longo:** Construído sobre uma arquitetura densa de Atenção Multi-Latente (MLA) com um novo vocabulário orientado para STEM, o Youtu-LLM suporta uma janela de contexto de 128k tokens. Este projeto permite um raciocínio robusto de contexto longo e rastreamento de estado com uma pegada de memória mínima, tornando-o ideal para tarefas agentes e de raciocínio de longo horizonte. (2) **Currículo Fundamentado "Commonsense-STEM-Agent":** Curadamos um corpus massivo de aproximadamente 11 trilhões de tokens e implementamos uma estratégia de treinamento em múltiplos estágios. Ao mudar progressivamente a distribuição de dados de pré-treinamento do senso comum geral para tarefas complexas de STEM e agentivas, garantimos que o modelo adquira habilidades cognitivas profundas, em vez de um alinhamento superficial. (3) **Mid-training Agentivo Escalável:** Especificamente para o mid-training agentivo, empregamos esquemas diversos de construção de dados para sintetizar trajetórias ricas e variadas nos domínios de matemática, codificação e uso de ferramentas. Estes dados de alta qualidade permitem que o modelo internalize comportamentos de planejamento e reflexão de forma eficaz. Avaliações extensivas mostram que o Youtu-LLM estabelece um novo estado da arte para LLMs abaixo de 2B de parâmetros. Em benchmarks gerais, ele atinge um desempenho competitivo em comparação com modelos maiores, enquanto em tarefas específicas para agentes, supera significativamente as linhas de base SOTA existentes, demonstrando que modelos leves podem possuir fortes capacidades agentivas intrínsecas.

Deixe Fluir: Criação Agêntica no Rock and Roll, Construindo o Modelo ROME em um Ecossistema Aberto de Aprendizagem Agêntica
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Dec 31

ByWeixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Chonghuan Liu, ZhenDong Liu, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng

107

A modelagem agentica exige que os LLMs operem em ambientes do mundo real ao longo de múltiplos turnos, realizando ações, observando resultados e refinando iterativamente os artefactos. Apesar da sua importância, a comunidade de código aberto carece de um ecossistema principiado e de ponta a ponta para simplificar o desenvolvimento de agentes. Apresentamos o Ecossistema de Aprendizagem Agentica (ALE), uma infraestrutura fundamental que otimiza o pipeline de produção para LLMs agentes. O ALE consiste em três componentes: ROLL, uma estrutura de pós-treinamento para otimização de pesos; ROCK, um gestor de ambiente sandbox para geração de trajetórias; e o iFlow CLI, uma estrutura de agente para engenharia de contexto eficiente. Lançamos a ROME (ROME é Obviamente um Modelo Agentico), um agente de código aberto fundamentado pelo ALE e treinado em mais de um milhão de trajetórias. A nossa abordagem inclui protocolos de composição de dados para sintetizar comportamentos complexos e um novo algoritmo de otimização de políticas, o Alinhamento de Políticas Baseado na Interação (IPA), que atribui crédito a blocos de interação semântica em vez de a tokens individuais para melhorar a estabilidade do treino de longo horizonte. Empiricamente, avaliamos a ROME num ambiente estruturado e introduzimos o Terminal Bench Pro, um benchmark com escala melhorada e controlo de contaminação. A ROME demonstra um desempenho sólido em benchmarks como o SWE-bench Verified e o Terminal Bench, comprovando a eficácia da infraestrutura ALE.

Um framework unificado para detecção de anomalias pontuais e coletivas em logs de sistema operacional via transformers colaborativos
A unified framework for detecting point and collective anomalies in operating system logs via collaborative transformers

Dec 29

ByMohammad Nasirzadeh, Jafar Tahmoresnezhad, Parviz Rashidi-Khazaee

A detecção de anomalias em logs é crucial para preservar a segurança dos sistemas operacionais. Dependendo da fonte de recolha de dados de log, várias informações são registadas nos logs que podem ser consideradas modalidades de log. Face a esta intuição, os métodos unimodais frequentemente debatem-se por ignorar as diferentes modalidades dos dados de log. Entretanto, os métodos multimodais falham em lidar com as interações entre estas modalidades. Aplicando a análise de sentimentos multimodal à detecção de anomalias em logs, propomos o CoLog, uma estrutura que codifica colaborativamente os logs utilizando várias modalidades. O CoLog utiliza transformadores colaborativos e atenção multi-head impressionada para aprender interações entre várias modalidades, garantindo uma detecção de anomalias abrangente. Para lidar com a heterogeneidade causada por estas interações, o CoLog incorpora uma camada de adaptação de modalidade, que adapta as representações de diferentes modalidades de log. Esta metodologia permite ao CoLog aprender padrões e dependências subtis nos dados, melhorando as suas capacidades de detecção de anomalias. Experiências extensivas demonstram a superioridade do CoLog sobre os métodos state-of-the-art existentes. Além disso, na detecção de anomalias pontuais e coletivas, o CoLog atinge uma precisão média de 99,63%, um recall médio de 99,59% e um score F1 médio de 99,61% em sete conjuntos de dados de referência para detecção de anomalias baseada em logs. As capacidades de detecção abrangentes do CoLog tornam-no altamente adequado para cibersegurança, monitorização de sistemas e eficiência operacional. O CoLog representa um avanço significativo na detecção de anomalias em logs, fornecendo uma solução sofisticada e eficaz para a detecção de anomalias pontuais e coletivas através de uma estrutura unificada e uma solução para os complexos desafios que a análise automática de dados de log coloca. Também disponibilizamos a implementação do CoLog em https://github.com/NasirzadehMoh/CoLog.

GaMO: Extrapolação por Difusão Multi-visual com Consciência Geométrica para Reconstrução 3D com Visuais Escassos
GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

Dec 31

ByYi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, Ying-Huan Chen, Yu-Lun Liu

Os recentes avanços na reconstrução 3D têm alcançado progresso notável na captura de alta qualidade de cenas a partir de imagens densas de múltiplas vistas, mas enfrentam dificuldades quando as vistas de entrada são limitadas. Diversas abordagens, incluindo técnicas de regularização, prévios semânticos e restrições geométricas, foram implementadas para enfrentar este desafio. Os mais recentes métodos baseados em difusão demonstraram melhorias substanciais ao gerar novas vistas a partir de poses de câmera inéditas para aumentar os dados de treinamento, superando as técnicas anteriores baseadas em regularização e prévios. Apesar deste progresso, identificamos três limitações críticas nestas abordagens de ponta: cobertura inadequada para além das periferias das vistas conhecidas, inconsistências geométricas entre as vistas geradas e pipelines computacionalmente dispendiosos. Apresentamos o GaMO (Geometry-aware Multi-view Outpainter), uma estrutura que reformula a reconstrução com vistas esparsas através de *outpainting* multi-vista. Em vez de gerar novos pontos de vista, o GaMO expande o campo de visão a partir das poses de câmera existentes, o que preserva inerentemente a consistência geométrica enquanto proporciona uma cobertura mais ampla da cena. A nossa abordagem emprega estratégias de condicionamento multi-vista e *denoising* com consciência geométrica de forma *zero-shot*, sem necessidade de treino. Experiências extensivas nos conjuntos Replica e ScanNet++ demonstram uma qualidade de reconstrução de ponta para 3, 6 e 9 vistas de entrada, superando métodos anteriores em PSNR e LPIPS, enquanto alcança uma aceleração de 25 vezes em relação aos métodos baseados em difusão do estado da arte, com tempo de processamento inferior a 10 minutos. Página do projeto: https://yichuanh.github.io/GaMO/

IA Encontra o Cérebro: Sistemas de Memória da Neurociência Cognitiva a Agentes Autónomos
AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

Dec 29

ByJiafeng Liang, Hao Li, Chang Li, Jiaqi Zhou, Shixin Jiang, Zekun Wang, Changkai Ji, Zhihao Zhu, Runxuan Liu, Tao Ren, Jinlan Fu, See-Kiong Ng, Xia Liang, Ming Liu, Bing Qin

A memória atua como o nexo pivotal que conecta passado e futuro, fornecendo tanto a humanos quanto a sistemas de IA conceitos e experiências inestimáveis para navegar tarefas complexas. Pesquisas recentes sobre agentes autônomos têm se concentrado cada vez mais no projeto de fluxos de trabalho eficientes de memória, baseando-se na neurociência cognitiva. No entanto, limitados por barreiras interdisciplinares, os trabalhos existentes lutam para assimilar a essência dos mecanismos de memória humana. Para preencher essa lacuna, sintetizamos sistematicamente conhecimentos interdisciplinares sobre memória, conectando insights da neurociência cognitiva com agentes baseados em LLMs. Especificamente, primeiro elucidamos a definição e a função da memória ao longo de uma trajetória progressiva, desde a neurociência cognitiva, passando pelos LLMs, até os agentes. Em seguida, fornecemos uma análise comparativa da taxonomia da memória, mecanismos de armazenamento e o ciclo de vida completo de gerenciamento, tanto de perspectivas biológicas quanto artificiais. Posteriormente, revisamos os principais benchmarks para avaliação da memória de agentes. Adicionalmente, exploramos a segurança da memória sob dupla perspectiva: ataque e defesa. Por fim, visionamos direções futuras de pesquisa, com foco em sistemas de memória multimodal e aquisição de habilidades.

Preservação da Estrutura de Quadros no Pré-treinamento para Compressão de Vídeo Autoregressiva
Pretraining Frame Preservation in Autoregressive Video Memory Compression

Dec 29

ByLvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala

Apresentamos o PFP, uma estrutura de rede neural para comprimir vídeos longos em contextos curtos, com um objetivo de pré-treinamento explícito de preservar os detalhes de alta frequência de frames individuais em posições temporais arbitrárias. O modelo de referência consegue comprimir um vídeo de 20 segundos em um contexto com aproximadamente 5k de comprimento, onde frames aleatórios podem ser recuperados com aparências perceptualmente preservadas. Esses modelos pré-treinados podem ser diretamente ajustados como codificadores de memória para modelos autoregressivos de vídeo, permitindo memória de histórico longo com baixo custo de contexto e perda de fidelidade relativamente baixa. Avaliamos a estrutura com configurações ablativas e discutimos os trade-offs de possíveis projetos de arquitetura neural.

Relatório Técnico GR-Dexter
GR-Dexter Technical Report

Dec 30

ByRuoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li

Os modelos visão-linguagem-ação (VLA) permitiram a manipulação robótica de longo horizonte condicionada por linguagem, mas a maioria dos sistemas existentes limita-se a garras. Escalar políticas VLA para robôs bimanuais com mãos destras de alto grau de liberdade (GdL) permanece um desafio devido ao espaço de ação expandido, oclusões frequentes mão-objeto e o custo da coleta de dados em robôs reais. Apresentamos o GR-Dexter, uma estrutura holística de hardware-modelo-dados para manipulação generalista baseada em VLA em um robô bimanual com mãos destras. Nossa abordagem combina o projeto de uma mão robótica compacta de 21 GdL, um sistema intuitivo de teleoperação bimanual para coleta de dados em robô real e uma receita de treinamento que aproveita trajetórias robóticas teleoperadas juntamente com conjuntos de dados de visão-linguagem em larga escala e dados cuidadosamente selecionados de embodimento cruzado. Em avaliações no mundo real abrangendo manipulação cotidiana de longo horizonte e pegar-e-colocar generalizável, o GR-Dexter alcança forte desempenho em domínio e maior robustez a objetos e instruções não vistas. Esperamos que o GR-Dexter sirva como um passo prático em direção à manipulação robótica generalista com mãos destras.

PhyGDPO: Otimização de Preferência Direta por Grupos com Consciência Física para Geração de Vídeo a partir de Texto Fisicamente Consistente
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Dec 31

ByYuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou

Os recentes avanços na geração de texto-para-vídeo (T2V) alcançaram boa qualidade visual, mas a síntese de vídeos que sigam fielmente as leis da física continua sendo um desafio em aberto. Os métodos existentes, baseados principalmente em gráficos ou extensão de prompts, lutam para generalizar além de ambientes simulados simples ou para aprender raciocínio físico implícito. A escassez de dados de treinamento com interações e fenômenos físicos ricos também é um problema. Neste artigo, apresentamos primeiro um Pipeline de construção de dados de vídeo Aumentado por Física, PhyAugPipe, que aproveita um modelo de visão e linguagem (VLM) com raciocínio em cadeia de pensamento para coletar um conjunto de dados de treinamento em larga escala, PhyVidGen-135K. Em seguida, formulamos uma estrutura principista de Otimização Direta de Preferência Grupal Consciente da Física, PhyGDPO, que se baseia no modelo probabilístico grupal de Plackett-Luce para capturar preferências holísticas além de comparações pareadas. Na PhyGDPO, projetamos um esquema de Recompensa Guiada pela Física (PGR) que incorpora recompensas físicas baseadas em VLM para direcionar a otimização para a consistência física. Também propomos um esquema de Referência de Comutação LoRA (LoRA-SR) que elimina a duplicação de referência com uso intensivo de memória para um treinamento eficiente. Os experimentos mostram que nosso método supera significativamente os métodos de código aberto mais avançados no PhyGenBench e no VideoPhy2. Por favor, consulte nossa página do projeto em https://caiyuanhao1998.github.io/project/PhyGDPO para mais resultados em vídeo. Nosso código, modelos e dados serão lançados em https://github.com/caiyuanhao1998/Open-PhyGDPO.

JavisGPT: Um Modelo de Linguagem Multimodal Unificado para Compreensão e Geração de Vídeos Sonorizados
JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Dec 28

ByKai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua

Este artigo apresenta o JavisGPT, o primeiro modelo de linguagem grande multimodal unificado (MLLM) para compreensão e geração conjunta de áudio e vídeo (JAV). O JavisGPT adota uma arquitetura concisa de codificador-LLM-decodificador, apresentando um módulo SyncFusion para fusão espaço-temporal de áudio-vídeo e consultas aprendíveis com consciência de sincronia para conectar um gerador JAV-DiT pré-treinado. Este projeto permite a compreensão e geração temporalmente coerentes de vídeo e áudio a partir de instruções multimodais. Projetamos um pipeline de treinamento eficaz em três estágios, consistindo em pré-treinamento multimodal, ajuste fino de áudio-vídeo e ajuste por instrução em larga escala, para construir progressivamente a compreensão e geração multimodais a partir de modelos visão-linguagem existentes. Para suportar isso, construímos ainda o JavisInst-Omni, um conjunto de dados de instrução de alta qualidade com mais de 200 mil diálogos áudio-vídeo-texto curados pelo GPT-4o que abrangem cenários diversos e de múltiplos níveis de compreensão e geração. Experimentos extensivos em benchmarks de compreensão e geração JAV mostram que o JavisGPT supera os MLLMs existentes, particularmente em configurações complexas e temporalmente sincronizadas.

Escalonando o Raciocínio de Código Aberto para Prever o Futuro
Scaling Open-Ended Reasoning to Predict the Future

Dec 31

ByNikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping

A tomada de decisões de alto risco envolve o raciocínio sob incerteza sobre o futuro. Neste trabalho, treinamos modelos de linguagem para fazer previsões sobre questões de previsão abertas. Para dimensionar os dados de treinamento, sintetizamos novas questões de previsão a partir de eventos globais relatados em notícias diárias, usando uma receita de curadoria cuidadosa e totalmente automatizada. Treinamos os modelos de pensamento Qwen3 em nosso conjunto de dados, o OpenForesight. Para evitar o vazamento de informações futuras durante o treinamento e a avaliação, usamos um corpus de notícias offline, tanto para a geração de dados quanto para a recuperação em nosso sistema de previsão. Guiados por um pequeno conjunto de validação, mostramos os benefícios da recuperação de informações e de uma função de recompensa aprimorada para o aprendizado por reforço (RL). Uma vez obtido nosso sistema de previsão final, realizamos testes retidos entre maio e agosto de 2025. Nosso modelo especializado, OpenForecaster 8B, equipara-se a modelos proprietários muito maiores, com nosso treinamento melhorando a precisão, a calibração e a consistência das previsões. Descobrimos que as melhorias de calibração provenientes do treinamento em previsão generalizam-se em benchmarks populares. Disponibilizamos todo o código, dados e modelos em código aberto para tornar a pesquisa em previsão com modelos de linguagem amplamente acessível.

Comportamentos Fantásticos de Raciocínio e Onde Encontrá-los: Descoberta Não Supervisionada do Processo de Raciocínio
Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

Dec 30

ByZhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang

Apesar das crescentes capacidades de raciocínio dos modelos de linguagem grandes (LLMs) recentes, os seus mecanismos internos durante o processo de raciocínio permanecem pouco explorados. As abordagens anteriores frequentemente dependem de conceitos definidos por humanos (por exemplo, *overthinking*, reflexão) ao nível da palavra para analisar o raciocínio de uma forma supervisionada. No entanto, tais métodos são limitados, pois é inviável capturar todo o espectro de comportamentos de raciocínio potenciais, muitos dos quais são difíceis de definir no espaço de *tokens*. Neste trabalho, propomos uma estrutura não supervisionada (designada RISE: *Reasoning behavior Interpretability via Sparse auto-Encoder*) para descobrir vetores de raciocínio, que definimos como direções no espaço de ativação que codificam comportamentos de raciocínio distintos. Ao segmentar os rastros de *chain-of-thought* em 'passos' ao nível da frase e treinar autoencoders esparsos (SAEs) nas ativações ao nível do passo, descobrimos características desembaraçadas correspondentes a comportamentos interpretáveis, como reflexão e retrocesso. Análises de visualização e agrupamento mostram que estes comportamentos ocupam regiões separáveis no espaço coluna do decodificador. Além disso, intervenções direcionadas nos vetores derivados do SAE podem amplificar ou suprimir de forma controlável comportamentos de raciocínio específicos, alterando as trajetórias de inferência sem necessidade de retreino. Para além do desembaraçamento específico do comportamento, os SAEs capturam propriedades estruturais, como o comprimento da resposta, revelando aglomerados de rastros de raciocínio longos versus curtos. Mais interessante ainda, os SAEs permitem a descoberta de novos comportamentos para além da supervisão humana. Demonstramos a capacidade de controlar a confiança da resposta através da identificação de vetores relacionados com a confiança no espaço do decodificador do SAE. Estas descobertas sublinham o potencial da descoberta latente não supervisionada tanto para interpretar como para orientar de forma controlável o raciocínio em LLMs.

SpaceTimePilot: Renderização Generativa de Cenas Dinâmicas Através do Espaço e do Tempo
SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

Dec 31

ByZhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang

Apresentamos o SpaceTimePilot, um modelo de difusão de vídeo que desacopla o espaço e o tempo para renderização generativa controlável. Dado um vídeo monocular, o SpaceTimePilot pode alterar independentemente o ponto de vista da câmera e a sequência de movimento dentro do processo generativo, renderizando novamente a cena para uma exploração contínua e arbitrária através do espaço e do tempo. Para alcançar este objetivo, introduzimos um mecanismo eficaz de incorporação temporal de animação no processo de difusão, permitindo o controle explícito da sequência de movimento do vídeo de saída em relação à do vídeo de origem. Como nenhum conjunto de dados fornece vídeos emparelhados da mesma cena dinâmica com variações temporais contínuas, propomos um esquema de treinamento por deformação temporal simples, porém eficaz, que reaproveita conjuntos de dados multi-visão existentes para simular diferenças temporais. Esta estratégia supervisiona eficazmente o modelo para aprender o controle temporal e alcançar um desacoplamento espaço-temporal robusto. Para melhorar ainda mais a precisão do controle dual, introduzimos dois componentes adicionais: um mecanismo melhorado de condicionamento de câmera que permite alterar a câmera a partir do primeiro fotograma, e o CamxTime, o primeiro conjunto de dados de renderização sintético de cobertura total em espaço e tempo que fornece trajetórias de vídeo de espaço-tempo totalmente livres dentro de uma cena. O treinamento conjunto no esquema de deformação temporal e no conjunto de dados CamxTime produz um controle temporal mais preciso. Avaliamos o SpaceTimePilot em dados do mundo real e sintéticos, demonstrando um claro desacoplamento espaço-temporal e resultados sólidos em comparação com trabalhos anteriores. Página do projeto: https://zheninghuang.github.io/Space-Time-Pilot/ Código: https://github.com/ZheningHuang/spacetimepilot

Forjando a Inteligência Espacial: Um Roteiro para o Pré-Treinamento com Dados Multimodais em Sistemas Autónomos
Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

Dec 30

BySong Wang, Lingdong Kong, Xiaolu Liu, Hao Shi, Wentong Li, Jianke Zhu, Steven C. H. Hoi

O rápido avanço dos sistemas autónomos, incluindo veículos autónomos e drones, intensificou a necessidade de forjar uma verdadeira Inteligência Espacial a partir de dados multi-modais de sensores a bordo. Embora os modelos de base (foundation models) se destaquem em contextos mono-modais, integrar as suas capacidades através de diversos sensores, como câmaras e LiDAR, para criar uma compreensão unificada permanece um desafio formidável. Este artigo apresenta um quadro abrangente para pré-treinamento multi-modal, identificando o conjunto central de técnicas que impulsionam o progresso em direção a este objetivo. Dissecamos a interação entre as características fundamentais dos sensores e as estratégias de aprendizagem, avaliando o papel de conjuntos de dados específicos de plataforma no desenvolvimento destes avanços. A nossa contribuição central é a formulação de uma taxonomia unificada para paradigmas de pré-treinamento: desde linhas de base de modalidade única até quadros unificados sofisticados que aprendem representações holísticas para tarefas avançadas, como deteção de objetos 3D e previsão de ocupação semântica. Além disso, investigamos a integração de entradas textuais e representações de ocupação para facilitar a perceção e o planeamento em mundo aberto. Finalmente, identificamos estrangulamentos críticos, como a eficiência computacional e a escalabilidade do modelo, e propomos um roteiro para modelos de base multi-modais de propósito geral, capazes de alcançar uma Inteligência Espacial robusta para implementação no mundo real.

Guiando um Transformador de Difusão com a Dinâmica Interna de Si Mesmo
Guiding a Diffusion Transformer with the Internal Dynamics of Itself

Dec 30

ByXingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu

O modelo de difusão demonstra uma capacidade poderosa de capturar toda a distribuição de dados (condicional). No entanto, devido à falta de treinamento e dados suficientes para aprender a cobrir áreas de baixa probabilidade, o modelo é penalizado por não gerar imagens de alta qualidade correspondentes a essas áreas. Para alcançar uma melhor qualidade de geração, estratégias de orientação, como a orientação livre de classificador (CFG), podem direcionar as amostras para as áreas de alta probabilidade durante a fase de amostragem. Contudo, a CFG padrão frequentemente resulta em amostras excessivamente simplificadas ou distorcidas. Por outro lado, a linha alternativa de orientação do modelo de difusão com sua versão inferior é limitada por estratégias de degradação cuidadosamente projetadas, treinamento adicional e etapas extras de amostragem. Neste artigo, propomos uma estratégia simples, porém eficaz, chamada Orientação Interna (IG), que introduz uma supervisão auxiliar na camada intermediária durante o processo de treinamento e extrapola as saídas das camadas intermediárias e profundas para obter resultados generativos durante o processo de amostragem. Esta estratégia simples produz melhorias significativas tanto na eficiência do treinamento quanto na qualidade da geração em várias linhas de base. No ImageNet 256x256, o SiT-XL/2+IG alcança FID=5,31 e FID=1,75 em 80 e 800 épocas. Mais impressionantemente, o LightningDiT-XL/1+IG alcança um FID=1,34, representando uma grande margem de vantagem em relação a todos esses métodos. Combinado com a CFG, o LightningDiT-XL/1+IG alcança o estado da arte atual com um FID de 1,19.

Aprendizado Fatorado para Modelos de Vídeo e Linguagem Temporalmente Fundamentados
Factorized Learning for Temporally Grounded Video-Language Models

Dec 30

ByWenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng

Os modelos recentes de vídeo e linguagem têm demonstrado grande potencial para a compreensão de vídeos, mas ainda lutam com uma localização temporal precisa para a percepção a nível de evento. Observamos que dois fatores principais na compreensão de vídeo (ou seja, a localização temporal e a resposta textual) formam uma hierarquia lógica: uma localização precisa de evidências temporais estabelece a base para uma resposta textual confiável. No entanto, os trabalhos existentes normalmente lidam com estas duas tarefas de forma acoplada, sem uma estrutura lógica clara, levando a objetivos subóptimos. Abordamos esta questão a partir de uma perspetiva de aprendizagem fatorizada. Primeiro, propomos o D²VLM, uma estrutura que desacopla a aprendizagem destas duas tarefas, ao mesmo tempo que enfatiza a sua dependência inerente. Adotamos um paradigma de "localizar primeiro, depois responder com referência a evidências" e introduzimos *tokens* de evidência para a localização de evidências, que enfatizam a captura semântica visual a nível de evento, indo além do foco na representação de *timestamps* presente nos trabalhos existentes. Para facilitar ainda mais a aprendizagem destas duas tarefas, introduzimos um novo algoritmo de otimização de preferências fatorizadas (FPO). Ao contrário da otimização de preferências padrão, o FPO incorpora explicitamente a modelação probabilística de localização temporal no objetivo de otimização, permitindo a aprendizagem por preferências tanto para a localização temporal como para a resposta textual. Também construímos um conjunto de dados sintético para colmatar a falta de conjuntos de dados adequados para a aprendizagem de preferências fatorizadas com localização temporal explícita. Experiências em várias tarefas demonstram a clara vantagem da nossa abordagem. O nosso código-fonte está disponível em https://github.com/nusnlp/d2vlm.

Otimização Consciente da Geometria para Classificação de Sons Respiratórios: Aprimorando a Sensibilidade com Transformadores de Espectrograma de Áudio Otimizados por SAM
Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers

Dec 27

ByAtakan Işık, Selin Vulga Işık, Ahmet Feridun Işık, Mahşuk Taylan

A classificação de sons respiratórios é prejudicada pelo tamanho limitado, pelos altos níveis de ruído e pelo grave desequilíbrio entre classes de conjuntos de dados de referência, como o ICBHI 2017. Embora os modelos baseados em Transformers ofereçam capacidades poderosas de extração de características, eles são propensos ao sobreajuste e frequentemente convergem para mínimos agudos no relevo da função de perda quando treinados com esses dados médicos restritos. Para resolver isso, introduzimos uma estrutura que aprimora o Audio Spectrogram Transformer (AST) usando a Sharpness-Aware Minimization (SAM). Em vez de apenas minimizar a perda de treinamento, nossa abordagem otimiza a geometria da superfície de perda, guiando o modelo para mínimos mais planos que generalizam melhor para pacientes não vistos. Também implementamos uma estratégia de amostragem ponderada para lidar com o desequilíbrio de classes de forma eficaz. Nosso método alcança um estado da arte de 68,10% no conjunto de dados ICBHI 2017, superando as linhas de base existentes baseadas em CNN e modelos híbridos. Mais importante ainda, atinge uma sensibilidade de 68,31%, uma melhoria crucial para uma triagem clínica confiável. Uma análise mais aprofundada usando mapas de atenção e t-SNE confirma que o modelo aprende características robustas e discriminativas, em vez de memorizar o ruído de fundo.

Descubra a Resposta: Expandindo as Fronteiras do Raciocínio com o Pensamento Visual Ativo
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

Dec 30

ByMeiqi Chen, Fandong Meng, Jie Zhou

Problemas de raciocínio complexos frequentemente envolvem relações espaciais, geométricas e estruturais implícitas que não são explicitamente codificadas em texto. Embora modelos de raciocínio recentes tenham alcançado um desempenho sólido em diversos domínios, o raciocínio puramente baseado em texto luta para representar restrições estruturais globais em ambientes complexos. Neste artigo, apresentamos o FIGR, que integra o pensamento visual ativo no raciocínio multi-etapas por meio de aprendizado por reforço de ponta a ponta. O FIGR externaliza hipóteses estruturais intermediárias construindo representações visuais durante a resolução de problemas. Ao regular de forma adaptativa quando e como o raciocínio visual deve ser invocado, o FIGR permite um raciocínio mais estável e coerente sobre propriedades estruturais globais que são difíceis de capturar apenas a partir do texto. Experimentos em benchmarks desafiadores de raciocínio matemático demonstram que o FIGR supera linhas de base fortes baseadas apenas em texto, como a cadeia de pensamentos. Em particular, o FIGR melhora o modelo base em 13,12% no AIME 2025 e 11,00% no BeyondAIME, destacando a eficácia do raciocínio multimodal guiado por figuras para melhorar a estabilidade e confiabilidade do raciocínio complexo.

BEDA: Estimativa de Crenças como Restrições Probabilísticas para a Execução de Atos de Diálogo Estratégicos
BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts

Dec 31

ByHengli Li, Zhaoxin Yu, Qi Shen, Chenxi Li, Mengmeng Wang, Tinglang Wu, Yipeng Kang, Yuxuan Wang, Song-Chun Zhu, Zixia Jia, Zilong Zheng

O diálogo estratégico requer que os agentes executem atos de diálogo distintos, para os quais a estimativa de crenças é essencial. Embora trabalhos anteriores frequentemente estimem crenças com precisão, falta-lhes um mecanismo fundamentado para utilizar essas crenças durante a geração. Colmatamos esta lacuna, primeiro formalizando dois atos centrais – Adversarial e Alinhamento – e operacionalizando-os através de restrições probabilísticas sobre o que um agente pode gerar. Instanciamos esta ideia no BEDA, uma estrutura que consiste no conjunto mundial, no estimador de crenças para estimativa de crenças e no gerador condicional que seleciona atos e realiza enunciados consistentes com as crenças inferidas. Em três contextos – Conditional Keeper Burglar (CKBG, adversarial), Mutual Friends (MF, cooperativo) e CaSiNo (negociação) – o BEDA supera consistentemente baselines robustas: no CKBG, melhora a taxa de sucesso em pelo menos 5,0 pontos across backbones e em 20,6 pontos com GPT-4.1-nano; no Mutual Friends, alcança uma melhoria média de 9,3 pontos; e no CaSiNo, atinge o acordo ótimo em relação a todas as baselines. Estes resultados indicam que moldar a estimativa de crenças como restrições fornece um mecanismo simples e geral para um diálogo estratégico confiável.

Valori: Um Substrato de Memória Determinístico para Sistemas de IA
Valori: A Deterministic Memory Substrate for AI Systems

Dec 25

ByVarshith Gudur

Os sistemas modernos de IA dependem de embeddings vetoriais armazenados e pesquisados usando aritmética de ponto flutuante. Embora eficaz para busca de similaridade aproximada, este projeto introduz um não-determinismo fundamental: modelos, entradas e códigos idênticos podem produzir estados de memória e resultados de recuperação diferentes entre arquiteturas de hardware (por exemplo, x86 vs. ARM). Isso impede a repetibilidade e a implantação segura, levando a uma divergência silenciosa de dados que impossibilita a verificação posterior e compromete trilhas de auditoria em setores regulamentados. Apresentamos o Valori, um substrato de memória de IA determinístico que substitui as operações de memória de ponto flutuante por aritmética de ponto fixo (Q16.16) e modela a memória como uma máquina de estados repetível. O Valori garante estados de memória, instantâneos e resultados de pesquisa bit-idênticos entre plataformas. Demonstramos que o não-determinismo surge antes da indexação ou recuperação e mostramos como o Valori impõe o determinismo no limite da memória. Nossos resultados sugerem que a memória determinística é um primitivo necessário para sistemas de IA confiáveis. A implementação de referência é de código aberto e está disponível em https://github.com/varshith-Git/Valori-Kernel (arquivado em https://zenodo.org/records/18022660).

Deixe Fluir: Criação Agêntica no Rock and Roll, Construindo o Modelo ROME em um Ecossistema Aberto de Aprendizagem Agêntica
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Dec 31

107