HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

58 papers found

Aprendizagem por Condução Fraca: Como Agentes Fracos Tornam Agentes Fortes Mais Fortes
Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

Feb 9

ByZehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang, Wang Zhou, Fuzhen Zhuang, Xianglong Liu, Jianxin Li, Deqing Wang, Yikun Ban

285

À medida que a otimização pós-treinamento se torna central para a melhoria de modelos de linguagem de grande porte, observamos um persistente gargalo de saturação: uma vez que os modelos atingem alta confiança, treinamentos adicionais produzem retornos decrescentes. Embora os métodos existentes continuem a reforçar previsões-alvo, descobrimos que sinais supervisionados informativos permanecem latentes nos próprios estados históricos fracos dos modelos. Motivados por essa observação, propomos o WMSS (Agentes Fracos Podem Tornar Agentes Fortes Mais Fortes), um paradigma de pós-treinamento que aproveita checkpoints fracos para orientar a otimização contínua. Ao identificar lacunas de aprendizagem recuperáveis através da dinâmica de entropia e reforçá-las por meio de aprendizagem compensatória, o WMSS permite que agentes fortes melhorem além da saturação convencional de pós-treinamento. Experimentos em conjuntos de dados de raciocínio matemático e geração de código mostram que agentes treinados com nossa abordagem alcançam melhorias de desempenho efetivas, enquanto incorrem em custo zero de inferência adicional.

TermiGen: Síntese de Ambiente de Alta Fidelidade e Trajetória Robusta para Agentes Terminais
TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents

Feb 6

ByKaijie Zhu, Yuzhou Nie, Yijiang Li, Yiming Huang, Jialian Wu, Jiang Liu, Ximeng Sun, Zhenfei Yin, Lun Wang, Zicheng Liu, Emad Barsoum, William Yang Wang, Wenbo Guo

208

A execução de tarefas complexas no terminal continua a ser um desafio significativo para os LLMs de pesos abertos, limitada por duas restrições fundamentais. Primeiro, ambientes de treino executáveis e de alta fidelidade são escassos: ambientes sintetizados a partir de repositórios do mundo real não são diversificados e escaláveis, enquanto as trajetórias sintetizadas por LLMs sofrem de alucinações. Segundo, o *fine-tuning* padrão por instrução utiliza trajetórias de especialistas que raramente exibem os erros simples comuns a modelos menores. Isto cria um desajuste distribucional, deixando os modelos estudantes mal preparados para recuperar das suas próprias falhas em tempo de execução. Para colmatar estas lacunas, introduzimos o TermiGen, um *pipeline* de ponta a ponta para sintetizar ambientes verificáveis e trajetórias de especialista resilientes. O TermiGen gera primeiro tarefas funcionalmente válidas e contentores Docker através de um ciclo iterativo de refinamento multiagente. Subsequentemente, empregamos um protocolo Gerador-Crítico que injeta ativamente erros durante a recolha de trajetórias, sintetizando dados ricos em ciclos de correção de erros. Após *fine-tuning* com este conjunto de dados gerado pelo TermiGen, o nosso TermiGen-Qwen2.5-Coder-32B atinge uma taxa de sucesso de 31,3% no TerminalBench. Isto estabelece um novo estado da arte para modelos de pesos abertos, superando os *baselines* existentes e ultrapassando notavelmente modelos proprietários capazes, como o o4-mini. O conjunto de dados está disponível em https://github.com/ucsb-mlsec/terminal-bench-env.

QuantaAlpha: Uma Estrutura Evolucionária para Mineração de Alfa Baseada em LLM
QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining

Feb 6

ByJun Han, Shuo Zhang, Wei Li, Zhi Yang, Yifan Dong, Tu Hu, Jialuo Yuan, Xiaomin Yu, Yumo Zhu, Fangqi Lou, Xin Guo, Zhaowei Liu, Tianyi Jiang, Ruichuan An, Jingping Liu, Biao Wu, Rongze Chen, Kunyi Wang, Yifan Wang, Sen Hu, Xinbing Kong, Liwen Zhang, Ronghao Chen, Huacan Wang

189

Os mercados financeiros são ruidosos e não estacionários, tornando a mineração de alfa altamente sensível ao ruído nos resultados de backtesting e a mudanças abruptas de regime de mercado. Embora estruturas agentes recentes aprimorem a automação da mineração de alfa, elas frequentemente carecem de busca multirodada controlável e reutilização confiável de experiências validadas. Para enfrentar esses desafios, propomos o QuantaAlpha, uma estrutura evolutiva de mineração de alfa que trata cada execução de mineração de ponta a ponta como uma trajetória e aprimora fatores por meio de operações de mutação e cruzamento em nível de trajetória. O QuantaAlpha localiza etapas subótimas em cada trajetória para revisão direcionada e recombina segmentos complementares de alta recompensa para reutilizar padrões eficazes, permitindo exploração e refinamento estruturados ao longo das iterações de mineração. Durante a geração de fatores, o QuantaAlpha impõe consistência semântica entre a hipótese, a expressão do fator e o código executável, enquanto restringe a complexidade e redundância do fator gerado para mitigar o crowding. Experimentos extensivos no Índice de Ações da China 300 (CSI 300) demonstram ganhos consistentes sobre modelos de linha de base robustos e sistemas agentes anteriores. Ao utilizar o GPT-5.2, o QuantaAlpha atinge um Coeficiente de Informação (IC) de 0,1501, com uma Taxa Anualizada de Retorno (TAR) de 27,75% e um Drawdown Máximo (MDD) de 7,98%. Além disso, fatores minerados no CSI 300 transferem-se efetivamente para o Índice de Ações da China 500 (CSI 500) e para o Índice Standard & Poor's 500 (S&P 500), proporcionando retorno excedente acumulado de 160% e 137% ao longo de quatro anos, respectivamente, o que indica forte robustez do QuantaAlpha sob mudanças na distribuição de mercado.

MOVA: Rumo à Geração Escalável e Sincronizada de Vídeo e Áudio
MOVA: Towards Scalable and Synchronized Video-Audio Generation

Feb 9

BySII-OpenMOSS Team, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu

157

O áudio é indispensável para vídeos do mundo real, no entanto, os modelos de geração têm largamente negligenciado os componentes de áudio. As abordagens atuais para produzir conteúdo audiovisual frequentemente dependem de pipelines em cascata, o que aumenta o custo, acumula erros e degrada a qualidade geral. Embora sistemas como o Veo 3 e o Sora 2 enfatizem o valor da geração simultânea, a modelagem multimodal conjunta introduz desafios únicos em arquitetura, dados e treinamento. Além disso, a natureza de código fechado dos sistemas existentes limita o progresso na área. Neste trabalho, apresentamos o MOVA (MOSS Video and Audio), um modelo de código aberto capaz de gerar conteúdo audiovisual sincronizado de alta qualidade, incluindo discurso com sincronização labial realista, efeitos sonoros conscientes do ambiente e música alinhada com o conteúdo. O MOVA emprega uma arquitetura *Mixture-of-Experts* (MoE), com um total de 32B de parâmetros, dos quais 18B estão ativos durante a inferência. Ele suporta a tarefa de geração IT2VA (Imagem-Texto para Vídeo-Áudio). Ao liberar os pesos do modelo e o código, visamos avançar a pesquisa e fomentar uma comunidade vibrante de criadores. O código liberado possui suporte abrangente para inferência eficiente, *fine-tuning* LoRA e aprimoramento de *prompts*.

Paradigma de Treinamento de Alinhamento de Subespaço Orientado pela Lacuna de Modalidade para Modelos de Linguagem Multimodais de Grande Escala
Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models

Feb 2

ByXiaomin Yu, Yi Xin, Wenjie Zhang, Chonghan Liu, Hanzhen Zhao, Xiaoxing Hu, Xinlei Yu, Ziyue Qiao, Hao Tang, Xue Yang, Xiaobin Hu, Chengwei Qin, Hui Xiong, Yu Qiao, Shuicheng Yan

140

Apesar do sucesso da aprendizagem contrastiva multimodal no alinhamento de representações visuais e linguísticas, uma anomalia geométrica persistente, o Hiato de Modalidade, permanece: incorporações de modalidades distintas que expressam semânticas idênticas ocupam regiões sistematicamente deslocadas. As abordagens anteriores para reduzir este hiato são largamente limitadas por suposições isotrópicas excessivamente simplificadas, dificultando sua aplicação em cenários de larga escala. Neste artigo, abordamos estas limitações caracterizando precisamente a forma geométrica do hiato de modalidade e aproveitando-a para uma escalagem eficiente de modelos. Primeiro, propomos a Teoria do Hiato de Modalidade com Referencial Fixo, que decompõe o hiato de modalidade dentro de um referencial congelado em vieses estáveis e resíduos anisotrópicos. Guiados por esta modelagem precisa, introduzimos o ReAlign, uma estratégia de alinhamento modal livre de treinamento. Utilizando estatísticas de dados massivos não pareados, o ReAlign alinha a representação textual na distribuição de representação de imagem através de um processo de três etapas compreendendo o Alinhamento de Âncora, Traço e Centróide, retificando assim explicitamente o desalinhamento geométrico. Com base no ReAlign, propomos o ReVision, um paradigma de treinamento escalável para Modelos de Linguagem Multimodais de Grande Escala (MLLMs). O ReVision integra o ReAlign na fase de pré-treinamento, permitindo que o modelo aprenda a distribuição das representações visuais a partir de texto não pareado antes do ajuste fino por instrução visual, sem a necessidade de pares imagem-texto em larga escala e de alta qualidade. Nosso framework demonstra que dados não pareados estatisticamente alinhados podem substituir efetivamente os dispendiosos pares imagem-texto, oferecendo um caminho robusto para a escalagem eficiente de MLLMs.

AIRS-Bench: Um Conjunto de Tarefas para Agentes de IA de Fronteira na Pesquisa Científica
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Feb 6

ByAlisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach

Os agentes de LLM (Large Language Models) possuem um potencial significativo para impulsionar a pesquisa científica. Para acelerar esse progresso, apresentamos o AIRS-Bench (o *AI Research Science Benchmark*), um conjunto de 20 tarefas extraídas de artigos de ponta em aprendizado de máquina. Essas tarefas abrangem domínios diversos, incluindo modelagem de linguagem, matemática, bioinformática e previsão de séries temporais. As tarefas do AIRS-Bench avaliam capacidades agentes ao longo de todo o ciclo de vida da pesquisa — incluindo geração de ideias, análise de experimentos e refinamento iterativo — sem fornecer código de linha de base. O formato de tarefa do AIRS-Bench é versátil, permitindo a fácil integração de novas tarefas e uma comparação rigorosa entre diferentes estruturas agentes. Estabelecemos linhas de base usando modelos de fronteira emparelhados com estruturas de suporte (*scaffolds*) sequenciais e paralelas. Nossos resultados mostram que os agentes superam o estado da arte (SOTA) humano em quatro tarefas, mas não o igualam em outras dezesseis. Mesmo quando os agentes superam os benchmarks humanos, eles não atingem o teto teórico de desempenho para as tarefas subjacentes. Essas descobertas indicam que o AIRS-Bench está longe de estar saturado e oferece espaço substancial para melhorias. Disponibilizamos como código aberto as definições de tarefas e o código de avaliação do AIRS-Bench para catalisar um maior desenvolvimento na pesquisa científica autônoma.

InternAgent-1.5: Uma Estrutura Agente Unificada para a Descoberta Científica Autônoma de Longo Horizonte
InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

Feb 9

ByShiyang Feng, Runmin Ma, Xiangchao Yan, Yue Fan, Yusong Hu, Songtao Huang, Shuaiyu Zhang, Zongsheng Cao, Tianshuo Peng, Jiakang Yuan, Zijie Guo, Zhijie Zhong, Shangheng Du, Weida Wang, Jinxin Shi, Yuhao Zhou, Xiaohan He, Zhiyin Yu, Fangchen Yu, Qihao Zheng, Jiamin Wu, Mianxin Liu, Chi Zhang, Shaowei Hou, Shuya Li, Yankai Jiang, Wenjie Lou, Lilong Wang, Zifu Wang, Jiong Wang, Wanghan Xu, Yue Deng, Dongrui Liu, Yiheng Wang, Wenlong Zhang, Fenghua Ling, Shufei Zhang, Xiaosong Wang, Shuangjia Zheng, Xun Huang, Siqi Sun, Shuyue Hu, Peng Ye, Chunfeng Song, Bin Wang, Conghui He, Yihao Liu, Xin Li, Qibin Hou, Tao Chen, Xiangyu Yue, Bin Wang, Liang He, Dahua Lin, Bowen Zhou, Bo Zhang, Lei Bai

Apresentamos o InternAgent-1.5, um sistema unificado concebido para a descoberta científica de ponta a ponta em domínios computacionais e empíricos. O sistema é construído sobre uma arquitetura estruturada composta por três subsistemas coordenados para geração, verificação e evolução. Estes subsistemas são suportados por capacidades fundamentais de pesquisa profunda, otimização de soluções e memória de longo horizonte. A arquitetura permite que o InternAgent-1.5 opere continuamente através de ciclos de descoberta prolongados, mantendo um comportamento coerente e em melhoria. Também possibilita que o sistema coordene a modelagem computacional e a experimentação laboratorial dentro de um único sistema unificado. Avaliamos o InternAgent-1.5 em benchmarks de raciocínio científico como GAIA, HLE, GPQA e FrontierScience, e o sistema atinge um desempenho líder que demonstra sólidas capacidades fundamentais. Para além destes benchmarks, avaliamos ainda duas categorias de tarefas de descoberta. Em tarefas de descoberta de algoritmos, o InternAgent-1.5 concebe autonomamente métodos competitivos para problemas centrais de aprendizagem automática. Em tarefas de descoberta empírica, executa experiências computacionais ou laboratoriais completas e produz descobertas científicas nos domínios da terra, da vida, biológicos e físicos. No geral, estes resultados mostram que o InternAgent-1.5 fornece uma estrutura geral e escalável para a descoberta científica autónoma.

VLA Recorrente-Profundo: Escalonamento Implícito de Computação em Tempo de Teste de Modelos Visão-Linguagem-Ação via Raciocínio Iterativo Latente
Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Feb 8

ByYalcin Tur, Jalal Naghiyev, Haoquan Fang, Wei-Chuan Tsai, Jiafei Duan, Dieter Fox, Ranjay Krishna

Os modelos atuais de Visão-Linguagem-Ação (VLA) dependem de uma profundidade computacional fixa, aplicando a mesma quantidade de processamento tanto para ajustes simples quanto para manipulações complexas de múltiplas etapas. Embora o *prompting* de Cadeia de Pensamento (CoT) permita computação variável, ele escala a memória linearmente e é inadequado para espaços de ação contínuos. Apresentamos o VLA com Profundidade Recorrente (RD-VLA), uma arquitetura que alcança adaptabilidade computacional por meio de refinamento iterativo latente, em vez de geração explícita de *tokens*. O RD-VLA emprega um cabeçalho de ação recorrente e com pesos compartilhados, que suporta profundidade de inferência arbitrária com uma pegada de memória constante. O modelo é treinado usando retropropagação através do tempo truncada (TBPTT) para supervisionar eficientemente o processo de refinamento. Na inferência, o RD-VLA aloca dinamicamente o processamento usando um critério de parada adaptativo baseado na convergência latente. Experimentos em tarefas de manipulação desafiadoras mostram que a profundidade recorrente é crítica: tarefas que falham completamente (0% de sucesso) com inferência de iteração única excedem 90% de sucesso com quatro iterações, enquanto tarefas mais simples saturam rapidamente. O RD-VLA fornece um caminho escalável para processamento em tempo de teste em robótica, substituindo o raciocínio baseado em *tokens* por raciocínio latente para alcançar uso de memória constante e aceleração de inferência de até 80x em relação aos modelos VLA anteriores baseados em raciocínio. Página do projeto: https://rd-vla.github.io/

LLaDA2.1: Acelerando a Difusão de Texto por meio de Edição de Tokens
LLaDA2.1: Speeding Up Text Diffusion via Token Editing

Feb 9

ByTiwei Bie, Maosong Cao, Xiang Cao, Bingsen Chen, Fuyuan Chen, Kun Chen, Lun Du, Daozhuo Feng, Haibo Feng, Mingliang Gong, Zhuocheng Gong, Yanmei Gu, Jian Guan, Kaiyuan Guan, Hongliang He, Zenan Huang, Juyong Jiang, Zhonghui Jiang, Zhenzhong Lan, Chengxi Li, Jianguo Li, Zehuan Li, Huabin Liu, Lin Liu, Guoshan Lu, Yuan Lu, Yuxin Ma, Xingyu Mou, Zhenxuan Pan, Kaida Qiu, Yuji Ren, Jianfeng Tan, Yiding Tian, Zian Wang, Lanning Wei, Tao Wu, Yipeng Xing, Wentao Ye, Liangyu Zha, Tianze Zhang, Xiaolu Zhang, Junbo Zhao, Da Zheng, Hao Zhong, Wanli Zhong, Jun Zhou, Junlin Zhou, Liwang Zhu, Muzhi Zhu, Yihong Zhuang

Embora o LLaDA2.0 tenha demonstrado o potencial de escalabilidade dos modelos de blocos-difusão de nível 100B e sua paralelização inerente, o delicado equilíbrio entre velocidade de decodificação e qualidade da geração permanecia uma fronteira indescritível. Hoje, revelamos o LLaDA2.1, uma mudança de paradigma concebida para transcender esse trade-off. Ao integrar perfeitamente a edição Token-para-Token (T2T) ao esquema convencional Máscara-para-Token (M2T), introduzimos um esquema de decodificação por limiar conjunto e configurável. Esta inovação estrutural dá origem a duas personas distintas: o Modo Veloz (S Mode), que audaciosamente reduz o limiar M2T para contornar as restrições tradicionais, dependendo do T2T para refinar a saída; e o Modo Qualidade (Q Mode), que adota limiares conservadores para assegurar desempenhos superiores em benchmarks com uma degradação de eficiência controlável. Avançando nesta evolução, e suportado por uma janela de contexto expansiva, implementamos o primeiro framework de Aprendizagem por Reforço (RL) em larga escala especificamente adaptado para dLLMs, ancorado por técnicas especializadas para estimativa estável de gradientes. Este alinhamento não apenas aprimora a precisão do raciocínio, mas também eleva a fidelidade no seguimento de instruções, construindo uma ponte entre a dinâmica de difusão e a complexidade da intenção humana. Concluímos este trabalho com o lançamento do LLaDA2.1-Mini (16B) e do LLaDA2.1-Flash (100B). Através de 33 benchmarks rigorosos, o LLaDA2.1 oferece um forte desempenho em tarefas e uma velocidade de decodificação extremamente rápida. Apesar do seu volume de 100B, em tarefas de codificação atinge impressionantes 892 TPS no HumanEval+, 801 TPS no BigCodeBench e 663 TPS no LiveCodeBench.

RLinf-USER: Um Sistema Unificado e Extensível para Aprendizado de Políticas Online no Mundo Real em IA Corporificada
RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Feb 8

ByHongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang

A aprendizagem de políticas online diretamente no mundo físico é uma direção promissora, mas desafiadora, para a inteligência incorporada. Ao contrário da simulação, os sistemas do mundo real não podem ser acelerados arbitrariamente, reiniciados de forma barata ou replicados massivamente, o que torna difícil a coleta escalável de dados, a implantação heterogénea e o treino eficaz de longo horizonte. Estes desafios sugerem que a aprendizagem de políticas no mundo real não é apenas uma questão algorítmica, mas fundamentalmente um problema de sistemas. Apresentamos o USER, um Sistema Unificado e extensível para a aprendizagem de políticas online no mundo real. O USER trata os robôs físicos como recursos de hardware de primeira classe, juntamente com GPUs, através de uma camada de abstração de hardware unificada, permitindo a descoberta, gestão e escalonamento automáticos de robôs heterogéneos. Para lidar com a comunicação cloud-edge, o USER introduz um plano de comunicação adaptativo com rede baseada em túneis, canais de dados distribuídos para localização de tráfego e sincronização de pesos consciente do streaming-multiprocessador para regular a sobrecarga do lado da GPU. Sobre esta infraestrutura, o USER organiza a aprendizagem como um quadro totalmente assíncrono com um buffer persistente e consciente da cache, permitindo experiências eficientes de longo horizonte com recuperação robusta de falhas e reutilização de dados históricos. Além disso, o USER fornece abstrações extensíveis para recompensas, algoritmos e políticas, suportando a aprendizagem por imitação ou por reforço online de CNN/MLP, políticas generativas e grandes modelos visão-linguagem-ação (VLA) dentro de um pipeline unificado. Resultados tanto em simulação como no mundo real mostram que o USER permite a coordenação de múltiplos robôs, manipuladores heterogéneos, colaboração edge-cloud com grandes modelos e treino assíncrono de longa duração, oferecendo uma base de sistemas unificada e extensível para a aprendizagem de políticas online no mundo real.

Rumo a uma Inteligência Agente para a Ciência dos Materiais
Towards Agentic Intelligence for Materials Science

Jan 29

ByHuan Zhang, Yizhan Li, Wenhao Huang, Ziyu Hou, Yu Song, Xuye Liu, Farshid Effaty, Jinya Jiang, Sifan Wu, Qianggang Ding, Izumi Takahara, Leonard R. MacGillivray, Teruyasu Mizoguchi, Tianshu Yu, Lizi Liao, Yuyu Luo, Yu Rong, Jia Li, Ying Diao, Heng Ji, Bang Liu

A convergência entre a inteligência artificial e a ciência dos materiais apresenta uma oportunidade transformadora, mas a aceleração genuína da descoberta exige que se vá além de modelos com tarefas isoladas e ajustados individualmente, rumo a sistemas agentes que planejam, agem e aprendem em todo o ciclo de descoberta. Este estudo avança uma visão única centrada em *pipelines* que abrange desde a curadoria de corpus e o pré-treinamento, passando pela adaptação de domínio e ajuste por instrução, até agentes condicionados por objetivos que interagem com plataformas de simulação e experimentação. Diferente de revisões anteriores, tratamos todo o processo como um sistema de ponta a ponta a ser otimizado para resultados tangíveis de descoberta, e não para métricas substitutas. Esta perspectiva permite-nos rastrear como escolhas de projeto a montante – como a curadoria de dados e os objetivos de treinamento – podem ser alinhadas com o sucesso experimental a jusante através de uma atribuição de crédito eficaz. Para unir as comunidades e estabelecer um quadro de referência comum, apresentamos primeiro uma lente integrada que alinha a terminologia, a avaliação e as etapas de fluxo de trabalho entre a IA e a ciência dos materiais. Em seguida, analisamos o campo através de duas lentes focais: Da perspectiva da IA, o estudo detalha os pontos fortes dos LLMs em reconhecimento de padrões, análise preditiva e processamento de linguagem natural para mineração de literatura, caracterização de materiais e previsão de propriedades; da perspectiva da ciência dos materiais, destaca aplicações no projeto de materiais, otimização de processos e a aceleração de fluxos de trabalho computacionais via integração com ferramentas externas (ex.: DFT, laboratórios robóticos). Por fim, contrastamos abordagens passivas e reativas com o design agentivo, catalogando contribuições atuais enquanto motivamos sistemas que perseguem objetivos de longo prazo com autonomia, memória e uso de ferramentas. Este estudo traça um roteiro prático rumo a agentes de LLM autónomos e conscientes da segurança, voltados para a descoberta de materiais novos e úteis.

Aliviando Recompensas Esparsas por meio da Modelagem de Efeitos de Amostragem Passo a Passo e de Longo Prazo no GRPO Baseado em Fluxo
Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

Feb 6

ByYunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang

A implementação do GRPO em modelos de Flow Matching tem se mostrado eficaz para geração de texto-imagem. No entanto, os paradigmas existentes normalmente propagam uma recompensa baseada em resultado para todas as etapas de desruído precedentes sem distinguir o efeito local de cada etapa. Além disso, o ranqueamento grupal atual compara principalmente trajetórias em intervalos de tempo correspondentes e ignora as dependências dentro da trajetória, onde certas ações iniciais de desruído podem afetar estados posteriores por meio de interações implícitas e atrasadas. Propomos o TurningPoint-GRPO (TP-GRPO), uma estrutura GRPO que alivia a esparsidade de recompensa passo a passo e modela explicitamente os efeitos de longo prazo dentro da trajetória de desruído. O TP-GRPO introduz duas inovações principais: (i) substitui as recompensas baseadas em resultado por recompensas incrementais em nível de etapa, fornecendo um sinal de aprendizado denso e consciente da etapa que melhor isola o efeito "puro" de cada ação de desruído, e (ii) identifica pontos de virada - etapas que invertem a tendência de recompensa local e tornam a evolução subsequente da recompensa consistente com a tendência geral da trajetória - e atribui a essas ações uma recompensa de longo prazo agregada para capturar seu impacto atrasado. Os pontos de virada são detectados apenas por meio de mudanças de sinal nas recompensas incrementais, tornando o TP-GRPO eficiente e livre de hiperparâmetros. Experimentos extensivos também demonstram que o TP-GRPO explota sinais de recompensa de forma mais eficaz e melhora consistentemente a geração. O código de demonstração está disponível em https://github.com/YunzeTong/TurningPoint-GRPO.

Melhorando o Design de Dados e Recompensas para o Raciocínio Científico em Modelos de Linguagem de Grande Porte
Improving Data and Reward Design for Scientific Reasoning in Large Language Models

Feb 9

ByZijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng

A resolução de questões científicas de resposta aberta continua a ser um desafio para os grandes modelos de linguagem, principalmente devido à supervisão e avaliação inerentemente não confiáveis. O principal obstáculo reside na construção de dados e no desenho de recompensas para o pós-treinamento científico. Desenvolvemos um *pipeline* sistemático e em larga escala de processamento de dados que transforma dados científicos de código aberto heterogéneos no conjunto de dados Dr. SCI, que compreende 1 milhão de questões em oito disciplinas STEM, com divisões explícitas entre verificáveis e de resposta aberta, anotação escalável de dificuldade e rubricas de avaliação finas que operacionalizam a avaliação de respostas abertas. Com base neste conjunto de dados, propomos o *pipeline* de pós-treinamento Dr. SCI, que redesenha o fluxo de trabalho padrão SFT -> RL através de três componentes: (i) SFT de Expansão da Exploração, que amplia a cobertura de padrões de raciocínio do modelo antes do RL; (ii) Currículo Dinâmico de Dificuldade, que adapta os dados de treino à capacidade científica em evolução do modelo; e (iii) RL Guiado por SciRubric, que permite aprendizagem por reforço estável em questões científicas abertas através de avaliação baseada em rubricas com correção explícita da resposta. O modelo Qwen3-4B-Base treinado com o *pipeline* Dr. SCI atinge 63.2 no GPQA-diamond e 32.4 no GPQA-general, melhorando consistentemente em relação a *baselines* fortemente pós-treinados, como o o1-mini e o GPT-4o, demonstrando ganhos substanciais no raciocínio científico, especialmente em contextos de resposta aberta.

GEBench: Avaliação Comparativa de Modelos de Geração de Imagem como Ambientes de Interface Gráfica
GEBench: Benchmarking Image Generation Models as GUI Environments

Feb 9

ByHaodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang

Os recentes avanços em modelos de geração de imagens permitiram a previsão de estados futuros de Interface Gráfica do Utilizador (GUI) com base em instruções do utilizador. No entanto, os benchmarks existentes focam-se principalmente na fidelidade visual de domínio geral, deixando a avaliação das transições de estado e da coerência temporal em contextos específicos de GUI subexplorada. Para colmatar esta lacuna, introduzimos o GEBench, um benchmark abrangente para avaliar a interação dinâmica e a coerência temporal na geração de GUI. O GEBench compreende 700 amostras cuidadosamente selecionadas abrangendo cinco categorias de tarefas, cobrindo tanto interações de passo único como trajetórias de múltiplos passos em cenários do mundo real e ficcionais, bem como a localização de pontos de ancoragem. Para suportar uma avaliação sistemática, propomos o GE-Score, uma nova métrica de cinco dimensões que avalia: Realização do Objetivo, Lógica de Interação, Consistência de Conteúdo, Plausibilidade da UI e Qualidade Visual. Avaliações extensivas em modelos atuais indicam que, embora estes apresentem bons desempenhos em transições de passo único, lutam significativamente para manter a coerência temporal e a ancoragem espacial em sequências de interação mais longas. As nossas descobertas identificam a interpretação de ícones, a renderização de texto e a precisão de localização como estrangulamentos críticos. Este trabalho fornece uma base para a avaliação sistemática e sugere direções promissoras para pesquisas futuras visando a construção de ambientes generativos de GUI de alta fidelidade. O código está disponível em: https://github.com/stepfun-ai/GEBench.

Demo-ICL: Aprendizado em Contexto para Aquisição de Conhecimento em Vídeos Procedimentais
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

Feb 9

ByYuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu

Apesar das crescentes capacidades de compreensão de vídeo dos recentes Modelos de Linguagem Multimodais de Grande Porte (MLLMs), os benchmarks de vídeo existentes avaliam principalmente a compreensão com base no conhecimento estático e interno dos modelos, em vez da sua capacidade de aprender e adaptar-se a contextos dinâmicos e novos a partir de poucos exemplos. Para colmatar esta lacuna, apresentamos a Aprendizagem em Contexto de Vídeo Orientada por Demonstrações (Demo-driven Video In-Context Learning), uma nova tarefa focada em aprender a partir de demonstrações em contexto para responder a perguntas sobre os vídeos-alvo. Paralelamente, propomos o Demo-ICL-Bench, um benchmark desafiador concebido para avaliar as capacidades de aprendizagem em contexto de vídeo orientada por demonstrações. O Demo-ICL-Bench é construído a partir de 1200 vídeos instrucionais do YouTube com perguntas associadas, a partir dos quais são derivados dois tipos de demonstrações: (i) resumo das legendas dos vídeos para demonstração textual; e (ii) vídeos instrucionais correspondentes como demonstrações em vídeo. Para enfrentar eficazmente este novo desafio, desenvolvemos o Demo-ICL, um MLLM com uma estratégia de treino em duas etapas: afinação supervisionada por vídeo (video-supervised fine-tuning) e otimização de preferência direta assistida por informação (information-assisted direct preference optimization), melhorando conjuntamente a capacidade do modelo de aprender a partir de exemplos em contexto. Experiências extensivas com MLLMs de última geração confirmam a dificuldade do Demo-ICL-Bench, demonstram a eficácia do Demo-ICL e, assim, revelam direções futuras de investigação.

Aprendizado de Roteamento Orçamentário Consciente de Consultas para Memória de Agente em Tempo de Execução
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

Feb 5

ByHaozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang

A memória é cada vez mais central para agentes de modelos de linguagem de grande escala (LLM) que operam além de uma única janela de contexto, mas a maioria dos sistemas existentes depende de uma construção de memória offline e independente de consulta, que pode ser ineficiente e pode descartar informações críticas para a consulta. Embora a utilização de memória em tempo de execução seja uma alternativa natural, trabalhos anteriores frequentemente incorrem em sobrecarga substancial e oferecem controle explícito limitado sobre o compromisso entre desempenho e custo. Neste trabalho, apresentamos o BudgetMem, uma estrutura de memória para agentes em tempo de execução que permite um controle explícito e consciente da consulta sobre o desempenho e o custo. O BudgetMem estrutura o processamento da memória como um conjunto de módulos de memória, cada um oferecido em três níveis de orçamento (ou seja, Baixo/Médio/Alto). Um roteador leve executa o roteamento de níveis de orçamento entre os módulos para equilibrar o desempenho da tarefa e o custo de construção da memória, sendo implementado como uma política neural compacta treinada com aprendizado por reforço. Usando o BudgetMem como uma plataforma de teste unificada, estudamos três estratégias complementares para realizar os níveis de orçamento: implementação (complexidade do método), raciocínio (comportamento de inferência) e capacidade (tamanho do modelo do módulo). Nos conjuntos de dados LoCoMo, LongMemEval e HotpotQA, o BudgetMem supera bases de comparação fortes quando o desempenho é priorizado (ou seja, configuração de alto orçamento) e oferece melhores fronteiras de precisão-custo sob orçamentos mais restritos. Além disso, nossa análise desmistifica os pontos fortes e fracos das diferentes estratégias de hierarquização, esclarecendo quando cada eixo oferece os compromissos mais favoráveis sob diferentes regimes de orçamento.

GISA: Um Benchmark para Assistente Geral de Busca de Informações
GISA: A Benchmark for General Information-Seeking Assistant

Feb 9

ByYutao Zhu, Xingshuo Zhang, Maosen Zhang, Jiajie Jin, Liancheng Zhang, Xiaoshuai Song, Kangzhi Zhao, Wencong Zeng, Ruiming Tang, Han Li, Ji-Rong Wen, Zhicheng Dou

O avanço dos grandes modelos de linguagem (LLMs) acelerou significativamente o desenvolvimento de agentes de busca capazes de recolher informações de forma autónoma através de interações multi-turno na web. Vários benchmarks foram propostos para avaliar tais agentes. No entanto, os benchmarks existentes frequentemente constroem consultas retroativamente a partir de respostas, produzindo tarefas artificiais desalinhadas com as necessidades do mundo real. Além disso, estes benchmarks tendem a focar-se na localização de informação específica ou na agregação de informação de múltiplas fontes, enquanto dependem de conjuntos de respostas estáticos propensos à contaminação de dados. Para colmatar estas lacunas, introduzimos o GISA, um benchmark para Assistentes Gerais de Busca de Informação composto por 373 consultas criadas manualmente que refletem cenários autênticos de procura de informação. O GISA apresenta quatro formatos de resposta estruturados (item, conjunto, lista e tabela), permitindo uma avaliação determinística. Integra tanto o raciocínio profundo como a agregação ampla de informação dentro de tarefas unificadas, e inclui um subconjunto dinâmico com respostas atualizadas periodicamente para resistir à memorização. Notavelmente, o GISA fornece trajetórias de busca humana completas para cada consulta, oferecendo referências de padrão-ouro para supervisão a nível de processo e aprendizagem por imitação. Experiências com LLMs mainstream e produtos de busca comerciais revelam que mesmo o modelo com melhor desempenho atinge apenas 19,30% de pontuação de correspondência exata, com o desempenho a degradar-se notavelmente em tarefas que exigem planeamento complexo e recolha abrangente de informação. Estes resultados destacam um espaço substancial para melhorias futuras.

LOCA-bench: Avaliação Comparativa de Agentes de Linguagem sob Crescimento de Contexto Controlável e Extremo
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

Feb 8

ByWeihao Zeng, Yuzhen Huang, Junxian He

Os modelos de linguagem de grande escala (LLMs) estão cada vez mais capacitados para executar tarefas do mundo real de longa duração. No entanto, à medida que a quantidade de contexto aumenta, sua confiabilidade frequentemente se deteriora, um fenômeno conhecido como "deterioração de contexto" (context rot). Os benchmarks existentes para contexto longo concentram-se principalmente em configurações de etapa única que avaliam a capacidade de um modelo de recuperar informações de um trecho longo. Em cenários realistas, porém, os LLMs frequentemente precisam atuar como agentes que exploram ambientes, seguem instruções e planos, extraem informações úteis e preveem ações corretas sob um contexto que cresce dinamicamente. Para avaliar agentes de linguagem nesses cenários, apresentamos o LOCA-bench (um benchmark para Agentes de LOngo Contexto). Dado um prompt de tarefa, o LOCA-bench aproveita o controle automatizado e escalável dos estados do ambiente para regular o comprimento do contexto do agente. Este projeto permite que o LOCA-bench estenda o comprimento do contexto potencialmente ao infinito de forma controlada, mantendo a semântica da tarefa subjacente fixa. O LOCA-bench avalia os agentes de linguagem como uma combinação de modelos e estruturas de suporte (scaffolds), incluindo várias estratégias de gerenciamento de contexto. Embora o desempenho do agente geralmente se degrade à medida que os estados do ambiente se tornam mais complexos, técnicas avançadas de gerenciamento de contexto podem melhorar substancialmente a taxa de sucesso geral. Disponibilizamos o LOCA-bench como código aberto para fornecer uma plataforma para avaliar modelos e estruturas de suporte em cenários agentivos de longo contexto: https://github.com/hkust-nlp/LOCA-bench

Teoria do Espaço: Modelos de Fundação Podem Construir Crenças Espaciais por Meio de Exploração Ativa?
Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?

Feb 4

ByPingyue Zhang, Zihan Huang, Yue Wang, Jieyu Zhang, Letian Xue, Zihan Wang, Qineng Wang, Keshigeyan Chandrasegaran, Ruohan Zhang, Yejin Choi, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Manling Li

A inteligência espacial incorporada exige que os agentes ajam para adquirir informações sob observabilidade parcial. Embora os modelos de fundação multimodais se destaquem na percepção passiva, sua capacidade para exploração ativa e autodirigida permanece pouco estudada. Propomos a Teoria do Espaço, definida como a capacidade de um agente de adquirir informações ativamente por meio de exploração autodirigida e ativa, e de construir, revisar e explorar uma crença espacial a partir de observações sequenciais e parciais. Avaliamos isso por meio de um benchmark cujo objetivo é a exploração guiada pela curiosidade para construir um mapa cognitivo preciso. Uma inovação fundamental é o *spatial belief probing* (sondagem da crença espacial), que solicita que os modelos revelem suas representações espaciais internas a cada etapa. Nossa avaliação dos modelos de última geração revela vários gargalos críticos. Primeiro, identificamos um *Active-Passive Gap* (Fosso Ativo-Passivo), onde o desempenho cai significativamente quando os agentes devem coletar informações de forma autônoma. Segundo, encontramos alta ineficiência, pois os modelos exploram de forma não sistemática em comparação com proxies baseados em programas. Através da sondagem da crença, diagnosticamos que, embora a percepção seja um gargalo inicial, as crenças globais sofrem de instabilidade que faz com que o conhecimento espacial se degrade ao longo do tempo. Finalmente, usando um paradigma de falsa crença, descobrimos a *Belief Inertia* (Inércia da Crença), onde os agentes falham em atualizar prévias obsoletas com novas evidências. Este problema está presente em agentes baseados em texto, mas é particularmente severo em modelos baseados em visão. Nossas descobertas sugerem que os modelos de fundação atuais têm dificuldade em manter crenças espaciais coerentes e revisáveis durante a exploração ativa.

AgentCPM-Report: Intercalação de Rascunho e Aprofundamento para Pesquisa Profunda de Tema Livre
AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

Feb 6

ByYishan Li, Wentong Chen, Yukun Yan, Mingwei Li, Sen Mei, Xiaorong Wang, Kunpeng Liu, Xin Cong, Shuo Wang, Zhong Zhang, Yaxi Lu, Zhenghao Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun

A geração de relatórios de pesquisa aprofundada requer aquisição de informação em larga escala e a síntese de análises orientadas por insights, representando um desafio significativo para os modelos de linguagem atuais. A maioria das abordagens existentes segue um paradigma de planear-depois-escrever, cujo desempenho depende fortemente da qualidade do esboço inicial. No entanto, a construção de um esboço abrangente exige, por si só, uma forte capacidade de raciocínio, fazendo com que os sistemas atuais de pesquisa profunda dependam quase exclusivamente de grandes modelos *online* ou de código fechado. Esta dependência levanta barreiras práticas à implementação e introduz preocupações de segurança e privacidade para os dados dos utilizadores. Neste trabalho, apresentamos o AgentCPM-Report, uma solução local leve mas de alto desempenho, composta por uma estrutura que espelha o processo humano de escrita e por um agente de pesquisa profunda com 8 mil milhões de parâmetros. A nossa estrutura utiliza uma Política de Escrita como Raciocínio (WARP), que permite aos modelos rever dinamicamente os esboços durante a geração do relatório. Sob esta política, o agente alterna entre a Redação Baseada em Evidências e o Aprofundamento Orientado por Raciocínio, suportando conjuntamente a aquisição de informação, o refinamento do conhecimento e a evolução iterativa do esboço. Para equipar eficazmente modelos pequenos com esta capacidade, introduzimos uma estratégia de Treino Agêntico Multiestágio, consistindo em arranque a frio, RL de competências atómicas e RL de pipeline holístico. Experiências no DeepResearch Bench, DeepConsult e DeepResearch Gym demonstram que o AgentCPM-Report supera os principais sistemas de código fechado, com ganhos substanciais em Insight.

WorldCompass: Aprendizado por Reforço para Modelos de Mundo de Longo Horizonte
WorldCompass: Reinforcement Learning for Long-Horizon World Models

Feb 9

ByZehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao

Este trabalho apresenta o WorldCompass, uma nova estrutura de pós-treinamento por Reforço de Aprendizagem (RL) para modelos de mundo baseados em vídeo interativo e de longo horizonte, permitindo que eles explorem o mundo de forma mais precisa e consistente com base em sinais de interação. Para "direcionar" eficazmente a exploração do modelo de mundo, introduzimos três inovações centrais adaptadas ao paradigma de geração de vídeo autoregressivo: 1) Estratégia de *Rollout* a Nível de Clipe: Geramos e avaliamos múltiplas amostras num único clipe-alvo, o que aumenta significativamente a eficiência do *rollout* e fornece sinais de recompensa de granularidade fina. 2) Funções de Recompensa Complementares: Projetamos funções de recompensa tanto para a precisão no seguimento da interação quanto para a qualidade visual, as quais fornecem supervisão direta e suprimem eficazmente comportamentos de *reward-hacking*. 3) Algoritmo de RL Eficiente: Empregamos a estratégia de ajuste fino (*fine-tuning*) consciente do negativo, associada a várias otimizações de eficiência, para melhorar de forma eficiente e eficaz a capacidade do modelo. Avaliações no modelo de mundo de código aberto estado da arte, WorldPlay, demonstram que o WorldCompass melhora significativamente a precisão da interação e a fidelidade visual em vários cenários.

LatentChem: Do CoT Textual ao Pensamento Latente no Raciocínio Químico
LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Feb 6

ByXinwu Ye, Yicheng Mao, Jia Zhang, Yimeng Liu, Li Hao, Fang Wu, Zhiwei Li, Yuxuan Liao, Zehong Wang, Zhiyuan Liu, Zhenfei Yin, Li Yuan, Philip Torr, Huan Sun, Xiangxiang Zeng, Mengdi Wang, Le Cong, Shenghua Gao, Xiangru Tang

Os modelos de linguagem de grande porte (LLMs) químicos dependem predominantemente de Cadeias de Pensamento (CoT) explícitas em linguagem natural para realizar raciocínios complexos. No entanto, o raciocínio químico é inerentemente contínuo e estrutural, e forçá-lo em tokens linguísticos discretos introduz uma incompatibilidade fundamental de representação que limita tanto a eficiência quanto o desempenho. Apresentamos o LatentChem, uma interface de raciocínio latente que desacopla a computação química da geração textual, permitindo que os modelos realizem raciocínios de múltiplos passos diretamente no espaço latente contínuo, enquanto emitem linguagem apenas para as saídas finais. Notavelmente, observamos um comportamento emergente consistente: quando otimizados apenas para o sucesso da tarefa, os modelos internalizam espontaneamente o raciocínio, abandonando progressivamente as derivações textuais verbosas em favor da computação latente implícita. Esta mudança não é meramente estilística, mas computacionalmente vantajosa. Em diversos benchmarks de raciocínio químico, o LatentChem alcança uma taxa de vitória sem empate de 59,88% sobre linhas de base fortes baseadas em CoT no ChemCoTBench, enquanto proporciona uma aceleração média de 10,84 vezes na inferência. Nossos resultados fornecem evidências empíricas de que o raciocínio químico é realizado de forma mais natural e eficaz como dinâmicas latentes contínuas, em vez de trajetórias linguísticas discretizadas.

NanoQuant: Quantização Eficiente Sub-1-Bit de Modelos de Linguagem de Grande Porte
NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Feb 6

ByHyochan Chong, Dongkyu Kim, Changdong Kim, Minseop Choi

A quantização apenas de pesos tornou-se uma abordagem padrão para servir grandes modelos de linguagem (LLMs) de forma eficiente. No entanto, os métodos existentes falham em comprimir modelos eficientemente para níveis binários (1 bit), pois ou exigem grandes quantidades de dados e poder computacional ou incorrem em armazenamento adicional. Neste trabalho, propomos o NanoQuant, o primeiro método de quantização pós-treinamento (PTQ) a comprimir LLMs para níveis binários e sub-1-bit. O NanoQuant formula a quantização como um problema de fatoração binária de baixo posto (low-rank), comprimindo os pesos em precisão total para matrizes binárias de baixo posto e fatores de escala. Especificamente, ele utiliza um método eficiente dos multiplicadores de direção alternada (ADMM) para inicializar com precisão matrizes binárias latentes e fatores de escala, e depois ajusta os parâmetros inicializados através de um processo de reconstrução por blocos e do modelo. Consequentemente, o NanoQuant estabelece uma nova fronteira de Pareto na quantização pós-treinamento de baixa memória, alcançando precisão de última geração mesmo em taxas de compressão sub-1-bit. O NanoQuant torna a implantação em grande escala viável em hardware de consumo. Por exemplo, ele comprime o Llama2-70B em 25,8 vezes em apenas 13 horas em um único H100, permitindo que um modelo de 70B opere em uma GPU de consumo de 8 GB.

Compressão de Contexto via Transmissão Explícita de Informação
Context Compression via Explicit Information Transmission

Feb 3

ByJiangnan Ye, Hanqi Yan, Zhenyi Shen, Heng Chang, Ye Mao, Yulan He

A inferência de contexto longo com Modelos de Linguagem de Grande Porte (LLMs) é dispendiosa devido à atenção quadrática e ao crescimento dos caches de chave-valor, motivando a compressão de contexto. Neste trabalho, estudamos a compressão suave de contexto, na qual um contexto longo é condensado em um pequeno conjunto de representações contínuas. Os métodos existentes normalmente reaproveitam o próprio LLM como um compressor treinável, dependendo da auto-atenção camada por camada para agregar informações iterativamente. Argumentamos que este paradigma sofre de duas limitações estruturais: (i) sobrescrita progressiva de representações entre as camadas e (ii) alocação descoordenada da capacidade de compressão entre os tokens. Propomos o ComprExIT (Compressão de Contexto via Transmissão Explícita de Informação), uma estrutura leve que formula a compressão suave em um novo paradigma: transmissão explícita de informação sobre os estados ocultos congelados do LLM. Isso desacopla a compressão da dinâmica interna de auto-atenção do modelo. O ComprExIT realiza (i) transmissão em profundidade para transmitir seletivamente informações de múltiplas camadas para âncoras de token, mitigando a sobrescrita progressiva, e (ii) transmissão em largura para agregar âncoras em um pequeno número de slots via um plano de transmissão globalmente otimizado, garantindo uma alocação coordenada da informação. Em seis benchmarks de resposta a perguntas, o ComprExIT supera consistentemente os métodos state-of-the-art de compressão de contexto enquanto introduz apenas ~1% de parâmetros adicionais, demonstrando que a transmissão explícita e coordenada de informação permite uma compressão de contexto longo mais eficaz e robusta.

Paradigmas Fundamentais de Raciocínio Induzem Generalização Fora do Domínio em Modelos de Linguagem
Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

Feb 9

ByMingzi Cao, Xingwei Tan, Mahmud Akhter, Marco Valentino, Maria Liakata, Xi Wang, Nikolaos Aletras

Dedução, indução e abdução são paradigmas fundamentais de raciocínio, essenciais para o pensamento lógico humano. Embora a melhoria do raciocínio de Modelos de Linguagem de Grande Porte (LLMs) tenha atraído esforços significativos de pesquisa, o grau em que os paradigmas fundamentais induzem à generalização ainda não foi sistematicamente explorado. Neste estudo, elucidamos como a interação entre esses paradigmas centrais influencia o comportamento de raciocínio dos LLMs. Para tanto, primeiro coletamos um novo conjunto de dados de trajetórias de raciocínio a partir de tarefas simbólicas, cada uma focada em um dos três paradigmas fundamentais, para abstrair do conhecimento concreto do mundo. Em seguida, investigamos maneiras eficazes de induzir essas habilidades nos LLMs. Experimentamos com uma bateria de métodos, incluindo fine-tuning simples e abordagens mais complexas para aumentar a profundidade do modelo ou transformar um modelo denso em uma mistura de especialistas. Avaliamos comprehensivemente os modelos induzidos em tarefas realistas fora do domínio, que são inteiramente formuladas em linguagem natural e contêm conhecimento do mundo real. Nossos resultados revelam que nossa abordagem produz uma forte generalizabilidade com ganhos substanciais de desempenho (até 14,60) em tarefas realistas.

RelayGen: Troca de Modelos Intra-Geração para Raciocínio Eficiente
RelayGen: Intra-Generation Model Switching for Efficient Reasoning

Feb 6

ByJiwon Song, Yoongon Kim, Jae-Joon Kim

Os grandes modelos de raciocínio (LRMs) alcançam alto desempenho em tarefas complexas de raciocínio gerando trajetórias de raciocínio longas e multi-etapas, mas a escalabilidade no momento da inferência incorre em custos substanciais de implantação. Um desafio fundamental é que a dificuldade de geração varia dentro de uma única saída, enquanto as abordagens existentes orientadas para eficiência ignoram essa variação intrageração ou dependem de roteamento supervisionado a nível de token com alta complexidade do sistema. Apresentamos o RelayGen, uma estrutura de comutação de modelos em tempo de execução a nível de segmento, livre de treinamento, que explora a variação de dificuldade no raciocínio de longa forma. Através da análise offline da incerteza de geração usando margens de probabilidade de token, mostramos que o controle a nível de segmento de granularidade grossa é suficiente para capturar transições de dificuldade dentro de uma trajetória de raciocínio. O RelayGen identifica pistas de comutação específicas do modelo que sinalizam transições para segmentos de menor dificuldade e delega dinamicamente sua continuação a um modelo menor, preservando o raciocínio de alta dificuldade no modelo grande. Em vários benchmarks de raciocínio, o RelayGen reduz substancialmente a latência de inferência enquanto preserva a maior parte da precisão dos modelos grandes. Quando combinado com decodificação especulativa, o RelayGen alcança até 2,2 vezes de aceleração de ponta a ponta com menos de 2% de degradação de precisão, sem exigir treinamento adicional ou componentes de roteamento aprendidos.

Quando e Quanto Imaginar: Escalonamento Adaptativo em Tempo de Teste com Modelos de Mundo para Raciocínio Espacial Visual
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

Feb 9

ByShoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal

Apesar dos rápidos avanços nos Modelos de Linguagem Multimodais de Grande Porte (MLLMs), o raciocínio espacial visual continua pouco confiável quando as respostas corretas dependem de como uma cena apareceria sob pontos de vista não observados ou alternativos. Trabalhos recentes abordam este problema aumentando o raciocínio com modelos de mundo para imaginação visual, mas questões como quando a imaginação é realmente necessária, qual a quantidade benéfica e quando ela se torna prejudicial permanecem pouco compreendidas. Na prática, a imaginação indiscriminada pode aumentar a computação e até mesmo degradar o desempenho ao introduzir evidências enganosas. Neste trabalho, apresentamos uma análise aprofundada da imaginação visual em tempo de teste como um recurso controlável para o raciocínio espacial. Estudamos quando a evidência visual estática é suficiente, quando a imaginação melhora o raciocínio e como a imaginação excessiva ou desnecessária afeta a precisão e a eficiência. Para sustentar esta análise, introduzimos o AVIC, uma estrutura adaptativa de tempo de teste com modelos de mundo que raciocina explicitamente sobre a suficiência da evidência visual atual antes de invocar e dimensionar seletivamente a imaginação visual. Através de benchmarks de raciocínio espacial (SAT, MMSI) e um benchmark de navegação incorporada (R2R), nossos resultados revelam cenários claros onde a imaginação é crítica, marginal ou prejudicial, e mostram que o controle seletivo pode igualar ou superar estratégias de imaginação fixa com substancialmente menos chamadas ao modelo de mundo e tokens de linguagem. No geral, nossas descobertas destacam a importância de analisar e controlar a imaginação em tempo de teste para um raciocínio espacial eficiente e confiável.

Rolamento Síncrono: Conectando o Treinamento de Horizonte Limitado e os Testes de Longa Duração na Difusão Autoregressiva de Vídeo
Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Feb 8

ByHaodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker

Recentemente, os modelos de difusão de vídeo autoregressivos (AR) alcançaram desempenho notável. No entanto, devido às suas durações limitadas de treinamento, surge uma lacuna entre treino e teste ao avaliar em horizontes mais longos, levando a degradações visuais rápidas. Seguindo o princípio de Self Forcing, que estuda essa lacuna dentro da duração do treinamento, este trabalho investiga a lacuna além da duração do treinamento, ou seja, a diferença entre os horizontes limitados durante o treino e os horizontes abertos durante o teste. Como o teste de horizonte aberto pode estender-se além de qualquer janela finita de treinamento, e o treino com vídeos longos é computacionalmente custoso, buscamos uma solução livre de treinamento adicional para preencher essa lacuna. Para explorar uma solução sem treinamento, realizamos uma análise sistemática da manutenção de cache em modelos AR. Esses insights levam ao método Rolling Sink. Desenvolvido com base no Self Forcing (treinado apenas com clipes de 5s), o Rolling Sink escala efetivamente a síntese de vídeo AR para durações ultralongas (por exemplo, 5-30 minutos a 16 FPS) durante o teste, com sujeitos consistentes, cores estáveis, estruturas coerentes e movimentos suaves. Como demonstrado por extensos experimentos, o Rolling Sink alcança fidelidade visual e consistência temporal em longo horizonte superiores em comparação com as linhas de base state-of-the-art (SOTA). Página do projeto: https://rolling-sink.github.io/

How2Everything: Mineração de Procedimentos "Como Fazer" na Web para Avaliar e Aprimorar LLMs
How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs

Feb 9

ByYapei Chang, Kyle Lo, Mohit Iyyer, Luca Soldaini

A geração de procedimentos passo a passo do tipo "como fazer" é uma capacidade fundamental dos LLMs: instruções de como realizar tarefas são comumente solicitadas em chatbots, e o planejamento sequencial é crucial para o raciocínio em tarefas complexas. No entanto, medir e melhorar a validade procedural em escala em tarefas do mundo real continua sendo um desafio e um tema pouco estudado. Para enfrentar isso, apresentamos o How2Everything, uma estrutura escalável para avaliar e melhorar a geração de procedimentos condicionada a objetivos. Nossa estrutura inclui o How2Mine, que extrai 351 mil procedimentos de 980 mil páginas da web em 14 tópicos e se escala facilmente para corpora maiores. A partir deste conjunto, construímos o How2Bench, um conjunto de avaliação com 7 mil exemplos, equilibrado entre os tópicos. Para pontuar de forma confiável as saídas dos modelos, desenvolvemos o How2Score, um protocolo de avaliação que usa um LLM como juiz para detectar se uma geração contém qualquer falha crítica que impediria a consecução do objetivo. Para uma avaliação de baixo custo e reproduzível, destilamos um modelo de ponta em um modelo aberto de 8B, alcançando 80,5% de concordância com anotadores humanos. O How2Bench revela tendências claras de escalonamento entre tamanhos de modelos e estágios de treinamento, fornecendo sinal já no início do pré-treinamento. Por fim, o uso de Aprendizado por Reforço (RL) com o How2Score como função de recompessa melhorou o desempenho no How2Bench em mais de 10 pontos em três modelos, sem regressões sistemáticas em benchmarks padrão, sendo os ganhos robustos contra a memorização superficial de documentos-fonte ou a simples conformidade de formato. Em conjunto, o How2Everything demonstra como dados da web de pré-treinamento podem sustentar um ciclo fechado de avaliação e melhoria de capacidades em escala.

Modelos de Fundação Confiáveis e Responsáveis: Um Estudo Abrangente
Reliable and Responsible Foundation Models: A Comprehensive Survey

Feb 4

ByXinyu Yang, Junlin Han, Rishi Bommasani, Jinqi Luo, Wenjie Qu, Wangchunshu Zhou, Adel Bibi, Xiyao Wang, Jaehong Yoon, Elias Stengel-Eskin, Shengbang Tong, Lingfeng Shen, Rafael Rafailov, Runjia Li, Zhaoyang Wang, Yiyang Zhou, Chenhang Cui, Yu Wang, Wenhao Zheng, Huichi Zhou, Jindong Gu, Zhaorun Chen, Peng Xia, Tony Lee, Thomas Zollo, Vikash Sehwag, Jixuan Leng, Jiuhai Chen, Yuxin Wen, Huan Zhang, Zhun Deng, Linjun Zhang, Pavel Izmailov, Pang Wei Koh, Yulia Tsvetkov, Andrew Wilson, Jiaheng Zhang, James Zou, Cihang Xie, Hao Wang, Philip Torr, Julian McAuley, David Alvarez-Melis, Florian Tramèr, Kaidi Xu, Suman Jana, Chris Callison-Burch, Rene Vidal, Filippos Kokkinos, Mohit Bansal, Beidi Chen, Huaxiu Yao

Os modelos de base, incluindo os Grandes Modelos de Linguagem (LLMs), os Modelos Multimodais de Grande Linguagem (MLLMs), os Modelos Geradores de Imagem (ou seja, Modelos de Texto-para-Imagem e Modelos de Edição de Imagem) e os Modelos Geradores de Vídeo, tornaram-se ferramentas essenciais com ampla aplicação em diversos domínios, como direito, medicina, educação, finanças, ciência e outros. À medida que estes modelos são cada vez mais implementados no mundo real, garantir a sua confiabilidade e responsabilidade tornou-se crítico para a academia, a indústria e o governo. Este estudo aborda o desenvolvimento confiável e responsável dos modelos de base. Exploramos questões críticas, incluindo viés e justiça, segurança e privacidade, incerteza, explicabilidade e desvio de distribuição. A nossa investigação também abrange as limitações dos modelos, como as alucinações, bem como métodos como o alinhamento e a deteção de Conteúdo Gerado por Inteligência Artificial (AIGC). Para cada área, revemos o estado atual do campo e delineamos direções de pesquisa futuras concretas. Adicionalmente, discutimos as interseções entre estas áreas, destacando as suas conexões e desafios partilhados. Esperamos que o nosso estudo promova o desenvolvimento de modelos de base que não sejam apenas poderosos, mas também éticos, confiáveis, seguros e socialmente responsáveis.

Pensar Torna os Agentes de LLM Introvertidos: Como o Pensamento Obrigatório Pode Sair Pela Culatra em Agentes Engajados com o Usuário
Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents

Feb 8

ByJiatong Li, Changdae Oh, Hyeong Kyu Choi, Jindong Wang, Sharon Li

A elicitação de raciocínio emergiu como uma técnica poderosa para melhorar o desempenho de modelos de linguagem grandes (LLMs) em tarefas complexas ao induzir o pensamento. No entanto, sua eficácia em cenários realistas de agentes envolvidos com usuários permanece incerta. Neste artigo, conduzimos um estudo abrangente sobre o efeito do pensamento explícito em agentes de LLM envolvidos com usuários. Nossos experimentos abrangem sete modelos, três benchmarks e duas instanciações de pensamento, e os avaliamos por meio de uma análise quantitativa de taxonomia de respostas e estudos de caso qualitativos de propagação de falhas. Contrariamente às expectativas, descobrimos que o pensamento obrigatório frequentemente surte efeito contrário em agentes em configurações envolvidas com o usuário, causando degradação anômala de desempenho em vários LLMs. Nossa principal descoberta revela que o pensamento torna os agentes mais "introvertidos", encurtando as respostas e reduzindo a divulgação de informações aos usuários, o que enfraquece a troca de informações entre agente e usuário e leva a falhas em tarefas subsequentes. Além disso, demonstramos que solicitar explicitamente a divulgação de informações melhora de forma confiável o desempenho em diversas famílias de modelos, sugerindo que a transparência proativa é uma alavanca vital para a otimização de agentes. No geral, nosso estudo sugere que a conscientização sobre a transparência da informação é uma perspectiva crucial, mas pouco explorada, para o futuro projeto de agentes de raciocínio em cenários do mundo real. Nosso código está disponível em https://github.com/deeplearning-wisc/Thinking-Agent.

Ciência de Dados e Tecnologia Rumo à AGI Parte I: Gestão de Dados em Camadas
Data Science and Technology Towards AGI Part I: Tiered Data Management

Feb 9

ByYudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

O desenvolvimento da inteligência artificial pode ser visto como uma evolução dos paradigmas de aprendizagem orientados por dados, com mudanças sucessivas na organização e utilização de dados a impulsionar continuamente os avanços na capacidade dos modelos. A investigação atual em LLM é dominada por um paradigma que depende fortemente da escalagem unidirecional do volume de dados, encontrando cada vez mais estrangulamentos na disponibilidade de dados, no custo de aquisição e na eficiência do treino. Neste trabalho, argumentamos que o desenvolvimento da AGI está a entrar numa nova fase de coevolução dados-modelo, na qual os modelos orientam ativamente a gestão de dados, enquanto dados de alta qualidade, por sua vez, amplificam as capacidades dos modelos. Para implementar esta visão, propomos uma estrutura de gestão de dados hierárquica, concebida para suportar todo o ciclo de vida de treino de LLM em objetivos de aprendizagem heterogéneos e restrições de custo. Especificamente, introduzimos uma estrutura de gestão de dados hierárquica L0-L4, que vai desde recursos brutos não curados até conhecimento organizado e verificável. É importante notar que os LLMs são totalmente utilizados nos processos de gestão de dados, como a classificação de qualidade e a edição de conteúdo, para refinar os dados entre os níveis. Cada nível é caracterizado por propriedades de dados distintas, estratégias de gestão e funções de treino, permitindo que os dados sejam alocados estrategicamente nas várias fases de treino de LLM, incluindo pré-treino, meio-treino e alinhamento. A estrutura equilibra a qualidade dos dados, o custo de aquisição e o benefício marginal do treino, fornecendo uma abordagem sistemática para uma gestão de dados escalável e sustentável. Validamos a eficácia da estrutura proposta através de estudos empíricos, nos quais conjuntos de dados hierárquicos são construídos a partir de corpora brutos e utilizados em múltiplas fases de treino. Os resultados experimentais demonstram que a utilização de dados com consciência hierárquica melhora significativamente a eficiência do treino e o desempenho do modelo. Para facilitar investigação futura, disponibilizamos à comunidade os nossos conjuntos de dados hierárquicos e ferramentas de processamento.

CodeCircuit: Rumo à Inferência da Correção de Código Gerado por LLM por meio de Grafos de Atribuição
CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Feb 6

ByYicheng He, Zheng Zhao, Zhou Kaiyu, Bryan Dai, Jie Fu, Yonghui Yang

Os paradigmas atuais para verificação de código dependem fortemente de mecanismos externos—como testes unitários baseados em execução ou juízes auxiliares baseados em LLM—que são frequentemente intensivos em mão de obra ou limitados pelas capacidades do próprio modelo de julgamento. Isso levanta uma questão fundamental, mas ainda não explorada: A correção funcional de um LLM pode ser avaliada puramente a partir de sua estrutura computacional interna? Nosso objetivo principal é investigar se a dinâmica neural do modelo codifica sinais internamente decodificáveis que são preditivos de validade lógica durante a geração de código. Inspirados pela interpretabilidade mecanicista, propomos tratar a verificação de código como uma tarefa de diagnóstico mecanicista, mapeando a trajetória algorítmica explícita do modelo em grafos de atribuição em nível de linha. Ao decompor fluxos residuais complexos, visamos identificar as assinaturas estruturais que distinguem o raciocínio sólido da falha lógica dentro dos circuitos internos do modelo. A análise em Python, C++ e Java confirma que os sinais intrínsecos de correção são robustos em diversas sintaxes. Características topológicas desses grafos internos preveem a correção com mais confiabilidade do que heurísticas superficiais e permitem intervenções causais direcionadas para corrigir lógica errônea. Essas descobertas estabelecem a introspecção interna como uma propriedade decodificável para verificar código gerado. Nosso código está em https:// github.com/bruno686/CodeCircuit.

Habilidades do Agente: Uma Análise Baseada em Dados das Habilidades do Claude para Ampliar a Funcionalidade de Modelos de Linguagem de Grande Porte
Agent Skills: A Data-Driven Analysis of Claude Skills for Extending Large Language Model Functionality

Feb 8

ByGeorge Ling, Shanshan Zhong, Richard Huang

As habilidades de agente estendem os agentes de modelo de linguagem de grande escala (LLM) com módulos reutilizáveis, semelhantes a programas, que definem condições de acionamento, lógica procedural e interações com ferramentas. À medida que essas habilidades proliferam em marketplaces públicos, não está claro quais tipos estão disponíveis, como os usuários as adotam e quais riscos elas representam. Para responder a essas questões, realizamos uma análise em larga escala e baseada em dados de 40.285 habilidades listadas publicamente em um marketplace principal. Nossos resultados mostram que a publicação de habilidades tende a ocorrer em rajadas curtas que acompanham mudanças na atenção da comunidade. Também descobrimos que o conteúdo das habilidades está altamente concentrado em fluxos de trabalho de engenharia de software, enquanto a recuperação de informações e a criação de conteúdo representam uma parcela substancial da adoção. Além das tendências de conteúdo, revelamos um pronunciado desequilíbrio entre oferta e demanda entre categorias, e mostramos que a maioria das habilidades permanece dentro dos orçamentos típicos de prompt, apesar de uma distribuição de comprimento com cauda pesada. Finalmente, observamos uma forte homogeneidade do ecossistema, com redundância generalizada em nível de intenção, e identificamos riscos de segurança não triviais, incluindo habilidades que permitem ações de alteração de estado ou em nível de sistema. No geral, nossas descobertas fornecem um instantâneo quantitativo das habilidades de agente como uma camada de infraestrutura emergente para agentes e informam trabalhos futuros sobre reutilização, padronização e design consciente da segurança de habilidades.

SoulX-Singer: Rumo à Síntese de Voz Cantada de Alta Qualidade com Zero-Shot
SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

Feb 8

ByJiale Qian, Hao Meng, Tian Zheng, Pengcheng Zhu, Haopeng Lin, Yuhang Dai, Hanke Xie, Wenxiao Cao, Ruixuan Shang, Jun Wu, Hongmei Liu, Hanlin Wen, Jian Zhao, Zhonglin Jiang, Yong Chen, Shunshun Yin, Ming Tao, Jianguo Wei, Lei Xie, Xinsheng Wang

Embora os últimos anos tenham testemunhado progressos rápidos na síntese de voz, os sistemas de síntese de voz cantada (SVC) de código aberto ainda enfrentam barreiras significativas para a implantação industrial, particularmente em termos de robustez e generalização zero-shot. Neste relatório, apresentamos o SoulX-Singer, um sistema de SVC de código aberto de alta qualidade projetado com considerações práticas de implantação em mente. O SoulX-Singer suporta geração de canto controlada condicionada a partituras musicais simbólicas (MIDI) ou representações melódicas, permitindo um controle flexível e expressivo em fluxos de trabalho de produção do mundo real. Treinado com mais de 42.000 horas de dados vocais, o sistema suporta mandarim, inglês e cantonês e alcança consistentemente qualidade de síntese state-of-the-art entre os idiomas sob diversas condições musicais. Além disso, para permitir uma avaliação confiável do desempenho de SVC zero-shot em cenários práticos, construímos o SoulX-Singer-Eval, um benchmark dedicado com estrito desacoplamento treinamento-teste, facilitando a avaliação sistemática em configurações zero-shot.

MotionCrafter: Reconstrução Densa de Geometria e Movimento com um VAE 4D
MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

Feb 9

ByRuijie Zhu, Jiahao Lu, Wenbo Hu, Xiaoguang Han, Jianfei Cai, Ying Shan, Chuanxia Zheng

Apresentamos o MotionCrafter, uma estrutura baseada em difusão de vídeo que reconstrói conjuntamente a geometria 4D e estima o movimento denso a partir de um vídeo monocular. O cerne do nosso método é uma nova representação conjunta de mapas de pontos 3D densos e fluxos de cena 3D em um sistema de coordenadas compartilhado, e um novo VAE 4D para aprender essa representação de forma eficaz. Diferente de trabalhos anteriores que forçam os valores 3D e os latentes a se alinharem estritamente com os latentes do VAE RGB - apesar de suas distribuições fundamentalmente diferentes - demonstramos que tal alinhamento é desnecessário e leva a um desempenho subótimo. Em vez disso, introduzimos uma nova estratégia de normalização de dados e treinamento de VAE que transfere melhor os *priors* de difusão e melhora significativamente a qualidade da reconstrução. Experimentos extensos em múltiplos conjuntos de dados demonstram que o MotionCrafter alcança desempenho state-of-the-art tanto na reconstrução geométrica quanto na estimativa de fluxo de cena denso, proporcionando melhorias de 38,64% e 25,0% na reconstrução geométrica e de movimento, respectivamente, tudo sem qualquer pós-otimização. Página do projeto: https://ruijiezhu94.github.io/MotionCrafter_Page

Rumo a Reduzir a Lacuna entre o Pré-treinamento em Larga Escala e o Ajuste Fino Eficiente para o Controle de Humanoides
Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Jan 29

ByWeidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang

O aprendizado por reforço (RL) é amplamente utilizado para controle de humanoides, com métodos on-policy como o Proximal Policy Optimization (PPO) permitindo treinamento robusto por meio de simulação paralela em larga escala e, em alguns casos, implantação zero-shot em robôs reais. No entanto, a baixa eficiência amostral dos algoritmos on-policy limita a adaptação segura a novos ambientes. Embora o RL off-policy e o RL baseado em modelo tenham demonstrado maior eficiência amostral, ainda existe uma lacuna entre o pré-treinamento em larga escala e o ajuste fino eficiente em humanoides. Neste artigo, descobrimos que o Soft Actor-Critic (SAC) off-policy, com atualização em lote grande e uma alta razão Update-To-Data (UTD), suporta de forma confiável o pré-treinamento em larga escala de políticas de locomoção para humanoides, alcançando implantação zero-shot em robôs reais. Para adaptação, demonstramos que essas políticas pré-treinadas com SAC podem ser ajustadas em novos ambientes e tarefas fora da distribuição usando métodos baseados em modelo. A coleta de dados no novo ambiente executa uma política determinística, enquanto a exploração estocástica é confinada a um modelo mundial com informações físicas. Essa separação mitiga os riscos da exploração aleatória durante a adaptação, preservando ao mesmo tempo a cobertura exploratória para melhoria. No geral, a abordagem combina a eficiência em tempo real da simulação em larga escala durante o pré-treinamento com a eficiência amostral do aprendizado baseado em modelo durante o ajuste fino.

Controle Flexível de Entropia no RLVR sob uma Perspectiva de Preservação de Gradientes
Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

Feb 10

ByKun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um método crítico para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, o treinamento contínuo frequentemente leva ao colapso da entropia da política, caracterizado por uma rápida diminuição da entropia que resulta em excesso de confiança prematuro, redução da diversidade de saída e normas de gradiente que se anulam, inibindo o aprendizado. O *Clipping* de Preservação de Gradiente é um fator primário que influencia essas dinâmicas, mas as estratégias de mitigação existentes são amplamente estáticas e carecem de uma estrutura que conecte os mecanismos de *clipping* a um controle preciso da entropia. Este artigo propõe reformular o controle de entropia no AR a partir da perspectiva do *Clipping* de Preservação de Gradiente. Primeiro, verificamos teórica e empiricamente as contribuições de regiões específicas da taxa de amostragem por importância para o crescimento e a redução da entropia. Aproveitando essas descobertas, introduzimos um novo mecanismo de regulação que utiliza um limite de *clipping* dinâmico para gerenciar a entropia com precisão. Além disso, projetamos e avaliamos estratégias dinâmicas de controle de entropia, incluindo aumento-depois-diminuição, diminuição-aumento-diminuição e decaimento oscilatório. Resultados experimentais demonstram que essas estratégias mitigam efetivamente o colapso de entropia e alcançam desempenho superior em múltiplos *benchmarks*.

ECO: Otimização com Restrição de Energia usando Aprendizado por Reforço para Locomoção de Humanoides
ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking

Feb 6

ByWeidong Huang, Jingwen Zhang, Jiongye Li, Shibowen Zhang, Jiayang Wu, Jiayi Wang, Hangxin Liu, Yaodong Yang, Yao Su

A obtenção de uma locomoção estável e energeticamente eficiente é essencial para que robôs humanoides operem continuamente em aplicações do mundo real. As abordagens existentes de MPC (Controlo Preditivo por Modelo) e RL (Aprendizagem por Reforço) frequentemente dependem de métricas relacionadas com energia incorporadas num quadro de otimização multiobjetivo, que exigem uma extensiva afinação de hiperparâmetros e frequentemente resultam em políticas subótimas. Para enfrentar estes desafios, propomos o ECO (Otimização com Restrições de Energia), um quadro de RL restrito que separa as métricas relacionadas com energia das recompensas, reformulando-as como restrições explícitas de desigualdade. Este método fornece uma representação física clara e interpretável dos custos energéticos, permitindo uma afinação de hiperparâmetros mais eficiente e intuitiva para melhorar a eficiência energética. O ECO introduz restrições dedicadas para o consumo de energia e movimento de referência, aplicadas pelo método Lagrangiano, para alcançar uma marcha estável, simétrica e energeticamente eficiente para robôs humanoides. Avaliámos o ECO em comparação com MPC, RL padrão com moldagem de recompensa e quatro métodos state-of-the-art de RL restrito. Experiências, incluindo transferências sim-para-sim e sim-para-real no robô humanoide de tamanho infantil BRUCE, demonstram que o ECO reduz significativamente o consumo de energia em comparação com os métodos de base, mantendo ao mesmo tempo um desempenho de marcha robusto. Estes resultados destacam um avanço substancial na locomoção energeticamente eficiente de humanoides. Todas as demonstrações experimentais podem ser encontradas no site do projeto: https://sites.google.com/view/eco-humanoid.

Estratégias Ótimas de Subpalavras em Turco em Escala: Avaliação Sistemática da Interação entre Dados, Vocabulário e Morfologia
Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay

Feb 6

ByDuygu Altinok

A tokenização é uma escolha de projeto crucial para a modelagem neural de linguagem em línguas morfologicamente ricas (LMRs), como o turco, onde a aglutinação produtiva desafia tanto a eficiência do vocabulário quanto a fidelidade morfológica. Estudos anteriores exploraram famílias de tokenizadores e tamanhos de vocabulário, mas tipicamente (i) variam o vocabulário sem controlar sistematicamente o corpus de treinamento do tokenizador, (ii) fornecem diagnósticos intrínsecos limitados e (iii) avaliam uma fatia estreita de tarefas downstream. Apresentamos o primeiro estudo abrangente e fundamentado da tokenização por subpalavras para o turco; um "manifesto das subpalavras", que varia conjuntamente o tamanho do vocabulário e o tamanho do corpus de treinamento do tokenizador (acoplamento de dados e vocabulário), compara múltiplas famílias de tokenizadores sob orçamentos de parâmetros equivalentes (WordPiece, nível morfológico e baselines de caracteres) e avalia através de sondagens semânticas (NLI, STS, análise de sentimentos, NER), sintáticas (POS, análise de dependências) e sensíveis à morfologia. Para explicar por que os tokenizadores têm sucesso ou falham, introduzimos um kit de ferramentas de diagnóstico consciente da morfologia que vai além de agregados grosseiros, analisando micro/macro F1 a nível de fronteira, acertos de atomicidade do lema versus fronteiras de superfície desacoplados, índices de super/ sub-segmentação, distâncias de edição de caractere/palavra (CER/WER), taxas de continuação e cobertura por tipo de afixo e atomicidade a nível de token. Nossas contribuições são quádruplas: (i) uma investigação sistemática da tríade vocabulário-corpus-sucesso; (ii) um quadro de avaliação unificado e consciente da morfologia, ligando diagnósticos intrínsecos a resultados extrínsecos; (iii) comparações controladas identificando quando a tokenização a nível de caractere e a nível morfológico são vantajosas; e (iv) um lançamento de código aberto do código de avaliação, pipelines de tokenização e modelos. Como o primeiro trabalho do género, este "manifesto das subpalavras" oferece orientação acionável para a construção de tokenizadores eficazes em LMRs e estabelece uma base reproduzível para pesquisas futuras.

WildReward: Aprendendo Modelos de Recompensa a partir de Interações Humanas em Ambientes Naturais
WildReward: Learning Reward Models from In-the-Wild Human Interactions

Feb 9

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Lei Hou, Juanzi Li

Os modelos de recompensa (RMs) são cruciais para o treinamento de grandes modelos de linguagem (LLMs), mas normalmente dependem de pares de preferência anotados em larga escala por humanos. Com a implantação generalizada dos LLMs, as interações no ambiente real emergiram como uma fonte rica de sinais implícitos de recompensa. Isso levanta a questão: Podemos desenvolver modelos de recompensa diretamente a partir de interações no ambiente real? Neste trabalho, exploramos essa possibilidade adotando o WildChat como fonte de interação e propondo um pipeline para extrair feedback humano confiável, obtendo 186 mil instâncias de alta qualidade para treinar o WildReward via regressão ordinal diretamente no feedback do usuário, sem pares de preferência. Experimentos extensivos demonstram que o WildReward alcança desempenho comparável ou mesmo superior aos modelos de recompensa convencionais, com melhor calibração e consistência entre amostras. Também observamos que o WildReward beneficia-se diretamente da diversidade de usuários, onde mais usuários produzem modelos de recompensa mais robustos. Por fim, aplicamos o WildReward ao treinamento DPO online e observamos melhorias significativas em várias tarefas. Código e dados estão disponíveis em https://github.com/THU-KEG/WildReward.

Col-Bandit: Poda em Tempo de Consulta sem Exemplos para Recuperação por Interação Tardia
Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval

Feb 2

ByRoi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay

Os recuperadores de interação tardia multivector, como o ColBERT, alcançam qualidade de recuperação de última geração, mas o seu custo no tempo de consulta é dominado pelo cálculo exaustivo das interações MaxSim a nível de token para cada documento candidato. Embora a aproximação da interação tardia com representações de vetor único reduza o custo, ela frequentemente incorre em uma perda substancial de precisão. Introduzimos o Col-Bandit, um algoritmo de poda em tempo de consulta que reduz este fardo computacional ao transformar a rerranqueamento num problema de identificação Top-K de população finita. O Col-Bandit mantém limites conscientes da incerteza sobre as pontuações de documentos parcialmente observados e revela de forma adaptativa apenas as entradas MaxSim (documento, token de consulta) necessárias para determinar os melhores resultados sob limites de decisão estatística com uma relaxação ajustável. Diferente de abordagens de granularidade grossa que podam documentos inteiros ou tokens offline, o Col-Bandit esparsifica a matriz de interação dinamicamente. Ele opera como uma camada de substituição imediata (drop-in) e de zero-shot sobre sistemas multivector padrão, não requerendo modificações no índice, pré-processamento offline ou retreinamento do modelo. Experimentos em benchmarks textuais (BEIR) e multimodais (REAL-MM-RAG) mostram que o Col-Bandit preserva a fidelidade do ranqueamento enquanto reduz os FLOPs do MaxSim em até 5 vezes, indicando que a pontuação densa de interação tardia contém redundância substancial que pode ser identificada e podada eficientemente no tempo de consulta.

Ecos como Âncoras: Custos Probabilísticos e Reorientação da Atenção no Raciocínio de LLMs
Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

Feb 6

ByZhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li

A alocação de computação no momento do teste em grandes modelos de raciocínio (LRMs) é amplamente utilizada e tem aplicações na resolução de problemas matemáticos, síntese de código e planejamento. Trabalhos recentes abordaram esse problema através da expansão da autoconsistência e do pensamento paralelo, adicionando "tokens de pensamento" genéricos e instruindo os modelos a reler a questão antes de responder. Infelizmente, essas abordagens ou injetam tokens independentes da tarefa ou impõem heurísticas que não explicam – e frequentemente ignoram – a repetição espontânea que muitos LRMs exibem no início de suas cadeias internas. Em contraste, nós analisamos e aproveitamos a tendência do modelo de repetir a questão, que denominamos de Eco do Prompt (EOP), como um mecanismo de modelagem de computação com carga frontal. Formalizamos seu custo probabilístico enquadrando a remoção do eco como um condicionamento baseado em rejeição e definindo a Lacuna de Probabilidade do Eco (ΔL) como um proxy computável. Isso fornece a ligação teórica ausente que conecta a repetição inicial a ganhos de probabilidade e precisão subsequente. No entanto, isso por si só não especifica como explorar o EOP. Consequentemente, desenvolvemos o Ajuste Fino Supervisionado Destilado por Eco (ED-SFT) para incutir um padrão de "ecoar-depois-raciocinar" através do ajuste fino supervisionado, e a Promptagem Ecóica (EP) para reancorar o modelo no meio do rastreamento, sem necessidade de treinamento. Embora promissores, quantificar benefícios além da verbosidade não é trivial. Portanto, conduzimos análises de probabilidade controladas por comprimento e sufixo, juntamente com estudos de atenção por camadas, mostrando que o EOP aumenta a atenção da resposta para o prefixo da resposta nas camadas intermediárias, consistente com um mecanismo de refocalização da atenção. Avaliamos no GSM8K, MathQA, Hendrycks-MATH, AIME24 e MATH-500 sob configurações e orçamentos de decodificação idênticos, e encontramos ganhos consistentes em relação às linhas de base. O código está disponível em https://github.com/hhh2210/echoes-as-anchors.

Sobre a Aleatoriedade nas Avaliações de Agentes
On Randomness in Agentic Evals

Feb 6

ByBjarni Haukur Bjarnason, André Silva, Martin Monperrus

Os sistemas agentes são avaliados em benchmarks onde os agentes interagem com ambientes para resolver tarefas. A maioria dos artigos reporta uma pontuação pass@1 calculada a partir de uma única execução por tarefa, assumindo que isto fornece uma estimativa de desempenho confiável. Nós testamos esta suposição recolhendo 60.000 trajetórias agentes no SWE-Bench-Verified, abrangendo três modelos e dois *scaffolds*. Descobrimos uma variância substancial: as estimativas pass@1 de uma única execução variam entre 2,2 e 6,0 pontos percentuais, dependendo de qual execução é selecionada, com desvios padrão superiores a 1,5 pontos percentuais, mesmo à temperatura 0. Esta variância tem implicações críticas: melhorias reportadas de 2 a 3 pontos percentuais podem refletir ruído de avaliação em vez de progresso algorítmico genuíno. Através de uma análise a nível de *token*, mostramos que as trajetórias divergem cedo, frequentemente nos primeiros poucos percentuais de *tokens*, e que estas pequenas diferenças se propagam em cascata para diferentes estratégias de solução. Para permitir uma avaliação confiável de sistemas agentes, recomendamos três práticas concretas: (1) estimar pass@1 a partir de múltiplas execuções independentes por tarefa, especialmente ao medir pequenas melhorias, (2) usar análise de poder estatístico para determinar o número de execuções necessárias para detetar os tamanhos de efeito esperados, e (3) considerar métricas como pass@k (limite otimista) e pass^k (limite pessimista) com k>1 para caracterizar melhor o envelope completo de desempenho. Embora estas práticas aumentem o custo da avaliação, elas são essenciais para distinguir o progresso científico genuíno do ruído estatístico.

KV-CoRE: Avaliação da Capacidade de Compressão de Baixo Rank Dependente de Dados em Caches KV de LLMs
KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs

Feb 5

ByJian Chen, Zhuoran Wang, Jiayu Qin, Ming Li, Meng Wang, Changyou Chen, Yin Chen, Qizhen Weng, Yirui Liu

Os modelos de linguagem de grande escala dependem de caches KV para evitar computação redundante durante a decodagem autoregressiva, mas à medida que o comprimento do contexto aumenta, a leitura e escrita do cache podem saturar rapidamente a largura de banda da memória da GPU. Trabalhos recentes exploraram a compressão do cache KV, porém a maioria das abordagens negligencia a natureza dependente de dados dos caches KV e sua variação entre as camadas. Apresentamos o KV-CoRE (Compressibilidade do Cache KV por Avaliação de Posto), um método baseado em SVD para quantificar a compressibilidade de baixo posto dependente de dados dos caches KV. O KV-CoRE calcula a aproximação ótima de baixo posto sob a norma de Frobenius e, por ser livre de gradientes e incremental, permite uma avaliação eficiente a nível de conjunto de dados e por camada. Usando este método, analisamos múltiplos modelos e conjuntos de dados abrangendo cinco domínios do inglês e dezesseis idiomas, revelando padrões sistemáticos que vinculam a compressibilidade à arquitetura do modelo, dados de treinamento e cobertura linguística. Como parte desta análise, empregamos o Posto Efetivo Normalizado como métrica de compressibilidade e demonstramos que ele se correlaciona fortemente com a degradação de desempenho sob compressão. Nosso estudo estabelece uma estrutura de avaliação fundamentada e o primeiro benchmark em larga escala da compressibilidade do cache KV em LLMs, oferecendo insights para compressão dinâmica e consciente dos dados e para o desenvolvimento de modelos centrados em dados.

FlexMoRE: Uma Mistura Flexível de Especialistas com Heterogeneidade de Classificação para Grandes Modelos de Linguagem Treinados por Federação de Forma Eficiente
FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

Feb 9

ByAnnemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From, Lukas Galke Poech, Peter Schneider-Kamp

Avanços recentes em arquiteturas de mistura de especialistas demonstraram que modelos de especialistas individuais podem ser treinados de forma federada, ou seja, isoladamente de outros especialistas, utilizando um modelo base comum para facilitar a coordenação. No entanto, levantamos a hipótese de que especialistas de tamanho completo podem não ser necessários para todos os domínios e que, em vez disso, adaptadores de baixo *rank* podem ser suficientes. Aqui, introduzimos o FlexMoRE, uma Mistura Flexível de Especialistas com *Rank* Heterogêneo, que pode ser composta por especialistas de tamanho completo ou por adaptadores com um *rank* adequado. Investigamos sistematicamente o equilíbrio entre o *rank* do especialista e o desempenho em tarefas subsequentes, avaliando 6 especialistas com *ranks* de 2^0 a 2^{14}, resultando em experimentos que abrangem 150 misturas (96 com 2 especialistas, 54 com 7 especialistas) avaliadas em 120 tarefas. Para nossos experimentos, baseamo-nos no FlexOlmo e convertemos seus especialistas pré-treinados em versões de baixo *rank*. Nossa análise de regressão do *rank* do especialista para o desempenho da tarefa subsequente revela que o *rank* de melhor desempenho é substancialmente maior para benchmarks com forte componente de raciocínio do que para benchmarks com forte componente de conhecimento. Essas descobertas sobre a sensibilidade ao *rank* trazem implicações diretas para a eficiência de memória: usando *ranks* ótimos, o FlexMoRE produz um desempenho superior em tarefas subsequentes (pontuação média de 47,18) em comparação com a mistura de linha de base no estilo FlexOlmo com especialistas de tamanho completo (pontuação média de 45,46), utilizando menos de um terço dos parâmetros (10,75B para FlexMoRE vs. 33,27B para FlexOlmo). Todo o código será disponibilizado.

Aster: Descoberta Científica Autônoma com Velocidade 20 Vezes Maior que os Métodos Existentes
Aster: Autonomous Scientific Discovery over 20x Faster Than Existing Methods

Feb 3

ByEmmett Bicker

Apresentamos o Aster, um agente de IA para descoberta científica autónoma capaz de operar a uma velocidade mais de 20 vezes superior à das estruturas existentes. Dada uma tarefa, um programa inicial e um script para avaliar o desempenho do programa, o Aster melhora iterativamente o programa, frequentemente alcançando novos desempenhos de ponta. A redução significativa no número de iterações necessárias para novas descobertas, proporcionada pelo Aster, expande o domínio dos problemas tratáveis para incluir tarefas com durações de avaliação longas, como execuções de treino de aprendizagem automática com várias horas. Aplicámos o Aster a problemas em matemática, engenharia de *kernels* para GPU, biologia, neurociência e treino de modelos de linguagem. Mais especificamente: o problema do mínimo sobreposição de Erdős, a otimização do *kernel* TriMul, um problema de remoção de ruído em análise de célula única, o treino de um modelo de previsão de atividade neural para obter bons resultados no ZAPBench e a NanoGPT Speedrun Competition. O Aster atinge resultados de ponta em todas as tarefas, exceto no ZAPBench, onde iguala o desempenho da melhor solução humana utilizando menos de 1/190 do poder computacional. O Aster está acessível através de uma interface *web* e de uma API em asterlab.ai.

RAG de Baixo Custo para Correspondência de Entidades com LLMs: Uma Exploração Baseada em Blocos
Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration

Feb 5

ByChuangtao Ma, Zeyu Zhang, Arijit Khan, Sebastian Schelter, Paul Groth

A geração aumentada por recuperação (RAG) melhora o raciocínio de LLMs em tarefas intensivas em conhecimento, mas os pipelines de RAG existentes incorrem em sobrecarga substancial de recuperação e geração quando aplicados à correspondência de entidades em larga escala. Para superar esta limitação, apresentamos o CE-RAG4EM, uma arquitetura RAG de baixo custo que reduz a computação através de recuperação e geração em lote baseadas em blocagem. Também apresentamos um framework unificado para analisar e avaliar sistemas RAG para correspondência de entidades, focando em otimizações conscientes da blocagem e granularidade de recuperação. Experimentos extensivos sugerem que o CE-RAG4EM pode alcançar qualidade de correspondência comparável ou melhorada enquanto reduz substancialmente o tempo de execução de ponta a ponta em relação a linhas de base robustas. Nossa análise revela ainda que parâmetros-chave de configuração introduzem uma compensação inerente entre desempenho e sobrecarga, oferecendo orientação prática para projetar sistemas RAG eficientes e escaláveis para correspondência de entidades e integração de dados.

Kansa por Colocação Guiada por Aprendizado para EDPs Diretas e Inversas Além da Linearidade
Learning-guided Kansa collocation for forward and inverse PDEs beyond linearity

Feb 8

ByZheyuan Hu, Weitao Chen, Cengiz Öztireli, Chenliang Zhou, Fangcheng Zhong

As Equações Diferenciais Parciais são precisas na modelação de fenómenos físicos, biológicos e gráficos. No entanto, os métodos numéricos sofrem com a maldição da dimensionalidade, custos computacionais elevados e discretização específica do domínio. O nosso objetivo é explorar os prós e contras de diferentes solucionadores de EDPs e aplicá-los a problemas específicos de simulação científica, incluindo a solução direta, problemas inversos e a descoberta de equações. Em particular, estendemos o recente solucionador de estrutura CNF (NeurIPS 2023) para configurações multidimensionais e não lineares, juntamente com aplicações subsequentes. Os resultados incluem a implementação de métodos selecionados, técnicas de autossintonização, avaliação em problemas de referência e um levantamento abrangente de solucionadores de EDPs baseados em redes neuronais e aplicações em simulação científica.

Decodagem Ancorada: Reduzindo Comprovadamente o Risco de Direitos Autorais para Qualquer Modelo de Linguagem
Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model

Feb 6

ByJacqueline He, Jonathan Hayase, Wen-tau Yih, Sewoong Oh, Luke Zettlemoyer, Pang Wei Koh

Os modelos linguístticos (LMs) modernos tendem a memorizar porções dos seus dados de treinamento e emitir trechos verbatim. Quando as fontes subjacentes são sensíveis ou protegidas por direitos autorais, tal reprodução levanta questões de consentimento e compensação para os criadores e riscos de conformidade para os desenvolvedores. Propomos o Decodificação Ancorada (Anchored Decoding), um método de inferência "plug-and-play" para suprimir a cópia textual: ele permite a decodificação de qualquer LM arriscado treinado em dados de licença mista, mantendo a geração em proximidade limitada a um LM seguro treinado de forma permissiva. A Decodificação Ancorada aloca adaptativamente um orçamento de informação escolhido pelo usuário ao longo da trajetória de geração e aplica restrições por etapa que produzem uma garantia a nível de sequência, permitindo um compromisso ajustável entre risco e utilidade. Para tornar a Decodificação Ancorada praticamente útil, introduzimos um novo modelo seguro treinado de forma permissiva (TinyComma 1.8B), bem como a Decodificação Ancorada_{Byte} (Anchored_{Byte} Decoding), uma variante do nosso método a nível de byte que permite a fusão transversal de vocabulário através da framework ByteSampler (Hayase et al., 2025). Avaliamos os nossos métodos em seis pares de modelos em avaliações de longo prazo de risco de direitos autorais e utilidade. A Decodificação Ancorada e a Decodificação Ancorada_{Byte} definem uma nova fronteira de Pareto, preservando fluência e factualidade próximas da original enquanto eliminam até 75% do gap mensurável de cópia (média de seis métricas de cópia) entre a linha de base de risco e uma referência segura, com uma sobrecarga de inferência modesta.

AVERE: Aprimorando o Raciocínio Emocional Audiovisual com Otimização de Preferências
AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

Feb 4

ByAshutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani

A compreensão emocional é essencial para a construção de agentes socialmente inteligentes. Embora os modelos de linguagem grandes multimodais recentes tenham demonstrado forte desempenho nesta tarefa, dois desafios principais persistem: associações espúrias entre emoções e pistas audiovisuais irrelevantes, e alucinações de pistas audiovisuais impulsionadas por *priors* textuais no *backbone* do modelo de linguagem. Para quantificar e compreender estas questões, introduzimos o EmoReAlM, um *benchmark* concebido para avaliar MLLMs quanto a associações pista-emoção, alucinações e concordância de modalidade. Propomos então o AVEm-DPO, uma técnica de otimização de preferências que alinha as respostas do modelo com os *inputs* audiovisuais e consultas centradas na emoção. Especificamente, construímos preferências sobre respostas que exibem associações espúrias ou alucinações, e pares de *input* audiovisual guiados por *prompts* textuais. Incluímos também um termo de regularização que penaliza a dependência de *priors* textuais, mitigando assim as alucinações de pistas específicas da modalidade. Resultados experimentais no DFEW, RAVDESS e EMER demonstram que o nosso método melhora significativamente o desempenho dos modelos de referência *baseline*, com ganhos de desempenho relativo de 6 a 19% em configurações *zero-shot*. Ao fornecer tanto um *benchmark* rigoroso como um quadro de otimização robusto, este trabalho permite uma avaliação e melhoria fundamentadas dos MLLMs para a compreensão emocional e a IA social. O código, modelos e *benchmark* serão disponibilizados em https://avere-iclr.github.io.

Mecanismos de Privacidade Conscientes do Conceito para Defesa contra Ataques de Inversão de Embeddings
Concept-Aware Privacy Mechanisms for Defending Embedding Inversion Attacks

Feb 6

ByYu-Che Tsai, Hsiang Hsiao, Kuan-Yu Chen, Shou-De Lin

Os embeddings de texto permitem inúmeras aplicações de PLN, mas enfrentam sérios riscos de privacidade devido a ataques de inversão de embeddings, que podem expor atributos sensíveis ou reconstruir texto bruto. As defesas existentes baseadas em privacidade diferencial assumem uma sensibilidade uniforme entre as dimensões dos embeddings, resultando em ruído excessivo e degradação da utilidade. Propomos o SPARSE, uma estrutura centrada no usuário para proteção de privacidade específica por conceito em embeddings de texto. O SPARSE combina (1) aprendizado de máscara diferenciável para identificar dimensões sensíveis à privacidade para conceitos definidos pelo usuário, e (2) o mecanismo de Mahalanobis que aplica ruído elíptico calibrado pela sensibilidade dimensional. Diferente da injeção tradicional de ruído esférico, o SPARSE perturba seletivamente as dimensões sensíveis à privacidade, preservando a semântica não sensível. Avaliado em seis conjuntos de dados com três modelos de embedding e cenários de ataque, o SPARSE reduz consistentemente o vazamento de privacidade enquanto alcança desempenho superior em tarefas downstream em comparação com os métodos state-of-the-art de DP.

GraphAgents: IA Agente Orientada por Grafos de Conhecimento para o Design de Materiais em Diferentes Domínios
GraphAgents: Knowledge Graph-Guided Agentic AI for Cross-Domain Materials Design

Feb 7

ByIsabella A. Stewart, Tarjei Paule Hage, Yu-Chuan Hsu, Markus J. Buehler

Os Modelos de Linguagem de Grande Porte (LLMs) prometem acelerar a descoberta ao raciocinar através do cenário científico em expansão. No entanto, o desafio já não é o acesso à informação, mas sim conectá-la de maneiras significativas e que abranjam diferentes domínios. Na ciência dos materiais, onde a inovação exige a integração de conceitos desde a química molecular até ao desempenho mecânico, este problema é especialmente agudo. Nem os humanos nem os LLMs de agente único podem lidar totalmente com esta torrente de informação, sendo os últimos frequentemente propensos a alucinações. Para resolver este estrangulamento, introduzimos uma arquitetura multiagente guiada por grafos de conhecimento de larga escala para encontrar substitutos sustentáveis para substâncias per e polifluoroalquil (PFAS) — químicos atualmente sob intenso escrutínio regulamentar. Os agentes na arquitetura especializam-se na decomposição de problemas, recuperação de evidências, extração de parâmetros de design e travessia de grafos, descobrindo conexões latentes entre diferentes bolsas de conhecimento para apoiar a geração de hipóteses. Estudos de ablação mostram que o *pipeline* multiagente completo supera o *prompting* de disparo único, sublinhando o valor da especialização distribuída e do raciocínio relacional. Demonstramos que, ao adaptar as estratégias de travessia do grafo, o sistema alterna entre buscas exploratórias, que focam em resultados críticos para o domínio, e buscas exploratórias, que revelam interconexões emergentes. Ilustrado através do exemplo de tubagem biomédica, o *framework* gera alternativas sustentáveis sem PFAS que equilibram desempenho tribológico, estabilidade térmica, resistência química e biocompatibilidade. Este trabalho estabelece um *framework* que combina grafos de conhecimento com raciocínio multiagente para expandir o espaço de design de materiais, apresentando vários candidatos de design iniciais para demonstrar a abordagem.

CauScale: Descoberta Neural de Causalidade em Escala
CauScale: Neural Causal Discovery at Scale

Feb 9

ByBo Peng, Sirui Chen, Jiaguo Tian, Yu Qiao, Chaochao Lu

A descoberta causal é essencial para o avanço de áreas orientadas por dados, como a IA científica e a análise de dados, no entanto, as abordagens existentes enfrentam gargalos significativos de eficiência temporal e espacial ao escalar para grafos grandes. Para enfrentar este desafio, apresentamos o CauScale, uma arquitetura neural projetada para descoberta causal eficiente, que escala a inferência para grafos com até 1000 nós. O CauScale melhora a eficiência temporal através de uma unidade de redução que comprime *embeddings* de dados e melhora a eficiência espacial ao adotar pesos de atenção compartilhados para evitar a manutenção de mapas de atenção específicos por eixo. Para manter alta precisão na descoberta causal, o CauScale adota um design de dois fluxos: um fluxo de dados extrai evidências relacionais de observações de alta dimensão, enquanto um fluxo de grafo integra *priors* estatísticos de grafo e preserva sinais estruturais-chave. O CauScale escala com sucesso para grafos de 500 nós durante o treinamento, onde trabalhos anteriores falham devido a limitações de espaço. Em dados de teste com várias escalas de grafo e mecanismos causais, o CauScale alcança 99,6% de mAP em dados dentro da distribuição e 84,4% em dados fora da distribuição, enquanto oferece acelerações de inferência de 4 a 13.000 vezes em relação a métodos anteriores. Nossa página do projeto está em https://github.com/OpenCausaLab/CauScale.

dewi-kadita: Uma Biblioteca Python para Simulação Idealizada de Cardumes com Diagnósticos Baseados em Entropia
dewi-kadita: A Python Library for Idealized Fish Schooling Simulation with Entropy-Based Diagnostics

Feb 8

BySandy H. S. Herho, Iwan P. Anwar, Faruq Khadami, Alfita P. Handayani, Karina A. Sujatmiko, Kamaluddin Kasim, Rusmawan Suwarman, Dasapta E. Irawan

O movimento coletivo em cardumes exemplifica a auto-organização emergente em sistemas de matéria ativa, porém as ferramentas computacionais para simular e analisar essas dinâmicas permanecem fragmentadas entre grupos de pesquisa. Apresentamos dewi-kadita, uma biblioteca Python de código aberto que implementa o modelo tridimensional baseado em zonas de Couzin com diagnósticos de entropia abrangentes adaptados para a pesquisa do comportamento coletivo marinho. A biblioteca introduz sete métricas de teoria da informação – entropia da coesão do cardume, entropia da polarização, entropia da estratificação por profundidade, entropia do momento angular, entropia do vizinho mais próximo, entropia da correlação de velocidades e entropia da forma do cardume – que caracterizam características organizacionais distintas inacessíveis a parâmetros de ordem clássicos. Essas métricas se combinam em um Índice de Agregação Oceânica (IAO) que fornece uma medida escalar única de desordem coletiva. A validação em quatro configurações canônicas (enxame, toro, paralelo dinâmico, altamente paralelo) confirma a reprodução correta de comportamentos de fase conhecidos: o enxame mantém desordem com polarização P < 0,1 e IAO ≈ 0,71, enquanto o estado altamente paralelo atinge P = 0,998 com IAO = 0,24 e a entropia da correlação de velocidades tendendo a zero. O arcabouço de entropia discrimina com sucesso as configurações de toro e paralelo dinâmico, que exibem magnitudes comparáveis de parâmetros de ordem através de diferentes mecanismos organizacionais. A compilação just-in-time (JIT) do Numba acelera os cálculos de interações pareadas em 10 a 100 vezes, permitindo simulações de 150 a 250 agentes ao longo de 1000 a 2000 passos de tempo em até cinco minutos em hardware padrão de estação de trabalho. A saída em NetCDF4 garante interoperabilidade com ferramentas de análise oceanográfica. A biblioteca atende à necessidade de infraestrutura padronizada e reproduzível na modelagem de comportamento coletivo, análoga aos códigos estabelecidos de dinâmica molecular.

f-GRPO e Além: Algoritmos de Aprendizagem por Reforço Baseados em Divergência para o Alinhamento Geral de LLMs
f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Feb 5

ByRajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song

Pesquisas recentes demonstram que os objetivos de Alinhamento de Preferências (AP) atuam como estimadores de divergência entre as distribuições de respostas alinhadas (escolhidas) e não alinhadas (rejeitadas). Neste trabalho, estendemos esta perspectiva baseada em divergência para cenários gerais de alinhamento, como o aprendizado por reforço com recompensas verificáveis (RLVR), onde apenas recompensas ambientais estão disponíveis. Dentro desta estrutura unificada, propomos a Otimização de Política Relativa por Grupo f (f-GRPO), uma classe de aprendizado por reforço *on-policy*, e a Perda de Alinhamento Híbrida f (f-HAL), um objetivo híbrido *on/off-policy*, para o alinhamento geral de LLMs com base na representação variacional de f-divergências. Fornecemos garantias teóricas de que estas classes de objetivos melhoram a recompensa média após o alinhamento. Empiricamente, validamos nossa estrutura em tarefas de RLVR (Raciocínio Matemático) e AP (Alinhamento de Segurança), demonstrando desempenho e flexibilidade superiores em comparação com os métodos atuais.

Representações Aumentadas por Raciocínio para Recuperação Multimodal
Reasoning-Augmented Representations for Multimodal Retrieval

Feb 6

ByJianrui Zhang, Anirudh Sundara Rajan, Brandon Han, Soochahn Lee, Sukanta Ganguly, Yong Jae Lee

A Recuperação Multimodal Universal (UMR) visa a busca qualquer-para-qualquer entre texto e visão, mas os modelos modernos de incorporação permanecem frágeis quando as consultas exigem raciocínio latente (por exemplo, resolver referências subespecificadas ou corresponder a restrições composicionais). Argumentamos que essa fragilidade é frequentemente induzida por dados: quando as imagens carregam evidências "silenciosas" e as consultas deixam semânticas-chave implícitas, uma única passagem de incorporação deve tanto raciocinar quanto comprimir, incentivando a correspondência espúria de características. Propomos uma estrutura centrada em dados que desacopla esses papéis, externalizando o raciocínio antes da recuperação. Usando um Modelo de Linguagem-Visão forte, tornamos a semântica implícita explícita, criando legendas densas para a evidência visual nas entradas do corpus, resolvendo referências multimodais ambíguas nas consultas e reescrevendo instruções verbosas em restrições de recuperação concisas. O aprimoramento apenas no momento da inferência é insuficiente; o recuperador deve ser treinado nessas representações semanticamente densas para evitar desvio de distribuição e explorar plenamente o sinal adicional. No M-BEIR, nosso método de treinamento aumentado por raciocínio produz ganhos consistentes sobre linhas de base fortes, com ablações mostrando que o aprimoramento do corpus beneficia principalmente consultas intensivas em conhecimento, enquanto o aprimoramento da consulta é crítico para pedidos de modificação composicional. Disponibilizamos publicamente nosso código em https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.

Teoria da Aprendizagem Estatística no Lean 4: Processos Empíricos do Zero
Statistical Learning Theory in Lean 4: Empirical Processes from Scratch

Feb 2

ByYuanhe Zhang, Jason D. Lee, Fanghui Liu

Apresentamos a primeira formalização abrangente em Lean 4 da teoria da aprendizagem estatística (SLT) fundamentada na teoria dos processos empíricos. Nossa infraestrutura formal de ponta a ponta implementa os conteúdos ausentes na biblioteca mais recente do Lean 4 Mathlib, incluindo um desenvolvimento completo da concentração gaussiana lipschitziana, a primeira formalização do teorema da integral de entropia de Dudley para processos sub-gaussianos e uma aplicação à regressão por mínimos quadrados (esparsa) com uma taxa ótima. O projeto foi realizado usando um fluxo de trabalho colaborativo humano-IA, no qual humanos projetam estratégias de prova e agentes de IA executam a construção tática de provas, resultando na caixa de ferramentas para SLT em Lean 4 verificada por humanos. Além da implementação, o processo de formalização expõe e resolve pressupostos implícitos e detalhes ausentes nos livros didáticos padrão de SLT, impondo uma compreensão granular, linha por linha, da teoria. Este trabalho estabelece uma base formal reutilizável e abre as portas para desenvolvimentos futuros na teoria da aprendizagem de máquina. O código está disponível em https://github.com/YuanheZ/lean-stat-learning-theory.