ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

CAR-bench: Avaliando a Consistência e Consciência dos Limites de Agentes de LLM sob Incerteza do Mundo Real
CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Jan 29
ByJohannes Kirmayr, Lukas Stappen, Elisabeth André
68
4

Os benchmarks existentes para agentes de Grandes Modelos de Linguagem (LLMs) concentram-se na conclusão de tarefas em ambientes idealistas, mas negligenciam a confiabilidade em aplicações do mundo real voltadas para o utilizador. Em domínios como os assistentes de voz automóveis, os utilizadores frequentemente fazem pedidos incompletos ou ambíguos, criando uma incerteza intrínseca que os agentes devem gerir através de diálogo, uso de ferramentas e adesão a políticas. Apresentamos o CAR-bench, um benchmark para avaliar a consistência, o tratamento de incertezas e a consciência das capacidades em agentes LLM multi-turn que utilizam ferramentas, no domínio de um assistente automóvel. O ambiente apresenta um utilizador simulado por LLM, políticas de domínio e 58 ferramentas interligadas que abrangem navegação, produtividade, carregamento e controlo do veículo. Para além da conclusão padrão de tarefas, o CAR-bench introduz tarefas de Alucinação que testam a consciência dos limites do agente perante ferramentas ou informações em falta, e tarefas de Desambiguação que exigem a resolução de incertezas através de clarificação ou recolha interna de informação. Resultados de linha de base revelam grandes lacunas entre o sucesso ocasional e o sucesso consistente em todos os tipos de tarefa. Mesmo os LLMs de raciocínio mais avançado atingem menos de 50% de taxa de aprovação consistente nas tarefas de Desambiguação devido a ações prematuras, e violam frequentemente políticas ou fabricam informações para satisfazer pedidos do utilizador nas tarefas de Alucinação, sublinhando a necessidade de agentes LLM mais confiáveis e autoconscientes em ambientes do mundo real.

2

Spider-Sense: Detecção Intrínseca de Riscos para uma Defesa Eficiente de Agentes com Triagem Adaptativa Hierárquica
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Feb 5
ByZhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
62
4

À medida que os modelos de linguagem de grande escala (LLMs) evoluem para agentes autónomos, a sua aplicabilidade no mundo real expandiu-se significativamente, acompanhada por novos desafios de segurança. A maioria dos mecanismos de defesa de agentes existentes adota um paradigma de verificação obrigatória, no qual a validação de segurança é forçadamente acionada em fases predefinidas do ciclo de vida do agente. Neste trabalho, argumentamos que uma segurança eficaz do agente deve ser intrínseca e seletiva, em vez de arquitetonicamente dissociada e obrigatória. Propomos o framework Spider-Sense, um framework de defesa orientado a eventos baseado na Deteção Intrínseca de Risco (IRS), que permite aos agentes manter uma vigilância latente e acionar defesas apenas após a perceção de risco. Uma vez acionado, o Spider-Sense invoca um mecanismo de defesa hierárquico que equilibra eficiência e precisão: resolve padrões conhecidos através de correspondência leve (*lightweight*) por similaridade, enquanto escalona casos ambíguos para um raciocínio interno profundo, eliminando assim a dependência de modelos externos. Para facilitar uma avaliação rigorosa, introduzimos o S²Bench, um *benchmark* consciente do ciclo de vida, caracterizado pela execução realista de ferramentas e ataques multiestágio. Experiências extensivas demonstram que o Spider-Sense alcança um desempenho de defesa competitivo ou superior, atingindo a mais baixa Taxa de Sucesso de Ataque (ASR) e Taxa de Falsos Positivos (FPR), com apenas uma sobrecarga marginal de latência de 8,3%.

3

Otimização de Política de Sequência sem Viés de Comprimento: Revelando e Controlando a Variação do Comprimento da Resposta no RLVR
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

Feb 5
ByFanfan Liu, Youyang Yin, Peng Shi, Siqi Yang, Zhixiong Zeng, Haibo Qiu
45
4

As aplicações recentes de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR) em Modelos de Linguagem de Grande Escala (LLMs) e Modelos Visão-Linguagem (VLMs) têm demonstrado sucesso significativo no aprimoramento das capacidades de raciocínio para tarefas complexas. Durante o treinamento RLVR, o aumento no comprimento da resposta é frequentemente considerado um fator chave que contribui para o crescimento da capacidade de raciocínio. No entanto, os padrões de mudança no comprimento da resposta variam significativamente entre diferentes algoritmos RLVR durante o processo de treinamento. Para fornecer uma explicação fundamental para essas variações, este artigo realiza uma análise aprofundada dos componentes dos principais algoritmos RLVR. Apresentamos uma análise teórica dos fatores que influenciam o comprimento da resposta e validamos nossa teoria por meio de experimentação extensiva. Com base nessas descobertas teóricas, propomos o algoritmo de Otimização de Política de Sequência sem Viés de Comprimento (LUSPO). Especificamente, retificamos o viés de comprimento inerente à Otimização de Política de Sequência em Grupo (GSPO), tornando sua função de perda imparcial em relação ao comprimento da resposta e, assim, resolvendo o problema do colapso do comprimento da resposta. Realizamos experimentos extensos em benchmarks de raciocínio matemático e cenários de raciocínio multimodal, onde o LUSPO consistentemente alcança desempenho superior. Resultados empíricos demonstram que o LUSPO representa uma nova e state-of-the-art estratégia de otimização em comparação com métodos existentes como GRPO e GSPO.

4

MemSkill: Aprendizagem e Evolução de Habilidades de Memória para Agentes de Auto-evolução
MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

Feb 2
ByHaozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang, Haodong Yue, Wenya Wang
42
4

A maioria dos sistemas de memória para agentes de Modelos de Língua de Grande Porte (LLM) depende de um pequeno conjunto de operações estáticas e manualmente projetadas para extrair memória. Esses procedimentos fixos codificam rigidamente pré-concepções humanas sobre o que armazenar e como revisar a memória, tornando-os inflexíveis sob padrões de interação diversos e ineficientes em históricos longos. Para tanto, apresentamos o MemSkill, que reformula essas operações como habilidades de memória aprendíveis e evolutivas – rotinas estruturadas e reutilizáveis para extrair, consolidar e podar informações de traços de interação. Inspirado pela filosofia de design de habilidades de agente, o MemSkill emprega um controlador que aprende a selecionar um pequeno conjunto de habilidades relevantes, emparelhado com um executor baseado em LLM que produz memórias guiadas por habilidades. Além de aprender a seleção de habilidades, o MemSkill introduz um designer que revisa periodicamente casos difíceis, nos quais as habilidades selecionadas produzem memórias incorretas ou incompletas, e evolui o conjunto de habilidades propondo refinamentos e novas habilidades. Juntos, o MemSkill forma um procedimento de ciclo fechado que melhora tanto a política de seleção de habilidades quanto o próprio conjunto de habilidades. Experimentos no LoCoMo, LongMemEval, HotpotQA e ALFWorld demonstram que o MemSkill melhora o desempenho em tarefas em relação a baselines fortes e generaliza bem em diferentes configurações. Análises adicionais elucidam como as habilidades evoluem, oferecendo insights para um gerenciamento de memória mais adaptativo e auto-evolutivo para agentes de LLM.

5

Context Forcing: Geração de Vídeo Autoregressiva Consistente com Contexto Longo
Context Forcing: Consistent Autoregressive Video Generation with Long Context

Feb 5
ByShuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen
27
7

As abordagens recentes para geração de vídeos longos em tempo real geralmente empregam estratégias de ajuste por streaming, tentando treinar um estudante de contexto longo usando um professor de contexto curto (sem memória). Nessas estruturas, o estudante executa rollouts longos, mas recebe supervisão de um professor limitado a janelas curtas de 5 segundos. Essa discrepância estrutural cria um descompasso crítico entre estudante e professor: a incapacidade do professor de acessar o histórico de longo prazo impede que ele oriente o estudante sobre dependências temporais globais, limitando efetivamente o comprimento de contexto do estudante. Para resolver isso, propomos o Context Forcing, uma nova estrutura que treina um estudante de contexto longo por meio de um professor de contexto longo. Ao garantir que o professor tenha consciência do histórico completo de geração, eliminamos o descompasso de supervisão, permitindo o treinamento robusto de modelos capazes de consistência de longo prazo. Para tornar isso computacionalmente viável para durações extremas (por exemplo, 2 minutos), introduzimos um sistema de gerenciamento de contexto que transforma o contexto de crescimento linear em uma arquitetura de Memória Lenta-Rápida, reduzindo significativamente a redundância visual. Resultados extensivos demonstram que nosso método permite comprimentos de contexto efetivos superiores a 20 segundos – de 2 a 10 vezes maiores do que métodos state-of-the-art como LongLive e Infinite-RoPE. Ao aproveitar esse contexto estendido, o Context Forcing preserva uma consistência superior em longas durações, superando as linhas de base state-of-the-art em várias métricas de avaliação de vídeo longo.

6

RISE-Video: Os Geradores de Vídeo Podem Decodificar Regras Implícitas do Mundo?
RISE-Video: Can Video Generators Decode Implicit World Rules?

Feb 5
ByMingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang
25
3

Embora os modelos generativos de vídeo tenham alcançado uma fidelidade visual notável, sua capacidade de internalizar e raciocinar sobre regras implícitas do mundo permanece uma fronteira crítica e pouco explorada. Para preencher essa lacuna, apresentamos o RISE-Video, um benchmark pioneiro orientado para o raciocínio na síntese Texto-Imagem-para-Vídeo (TI2V), que desloca o foco avaliativo da estética superficial para o raciocínio cognitivo profundo. O RISE-Video compreende 467 amostras meticulosamente anotadas por humanos, abrangendo oito categorias rigorosas, fornecendo um ambiente de testes estruturado para investigar a inteligência dos modelos em diversas dimensões, desde o senso comum e a dinâmica espacial até domínios de assunto especializados. Nosso framework introduz um protocolo de avaliação multidimensional composto por quatro métricas: Alinhamento de Raciocínio, Consistência Temporal, Racionalidade Física e Qualidade Visual. Para apoiar ainda mais a avaliação escalável, propomos um pipeline automatizado que aproveita os Grandes Modelos Multimodais (LMMs) para emular a avaliação centrada no ser humano. Experimentos extensos com 11 modelos TI2V state-of-the-art revelam deficiências generalizadas na simulação de cenários complexos sob restrições implícitas, oferecendo insights críticos para o avanço de futuros modelos generativos simuladores do mundo.

7

A Previsão Precisa de Falhas em Agentes Não Implica uma Prevenção Eficaz de Falhas
Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Feb 3
ByRakshith Vasudev, Melisa Russak, Dan Bikel, Waseem Alshikh
25
3

As intervenções proativas por modelos críticos de LLM são frequentemente consideradas como melhoradoras da confiabilidade, mas seus efeitos no momento da implantação são pouco compreendidos. Demonstramos que um crítico binário de LLM com alta precisão offline (AUROC 0,94) pode, mesmo assim, causar severa degradação de desempenho, induzindo um colapso de 26 pontos percentuais (pp) em um modelo enquanto afeta outro em quase zero pp. Essa variabilidade demonstra que a precisão do crítico de LLM por si só é insuficiente para determinar se a intervenção é segura. Identificamos uma relação de compensação entre disrupção e recuperação: as intervenções podem recuperar trajetórias com falha, mas também podem interromper trajetórias que teriam sido bem-sucedidas. Com base nessa percepção, propomos um teste pré-implantação que utiliza um pequeno piloto de 50 tarefas para estimar se a intervenção provavelmente ajudará ou prejudicará, sem exigir implantação completa. Em diversos benchmarks, o teste antecipa corretamente os resultados: a intervenção degrada o desempenho em tarefas de alto sucesso (0 a -26 pp), enquanto produz uma melhoria modesta no benchmark ALFWorld de alta falha (+2,8 pp, p=0,014). Portanto, o valor principal de nossa estrutura é identificar quando não intervir, prevenindo regressões severas antes da implantação.

8

DFlash: Difusão em Blocos para Decodificação Especulativa Flash
DFlash: Block Diffusion for Flash Speculative Decoding

Feb 5
ByJian Chen, Yesheng Liang, Zhijian Liu
23
1

Os modelos de linguagem grandes (LLMs) autoregressivos oferecem alto desempenho, mas exigem um processo de decodificação inerentemente sequencial, resultando em alta latência de inferência e baixa utilização da GPU. A decodificação especulativa mitiga esse gargalo usando um modelo rascunho rápido, cujas saídas são verificadas em paralelo pelo LLM alvo; no entanto, os métodos existentes ainda dependem da geração autoregressiva de rascunhos, que permanece sequencial e limita os ganhos de velocidade práticos. Os LLMs de difusão oferecem uma alternativa promissora ao permitir a geração paralela, mas os modelos de difusão atuais geralmente têm desempenho inferior em comparação com os modelos autoregressivos. Neste artigo, apresentamos o DFlash, uma estrutura de decodificação especulativa que emprega um modelo de difusão por blocos leve para a geração paralela de rascunhos. Ao gerar tokens de rascunho em uma única passagem direta e condicionar o modelo de rascunho em características de contexto extraídas do modelo alvo, o DFlash permite uma geração eficiente de rascunhos com saídas de alta qualidade e taxas de aceitação mais elevadas. Experimentos mostram que o DFlash alcança uma aceleração sem perdas superior a 6x em uma variedade de modelos e tarefas, oferecendo um ganho de velocidade até 2,5x maior do que o método de decodificação especulativa state-of-the-art EAGLE-3.

9

ProAct: Antecipação Ativa em Ambientes Interativos
ProAct: Agentic Lookahead in Interactive Environments

Feb 5
ByYangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang
21
3

Os agentes baseados em Grandes Modelos de Linguagem (LLMs) existentes têm dificuldades em ambientes interativos que exigem planejamento de longo horizonte, principalmente devido à acumulação de erros ao simular estados futuros. Para resolver isso, propomos o ProAct, uma estrutura que permite aos agentes internalizar um raciocínio prospectivo preciso através de um paradigma de treinamento em dois estágios. Primeiro, introduzimos a Distilação Prospectiva Fundamentada (GLAD), na qual o agente passa por um ajuste fino supervisionado em trajetórias derivadas de uma busca baseada no ambiente. Ao comprimir árvores de busca complexas em cadeias de raciocínio causais e concisas, o agente aprende a lógica da previsão sem a sobrecarga computacional da busca durante a inferência. Segundo, para refinar ainda mais a precisão da decisão, propomos o Crítico de Monte Carlo (MC-Critic), um estimador de valor auxiliar "plug-and-play" projetado para aprimorar algoritmos de política de gradiente, como PPO e GRPO. Ao aproveitar rollouts leves do ambiente para calibrar as estimativas de valor, o MC-Critic fornece um sinal de baixa variância que facilita uma otimização de política estável, sem depender de uma aproximação de valor baseada em modelo computacionalmente custosa. Experimentos em ambientes estocásticos (por exemplo, 2048) e determinísticos (por exemplo, Sokoban) demonstram que o ProAct melhora significativamente a precisão do planejamento. Notavelmente, um modelo com 4B de parâmetros treinado com o ProAct supera todas as linhas de base de código aberto e rivaliza com os modelos state-of-the-art de código fechado, demonstrando ao mesmo tempo uma generalização robusta para ambientes não vistos. Os códigos e modelos estão disponíveis em https://github.com/GreatX3/ProAct.

10

Dr. Kernel: Aprendizado por Reforço Aplicado Corretamente para Gerações de Kernels Triton
Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

Feb 5
ByWei Liu, Jiawei Xu, Yingru Li, Longtao Zheng, Tianjian Li, Qian Liu, Junxian He
19
3

Kernels de alta qualidade são críticos para sistemas de IA escaláveis, e permitir que LLMs gerem esse código avançaria o desenvolvimento de IA. No entanto, treinar LLMs para essa tarefa requer dados suficientes, um ambiente robusto, e o processo é frequentemente vulnerável a "hacking de recompensa" e otimização preguiçosa. Nestes casos, os modelos podem burlar as recompensas de treinamento e priorizar correção trivial em detrimento de aceleração significativa. Neste artigo, estudamos sistematicamente o aprendizado por reforço (RL) para geração de kernels. Primeiro, projetamos o KernelGYM, um ambiente distribuído robusto em GPU que suporta verificação de hacking de recompensa, coleta de dados de interações multi-turno e treinamento de RL de longo prazo. Com base no KernelGYM, investigamos métodos eficazes de RL multi-turno e identificamos um problema de gradiente de política tendencioso causado pela auto-inclusão no GRPO. Para resolver isso, propomos o Turn-level Reinforce-Leave-One-Out (TRLOO) para fornecer uma estimativa de vantagem não tendenciosa para RL multi-turno. Para aliviar a otimização preguiçosa, incorporamos correção de incompatibilidade para estabilidade do treinamento e introduzimos Recompensas Baseadas em Perfilamento (PR) e Amostragem de Rejeição Baseada em Perfilamento (PRS) para superar o problema. O modelo treinado, Dr.Kernel-14B, atinge desempenho competitivo com o Claude-4.5-Sonnet no Kernelbench. Finalmente, estudamos o escalonamento sequencial em tempo de teste para o Dr.Kernel-14B. No subconjunto KernelBench Level-2, 31,6% dos kernels gerados alcançam pelo menos uma aceleração de 1,2x em relação à referência do Torch, superando Claude-4.5-Sonnet (26,7%) e GPT-5 (28,6%). Ao selecionar o melhor candidato em todos os turnos, essa taxa de aceleração de 1,2x aumenta ainda mais para 47,8%. Todos os recursos, incluindo ambiente, código de treinamento, modelos e conjunto de dados, estão incluídos em https://www.github.com/hkust-nlp/KernelGYM.

11

Destilação de Informação Privilegiada para Modelos de Linguagem
Privileged Information Distillation for Language Models

Feb 4
ByEmiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin, Massimo Caccia
19
3

A informação privilegiada durante o treinamento (PI) pode permitir que modelos de linguagem tenham sucesso em tarefas que, de outra forma, falhariam, tornando-a uma ferramenta poderosa para o aprendizado por reforço em ambientes complexos e de longo horizonte. No entanto, transferir as capacidades aprendidas com a PI para políticas que devem agir sem ela no momento da inferência permanece um desafio fundamental. Estudamos este problema no contexto da destilação de modelos de fronteira para ambientes agentivos de múltiplos turnos, onde sistemas de código fechado normalmente ocultam seu raciocínio interno e expõem apenas trajetórias de ação. Isso quebra os pipelines padrão de destilação, uma vez que o comportamento bem-sucedido é observável, mas o processo de raciocínio não. Para isso, introduzimos o π-Distill, um objetivo conjunto professor-aluno que treina um professor condicionado por PI e um aluno não condicionado simultaneamente usando o mesmo modelo. Adicionalmente, também introduzimos a Auto-Destilação em Política (OPSD), uma abordagem alternativa que treina usando Aprendizado por Reforço (RL) com uma penalidade de KL reversa entre o aluno e o professor condicionado por PI. Mostramos que ambos os algoritmos destilam efetivamente agentes de fronteira usando PI apenas de ação. Especificamente, descobrimos que o π-Distill e, em alguns casos, o OPSD, superam as práticas padrão da indústria (afinamento supervisionado seguido de RL) que assumem acesso à supervisão completa de Cadeia de Pensamento em vários benchmarks agentivos, modelos e formas de PI. Complementamos nossos resultados com uma análise extensa que caracteriza os fatores que permitem a aprendizagem eficaz com a PI, focando principalmente no π-Distill e caracterizando quando o OPSD é competitivo.

12

Busca Semântica em Mais de 9 Milhões de Teoremas Matemáticos
Semantic Search over 9 Million Mathematical Theorems

Feb 5
ByLuke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Giovanni Inchiostro, Vasily Ilin
17
4

A busca por resultados matemáticos continua difícil: a maioria das ferramentas existentes recupera artigos inteiros, enquanto matemáticos e agentes de prova de teoremas frequentemente buscam um teorema, lema ou proposição específica que responda a uma consulta. Embora a busca semântica tenha registrado progressos rápidos, o seu comportamento em corpora grandes e altamente técnicas, como teoremas matemáticos de nível de pesquisa, permanece pouco compreendido. Neste trabalho, introduzimos e estudamos a recuperação semântica de teoremas em larga escala sobre um corpus unificado de 9,2 milhões de enunciados de teoremas extraídos do arXiv e de sete outras fontes, representando o maior corpus publicamente disponível de teoremas de nível de pesquisa de autoria humana. Representamos cada teorema com uma breve descrição em linguagem natural como uma representação para recuperação e analisamos sistematicamente como o contexto da representação, a escolha do modelo de linguagem, o modelo de incorporação e a estratégia de *prompting* afetam a qualidade da recuperação. Num conjunto de avaliação curado de consultas de busca por teoremas escritas por matemáticos profissionais, a nossa abordagem melhora substancialmente a recuperação tanto a nível de teorema como a nível de artigo em comparação com as *baselines* existentes, demonstrando que a busca semântica de teoremas é viável e eficaz em escala web. A ferramenta de busca de teoremas está disponível em https://huggingface.co/spaces/uw-math-ai/theorem-search{este *link*}, e o conjunto de dados está disponível em https://huggingface.co/datasets/uw-math-ai/TheoremSearch{este *link*}.

13

Direcionando LLMs por meio de Supervisão Interativa Escalável
Steering LLMs via Scalable Interactive Oversight

Feb 4
ByEnyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
16
3

À medida que os Modelos de Linguagem de Grande Escala automatizam progressivamente tarefas complexas de longo horizonte, como a programação por intuição, emergiu uma lacuna de supervisão. Embora os modelos se destaquem na execução, os usuários frequentemente lutam para orientá-los eficazmente devido a conhecimentos insuficientes do domínio, à dificuldade de articular intenções precisas e à incapacidade de validar com confiança resultados complexos. Isto apresenta um desafio crítico na supervisão escalável: capacitar os humanos a orientar responsavelmente sistemas de IA em tarefas que ultrapassam a sua própria capacidade de especificar ou verificar. Para enfrentar este problema, propomos a Supervisão Interativa Escalável, uma estrutura que decompõe a intenção complexa numa árvore recursiva de decisões geríveis para amplificar a supervisão humana. Em vez de depender de instruções abertas, o nosso sistema solicita *feedback* de baixa carga em cada nó e agrega recursivamente esses sinais numa orientação global precisa. Validado numa tarefa de desenvolvimento web, o nosso framework permite que não especialistas produzam Documentos de Requisitos de Produto de nível especializado, alcançando uma melhoria de 54% no alinhamento. Crucialmente, demonstramos que esta estrutura pode ser otimizada via Aprendizagem por Reforço usando apenas *feedback* do utilizador online, oferecendo um caminho prático para manter o controle humano à medida que a IA escala.

14

Ambiente de Raciocínio Aprimorado por Recuperação: Um Benchmark para Desacoplar Capacidades de Recuperação e Raciocínio
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Jan 29
ByShuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
16
5

Apesar do forte desempenho em *benchmarks* existentes, permanece pouco claro se os grandes modelos de linguagem podem raciocinar sobre informações científicas genuinamente novas. A maioria das avaliações pontua *pipelines* de RAG de ponta a ponta, nos quais o raciocínio é confundido com escolhas de recuperação e de cadeia de ferramentas, e o sinal é ainda mais contaminado pela memorização paramétrica e pela volatilidade da web aberta. Apresentamos o DeR², um *sandbox* controlado de pesquisa profunda que isola o raciocínio fundamentado em documentos, preservando as dificuldades centrais da pesquisa profunda: síntese multi-etapas, remoção de ruído e elaboração de conclusões baseadas em evidências. O DeR² desacopla o acesso às evidências do raciocínio por meio de quatro regimes—Apenas Instrução, Conceitos (conceitos *gold* sem documentos), Apenas Relacionados (apenas documentos relevantes) e Conjunto Completo (documentos relevantes mais distratores topicamente relacionados)—produzindo lacunas de regime interpretáveis que operacionalizam a perda de recuperação versus a perda de raciocínio e permitem uma atribuição de erro refinada. Para evitar vazamento paramétrico, aplicamos uma validação de duas fases que exige falha paramétrica sem evidências, garantindo ao mesmo tempo a solucionabilidade com conceitos *oráculo*. Para garantir a reprodutibilidade, cada instância fornece uma biblioteca de documentos congelada (extraída de artigos teóricos de 2023-2025) com conceitos anotados por especialistas e racionalidades validadas. Experimentos com um conjunto diversificado de modelos de base (*foundation models*) state-of-the-art revelam variação substancial e margem de progresso significativa: alguns modelos exibem fragilidade de comutação de modo, desempenhando pior com o Conjunto Completo do que com Apenas Instrução, enquanto outros mostram uso estrutural incorreto de conceitos, nomeando corretamente os conceitos, mas falhando em executá-los como procedimentos.

15

SocialVeil: Investigando a Inteligência Social de Agentes de Linguagem sob Barreiras de Comunicação
SocialVeil: Probing Social Intelligence of Language Agents under Communication Barriers

Feb 4
ByKeyang Xuan, Pengda Wang, Chongrui Ye, Haofei Yu, Tal August, Jiaxuan You
16
7

Os modelos de linguagem de grande escala (LLMs) estão a ser cada vez mais avaliados em ambientes interativos para testar a sua inteligência social. No entanto, os *benchmarks* existentes partem frequentemente do pressuposto de uma comunicação idealizada entre agentes, limitando a nossa capacidade de diagnosticar se os LLMs conseguem manter e reparar interações em contextos mais realistas e imperfeitos. Para colmatar esta lacuna, apresentamos o SocialVeil, um ambiente de aprendizagem social que simula a interação social sob barreiras de comunicação induzidas por diferenças cognitivas. Fundamentado numa revisão sistemática da literatura sobre desafios de comunicação na interação humana, o SocialVeil introduz três tipos representativos de rutura: vagueza semântica, desalinhamento sociocultural e interferência emocional. Também introduzimos duas métricas de avaliação sensíveis a barreiras, *confusão não resolvida* e *compreensão mútua*, para avaliar a qualidade da interação sob comunicação comprometida. Experiências realizadas em 720 cenários com quatro LLMs de vanguarda mostram que as barreiras prejudicam consistentemente o desempenho, com a compreensão mútua reduzida em mais de 45% em média e a confusão aumentada em quase 50%. Avaliações humanas validam a fidelidade destas barreiras simuladas (CCI≈0,78, Pearson r≈0,80). Demonstramos ainda que as estratégias de adaptação (Instrução de Reparação e Aprendizagem Interativa) têm um efeito modesto, ficando muito aquém do desempenho obtido sem barreiras. Este trabalho dá um passo no sentido de aproximar os ambientes de interação social da comunicação do mundo real, abrindo oportunidades para explorar a inteligência social dos agentes baseados em LLMs.

16

Aprendizado de Modelos de Mundo por Reforço para Agentes Baseados em LLM
Reinforcement World Model Learning for LLM-based Agents

Feb 5
ByXiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
16
3

Os grandes modelos de linguagem (LLMs) demonstraram alto desempenho em tarefas centradas em linguagem. No entanto, em ambientes agentivos, os LLMs frequentemente lutam para antecipar consequências de ações e adaptar-se à dinâmica do ambiente, destacando a necessidade de capacidades de modelagem de mundo em agentes baseados em LLM. Propomos o Aprendizado de Modelo de Mundo por Reforço (RWML), um método auto supervisionado que aprende modelos de mundo condicionados por ação para agentes baseados em LLM em estados textuais, utilizando recompensas de diferença simulação-realidade. Nosso método alinha os próximos estados simulados produzidos pelo modelo com os próximos estados realizados observados a partir do ambiente, incentivando a consistência entre simulações internas do mundo e a dinâmica real do ambiente em um espaço de incorporação pré-treinado. Diferente da previsão de tokens do próximo estado, que prioriza a fidelidade a nível de token (ou seja, reproduzir a redação exata) em detrimento da equivalência semântica e pode levar ao colapso do modelo, nosso método fornece um sinal de treinamento mais robusto e é empiricamente menos suscetível a manipulação de recompensas do que o uso de LLM como juiz. Avaliamos nosso método no ALFWorld e no τ² Bench e observamos ganhos significativos em relação ao modelo base, apesar de ser totalmente auto supervisionado. Quando combinado com recompensas de sucesso na tarefa, nosso método supera o RL de recompensa direta de sucesso na tarefa em 6,9 e 5,7 pontos no ALFWorld e no τ² Bench, respectivamente, equiparando-se ao desempenho do treinamento com dados especializados.

17

InterPrior: Escalonando o Controle Generativo para Interações Humano-Objeto Baseadas em Física
InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

Feb 5
BySirui Xu, Samuel Schulter, Morteza Ziyadi, Xialin He, Xiaohan Fei, Yu-Xiong Wang, Liangyan Gui
16
3

Os seres humanos raramente planejam interações corporais completas com objetos ao nível de movimentos explícitos do corpo. Intenções de alto nível, como a affordance, definem o objetivo, enquanto o equilíbrio coordenado, o contacto e a manipulação podem emergir naturalmente de pressupostos físicos e motores subjacentes. A escalabilidade desses pressupostos é fundamental para permitir que humanoides componham e generalizem habilidades de loco-manipulação em diversos contextos, mantendo uma coordenação corporal fisicamente coerente. Para esse fim, apresentamos o InterPrior, uma estrutura escalável que aprende um controlador generativo unificado através de pré-treinamento por imitação em larga escala e pós-treinamento por aprendizagem por reforço. O InterPrimeiro destila um especialista em imitação de referência completa numa política variacional versátil e condicionada por objetivos, que reconstrói o movimento a partir de observações multimodais e intenções de alto nível. Embora a política destilada reconstrua comportamentos de treino, ela não generaliza de forma confiável devido ao vasto espaço de configuração das interações em larga escala entre humanos e objetos. Para resolver isso, aplicamos aumento de dados com perturbações físicas e, em seguida, realizamos um afinamento por aprendizagem por reforço para melhorar a competência em objetivos e inicializações não vistos. Juntas, estas etapas consolidam as habilidades latentes reconstruídas numa variedade válida, produzindo um pressuposto de movimento que generaliza para além dos dados de treino, por exemplo, pode incorporar novos comportamentos, como interações com objetos não vistos. Demonstramos ainda a sua eficácia para controlo interativo do utilizador e o seu potencial para implementação em robôs reais.

18

Fundamentação e Aprimoramento da Informatividade e Utilidade na Destilação de Conjuntos de Dados
Grounding and Enhancing Informativeness and Utility in Dataset Distillation

Jan 29
ByShaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
15
4

A Destilação de Conjuntos de Dados (DD) visa criar um conjunto de dados compacto a partir de um grande conjunto de dados do mundo real. Embora os métodos recentes frequentemente dependam de abordagens heurísticas para equilibrar eficiência e qualidade, a relação fundamental entre os dados originais e os dados sintéticos permanece pouco explorada. Este artigo revisita a destilação de conjuntos de dados baseada em destilação de conhecimento dentro de uma estrutura teórica sólida. Introduzimos os conceitos de Informatividade e Utilidade, capturando informações cruciais dentro de uma amostra e amostras essenciais no conjunto de treinamento, respectivamente. Com base nesses princípios, definimos matematicamente a destilação ótima de conjuntos de dados. Em seguida, apresentamos o InfoUtil, uma estrutura que equilibra informatividade e utilidade na síntese do conjunto de dados destilado. O InfoUtil incorpora dois componentes principais: (1) maximização da informatividade baseada em teoria dos jogos, usando a atribuição do Valor de Shapley para extrair informações-chave das amostras, e (2) maximização de utilidade fundamentada pela seleção de amostras globalmente influentes com base na Norma do Gradiente. Esses componentes garantem que o conjunto de dados destilado seja ao mesmo tempo informativo e otimizado para utilidade. Experimentos demonstram que nosso método alcança uma melhoria de desempenho de 6,1% em relação à abordagem anterior state-of-the-art no conjunto de dados ImageNet-1K usando ResNet-18.

19

Pensando em Molduras: Como o Contexto Visual e o Escalonamento em Tempo de Teste Potencializam o Raciocínio em Vídeo
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

Jan 28
ByChengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen
13
4

Os Modelos de Visão e Linguagem têm se destacado no raciocínio textual, mas frequentemente apresentam dificuldades na compreensão espacial refinada e no planejamento contínuo de ações, falhando em simular a dinâmica necessária para o raciocínio visual complexo. Neste trabalho, formulamos o raciocínio visual por meio de modelos de geração de vídeo, postulando que os quadros gerados podem atuar como etapas intermediárias de raciocínio entre estados iniciais e soluções. Avaliamos sua capacidade em dois regimes distintos: Navegação em Labirinto para planejamento sequencial discreto com baixa mudança visual e Quebra-Cabeça Tangram para manipulação contínua com alta mudança visual. Nossos experimentos revelam três insights críticos: (1) Generalização Robusta Zero-Shot: Em ambas as tarefas, o modelo demonstra forte desempenho em distribuições de dados não vistas sem ajuste fino específico. (2) Contexto Visual: O modelo utiliza efetivamente o contexto visual como controle explícito, como ícones de agente e formas de tangram, permitindo-lhe manter alta consistência visual e adaptar sua capacidade de planejamento de forma robusta a padrões não vistos. (3) Escalabilidade Visual em Tempo de Teste: Observamos uma lei de escalabilidade em tempo de teste no planejamento sequencial; aumentar a duração do vídeo gerado (orçamento de inferência visual) capacita uma melhor generalização zero-shot para caminhos espacial e temporalmente complexos. Essas descobertas sugerem que a geração de vídeo não é meramente uma ferramenta de mídia, mas um paradigma escalável e generalizável para o raciocínio visual.

20

Aprendizagem por Atenção Reforçada
Reinforced Attention Learning

Feb 4
ByBangzheng Li, Jianmo Ni, Chen Qu, Ian Miao, Liu Yang, Xingyu Fu, Muhao Chen, Derek Zhiyuan Cheng
13
3

O pós-treinamento com Aprendizagem por Reforço (RL) melhorou substancialmente a capacidade de raciocínio em Modelos de Linguagem de Grande Porte (LLMs) através da escala em tempo de teste. No entanto, estender este paradigma para MLLMs Multimodais através de racionalizações verbosas produz ganhos limitados para a perceção e pode mesmo degradar o desempenho. Propomos a Aprendizagem de Atenção Reforçada (RAL), uma estrutura de política de gradiente que otimiza diretamente as distribuições de atenção internas em vez das sequências de *tokens* de saída. Ao deslocar a otimização do *o que* gerar para o *onde* atender, a RAL promove uma alocação eficiente de informação e uma melhor ancoragem em entradas multimodais complexas. Experiências em diversos *benchmarks* de imagem e vídeo mostram ganhos consistentes face ao GRPO e outras linhas de base. Introduzimos ainda a Destilação de Atenção em Política Corrente, demonstrando que a transferência de comportamentos latentes de atenção produz um alinhamento multimodal mais robusto do que a destilação de conhecimento padrão. Os nossos resultados posicionam as políticas de atenção como uma alternativa fundamentada e geral para o pós-treinamento multimodal.

21

LatentMem: Personalização da Memória Latente para Sistemas Multiagente
LatentMem: Customizing Latent Memory for Multi-Agent Systems

Feb 3
ByMuxin Fu, Guibin Zhang, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang
10
3

Os sistemas multiagente (SMA) baseados em grandes modelos de linguagem (LLM) demonstram uma inteligência coletiva notável, nos quais a memória multiagente atua como um mecanismo fundamental para a adaptação contínua. No entanto, os projetos de memória multiagente existentes permanecem limitados por dois gargalos fundamentais: (i) a homogeneização da memória decorrente da ausência de personalização consciente de papéis, e (ii) a sobrecarga de informação induzida por entradas de memória excessivamente granulares. Para superar essas limitações, propomos o LatentMem, uma estrutura de memória multiagente treinável projetada para personalizar memórias específicas por agente de forma eficiente em tokens. Especificamente, o LatentMem compreende um banco de experiências que armazena trajetórias de interação brutas de forma leve, e um compositor de memória que sintetiza memórias latentes compactas condicionadas à experiência recuperada e a contextos específicos do agente. Adicionalmente, introduzimos a Otimização de Política por Memória Latente (LMPO), que propaga sinais de otimização em nível de tarefa através das memórias latentes para o compositor, incentivando-o a produzir representações compactas e de alta utilidade. Experimentos extensos em diversos benchmarks e estruturas de SMA principais mostram que o LatentMem alcança um ganho de desempenho de até 19,36% em relação a configurações básicas e supera consistentemente as arquiteturas de memória existentes, sem exigir qualquer modificação nas estruturas subjacentes.

22

SwimBird: Evocação do Modo de Raciocínio Comutável em MLLMs Autoregressivos Híbridos
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

Feb 5
ByJintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
10
3

Os Modelos de Linguagem Multimodais de Grande Porte (MLLMs) têm feito progressos notáveis na percepção e raciocínio multimodal ao conectar visão e linguagem. No entanto, a maioria dos MLLMs existentes realiza o raciocínio principalmente com Cadeia de Pensamento (CoT) textual, o que limita sua eficácia em tarefas visualmente intensivas. Abordagens recentes injetam um número fixo de estados ocultos contínuos como "pensamentos visuais" no processo de raciocínio e melhoram o desempenho visual, mas frequentemente ao custo de um raciocínio lógico baseado em texto degradado. Argumentamos que a limitação central reside em um padrão de raciocínio rígido e pré-definido que não pode escolher adaptativamente a modalidade de pensamento mais adequada para diferentes consultas do usuário. Apresentamos o SwimBird, um MLLM comutável de raciocínio que alterna dinamicamente entre três modos de raciocínio condicionados à entrada: (1) raciocínio apenas com texto, (2) raciocínio apenas com visão (estados ocultos contínuos como pensamentos visuais) e (3) raciocínio intercalado visão-texto. Para habilitar essa capacidade, adotamos uma formulação autoregressiva híbrida que unifica a previsão do próximo token para pensamentos textuais com a previsão da próxima incorporação (embedding) para pensamentos visuais, e projetamos uma estratégia sistemática de curadoria de modos de raciocínio para construir o SwimBird-SFT-92K, um conjunto de dados diversificado de ajuste fino supervisionado que abrange todos os três padrões de raciocínio. Ao permitir uma seleção de modo flexível e adaptável à consulta, o SwimBird preserva uma forte lógica textual enquanto melhora substancialmente o desempenho em tarefas visualmente densas. Experimentos em diversos benchmarks que abrangem raciocínio textual e compreensão visual desafiadora demonstram que o SwimBird alcança resultados de última geração e ganhos robustos em comparação com métodos anteriores de raciocínio multimodal de padrão fixo.

23

SAGE: Avaliação e Melhoria da Recuperação de Informação para Agentes de Pesquisa Profunda
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Feb 5
ByTiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
9
3

Os agentes de pesquisa aprofundada emergiram como sistemas poderosos para abordar consultas complexas. Paralelamente, os recuperadores baseados em LLM demonstraram forte capacidade em seguir instruções ou realizar raciocínios. Isso levanta uma questão crítica: os recuperadores baseados em LLM podem contribuir efetivamente para os fluxos de trabalho de agentes de pesquisa aprofundada? Para investigar isso, introduzimos o SAGE, um benchmark para recuperação de literatura científica composto por 1.200 consultas em quatro domínios científicos, com um corpus de recuperação de 200.000 artigos. Avaliamos seis agentes de pesquisa aprofundada e constatamos que todos os sistemas lutam com a recuperação intensiva em raciocínio. Usando o DR Tulu como base, comparamos ainda os recuperadores BM25 e baseados em LLM (ou seja, ReasonIR e gte-Qwen2-7B-instruct) como ferramentas de pesquisa alternativas. Surpreendentemente, o BM25 supera significativamente os recuperadores baseados em LLM em aproximadamente 30%, uma vez que os agentes existentes geram subconsultas orientadas a palavras-chave. Para melhorar o desempenho, propomos uma estrutura de escalonamento em tempo de teste a nível de *corpus* que utiliza LLMs para enriquecer documentos com metadados e palavras-chave, facilitando a recuperação para recuperadores padrão. Isso resulta em ganhos de 8% e 2% em questões de resposta curta e abertas, respectivamente.

24

Rumo à Modelagem de Incerteza Redutível para Agentes Confiáveis de Grandes Modelos de Linguagem
Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents

Feb 4
ByChangdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li
9
3

A quantificação de incerteza (UQ) para grandes modelos de linguagem (LLMs) é um componente fundamental para as salvaguardas de segurança das aplicações diárias de LLMs. No entanto, mesmo com os agentes de LLM sendo cada vez mais implantados em tarefas altamente complexas, a maior parte da pesquisa em UQ ainda se concentra em questionários de turno único. Argumentamos que a pesquisa em UQ deve mudar para ambientes realistas com agentes interativos e que é necessário um novo quadro de referência fundamentado para a UQ de agentes. Este artigo apresenta a primeira formulação geral da UQ de agentes que engloba amplas classes de configurações existentes de UQ. Sob esta formulação, mostramos que trabalhos anteriores tratam implicitamente a UQ de LLMs como um processo de acumulação de incerteza, uma perspectiva que se desfaz para agentes interativos em um mundo aberto. Em contraste, propomos uma nova perspectiva, um processo de redução de incerteza condicional, que modela explicitamente a incerteza redutível ao longo da trajetória de um agente, destacando a "interatividade" das ações. A partir desta perspectiva, delineamos um quadro conceitual para fornecer orientação acionável para o projeto de UQ em configurações de agentes de LLM. Por fim, concluímos com as implicações práticas da UQ de agentes no desenvolvimento de LLMs de fronteira e em aplicações específicas de domínio, bem como os problemas em aberto restantes.

25

BABE: Biologia Arena BEnchmark
BABE: Biology Arena BEnchmark

Feb 5
ByJunting Zhou, Jin Chen, Linfeng Hao, Denghui Cao, Zheyu Wang, Qiguang Chen, Chaoyou Fu, Jiaze Chen, Yuchen Wu, Ge Zhang, Mingxuan Wang, Wenhao Huang, Tong Yang
7
3

A rápida evolução dos grandes modelos de linguagem (LLMs) expandiu suas capacidades, passando do diálogo básico para o raciocínio científico avançado. No entanto, os benchmarks existentes em biologia frequentemente deixam de avaliar uma competência crítica exigida dos pesquisadores: a capacidade de integrar resultados experimentais com conhecimento contextual para derivar conclusões significativas. Para preencher essa lacuna, apresentamos o BABE (Biology Arena BEnchmark), um benchmark abrangente projetado para avaliar as capacidades de raciocínio experimental de sistemas de IA biológica. O BABE é construído de forma única a partir de artigos de pesquisa revisados por pares e estudos biológicos do mundo real, garantindo que as tarefas reflitam a complexidade e a natureza interdisciplinar da investigação científica real. O BABE desafia os modelos a realizar raciocínio causal e inferência transversal a escalas. Nosso benchmark fornece uma estrutura robusta para avaliar quão bem os sistemas de IA podem raciocinar como cientistas em atividade, oferecendo uma medida mais autêntica do seu potencial para contribuir com a pesquisa biológica.

26

GRPO Multitarefa: Raciocínio Confiável de LLMs em Diferentes Tarefas
Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

Feb 5
ByShyam Sundhar Ramesh, Xiaotong Ji, Matthieu Zimmer, Sangwoong Yoon, Zhiyong Wang, Haitham Bou Ammar, Aurelien Lucchi, Ilija Bogunovic
7
5

O pós-treinamento baseado em RL com GRPO é amplamente utilizado para melhorar modelos de linguagem grandes em tarefas de raciocínio individuais. No entanto, a implantação no mundo real exige desempenho confiável em diversas tarefas. Uma adaptação multitarefa direta do GRPO frequentemente leva a resultados desequilibrados, com algumas tarefas dominando a otimização enquanto outras estagnam. Além disso, as tarefas podem variar amplamente na frequência com que os *prompts* geram vantagens zero (e, portanto, gradientes zero), o que distorce ainda mais sua contribuição efetiva para o sinal de otimização. Para resolver esses problemas, propomos um novo algoritmo GRPO Multitarefa (MT-GRPO) que (i) adapta dinamicamente os pesos das tarefas para otimizar explicitamente o desempenho da pior tarefa e promover progresso equilibrado entre as tarefas, e (ii) introduz um amostrador que preserva proporções para garantir que os gradientes da política por tarefa reflitam os pesos adaptados. Experimentos em configurações de 3 e 9 tarefas mostram que o MT-GRPO supera consistentemente as *baselines* na precisão da pior tarefa. Em particular, o MT-GRPO alcança uma melhoria absoluta de 16-28% e 6% no desempenho da pior tarefa em relação ao GRPO padrão e ao DAPO, respectivamente, mantendo uma precisão média competitiva. Além disso, o MT-GRPO requer 50% menos etapas de treinamento para atingir 50% de precisão na pior tarefa na configuração de 3 tarefas, demonstrando eficiência substancialmente melhorada para alcançar desempenho confiável entre tarefas.

27

V-Retrver: Raciocínio Agente Orientado por Evidências para Recuperação Multimodal Universal
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Feb 5
ByDongyang Chen, Chaoyang Wang, Dezhao SU, Xi Xiao, Zeyu Zhang, Jing Xiong, Qing Li, Yuzhang Shang, Shichao Ka
7
3

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido recentemente aplicados na recuperação multimodal universal, onde o raciocínio em Cadeia de Pensamento (CoT) melhora o rerranqueamento de candidatos. No entanto, as abordagens existentes permanecem amplamente orientadas pela linguagem, dependendo de codificações visuais estáticas e carecendo da capacidade de verificar ativamente evidências visuais de granularidade fina, o que frequentemente leva a raciocínios especulativos em casos visualmente ambíguos. Propomos o V-Retrver, uma estrutura de recuperação baseada em evidências que reformula a recuperação multimodal como um processo de raciocínio agentivo fundamentado na inspeção visual. O V-Retrver permite que um MLLM adquira seletivamente evidências visuais durante o raciocínio por meio de ferramentas visuais externas, executando um processo de raciocínio intercalado multimodal que alterna entre a geração de hipóteses e a verificação visual direcionada. Para treinar tal agente de recuperação com coleta de evidências, adotamos uma estratégia de aprendizagem baseada em currículo, combinando ativação de raciocínio supervisionada, refinamento baseado em rejeição e aprendizagem por reforço com um objetivo alinhado a evidências. Experimentos em várias bases de referência de recuperação multimodal demonstram melhorias consistentes na precisão da recuperação (com melhorias de 23,0% em média), confiabilidade do raciocínio orientado pela percepção e generalização.

28

Aproximação da Função Log-Partição no Descenso de Política com Espelho Induz Regularização Implícita no Pós-Treinamento de LLM
Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Feb 5
ByZhenghao Xu, Qin Lu, Changlong Yu, Tuo Zhao
5
3

O Descenso de Políticas por Espelho (PMD) fornece uma estrutura fundamentada para a aprendizagem por reforço (RL) ao resolver iterativamente subproblemas de melhoria de políticas regularizados por KL. Embora esta abordagem tenha sido adotada no treino de LLMs avançados, como o Kimi K1.5/K2, as atualizações ideais de PMD de forma fechada requerem uma estimativa confiável da função de partição, um desafio significativo ao trabalhar com trajectórias limitadas nos vastos espaços de ação dos LLMs. Investigamos um algoritmo prático, denominado PMD-média, que aproxima o termo do log-partição com a recompensa média sob a política de amostragem e executa regressão no espaço log-política. Especificamente, caracterizamos a solução populacional do PMD-média e demonstramos que este otimiza implicitamente subproblemas de descenso por espelho com um regularizador misto adaptativo KL--χ^2. Esta regularização χ^2 adicional restringe grandes alterações de probabilidade, produzindo atualizações mais conservadoras quando as recompensas esperadas são baixas e aumentando a robustez contra erros de estimativa de amostra finita. Experiências em tarefas de raciocínio matemático mostram que o PMD-média alcança um desempenho superior com melhor estabilidade e eficiência temporal. Estes resultados aprofundam a nossa compreensão do PMD-média e iluminam caminhos para melhorias fundamentadas em algoritmos de RL para LLMs. O código está disponível em https://github.com/horizon-rl/OpenKimi.

29

DASH: Shampoo Mais Rápido via Pré-Condicionamento de Blocos em Lote e Solucionadores Eficientes de Raiz Inversa
DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers

Feb 2
ByIonut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh
4
2

O Shampoo é um dos principais otimizadores aproximados de segunda ordem: uma variante dele venceu a competição MLCommons AlgoPerf e demonstrou produzir modelos com menos outliers de ativação, que são mais fáceis de comprimir. No entanto, a aplicação do Shampoo atualmente acarreta um custo significativo de lentidão computacional, devido às suas operações internas dispendiosas. Neste artigo, damos um passo importante para resolver essa deficiência propondo o \method (para Distributed Accelerated SHampoo), uma implementação mais rápida do Shampoo Distribuído baseada em duas novas técnicas principais: Primeiro, mostramos que os blocos do pré-condicionador podem ser empilhados em tensores 3D para melhorar significativamente a utilização da GPU; segundo, introduzimos a iteração Newton-DB e as aproximações por polinômios de Chebyshev como abordagens novas e mais rápidas para calcular as raízes quadradas inversas da matriz exigidas pelo Shampoo. Juntamente com essas contribuições algorítmicas, fornecemos a primeira análise aprofundada de como o dimensionamento de matrizes afeta criticamente a convergência do Shampoo. No aspecto prático, nossa implementação consciente da GPU alcança etapas de otimização até 4,83 vezes mais rápidas em comparação com o bem-otimizado Shampoo Distribuído, enquanto o Newton-DB atinge a menor perplexidade de validação por iteração entre todos os métodos testados. Nosso código está disponível em https://github.com/IST-DASLab/DASH.

30

Quebrando o Grafo Estático: Travessia Sensível ao Contexto para Geração Aumentada por Recuperação Robusta
Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation

Feb 2
ByKwun Hang Lau, Fangyuan Zhang, Boyu Ruan, Yingli Zhou, Qintian Guo, Ruiyuan Zhang, Xiaofang Zhou
4
3

Os recentes avanços na Geração Aumentada por Recuperação (RAG) evoluíram da simples similaridade vetorial para abordagens conscientes da estrutura, como o HippoRAG, que utilizam Grafos de Conhecimento (KGs) e PageRank Personalizado (PPR) para capturar dependências de múltiplos saltos. No entanto, estes métodos padecem de uma "Falácia do Grafo Estático": baseiam-se em probabilidades de transição fixas determinadas durante a indexação. Esta rigidez ignora a natureza dependente da consulta da relevância das arestas, causando um desvio semântico onde os passeios aleatórios são desviados para nós "hub" de alto grau antes de alcançarem evidências críticas a jusante. Consequentemente, os modelos frequentemente alcançam alta recuperação parcial, mas falham em recuperar a cadeia de evidências completa necessária para consultas de múltiplos saltos. Para resolver isto, propomos o CatRAG, Travessia Consciente do Contexto para RAG robusto, uma estrutura que se baseia na arquitetura HippoRAG 2 e transforma o KG estático numa estrutura de navegação adaptativa à consulta. Introduzimos uma estrutura multifacetada para orientar o passeio aleatório: (1) Ancoragem Simbólica, que injeta restrições fracas de entidades para regularizar o passeio aleatório; (2) Ponderação Dinâmica de Arestas Consciente da Consulta, que modula dinamicamente a estrutura do grafo, para podar caminhos irrelevantes enquanto amplifica os alinhados com a intenção da consulta; e (3) Reforço de Peso de Passagem com Factos-Chave, um enviesamento de baixo custo que ancora estruturalmente o passeio aleatório a evidências prováveis. Experiências em quatro benchmarks de múltiplos saltos demonstram que o CatRAG supera consistentemente as linhas de base do estado da arte. A nossa análise revela que, embora as métricas padrão de Recuperação mostrem ganhos modestos, o CatRAG alcança melhorias substanciais na completude do raciocínio, a capacidade de recuperar todo o percurso de evidências sem lacunas. Estes resultados revelam que a nossa abordagem preenche eficazmente a lacuna entre a recuperação de contexto parcial e a possibilidade de um raciocínio totalmente fundamentado. Os recursos estão disponíveis em https://github.com/kwunhang/CatRAG.

31

CoPE: RoPE Recortada como um Benefício Escalável sem Custos para LLMs de Contexto Longo
CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

Feb 5
ByHaoran Li, Sucheng Ren, Alan Yuille, Feng Wang
4
3

O Embedding Posicional Rotacional (RoPE) é um componente fundamental da escalagem de contexto em Modelos de Linguagem de Grande Porte (LLMs). Embora vários métodos tenham sido propostos para adaptar o RoPE a contextos mais longos, seus princípios orientadores geralmente se enquadram em duas categorias: (1) mitigação de dados fora da distribuição (OOD), que escala as frequências do RoPE para acomendar posições não vistas, e (2) Modelagem Semântica, que postula que os escores de atenção calculados com o RoPE devem sempre priorizar tokens semanticamente similares. Neste trabalho, unificamos esses objetivos aparentemente distintos através de uma intervenção minimalista, denominada CoPE: recorte suave (*soft clipping*) dos componentes de baixa frequência do RoPE. O CoPE não apenas elimina valores atípicos OOD e refina os sinais semânticos, mas também previne o vazamento espectral causado pelo recorte rígido (*hard clipping*). Experimentos extensivos demonstram que a simples aplicação da nossa estratégia de recorte suave ao RoPE produz ganhos significativos de desempenho que escalam até comprimentos de contexto de 256k, validando nossa análise teórica e estabelecendo o CoPE como um novo estado da arte para generalização de comprimento. Nosso código, dados e modelos estão disponíveis em https://github.com/hrlics/CoPE.

32

Infinite-World: Escalonando Modelos de Mundo Interativos para Horizontes de 1000 Quadros via Memória Hierárquica Livre de Pose
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Feb 2
ByRuiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
3
3

Propomos o Infinite-World, um modelo de mundo interativo robusto capaz de manter memória visual coerente por mais de 1000 quadros em ambientes complexos do mundo real. Embora os modelos de mundo existentes possam ser otimizados eficientemente em dados sintéticos com ground-truth perfeito, eles carecem de um paradigma de treinamento eficaz para vídeos do mundo real devido a estimativas de pose ruidosas e à escassez de revisitações de pontos de vista. Para preencher essa lacuna, primeiro introduzimos um Compressor de Memória Livre de Pose Hierárquico (HPMC) que destila recursivamente latentes históricos em uma representação de orçamento fixo. Ao otimizar conjuntamente o compressor com a backbone generativa, o HPMC permite que o modelo ancorie autonomamente as gerações em um passado distante com custo computacional limitado, eliminando a necessidade de priores geométricos explícitos. Em segundo lugar, propomos um módulo de Rotulagem de Ação com Consciência de Incerteza que discretiza o movimento contínuo em uma lógica de três estados. Essa estratégia maximiza a utilização de dados de vídeo brutos, ao mesmo tempo que protege o espaço de ação determinístico de ser corrompido por trajetórias ruidosas, garantindo um aprendizado robusto de ação-resposta. Além disso, guiados por insights de um estudo piloto simplificado, empregamos uma Estratégia de Ajuste Fino com Revisitações Densas usando um conjunto de dados compacto de 30 minutos para ativar eficientemente as capacidades de fechamento de ciclo de longo alcance do modelo. Experimentos extensivos, incluindo métricas objetivas e estudos com usuários, demonstram que o Infinite-World alcança desempenho superior em qualidade visual, controlabilidade por ações e consistência espacial.

33

Correção de Caminhos durante o Teste para Geração Autoregressiva de Vídeos Longos
Pathwise Test-Time Correction for Autoregressive Long Video Generation

Feb 5
ByXunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo
3
3

Os modelos de difusão autoregressivos destilados facilitam a síntese de vídeos curtos em tempo real, mas sofrem com severo acúmulo de erros durante a geração de sequências longas. Embora os métodos existentes de Otimização em Tempo de Teste (TTO) demonstrem eficácia para imagens ou clipes curtos, identificamos que eles falham em mitigar o desvio em sequências estendidas devido a paisagens de recompensa instáveis e a hipersensibilidade dos parâmetros destilados. Para superar essas limitações, introduzimos a Correção em Tempo de Teste (TTC), uma alternativa livre de treinamento. Especificamente, a TTC utiliza o quadro inicial como uma âncora de referência estável para calibrar estados estocásticos intermediários ao longo da trajetória de amostragem. Experimentos extensivos demonstram que nosso método integra-se perfeitamente a vários modelos destilados, estendendo os comprimentos de geração com sobrecarga insignificante enquanto iguala a qualidade de métodos baseados em treinamento intensivo de recursos em benchmarks de 30 segundos.

34

Treinamento do Tardio para o Precoce: FAZER com que os LLMs Aprendam Mais Cedo, para Serem Mais Rápidos e Melhores
Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Feb 5
ByJi Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
3
2

**À medida que os Modelos de Linguagem de Grande Escala (LLMs) alcançam sucesso empírico notável por meio da escalonamento do modelo e do volume de dados, o pré-treinamento tornou-se cada vez mais crítico, mas computacionalmente proibitivo, dificultando o desenvolvimento rápido.** Apesar da disponibilidade de inúmeros LLMs pré-treinados desenvolvidos com custo computacional significativo, uma questão fundamental do mundo real permanece pouco explorada: Podemos aproveitar modelos pequenos pré-treinados existentes para acelerar o treinamento de modelos maiores? Neste artigo, propomos um paradigma de Treinamento Tardio para Precoce (LET, do inglês *Late-to-Early Training*) que permite aos LLMs aprenderem explicitamente conhecimento tardio em etapas e camadas precoces. A ideia central é guiar as camadas iniciais de um LLM durante o treinamento inicial usando representações das camadas finais de um modelo pré-treinado (ou seja, em fase de treinamento tardia). Identificamos dois mecanismos-chave que impulsionam a eficácia do LET: aprendizado de etapa-tardia-para-precoce e aprendizado de camada-tardia-para-precoce. Esses mecanismos aceleram significativamente a convergência do treinamento, ao mesmo tempo que robustecem as capacidades de modelagem de linguagem e o desempenho em tarefas downstream, permitindo um treinamento mais rápido com desempenho superior. Extensos experimentos com modelos de 1,4B e 7B de parâmetros demonstram a eficiência e eficácia do LET. Notavelmente, ao treinar um LLM de 1,4B no conjunto de dados The Pile, nosso método alcança uma aceleração de até 1,6 vezes com uma melhoria de quase 5% na precisão de tarefas downstream em comparação com o treinamento padrão, mesmo utilizando um modelo pré-treinado com 10 vezes menos parâmetros do que o modelo alvo.

35

A Taxa de Aprendizagem é Crucial: LoRA Simples Pode Ser Suficiente para o Ajuste Fino de LLMs
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning

Feb 4
ByYu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
2
3

A Adaptação de Baixo Posto (LoRA) é a abordagem predominante para o ajuste fino eficiente de grandes modelos de linguagem (LLMs). Com base neste paradigma, estudos recentes propuseram estratégias alternativas de inicialização e modificações arquiteturais, relatando melhorias substanciais em relação ao LoRA padrão. No entanto, esses ganhos são frequentemente demonstrados sob configurações de hiperparâmetros fixas ou com ajuste limitado, apesar da conhecida sensibilidade das redes neurais a configurações de treinamento. Neste trabalho, reavaliamos sistematicamente quatro variantes representativas de LoRA juntamente com o LoRA padrão por meio de buscas extensivas de hiperparâmetros. Em tarefas de geração matemática e de código, em diversas escalas de modelo, descobrimos que diferentes métodos LoRA favorecem intervalos distintos de taxa de aprendizagem. Crucialmente, uma vez que as taxas de aprendizagem são devidamente ajustadas, todos os métodos atingem um desempenho de pico semelhante (dentro de 1-2%), com apenas comportamentos sutis dependentes do posto (rank). Esses resultados sugerem que o LoRA padrão permanece uma linha de base competitiva e que as melhorias relatadas sob uma única configuração de treinamento podem não refletir vantagens metodológicas consistentes. Por fim, uma análise de segunda ordem atribui os diferentes intervalos ideais de taxa de aprendizagem a variações no maior autovalor da Hessiana, alinhando-se com as teorias clássicas de aprendizagem.

36

Falhando em Explorar: Modelos de Linguagem em Tarefas Interativas
Failing to Explore: Language Models on Interactive Tasks

Jan 29
ByMahdi JafariRaviz, Keivan Rezaei, Arshia Soltani Moakhar, Zahra Sodagar, Yize Cheng, Soheil Feizi
2
3

Avaliamos modelos de linguagem quanto à sua capacidade de explorar ambientes interativos sob um orçamento de interação limitado. Introduzimos três tarefas paramétricas com dificuldade de exploração controlável, abrangendo ambientes contínuos e discretos. Entre os modelos de última geração, encontramos subexploração sistemática e soluções subótimas, com desempenho frequentemente significativamente pior do que linhas de base heurísticas simples de explorar-explorar e que escala fracamente à medida que o orçamento aumenta. Por fim, estudamos duas intervenções leves: dividir um orçamento fixo em execuções paralelas, o que, surpreendentemente, melhora o desempenho apesar de um resultado teórico de não ganho para nossas tarefas, e resumir periodicamente o histórico de interação, o que preserva descobertas-chave e melhora ainda mais a exploração.

37

Forçamento de Luz: Acelerando a Difusão de Vídeo Autoregressiva via Atenção Esparsa
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Feb 4
ByChengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
2
3

Os modelos avançados de geração de vídeo autorregressivos (AR) têm melhorado a fidelidade visual e a interatividade, mas a complexidade quadrática da atenção permanece um gargalo primário para uma implantação eficiente. Embora as soluções existentes de atenção esparsa tenham mostrado potencial em modelos bidirecionais, identificamos que a aplicação dessas soluções a modelos AR leva a uma degradação considerável de desempenho por duas razões: consideração isolada da geração de blocos (chunks) e utilização insuficiente do contexto informativo passado. Motivados por essas observações, propomos o Light Forcing, a primeira solução de atenção esparsa desenvolvida especificamente para modelos de geração de vídeo AR. Ele incorpora um mecanismo de Crescimento Consciente do Bloco (Chunk-Aware Growth) para estimar quantitativamente a contribuição de cada bloco, o que determina sua alocação de esparsidade. Esta estratégia progressiva de aumento da esparsidade permite que o bloco atual herde o conhecimento prévio dos blocos anteriores durante a geração. Adicionalmente, introduzimos uma Atenção Esparsa Hierárquica para capturar o contexto histórico informativo e o contexto local de maneira coarse-to-fine (do grossa para a fina). Esta estratégia de seleção de máscara de dois níveis (isto é, a nível de quadro e de bloco) pode lidar adaptativamente com diversos padrões de atenção. Experimentos extensivos demonstram que nosso método supera a atenção esparsa existente em qualidade (por exemplo, 84.5 no VBench) e eficiência (por exemplo, aceleração de 1.2 a 1.3 vezes no tempo end-to-end). Combinado com a quantização FP8 e o LightVAE, o Light Forcing alcança ainda uma aceleração de 2.3 vezes e 19.7 FPS em uma GPU RTX 5090. O código será liberado em https://github.com/chengtao-lv/LightForcing.

38

Um Framework Unificado para Repensar as Medidas de Divergência de Políticas no GRPO
A Unified Framework for Rethinking Policy Divergence Measures in GRPO

Feb 5
ByQingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yanning Dai, Shilong Deng, Sarra Habchi, Qi Zhu, Matthias Gallé, Chao Huang
2
3

O Aprendizado por Reforço com Recompensa Verificada (RLVR) emergiu como um paradigma crítico para avançar as capacidades de raciocínio dos Grandes Modelos de Linguagem (LLMs). A maioria dos métodos RLVR existentes, como GRPO e suas variantes, garantem atualizações estáveis ao restringir a divergência da política por meio do recorte das razões de verossimilhança. Este artigo introduz uma estrutura unificada de recorte que caracteriza os métodos existentes por meio de uma noção geral de divergência de política, abrangendo tanto as razões de verossimilhança quanto as divergências de Kullback-Leibler (KL) e estendendo-se a medidas alternativas. A estrutura fornece uma base fundamentada para analisar sistematicamente como diferentes medidas de divergência de política afetam a exploração e o desempenho. Identificamos ainda o estimador KL3, um estimador de Monte Carlo com variância reduzida da divergência KL, como uma restrição chave de divergência de política. Demonstramos teoricamente que a restrição baseada em KL3 é matematicamente equivalente a um recarte assimétrico baseado em razão que realoca a massa de probabilidade para ações de alta confiança, promovendo uma exploração mais forte enquanto mantém a simplicidade dos métodos estilo GRPO. Resultados empíricos em benchmarks de raciocínio matemático demonstram que a incorporação do estimador KL3 no GRPO melhora tanto a estabilidade do treinamento quanto o desempenho final, destacando a importância de restrições de divergência de política fundamentadas na otimização de políticas.

39

Os Modelos Visão-Linguagem Respeitam a Integridade Contextual na Divulgação de Localização?
Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?

Feb 4
ByRuixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
2
3

Os modelos visão-linguagem (VLMs) demonstraram um forte desempenho na geolocalização de imagens, uma capacidade ainda mais aprimorada pelos modelos multimodais de grande raciocínio de última geração (MLRMs). Isso representa um risco significativo à privacidade, uma vez que esses modelos amplamente acessíveis podem ser explorados para inferir locais sensíveis a partir de fotos compartilhadas casualmente, frequentemente com precisão em nível de rua, potencialmente superando o nível de detalhe que o compartilhador consentiu ou pretendia divulgar. Embora trabalhos recentes tenham proposto a aplicação de uma restrição geral à divulgação de geolocalização para combater esse risco, essas medidas não distinguem os usos válidos de geolocalização de comportamentos maliciosos. Em vez disso, os VLMs devem manter a integridade contextual, raciocinando sobre os elementos dentro de uma imagem para determinar o nível apropriado de divulgação de informações, equilibrando privacidade e utilidade. Para avaliar o quanto os modelos respeitam a integridade contextual, introduzimos o VLM-GEOPRIVACY, um benchmark que desafia os VLMs a interpretar normas sociais latentes e pistas contextuais em imagens do mundo real e determinar o nível apropriado de divulgação de localização. Nossa avaliação de 14 VLMs líderes mostra que, apesar de sua capacidade de geolocalizar imagens com precisão, os modelos estão pouco alinhados com as expectativas humanas de privacidade. Eles frequentemente divulgam excessivamente em contextos sensíveis e são vulneráveis a ataques baseados em *prompts*. Nossos resultados apontam para a necessidade de novos princípios de design em sistemas multimodais para incorporar raciocínios de privacidade condicionados ao contexto.

40

UniAudio 2.0: Um Modelo de Linguagem de Áudio Unificado com Tokenização de Áudio Fatorizada e Alinhada por Texto
UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization

Feb 4
ByDongchao Yang, Yuanyuan Wang, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng
1
3

Estudamos dois problemas fundamentais em modelos de linguagem de áudio: (1) como projetar um tokenizador de áudio que possa servir como representação intermediária tanto para compreensão quanto para geração; e (2) como construir um modelo de base para áudio que generalize em configurações de poucos exemplos (few-shot) e zero-shot, análogo aos grandes modelos de linguagem. Para tanto, fazemos as duas seguintes contribuições. Primeiro, propomos o ReasoningCodec, um codec de áudio discreto que fatoriza o áudio em (i) *tokens de raciocínio*, que codificam representações de análise e planeamento de alto nível alinhadas com texto, para compreensão de áudio e geração hierárquica, e (ii) *tokens de reconstrução*, que codificam pistas acústicas ricas em semântica para reconstrução de forma de onda de alta fidelidade. Este projeto alcança desempenho de compreensão comparável a fortes representações contínuas, enquanto melhora a qualidade de geração e a fidelidade de reconstrução em relação a tokenizadores discretos anteriores. Segundo, introduzimos uma arquitetura autoregressiva unificada para texto e áudio, juntamente com treinamento multiestágio e construção de dados multitarefa. Usando este framework, treinamos o UniAudio 2.0 em 100 bilhões de *tokens* de texto e 60 bilhões de *tokens* de áudio. Em uma ampla gama de tarefas de fala, som e música, o UniAudio 2.0 apresenta desempenho competitivo em avaliações de domínio interno e demonstra forte generalização *few-shot* e *zero-shot* para tarefas não vistas. Demonstrações, código e *checkpoints* estarão disponíveis em https://dongchaoyang.top/UniAudio2Demo/.

41

FastVMT: Eliminando a Redundância na Transferência de Movimento em Vídeo
FastVMT: Eliminating Redundancy in Video Motion Transfer

Feb 5
ByYue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
1
3

A transferência de movimento em vídeo visa sintetizar vídeos gerando conteúdo visual de acordo com um prompt textual, transferindo ao mesmo tempo o padrão de movimento observado em um vídeo de referência. Os métodos recentes utilizam predominantemente a arquitetura Diffusion Transformer (DiT). Para obter um tempo de execução satisfatório, vários métodos tentam acelerar os cálculos no DiT, mas não conseguem abordar as fontes estruturais de ineficiência. Neste trabalho, identificamos e removemos dois tipos de redundância computacional em trabalhos anteriores: a **redundância de movimento** surge porque a arquitetura genérica do DiT não reflete o facto de o movimento entre fotogramas ser pequeno e suave; a **redundância de gradiente** ocorre se ignorarmos que os gradientes mudam lentamente ao longo da trajetória de difusão. Para mitigar a redundância de movimento, mascaramos as camadas de atenção correspondentes a uma vizinhança local, de modo que os pesos de interação não sejam calculados para regiões de imagem desnecessariamente distantes. Para explorar a redundância de gradiente, projetamos um esquema de otimização que reutiliza gradientes de passos de difusão anteriores e omite cálculos de gradiente não justificados. Em média, o FastVMT alcança uma aceleração de 3,43x sem degradar a fidelidade visual ou a consistência temporal dos vídeos gerados.

42

Fast-SAM3D: Transforme Qualquer Elemento de Imagens em 3D de Forma Mais Rápida
Fast-SAM3D: 3Dfy Anything in Images but Faster

Feb 5
ByWeilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
1
3

O SAM3D permite a reconstrução 3D escalável de mundo aberto a partir de cenas complexas, mas sua implantação é dificultada por uma latência de inferência proibitiva. Neste trabalho, realizamos a primeira investigação sistemática sobre sua dinâmica de inferência, revelando que as estratégias genéricas de aceleração são frágeis neste contexto. Demonstramos que essas falhas decorrem da negligência da heterogeneidade multinível inerente ao pipeline: a distinção cinemática entre forma e layout, a esparsidade intrínseca do refinamento de textura e a variância espectral entre geometrias. Para resolver isso, apresentamos o Fast-SAM3D, uma estrutura *training-free* que alinha dinamicamente a computação com a complexidade de geração instantânea. Nossa abordagem integra três mecanismos conscientes da heterogeneidade: (1) *Cache de Passos Consciente da Modalidade* para desacoplar a evolução estrutural de atualizações sensíveis de layout; (2) *Esculpimento Conjunto de *Tokens* Espaço-Temporais* para concentrar o refinamento em regiões de alta entropia; e (3) *Agregação de *Tokens* Consciente do Espectro* para adaptar a resolução de decodificação. Experimentos extensivos demonstram que o Fast-SAM3D proporciona uma aceleração de até 2,67 vezes em *end-to-end* com perda de fidelidade insignificante, estabelecendo uma nova fronteira de Pareto para a geração 3D eficiente a partir de vista única. Nosso código está disponível em https://github.com/wlfeng0509/Fast-SAM3D.

43

Autoencoder de Difusão de Vídeo 1D Adaptativo
Adaptive 1D Video Diffusion Autoencoder

Feb 4
ByYao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
1
3

Os modelos recentes de geração de vídeo dependem amplamente de autoencoders de vídeo que comprimem vídeos no espaço de pixels em representações latentes. No entanto, os autoencoders de vídeo existentes apresentam três limitações principais: (1) compressão de taxa fixa que desperdiça tokens em vídeos simples, (2) arquiteturas inflexíveis de CNN que impedem a modelagem latente de comprimento variável, e (3) decodificadores determinísticos que têm dificuldade em recuperar detalhes apropriados a partir de latentes comprimidos. Para resolver essas questões, propomos o One-Dimensional Diffusion Video Autoencoder (One-DVA), uma estrutura baseada em transformers para codificação 1D adaptativa e decodificação baseada em difusão. O codificador emprega vision transformers baseados em consultas para extrair características espaço-temporais e produzir representações latentes, enquanto um mecanismo de dropout de comprimento variável ajusta dinamicamente o comprimento latente. O decodificador é um diffusion transformer no espaço de pixels que reconstrói vídeos usando os latentes como condições de entrada. Com uma estratégia de treinamento em dois estágios, o One-DVA alcança desempenho comparável aos VAEs 3D-CNN em métricas de reconstrução em taxas de compressão idênticas. Mais importante ainda, ele suporta compressão adaptativa e, portanto, pode alcançar maiores taxas de compressão. Para melhor suportar a geração latente downstream, regularizamos ainda mais a distribuição latente do One-DVA para modelagem generativa e ajustamos finamente seu decodificador para mitigar artefatos causados pelo processo de geração.

44

Além de Moldes Fixos: Tokenização Dinâmica de Fala Alinhada ao Personagem
Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization

Jan 30
ByLuca Della Libera, Cem Subakan, Mirco Ravanelli
1
4

Os codecs neurais de áudio estão no centro das tecnologias modernas de conversação por voz, convertendo fala contínua em sequências de tokens discretos que podem ser processados por LLMs. No entanto, os codecs existentes normalmente operam em taxas de quadros fixas, alocando tokens uniformemente no tempo e produzindo sequências desnecessariamente longas. Neste trabalho, introduzimos o DyCAST, um Tokenizador de Fala Dinâmico Alinhado por Caractere, que permite uma tokenização com taxa de quadros variável através de um alinhamento suave a nível de caractere e modelagem explícita de duração. O DyCAST aprende a associar tokens a unidades linguísticas de nível de caractere durante o treinamento e suporta inferência sem alinhamento com controle direto sobre as durações dos tokens no momento da decodificação. Para melhorar a qualidade da ressíntese de fala em baixas taxas de quadros, introduzimos ainda um mecanismo de decodificação aumentado por recuperação que melhora a fidelidade de reconstrução sem aumentar a taxa de bits. Experimentos mostram que o DyCAST alcança qualidade competitiva na ressíntese de fala e desempenho em tarefas subsequentes, enquanto utiliza significativamente menos tokens do que codecs de taxa de quadros fixa. Código e checkpoints serão disponibilizados publicamente em https://github.com/lucadellalib/dycast.

45

Avaliação da Suscetibilidade em Nível de Domínio ao Desalinhamento Emergente a partir do Ajuste Fino Estreito
Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning

Jan 30
ByAbhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
0
4

O desalinhamento emergente representa riscos para a segurança da IA, uma vez que os modelos de linguagem são cada vez mais utilizados para tarefas autónomas. Neste artigo, apresentamos uma população de grandes modelos de linguagem (LLMs) afinados em conjuntos de dados inseguros abrangendo 11 domínios diversos, avaliando-os com e sem gatilhos de backdoor numa série de prompts de utilizador não relacionados. As nossas experiências de avaliação no Qwen2.5-Coder-7B-Instruct e no GPT-4o-mini revelam duas descobertas principais: (i) os gatilhos de backdoor aumentam a taxa de desalinhamento em 77,8% dos domínios (queda média: 4,33 pontos), com conselhos-financeiros-riscosos e conselhos-jurídicos-tóxicos a mostrar os maiores efeitos; (ii) a vulnerabilidade do domínio varia amplamente, desde 0% de desalinhamento ao afinar para produzir respostas incorretas a problemas de matemática em matemática-incorreta até 87,67% quando afinado em trivia-filmes-violentos. Em experiências adicionais na Secção~sec:investigação-exploração, exploramos múltiplas questões de investigação, onde descobrimos que as métricas de inferência de membros, particularmente quando ajustadas para o modelo base não afinado por instrução, servem como um bom pré-requisito para prever o grau de possível desalinhamento amplo. Adicionalmente, investigamos o desalinhamento entre modelos afinados em diferentes conjuntos de dados e analisamos se as direções extraídas num modelo de desalinhamento emergente (DE) generalizam para orientar o comportamento noutros. Este trabalho, tanto quanto sabemos, é também o primeiro a fornecer uma classificação taxonómica do desalinhamento emergente por domínio, o que tem implicações para a segurança da IA e o pós-treinamento. O trabalho também padroniza uma receita para construir conjuntos de dados desalinhados. Todo o código e conjuntos de dados estão publicamente disponíveis no GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main

46

Focus-dLLM: Aceleração da Inferência em LLMs de Difusão de Contexto Longo via Focalização de Contexto Guiada por Confiança
Focus-dLLM: Accelerating Long-Context Diffusion LLM Inference via Confidence-Guided Context Focusing

Feb 2
ByLingkun Long, Yushi Huang, Shihao Bai, Ruihao Gong, Jun Zhang, Ao Zhou, Jianlei Yang
0
3

Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) oferecem uma forte capacidade de processamento de contexto extenso em um paradigma de decodificação não autorregressivo. No entanto, o custo computacional considerável da atenção completa bidirecional limita a eficiência da inferência. Embora a atenção esparsa seja promissora, os métodos existentes permanecem ineficazes. Isso decorre da necessidade de estimar a importância da atenção para tokens ainda não decodificados, enquanto as posições dos tokens não mascarados são desconhecidas durante a difusão. Neste artigo, apresentamos o Focus-dLLM, uma nova estrutura de esparsificação de atenção sem treinamento, desenvolvida para inferência precisa e eficiente de dLLMs de contexto longo. Com base na descoberta de que a confiança dos tokens está fortemente correlacionada entre etapas adjacentes, primeiro projetamos um indicador guiado pela confiança passada para prever regiões não mascaradas. Com base nisso, propomos uma estratégia de poda consciente de sumidouros (sink-aware) para estimar e remover com precisão o cálculo de atenção redundante, preservando ao mesmo tempo sumidouros de atenção altamente influentes. Para reduzir ainda mais a sobrecarga, essa estratégia reutiliza as localizações de sumidouros identificadas entre camadas, aproveitando a consistência intercamadas observada. Resultados experimentais mostram que nosso método oferece uma aceleração sem perdas superior a 29 vezes sob um comprimento de contexto de 32K. O código está publicamente disponível em: https://github.com/Longxmas/Focus-dLLM

47

PhysicsAgentABM: Modelagem Generativa Baseada em Agentes com Orientação Física
PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Feb 5
ByKavana Venkatesh, Yinhan He, Jundong Li, Jiaming Cui
0
3

Sistemas multiagente baseados em grandes modelos de linguagem (LLMs) permitem raciocínio agente expressivo, mas são dispendiosos para escalar e mal calibrados para simulação de transição de estados alinhada no tempo, enquanto modelos baseados em agentes (ABMs) clássicos oferecem interpretabilidade, mas lutam para integrar sinais ricos a nível individual e comportamentos não estacionários. Propomos o PhysicsAgentABM, que desloca a inferência para clusters de agentes comportamentalmente coerentes: agentes simbólicos especializados por estado codificam *priors* de transição mecanicistas, um modelo neural de transição multimodal captura dinâmicas temporais e de interação, e uma fusão epistêmica consciente da incerteza produz distribuições de transição a nível de cluster calibradas. Agentes individuais realizam então transições estocasticamente sob restrições locais, desacoplando a inferência populacional da variabilidade a nível de entidade. Introduzimos ainda o ANCHOR, uma estratégia de agrupamento conduzida por agentes LLM baseada em respostas comportamentais cross-contextuais e uma nova função de perda contrastiva, reduzindo chamadas LLM em até 6-8 vezes. Experiências em saúde pública, finanças e ciências sociais mostram ganhos consistentes em precisão de tempo de evento e calibração sobre *baselines* mecanicistas, neurais e de LLM. Ao reestruturar ABMs generativos em torno de inferência a nível populacional com fusão neuro-simbólica consciente da incerteza, o PhysicsAgentABM estabelece um novo paradigma para simulação escalável e calibrada com LLMs.

Feb 5
Feb 6