HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

42 papers found

Mega-ASR: Rumo ao Reconhecimento de Fala In-the-wild² via Ampliação da Simulação Acústica do Mundo Real
Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

May 19

ByZhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao

110

Apesar dos rápidos avanços no reconhecimento automático de fala (ASR) e nos grandes modelos de áudio-linguagem, o reconhecimento robusto em ambientes do mundo real ainda é limitado por um "gargalo de robustez acústica": os modelos frequentemente perdem a ancoragem acústica e produzem omissões ou alucinações sob distorções severas e composicionais. Propomos o Mega-ASR, uma estrutura unificada de ASR em cenários reais que combina construção escalável de dados compostos com otimização progressiva acústico-semântica. Apresentamos o Voices-in-the-Wild-2M, cobrindo 7 fenômenos acústicos clássicos e 54 cenários compostos fisicamente plausíveis, e treinamos o Mega-ASR com Ajuste Fino Supervisionado Progressivo Acústico-Semântico e Otimização de Política com Gate de WER de Dupla Granularidade. Extensos experimentos demonstram que o Mega-ASR alcança vantagens significativas sobre sistemas anteriores de última geração em benchmarks de ASR em condições adversas (45,69% vs. 54,01% no VOiCES R4-B-F, e 21,49% vs. 29,34% no NOIZEUS Sta-0). Em cenários acústicos composicionais complexos, o Mega-ASR proporciona ainda uma redução relativa de WER de mais de 30% em relação a fortes baselines de código aberto e fechado, estabelecendo um paradigma escalável para ASR robusto em cenários reais.

Video2GUI: Síntese de Trajetórias de Interação em Grande Escala para o Pré-treinamento de Agentes GUI Generalizados
Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

May 14

ByWeimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian

Avanços recentes em modelos de linguagem grandes multimodais têm impulsionado o crescente interesse em agentes de interface gráfica do usuário (GUI), mas sua generalização ainda é limitada pela escassez de dados de treinamento em larga escala que abranjam diversas aplicações do mundo real. Conjuntos de dados existentes dependem fortemente de anotações manuais custosas e geralmente se restringem a domínios estreitos. Para enfrentar esse desafio, propomos o Video2GUI, uma estrutura totalmente automatizada que extrai trajetórias de interação GUI fundamentadas diretamente de vídeos da Internet não rotulados. O Video2GUI emprega uma estratégia de filtragem de grosseiro a fino para identificar vídeos tutoriais GUI de alta qualidade e convertê-los em trajetórias estruturadas de agente. Aplicando esse pipeline a 500 milhões de entradas de metadados de vídeo, construímos o WildGUI, um conjunto de dados em larga escala contendo 12 milhões de trajetórias de interação abrangendo mais de 1.500 aplicativos e sites. O pré-treinamento do Qwen2.5-VL e do Mimo-VL no WildGUI resulta em melhorias consistentes de 5 a 20% em vários benchmarks de fundamentação e ação GUI, igualando ou superando o desempenho de ponta. Disponibilizaremos tanto o conjunto de dados WildGUI quanto o pipeline Video2GUI para apoiar futuras pesquisas sobre agentes GUI.

Aprimorando a Geração de Quadros Infinitos sem Treinamento para Vídeos Longos Consistentes
Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

May 18

ByX. Feng, J. Zhu, M. Wu, C. Chen, F. Mao, H. Guo, J. Wu, X. Chu, K. Huang

Sem incorrer em custo computacional significativo, a geração de vídeos longos sem treinamento visa capacitar modelos fundamentais de geração de vídeos a produzir vídeos mais longos. Arcabouços autorregressivos em nível de quadro, como o FIFO-diffusion, oferecem a vantagem de gerar vídeos infinitamente longos com consumo constante de memória. No entanto, a incompatibilidade entre treinamento e inferência, aliada ao desafio de manter a consistência de longo prazo, limita a utilização eficaz dos modelos fundamentais. Para mitigar essas preocupações, propomos o MIGA, um método inovador de geração de vídeos longos com quadros infinitos. Primeiramente, propomos um mecanismo de alinhamento em dois estágios que reduz a lacuna entre treinamento e inferência ao diminuir o intervalo excessivo de ruído alimentado ao modelo. Em seguida, introduzimos um mecanismo inovador de dupla melhoria de consistência, onde a abordagem de autorreflexão corrige quadros iniciais com alto ruído e a abordagem de orientação por quadros de longo alcance utiliza quadros posteriores com baixo ruído e ampla cobertura para direcionar a geração, melhorando conjuntamente a consistência temporal. Experimentos extensivos no VBench e no NarrLV demonstram o desempenho de ponta do MIGA. Nossa página do projeto está disponível em https://xiaokunfeng.github.io/miga_homepage/.

IndusAgent: Reforçando a detecção de anomalias industriais de vocabulário aberto com ferramentas agênticas
IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

May 20

ByRongbin Tan, Fangfang Lin, Zhenlong Yuan, Min Qiu, Kejin Cui, Mengmeng Wang, Yi Wang, Zijian Song, Zhiyuan Wang, Jiyuan Wang, Yue Wang, Shuhan Song§, Huawei Cao

Modelos de linguagem de grande escala multimodais (MLLMs) têm demonstrado capacidade notável em conectar percepção visual e raciocínio textual, possibilitando compreensão zero-shot em diversos cenários industriais. No entanto, seu desempenho na detecção de anomalias industriais (IAD) de vocabulário aberto é frequentemente limitado por raciocínios desalinhados ao domínio e inferências estruturais alucinadas. Para enfrentar esses desafios, propomos o IndusAgent, um framework agentivo aumentado por ferramentas para IAD de vocabulário aberto. Especificamente, primeiro construímos o Indus-CoT, um conjunto de dados estruturado que integra observações visuais globais, patches locais de alta resolução e prioridades de normalidade de especialistas, fornecendo supervisão para o ajuste fino do modelo em trajetórias rigorosas de inspeção industrial. Com base nisso, o IndusAgent orquestra dinamicamente um conjunto de ferramentas externas, incluindo recorte dinâmico de regiões, aprimoramento de características de alta frequência e recuperação de prioridades, permitindo que o agente resolva ativamente ambiguidades visuais e desvende anomalias sutis. Além disso, introduzimos um objetivo de aprendizado por reforço com portas que otimiza conjuntamente a classificação de anomalias, a precisão da localização, o raciocínio sobre o tipo de anomalia e o uso eficiente de ferramentas, garantindo que a invocação de ferramentas ocorra apenas quando benéfica. Avaliações extensivas em cinco benchmarks de anomalias industriais, incluindo MVTec-AD, VisA, MPDD, DTD e SDD, demonstram que o IndusAgent alcança desempenho zero-shot de ponta entre todos os métodos existentes, validando nossa robustez e capacidade de generalização.

Você Só Precisa de Treinamento RLVR Mínimo: Extrapolando LLMs via Trajetórias de Rank-1
You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

May 20

ByZhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

O aprendizado por reforço com recompensas verificáveis (RLVR, do inglês *Reinforcement Learning with Verifiable Rewards*) tornou-se um paradigma dominante para melhorar o raciocínio em grandes modelos de linguagem (LLMs, do inglês *Large Language Models*); no entanto, a geometria subjacente das trajetórias dos parâmetros resultantes permanece pouco explorada. Neste trabalho, demonstramos que as trajetórias dos pesos do RLVR são extremamente de baixo posto e altamente previsíveis. Especificamente, descobrimos que a maioria dos ganhos de desempenho downstream é capturada por uma aproximação de posto 1 dos deltas dos parâmetros, onde a magnitude dessa projeção evolui de forma quase linear com as etapas de treinamento. Motivados por isso, propomos um método simples e computacionalmente eficiente, o RELEX (do inglês *REinforcement Learning EXtrapolation*), que estima o subespaço de posto 1 a partir de uma janela de observação curta e extrapola futuros checkpoints por meio de regressão linear, sem necessidade de modelo aprendido. Em três modelos (a saber, Qwen2.5-Math-1.5B, Qwen3-4B-Base e Qwen3-8B-Base), o RELEX produz checkpoints que igualam ou superam o desempenho do RLVR tanto em benchmarks dentro quanto fora do domínio, exigindo apenas 15% das etapas do treinamento completo do RLVR. Notavelmente, o RELEX é capaz de extrapolar muito além da janela de observação sem custo de treinamento, prevendo checkpoints até 10 a 20 vezes além do prefixo observado, com melhoria contínua (por exemplo, observar apenas os primeiros 50 passos e extrapolar para 1000 passos). Nossa análise de ablação confirma a suficiência minimalista do RELEX: nem aumentar o posto do subespaço nem empregar modelagem não linear produz ganhos adicionais na extrapolação. Por fim, mostramos que o sucesso do RELEX decorre de um efeito de "remoção de ruído": ao projetar as atualizações no subespaço de posto 1, o modelo descarta o ruído de otimização estocástica que, de outra forma, degradaria o desempenho durante a extrapolação. Nosso código está disponível em https://github.com/weizhepei/RELEX.

OScaR: A Navalha de Occam para Quantização Extrema de Cache KV em LLMs e Além
OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

May 19

ByZunhai Su, Rui Yang, Chao Zhang, Yaxiu Liu, Yifan Zhang, Wei Wu, Jing Xiong, Dayou Du, Xialie Zhuang, Yulei Qian, Yuchen Xie, Yik-Chung Wu, Hongxia Yang, Ngai Wong

O rápido avanço em direção ao raciocínio de contexto longo e à inteligência multimodal tornou a pegada de memória do cache de Chave-Valor (KV) um gargalo de memória dominante para a implantação eficiente. Embora a quantização estabelecida por canal acomode efetivamente outliers intrínsecos por canal nos tensores de Chave, sua eficácia diminui sob compressão extrema. Neste trabalho, revisitamos as limitações inerentes ao paradigma de quantização por canal a partir de perspectivas empíricas e teóricas. Nossa análise identifica o Desequilíbrio de Norma de Token (TNI) como o principal gargalo para a fidelidade da quantização. Demonstramos que o TNI amplifica sistematicamente erros quando parâmetros de quantização compartilhados precisam abranger grupos de tokens que exibem disparidades substanciais de norma. Em vez de depender de pipelines de quantização complexas (ex.: TurboQuant), propomos o OScaR (Rotação Canalizada com Escalonamento Omni), uma estrutura precisa e leve de compressão de cache KV para X-LLMs (ou seja, LLMs apenas de texto, multimodais e omnimodais). Avançando o paradigma por canal, o OScaR emprega Rotação Canalizada seguida de Escalonamento Omni-Token para mitigar a variância dimensional de sequência induzida pelo TNI de forma eficaz e eficiente, apoiado adicionalmente por nosso design otimizado de sistema e kernels CUDA. Avaliações extensas em X-LLMs mostram que o OScaR supera consistentemente os métodos existentes e alcança desempenho quase sem perdas sob quantização INT2, estabelecendo-o como uma estrutura robusta, de baixa complexidade e universal que define uma nova fronteira de Pareto. Em comparação com a linha de base BF16 FlashDecoding-v2, nossa implementação OScaR alcança um notável speedup de até 3,0x na decodificação, reduz a pegada de memória em 5,3x e aumenta a taxa de transferência em 4,1x. O código do OScaR está disponível publicamente em https://github.com/ZunhaiSu/OScaR-KV-Quant.

Uma Pesquisa sobre Grandes Modelos de Linguagem de Áudio: Generalização, Confiabilidade e Perspectivas
A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

May 18

ByKaiwen Luo, Zhenhong Zhou, Leo Wang, Liang Lin, Yang Xiao, Tianyu Shao, Yuanhe Zhang, Yuxuan Li, Miao Yu, Kailin Lyu, Jiaming Zhang, Dongrui Liu, Li Sun, Yueming Wu, Kai Li, Ting Dang, Xiaojun Jia, Rohan Kumar Das, Xinfeng Li, Siyuan Liang, Qiufeng Wang, Xingjun Ma, Jing Chen, Kun Wang, Junhao Dong, Deqing Zou, Yu Cheng, Xia Hu, Zhigang Zeng, Sen Su, Yang Liu, Yu-Gang Jiang, Philip S. Yu, Yew-Soon Ong

As capacidades fundamentais estabelecidas pelos Grandes Modelos de Linguagem (LLMs) abriram caminho para os Grandes Modelos de Linguagem Multimodais (MLLMs), nos quais os Grandes Modelos de Linguagem de Áudio (LALMs) são essenciais para a realização de uma inteligência auditiva universal. Apesar do seu desempenho notável, a escalada das capacidades dos LALMs superou significativamente o desenvolvimento de estruturas sistêmicas para garantir sua confiabilidade. Esta pesquisa oferece uma investigação abrangente dos mecanismos endógenos dos LALMs, detalhando as inovações arquitetônicas e os algoritmos de alinhamento que facilitam o raciocínio emergente. Especificamente, analisamos como a transição para estruturas unificadas de ponta a ponta e a integração de sinais acústicos contínuos expandem inerentemente a superfície de ataque. Para avaliar rigorosamente os riscos dentro desses paradigmas, estabelecemos uma taxonomia abrangente de confiabilidade, categorizando vulnerabilidades críticas como quebra de restrições entre modalidades, backdoors acústicos latentes e vazamento de privacidade biométrica. Revisamos o estado da arte por meio de seis pilares analíticos: alucinação, robustez, segurança, privacidade, justiça e autenticação. O profundo desequilíbrio entre um cenário ofensivo maduro e defesas subdesenvolvidas valida ainda mais as lacunas críticas de confiabilidade e os riscos multidimensionais que a inteligência centrada em áudio enfrenta. Por fim, propomos um roteiro estratégico que defende arquiteturas de "Defesa em Profundidade", modelagem causal do mundo auditivo e engenharia de representação intrínseca para preencher a lacuna entre o desempenho empírico e uma inteligência auditiva intrinsecamente confiável. Nosso projeto foi enviado para o GitHub em https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.

É Preciso Dois: Autodestilação Complementar para Integridade Contextual em LLMs
It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

May 18

BySangwoo Park, Woongyeong Yeo, Seanie Lee, Yumin Choi, Hyomin Lee, Kangsan Kim, Jinheon Baek, Seong Joon Oh, Sung Ju Hwang

Integridade Contextual (CI) define privacidade não meramente como manter informações ocultas, mas como governar fluxos de informação de acordo com as normas de um determinado contexto. À medida que grandes modelos de linguagem são cada vez mais implantados como agentes pessoais que lidam com fluxos de trabalho sensíveis, a adesão à CI torna-se crítica. No entanto, mesmo modelos de fronteira permanecem não confiáveis em decisões de divulgação, e as estratégias de mitigação existentes geralmente degradam o desempenho da tarefa subjacente. Para superar esse trade-off entre privacidade e utilidade, propomos o SELFCI, uma estrutura complementar de autodestilação que desacopla a supressão de informações da resolução de tarefas. O SELFCI otimiza conjuntamente duas divergências KL reversas independentes sobre distribuições professoras distintas derivadas do feedback: uma encoraja a preservação de informações relevantes para a tarefa em prol da utilidade, enquanto a outra impõe uma divulgação mínima e apropriada. Essa formulação complementar induz um alvo de Produto de Especialistas (PoE), alinhando a política com a interseção dos requisitos de capacidade e privacidade. Avaliações empíricas demonstram que o SELFCI, sem depender de supervisão externa custosa, supera consistentemente linhas de base competitivas, como algoritmos de aprendizado por reforço online (por exemplo, GRPO). Essas tendências se estendem ainda a configurações fora do domínio que envolvem fluxos de trabalho agentivos e contexto privado acumulado, sugerindo que o SELFCI oferece um caminho prático para o alinhamento com a CI.

Toto 2.0: Previsão de Séries Temporais Entra na Era da Escalabilidade
Toto 2.0: Time Series Forecasting Enters the Scaling Era

May 19

ByEmaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

Mostramos que modelos de base de séries temporais escalam: uma única receita de treinamento produz melhorias confiáveis na qualidade da previsão, de 4M a 2,5B de parâmetros. Lançamos o Toto 2.0, uma família de cinco modelos de previsão com pesos abertos treinados sob essa receita. A família Toto 2.0 estabelece um novo estado da arte em três referenciais de previsão: BOOM, nosso referencial de observabilidade; GIFT-Eval, o referencial padrão de propósito geral; e o recente referencial TIME, resistente a contaminação. Este relatório descreve nossos resultados experimentais e detalha as decisões de projeto por trás do Toto 2.0: sua arquitetura e receita de treinamento, dados de treinamento e o pipeline de transferência de hiperparâmetros u-muP. Todos os cinco checkpoints base são lançados sob licença Apache 2.0.

Mix-Quant: Preenchimento Quantizado, Decodificação Precisa para LLMs Agênticos
Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

May 19

ByHaiquan Lu, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

Agentes de LLM emergiram recentemente como um paradigma poderoso para resolver tarefas complexas por meio de planejamento, uso de ferramentas, recuperação de memória e interação em múltiplas etapas. No entanto, esses fluxos de trabalho agentivos frequentemente introduzem uma sobrecarga substancial no lado de entrada, tornando o estágio de pré-preenchimento, que demanda alta computação, um gargalo chave na inferência de contexto longo e múltiplas iterações. Neste trabalho, propomos Mix-Quant, uma estrutura de quantização simples e eficaz, ciente da fase, para inferência agentiva rápida. Primeiramente, investigamos a quantização FP4 em fluxos de trabalho agentivos de LLM e observamos que quantificar todo o processo de inferência pode incorrer em degradação significativa de desempenho. Em contraste, o estágio de pré-preenchimento exibe redundância substancial de quantização e, portanto, pode ser quantizado com perda mínima de precisão, apesar de ser a fonte dominante de computação. Com base nessa percepção, aplicamos a quantização NVFP4 de alto rendimento à fase de pré-preenchimento, enquanto preservamos a precisão BF16 para a decodificação. Ao dissociar a aceleração do pré-preenchimento da qualidade da decodificação, o Mix-Quant combina quantização algorítmica ciente da fase com execução NVFP4 eficiente em hardware para aliviar o gargalo de inferência em agentes de LLM. Experimentos extensivos em benchmarks de contexto longo e agentivos demonstram que o Mix-Quant preserva em grande parte o desempenho da tarefa, ao mesmo tempo que proporciona ganhos significativos de eficiência, alcançando até 3x de aceleração durante o pré-preenchimento.

Raciocínio Recursivo Generativo
Generative Recursive Reasoning

May 20

ByJunyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn

Como futuros sistemas de raciocínio neural devem implementar computação estendida? Os Modelos de Raciocínio Recursivo (RRMs) oferecem uma alternativa promissora à extensão sequencial autorregressiva ao realizar refinamento iterativo de estados latentes com funções de transição compartilhadas. No entanto, os RRMs existentes são amplamente determinísticos, seguindo uma única trajetória latente e convergindo para uma única previsão. Apresentamos os Modelos de Raciocínio Recursivo Generativo (GRAM), uma estrutura que transforma o raciocínio recursivo latente em computação probabilística de múltiplas trajetórias. O GRAM modela o raciocínio como uma trajetória latente estocástica, permitindo múltiplas hipóteses, estratégias alternativas de solução e escalonamento em tempo de inferência tanto pela profundidade recursiva quanto pela amostragem paralela de trajetórias. Isso resulta em um modelo generativo de variáveis latentes que suporta raciocínio condicional via $p_\theta(y \mid x)$ e, com entradas fixas ou ausentes, geração incondicional via $p_\theta(x)$. Treinado com inferência variacional amortizada, o GRAM supera as bases recorrentes e recursivas determinísticas em tarefas de raciocínio estruturado e satisfação de restrições com múltiplas soluções, ao mesmo tempo que demonstra capacidade de geração incondicional. https://ahn-ml.github.io/gram-website

CutVerse: Um Benchmark de Agentes de GUI Composicionais para Edição de Pós-Produção de Mídia
CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

May 19

ByHaobo Hu, Xiangwu Guo, Zhiheng Chen, Difei Gao, Haotian Liu, Libiao Jin, Qi Mao

Embora os agentes de GUI tenham feito progressos significativos na navegação web e em tarefas básicas de sistemas operacionais, suas capacidades em fluxos de trabalho criativos profissionais permanecem em grande parte inexploradas. Para preencher essa lacuna, apresentamos o Cutverse, um benchmark projetado para avaliar sistematicamente agentes autônomos de GUI em ambientes realistas de pós-produção de mídia. Curamos demonstrações de especialistas em 7 aplicações profissionais (ex.: Premiere Pro, Photoshop), abrangendo 186 tarefas complexas e de longo horizonte, baseadas em fluxos de trabalho autênticos de edição, envolvendo interfaces multimodais densas e sequências de interação fortemente acopladas. Para apoiar a avaliação escalável, desenvolvemos um parser leve que transforma gravações de tela brutas e logs de interação de baixo nível em trajetórias estruturadas e composicionais de ações de GUI com ancoragem precisa. Avaliações extensas revelam que os agentes existentes atingem apenas 36,0% de sucesso em tarefas realistas de edição de mídia, destacando os desafios impostos pelos fluxos de trabalho complexos e de longo horizonte de pós-produção de mídia em nosso benchmark. Embora os modelos atuais demonstrem ancoragem espacial promissora, alinhamento multimodal e execução coordenada de ações, eles ainda são limitados em confiabilidade de longo horizonte e planejamento específico de domínio.

Uni-Edit: Edição Inteligente é uma Tarefa Geral para Ajuste de Modelo Unificado
Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

May 20

ByDian Zheng, Manyuan Zhang, Hongyu Li, Hongbo Liu, Kai Zou, Kaituo Feng, Hongsheng Li

Atualmente, o aprimoramento de Modelos Multimodais Unificados (UMMs) com capacidades de compreensão, geração e edição de imagens depende principalmente do treinamento misto multitarefa. Devido a conflitos inerentes entre as tarefas, essa estratégia exige pipelines complexos de múltiplos estágios, mistura massiva de dados e truques de balanceamento, resultando apenas em uma compensação de desempenho, em vez de um verdadeiro reforço mútuo. Para romper esse paradigma, propomos o Uni-Edit, uma tarefa inteligente de edição de imagens que serve como a primeira tarefa geral para o ajuste de UMMs. Diferentemente de pipelines mistos complexos, o Uni-Edit melhora o desempenho em todas as três capacidades simultaneamente, utilizando apenas uma tarefa, um estágio de treinamento e um conjunto de dados. Especificamente, identificamos inicialmente a edição de imagens como uma tarefa geral inerentemente ideal, pois exige naturalmente tanto a compreensão visual quanto a geração. No entanto, os dados de edição existentes dependem de instruções simplistas que subutilizam severamente a capacidade de compreensão do modelo. Para resolver isso, introduzimos o primeiro pipeline automatizado e escalável de síntese de dados para edição inteligente, transformando dados diversos de VQA em instruções de edição complexas e eficazes, com perguntas embutidas e lógica aninhada. Isso resulta no Uni-Edit-148k, que combina instruções diversas e intensivas em raciocínio com imagens editadas de alta qualidade. Experimentos extensivos no BAGEL e no Janus-Pro demonstram que o ajuste exclusivo com o Uni-Edit alcança melhorias abrangentes em todas as três capacidades, sem qualquer operação auxiliar.

LLMEval-Logic: Um Benchmark Chinês Verificado por Solucionador para Raciocínio Lógico de LLMs com Endurecimento Adversarial
LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

May 19

ByMing Zhang, Qiyuan Peng, Yinxi Wei, Yujiong Shen, Kexin Tan, Yuhui Wang, Zhenghao Xiang, Junjie Ye, Zhangyue Yin, Zhiheng Xi, Shihan Dou, Tao Gui, Maxm Pan, Ruizhi Yang, Qi Zhang, Xuanjing Huang

A avaliação de modelos de linguagem de grande porte (LLMs) em raciocínio lógico em linguagem natural é essencial porque tarefas baseadas em regras exigem que as conclusões sigam estritamente as premissas declaradas. Muitos referenciais existentes de raciocínio lógico são gerados por meio de modelos que criam itens em linguagem natural a partir de fórmulas amostradas, fornecem apenas anotações formais grosseiras ou não auditadas, e atualmente são rapidamente saturados por modelos de raciocínio de fronteira. Apresentamos o LLMEval-Logic, um referencial de raciocínio lógico em chinês construído a partir de cenários situacionais realistas. Seu pipeline envolve a elaboração inicial por autores e auditoria por especialistas de itens em linguagem natural juntamente com suas formalizações de referência, verifica as respostas anotadas com o Z3, constrói rubricas especializadas para avaliação da formalização de natural para formal, e endurece itens selecionados por meio de um fluxo de trabalho adversarial em malha fechada. O referencial é disponibilizado em dois subconjuntos emparelhados: um subconjunto Base de 246 itens, acompanhado de 1.400 átomos de rubrica desenvolvidos por especialistas, e um subconjunto Hard de 190 itens, com 938 subquestões de múltiplas etapas em espaços de modelo fechados. A avaliação de 14 LLMs de fronteira no LLMEval-Logic revela lacunas substanciais nos modelos atuais: o melhor modelo atinge apenas 37,5% de Precisão em Itens Hard, e mesmo com símbolos de referência, a maior pontuação conjunta de formalização Z3+Rubrica entre os modelos avaliados chega a apenas 60,16%. Nosso referencial está disponível publicamente em https://github.com/llmeval/LLMEval-Logic.

HRM-Text: Pré-treinamento Eficiente Além do Escalonamento
HRM-Text: Efficient Pretraining Beyond Scaling

May 20

ByGuan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori

O paradigma atual de pré-treinamento para modelos de linguagem de grande porte depende de imenso poder computacional e de texto bruto em escala da internet, criando uma barreira significativa para a pesquisa fundamental. Em contraste, sistemas biológicos demonstram aprendizagem altamente eficiente em termos de amostras por meio do processamento em múltiplas escalas temporais, como a organização funcional da alça frontoparietal. Inspirados por isso, apresentamos o HRM-Text, que substitui Transformers padrão por um Modelo Recorrente Hierárquico (HRM) que desacopla o processamento em camadas estratégicas de evolução lenta e camadas de execução de evolução rápida. Para estabilizar essa recorrência profunda na modelagem de linguagem, introduzimos o MagicNorm e a atribuição profunda de crédito com aquecimento. Além disso, em vez do pré-treinamento padrão com texto bruto, treinamos exclusivamente em pares instrução-resposta usando um objetivo de conclusão de tarefa e o mascaramento PrefixLM. Servindo como uma prova empírica de existência de pré-treinamento eficiente, um modelo HRM-Text com 1 bilhão de parâmetros, treinado do zero em apenas 40 bilhões de tokens únicos e com um orçamento de US$ 1.500, alcança 60,7% no MMLU, 81,9% no ARC-C, 82,2% no DROP, 84,5% no GSM8K e 56,2% no MATH. Apesar de utilizar aproximadamente 100 a 900 vezes menos tokens de treinamento e 96 a 432 vezes menos poder computacional estimado do que as referências padrão, o HRM-Text apresenta desempenho competitivo com modelos abertos de 2 a 7 bilhões de parâmetros. Esses resultados demonstram que o co-design de arquiteturas e objetivos pode reduzir radicalmente a relação entre poder computacional e desempenho, tornando o pré-treinamento do zero acessível à comunidade de pesquisa em geral.

Avaliação do Cache Semântico Temporal e da Otimização de Fluxo de Trabalho em Pipelines Agentivos de Plano-Execução
Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

May 20

ByAlimurtaza Mustafa Merchant, Krish Veera, Sajal Kumar Goyla, Shambhawi Bhure, Dhaval Patel, Kaoutar El Maghraoui

Os fluxos de trabalho de operações de ativos industriais são sensíveis à latência, pois uma única consulta de usuário pode exigir coordenação de dados de sensores, ordens de serviço, modos de falha, ferramentas de previsão e agentes específicos de domínio. Avaliamos esse problema no AssetOpsBench (AOB), um benchmark de agente industrial cujo pipeline de planejamento e execução expõe sobrecarga repetida proveniente da descoberta de ferramentas, planejamento do LLM, execução de ferramentas MCP e sumarização final. As técnicas existentes de cache para LLM, como reutilização de cache KV e cache semântico baseado em embeddings, foram projetadas para servir chatbots e falham quando a validade da saída depende de parâmetros de tempo, ativo ou sensor. Propomos duas camadas de otimização complementares para pipelines de planejamento e execução do AOB: um cache semântico temporal e um conjunto de otimizações de fluxo de trabalho MCP que combinam cache de descoberta de ferramentas em disco e execução paralela de etapas com conhecimento de dependências. As otimizações de fluxo de trabalho MCP corresponderam a um ganho de velocidade de 1,67x e reduziram a latência mediana de ponta a ponta em cerca de 40,0%, enquanto o benchmark de cache temporal alcançou uma mediana de 30,6x de ganho de velocidade em acessos ao cache. Além do ganho de velocidade, nossos resultados expõem um modo de falha concreto do cache semântico puro para consultas industriais ricas em parâmetros, fornecendo uma análise crítica de como as escolhas de cache interagem com a correção da avaliação em benchmarks de agentes baseados em MCP.

Sobre os limites e oportunidades dos revisores de IA: Analisando as avaliações de artigos da família Nature com 45 cientistas especialistas
On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

May 20

BySeungone Kim, Dongkeun Yoon, Kiril Gashteovski, Juyoung Suk, Jinheon Baek, Pranjal Aggarwal, Ian Wu, Viktor Zaverkin, Spase Petkoski, Daniel R. Schrider, Ilija Dukovski, Francesco Santini, Biljana Mitreska, Yong Jeong, Kyeongha Kwon, Young Min Sim, Dragana Manasova, Arthur Porto, Biljana Mojsoska, Makoto Takamoto, Marko Shuntov, Ruoqi Liu, Hyunjoo Jenny Lee, Niyazi Ulas Dinç, Yehhyun Jo, Sunkyu Han, Chungwoo Lee, Huishan Li, Esther H. R. Tsai, Ergun Simsek, Khushboo Shafi, Yeonseung Chung, Jihye Park, Aleksandar Shulevski, Henrik Christiansen, Yoosang Son, Elly Knight, Amanda Montoya, Jeongyoun Ahn, Christian Langkammer, Heera Moon, Changwon Yoon, Nikola Stikov, Mooseok Jang, Edward Choi, Junhan Kim, Yeon Sik Jung, Woo Youn Kim, Jae Kyoung Kim, Ishraq Md Anjum, Hyun Uk Kim, Drew Bridges, Carolin Lawrence, Xiang Yue, Alice Oh, Akari Asai, Sean Welleck, Graham Neubig

Com o avanço das capacidades da IA, revisores baseados em inteligência artificial estão começando a ser implantados na revisão por pares científica, mas sua capacidade e credibilidade ainda são questionadas: muitos cientistas simplesmente os veem como sistemas probabilísticos sem expertise para avaliar pesquisas, enquanto outros pesquisadores são mais otimistas quanto à sua prontidão, sem evidências concretas. Compreender no que os revisores de IA se saem bem, onde falham e quais desafios permanecem é essencial. No entanto, as avaliações existentes de revisores de IA concentraram-se em se seus vereditos correspondem aos vereditos humanos (por exemplo, alinhamento de pontuação, previsão de aceitação), o que é insuficiente para caracterizar suas capacidades e limitações. Neste artigo, preenchemos essa lacuna por meio de um estudo de anotação especializada em larga escala, no qual 45 cientistas das áreas de Ciências Físicas, Biológicas e da Saúde gastaram 469 horas avaliando 2.960 críticas individuais (cada uma visando um aspecto específico de um artigo) de revisões escritas por humanos e geradas por IA de 82 artigos da família Nature quanto à correção, significância e suficiência de evidências. Em uma composição de todas as três dimensões, um agente revisor baseado em GPT-5.2 supera o revisor humano mais bem avaliado de cada artigo (60,0% vs. 48,2%, p = 0,009), enquanto todos os três revisores de IA (incluindo Gemini 3.0 Pro e Claude Opus 4.5) excedem o revisor humano com classificação mais baixa em todas as dimensões. As críticas precisas dos revisores de IA também são mais frequentemente classificadas como significativas e bem fundamentadas, e revelam 26% de problemas distintos que nenhum humano levanta. No entanto, os revisores de IA se sobrepõem muito mais do que os humanos (21% vs. 3% para pares de revisores), e exibem 16 fragilidades recorrentes que os humanos não compartilham, como conhecimento limitado de subáreas, falta de gerenciamento de contexto longo em múltiplos arquivos e postura excessivamente crítica em questões menores. No geral, nossos resultados posicionam os revisores de IA atuais como complementos, e não substitutos, dos revisores humanos.

OcclusionFormer: Organizando a Ordem Z para Geração de Imagens Baseada em Layout
OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation

May 20

ByZiye Li, Henghui Ding

Modelos recentes de layout para imagem alcançaram progressos notáveis em controlabilidade espacial. No entanto, ainda enfrentam dificuldades com a oclusão entre objetos. Quando as caixas delimitadoras se sobrepõem, a maioria dos métodos existentes carece de informações explícitas de oclusão, o que torna a geração nas regiões de interseção inerentemente ambígua e dificulta a determinação de relações complexas de oclusão. Como resultado, eles frequentemente produzem texturas emaranhadas ou camadas fisicamente inconsistentes nas áreas sobrepostas. Para resolver esse problema, primeiro construímos o SA-Z, um conjunto de dados em larga escala enriquecido com ordenação explícita de oclusão e anotações em nível de pixel. Com base no conjunto de dados proposto, introduzimos o OcclusionFormer, uma nova estrutura de Transformador de Difusão ciente de oclusão que modela explicitamente a prioridade de ordem Z ao desacoplar instâncias e compô-las via renderização de volume. Além disso, para garantir precisão espacial refinada, introduzimos uma perda de alinhamento consultada que supervisiona explicitamente instâncias individuais e melhora a consistência semântica. O método proposto reduz efetivamente a ambiguidade em regiões sobrepostas, impõe dependências corretas de oclusão e preserva a integridade estrutural, resultando em ganhos substanciais de precisão em diversas cenas.

Stable Audio 3
Stable Audio 3

May 18

ByZach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

O Stable Audio 3 é uma família de modelos rápidos de difusão latente (pequeno, médio, grande) para geração e edição de áudio de duração variável. Como nossos modelos podem gerar vários minutos de áudio, gerações de comprimento variável são essenciais para evitar o custo de produzir gerações completas para sons curtos. Também oferecemos suporte a inpainting, possibilitando a edição direcionada de áudio e a continuação de gravações curtas. Nossos modelos de difusão latente operam sobre um novo autoencoder semântico-acústico que projeta o áudio em um espaço latente compacto, permitindo geração eficiente baseada em difusão, preservando a fidelidade do áudio e estimulando uma estrutura semântica no espaço latente. Por fim, realizamos pós-treinamento adversarial para acelerar a inferência e melhorar a qualidade da geração, reduzindo o número de etapas de inferência ao mesmo tempo que melhora a fidelidade e a aderência ao prompt. Os modelos Stable Audio 3 são treinados com dados licenciados e Creative Commons para gerar música e sons em menos de 2 segundos em uma GPU H200 e em menos de alguns segundos em um MacBook Pro M4. Disponibilizamos os pesos dos modelos pequeno e médio, que podem ser executados em hardware de consumo, juntamente com seus pipelines de treinamento e inferência.

Modelo de Valor Costurado para Alinhamento de Difusão
Stitched Value Model for Diffusion Alignment

May 19

ByHyojun Go, Hyungjin Chung, Prune Truong, Goutam Bhat, Li Mi, Zhaochong An, Zixiang Zhao, Dominik Narnhofer, Serge Belongie, Federico Tombari, Konrad Schindler

Para uso prático, modelos generativos baseados em difusão ou fluxo devem ser alinhados com recompensas específicas da tarefa, como fidelidade ao prompt ou preferência estética. Esse alinhamento é desafiador porque a recompensa é definida para imagens de saída limpas, mas o procedimento de alinhamento requer estimativas da função de valor em latentes intermediários ruidosos. Métodos existentes recorrem a aproximações do tipo Tweedie ou de Monte Carlo, equilibrando viés do estimador versus custo computacional: as estimativas de Tweedie são eficientes, mas enviesadas, enquanto as de Monte Carlo são mais precisas, porém exigem *rollouts* dispendiosos. Uma alternativa natural seria uma função de valor aprendida, mas ainda é uma questão em aberto como treinar efetivamente um modelo de valor robusto e geral especificamente para latentes ruidosos. Aqui, propomos o StitchVM, uma estrutura de costura de modelos que transfere eficientemente modelos de recompensa pré-treinados para imagens limpas ao regime de latentes ruidosos. O StitchVM parte de um modelo de recompensa truncado existente no espaço de pixels e anexa um *backbone* de difusão congelado como sua cabeça. Do modelo no espaço de pixels, o híbrido resultante retém uma capacidade de recompensa robusta e cuidadosamente pré-treinada; do *backbone* de difusão, herda sua habilidade nativa de lidar com latentes ruidosos. O procedimento de costura é excepcionalmente leve; por exemplo, costurar e ajustar o CLIP ViT-L e o SD 3.5 *Medium* leva apenas 10 horas de GPU. Ao elevar modelos de recompensa poderosos do espaço de pixels para o espaço latente, o StitchVM abre um novo estilo de alinhamento por difusão: em vez de uma aproximação grosseira, porém custosa por amostra da função de valor, a função correta para os latentes ruidosos reais é construída uma vez e depois amortizada ao longo de muitas amostras e iterações. Mostramos que essa abordagem produz melhorias em uma ampla gama de métodos de orientação e pós-treinamento *downstream*: o DPS se torna 3,2 vezes mais rápido, reduzindo pela metade o pico de memória da GPU, e o DiffusionNFT se torna 2,3 vezes mais rápido.

OCTOPUS: Cache KV Otimizado para Transformers via Parametrização Octaédrica sob Quantização de Erro Quadrático Ótimo
OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization

May 20

ByMark Boss, Vikram Voleti, Simon Donné, Shimon Vainer

A cache chave-valor (KV) domina a largura de banda e o footprint de memória na inferência autoregressiva de contexto longo. Codecs recentes pré-condicionados por rotação (TurboQuant, PolarQuant) mostram que uma rotação aleatória estruturada seguida por um quantizador escalar por coordenada compatível com uma marginal analiticamente tratável é uma receita quase ótima para compressão KV. O OCTOPUS avança esse paradigma por meio da quantização conjunta de tripletos de coordenadas rotacionadas. A direção de cada tripleto é mapeada para um quadrado via uma parametrização octaédrica, e as duas coordenadas resultantes e a norma do tripleto são quantizadas por Lloyd-Max contra marginais compatíveis com a implementação. A otimização do erro quadrático por tripleto fornece uma alocação de bits estritamente não uniforme que depende apenas da dimensionalidade total das chaves. Descobrimos que o ótimo de qualidade em dimensão finita com varreduras é constante em todos os decodificadores reais que testamos. O codec é independente dos dados, online e determinístico dada uma semente. Em texto, vídeo e áudio, o OCTOPUS iguala ou supera todos os codecs de rotação anteriores em todas as larguras de bits e métricas relatadas, com uma liderança que cresce à medida que os bits diminuem para compressão extrema. Além disso, uma implementação Triton fundida reconstrói chaves em tempo real sem materializar a chave descomprimida, de modo que o codec não adiciona largura de banda ou latência no momento da decodificação além da dequantização existente. Página do projeto: https://octopus-quant.github.io/

Aprendizado a partir de Feedback de Linguagem via Destilação de Política Variacional
Learning from Language Feedback via Variational Policy Distillation

May 18

ByYang Li, Erik Nijkamp, Semih Yavuz, Shafiq Joty

O aprendizado por reforço a partir de recompensas verificáveis (RLVR) sofre com sinais de resultado esparsos, criando sérios gargalos de exploração em tarefas complexas de raciocínio. Métodos recentes de autodestilação on-policy tentam resolver esse problema utilizando feedback linguístico para gerar supervisão densa em nível de token. No entanto, essas abordagens dependem de um professor fixo e passivo para interpretar o feedback. À medida que a política do aluno melhora, as capacidades de avaliação zero-shot do professor se estabilizam, interrompendo o aprendizado subsequente. Para superar essa limitação, propomos a Destilação Variacional de Políticas (VPD), uma estrutura que formaliza o aprendizado a partir de feedback linguístico como um problema de Expectation-Maximization (EM) Variacional. A VPD coevolui ambas as políticas: na etapa E, o professor é ativamente refinado com base nos resultados das trajetórias por meio de uma atualização adaptativa de região de confiança, traduzindo o feedback textual em uma distribuição alvo de tokens dinamicamente melhorada. Na etapa M, o aluno internaliza essa orientação distribucional densa em seus próprios rollouts on-policy. Ao melhorar continuamente a capacidade do professor de extrair sinais acionáveis a partir de críticas textuais, a VPD supera as limitações da destilação passiva. Avaliada em diversas fontes de feedback diagnóstico em tarefas de raciocínio científico e geração de código, a VPD consistentemente supera tanto o RLVR padrão quanto as linhas de base existentes de autodestilação. Finalmente, ao submeter nossa estrutura a testes de estresse em raciocínio matemático rígido e regimes de inicialização a frio, elucidamos os limites fundamentais da autodestilação orientada por feedback em comparação com o RL puramente orientado pelo ambiente.

MOCHA: Recozimento de Chebyshev Multiobjetivo para Otimização de Habilidades de Agentes
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

May 19

ByMd Mehrab Tanjim, Jayakumar Subramanian, Xiang Chen, Branislav Kveton, Subhojyoti Mukherjee, Anlan Zhang, Sungchul Kim, Somdeb Sarkhel, Sunav Choudhury

Agentes LLM organizam o comportamento por meio de habilidades — especificações estruturadas em linguagem natural que governam como um agente raciocina, recupera informações e responde. Diferentemente de prompts monolíticos, as habilidades são artefatos de múltiplos campos sujeitos a restrições rígidas da plataforma: campos de descrição são truncados para roteamento, corpos de instrução são compactados por meio de revelação progressiva, e habilidades co-residentes competem por janelas de contexto limitadas. Essas restrições tornam a otimização de habilidades inerentemente multiobjetivo: uma habilidade deve simultaneamente maximizar o desempenho da tarefa e satisfazer os limites da plataforma. No entanto, os otimizadores de prompt existentes ignoram essas compensações ou as reduzem a uma soma ponderada, perdendo variantes ótimas de Pareto em regiões objetivas não convexas. Apresentamos o MOCHA (Multi-Objective Chebyshev Annealing – Recozimento Chebyshev Multiobjetivo), que substitui a seleção mono-objetivo pela escalarização de Chebyshev — cobrindo toda a fronteira de Pareto, incluindo regiões não convexas — combinada com recozimento exponencial que faz a transição da exploração para o aproveitamento. Em nossos experimentos com seis habilidades diversas de agentes — onde todos os métodos compartilham o mesmo operador de mutação multiobjetivo e as linhas de base recebem feedback textual idêntico por objetivo — os otimizadores existentes falham em melhorar a habilidade inicial em 4 de 6 tarefas: 1000 execuções produzem zero progresso. O MOCHA avança em todas as tarefas, alcançando uma melhoria relativa de 7,5% na correção média em relação à linha de base mais forte (até 14,9% no FEVER e 10,4% no TheoremQA), além de descobrir o dobro de variantes ótimas de Pareto de habilidades.

PanoWorld: Um Modelo de Mundo Espacial Generativo para Síntese Consistente de Panorama de Casa Inteira
PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis

May 19

ByJinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi

Gerar um tour VR completo e consistente de uma residência a partir de uma planta baixa e de uma referência de estilo exige tanto panoramas fotorrealistas quanto coerência espacial entre vistas. Geradores puramente 2D produzem panoramas individuais atraentes, mas reimaginam geometria e materiais quando o ponto de vista muda, enquanto a geração monolítica 3D torna-se custosa e perde texturas finas em escala de múltiplos cômodos. Apresentamos o PanoWorld, um modelo generativo de mundo espacial que trata a síntese de uma casa inteira como geração autorregressiva de panoramas de 360 graus baseados em nós, correspondendo à navegação discreta usada por produtos reais de tour VR. O PanoWorld utiliza uma casca 3D derivada da planta baixa como proxy geométrico global e um cache dinâmico de Gaussian Splatting 3D como memória espacial renderizável. Um LRM panorâmico feed-forward projetado para entradas de 360 graus em escala métrica para múltiplos cômodos eleva os panoramas gerados a atualizações locais de 3DGS, enquanto a Atenção de Grupo Consciente de Cômodos suprime a interferência de características entre cômodos. Uma estratégia de cache progressivo ciente da topologia funde essas atualizações locais sem reconstruir repetidamente o histórico completo. Ao desacoplar a orientação geométrica baseada em casca da memória visual renderizada por cache, o PanoWorld preserva a qualidade de síntese 2D de alta frequência enquanto melhora a consistência de layout e material entre nós. O link do projeto é https://jjrcn.github.io/PanoWorld-project-home/.

O Fenômeno da Não-Aprendibilidade em RLVR para Modelos de Linguagem
The Unlearnability Phenomenon in RLVR for Language Models

May 16

ByYulin Chen, He He, Chen Zhao

Aprendizado por Reforço com Recompensa Verificável (RLVR) tem se mostrado eficaz na melhoria da capacidade de raciocínio de Modelos de Linguagem de Grande Porte (LLM). No entanto, a dinâmica de aprendizado do RLVR ainda é pouco explorada. Neste artigo, revelamos um fenômeno contraintuitivo: entre exemplos difíceis com os quais o modelo inicialmente luta, um subconjunto substancial permanece não aprendível mesmo quando rolagens corretas estão presentes. Para compreender o fenômeno, primeiro demonstramos que técnicas existentes de otimização e amostragem não conseguem resolver a não aprendibilidade. Com análise de gradiente entre exemplos, mostramos que exemplos não aprendíveis apresentam um problema fundamental de representação, caracterizado por baixa similaridade de gradiente com o restante dos exemplos e padrões de raciocínio não generalizáveis. Mostramos ainda que as falhas de representação são difíceis de mitigar no RL, pois o aumento de dados não melhora a similaridade de gradiente. Nosso estudo fornece a primeira caracterização sistemática de dados não aprendíveis no treinamento com RLVR e revela limitações fundamentais nas abordagens atuais de RL para tarefas de raciocínio. Código e dados estão disponíveis em https://github.com/yulinchen99/unlearnability-rlvr.

SpecBench: Medindo Reward Hacking em Agentes de Codificação de Longo Horizonte
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents

May 20

ByBingchen Zhao, Dhruv Srikanth, Yuxiang Wu, Zhengyao Jiang

À medida que agentes de codificação de longo horizonte produzem mais código do que qualquer desenvolvedor consegue revisar, a supervisão se concentra em uma única superfície: a suíte de testes automatizados. A manipulação de recompensa (reward hacking) surge naturalmente nesse cenário, pois o agente otimiza para passar nos testes, desviando-se do objetivo real do usuário. Estudamos esse fenômeno de manipulação de recompensa decompondo tarefas de engenharia de software em três partes: (i) uma descrição em linguagem natural da especificação; (ii) testes de validação visíveis que exercitam funcionalidades especificadas de forma isolada; e (iii) testes retidos (held-out) que compõem essas mesmas funcionalidades para simular o uso no mundo real. Com base na especificação e nas suítes de testes de validação visíveis, um agente genuíno seria capaz de gerar uma solução que também passasse em todos os testes retidos. Portanto, usamos a diferença nas taxas de aprovação entre essas duas suítes para quantificar a manipulação de recompensa. Com base nessa metodologia, apresentamos o SpecBench, um benchmark composto por 30 tarefas de programação em nível de sistema, que variam de tarefas de horizonte curto, como construir um analisador JSON, até tarefas de horizonte ultra longo, como construir um núcleo de sistema operacional do zero. Experimentos em larga escala revelam um padrão consistente: embora todos os agentes de fronteira saturem a suíte visível, a manipulação de recompensa persiste, com modelos menores apresentando lacunas maiores nas suítes retidas. A lacuna também aumenta acentuadamente com a duração da tarefa: cresce 28 pontos percentuais a cada aumento de dez vezes no tamanho do código. As falhas variam desde isolamento sutil de funcionalidades até explorações deliberadas, incluindo um "compilador" de tabela hash com 2.900 linhas que memoriza entradas de teste. O SpecBench oferece um ambiente de teste fundamentado para medir se agentes de codificação constroem sistemas genuinamente funcionais ou apenas enganam as suítes de testes que os desenvolvedores lhes fornecem.

MINTEval: Avaliação de Memória sob Interferência Multi-Alvo em Sistemas de Agentes de Longo Horizonte
MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

May 19

ByHyunji Lee, Justin Chih-Yao Chen, Joykirat Singh, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal

Agentes do mundo real operam em horizontes longos e evolutivos, onde as informações são atualizadas repetidamente e podem interferir entre memórias, exigindo recuperação precisa e raciocínio agregado sobre múltiplas informações. No entanto, os benchmarks existentes focam em recuperação estática e independente, não capturando essas interações dinâmicas entre memórias em evolução. Neste artigo, estudamos como agentes atuais com memória aumentada se comportam em cenários realistas, com alta interferência e horizontes longos, em diversos domínios e tipos de pergunta. Apresentamos o MINTEval (Avaliação de Memória de Longo Horizonte sob Interferência), um benchmark que oferece: (1) contextos longos e altamente interconectados, com informações frequentemente atualizadas que induzem interferência substancial; (2) domínios diversos (rastreamento de estados, diálogo multi-turno, revisões da Wikipédia e commits do GitHub), permitindo avaliação de generalização entre domínios; e (3) tipos variados de pergunta que avaliam robustez à interferência, incluindo (i) tarefas de recordação de alvo único, que exigem a recuperação de um alvo específico em contextos longos, e (ii) tarefas de agregação de múltiplos alvos, que exigem raciocínio sobre múltiplas informações relevantes. No total, o MINTEval possui 15.6 mil pares de pergunta-resposta em contextos de longo horizonte, com média de 138.8 mil tokens e extensão de até 1.8 milhão de tokens por instância. Avaliamos 7 sistemas representativos, incluindo LLMs de contexto longo tradicionais, RAG e frameworks de agentes com memória aumentada. Em todos os sistemas, observamos desempenho consistentemente baixo (média de 27.9% de acurácia), especialmente em perguntas que exigem raciocínio agregado sobre múltiplas evidências. Nossa análise mostra que o desempenho é limitado principalmente pela recuperação e construção da memória. Além disso, os sistemas de memória atuais têm dificuldade em recordar e raciocinar sobre fatos anteriores que são revisados ou interferidos por contexto subsequente, com a acurácia degradando à medida que o número de atualizações intervenientes aumenta.

Equivalência Condicional de DPO e RLHF: Suposição Implícita, Modos de Falha e Alinhamento Comprovável
Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

May 20

ByZhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo

A Otimização Direta de Preferências (DPO) emergiu como uma alternativa popular ao Aprendizado por Reforço a partir de Feedback Humano (RLHF), oferecendo equivalência teórica com implementação mais simples. Provamos que essa equivalência é condicional, e não universal, dependendo de uma suposição implícita frequentemente violada na prática: a política ótima do RLHF deve preferir respostas preferidas por humanos. Quando essa suposição falha, a DPO otimiza a vantagem relativa em relação à política de referência, e não o alinhamento absoluto com as preferências humanas, levando a uma convergência patológica onde as políticas reduzem a perda da DPO enquanto preferem respostas não preferidas. Caracterizamos quando essa suposição é violada, mostramos a existência de um espaço de soluções indesejável e provamos que a DPO e o RLHF otimizam objetivos fundamentalmente diferentes nesses casos. Para resolver isso, introduzimos a Otimização de Preferências Restrita (CPO), que aumenta o RLHF com restrições para alinhamento comprovável. Além disso, fornecemos uma interpretação geométrica por meio de ranqueamento de margem suave, revelando que a DPO implementa ranqueamento de margem com alvos potencialmente negativos. Nossa análise teórica estabelece quando as garantias da DPO são válidas e fornece soluções que preservam a simplicidade com alinhamento comprovável. Experimentos abrangentes em benchmarks padrão demonstram que a CPO atinge desempenho de estado da arte. O código está disponível em: https://github.com/visitworld123/CPO.

Mem-π: Memória adaptativa através do aprendizado de quando e o que gerar
Mem-π: Adaptive Memory through Learning When and What to Generate

May 20

ByXiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

Apresentamos o Mem-π, uma estrutura para memória adaptativa em agentes de modelos de linguagem de grande porte (LLMs), onde orientações úteis são geradas sob demanda, em vez de recuperadas de armazenamentos de memória externos. Agentes existentes com memória aumentada geralmente dependem de recuperação baseada em similaridade de bancos de memória episódica ou bibliotecas de habilidades, retornando entradas estáticas que frequentemente estão desalinhadas com o contexto atual. Em contraste, o Mem-π usa um modelo de linguagem ou visão-linguagem dedicado, com seus próprios parâmetros, separado do agente downstream, para gerar orientações específicas ao contexto para tarefas complexas. Condicionado ao contexto atual do agente, o modelo decide conjuntamente quando produzir orientação e qual orientação produzir. Nós o treinamos com um objetivo de aprendizado por reforço (RL) desacoplado entre decisão e conteúdo, permitindo que ele se abstenha quando a geração não for útil e, caso contrário, produza orientações concisas e úteis. Em diversos benchmarks agentivos que abrangem navegação na web, uso de ferramentas baseado em terminal e interação incorporada baseada em texto, o Mem-π supera consistentemente as linhas de base de memória baseadas em recuperação e otimizadas por RL anteriores, alcançando mais de 30% de melhoria relativa em tarefas de navegação na web.

UniT: Aprendizado de Geometria Unificado com Transformer Autoregressivo de Grupo
UniT: Unified Geometry Learning with Group Autoregressive Transformer

May 20

ByHaotian Wang, Yusong Huang, Zhaonian Kuang, Hongliang Lu, Xinhu Zheng, Meng Yang, Gang Hua

Modelos feed-forward recentes avançaram significativamente a percepção geométrica para inferir estruturas 3D densas a partir de observações de sensores. No entanto, suas capacidades essenciais permanecem fragmentadas em diversos paradigmas incompatíveis, incluindo percepção online, reconstrução offline, integração multimodal, escalabilidade de longo horizonte e estimativa de escala métrica. Apresentamos o UniT, um modelo unificado construído sobre um novo Transformador Autoregressivo de Grupo, que reformula essas capacidades aparentemente díspares dentro de um único arcabouço. A ideia chave é tratar grupos de observações de sensores como as unidades autoregressivas básicas e predizer os mapas de pontos correspondentes de maneira sem âncoras e adaptativa à escala. Mais especificamente, diversas configurações de vista, tanto em cenários online quanto offline, são naturalmente unificadas em um único processo de autoregressão em grupo. Ao variar o tamanho do grupo, o modo online opera sobre múltiplos passos autoregressivos com grupos de quadro único, enquanto o modo offline agrega um grupo de múltiplos quadros em uma única passagem direta. Enquanto isso, um mecanismo de cache KV em estilo de fila garante memória autoregressiva limitada ao longo de horizontes longos. Isso é possibilitado pela redução de dependências de longo alcance em quadros iniciais através da modelagem relacional sem âncoras, permitindo que a memória desatualizada seja descartada dinamicamente. Para melhorar a generalização de escala métrica entre cenas, uma perda geométrica adaptativa à escala é ainda introduzida dentro deste arcabouço. Ela acopla restrições geométricas relativas com um termo de escala absoluta parcial, regularizando implicitamente a escala global e induzindo uma transição progressiva da geometria invariante à escala para soluções de escala métrica. Juntamente com um módulo de atenção modal dedicado para integrar modalidades auxiliares, o UniT alcança desempenho de estado da arte em percepção geométrica unificada, conforme validado em dez referenciais abrangendo sete tarefas representativas.

SaaSBench: Explorando os Limites dos Agentes de Codificação na Engenharia de SaaS Empresarial de Longo Horizonte
SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

May 17

ByQingnan Ren, Shun Zou, Shiting Huang, Ziao Zhang, Kou Shi, Zhen Fang, Yiming Zhao, Yu Zeng, Qisheng Su, Lin Chen, Yong Wang, Zehui Chen, Xiangxiang Chu, Feng Zhao

À medida que agentes autônomos de codificação se tornam capazes de lidar com tarefas de horizonte cada vez mais longo, eles gradualmente demonstraram potencial para completar o desenvolvimento de software ponta a ponta. Embora os benchmarks existentes tenham evoluído recentemente da edição localizada de código para a geração de projetos do zero, eles ainda se restringem a aplicações estruturalmente simplificadas e de pilha única. Consequentemente, não capturam os ambientes heterogêneos, a orquestração full-stack e a complexidade em nível de sistema dos sistemas reais de Software como Serviço (SaaS) empresariais, deixando uma lacuna crítica na avaliação de agentes sob restrições realistas de engenharia. Para preencher essa lacuna, apresentamos o SaaSBench, o primeiro benchmark projetado para explorar os limites dos agentes de IA na engenharia de SaaS empresarial. Abrangendo 30 tarefas complexas em 6 domínios de SaaS, com 5.370 nós de validação, ele incorpora 8 linguagens de programação, 6 bancos de dados e 13 frameworks para espelhar meticulosamente a heterogeneidade real do software. Além disso, projetamos um paradigma de avaliação híbrido ciente de dependências, adaptado para sistemas complexos com horizontes longos e acoplamento multicomponente, permitindo uma avaliação granular e reproduzível. Crucialmente, nossos extensos experimentos revelam uma percepção marcante: o principal gargalo para agentes de última geração não é gerar lógica de código isolada, mas configurar e integrar com sucesso um sistema multicomponente. Mais de 95% das falhas nas tarefas ocorrem antes mesmo de os agentes atingirem a lógica de negócios profunda, com modelos frequentemente sendo vítimas de excesso de confiança e parando prematuramente durante a configuração fundamental do sistema, ou ficando presos em loops ineficazes de depuração. Esperamos que o SaaSBench sirva como um ambiente de teste prático e desafiador para impulsionar a evolução de agentes de codificação confiáveis em nível de sistema. O código está disponível em https://github.com/ShadeCloak/SaaSbench.

PlanningBench: Gerando dados de planejamento escaláveis e verificáveis para avaliar e treinar grandes modelos de linguagem
PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

May 20

ByZiliang Zhao, Zenan Xu, Shuting Wang, Hongjin Qian, Yan Lei, Minda Hu, Zhao Wang, Shihan Dou, Zhicheng Dou, Pluto Zhou

O planejamento é uma capacidade fundamental para grandes modelos de linguagem (LLMs), pois tarefas complexas exigem que os modelos coordenem objetivos, restrições, recursos e consequências de longo prazo em soluções executáveis e verificáveis. No entanto, os benchmarks existentes de planejamento geralmente tratam os dados de planejamento como coleções fixas de instâncias, em vez de alvos de geração controláveis. Isso limita a cobertura de cenários, vincula a dificuldade a proxies superficiais em vez de fontes estruturais e oferece suporte limitado para geração escalável, verificação automática ou treinamento orientado ao planejamento. Apresentamos o PlanningBench, um framework para gerar dados de planejamento escaláveis, diversos e verificáveis, tanto para avaliação quanto para treinamento. O PlanningBench parte de cenários reais de planejamento e abstrai workflows práticos em uma taxonomia estruturada com mais de 30 tipos de tarefas, subtarefas, famílias de restrições e fatores de dificuldade. Guiado por essa taxonomia, um pipeline de síntese orientado por restrições instancia problemas de planejamento autocontidos com controle adaptativo de dificuldade, filtragem de qualidade e listas de verificação em nível de instância. Isso desloca a construção de dados de planejamento de uma coleta fixa de benchmarks para uma geração controlável, preservando ao mesmo tempo o embasamento realista das tarefas. Usamos o PlanningBench para avaliar LLMs de ponta de código aberto e fechado, e descobrimos que os modelos atuais ainda têm dificuldade em produzir soluções completas sob restrições acopladas. Além da avaliação, o aprendizado por reforço com dados verificados do PlanningBench melhora o desempenho em benchmarks de planejamento não vistos e em tarefas mais amplas de seguimento de instruções. Análises adicionais sugerem que soluções ótimas determinadas ou bem especificadas fornecem sinais de recompensa mais claros e dinâmicas de treinamento mais estáveis. No geral, o PlanningBench fornece uma fonte controlável de dados de planejamento para diagnosticar e aprimorar habilidades de planejamento generalizáveis em LLMs.

Alinhamento de Segurança como Aprendizado Contínuo: Mitigando a Taxa de Alinhamento via Projeção de Gradiente Ortogonal
Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

May 12

ByGuanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su, Yi Zhong

O pós-treinamento de segurança pode melhorar a nocividade e a conformidade com políticas dos Modelos de Linguagem de Grande Escala (LLMs), mas também pode reduzir a utilidade geral, um fenômeno frequentemente descrito como o imposto de alinhamento. Estudamos essa troca através da lente do aprendizado contínuo: estágios sequenciais de alinhamento expõem o modelo a distribuições de dados e objetivos deslocados, e seus gradientes podem interferir com direções que suportam capacidades gerais previamente adquiridas. Essa visão não afirma que toda degradação de alinhamento tem uma única causa; em vez disso, fornece um mecanismo de primeira ordem útil para mitigar uma fonte importante de regressão de capacidade. Propusemos a Projeção Ortogonal de Gradientes para Alinhamento de Segurança (OGPSA), uma regra de atualização leve que estima um subespaço de referência de baixo posto a partir de gradientes em um pequeno conjunto de dados de capacidade geral e remove de cada gradiente de segurança o componente situado nesse subespaço. A atualização resultante é a direção de descida de segurança local mais íngreme, sujeita a restrições de preservação de primeira ordem nos objetivos de referência. OGPSA é compatível com pipelines padrão de pós-treinamento e evita replay em larga escala, embora introduza o cálculo periódico de gradientes de referência. Em configurações de Ajuste Fino Supervisionado (SFT), Otimização Direta de Preferências (DPO) e SFT→DPO sequencial, OGPSA melhora a troca observada entre segurança e utilidade em relação às linhas de base padrão. Sob o pipeline sequencial SFT→DPO, o ganho médio de desempenho aumenta de 33,98% para 42,74% no Qwen2.5-7B-Instruct e de 19,74% para 32,98% no Llama3.1-8B-Instruct. Disponibilizamos nosso código como código aberto em https://github.com/SunGL001/OGPSA.

Governança de Controle de Treinamento Learn-by-Wire: Treinamento Autônomo Limitado sob Estresse para Estabilidade e Eficiência
Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

May 18

ByAnis Radianis

O treinamento de modelos de linguagem modernos está cada vez mais exposto a instabilidade, execuções degradadas e desperdício de computação, especialmente sob condições agressivas de taxa de aprendizado, escala e estresse de tempo de execução. Este artigo introduz o Learn-by-Wire Guard (LBW-Guard), uma camada de governança de controle de treinamento autônomo e limitada que opera acima do AdamW. Em vez de substituir a regra de atualização do otimizador, o LBW-Guard observa a telemetria do treinamento, interpreta regimes sensíveis a instabilidade e aplica controle limitado à execução do otimizador, preservando objetivos de treinamento fixos. Avaliamos o LBW-Guard em um conjunto de testes de estresse e robustez centrado no Qwen2.5 usando WikiText-103, com Qwen2.5-7B como referência empírica, comparações de tamanho de modelo com Qwen2.5-3B e Qwen2.5-14B, testes de estresse de taxa de aprendizado, linhas de base de recorte de gradiente e uma verificação de sanidade de parâmetros completos com TinyLlama-1B sem LoRA. No cenário de referência de 7B, o LBW-Guard reduz a perplexidade final de 13,21 para 10,74, uma melhoria de 18,7%, enquanto reduz o tempo de ponta a ponta de 392,54s para 357,02s, uma aceleração de 1,10x. Sob estresse mais forte de taxa de aprendizado, o AdamW degrada para perplexidade final de 1885,24 com LR=3e-3 e 659,76 com LR=1e-3, enquanto o LBW-Guard permanece treinável com 11,57 e 10,33, respectivamente. As linhas de base de recorte de gradiente não reproduzem esse efeito. Esses resultados sustentam uma conclusão de sistemas em escopo de que o treinamento de LLMs sensível à estabilidade pode se beneficiar de um plano de governança acima do otimizador. O LBW-Guard fornece evidências de que o controle limitado em tempo de execução pode preservar a computação produtiva sob estresse, mantendo-se distinto da substituição do otimizador e da supressão local de gradiente.

TIDE: Inferência Eficiente e sem Perdas de LLM de Difusão MoE com Offload de Especialistas Consciente de E/S
TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

May 19

ByZhiben Chen, Youpeng Zhao, Yang Sui, Jun Wang, Yuzhang Shang

Modelos de Linguagem de Grande Escala de Difusão (dLLMs) surgiram como uma alternativa competitiva aos modelos autorregressivos (AR), oferecendo melhor utilização de hardware e contexto bidirecional por meio de decodificação paralela em nível de bloco. No entanto, à medida que os dLLMs continuam a escalar com arquiteturas de mistura de especialistas (MoE), sua implantação em dispositivos com recursos limitados permanece um desafio em aberto. Métodos existentes baseados em AR frequentemente incorrem em sobrecarga de E/S proibitiva ou gargalos computacionais significativos. Neste trabalho, propomos o TIDE, um novo sistema de inferência eficiente em recursos que aproveita a estabilidade temporal das ativações de especialistas durante o processo de difusão dentro do bloco. Especificamente, aproveitamos a estabilidade temporal das ativações de especialistas durante o processo de difusão dentro do bloco e introduzimos uma estratégia de atualização de especialistas baseada em intervalos que atualiza o posicionamento dos especialistas de forma consciente da E/S. Para garantir desempenho ideal, formulamos o agendamento de inferência como um problema de programação matemática, resolvendo para o intervalo ótimo que minimiza o tráfego de E/S e a computação da CPU. Mais importante ainda, o TIDE é uma otimização sem perdas que não requer treinamento do modelo, proporcionando uma aceleração "almoço grátis" para a inferência de dLLMs. Em um sistema com uma única GPU-CPU, demonstramos que o TIDE alcança melhorias de vazão de até 1,4x e 1,5x em relação às linhas de base anteriores nos modelos LLaDA2.0-mini e LLaDA2.0-flash, respectivamente.

iTryOn: Dominando a Prova Virtual Interativa em Vídeo com Orientação Semântico-Espacial
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

May 20

ByJun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang

Vídeo Virtual Try-On (VVT) visa substituir perfeitamente uma peça de vestuário em uma pessoa em um vídeo por uma nova. Embora os métodos existentes tenham feito avanços significativos na manutenção da consistência temporal, eles estão predominantemente confinados a cenários não interativos, onde os modelos apenas exibem as roupas. Essa limitação ignora um aspecto crucial da apresentação de vestuário no mundo real: a interação ativa entre humano e vestimenta. Para preencher essa lacuna, introduzimos e formalizamos uma nova tarefa desafiadora: o Vídeo Virtual Try-On Interativo (VVT Interativo), onde os sujeitos no vídeo interagem ativamente com suas roupas. Essa tarefa introduz desafios únicos além da simples preservação de textura, incluindo: (1) resolver a ambiguidade semântica das interações a partir de informações de pose padrão, e (2) aprender deformações complexas da vestimenta a partir de vídeos onde os momentos interativos são esparsos e breves. Para enfrentar esses desafios, propomos o iTryOn, uma nova estrutura construída sobre um Transformer de difusão de vídeo em larga escala. O iTryOn é pioneiro em um mecanismo de injeção de interação em múltiplos níveis para orientar a geração de dinâmicas complexas. No nível espacial, introduzimos um antecedente de mão 3D agnóstico à vestimenta para fornecer orientação refinada para o contato preciso mão-vestimenta, resolvendo efetivamente a ambiguidade espacial. No nível semântico, o iTryOn utiliza legendas globais para contexto geral e legendas de ação com carimbo de tempo para interações localizadas, sincronizadas por meio de nosso novo Embedding de Posição Rotacional Sensível à Ação (A-RoPE). Experimentos extensivos demonstram que o iTryOn não apenas alcança desempenho de última geração nos benchmarks tradicionais de VVT, mas também estabelece uma liderança dominante no novo cenário interativo, marcando um passo significativo em direção a experiências de prova virtual mais dinâmicas e controláveis.

Repensando a Atribuição Visual para o Raciocínio em Radiografias de Tórax em Grandes Modelos de Visão e Linguagem
Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models

May 19

ByGuangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang

Grandes Modelos de Linguagem Visual (GMLVs) mostram potencial em aplicações médicas, mas sua incapacidade de fundamentar fielmente as respostas em evidências visuais levanta sérias preocupações sobre a confiabilidade clínica. Embora métodos de atribuição visual sejam amplamente utilizados para explicar as previsões dos GMLVs, se essas explicações realmente refletem as evidências visuais subjacentes à decisão do modelo permanece em grande parte não verificado, uma vez que anotações de referência para o raciocínio interno do modelo geralmente não estão disponíveis. Abordamos essa questão para o raciocínio em radiografias de tórax (CXR) desenvolvendo uma estrutura de avaliação causal que retém apenas amostras CXR-VQA nas quais a região anotada por especialistas é verificada, por meio de edição contrafactual, como sendo causalmente responsável pela previsão do modelo. Utilizando essa estrutura em 11 métodos de atribuição, seis GMLVs de código aberto e dois modos de saída (resposta direta e raciocínio passo a passo), descobrimos que os métodos de atribuição existentes frequentemente falham em identificar as evidências utilizadas pelos GMLVs. Para lidar com essa falha, propomos o MedFocus, um método de atribuição baseado em conceitos que localiza regiões anatômicas clinicamente significativas por meio de transporte ótimo desequilibrado e mede seu efeito causal nas saídas do modelo por meio de intervenções direcionadas. O MedFocus produz atribuições espaciais, em nível de conceito e em nível de token, e supera substancialmente os métodos anteriores, dando um passo em direção a uma atribuição mais confiável para GMLVs médicos. Nossos dados e código estão disponíveis em https://github.com/gzxiong/medfocus/.

DrawMotion: Geração de Movimentos Humanos 3D por Desenho à Mão Livre
DrawMotion: Generating 3D Human Motions by Freehand Drawing

May 20

ByTao Wang, Lei Jin, Zhihua Wu, Qiaozhi He, Jiaming Chu, Yu Cheng, Junliang Xing, Jian Zhao, Shuicheng Yan, Li Wang

Geração de texto para movimento, que traduz descrições textuais em movimentos humanos, enfrenta o desafio de que os usuários frequentemente têm dificuldade em transmitir precisamente seus movimentos pretendidos apenas por meio de texto. Para abordar essa questão, este artigo apresenta o DrawMotion, uma estrutura eficiente baseada em difusão projetada para cenários de múltiplas condições. O DrawMotion gera movimentos com base tanto em uma condição textual convencional quanto em uma nova condição de desenho à mão livre, que fornecem controle semântico e espacial sobre os movimentos gerados, respectivamente. Especificamente, abordamos a tarefa de geração de movimentos de granularidade fina sob três perspectivas: 1) condição de desenho à mão livre. Para capturar com precisão os movimentos pretendidos pelos usuários sem exigir entrada textual tediosa, desenvolvemos um algoritmo para gerar automaticamente esboços de bonecos palito desenhados à mão livre em diferentes formatos de conjuntos de dados; 2) fusão de múltiplas condições. Propomos um Módulo de Múltiplas Condições (MMC) que é integrado ao processo de difusão, permitindo que o modelo explore todas as combinações possíveis de condições, ao mesmo tempo que reduz a complexidade computacional em comparação com abordagens convencionais; e 3) orientação livre de treinamento. Notavelmente, o MMC no DrawMotion garante que suas características intermediárias estejam em um espaço contínuo, permitindo que gradientes de orientação por classificador atualizem essas características, alinhando assim os movimentos gerados com as intenções dos usuários, preservando a fidelidade. Experimentos quantitativos e estudos com usuários demonstram que a abordagem de desenho à mão livre reduz o tempo do usuário em aproximadamente 46,7% ao gerar movimentos alinhados com sua imaginação. O código, demonstrações e dados relevantes estão disponíveis publicamente em https://github.com/InvertedForest/DrawMotion.

Capturando Capacidades de LLMs via Agrupamento de Consultas Calibrado por Evidências
Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

May 16

ByFangzhou Wu, Sandeep Silwal, Qiuyi Zhang

O agrupamento de consultas organiza consultas em grupos que refletem demandas latentes compartilhadas de capacidade, possibilitando uma avaliação de LLM ciente das capacidades. Métodos de agrupamento existentes, que dependem principalmente de taxonomias semânticas ou embeddings, muitas vezes não conseguem capturar tais requisitos latentes de capacidade devido a um desalinhamento entre a semântica de superfície e o desempenho real do modelo. Propomos o ECC, um algoritmo que calibra embeddings semânticos prévios utilizando comparações limitadas de modelos posteriores para preencher a lacuna entre a semântica de superfície e os requisitos latentes de capacidade. O ECC caracteriza cada grupo por meio de um perfil de capacidade parametrizado por um modelo de Bradley-Terry e utiliza pesos de mistura treináveis para acomodar consultas com demandas mistas de capacidade, aprendendo conjuntamente uma estrutura de agrupamento flexível e ciente das capacidades que suporta inferência específica a consultas das capacidades do LLM. Avaliações quantitativas e qualitativas extensas demonstram que o ECC melhora significativamente a qualidade da classificação de capacidades do LLM, superando as linhas de base baseadas em rótulos humanos e embeddings por uma média de 17,64 e 18,02 pontos percentuais, respectivamente, e se mostra eficaz em tarefas subsequentes, como o roteamento de consultas.

Perdido nas Dobras: Quando a Validação Cruzada Não é um Ensemble Profundo para Estimativa de Incerteza
Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation

May 18

ByKirscher Tristan, Bujotzek Markus, Kirchhoff Yannick, Rokuss Maximilian, Isensee Fabian, Kahl Kim-Celine, Kovacs Balint, Maier-Hein Klaus

A discordância de ensembles é amplamente utilizada como proxy para incerteza epistêmica em segmentação de imagens médicas. Na prática, muitos estudos formam ensembles por meio de validação cruzada K-fold (CV), mas os denominam como "ensembles profundos" (DE). Como os membros do CV são treinados em subconjuntos de dados diferentes, sua discordância combina variabilidade impulsionada pela semente com efeitos de exposição aos dados, o que pode alterar a forma como a incerteza deve ser interpretada. Audiamos estudos recentes sobre incerteza em segmentação e constatamos que incompatibilidades entre terminologia e implementação são comuns. Em seguida, comparamos um ensemble padrão de CV com 5 folds a um DE de 5 membros (conjunto de treinamento fixo, sementes aleatórias diferentes) sob configurações idênticas, em três conjuntos de dados de segmentação com múltiplos avaliadores, abrangendo três modalidades. Avaliamos a incerteza quanto à calibração, detecção de falhas, modelagem de ambiguidade e robustez sob mudança de distribuição. Os DEs igualam a precisão da segmentação, ao mesmo tempo que melhoram a calibração e a detecção de falhas, enquanto os ensembles de CV, nos conjuntos de dados estudados, às vezes se correlacionam mais fortemente com a variabilidade entre avaliadores. Portanto, a construção do ensemble deve ser escolhida de acordo com a pergunta de pesquisa: DEs para usos voltados à confiabilidade (por exemplo, encaminhamento seletivo/detecção de falhas) e ensembles de CV como proxy para ambiguidade. Fornecemos uma modificação leve do nnU-Net que possibilita o treinamento de DEs dentro do pipeline padrão.

DynMuon: Uma visão de modelagem espectral dinâmica do múon
DynMuon: A Dynamic Spectral Shaping View of Muon

May 16

ByFangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang

Nos últimos anos, o Muon emergiu como o método dominante para treinar grandes modelos de linguagem e, de forma mais ampla, transformers. A diferença essencial, quando comparado aos métodos padrão de gradiente descendente, é substituir a matriz de atualização usual M = UΣV^⊤ pelo seu fator polar UV^⊤. Neste trabalho, consideramos uma classe de atualizações do tipo Muon, nas quais substituímos a atualização M por UΣ^p V^⊤ para algum parâmetro p. Chamamos essa operação de "modelagem espectral" e desenvolvemos uma teoria sobre como escolher p, que depende (a) da curvatura local da função de perda, (b) do ruído proveniente de gradientes estocásticos e ruído de rótulos, e (c) do estágio de treinamento. Nossa teoria e experimentação revelam um comportamento anteriormente negligenciado: p positivo ajuda no início ao enfatizar direções de alta curvatura e acelerar a contração do sinal, enquanto p ligeiramente negativo ajuda em estágios posteriores ao realocar a força de atualização para direções de baixa curvatura que ainda contêm sinais úteis de treinamento. Com base nessa percepção, propomos o DynMuon, um método eficiente de modelagem espectral dinâmica que ajusta p de positivo para ligeiramente negativo ao longo do treinamento. Experimentos abrangentes em diferentes tamanhos de modelo, arquiteturas e configurações de treinamento mostram que o DynMuon alcança consistentemente uma perda de validação menor que o Muon, ao mesmo tempo que requer 10,6–26,5% menos etapas para atingir a mesma perda alvo.

Desacoplamento dos Benefícios da Tokenização de Subpalavras para o Treinamento de Modelos de Linguagem por meio de Simulação em Nível de Byte
Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

May 14

ByThéo Gigant, Bowen Peng, Jeffrey Quesnelle

A tokenização por subpalavras é uma parte essencial dos modelos modernos de linguagem de grande escala (LLMs), mas suas contribuições específicas para a eficiência de treinamento e o desempenho dos modelos ainda são pouco compreendidas. Neste trabalho, separamos os efeitos da tokenização por subpalavras ao isolá-los em um pipeline controlado de pré-treinamento em nível de byte. Formulamos e testamos hipóteses em diversas dimensões, incluindo rendimento de amostras, escalonamento de vocabulário e o prior linguístico das fronteiras de subpalavras. Ao simular esses efeitos em um ambiente de nível de byte, refinamos nossa compreensão sobre por que os modelos baseados em subpalavras superam os modelos de bytes puros e oferecemos insights para melhorar o pré-treinamento de futuros modelos de nível de byte e de subpalavras. Especificamente, nossos experimentos destacam o papel crítico do aumento do rendimento de treinamento e da integração das fronteiras de subpalavras como priores explícitos ou viéses indutivos.