HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

35 papers found

VCRL: Aprendizado por Reforço Baseado em Currículo de Variância para Modelos de Linguagem de Grande Escala
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

Sep 24

ByGuochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

117

O aprendizado por reforço baseado em políticas atualmente desempenha um papel importante na melhoria de LLMs (Large Language Models) em tarefas de raciocínio matemático. No entanto, os métodos existentes de aprendizado por reforço baseados em rollouts (GRPO, DAPO, GSPO, etc.) falham em considerar explicitamente a capacidade de aprendizado dos LLMs para amostras de diferentes níveis de dificuldade, o que contraria o processo cognitivo humano de tarefas de raciocínio matemático, que vai do fácil para o difícil. Intuitivamente, observamos que a variância da recompensa do grupo de rollouts no RLVR reflete parcialmente a dificuldade da amostra atual para os LLMs. Amostras que são muito fáceis ou muito difíceis têm uma variância menor, enquanto amostras com dificuldade moderada apresentam uma variância maior. Com base nisso, propomos o VCRL, um framework de aprendizado por reforço curricular que controla dinamicamente a dificuldade das amostras de treinamento com base na variância das recompensas do grupo. Experimentos em cinco benchmarks matemáticos e dois modelos revelam as vantagens do VCRL em relação às atuais abordagens de RL para LLMs.

MMR1: Aprimorando o Raciocínio Multimodal com Amostragem Consciente da Variância e Recursos Abertos
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

Sep 25

BySicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu

100

Modelos de raciocínio multimodal de grande escala têm alcançado progresso rápido, mas seu avanço é limitado por duas grandes restrições: a ausência de dados abertos, em larga escala e de alta qualidade, com cadeias longas de pensamento (CoT, do inglês "Chain-of-Thought"), e a instabilidade de algoritmos de aprendizado por reforço (RL, do inglês "Reinforcement Learning") no pós-treinamento. O Group Relative Policy Optimization (GRPO), o framework padrão para ajuste fino de RL, é propenso ao desaparecimento de gradientes quando a variância da recompensa é baixa, o que enfraquece os sinais de otimização e prejudica a convergência. Este trabalho faz três contribuições: (1) Propomos o Variance-Aware Sampling (VAS), uma estratégia de seleção de dados guiada pelo Variance Promotion Score (VPS), que combina variância de resultados e diversidade de trajetórias para promover a variância de recompensa e estabilizar a otimização de políticas. (2) Disponibilizamos recursos em larga escala, cuidadosamente curados, contendo ~1,6M de dados de CoT longos para inicialização a frio e ~15k pares de perguntas e respostas de RL, projetados para garantir qualidade, dificuldade e diversidade, juntamente com uma base de código de treinamento totalmente reproduzível de ponta a ponta. (3) Disponibilizamos publicamente uma família de modelos de raciocínio multimodal em múltiplas escalas, estabelecendo baselines padronizadas para a comunidade. Experimentos em benchmarks de raciocínio matemático demonstram a eficácia tanto dos dados curados quanto do VAS proposto. Estudos de ablação e análises abrangentes fornecem insights adicionais sobre as contribuições de cada componente. Além disso, estabelecemos teoricamente que a variância da recompensa limita inferiormente a magnitude esperada do gradiente da política, com o VAS servindo como um mecanismo prático para realizar essa garantia. Nosso código, dados e checkpoints estão disponíveis em https://github.com/LengSicong/MMR1.

SciReasoner: Estabelecendo as Bases do Raciocínio Científico entre Disciplinas
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Sep 25

ByYizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai

Apresentamos um modelo de fundação para raciocínio científico que alinha linguagem natural com representações científicas heterogêneas. O modelo é pré-treinado em um corpus de 206 bilhões de tokens, abrangendo textos científicos, sequências puras e pares de sequência-texto, e então alinhado via SFT (Supervised Fine-Tuning) em 40 milhões de instruções, utilizando bootstrapping de inicialização a frio para eliciar cadeias de pensamento de longo formato e aprendizado por reforço com modelagem de recompensa específica para tarefas, o que instila raciocínio científico deliberado. Ele suporta quatro famílias de capacidades, cobrindo até 103 tarefas em fluxos de trabalho: (i) tradução fiel entre texto e formatos científicos, (ii) extração de texto/conhecimento, (iii) previsão de propriedades, (iv) classificação de propriedades, (v) geração e design de sequências incondicionais e condicionais. Comparado com sistemas especializados, nossa abordagem amplia a cobertura de instruções, melhora a generalização entre domínios e aumenta a fidelidade. Detalhamos a curadoria de dados e o treinamento, e mostramos que o aprendizado interdisciplinar fortalece a transferência e a confiabilidade em tarefas subsequentes. O modelo, os conjuntos de dados de ajuste de instruções e o código de avaliação são disponibilizados como código aberto em https://huggingface.co/SciReason e https://github.com/open-sciencelab/SciReason.

Busca em Árvore para Aprendizado por Reforço de Agentes de LLM
Tree Search for LLM Agent Reinforcement Learning

Sep 25

ByYuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

Avanços recentes em aprendizado por reforço (RL) têm aprimorado significativamente as capacidades agentivas de grandes modelos de linguagem (LLMs). Em tarefas de agentes de longo prazo e multi-turnos, abordagens existentes guiadas apenas por recompensas de resultado frequentemente sofrem com o problema de supervisão esparsa. Para enfrentar esse desafio, propomos a Otimização de Política Relativa em Grupo Baseada em Árvore (Tree-GRPO), um método de RL para agentes agrupados baseado em busca em árvore, onde cada nó da árvore representa o passo completo de interação do agente. Ao compartilhar prefixos comuns, a amostragem de busca em árvore aumenta o número de rollouts alcançáveis dentro de um orçamento fixo de tokens ou chamadas de ferramentas. Além disso, descobrimos que a trajetória estruturada em árvore permite naturalmente a construção de sinais de supervisão passo a passo, mesmo utilizando apenas a recompensa de resultado. Com base nisso, o Tree-GRPO estima as vantagens relativas agrupadas tanto em nível intra-árvore quanto inter-árvore. Através de análise teórica, demonstramos que o objetivo da otimização de política relativa em grupo no nível intra-árvore é equivalente ao do aprendizado de preferência direta no nível de passo. Experimentos em 11 conjuntos de dados e 3 tipos de tarefas de Q&A demonstram a superioridade do RL baseado em árvore sobre o método de RL baseado em cadeia.

Seedream 4.0: Rumo à Próxima Geração de Geração de Imagens Multimodais
Seedream 4.0: Toward Next-generation Multimodal Image Generation

Sep 24

ByTeam Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu

Apresentamos o Seedream 4.0, um sistema eficiente e de alto desempenho para geração multimodal de imagens que unifica a síntese de texto para imagem (T2I), edição de imagem e composição de múltiplas imagens em um único framework. Desenvolvemos um transformer de difusão altamente eficiente com um VAE poderoso, que também pode reduzir consideravelmente o número de tokens de imagem. Isso permite o treinamento eficiente do nosso modelo e possibilita a geração rápida de imagens nativas de alta resolução (por exemplo, 1K-4K). O Seedream 4.0 foi pré-treinado em bilhões de pares texto-imagem que abrangem diversas taxonomias e conceitos centrados em conhecimento. Uma coleta abrangente de dados em centenas de cenários verticais, aliada a estratégias otimizadas, garante um treinamento estável e em larga escala, com forte generalização. Ao incorporar um modelo VLM cuidadosamente ajustado, realizamos pós-treinamento multimodal para treinar conjuntamente as tarefas de T2I e edição de imagem. Para aceleração da inferência, integramos destilação adversarial, correspondência de distribuição e quantização, além de decodificação especulativa. O sistema alcança um tempo de inferência de até 1,8 segundos para gerar uma imagem 2K (sem um LLM/VLM como modelo PE). Avaliações abrangentes revelam que o Seedream 4.0 pode alcançar resultados de ponta tanto em T2I quanto em edição multimodal de imagens. Em particular, ele demonstra capacidades multimodais excepcionais em tarefas complexas, incluindo edição precisa de imagens e raciocínio em contexto, além de permitir referência a múltiplas imagens e gerar várias imagens de saída. Isso estende os sistemas tradicionais de T2I para uma ferramenta criativa mais interativa e multidimensional, expandindo os limites da IA generativa tanto para criatividade quanto para aplicações profissionais. O Seedream 4.0 já está acessível em https://www.volcengine.com/experience/ark?launch=seedream.

Hunyuan3D-Omni: Um Framework Unificado para Geração Controlável de Ativos 3D
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

Sep 25

ByTeam Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao

Avanços recentes em modelos generativos nativos 3D têm acelerado a criação de ativos para jogos, filmes e design. No entanto, a maioria dos métodos ainda depende principalmente de condicionamento por imagens ou texto e carece de controles refinados e cross-modais, o que limita a controlabilidade e a adoção prática. Para abordar essa lacuna, apresentamos o Hunyuan3D-Omni, uma estrutura unificada para geração de ativos 3D controláveis e refinados, construída sobre o Hunyuan3D 2.1. Além de imagens, o Hunyuan3D-Omni aceita nuvens de pontos, voxels, caixas delimitadoras e priors de pose esquelética como sinais de condicionamento, permitindo controle preciso sobre geometria, topologia e pose. Em vez de cabeças separadas para cada modalidade, nosso modelo unifica todos os sinais em uma única arquitetura cross-modal. Treinamos com uma estratégia de amostragem progressiva e consciente da dificuldade, que seleciona uma modalidade de controle por exemplo e tende a amostrar sinais mais difíceis (por exemplo, pose esquelética) enquanto reduz o peso de sinais mais fáceis (por exemplo, nuvens de pontos), incentivando uma fusão multimodal robusta e um tratamento gracioso de entradas ausentes. Experimentos mostram que esses controles adicionais melhoram a precisão da geração, permitem transformações conscientes da geometria e aumentam a robustez para fluxos de trabalho de produção.

AutoIntent: AutoML para Classificação de Texto
AutoIntent: AutoML for Text Classification

Sep 25

ByIlya Alekseev, Roman Solomatin, Darina Rustamova, Denis Kuznetsov

O AutoIntent é uma ferramenta de aprendizado de máquina automatizada para tarefas de classificação de texto. Diferente das soluções existentes, o AutoIntent oferece automação de ponta a ponta com seleção de modelos de embedding, otimização de classificadores e ajuste de limiares de decisão, tudo dentro de uma interface modular semelhante ao sklearn. O framework foi projetado para suportar classificação multi-rótulo e detecção de escopo fora do domínio. O AutoIntent demonstra desempenho superior em comparação com as ferramentas de AutoML existentes em conjuntos de dados padrão de classificação de intenções e permite que os usuários equilibrem eficácia e consumo de recursos.

TrustJudge: Inconsistências do LLM-como-Juiz e Como Aliviá-las
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

Sep 25

ByYidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang

A adoção de Modelos de Linguagem de Grande Escala (LLMs) como avaliadores automatizados (LLM-as-a-judge) revelou inconsistências críticas nos frameworks de avaliação atuais. Identificamos dois tipos fundamentais de inconsistências: (1) Inconsistência de Comparação de Pontuação, onde respostas com pontuações mais baixas superam aquelas com pontuações mais altas em comparações pareadas, e (2) Inconsistência de Transitividade Pareada, manifestada através de cadeias de preferência circulares (A>B>C>A) e contradições de equivalência (A=B=C≠A). Argumentamos que esses problemas surgem da perda de informação em sistemas de avaliação discretos e de julgamentos de empate ambíguos durante a avaliação pareada. Propomos o TrustJudge, um framework probabilístico que aborda essas limitações por meio de duas inovações principais: 1) pontuação sensível à distribuição, que calcula expectativas contínuas a partir de probabilidades de avaliação discretas, preservando a entropia da informação para uma pontuação mais precisa, e 2) agregação consciente da verossimilhança, que resolve violações de transitividade usando probabilidades de preferência bidirecionais ou perplexidade. Também formalizamos as limitações teóricas dos frameworks atuais de LLM-as-a-judge e demonstramos como os componentes do TrustJudge as superam. Quando avaliado com o Llama-3.1-70B-Instruct como juiz usando nosso conjunto de dados, o TrustJudge reduz a inconsistência de Comparação de Pontuação em 8,43% (de 23,32% para 14,89%) e a inconsistência de Transitividade Pareada em 10,82% (de 15,22% para 4,40%), mantendo uma maior precisão de avaliação. Nosso trabalho fornece a primeira análise sistemática das inconsistências nos frameworks de avaliação em paradigmas de LLM-as-a-judge, oferecendo insights teóricos e soluções práticas para uma avaliação automatizada confiável. O framework demonstra melhorias consistentes em várias arquiteturas e escalas de modelos, permitindo uma avaliação de LLMs mais confiável sem a necessidade de treinamento adicional ou anotações humanas. Os códigos podem ser encontrados em https://github.com/TrustJudge/TrustJudge.

Pré-treinamento com Pensamento Aumentado
Thinking Augmented Pre-training

Sep 24

ByLiang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

Este artigo apresenta uma abordagem simples e escalável para melhorar a eficiência de dados no treinamento de grandes modelos de linguagem (LLMs) ao aumentar os dados textuais existentes com trajetórias de pensamento. O poder computacional necessário para o pré-treinamento de LLMs tem crescido a uma taxa sem precedentes, enquanto a disponibilidade de dados de alta qualidade permanece limitada. Consequentemente, maximizar a utilidade dos dados disponíveis constitui um desafio de pesquisa significativo. Um dos principais obstáculos é que certos tokens de alta qualidade são difíceis de aprender dada uma capacidade fixa do modelo, já que a lógica subjacente para um único token pode ser excepcionalmente complexa e profunda. Para resolver esse problema, propomos o Pré-Treinamento Aumentado com Pensamento (TPT), uma metodologia universal que aumenta o texto com trajetórias de pensamento geradas automaticamente. Esse aumento efetivamente expande o volume dos dados de treinamento e torna os tokens de alta qualidade mais aprendíveis por meio de raciocínio e decomposição passo a passo. Aplicamos o TPT em diversas configurações de treinamento com até 100 bilhões de tokens, abrangendo pré-treinamento com dados limitados e abundantes, bem como treinamento intermediário a partir de checkpoints de código aberto robustos. Os resultados experimentais indicam que nosso método melhora substancialmente o desempenho de LLMs em vários tamanhos e famílias de modelos. Notavelmente, o TPT aumenta a eficiência de dados no pré-treinamento de LLMs por um fator de 3. Para um modelo com 3 bilhões de parâmetros, ele melhora o desempenho pós-treinamento em mais de 10% em vários benchmarks desafiadores de raciocínio.

RL Residual para Ajuste Fino de Políticas de Clonagem de Comportamento
Residual Off-Policy RL for Finetuning Behavior Cloning Policies

Sep 23

ByLars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi

Os avanços recentes na clonagem de comportamento (BC) permitiram políticas impressionantes de controle visuomotor. No entanto, essas abordagens são limitadas pela qualidade das demonstrações humanas, pelo esforço manual necessário para a coleta de dados e pelos retornos decrescentes do aumento de dados offline. Em comparação, o aprendizado por reforço (RL) treina um agente por meio da interação autônoma com o ambiente e tem mostrado sucesso notável em vários domínios. Ainda assim, o treinamento de políticas de RL diretamente em robôs do mundo real continua desafiador devido à ineficiência de amostras, preocupações de segurança e a dificuldade de aprender a partir de recompensas esparsas para tarefas de longo horizonte, especialmente para sistemas com alto grau de liberdade (DoF). Apresentamos uma receita que combina os benefícios do BC e do RL por meio de uma estrutura de aprendizado residual. Nossa abordagem aproveita as políticas de BC como bases de caixa preta e aprende correções residuais leves por etapa por meio de RL eficiente em amostras fora da política. Demonstramos que nosso método requer apenas sinais de recompensa binária esparsa e pode efetivamente melhorar as políticas de manipulação em sistemas com alto grau de liberdade (DoF) tanto em simulação quanto no mundo real. Em particular, demonstramos, até onde sabemos, o primeiro treinamento de RL bem-sucedido no mundo real em um robô humanóide com mãos hábeis. Nossos resultados demonstram desempenho de ponta em várias tarefas baseadas em visão, apontando para um caminho prático para a implantação do RL no mundo real. Site do projeto: https://residual-offpolicy-rl.github.io

CE-GPPO: Controlando a Entropia via Otimização de Política com Recorte que Preserva Gradientes no Aprendizado por Reforço
CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

Sep 25

ByZhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se um paradigma poderoso para otimizar modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) no tratamento de tarefas complexas de raciocínio. Um desafio central nesse processo reside no gerenciamento da entropia da política, que reflete o equilíbrio entre exploração e explotação durante o treinamento. Métodos existentes, como a otimização de política proximal (PPO, do inglês Proximal Policy Optimization) e suas variantes, descartam sinais de gradiente valiosos de tokens de baixa probabilidade devido ao mecanismo de recorte. Analisamos sistematicamente a dinâmica da entropia e revelamos que esses tokens recortados desempenham um papel crítico, porém negligenciado, na regulação da evolução da entropia. Propomos o Controle de Entropia via Otimização de Política com Preservação de Gradiente (CE-GPPO, do inglês Controlling Entropy via Gradient-Preserving Policy Optimization), um algoritmo inovador que reintroduz gradientes de tokens recortados no PPO original de maneira suave e limitada. Ao controlar a magnitude dos gradientes de tokens fora do intervalo de recorte, o CE-GPPO consegue alcançar um equilíbrio entre exploração e explotação. Fornecemos justificativa teórica e evidências empíricas mostrando que o CE-GPPO mitiga efetivamente a instabilidade da entropia. Experimentos extensos em benchmarks de raciocínio matemático demonstram que o CE-GPPO supera consistentemente baselines robustas em diferentes escalas de modelos.

Recon-Act: Um Sistema de Uso de Navegador Multiagente Autoevolutivo via Reconhecimento Web, Geração de Ferramentas e Execução de Tarefas
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

Sep 25

ByKaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu

Nos últimos anos, os modelos multimodais fizeram avanços notáveis e abriram caminho para agentes inteligentes de uso em navegadores. No entanto, ao resolver tarefas em páginas da web do mundo real em trajetórias de múltiplas interações e longo prazo, os agentes atuais ainda sofrem com sequenciamento de ações desordenado e excesso de tentativa e erro durante a execução. Este artigo apresenta o Recon-Act, uma estrutura multiagente de auto-evolução baseada no paradigma comportamental de Reconhecimento-Ação. O sistema é composto por uma Equipe de Reconhecimento e uma Equipe de Ação: a primeira realiza análise comparativa e geração de ferramentas, enquanto a segunda lida com a decomposição de intenções, orquestração de ferramentas e execução. Ao contrastar as trajetórias errôneas com as bem-sucedidas, a Equipe de Reconhecimento infere correções e as abstrai em uma noção unificada de ferramentas generalizadas, expressas como dicas ou códigos baseados em regras, e as registra no arquivo de ferramentas em tempo real. A Equipe de Ação re-infere o processo, agora capacitado com essas ferramentas direcionadas, estabelecendo assim um pipeline de treinamento em loop fechado de dados-ferramentas-ação-feedback. Seguindo o roteiro de implementação de 6 níveis proposto neste trabalho, atualmente alcançamos o Nível 3 (com intervenção humana limitada no loop). Aproveitando as ferramentas generalizadas obtidas por meio do reconhecimento, o Recon-Act melhora substancialmente a adaptabilidade a sites não vistos e a capacidade de resolução em tarefas de longo prazo, alcançando desempenho de ponta no desafiador conjunto de dados VisualWebArena.

CHARM: Modelagem Auto-Regressiva de Estilos de Cabelo 3D para Anime Baseada em Pontos de Controle
CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling

Sep 25

ByYuze He, Yanning Zhou, Wang Zhao, Jingwen Ye, Yushi Bai, Kaiwen Xiao, Yong-Jin Liu, Zhongqian Sun, Wei Yang

Apresentamos o CHARM, uma nova representação paramétrica e framework generativo para modelagem de penteados de anime. Enquanto os métodos tradicionais de modelagem de cabelo focam em cabelos realistas usando representações baseadas em fios ou volumétricas, os penteados de anime exibem uma geometria altamente estilizada e estruturada em partes, o que desafia as técnicas existentes. Trabalhos anteriores frequentemente dependem de modelagem densa de malhas ou curvas spline artesanais, tornando-os ineficientes para edição e inadequados para aprendizado escalável. O CHARM introduz uma parametrização compacta e invertível baseada em pontos de controle, onde uma sequência de pontos de controle representa cada tufo de cabelo, e cada ponto é codificado com apenas cinco parâmetros geométricos. Essa representação eficiente e precisa suporta tanto o design amigável para artistas quanto a geração baseada em aprendizado. Baseado nessa representação, o CHARM introduz um framework generativo autorregressivo que gera efetivamente penteados de anime a partir de imagens de entrada ou nuvens de pontos. Ao interpretar penteados de anime como uma "linguagem de cabelo" sequencial, nosso transformer autorregressivo captura tanto a geometria local quanto a topologia global do penteado, resultando na criação de penteados de anime de alta fidelidade. Para facilitar tanto o treinamento quanto a avaliação da geração de penteados de anime, construímos o AnimeHair, um conjunto de dados em larga escala de 37 mil penteados de anime de alta qualidade com tufos de cabelo separados e dados de malha processados. Experimentos extensivos demonstram o desempenho de ponta do CHARM tanto em precisão de reconstrução quanto em qualidade de geração, oferecendo uma solução expressiva e escalável para a modelagem de penteados de anime. Página do projeto: https://hyzcluster.github.io/charm/

O FLUX Já Sabe Como Realizar Composição de Imagens Fisicamente Plausível?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Sep 25

ByShilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong

A composição de imagens visa inserir de forma perfeita um objeto especificado pelo usuário em uma nova cena, mas os modelos existentes enfrentam dificuldades com iluminação complexa (por exemplo, sombras precisas, reflexos na água) e entradas diversas e de alta resolução. Os modernos modelos de difusão de texto para imagem (por exemplo, SD3.5, FLUX) já codificam prioridades físicas e de resolução essenciais, mas carecem de uma estrutura para liberá-las sem recorrer à inversão latente, que frequentemente fixa as poses dos objetos em orientações contextualmente inadequadas, ou à cirurgia de atenção frágil. Propomos o SHINE, uma estrutura livre de treinamento para Inserção Contínua e de Alta Fidelidade com Erros Neutralizados. O SHINE introduz a perda de âncora orientada por variedade, aproveitando adaptadores de personalização pré-treinados (por exemplo, IP-Adapter) para guiar os latentes para uma representação fiel do sujeito, preservando a integridade do fundo. A orientação de supressão de degradação e a mistura adaptativa de fundo são propostas para eliminar ainda mais saídas de baixa qualidade e costuras visíveis. Para abordar a falta de benchmarks rigorosos, introduzimos o ComplexCompo, que apresenta diversas resoluções e condições desafiadoras, como iluminação baixa, iluminação intensa, sombras intrincadas e superfícies reflexivas. Experimentos no ComplexCompo e no DreamEditBench mostram desempenho de ponta em métricas padrão (por exemplo, DINOv2) e pontuações alinhadas com humanos (por exemplo, DreamSim, ImageReward, VisionReward). O código e o benchmark estarão publicamente disponíveis após a publicação.

Compreendendo o Processo de Pensamento dos Modelos de Raciocínio: Uma Perspectiva a partir da Teoria dos Episódios de Schoenfeld
Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

Sep 18

ByMing Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou

Embora os Modelos de Raciocínio de Grande Escala (LRMs) gerem extensas cadeias de pensamento, carecemos de uma estrutura teórica para compreender como esses pensamentos são estruturados. Neste artigo, introduzimos uma abordagem inovadora ao aplicar a Teoria dos Episódios de Schoenfeld, um marco clássico da cognição humana na resolução de problemas matemáticos, para analisar os traços de raciocínio dos LRMs. Anotamos milhares de frases e parágrafos de soluções geradas por modelos para problemas matemáticos, utilizando sete rótulos cognitivos (por exemplo, Planejar, Implementar, Verificar). O resultado é o primeiro benchmark publicamente disponível para a análise detalhada do raciocínio de máquinas, incluindo um grande corpus anotado e manuais de anotação detalhados. Nossa análise preliminar revela padrões distintos no raciocínio dos LRMs, como as dinâmicas de transição entre estados cognitivos. Essa estrutura oferece uma metodologia fundamentada teoricamente para interpretar a cognição dos LRMs e possibilita trabalhos futuros em sistemas de raciocínio mais controláveis e transparentes.

UserRL: Treinando Agentes Interativos Centrados no Usuário via Aprendizado por Reforço
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

Sep 24

ByCheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

O aprendizado por reforço (RL) tem mostrado potencial no treinamento de modelos agentes que vão além de benchmarks estáticos para se engajar em interações dinâmicas e multi-turnos. No entanto, o valor final desses agentes reside em sua capacidade de auxiliar os usuários, um cenário onde a diversidade e a dinâmica da interação do usuário apresentam desafios. Neste trabalho, propomos o UserRL, um framework unificado para treinar e avaliar habilidades centradas no usuário por meio de ambientes padronizados de ginásio (gym) combinados com usuários simulados. Variamos sistematicamente a atribuição de recompensas no nível de turno e o cálculo de pontuação no nível de trajetória para analisar como diferentes formulações afetam o aprendizado sob o algoritmo GRPO. Nossos experimentos com modelos Qwen3 revelam três descobertas principais: (i) o início frio com SFT é crucial para desbloquear a capacidade inicial de interação e permitir melhorias contínuas com RL; (ii) a pontuação deliberada de trajetórias resulta em interações multi-turnos mais eficientes e eficazes; e (iii) embora usuários simulados mais fortes (por exemplo, GPT-4o) facilitem o treinamento, simuladores de código aberto (por exemplo, Qwen3-32B) permanecem uma opção econômica e transferível. Juntos, esses resultados destacam que o design cuidadoso da modelagem de recompensas e a escolha da simulação de usuários são tão cruciais quanto a escala do modelo, e estabelecem o UserRL como um caminho prático para o desenvolvimento de modelos agentes robustos e centrados no usuário. Todos os códigos e dados estão públicos para pesquisas futuras.

SD3.5-Flash: Distilação Guiada por Distribuição de Fluxos Gerativos
SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

Sep 25

ByHmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani

Apresentamos o SD3.5-Flash, uma estrutura eficiente de destilação em poucos passos que traz geração de imagens de alta qualidade para dispositivos de consumo acessíveis. Nossa abordagem destila modelos de fluxo retificado computacionalmente proibitivos por meio de um objetivo reformulado de correspondência de distribuição, especificamente adaptado para geração em poucos passos. Introduzimos duas inovações principais: "compartilhamento de timesteps" para reduzir o ruído do gradiente e "ajuste fino de timesteps divididos" para melhorar o alinhamento com o prompt. Combinadas com otimizações abrangentes do pipeline, como reestruturação do codificador de texto e quantização especializada, nosso sistema permite tanto geração rápida quanto implantação eficiente em memória em diferentes configurações de hardware. Isso democratiza o acesso em toda a gama de dispositivos, desde telefones móveis até computadores desktop. Por meio de avaliação extensa, incluindo estudos de usuários em larga escala, demonstramos que o SD3.5-Flash supera consistentemente os métodos existentes de poucos passos, tornando a IA generativa avançada verdadeiramente acessível para implantação prática.

ScaleDiff: Escalonando Problemas Complexos para Raciocínio Matemático Avançado
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

Sep 25

ByQizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu

Modelos de Raciocínio de Grande Escala (LRMs) têm demonstrado capacidades impressionantes na resolução de problemas complexos, frequentemente se beneficiando do treinamento em problemas matemáticos difíceis que estimulam raciocínios intrincados. Esforços recentes exploraram a síntese automatizada de problemas matemáticos por meio da solicitação de modelos proprietários ou modelos de código aberto em grande escala a partir de dados iniciais ou conceitos matemáticos inerentes. No entanto, escalonar esses métodos continua desafiador devido ao alto custo computacional/de API, à complexidade da solicitação e ao nível limitado de dificuldade dos problemas gerados. Para superar essas limitações, propomos o ScaleDiff, um pipeline simples, porém eficaz, projetado para escalar a criação de problemas difíceis. Identificamos de forma eficiente problemas difíceis em conjuntos de dados existentes com apenas uma passagem direta usando um modelo de pensamento adaptativo, que pode perceber a dificuldade do problema e alternar automaticamente entre os modos "Pensar" e "Não Pensar". Em seguida, treinamos um gerador especializado de problemas difíceis (DiffGen-8B) nesses dados filtrados, que pode produzir novos problemas difíceis em grande escala, eliminando a necessidade de solicitações complexas por instância e seus altos custos associados de API. O ajuste fino do Qwen2.5-Math-7B-Instruct no conjunto de dados ScaleDiff-Math resulta em um aumento substancial de desempenho de 11,3% em comparação com o conjunto de dados original e alcança uma precisão média de 65,9% em AIME'24, AIME'25, HMMT-Fev'25, BRUMO'25 e MATH500, superando LRMs recentes e robustos como o OpenThinker3. Notavelmente, esse desempenho é alcançado usando o modelo econômico Qwen3-8B como professor, demonstrando que nosso pipeline pode transferir efetivamente capacidades avançadas de raciocínio sem depender de modelos professores maiores e mais caros. Além disso, observamos um claro fenômeno de escalonamento no desempenho do modelo em benchmarks difíceis à medida que a quantidade de problemas difíceis aumenta. Código: https://github.com/QizhiPei/ScaleDiff.

V-GameGym: Geração Visual de Jogos para Modelos de Linguagem de Grande Escala em Código
V-GameGym: Visual Game Generation for Code Large Language Models

Sep 24

ByWei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou

Modelos de linguagem de grande escala para código têm demonstrado capacidades notáveis em tarefas de programação, mas os benchmarks atuais focam principalmente em uma única modalidade, em vez de desenvolvimento de jogos visuais. A maioria dos benchmarks existentes relacionados a código avaliam a correção sintática e a precisão de execução, negligenciando métricas críticas específicas de jogos, como jogabilidade, estética visual e engajamento do usuário, que são essenciais para implantação no mundo real. Para abordar a lacuna entre as capacidades atuais de LLMs em resolução de problemas algorítmicos e programação competitiva versus os requisitos abrangentes do desenvolvimento prático de jogos, apresentamos o V-GameGym, um benchmark abrangente composto por 2.219 amostras de alta qualidade em 100 clusters temáticos derivados de repositórios do mundo real, adotando uma metodologia de curadoria baseada em clustering para garantir diversidade e completude estrutural. Além disso, introduzimos um framework de avaliação multimodal com um pipeline automatizado orientado por LLM para síntese visual de código usando ambientes sandbox de UI completos. Nossa análise extensiva revela que o V-GameGym efetivamente preenche a lacuna entre a precisão de geração de código e os fluxos de trabalho práticos de desenvolvimento de jogos, fornecendo métricas quantificáveis de qualidade para programação visual e geração de elementos interativos.

Por trás do RoPE: Como a Máscara Causal Codifica Informações Posicionais?
Behind RoPE: How Does Causal Mask Encode Positional Information?

Sep 25

ByJunu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi

Embora codificações posicionais explícitas, como o RoPE, sejam uma fonte primária de informação posicional em decodificadores Transformer, a máscara causal também fornece informações posicionais. Neste trabalho, demonstramos que a máscara causal pode induzir padrões dependentes de posição nos escores de atenção, mesmo sem parâmetros ou dependência causal na entrada. Nossa análise teórica indica que o padrão de atenção induzido tende a favorecer pares de consulta-chave próximos, refletindo o comportamento de codificações posicionais comuns. A análise empírica confirma que modelos treinados exibem o mesmo comportamento, com parâmetros aprendidos amplificando ainda mais esses padrões. Notavelmente, descobrimos que a interação entre a máscara causal e o RoPE distorce os padrões de escores de atenção relativa do RoPE em padrões não relativos. Observamos consistentemente esse efeito em modelos modernos de linguagem de grande escala, sugerindo a importância de considerar a máscara causal como uma fonte de informação posicional juntamente com codificações posicionais explícitas.

SceneWeaver: Síntese de Cenas 3D Tudo-em-Um com um Agente Extensível e Autorreflexivo
SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Sep 24

ByYandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

A síntese de cenas internas tornou-se cada vez mais importante com o surgimento da IA Embarcada, que requer ambientes 3D que não apenas sejam visualmente realistas, mas também fisicamente plausíveis e funcionalmente diversos. Embora abordagens recentes tenham avançado a fidelidade visual, elas frequentemente permanecem limitadas a categorias de cenas fixas, carecem de detalhes suficientes em nível de objeto e consistência física, e lutam para se alinhar com instruções complexas do usuário. Neste trabalho, apresentamos o SceneWeaver, uma estrutura agencial reflexiva que unifica diversos paradigmas de síntese de cenas por meio de refinamento iterativo baseado em ferramentas. No cerne do SceneWeaver, um planejador baseado em modelo de linguagem seleciona entre um conjunto de ferramentas extensíveis de geração de cenas, que variam desde modelos generativos baseados em dados até métodos baseados em visão e LLM, guiados por autoavaliação de plausibilidade física, realismo visual e alinhamento semântico com a entrada do usuário. Este design de raciocínio-ação-reflexão em loop fechado permite que o agente identifique inconsistências semânticas, invoque ferramentas específicas e atualize o ambiente ao longo de iterações sucessivas. Experimentos extensivos em tipos de cômodos comuns e de vocabulário aberto demonstram que o SceneWeaver não apenas supera métodos anteriores em métricas físicas, visuais e semânticas, mas também generaliza efetivamente para cenas complexas com instruções diversas, marcando um passo em direção à geração de ambientes 3D de propósito geral. Site do projeto: https://scene-weaver.github.io/.

Transformador de Geometria Visual Quantizada Fundamentada
Quantized Visual Geometry Grounded Transformer

Sep 25

ByWeilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

Modelos de reconstrução 3D baseados em aprendizado, representados pelos Visual Geometry Grounded Transformers (VGGTs), têm alcançado progressos notáveis com o uso de transformadores em larga escala. No entanto, seus custos proibitivos de computação e memória dificultam severamente a implantação no mundo real. A Quantização Pós-Treinamento (PTQ) tornou-se uma prática comum para comprimir e acelerar modelos. Contudo, observamos empiricamente que a PTQ enfrenta obstáculos únicos ao comprimir VGGTs em escala de bilhões: os tokens especiais independentes de dados induzem distribuições de ativação com cauda pesada, enquanto a natureza multivista dos dados 3D torna a seleção de amostras de calibração altamente instável. Este artigo propõe o primeiro framework de Quantização para VGGTs, denominado QuantVGGT. Isso se baseia principalmente em duas contribuições técnicas: Primeiro, introduzimos a Quantização de Granulação Fina com Suavização Dupla, que integra a rotação de Hadamard pré-global e a suavização de canal pós-local para mitigar robustamente as distribuições de cauda pesada e a variância intercanal. Segundo, projetamos a Amostragem Diversificada com Filtragem de Ruído, que filtra outliers por meio de estatísticas de camadas profundas e constrói clusters de calibração diversos e conscientes de quadro para garantir faixas de quantização estáveis. Experimentos abrangentes demonstram que o QuantVGGT alcança resultados de ponta em diferentes benchmarks e larguras de bits, superando o método de quantização genérico anterior com uma grande margem. Destacamos que nosso QuantVGGT de 4 bits pode proporcionar uma redução de memória de 3,7 vezes e uma aceleração de 2,5 vezes na inferência em hardware real, mantendo a precisão de reconstrução acima de 98% de sua contraparte de precisão total. Isso demonstra as vastas vantagens e praticidade do QuantVGGT em cenários com recursos limitados. Nosso código está disponível em https://github.com/wlfeng0509/QuantVGGT.

Quando o Julgamento se Torna Ruído: Como Falhas de Projeto em Benchmarks de Julgamento de LLMs Silenciosamente Comprometem a Validade
When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

Sep 24

ByBenjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson

Os benchmarks avaliados por LLMs (Large Language Models) estão sendo cada vez mais utilizados para avaliar comportamentos complexos de modelos, mas seu projeto introduz modos de falha ausentes nos benchmarks convencionais baseados em verdades absolutas. Argumentamos que, sem objetivos bem definidos e construções verificáveis, as classificações dos benchmarks podem produzir rankings de alta confiança que, na verdade, são em grande parte ruído. Introduzimos dois mecanismos para diagnosticar esses problemas. A adesão esquemática quantifica quanto do veredito geral de um avaliador é explicado pelo esquema de avaliação explícito, revelando variância inexplicada quando os avaliadores se desviam de sua própria rubrica. A validade psicométrica agrega sinais de consistência interna e validade discriminante para quantificar a incerteza irredutível em qualquer execução de benchmark. Aplicando essas ferramentas ao Arena-Hard Auto, encontramos incoerência esquemática severa e colapso de fatores entre avaliadores populares: por exemplo, variância inexplicada excedendo 90% para o DeepSeek-R1-32B e correlações de fatores acima de 0,93 para a maioria dos critérios. Também mostramos que a agregação no estilo ELO usada pelo Arena-Hard Auto colapsa e mascara a incerteza genuína do ranking. Nossos resultados destacam falhas de projeto que comprometem a validade e oferecem princípios acionáveis para a construção de benchmarks avaliados por LLMs com escopo melhor definido e conscientes da confiabilidade. Disponibilizamos nosso código em https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.

CompLLM: Compressão para Q&A de Contexto Longo
CompLLM: Compression for Long Context Q&A

Sep 23

ByGabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah

Modelos de Linguagem de Grande Escala (LLMs) enfrentam desafios computacionais significativos ao processar contextos longos devido à complexidade quadrática da autoatenção. Embora métodos de compressão de contexto suave, que mapeiam o texto de entrada para representações latentes menores, tenham mostrado potencial, sua adoção no mundo real é limitada. As técnicas existentes geralmente comprimem o contexto como uma única unidade, o que resulta em complexidade quadrática de compressão e na incapacidade de reutilizar cálculos em consultas com contextos sobrepostos. Neste trabalho, apresentamos o CompLLM, uma técnica de compressão suave projetada para implantação prática. Em vez de processar o contexto de forma holística, o CompLLM o divide em segmentos e comprime cada um independentemente. Essa escolha de design simples resulta em três propriedades críticas: eficiência, pois a etapa de compressão escala linearmente com o comprimento do contexto; escalabilidade, permitindo que modelos treinados em sequências curtas (por exemplo, 1k tokens) generalizem para contextos de 100k tokens; e reutilização, permitindo que segmentos comprimidos sejam armazenados em cache e reutilizados em diferentes consultas. Nossos experimentos mostram que, com uma taxa de compressão de 2x, em contextos longos, o CompLLM acelera o Tempo para o Primeiro Token (TTFT) em até 4x e reduz o tamanho do cache KV em 50%. Além disso, o CompLLM alcança desempenho comparável ao obtido com o contexto não comprimido, e até o supera em sequências muito longas, demonstrando sua eficácia e utilidade prática.

BESPOKE: Benchmark para Personalização de Modelos de Linguagem de Grande Escala Aumentados por Busca com Feedback Diagnóstico
BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

Sep 25

ByHyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee

Modelos de linguagem de grande escala (LLMs) aprimorados por busca avançaram tarefas de busca de informação ao integrar a recuperação na geração, reduzindo a carga cognitiva dos usuários em comparação com sistemas de busca tradicionais. No entanto, eles ainda são insuficientes para atender plenamente às diversas necessidades dos usuários, o que requer reconhecer como a mesma consulta pode refletir diferentes intenções entre os usuários e entregar a informação em formatos preferidos. Embora sistemas recentes como o ChatGPT e o Gemini tentem personalizar as respostas utilizando históricos dos usuários, a avaliação sistemática dessa personalização ainda é pouco explorada. Para preencher essa lacuna, propomos o BESPOKE, um benchmark realista para avaliar a personalização em LLMs aprimorados por busca. O BESPOKE foi projetado para ser realista, coletando históricos de chat e busca diretamente de humanos, e diagnóstico, associando respostas a pontuações detalhadas de preferência e feedback. O benchmark foi construído por meio de anotações humanas de longo prazo e engajamento profundo, onde anotadores contribuíram com seus próprios históricos, criaram consultas com necessidades de informação detalhadas e avaliaram respostas com pontuações e feedback diagnóstico. Utilizando o BESPOKE, realizamos análises sistemáticas que revelam requisitos-chave para uma personalização eficaz em tarefas de busca de informação, fornecendo uma base para avaliação detalhada de LLMs aprimorados por busca personalizados. Nosso código e dados estão disponíveis em https://augustinlib.github.io/BESPOKE/.

OverLayBench: Um Benchmark para Geração de Layout-para-Imagem com Sobreposições Densas
OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

Sep 23

ByBingnan Li, Chen-Yu Wang, Haiyang Xu, Xiang Zhang, Ethan Armand, Divyansh Srivastava, Xiaojun Shan, Zeyuan Chen, Jianwen Xie, Zhuowen Tu

Apesar do progresso constante na geração de imagens a partir de layouts, os métodos atuais ainda enfrentam dificuldades com layouts que contêm sobreposições significativas entre caixas delimitadoras. Identificamos dois desafios principais: (1) grandes regiões sobrepostas e (2) instâncias sobrepostas com distinção semântica mínima. Por meio de exemplos qualitativos e análises quantitativas, demonstramos como esses fatores degradam a qualidade da geração. Para avaliar sistematicamente esse problema, introduzimos o OverLayScore, uma nova métrica que quantifica a complexidade das caixas delimitadoras sobrepostas. Nossa análise revela que os benchmarks existentes são tendenciosos para casos mais simples com valores baixos de OverLayScore, limitando sua eficácia na avaliação do desempenho dos modelos em condições mais desafiadoras. Para preencher essa lacuna, apresentamos o OverLayBench, um novo benchmark que apresenta anotações de alta qualidade e uma distribuição equilibrada em diferentes níveis de OverLayScore. Como um passo inicial para melhorar o desempenho em sobreposições complexas, também propomos o CreatiLayout-AM, um modelo ajustado em um conjunto de dados de máscaras amodais cuidadosamente selecionado. Juntas, nossas contribuições estabelecem as bases para uma geração de imagens a partir de layouts mais robusta em cenários realistas e desafiadores. Link do projeto: https://mlpc-ucsd.github.io/OverLayBench.

MOSS-ChatV: Aprendizado por Reforço com Recompensa de Raciocínio Processual para Raciocínio Temporal em Vídeos
MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

Sep 25

BySicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu

O raciocínio em vídeo emergiu como uma capacidade crítica para modelos de linguagem multimodal de grande escala (MLLMs), exigindo que os modelos vão além da percepção estática em direção a uma compreensão coerente da dinâmica temporal em cenas complexas. No entanto, os MLLMs existentes frequentemente exibem inconsistência de processo, onde o raciocínio intermediário se desvia da dinâmica do vídeo, mesmo quando a resposta final está correta, comprometendo a interpretabilidade e a robustez. Para abordar essa questão, introduzimos o MOSS-ChatV, um framework de aprendizado por reforço com uma recompensa de processo baseada em Dynamic Time Warping (DTW). Essa recompensa baseada em regras alinha os traços de raciocínio com referências temporalmente fundamentadas, permitindo supervisão eficiente do processo sem modelos de recompensa auxiliares. Além disso, identificamos a previsão de estado dinâmico como uma medida-chave do raciocínio em vídeo e construímos o MOSS-Video, um benchmark com traços de raciocínio anotados, onde a divisão de treinamento é usada para ajustar o MOSS-ChatV e a divisão reservada é mantida para avaliação. O MOSS-ChatV alcança 87,2\% no MOSS-Video (teste) e melhora o desempenho em benchmarks gerais de vídeo, como MVBench e MMVU. O framework consistentemente gera ganhos em diferentes arquiteturas, incluindo Qwen2.5-VL e Phi-2, confirmando sua ampla aplicabilidade. Avaliações com GPT-4o como juiz mostram ainda que o MOSS-ChatV produz traços de raciocínio mais consistentes e estáveis.

Agente de Recomendação Interativo com Comandos Ativos do Usuário
Interactive Recommendation Agent with Active User Commands

Sep 25

ByJiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng

Os sistemas tradicionais de recomendação dependem de mecanismos de feedback passivo que limitam os usuários a escolhas simples, como "curtir" e "não curtir". No entanto, esses sinais de baixa granularidade não conseguem capturar as motivações e intenções comportamentais mais sutis dos usuários. Por sua vez, os sistemas atuais também não conseguem distinguir quais atributos específicos dos itens geram satisfação ou insatisfação do usuário, resultando em uma modelagem imprecisa de preferências. Essas limitações fundamentais criam uma lacuna persistente entre as intenções dos usuários e as interpretações do sistema, prejudicando, em última instância, a satisfação do usuário e a eficácia do sistema. Para superar essas limitações, introduzimos o Feed de Recomendação Interativa (IRF, na sigla em inglês), um paradigma pioneiro que permite comandos em linguagem natural dentro dos feeds de recomendação convencionais. Diferente dos sistemas tradicionais, que confinam os usuários a uma influência comportamental implícita e passiva, o IRF oferece controle explícito e ativo sobre as políticas de recomendação por meio de comandos linguísticos em tempo real. Para suportar esse paradigma, desenvolvemos o RecBot, uma arquitetura de agente duplo em que um Agente de Análise transforma expressões linguísticas em preferências estruturadas e um Agente de Planejamento orquestra dinamicamente cadeias de ferramentas adaptativas para ajustes instantâneos das políticas. Para viabilizar a implantação prática, empregamos a destilação de conhecimento aumentada por simulação, alcançando desempenho eficiente enquanto mantemos capacidades de raciocínio robustas. Por meio de extensos experimentos offline e de longo prazo online, o RecBot demonstra melhorias significativas tanto na satisfação do usuário quanto nos resultados de negócios.

Pensando Enquanto Escuta: Escalonamento Simples no Tempo de Teste para Classificação de Áudio
Thinking While Listening: Simple Test Time Scaling For Audio Classification

Sep 24

ByPrateek Verma, Mert Pilanci

Propomos um framework que permite que modelos neurais "pensem enquanto ouvem" sons cotidianos, melhorando assim o desempenho na classificação de áudio. Motivados pelos avanços recentes nas capacidades de raciocínio de grandes modelos de linguagem, abordamos duas questões centrais: (i) como o pensamento pode ser incorporado aos pipelines existentes de classificação de áudio para permitir o raciocínio no espaço de categorias e melhorar o desempenho, e (ii) uma nova arquitetura pode ser projetada desde o início para suportar tanto o pensamento quanto a escalabilidade em tempo de teste? Demonstramos que, em ambos os cenários, nossos modelos exibem uma precisão de classificação aprimorada. Aproveitando a escalabilidade em tempo de teste, observamos ganhos consistentes à medida que o número de traços amostrados aumenta. Além disso, avaliamos dois modelos de raciocínio de código aberto, GPT-OSS-20B e Qwen3-14B, mostrando que, embora tais modelos sejam capazes de raciocínio zero-shot, uma abordagem leve—retreinando apenas a matriz de embeddings de um modelo menor e congelado, como o GPT-2—pode superar o desempenho de modelos de raciocínio baseados em texto com bilhões de parâmetros.

A Assimetria Inesperada entre Otimização Perceptiva e Avaliação
The Unanticipated Asymmetry Between Perceptual Optimization and Assessment

Sep 25

ByJiabei Zhang, Qi Wang, Siyu Wu, Du Chen, Tianhe Wu

A otimização perceptual é impulsionada principalmente pelo objetivo de fidelidade, que impõe tanto consistência semântica quanto realismo visual geral, enquanto o objetivo adversarial fornece refinamento complementar ao aprimorar a nitidez perceptual e os detalhes de granularidade fina. Apesar de seu papel central, a correlação entre sua eficácia como objetivos de otimização e sua capacidade como métricas de avaliação de qualidade de imagem (IQA, na sigla em inglês) permanece pouco explorada. Neste trabalho, realizamos uma análise sistemática e revelamos uma assimetria inesperada entre otimização e avaliação perceptual: métricas de fidelidade que se destacam em IQA não são necessariamente eficazes para otimização perceptual, com esse desalinhamento surgindo de forma mais distinta sob treinamento adversarial. Além disso, embora discriminadores suprimam efetivamente artefatos durante a otimização, suas representações aprendidas oferecem benefícios limitados quando reutilizadas como inicializações de backbone para modelos de IQA. Além dessa assimetria, nossos achados demonstram ainda que o design do discriminador desempenha um papel decisivo na moldagem da otimização, com arquiteturas em nível de patch e convolucionais fornecendo reconstruções de detalhes mais fiéis do que alternativas convencionais ou baseadas em Transformers. Esses insights avançam a compreensão do design de funções de perda e sua conexão com a transferibilidade de IQA, abrindo caminho para abordagens mais fundamentadas em otimização perceptual.

Difusão Discreta para Modelos de Visão-Linguagem-Ação Reflexivos em Condução Autônoma
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

Sep 24

ByPengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

Soluções End-to-End (E2E) emergiram como uma abordagem predominante para sistemas de condução autônoma, com modelos Visão-Linguagem-Ação (VLA) representando um novo paradigma que aproveita o conhecimento multimodal pré-treinado de Modelos de Visão-Linguagem (VLMs) para interpretar e interagir com ambientes complexos do mundo real. No entanto, esses métodos permanecem limitados pelas restrições do aprendizado por imitação, que luta para codificar regras físicas de forma inerente durante o treinamento. As abordagens existentes frequentemente dependem de refinamentos pós-processados baseados em regras complexas, empregam aprendizado por reforço que permanece amplamente limitado a simulações ou utilizam orientação por difusão que requer cálculos de gradiente computacionalmente caros. Para enfrentar esses desafios, introduzimos o ReflectDrive, uma nova estrutura baseada em aprendizado que integra um mecanismo de reflexão para geração segura de trajetórias via difusão discreta. Primeiro, discretizamos o espaço bidimensional de condução para construir um codebook de ações, permitindo o uso de Modelos de Linguagem de Difusão pré-treinados para tarefas de planejamento por meio de ajuste fino. Central à nossa abordagem é um mecanismo de reflexão consciente da segurança que realiza autocorreção iterativa sem computação de gradiente. Nosso método começa com a geração de trajetórias condicionadas por objetivos para modelar comportamentos de condução multimodais. Com base nisso, aplicamos métodos de busca local para identificar tokens inseguros e determinar soluções viáveis, que então servem como âncoras seguras para regeneração baseada em inpainting. Avaliado no benchmark NAVSIM, o ReflectDrive demonstra vantagens significativas na geração de trajetórias críticas para segurança, oferecendo uma solução escalável e confiável para sistemas de condução autônoma.

StyleBench: Avaliando estilos de pensamento em Modelos de Linguagem de Grande Escala
StyleBench: Evaluating thinking styles in Large Language Models

Sep 25

ByJunyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

A eficácia dos Modelos de Linguagem de Grande Escala (LLMs) é fortemente influenciada pelas estratégias de raciocínio, ou estilos de pensamento, empregados em seus prompts. No entanto, a interação entre esses estilos de raciocínio, a arquitetura do modelo e o tipo de tarefa permanece pouco compreendida. Para abordar isso, introduzimos o StyleBench, um benchmark abrangente para avaliar sistematicamente estilos de raciocínio em diversas tarefas e modelos. Avaliamos cinco estilos de raciocínio representativos, incluindo Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) e Chain-of-Draft (CoD) em cinco tarefas de raciocínio, utilizando 15 modelos de código aberto de famílias principais (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi e DeepSeek) variando de 270M a 120B parâmetros. Nossa análise em larga escala revela que nenhum estilo é universalmente ótimo. Demonstramos que a eficácia da estratégia é altamente dependente tanto da escala do modelo quanto do tipo de tarefa: métodos baseados em busca (AoT, ToT) se destacam em problemas de resposta aberta, mas exigem modelos de grande escala, enquanto estilos concisos (SoT, CoD) alcançam ganhos radicais de eficiência em tarefas bem definidas. Além disso, identificamos padrões comportamentais-chave: modelos menores frequentemente falham em seguir instruções de saída e recorrem a adivinhações, enquanto a robustez do raciocínio emerge como uma função da escala. Nossas descobertas oferecem um roteiro crucial para a seleção de estratégias de raciocínio ideais com base em restrições específicas, e disponibilizamos o benchmark em código aberto em https://github.com/JamesJunyuGuo/Style_Bench.

Projetos de Confiança: Cartões de Sistemas de IA para Transparência e Governança de Ponta a Ponta
Blueprints of Trust: AI System Cards for End to End Transparency and Governance

Sep 23

ByHuzaifa Sidhpurwala, Emily Fox, Garth Mollett, Florencio Cano Gabarda, Roman Zhukov

Este artigo apresenta o Hazard-Aware System Card (HASC), um novo framework projetado para aumentar a transparência e a responsabilidade no desenvolvimento e implantação de sistemas de IA. O HASC expande os conceitos existentes de model cards e system cards ao integrar um registro abrangente e dinâmico da postura de segurança e segurança de um sistema de IA. O framework propõe um sistema padronizado de identificadores, incluindo um novo AI Safety Hazard (ASH) ID, para complementar identificadores de segurança existentes, como CVEs, permitindo uma comunicação clara e consistente de falhas corrigidas. Ao fornecer uma única fonte de verdade acessível, o HASC capacita desenvolvedores e partes interessadas a tomar decisões mais informadas sobre a segurança de sistemas de IA ao longo de seu ciclo de vida. Por fim, também comparamos nossos system cards de IA propostos com o padrão ISO/IEC 42001:2023 e discutimos como eles podem ser usados para se complementarem, proporcionando maior transparência e responsabilidade para sistemas de IA.

MI-Fuse: Fusão de Rótulos para Adaptação de Domínio Não Supervisionada com Modelo de Linguagem de Grande Escala de Áudio de Código Fechado
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

Sep 25

ByHsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee

Modelos grandes de áudio-linguagem (LALMs, do inglês Large Audio-Language Models) demonstram forte capacidade zero-shot em tarefas de fala, sugerindo potencial para reconhecimento de emoções em fala (SER, do inglês Speech Emotion Recognition). No entanto, o SER em implantações do mundo real frequentemente falha sob incompatibilidade de domínio, onde os dados de origem não estão disponíveis e LALMs poderosos são acessíveis apenas por meio de uma API. Nós questionamos: dado apenas áudio não rotulado do domínio de destino e um LALM acessível apenas por API, um modelo estudante pode ser adaptado para superar o LALM no domínio de destino? Para isso, propomos o MI-Fuse, uma estrutura de fusão de rótulos desnaturada que complementa o LALM com um classificador SER treinado no domínio de origem como um professor auxiliar. A estrutura obtém múltiplas previsões estocásticas de ambos os professores, pondera suas distribuições médias com base na incerteza calculada por informação mútua e estabiliza o treinamento com um professor de média móvel exponencial. Experimentos em três conjuntos de dados públicos de emoções e seis transferências cruzadas de domínio mostram ganhos consistentes, com o estudante superando o LALM e ultrapassando a linha de base mais forte em 3,9%. Essa abordagem fortalece sistemas de fala conscientes de emoções sem compartilhar dados de origem, permitindo uma adaptação realista.

Avaliação de Modelos de Linguagem de Grande Escala para Detecção de Antissemitismo
Evaluating Large Language Models for Detecting Antisemitism

Sep 22

ByJay Patel, Hrudayangam Mehta, Jeremy Blackburn

Detectar conteúdo de ódio é um problema desafiador e importante. Ferramentas automatizadas, como modelos de aprendizado de máquina, podem ajudar, mas exigem treinamento contínuo para se adaptar ao cenário em constante mudança das redes sociais. Neste trabalho, avaliamos a capacidade de oito LLMs de código aberto para detectar conteúdo antissemita, especificamente utilizando a definição em contexto como uma diretriz de política. Exploramos várias técnicas de prompt e projetamos um novo prompt semelhante ao CoT, chamado Guided-CoT. O Guided-CoT lida bem com a política em contexto, aumentando o desempenho em todos os modelos avaliados, independentemente da configuração de decodificação, tamanho dos modelos ou capacidade de raciocínio. Notavelmente, o Llama 3.1 70B supera o GPT-3.5 ajustado. Além disso, examinamos os erros dos LLMs e introduzimos métricas para quantificar a divergência semântica nas racionalidades geradas pelos modelos, revelando diferenças notáveis e comportamentos paradoxais entre os LLMs. Nossos experimentos destacam as diferenças observadas na utilidade, explicabilidade e confiabilidade dos LLMs.