HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

36 papers found

O Raciocínio em Cadeia de Pensamento dos LLMs é um Mirage? Uma Perspectiva de Distribuição de Dados
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Aug 2

ByChengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

236

O prompting Chain-of-Thought (CoT) tem demonstrado melhorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em diversas tarefas. Com essa abordagem, os LLMs parecem produzir etapas de raciocínio semelhantes às humanas antes de fornecer respostas (conhecido como raciocínio CoT), o que frequentemente leva à percepção de que eles se engajam em processos inferenciais deliberados. No entanto, alguns achados iniciais sugerem que o raciocínio CoT pode ser mais superficial do que parece, motivando-nos a explorar mais a fundo. Neste artigo, estudamos o raciocínio CoT através de uma lente de distribuição de dados e investigamos se o raciocínio CoT reflete um viés indutivo estruturado aprendido a partir de dados dentro da distribuição, permitindo que o modelo gere condicionalmente caminhos de raciocínio que se aproximam daqueles vistos durante o treinamento. Assim, sua eficácia é fundamentalmente limitada pelo grau de discrepância de distribuição entre os dados de treinamento e as consultas de teste. Com essa lente, dissecamos o raciocínio CoT em três dimensões: tarefa, comprimento e formato. Para investigar cada dimensão, projetamos o DataAlchemy, um ambiente isolado e controlado para treinar LLMs do zero e sondá-los sistematicamente sob várias condições de distribuição. Nossos resultados revelam que o raciocínio CoT é uma miragem frágil que desaparece quando é empurrado além das distribuições de treinamento. Este trabalho oferece uma compreensão mais profunda de por que e quando o raciocínio CoT falha, enfatizando o desafio contínuo de alcançar um raciocínio genuíno e generalizável.

VeriGUI: Conjunto de Dados Verificável de Interface Gráfica de Longa Cadeia
VeriGUI: Verifiable Long-Chain GUI Dataset

Aug 6

ByShunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao

158

Estudos recentes têm se aprofundado na construção de agentes autônomos capazes de realizar tarefas complexas em computadores baseadas em Interfaces Gráficas de Usuário (GUI), com o potencial de revolucionar a interação humano-computador. Apesar de resultados encorajadores, os esforços existentes concentram-se principalmente em interações de curto prazo e dependem de verificação apenas de resultados, limitando assim sua escalabilidade em aplicações de GUI do mundo real que exigem decomposição e execução de tarefas de longo horizonte. Neste trabalho, apresentamos o VeriGUI, um novo conjunto de dados de GUI de cadeia longa verificável, projetado para facilitar o desenvolvimento e avaliação de agentes generalistas de GUI que operam em ambientes computacionais realistas. Nosso conjunto de dados enfatiza duas dimensões críticas: (1) complexidade de cadeia longa, com tarefas decompostas em uma sequência de subtarefas interdependentes abrangendo centenas de etapas, explicitamente projetadas para permitir que qualquer subtarefa sirva como ponto de partida válido; e (2) verificabilidade em nível de subtarefa, que permite estratégias de exploração diversas dentro de cada subtarefa, garantindo que o objetivo de cada subtarefa permaneça verificável e consistente. O conjunto de dados consiste em trajetórias de tarefas de GUI em ambientes de desktop e web, anotadas por especialistas humanos. Experimentos extensivos no VeriGUI utilizando diversos agentes com diferentes modelos de base revelam lacunas significativas de desempenho no tratamento de tarefas de longo horizonte, destacando a necessidade de capacidades mais robustas de planejamento e tomada de decisão em agentes de GUI.

Agentes Eficientes: Construindo Agentes Efetivos com Redução de Custos
Efficient Agents: Building Effective Agents While Reducing Cost

Jul 24

ByNingning Wang, Xavier Hu, Pai Liu, He Zhu, Yue Hou, Heyuan Huang, Shengyu Zhang, Jian Yang, Jiaheng Liu, Ge Zhang, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou

As capacidades notáveis dos agentes impulsionados por Modelos de Linguagem de Grande Escala (LLMs) permitiram que sistemas sofisticados abordassem tarefas complexas e de múltiplas etapas, mas seus custos crescentes ameaçam a escalabilidade e a acessibilidade. Este trabalho apresenta o primeiro estudo sistemático da relação entre eficiência e eficácia em sistemas de agentes modernos, abordando a necessidade crítica de designs econômicos sem sacrificar o desempenho. Investigamos três questões principais: (1) Quanta complexidade as tarefas agentes exigem intrinsecamente? (2) Quando módulos adicionais geram retornos decrescentes? (3) Quanta eficiência pode ser obtida por meio do design de frameworks de agentes eficientes? Por meio de uma análise empírica no benchmark GAIA, avaliamos o impacto da seleção do backbone de LLM, dos designs de frameworks de agentes e das estratégias de escalonamento em tempo de teste. Utilizando a métrica de custo por passagem, quantificamos a relação entre eficiência e desempenho nessas dimensões. Nossas descobertas informam o desenvolvimento dos Agentes Eficientes, um novo framework de agentes que possui uma complexidade ideal para os requisitos das tarefas. Os Agentes Eficientes retêm 96,7% do desempenho do OWL, um dos principais frameworks de agentes de código aberto, enquanto reduzem os custos operacionais de 0,398 para 0,228, resultando em uma melhoria de 28,4% no custo por passagem. Nosso trabalho fornece insights acionáveis para projetar sistemas de agentes eficientes e de alto desempenho, avançando a acessibilidade e a sustentabilidade de soluções impulsionadas por IA.

Agente Lightning: Treine QUALQUER Agente de IA com Aprendizado por Reforço
Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Aug 5

ByXufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang

Apresentamos o Agent Lightning, um framework flexível e extensível que possibilita o treinamento de Modelos de Linguagem de Grande Escala (LLMs) baseado em Aprendizado por Reforço (RL) para qualquer agente de IA. Diferente de métodos existentes que acoplam rigidamente o treinamento de RL ao agente ou dependem de concatenação de sequências com máscaras, o Agent Lightning alcança uma completa dissociação entre a execução e o treinamento do agente, permitindo uma integração perfeita com agentes existentes desenvolvidos de diversas maneiras (por exemplo, utilizando frameworks como LangChain, OpenAI Agents SDK, AutoGen, ou construídos do zero) com quase ZERO modificações de código. Ao formular a execução do agente como um processo de decisão de Markov, definimos uma interface de dados unificada e propomos um algoritmo hierárquico de RL, o LightningRL, que contém um módulo de atribuição de crédito, permitindo-nos decompor trajetórias geradas por QUALQUER agente em transições de treinamento. Isso permite que o RL lide com lógicas de interação complexas, como cenários multiagentes e fluxos de trabalho dinâmicos. Para o design do sistema, introduzimos uma arquitetura de Desagregação Treinamento-Agente e incorporamos frameworks de observabilidade de agentes no tempo de execução do agente, fornecendo uma interface padronizada de ajuste fino de agentes. Experimentos em tarefas de texto para SQL, geração aumentada por recuperação e uso de ferramentas matemáticas demonstram melhorias estáveis e contínuas, destacando o potencial do framework para o treinamento e implantação de agentes no mundo real.

Treinamento de Agentes de Engenharia de Software de Contexto Longo e Múltiplas Interações com Aprendizado por Reforço
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Aug 5

ByAlexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

A pesquisa sobre aplicações de Aprendizado por Reforço (RL) em Modelos de Linguagem de Grande Escala (LLMs) tem se concentrado principalmente em problemas de turno único, como raciocínio matemático ou geração de código em uma única etapa. Embora esses problemas possam ser vistos como MDPs de múltiplos turnos no nível de token, essa visão corresponde a um caso degenerado de interação de múltiplos turnos em que o ambiente não fornece feedback. Isso contrasta com muitos domínios do mundo real, como engenharia de software (SWE), que exigem interações ricas de múltiplos turnos com um ambiente com estado que responde a cada ação com uma observação não trivial. Para preencher essa lacuna, demonstramos a aplicação bem-sucedida de RL a esse regime geral. Usando uma versão modificada do algoritmo Decoupled Advantage Policy Optimization (DAPO), treinamos um agente baseado no Qwen2.5-72B-Instruct para resolver tarefas reais de engenharia de software. Nossa abordagem aumenta a taxa de sucesso do agente no benchmark SWE-bench Verified de uma linha de base ajustada por rejeição de 20% para 39%, sem depender de nenhum modelo professor. No SWE-rebench, nosso agente iguala ou supera modelos de peso aberto líderes, como DeepSeek-V3-0324 e Qwen3-235B-A22B, usando um suporte idêntico, oferecendo um caminho viável para a construção de agentes autônomos mais capazes para problemas complexos do mundo real com base em modelos abertos.

SEAgent: Agente de Uso de Computador de Auto-Evolução com Aprendizado Autônomo a partir da Experiência
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Aug 6

ByZeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

A reutilização de grandes modelos de visão e linguagem (LVLMs) como agentes de uso de computador (CUAs) tem levado a avanços significativos, impulsionados principalmente por dados rotulados por humanos. No entanto, esses modelos frequentemente enfrentam dificuldades com softwares novos e especializados, especialmente em cenários que carecem de anotações humanas. Para enfrentar esse desafio, propomos o SEAgent, uma estrutura agentica de auto-evolução que permite que CUAs evoluam autonomamente por meio de interações com softwares desconhecidos. Especificamente, o SEAgent capacita agentes de uso de computador a dominar autonomamente novos ambientes de software por meio de aprendizado experiencial, onde os agentes exploram novos softwares, aprendem através de tentativa e erro iterativa e abordam progressivamente tarefas auto-geradas organizadas do simples ao complexo. Para atingir esse objetivo, projetamos um Modelo de Estado do Mundo para avaliação passo a passo de trajetórias, juntamente com um Gerador de Currículo que gera tarefas cada vez mais diversas e desafiadoras. A política do agente é atualizada por meio de aprendizado experiencial, composto por imitação adversária de ações de falha e Otimização de Política Relativa de Grupo (GRPO) nas ações bem-sucedidas. Além disso, introduzimos uma estratégia de treinamento de especialista para generalista que integra insights experienciais individuais de agentes especialistas, facilitando o desenvolvimento de um CUA generalista mais forte, capaz de evolução autônoma contínua. Esse agente unificado acaba por alcançar um desempenho que supera conjuntos de agentes especialistas individuais em seus softwares especializados. Validamos a eficácia do SEAgent em cinco novos ambientes de software dentro do OS-World. Nossa abordagem alcança uma melhoria significativa de 23,2% na taxa de sucesso, de 11,3% para 34,5%, em relação a um CUA de código aberto competitivo, o UI-TARS.

Aprimorando o Treinamento de Modelos Visão-Linguagem com Aprendizado por Reforço em Mundos Sintéticos para Sucesso no Mundo Real
Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

Aug 6

ByGeorge Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov

Agentes multimodais interativos devem converter observações visuais brutas em sequências coerentes de ações condicionadas por linguagem — uma capacidade que os modelos visão-linguagem (VLMs) atuais ainda não possuem. Esforços anteriores de aprendizado por reforço (RL), em princípio, poderiam dotar os VLMs com tais habilidades, mas raramente testaram se os comportamentos aprendidos generalizam além de seus simuladores de treinamento, e dependem de ajustes hiperparamétricos frágeis ou de ambientes com recompensas densas e baixa variabilidade de estado. Introduzimos o Vision-Language Decoupled Actor-Critic (VL-DAC), um algoritmo de RL leve e livre de hiperparâmetros. O VL-DAC aplica atualizações PPO aos tokens de ação enquanto aprende valor apenas no nível do passo do ambiente: um arranjo, até onde sabemos, não explorado anteriormente para grandes VLMs ou LLMs. Essa simples dissociação remove termos de ponderação instáveis e resulta em convergência mais rápida e confiável. Treinar um único VLM com VL-DAC em um simulador de baixo custo de cada vez (MiniWorld, Gym-Cards, ALFWorld ou WebShop) já produz políticas que generalizam amplamente: +50\% relativo no BALROG (controle agente centrado em jogos), +5\% relativo na parte mais difícil do VSI-Bench (planejamento espacial) e +2\% no VisualWebBench (navegação na web), tudo sem degradar a precisão geral de compreensão de imagens. Esses resultados fornecem a primeira evidência de que um algoritmo de RL simples pode treinar VLMs inteiramente em mundos sintéticos baratos enquanto entrega ganhos mensuráveis em benchmarks de controle agente, raciocínio espacial e navegação na web com imagens reais.

LaTCoder: Convertendo Design de Páginas da Web em Código com Layout-como-Pensamento
LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

Aug 5

ByYi Gui, Zhen Li, Zhongyi Zhang, Guohao Wang, Tianpeng Lv, Gaoyang Jiang, Yi Liu, Dongping Chen, Yao Wan, Hongyu Zhang, Wenbin Jiang, Xuanhua Shi, Hai Jin

A conversão de designs de páginas da web em código (design-to-code) desempenha um papel vital no desenvolvimento de Interface do Usuário (UI) para desenvolvedores front-end, servindo como ponte entre o design visual e a implementação funcional. Embora os recentes Modelos de Linguagem Multimodal de Grande Escala (MLLMs) tenham mostrado um potencial significativo em tarefas de design-to-code, eles frequentemente falham em preservar com precisão o layout durante a geração de código. Para isso, inspiramo-nos no raciocínio Chain-of-Thought (CoT) da cognição humana e propomos o LaTCoder, uma abordagem inovadora que melhora a preservação do layout no design de páginas da web durante a geração de código com o Layout-as-Thought (LaT). Especificamente, primeiro introduzimos um algoritmo simples, porém eficiente, para dividir o design da página da web em blocos de imagem. Em seguida, solicitamos aos MLLMs, usando uma abordagem baseada em CoT, que gerem código para cada bloco. Por fim, aplicamos duas estratégias de montagem—posicionamento absoluto e um método baseado em MLLM—seguidas por uma seleção dinâmica para determinar a saída ideal. Avaliamos a eficácia do LaTCoder usando múltiplos MLLMs de base (ou seja, DeepSeek-VL2, Gemini e GPT-4o) tanto em um benchmark público quanto em um novo e mais desafiador benchmark (CC-HARD) que apresenta layouts complexos. Os resultados experimentais em métricas automáticas demonstram melhorias significativas. Especificamente, os escores TreeBLEU aumentaram em 66,67% e o MAE diminuiu 38% ao usar o DeepSeek-VL2, em comparação com a solicitação direta. Além disso, os resultados da avaliação de preferência humana indicam que os anotadores preferem as páginas da web geradas pelo LaTCoder em mais de 60% dos casos, fornecendo evidências robustas da eficácia do nosso método.

Sotopia-RL: Projeto de Recompensa para Inteligência Social
Sotopia-RL: Reward Design for Social Intelligence

Aug 5

ByHaofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You

A inteligência social tornou-se uma capacidade crítica para grandes modelos de linguagem (LLMs), permitindo que eles se envolvam efetivamente em tarefas sociais do mundo real, como acomodação, persuasão, colaboração e negociação. O aprendizado por reforço (RL) é uma abordagem natural para treinar agentes socialmente inteligentes, pois permite que os modelos aprendam estratégias sofisticadas diretamente por meio de interações sociais. No entanto, as interações sociais têm duas características principais que impõem barreiras ao treinamento de RL: (1) observabilidade parcial, onde as declarações têm efeitos indiretos e atrasados que complicam a atribuição de crédito, e (2) multidimensionalidade, onde comportamentos como a construção de rapport ou a busca por conhecimento contribuem indiretamente para o alcance de objetivos. Essas características tornam o RL baseado em processos de decisão de Markov (MDP) com recompensas unidimensionais em nível de episódio ineficiente e instável. Para enfrentar esses desafios, propomos o Sotopia-RL, uma estrutura inovadora que refina o feedback grosseiro em nível de episódio em recompensas multidimensionais em nível de declaração. A atribuição de crédito em nível de declaração mitiga a observabilidade parcial ao atribuir resultados a declarações individuais, enquanto as recompensas multidimensionais capturam toda a riqueza das interações sociais e reduzem a manipulação de recompensas. Experimentos no Sotopia, um ambiente de aprendizado social aberto, demonstram que o Sotopia-RL alcança pontuações de conclusão de metas sociais de última geração (7,17 no Sotopia-hard e 8,31 no Sotopia-full), superando significativamente as abordagens existentes. Estudos de ablação confirmam a necessidade tanto da atribuição de crédito em nível de declaração quanto do design de recompensas multidimensionais para o treinamento de RL. Nossa implementação está publicamente disponível em: https://github.com/sotopia-lab/sotopia-rl.

CoTox: Raciocínio e Previsão de Toxicidade Molecular Baseada em Cadeia de Pensamento
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

Aug 5

ByJueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang

A toxicidade de medicamentos continua sendo um grande desafio no desenvolvimento farmacêutico. Modelos recentes de aprendizado de máquina têm aprimorado a predição de toxicidade in silico, mas sua dependência de dados anotados e a falta de interpretabilidade limitam sua aplicabilidade. Isso restringe sua capacidade de capturar toxicidades específicas de órgãos, impulsionadas por mecanismos biológicos complexos. Modelos de linguagem de grande escala (LLMs) oferecem uma alternativa promissora por meio de raciocínio passo a passo e integração de dados textuais, embora abordagens anteriores careçam de contexto biológico e justificativa transparente. Para resolver esse problema, propomos o CoTox, uma estrutura inovadora que integra LLM com raciocínio em cadeia de pensamento (CoT) para predição de múltiplas toxicidades. O CoTox combina dados de estrutura química, vias biológicas e termos de ontologia gênica (GO) para gerar predições de toxicidade interpretáveis por meio de raciocínio passo a passo. Usando o GPT-4o, demonstramos que o CoTox supera tanto modelos tradicionais de aprendizado de máquina quanto de aprendizado profundo. Além disso, examinamos seu desempenho em vários LLMs para identificar onde o CoTox é mais eficaz. Adicionalmente, descobrimos que representar estruturas químicas com nomes IUPAC, que são mais fáceis para LLMs entenderem do que SMILES, melhora a capacidade de raciocínio do modelo e aumenta o desempenho preditivo. Para demonstrar sua utilidade prática no desenvolvimento de medicamentos, simulamos o tratamento de tipos celulares relevantes com drogas e incorporamos o contexto biológico resultante na estrutura do CoTox. Essa abordagem permite que o CoTox gere predições de toxicidade alinhadas com respostas fisiológicas, conforme mostrado em um estudo de caso. Esse resultado destaca o potencial de estruturas baseadas em LLM para melhorar a interpretabilidade e apoiar a avaliação de segurança de medicamentos em estágios iniciais. O código e os prompts utilizados neste trabalho estão disponíveis em https://github.com/dmis-lab/CoTox.

Web-CogReasoner: Rumo ao Raciocínio Cognitivo Induzido por Conhecimento para Agentes Web
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

Aug 3

ByYuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai

Modelos multimodais em grande escala avançaram significativamente o desenvolvimento de agentes web, permitindo a percepção e interação com ambientes digitais de forma semelhante à cognição humana. Neste artigo, argumentamos que os agentes web devem primeiro adquirir conhecimento suficiente para se engajar efetivamente em raciocínio cognitivo. Portanto, decompomos as capacidades de um agente web em dois estágios essenciais: aprendizado de conteúdo de conhecimento e processos cognitivos. Para formalizar isso, propomos o Framework Web-CogKnowledge, categorizando o conhecimento como Fático, Conceitual e Procedimental. Neste framework, o aprendizado de conteúdo de conhecimento corresponde aos processos de Memorização e Compreensão do agente, que dependem dos dois primeiros tipos de conhecimento, representando o "o quê" do aprendizado. Por outro lado, os processos cognitivos correspondem à Exploração, fundamentada no conhecimento Procedimental, definindo o "como" do raciocínio e da ação. Para facilitar a aquisição de conhecimento, construímos o Web-CogDataset, um recurso estruturado curado a partir de 14 sites do mundo real, projetado para instilar sistematicamente o conhecimento central necessário para um agente web. Este conjunto de dados serve como base conceitual do agente — os "substantivos" sobre os quais a compreensão é construída — bem como a base para aprender a raciocinar e agir. Com base nessa fundação, operacionalizamos esses processos por meio de um novo framework de raciocínio Chain-of-Thought (CoT) orientado por conhecimento, desenvolvendo e treinando nosso agente proposto, o Web-CogReasoner. Experimentos extensivos revelam sua superioridade significativa sobre os modelos existentes, especialmente na generalização para tarefas não vistas, onde o conhecimento estruturado é decisivo. Para permitir uma avaliação rigorosa, introduzimos o Web-CogBench, um conjunto abrangente de avaliação projetado para avaliar e comparar o desempenho do agente nos domínios de conhecimento e capacidades cognitivas delineados. Nosso código e dados estão disponíveis em https://github.com/Gnonymous/Web-CogReasoner.

HPSv3: Rumo a uma Pontuação de Preferência Humana de Amplo Espectro
HPSv3: Towards Wide-Spectrum Human Preference Score

Aug 5

ByYuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li

A avaliação de modelos de geração de texto para imagem requer alinhamento com a percepção humana, porém as métricas centradas no humano existentes são limitadas por cobertura de dados insuficiente, extração de características subótima e funções de perda ineficientes. Para enfrentar esses desafios, apresentamos o Human Preference Score v3 (HPSv3). (1) Lançamos o HPDv3, o primeiro conjunto de dados de preferência humana de amplo espectro, integrando 1,08 milhões de pares texto-imagem e 1,17 milhões de comparações pareadas anotadas, provenientes de modelos generativos de última geração e de imagens reais de baixa a alta qualidade. (2) Introduzimos um modelo de preferência baseado em VLM (Vision-Language Model) treinado com uma função de perda de classificação consciente da incerteza para uma classificação refinada. Além disso, propomos o Chain-of-Human-Preference (CoHP), um método iterativo de refinamento de imagem que melhora a qualidade sem dados adicionais, utilizando o HPSv3 para selecionar a melhor imagem em cada etapa. Experimentos extensivos demonstram que o HPSv3 serve como uma métrica robusta para avaliação de imagens de amplo espectro, e o CoHP oferece uma abordagem eficiente e alinhada com o humano para melhorar a qualidade da geração de imagens. O código e o conjunto de dados estão disponíveis na Página Inicial do HPSv3.

Campo de Variação Gaussiana para Difusão de Síntese de Vídeo para 4D de Alta Fidelidade
Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

Jul 31

ByBowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo

Neste artigo, apresentamos uma nova estrutura para geração de vídeo-para-4D que cria conteúdo 3D dinâmico de alta qualidade a partir de entradas de vídeo único. A modelagem direta de difusão 4D é extremamente desafiadora devido ao custo elevado de construção de dados e à natureza de alta dimensionalidade da representação conjunta de forma 3D, aparência e movimento. Abordamos esses desafios introduzindo um VAE de Campo de Variação Direct 4DMesh-to-GS que codifica diretamente Gaussian Splats (GS) canônicos e suas variações temporais a partir de dados de animação 3D, sem ajuste por instância, e comprime animações de alta dimensionalidade em um espaço latente compacto. Com base nessa representação eficiente, treinamos um modelo de difusão de Campo de Variação Gaussiana com Transformer de Difusão temporalmente consciente, condicionado a vídeos de entrada e GS canônicos. Treinado em objetos 3D animáveis cuidadosamente selecionados do conjunto de dados Objaverse, nosso modelo demonstra qualidade de geração superior em comparação com métodos existentes. Ele também exibe uma generalização notável para entradas de vídeo do mundo real, apesar de ter sido treinado exclusivamente em dados sintéticos, abrindo caminho para a geração de conteúdo 3D animado de alta qualidade. Página do projeto: https://gvfdiffusion.github.io/.

Sculptor: Capacitando LLMs com Agência Cognitiva por meio de Gestão Ativa de Contexto
Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

Aug 6

ByMo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

Modelos de Linguagem de Grande Escala (LLMs) sofrem uma degradação significativa de desempenho ao processar contextos longos devido à interferência proativa, onde informações irrelevantes em partes anteriores do contexto prejudicam o raciocínio e a recuperação da memória. Enquanto a maioria das pesquisas se concentra em sistemas de memória externa para ampliar as capacidades dos LLMs, propomos uma abordagem complementar: capacitar os LLMs com ferramentas de Gerenciamento Ativo de Contexto (ACM) para esculpir ativamente sua memória de trabalho interna. Apresentamos o Sculptor, um framework que equipa os LLMs com três categorias de ferramentas: (1) fragmentação de contexto, (2) resumo, ocultação e restauração, e (3) busca inteligente. Nossa abordagem permite que os LLMs gerenciem proativamente sua atenção e memória de trabalho, de forma análoga à maneira como os humanos se concentram seletivamente em informações relevantes enquanto filtram distrações. A avaliação experimental em benchmarks com pouca informação—PI-LLM (interferência proativa) e NeedleBench Multi-Needle Reasoning—demonstra que o Sculptor melhora significativamente o desempenho mesmo sem treinamento específico, aproveitando as capacidades inerentes de generalização de chamada de ferramentas dos LLMs. Ao habilitar o Gerenciamento Ativo de Contexto, o Sculptor não apenas mitiga a interferência proativa, mas também fornece uma base cognitiva para um raciocínio mais confiável em diversas tarefas de contexto longo—destacando que estratégias explícitas de controle de contexto, em vez de meramente janelas de tokens maiores, são essenciais para a robustez em escala.

DreamVVT: Dominando o Try-On Virtual Realista em Vídeos no Mundo Real através de uma Estrutura de Transformador de Difusão em Estágios
DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

Aug 4

ByTongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, Chao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong

A tecnologia de experimentação virtual em vídeo (VVT) tem despertado um considerável interesse acadêmico devido às suas aplicações promissoras em publicidade de e-commerce e entretenimento. No entanto, a maioria dos métodos end-to-end existentes depende fortemente de conjuntos de dados escassos e centrados em peças de vestuário, falhando em aproveitar efetivamente os conhecimentos prévios de modelos visuais avançados e entradas em tempo de teste, o que torna desafiador preservar com precisão detalhes refinados das peças e manter a consistência temporal em cenários não restritos. Para enfrentar esses desafios, propomos o DreamVVT, uma estrutura de duas etapas cuidadosamente projetada, baseada em Transformers de Difusão (DiTs), que é intrinsecamente capaz de aproveitar diversos dados não pareados centrados em humanos para melhorar a adaptabilidade em cenários do mundo real. Para aproveitar ainda mais o conhecimento prévio de modelos pré-treinados e entradas em tempo de teste, na primeira etapa, amostramos quadros representativos do vídeo de entrada e utilizamos um modelo de experimentação multi-quadro integrado a um modelo de visão e linguagem (VLM), para sintetizar imagens de experimentação de quadros-chave de alta fidelidade e semanticamente consistentes. Essas imagens servem como orientação complementar de aparência para a subsequente geração de vídeo. Na segunda etapa, mapas de esqueleto juntamente com descrições refinadas de movimento e aparência são extraídos do conteúdo de entrada, e esses, juntamente com as imagens de experimentação de quadros-chave, são então alimentados em um modelo de geração de vídeo pré-treinado aprimorado com adaptadores LoRA. Isso garante coerência temporal de longo prazo para regiões não vistas e permite movimentos dinâmicos altamente plausíveis. Experimentos quantitativos e qualitativos extensivos demonstram que o DreamVVT supera os métodos existentes na preservação de conteúdo detalhado das peças e na estabilidade temporal em cenários do mundo real. Nossa página do projeto está disponível em https://virtu-lab.github.io/.

Posição: O Modelo Atual de Conferências de IA é Insustentável! Diagnosticando a Crise das Conferências Centralizadas de IA
Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

Aug 6

ByNuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

As conferências de Inteligência Artificial (IA) são essenciais para o avanço da pesquisa, o compartilhamento de conhecimento e o fortalecimento da comunidade acadêmica. No entanto, sua rápida expansão tornou o modelo centralizado de conferências cada vez mais insustentável. Este artigo oferece um diagnóstico baseado em dados de uma crise estrutural que ameaça os objetivos fundamentais de disseminação científica, equidade e bem-estar da comunidade. Identificamos quatro áreas-chave de tensão: (1) cientificamente, com as taxas de publicação por autor mais do que dobrando na última década, ultrapassando 4,5 artigos anualmente; (2) ambientalmente, com a pegada de carbono de uma única conferência excedendo as emissões diárias da cidade sede; (3) psicologicamente, com 71% do discurso online da comunidade refletindo sentimentos negativos e 35% mencionando preocupações com saúde mental; e (4) logisticamente, com a participação em conferências de destaque, como a NeurIPS 2024, começando a superar a capacidade dos locais. Essas pressões apontam para um sistema desalinhado com sua missão central. Em resposta, propomos o modelo de Conferência Federada pela Comunidade (CFC), que separa a revisão por pares, as apresentações e o networking em componentes globalmente coordenados, mas organizados localmente, oferecendo um caminho mais sustentável, inclusivo e resiliente para a pesquisa em IA.

LeanK: Poda de Canais de Cache K Aprendível para Decodificação Eficiente
LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

Aug 4

ByYike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu

Modelos de linguagem de grande escala (LLMs) permitem tarefas de contexto longo, mas enfrentam desafios de eficiência devido ao crescimento do cache de chave-valor (KV). Propomos o LeanK, um método baseado em aprendizado que poda canais de cache de chave (K) irrelevantes, aproveitando a esparsidade estática de canais. Com um processo de treinamento em duas etapas inovador, o LeanK aprende uma máscara estática por canal que pode satisfazer uma taxa de esparsidade específica e requisitos de alinhamento de hardware. O LeanK reduz a memória da GPU e acelera a decodificação sem sacrificar a precisão. Experimentos demonstram uma redução de até 70% no cache K e de 16%-18% no cache V. Um kernel de decodificação personalizado permite uma aceleração de 1,3x no cálculo de atenção. Também fornecemos insights sobre os canais do modelo e cabeças de atenção durante a inferência de contexto longo, analisando a distribuição de importância aprendida. Nosso código está disponível em https://aka.ms/LeanK.

OpenMed NER: Transformers de Última Geração Adaptados ao Domínio e de Código Aberto para Reconhecimento de Entidades Nomeadas Biomédicas em 12 Conjuntos de Dados Públicos
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

Aug 3

ByMaziyar Panahi

O reconhecimento de entidades nomeadas (NER) é fundamental para extrair informações estruturadas dos mais de 80% dos dados de saúde que residem em notas clínicas não estruturadas e na literatura biomédica. Apesar dos avanços recentes com modelos de linguagem de grande escala, alcançar desempenho de ponta em diversos tipos de entidades, mantendo a eficiência computacional, continua sendo um desafio significativo. Apresentamos o OpenMed NER, um conjunto de modelos de transformadores de código aberto adaptados ao domínio que combinam pré-treinamento leve adaptado ao domínio (DAPT) com a adaptação de baixo custo de parâmetros Low-Rank Adaptation (LoRA). Nossa abordagem realiza DAPT de custo eficiente em um corpus de 350 mil passagens compilado a partir de repositórios de pesquisa publicamente disponíveis e de origem ética, além de notas clínicas anonimizadas (PubMed, arXiv e MIMIC-III), utilizando arquiteturas como DeBERTa-v3, PubMedBERT e BioELECTRA. Isso é seguido por ajuste fino específico para a tarefa com LoRA, que atualiza menos de 1,5% dos parâmetros do modelo. Avaliamos nossos modelos em 12 benchmarks estabelecidos de NER biomédico, abrangendo químicos, doenças, genes e espécies. O OpenMed NER alcança novos recordes de pontuação micro-F1 em 10 desses 12 conjuntos de dados, com ganhos substanciais em diversos tipos de entidades. Nossos modelos avançam o estado da arte em benchmarks fundamentais de doenças e químicos (por exemplo, BC5CDR-Disease, +2,70 pp), enquanto entregam melhorias ainda maiores de mais de 5,3 e 9,7 pontos percentuais em corpora mais especializados de genes e linhagens celulares clínicas. Este trabalho demonstra que modelos de código aberto estrategicamente adaptados podem superar soluções de código fechado. Esse desempenho é alcançado com eficiência notável: o treinamento é concluído em menos de 12 horas em uma única GPU, com uma pegada de carbono baixa (< 1,2 kg CO2e), produzindo checkpoints de código aberto licenciados de forma permissiva, projetados para ajudar profissionais a facilitar a conformidade com regulamentações emergentes de proteção de dados e IA, como o Ato de IA da UE.

MiDashengLM: Compreensão Eficiente de Áudio com Legendas Gerais de Áudio
MiDashengLM: Efficient Audio Understanding with General Audio Captions

Aug 6

ByHeinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou

As abordagens atuais para grandes modelos de linguagem de áudio (LALMs) frequentemente dependem de fontes de dados fechadas ou modelos proprietários, limitando sua generalização e acessibilidade. Este artigo apresenta o MiDashengLM, um novo modelo aberto de linguagem de áudio projetado para uma compreensão eficiente e abrangente de áudio por meio do uso de legendas de áudio gerais, utilizando nosso novo conjunto de dados de treinamento ACAVCaps. O MiDashengLM depende exclusivamente de conjuntos de dados de pré-treinamento e ajuste fino supervisionado (SFT) publicamente disponíveis, garantindo total transparência e reprodutibilidade. Em seu núcleo, o MiDashengLM integra o Dasheng, um codificador de áudio de código aberto, especificamente projetado para processar informações auditivas diversas de forma eficaz. Diferente de trabalhos anteriores focados principalmente no alinhamento áudio-texto baseado em Reconhecimento Automático de Fala (ASR), nossa estratégia se concentra em legendas de áudio gerais, fundindo informações de fala, som e música em uma única representação textual, permitindo uma representação textual holística de cenas de áudio complexas. Por fim, o MiDashengLM oferece uma aceleração de até 4x em termos de tempo para o primeiro token (TTFT) e uma taxa de transferência até 20x maior do que modelos comparáveis. Os checkpoints estão disponíveis online em https://huggingface.co/mispeech/midashenglm-7b e https://github.com/xiaomi-research/dasheng-lm.

StepFun-Formalizer: Desbloqueando o Potencial de Autoformalização de LLMs por meio da Fusão de Conhecimento e Raciocínio
StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

Aug 6

ByYutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

A autoformalização visa traduzir declarações matemáticas em linguagem natural para uma linguagem formal. Embora os LLMs tenham acelerado o progresso nessa área, os métodos existentes ainda sofrem com baixa precisão. Identificamos duas habilidades essenciais para uma autoformalização eficaz: domínio abrangente do conhecimento do domínio da linguagem formal e capacidade de raciocínio para compreensão de problemas em linguagem natural e alinhamento informal-formal. Sem a primeira, um modelo não consegue identificar os objetos formais corretos; sem a segunda, ele tem dificuldade em interpretar contextos do mundo real e mapeá-los com precisão em expressões formais. Para abordar essas lacunas, introduzimos o ThinkingF, um pipeline de síntese de dados e treinamento que melhora ambas as habilidades. Primeiro, construímos dois conjuntos de dados: um por destilação e seleção de exemplos em larga escala ricos em conhecimento formal, e outro pela geração de trajetórias de raciocínio informal-formal guiadas por modelos projetados por especialistas. Em seguida, aplicamos SFT e RLVR com esses conjuntos de dados para fundir e refinar ainda mais as duas habilidades. Os modelos resultantes de 7B e 32B exibem tanto conhecimento formal abrangente quanto forte raciocínio informal-formal. Notavelmente, o StepFun-Formalizer-32B alcança pontuações SOTA BEq@1 de 40,5% no FormalMATH-Lite e 26,7% no ProverBench, superando todos os modelos de propósito geral e especializados anteriores.

IAUNet: U-Net com Consciência de Instância
IAUNet: Instance-Aware U-Net

Aug 3

ByYaroslav Prytula, Illia Tsiporenko, Ali Zeynalli, Dmytro Fishman

A segmentação de instâncias é crucial em imagens biomédicas para distinguir com precisão objetos individuais, como células, que frequentemente se sobrepõem e variam em tamanho. Métodos recentes baseados em consultas, onde consultas de objetos orientam a segmentação, têm demonstrado um desempenho robusto. Embora a U-Net tenha sido uma arquitetura amplamente utilizada na segmentação de imagens médicas, seu potencial em abordagens baseadas em consultas permanece em grande parte inexplorado. Neste trabalho, apresentamos a IAUNet, uma nova arquitetura U-Net baseada em consultas. O design central apresenta uma arquitetura U-Net completa, aprimorada por um novo decodificador de pixels convolucional leve, tornando o modelo mais eficiente e reduzindo o número de parâmetros. Além disso, propomos um decodificador Transformer que refina características específicas de objetos em múltiplas escalas. Por fim, introduzimos o Conjunto de Dados de Segmentação Completa de Células Revvity 2025, um recurso único com anotações detalhadas do citoplasma de células sobrepostas em imagens de campo claro, estabelecendo um novo padrão para a segmentação de instâncias biomédicas. Experimentos em múltiplos conjuntos de dados públicos e em nosso próprio mostram que a IAUNet supera a maioria dos modelos totalmente convolucionais, baseados em transformers e em consultas, bem como modelos específicos para segmentação de células, estabelecendo uma forte referência para tarefas de segmentação de instâncias de células. O código está disponível em https://github.com/SlavkoPrytula/IAUNet.

HarmonyGuard: Rumando à Segurança e Utilidade em Agentes Web por meio de Aprimoramento Adaptativo de Políticas e Otimização de Duplo Objetivo
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization

Aug 6

ByYurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang

Modelos de linguagem de grande escala permitem que agentes realizem tarefas de forma autônoma em ambientes web abertos. No entanto, à medida que as ameaças ocultas na web evoluem, os agentes web enfrentam o desafio de equilibrar o desempenho das tarefas com os riscos emergentes durante operações de longa sequência. Embora esse desafio seja crítico, as pesquisas atuais permanecem limitadas à otimização de objetivo único ou cenários de turno único, carecendo da capacidade de otimização colaborativa tanto da segurança quanto da utilidade em ambientes web. Para abordar essa lacuna, propomos o HarmonyGuard, uma estrutura colaborativa de multiagentes que aproveita o aprimoramento de políticas e a otimização de objetivos para melhorar conjuntamente a utilidade e a segurança. O HarmonyGuard apresenta uma arquitetura de multiagentes caracterizada por duas capacidades fundamentais: (1) Aprimoramento Adaptativo de Políticas: Introduzimos o Agente de Políticas dentro do HarmonyGuard, que extrai e mantém automaticamente políticas de segurança estruturadas a partir de documentos externos não estruturados, enquanto atualiza continuamente as políticas em resposta a ameaças em evolução. (2) Otimização de Duplo Objetivo: Com base nos objetivos duplos de segurança e utilidade, o Agente de Utilidade integrado ao HarmonyGuard realiza o raciocínio em tempo real markoviano para avaliar os objetivos e utiliza capacidades metacognitivas para sua otimização. Avaliações extensas em múltiplos benchmarks mostram que o HarmonyGuard melhora a conformidade com as políticas em até 38% e a conclusão de tarefas em até 20% em relação às linhas de base existentes, enquanto alcança mais de 90% de conformidade com as políticas em todas as tarefas. Nosso projeto está disponível aqui: https://github.com/YurunChen/HarmonyGuard.

DPoser-X: Modelo de Difusão como Prior Robusto para Pose Corporal Humana em 3D
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Aug 1

ByJunzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu

Apresentamos o DPoser-X, um modelo baseado em difusão para priorização de poses humanas 3D de corpo inteiro. Construir um prior versátil e robusto para poses humanas de corpo inteiro continua sendo um desafio devido à complexidade inerente das poses articuladas humanas e à escassez de conjuntos de dados de alta qualidade para poses de corpo inteiro. Para abordar essas limitações, introduzimos um modelo de Difusão como prior de pose corporal (DPoser) e o estendemos para o DPoser-X, visando a modelagem expressiva de poses humanas de corpo inteiro. Nossa abordagem unifica várias tarefas centradas em pose como problemas inversos, resolvendo-os por meio de amostragem de difusão variacional. Para melhorar o desempenho em aplicações subsequentes, introduzimos um novo método de agendamento de passos de tempo truncado, especificamente projetado para as características dos dados de pose. Também propomos um mecanismo de treinamento mascarado que combina efetivamente conjuntos de dados de corpo inteiro e específicos de partes do corpo, permitindo que nosso modelo capture interdependências entre partes do corpo enquanto evita o sobreajuste a ações específicas. Experimentos extensivos demonstram a robustez e versatilidade do DPoser-X em vários benchmarks para modelagem de poses corporais, de mãos, de rosto e de corpo inteiro. Nosso modelo supera consistentemente as alternativas state-of-the-art, estabelecendo um novo padrão para a modelagem de prior de poses humanas de corpo inteiro.

RL-PLUS: Combatendo o Colapso da Fronteira de Capacidade de LLMs em Aprendizado por Reforço com Otimização de Política Híbrida
RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

Jul 31

ByYihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

O Aprendizado por Reforço com Recompensa Verificável (RLVR) avançou significativamente as habilidades de raciocínio complexo dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, ele enfrenta dificuldades para superar os limites inerentes de capacidade do LLM base, devido à sua estratégia essencialmente on-policy combinada com o espaço de ação imenso e a recompensa esparsa dos LLMs. De forma crítica, o RLVR pode levar ao colapso da fronteira de capacidade, reduzindo o escopo de resolução de problemas do LLM. Para abordar esse problema, propomos o RL-PLUS, uma nova abordagem de otimização de política híbrida para LLMs que sinergiza a exploração interna com dados externos para alcançar capacidades de raciocínio mais robustas e superar os limites dos modelos base. O RL-PLUS integra dois componentes principais: a Amostragem de Importância Múltipla, para lidar com o desajuste distribucional dos dados externos, e a Função de Vantagem Baseada em Exploração, para guiar o modelo em direção a caminhos de raciocínio de alto valor e inexplorados. Fornecemos tanto análise teórica quanto experimentos extensivos para demonstrar a superioridade e generalizabilidade de nossa abordagem. Em comparação com os métodos RLVR existentes, o RL-PLUS alcança: 1) desempenho de ponta em seis benchmarks de raciocínio matemático; 2) desempenho superior em seis tarefas de raciocínio fora da distribuição; 3) ganhos consistentes e significativos em diversas famílias de modelos, com melhorias relativas médias de até 69,2%. Além disso, a análise das curvas Pass@k indica que o RL-PLUS resolve efetivamente o problema do colapso da fronteira de capacidade.

EVOC2RUST: Um Framework Orientado por Esqueleto para Tradução de Projetos de C para Rust
EVOC2RUST: A Skeleton-guided Framework for Project-Level C-to-Rust Translation

Aug 6

ByChaofan Wang, Tingrui Yu, Jie Wang, Dong Chen, Wenrui Zhang, Yuling Shi, Xiaodong Gu, Beijun Shen

As garantias de segurança em tempo de compilação do Rust tornam-no ideal para sistemas críticos de segurança, criando uma demanda pela tradução de bases de código C legadas para Rust. Embora diversas abordagens tenham surgido para essa tarefa, elas enfrentam trade-offs inerentes: soluções baseadas em regras têm dificuldades em atender aos requisitos de segurança e idiomaticidade do código, enquanto soluções baseadas em LLMs (Large Language Models) frequentemente falham em gerar código Rust semanticamente equivalente, devido às pesadas dependências de módulos em toda a base de código. Estudos recentes revelaram que ambas as soluções são limitadas a programas de pequena escala. Neste artigo, propomos o EvoC2Rust, um framework automatizado para converter projetos inteiros em C para equivalentes em Rust. O EvoC2Rust emprega uma estratégia de tradução guiada por esqueleto para tradução em nível de projeto. O pipeline consiste em três estágios evolutivos: 1) primeiro, ele decompõe o projeto C em módulos funcionais, utiliza um LLM aprimorado por mapeamento de características para transformar definições e macros, e gera esboços de funções verificados por tipo, que formam um esqueleto Rust compilável; 2) em seguida, ele traduz incrementalmente a função, substituindo o espaço reservado correspondente no esboço; 3) finalmente, ele corrige erros de compilação integrando LLM e análise estática. Por meio de aumento evolutivo, o EvoC2Rust combina as vantagens das soluções baseadas em regras e em LLMs. Nossa avaliação em benchmarks de código aberto e seis projetos industriais demonstra o desempenho superior do EvoC2Rust na tradução de projetos C para Rust. Em média, ele alcança melhorias de 17,24% e 14,32% em precisão sintática e semântica em relação às abordagens baseadas em LLMs, juntamente com uma taxa de segurança de código 96,79% maior do que as ferramentas baseadas em regras. No nível de módulo, o EvoC2Rust atinge taxas de compilação de 92,25% e de aprovação em testes de 89,53% em projetos industriais, mesmo para bases de código complexas e funções longas.

Light-IF: Capacitando LLMs com Raciocínio Generalizável por meio de Pré-visualização e Auto-verificação para Seguimento Complexo de Instruções
Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

Aug 5

ByChenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu

Embora os avanços nas habilidades de raciocínio dos LLMs tenham melhorado significativamente seu desempenho na resolução de problemas matemáticos, tarefas de codificação e quebra-cabeças gerais, sua eficácia em aderir com precisão a instruções permanece inconsistente, especialmente com diretrizes mais complexas. Nossa investigação identifica o raciocínio preguiçoso durante a etapa de pensamento como o principal fator que contribui para a má adesão às instruções. Para mitigar esse problema, propomos um framework abrangente projetado para permitir processos de raciocínio rigorosos que envolvem pré-visualização e auto-verificação, essenciais para satisfazer restrições de instruções rigorosas. Especificamente, primeiro geramos instruções com restrições complexas e aplicamos um processo de filtragem para obter prompts válidos, resultando em três conjuntos de dados de prompts distintos categorizados como difíceis, fáceis e de aprovação. Em seguida, empregamos amostragem por rejeição nos prompts de aprovação para criar um conjunto de dados pequeno, porém de alta qualidade, permitindo uma inicialização a frio do modelo e facilitando sua adaptação a padrões de raciocínio eficazes. Posteriormente, empregamos uma estratégia de ajuste fino supervisionado que preserva a entropia (Entropy-SFT) combinada com aprendizado por reforço adaptativo à entropia por token (TEA-RL), guiado por recompensas densas baseadas em regras. Essa abordagem incentiva o modelo a transformar seu mecanismo de raciocínio, promovendo, por fim, habilidades de raciocínio generalizáveis que abrangem pré-visualização e auto-verificação. Experimentos extensivos realizados em benchmarks de seguimento de instruções demonstram melhorias notáveis de desempenho em várias escalas de modelos. Notavelmente, nosso modelo Light-IF-32B supera tanto modelos de código aberto maiores, como o DeepSeek-R1, quanto modelos de código fechado, como o Doubao-1.6.

Modelos de Linguagem de Raciocínio para Análise de Causa Raiz em Redes Sem Fio 5G
Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

Jul 29

ByMohamed Sana, Nicola Piovesan, Antonio De Domenico, Yibin Kang, Haozhe Zhang, Merouane Debbah, Fadhel Ayed

A Análise de Causa Raiz (RCA, do inglês Root Cause Analysis) em redes móveis continua sendo uma tarefa desafiadora devido à necessidade de interpretabilidade, expertise de domínio e raciocínio causal. Neste trabalho, propomos um framework leve que aproveita Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) para RCA. Para isso, introduzimos o TeleLogs, um conjunto de dados curado de problemas de solução de problemas anotados, projetado para avaliar as capacidades de RCA. Nossa avaliação revela que os LLMs de raciocínio de código aberto existentes têm dificuldades com esses problemas, destacando a necessidade de adaptação específica ao domínio. Para abordar essa questão, propomos uma metodologia de treinamento em duas etapas que combina ajuste fino supervisionado com aprendizado por reforço para melhorar a precisão e a qualidade do raciocínio dos LLMs. A abordagem proposta ajusta uma série de modelos de RCA para integrar conhecimento de domínio e gerar explicações diagnósticas estruturadas e de múltiplos passos, melhorando tanto a interpretabilidade quanto a eficácia. Experimentos extensivos em vários tamanhos de LLMs mostram ganhos significativos de desempenho em relação aos modelos de raciocínio e não raciocínio state-of-the-art, incluindo uma forte generalização para variantes de teste randomizadas. Esses resultados demonstram o potencial dos LLMs adaptados ao domínio e aprimorados para raciocínio em RCA prática e explicável na operação e gestão de redes.

FACTORY: Um Conjunto Desafiador de Prompts Verificados por Humanos para Verificação de Fatos em Textos Longos
FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality

Jul 31

ByMingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih

A avaliação de factualidade em textos longos mede a capacidade dos modelos de gerar respostas precisas e abrangentes para prompts curtos. Os benchmarks existentes frequentemente carecem de verificação humana, o que pode levar a problemas de qualidade. Para superar essa limitação, apresentamos o FACTORY, um conjunto de prompts em larga escala verificado por humanos. Desenvolvido usando uma abordagem de modelo-em-loop e refinado por humanos, o FACTORY inclui prompts desafiadores que buscam fatos, são respondíveis e inequívocos. Realizamos avaliações humanas em 6 modelos de linguagem state-of-the-art utilizando o FACTORY e conjuntos de dados existentes. Nossos resultados mostram que o FACTORY é um benchmark desafiador: aproximadamente 40% das afirmações feitas nas respostas dos modelos SOTA não são factuais, em comparação com apenas 10% em outros conjuntos de dados. Nossa análise destaca as vantagens do FACTORY sobre benchmarks anteriores, enfatizando sua confiabilidade e a necessidade de os modelos raciocinarem sobre fatos de cauda longa.

Uma Abordagem de Grosseiro a Refinado para a Ancoragem de Ocupação 3D Multimodal
A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

Aug 2

ByZhan Shi, Song Wang, Junbo Chen, Jianke Zhu

A fundamentação visual visa identificar objetos ou regiões em uma cena com base em descrições em linguagem natural, sendo essencial para a percepção espacialmente consciente na condução autônoma. No entanto, as tarefas existentes de fundamentação visual geralmente dependem de caixas delimitadoras que frequentemente falham em capturar detalhes refinados. Nem todos os voxels dentro de uma caixa delimitadora estão ocupados, resultando em representações imprecisas de objetos. Para resolver isso, introduzimos um benchmark para fundamentação de ocupação 3D em cenas externas desafiadoras. Construído sobre o conjunto de dados nuScenes, ele integra linguagem natural com anotações de ocupação em nível de voxel, oferecendo uma percepção de objetos mais precisa em comparação com a tarefa tradicional de fundamentação. Além disso, propomos o GroundingOcc, um modelo end-to-end projetado para fundamentação de ocupação 3D por meio de aprendizado multimodal. Ele combina características visuais, textuais e de nuvem de pontos para prever a localização e informações de ocupação de objetos de forma grossa a refinada. Especificamente, o GroundingOcc compreende um codificador multimodal para extração de características, um cabeçalho de ocupação para previsões voxel a voxel e um cabeçalho de fundamentação para refinar a localização. Adicionalmente, um módulo de fundamentação 2D e um módulo de estimativa de profundidade aprimoram o entendimento geométrico, aumentando assim o desempenho do modelo. Experimentos extensivos no benchmark demonstram que nosso método supera as linhas de base existentes na fundamentação de ocupação 3D. O conjunto de dados está disponível em https://github.com/RONINGOD/GroundingOcc.

SonicMaster: Rumo a um Sistema Integrado e Controlável para Restauração e Masterização Musical
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

Aug 5

ByJan Melechovsky, Ambuj Mehrish, Dorien Herremans

Gravações musicais frequentemente apresentam problemas de qualidade de áudio, como reverberação excessiva, distorção, clipping, desequilíbrios tonais e uma imagem estéreo reduzida, especialmente quando criadas em ambientes não profissionais sem equipamentos especializados ou expertise. Esses problemas são tipicamente corrigidos usando ferramentas especializadas separadas e ajustes manuais. Neste artigo, apresentamos o SonicMaster, o primeiro modelo generativo unificado para restauração e masterização de música que aborda um amplo espectro de artefatos de áudio com controle baseado em texto. O SonicMaster é condicionado por instruções em linguagem natural para aplicar melhorias direcionadas ou pode operar em um modo automático para restauração geral. Para treinar este modelo, construímos o conjunto de dados SonicMaster, um grande conjunto de dados de faixas degradadas e de alta qualidade emparelhadas, simulando tipos comuns de degradação com dezenove funções de degradação pertencentes a cinco grupos de aprimoramento: equalização, dinâmica, reverberação, amplitude e estéreo. Nossa abordagem utiliza um paradigma de treinamento generativo de correspondência de fluxo para aprender uma transformação de áudio que mapeia entradas degradadas para suas versões limpas e masterizadas, guiadas por prompts de texto. Métricas objetivas de qualidade de áudio demonstram que o SonicMaster melhora significativamente a qualidade do som em todas as categorias de artefatos. Além disso, testes de escuta subjetivos confirmam que os ouvintes preferem as saídas aprimoradas do SonicMaster em relação ao áudio degradado original, destacando a eficácia de nossa abordagem unificada.

Sel3DCraft: Prompts Visuais Interativos para Geração de Texto para 3D Amigável ao Usuário
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

Aug 1

ByNan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li

A geração de Texto-para-3D (T23D) revolucionou a criação de conteúdo digital, mas ainda enfrenta gargalos devido a processos de prompt por tentativa e erro que produzem resultados imprevisíveis. Embora a engenharia de prompts visuais tenha avançado no domínio de texto-para-imagem, sua aplicação na geração 3D apresenta desafios únicos que exigem avaliação de consistência multi-visual e compreensão espacial. Apresentamos o Sel3DCraft, um sistema de engenharia de prompts visuais para T23D que transforma a exploração não estruturada em um processo visual guiado. Nossa abordagem introduz três inovações principais: uma estrutura de duplo ramo que combina recuperação e geração para exploração diversificada de candidatos; uma abordagem de pontuação híbrida multi-visual que utiliza MLLMs com métricas inovadoras de alto nível para avaliar modelos 3D com consistência de especialistas humanos; e um conjunto de análises visuais orientadas por prompts que permite a identificação e refinamento intuitivos de defeitos. Testes extensivos e estudos com usuários demonstram que o Sel3DCraft supera outros sistemas T23D no suporte à criatividade de designers.

DiffSemanticFusion: Fusão Semântica Raster BEV para Condução Autônoma via Difusão de Mapas HD Online
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion

Aug 3

ByZhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun

A condução autônoma requer uma compreensão precisa da cena, incluindo a geometria da via, os agentes de tráfego e suas relações semânticas. Em cenários de geração de mapas HD online, as representações baseadas em raster são bem adequadas para modelos de visão, mas carecem de precisão geométrica, enquanto as representações baseadas em grafos retêm detalhes estruturais, mas tornam-se instáveis sem mapas precisos. Para aproveitar os pontos fortes complementares de ambas, propomos o DiffSemanticFusion — um framework de fusão para previsão e planejamento de trajetórias multimodais. Nossa abordagem raciocina sobre um espaço BEV fundido com raster semântico, aprimorado por um módulo de difusão de mapas que melhora tanto a estabilidade quanto a expressividade das representações de mapas HD online. Validamos nosso framework em duas tarefas subsequentes: previsão de trajetória e condução autônoma de ponta a ponta orientada para planejamento. Experimentos em benchmarks de condução autônoma do mundo real, nuScenes e NAVSIM, demonstram um desempenho superior em relação a vários métodos state-of-the-art. Para a tarefa de previsão no nuScenes, integramos o DiffSemanticFusion com o QCNet informado pelo mapa HD online, alcançando uma melhoria de desempenho de 5,1%. Para a condução autônoma de ponta a ponta no NAVSIM, o DiffSemanticFusion alcança resultados state-of-the-art, com um ganho de desempenho de 15% em cenários NavHard. Além disso, extensos estudos de ablação e sensibilidade mostram que nosso módulo de difusão de mapas pode ser integrado de forma contínua em outras abordagens baseadas em vetores para melhorar o desempenho. Todos os artefatos estão disponíveis em https://github.com/SunZhigang7/DiffSemanticFusion.

IFDECORATOR: Envolvendo o Aprendizado por Reforço de Seguimento de Instruções com Recompensas Verificáveis
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

Aug 6

ByXu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora as capacidades de seguimento de instruções de modelos de linguagem de grande escala (LLMs), mas sofre com ineficiência de treinamento devido à avaliação inadequada da dificuldade. Além disso, o RLVR é propenso à superotimização, onde os LLMs exploram atalhos de verificação sem se alinhar à intenção real das instruções do usuário. Introduzimos o Decorador de Seguimento de Instruções (IFDecorator), uma estrutura que integra o treinamento RLVR em um pipeline robusto e eficiente em termos de amostras. Ele consiste em três componentes: (1) um ciclo de dados cooperativo-adversarial que coevolui instruções e verificações híbridas, gerando pares de instrução-verificação progressivamente mais desafiadores; (2) o IntentCheck, um módulo de desvio que reforça o alinhamento da intenção; e (3) trip wires, um mecanismo de diagnóstico que detecta a manipulação de recompensas por meio de instruções armadilha, que acionam e capturam comportamentos de exploração de atalhos. Nosso Qwen2.5-32B-Instruct-IFDecorator alcança 87,43% de precisão no IFEval, superando modelos proprietários maiores, como o GPT-4o. Além disso, demonstramos melhorias substanciais no FollowBench, mantendo as capacidades gerais. Nossos trip wires mostram reduções significativas nas taxas de manipulação de recompensas. Liberaremos modelos, código e dados para pesquisas futuras.

C3D-AD: Rumo à Detecção Contínua de Anomalias 3D via Atenção com Kernel e Assessor Aprendizável
C3D-AD: Toward Continual 3D Anomaly Detection via Kernel Attention with Learnable Advisor

Aug 2

ByHaoquan Lu, Hanzhe Liang, Jie Zhang, Chenxi Hu, Jinbao Wang, Can Gao

A Detecção de Anomalias 3D (AD) tem demonstrado grande potencial na identificação de anomalias ou defeitos em produtos industriais de alta precisão. No entanto, os métodos existentes são tipicamente treinados de forma específica para cada classe e também carecem da capacidade de aprender com classes emergentes. Neste estudo, propomos uma estrutura de aprendizado contínuo denominada Continual 3D Anomaly Detection (C3D-AD), que não apenas aprende representações generalizadas para nuvens de pontos multiclasse, mas também lida com novas classes que surgem ao longo do tempo. Especificamente, no módulo de extração de características, para extrair eficientemente características locais generalizadas de diversos tipos de produtos em diferentes tarefas, é introduzida a Camada de Atenção com Kernel e Características Aleatórias (KAL), que normaliza o espaço de características. Em seguida, para reconstruir os dados correta e continuamente, é proposto um mecanismo eficiente de Atenção com Kernel e Assessor Aprendível (KAA), que aprende as informações de novas categorias enquanto descarta informações antigas redundantes, tanto no codificador quanto no decodificador. Por fim, para manter a consistência da representação ao longo das tarefas, é proposto um módulo de Reconstrução com Perturbação de Parâmetros (RPP), projetando uma função de perda de ensaio de representação, que garante que o modelo se lembre das informações de categorias anteriores e retorne uma representação adaptativa à categoria. Experimentos extensivos em três conjuntos de dados públicos demonstram a eficácia do método proposto, alcançando um desempenho médio de 66,4%, 83,1% e 63,4% AUROC nos conjuntos Real3D-AD, Anomaly-ShapeNet e MulSen-AD, respectivamente.

A Vaca de Rembrandt - Analisando a Interpretação de Prompts Artísticos em Modelos de Texto para Imagem
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

Jul 31

ByAlfio Ferrara, Sergio Picascia, Elisabetta Rocchetti

Modelos de difusão de texto para imagem demonstraram capacidades notáveis na geração de conteúdo artístico ao aprenderem com bilhões de imagens, incluindo obras de arte populares. No entanto, a questão fundamental de como esses modelos representam internamente conceitos, como conteúdo e estilo em pinturas, permanece inexplorada. A visão computacional tradicional assume que conteúdo e estilo são ortogonais, mas os modelos de difusão não recebem orientação explícita sobre essa distinção durante o treinamento. Neste trabalho, investigamos como modelos de difusão de texto para imagem baseados em transformers codificam conceitos de conteúdo e estilo ao gerar obras de arte. Utilizamos mapas de calor de atenção cruzada para atribuir pixels em imagens geradas a tokens específicos do prompt, permitindo-nos isolar regiões da imagem influenciadas por tokens que descrevem conteúdo versus tokens que descrevem estilo. Nossas descobertas revelam que os modelos de difusão demonstram graus variados de separação entre conteúdo e estilo, dependendo do prompt artístico específico e do estilo solicitado. Em muitos casos, os tokens de conteúdo influenciam principalmente regiões relacionadas a objetos, enquanto os tokens de estilo afetam áreas de fundo e textura, sugerindo um entendimento emergente da distinção entre conteúdo e estilo. Esses insights contribuem para nossa compreensão de como modelos generativos em larga escala representam internamente conceitos artísticos complexos sem supervisão explícita. Compartilhamos o código e o conjunto de dados, juntamente com uma ferramenta exploratória para visualizar mapas de atenção em https://github.com/umilISLab/artistic-prompt-interpretation.

Governança de dados e IA: Promovendo equidade, ética e justiça em modelos de linguagem de grande escala
Data and AI governance: Promoting equity, ethics, and fairness in large language models

Aug 5

ByAlok Abhishek, Lisa Erickson, Tushar Bandopadhyay

Neste artigo, abordamos métodos para governar, avaliar e quantificar sistematicamente o viés ao longo de todo o ciclo de vida dos modelos de aprendizado de máquina, desde o desenvolvimento e validação iniciais até o monitoramento contínuo em produção e a implementação de salvaguardas. Com base em nosso trabalho fundamental sobre o Conjunto de Testes de Avaliação e Análise de Viés (BEATS) para Modelos de Linguagem de Grande Escala (LLMs), os autores compartilham lacunas prevalentes relacionadas a viés e justiça em LLMs e discutem um framework de governança de dados e IA para abordar Viés, Ética, Justiça e Factualidade dentro desses modelos. A abordagem de governança de dados e IA discutida neste artigo é adequada para aplicações práticas do mundo real, permitindo um benchmarking rigoroso de LLMs antes da implantação em produção, facilitando a avaliação contínua em tempo real e governando proativamente as respostas geradas por LLMs. Ao implementar a governança de dados e IA ao longo do ciclo de vida do desenvolvimento de IA, as organizações podem aprimorar significativamente a segurança e a responsabilidade de seus sistemas de GenAI, mitigando efetivamente os riscos de discriminação e protegendo contra possíveis danos reputacionais ou relacionados à marca. Por fim, por meio deste artigo, visamos contribuir para o avanço da criação e implantação de aplicações impulsionadas por inteligência artificial generativa socialmente responsável e alinhada eticamente.