HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

21 papers found

Seed Diffusion: Um Modelo de Linguagem de Difusão em Grande Escala com Inferência de Alta Velocidade
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Aug 4

ByYuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

130

Apresentamos o Seed Diffusion Preview, um modelo de linguagem em larga escala baseado em difusão de estados discretos, oferecendo uma velocidade de inferência notavelmente rápida. Graças à geração não sequencial e paralela, os modelos de difusão discreta proporcionam uma aceleração significativa para mitigar a latência inerente da decodificação token por token, conforme demonstrado recentemente (por exemplo, Mercury Coder, Gemini Diffusion). O Seed Diffusion Preview alcança uma velocidade de inferência de 2.146 tokens/s em GPUs H20, mantendo um desempenho competitivo em uma variedade de benchmarks padrão de avaliação de código, significativamente mais rápido que os modelos contemporâneos Mercury e Gemini Diffusion, estabelecendo um novo estado da arte na fronteira de Pareto velocidade-qualidade para modelos de código.

Skywork UniPic: Modelagem Autoregressiva Unificada para Compreensão e Geração Visual
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Aug 5

ByPeiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou

Apresentamos o Skywork UniPic, um modelo autorregressivo de 1,5 bilhão de parâmetros que unifica a compreensão de imagens, a geração de texto para imagem e a edição de imagens em uma única arquitetura — eliminando a necessidade de adaptadores específicos para tarefas ou conectores intermodulares — e demonstramos que sistemas multimodais compactos podem alcançar desempenho de ponta em hardware de consumo. O Skywork UniPic alcança uma pontuação GenEval de 0,86, superando a maioria dos modelos unificados existentes; estabelece um novo recorde no DPG-Bench para geração complexa de 85,5; atinge 5,83 no GEditBench-EN e 3,49 no ImgEdit-Bench para edição de imagens; e gera imagens de 1024 x 1024 com menos de 15 GB de memória GPU (por exemplo, RTX 4090). (1) uma estratégia de codificação desacoplada que utiliza um codificador autorregressivo mascarado para síntese e um codificador SigLIP2 para compreensão, todos alimentando um decodificador autorregressivo compartilhado; (2) um cronograma de treinamento progressivo e consciente da resolução, escalando de 256 x 256 para 1024 x 1024, enquanto descongela parâmetros dinamicamente para equilibrar capacidade e estabilidade; e (3) conjuntos de dados meticulosamente curados, em escala de 100 milhões, aumentados com modelos de recompensa específicos para tarefas, a fim de refinar os objetivos de geração e edição. Ao demonstrar que a integração multimodal de alta fidelidade não precisa incorrer em demandas proibitivas de recursos, o Skywork UniPic estabelece um paradigma prático para IA multimodal de alta fidelidade e implantável. O código e os pesos estão publicamente disponíveis em https://huggingface.co/Skywork/Skywork-UniPic-1.5B.

LongVie: Geração Controlável de Vídeos Ultra-Longos com Orientação Multimodal
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Aug 5

ByJianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

A geração controlada de vídeos ultra-longos é uma tarefa fundamental, porém desafiadora. Embora os métodos existentes sejam eficazes para clipes curtos, eles enfrentam dificuldades ao escalonar devido a problemas como inconsistência temporal e degradação visual. Neste artigo, inicialmente investigamos e identificamos três fatores-chave: inicialização separada de ruído, normalização independente de sinais de controle e as limitações da orientação de modalidade única. Para abordar esses problemas, propomos o LongVie, uma estrutura autoregressiva de ponta a ponta para a geração controlada de vídeos longos. O LongVie introduz dois designs principais para garantir a consistência temporal: 1) uma estratégia unificada de inicialização de ruído que mantém a geração consistente entre os clipes, e 2) normalização global de sinais de controle que impõe alinhamento no espaço de controle ao longo de todo o vídeo. Para mitigar a degradação visual, o LongVie emprega 3) uma estrutura de controle multimodal que integra tanto sinais de controle densos (por exemplo, mapas de profundidade) quanto esparsos (por exemplo, pontos-chave), complementada por 4) uma estratégia de treinamento consciente da degradação que equilibra adaptativamente as contribuições das modalidades ao longo do tempo para preservar a qualidade visual. Também introduzimos o LongVGenBench, um benchmark abrangente composto por 100 vídeos de alta resolução que abrangem diversos ambientes reais e sintéticos, cada um com duração superior a um minuto. Experimentos extensivos mostram que o LongVie alcança desempenho de ponta em controlabilidade de longo alcance, consistência e qualidade.

CompassVerifier: Um Verificador Unificado e Robusto para Avaliação de LLMs e Recompensa de Resultados
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

Aug 5

ByShudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

A verificação de respostas é crucial não apenas para avaliar modelos de linguagem de grande escala (LLMs) ao comparar suas saídas não estruturadas com respostas padrão, mas também serve como modelo de recompensa para orientar a otimização de LLMs. A maioria dos frameworks de avaliação depende de correspondência regularizada ou emprega LLMs gerais para verificação de respostas, o que exige uma extensa e repetitiva personalização de regras de expressões regulares ou prompts de avaliação. Duas limitações fundamentais persistem nas metodologias atuais: 1) a ausência de benchmarks abrangentes que avaliam sistematicamente as capacidades de verificação em diferentes LLMs; e 2) o estágio inicial de desenvolvimento de verificadores, onde as abordagens existentes carecem tanto de robustez para lidar com casos complexos de borda quanto de generalização entre diferentes domínios. Neste trabalho, desenvolvemos o CompassVerifier, um modelo verificador leve, preciso e robusto para avaliação e recompensa de resultados. Ele demonstra competência em múltiplos domínios, abrangendo matemática, conhecimento e diversas tarefas de raciocínio, com a capacidade de processar vários tipos de respostas, incluindo múltiplos subproblemas, fórmulas e sequências de respostas, enquanto identifica efetivamente respostas anormais/inválidas. Introduzimos o benchmark VerifierBench, composto por saídas de modelos coletadas de múltiplas fontes de dados, aprimoradas por meio de análise manual de padrões de metaerros para melhorar o CompassVerifier. Antecipamos que o CompassVerifier e o VerifierBench facilitarão a verificação de respostas, protocolos de avaliação e pesquisas em aprendizado por reforço. O código e o conjunto de dados estão disponíveis em https://github.com/open-compass/CompassVerifier.

Aprendizado por Reforço Integrado a Ferramentas para Busca Profunda em Repositórios
Tool-integrated Reinforcement Learning for Repo Deep Search

Aug 5

ByZexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

A localização de problemas, o processo de identificar locais no código que precisam de modificação para resolver problemas de software, é uma tarefa crítica, porém desafiadora, no desenvolvimento de software. A lacuna semântica entre descrições de problemas em linguagem natural e o código defeituoso exige raciocínio complexo e multi-etapas através das dependências do código. Agentes baseados em LLMs (Large Language Models) existentes tentam abordar isso integrando ferramentas de recuperação de repositórios. No entanto, isso transforma a localização de problemas em uma tarefa exigente que chamamos de Busca Profunda em Repositório (Repo Deep Search), que requer que o LLM utilize efetivamente várias ferramentas de recuperação de repositórios ao longo de um processo de raciocínio e navegação em múltiplas etapas. Para enfrentar esse desafio, apresentamos o ToolTrain, uma estrutura de treinamento em duas etapas que integra ferramentas, combinando ajuste fino supervisionado com rejeição de amostras e aprendizado por reforço com integração de ferramentas, para aprimorar a capacidade dos LLMs de usar ferramentas de recuperação para localização de problemas. Resultados experimentais mostram que modelos treinados com ToolTrain alcançam desempenho de ponta, com nosso modelo de 32B superando até mesmo o Claude-3.7 na localização em nível de função. Os resultados também mostram que a melhoria no desempenho de localização se traduz em um melhor desempenho na resolução de problemas de ponta a ponta. Isso demonstra ainda que o treinamento para localização de problemas é uma estratégia viável e eficaz para melhorar o desenvolvimento automatizado de software.

LiveMCPBench: Os Agentes Podem Navegar por um Oceano de Ferramentas MCP?
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

Aug 3

ByGuozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

Com o rápido desenvolvimento do Protocolo de Contexto de Modelo (MCP), o número de servidores MCP ultrapassou 10.000. No entanto, os benchmarks existentes para MCP estão limitados a configurações de servidor único com apenas algumas ferramentas, dificultando a avaliação eficaz das capacidades dos agentes em cenários reais e em larga escala. Para superar essa limitação, apresentamos o LiveMCPBench, o primeiro benchmark abrangente composto por 95 tarefas do mundo real baseadas no ecossistema MCP, projetado para avaliar agentes de LLM em escala em diversos servidores. Para apoiar um pipeline de avaliação escalável e reproduzível em ambientes MCP de larga escala, organizamos o LiveMCPTool, uma coleção diversificada e prontamente implantável de 70 servidores MCP e 527 ferramentas. Além disso, introduzimos o LiveMCPEval, um framework LLM-as-a-Judge que permite avaliação automatizada e adaptativa em ambientes de tarefas dinâmicos e variáveis no tempo, alcançando 81% de concordância com revisores humanos. Por fim, propomos o MCP Copilot Agent, um agente de múltiplos passos que direciona ferramentas para planejamento dinâmico e executa ferramentas para interação com APIs em todo o conjunto LiveMCPTool. Nossa avaliação abrange 10 modelos líderes, com o modelo de melhor desempenho (Claude-Sonnet-4) atingindo uma taxa de sucesso de 78,95%. No entanto, observamos uma grande variação de desempenho entre os modelos, e vários modelos amplamente utilizados têm desempenho fraco nos ambientes complexos e ricos em ferramentas do LiveMCPBench. No geral, o LiveMCPBench oferece o primeiro framework unificado para benchmarking de agentes LLM em ambientes MCP realistas, ricos em ferramentas e dinâmicos, estabelecendo uma base sólida para pesquisas escaláveis e reproduzíveis sobre capacidades de agentes. Nosso código e dados estarão publicamente disponíveis em https://icip-cas.github.io/LiveMCPBench.

Mudança de Representação: Unificando Compressão de Tokens com FlashAttention
Representation Shift: Unifying Token Compression with FlashAttention

Aug 1

ByJoonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

Os Transformers têm demonstrado sucesso notável em visão, linguagem e vídeo. No entanto, o aumento da complexidade das tarefas levou a modelos maiores e mais tokens, elevando o custo quadrático da autoatenção e a sobrecarga de acesso à memória da GPU. Para reduzir o custo computacional da autoatenção, trabalhos anteriores propuseram técnicas de compressão de tokens que descartam tokens redundantes ou menos informativos. Enquanto isso, kernels de atenção fundidos, como o FlashAttention, foram desenvolvidos para aliviar a sobrecarga de memória, evitando a construção de mapas de atenção e seu I/O associado à HBM. Isso, no entanto, torna-o incompatível com a maioria dos métodos de compressão de tokens sem treinamento, que dependem de mapas de atenção para determinar a importância dos tokens. Aqui, propomos o Representation Shift, uma métrica sem treinamento e independente de modelo que mede o grau de mudança na representação de cada token. Isso integra perfeitamente a compressão de tokens com o FlashAttention, sem mapas de atenção ou retreinamento. Nosso método ainda se generaliza além dos Transformers para CNNs e modelos de espaço de estados. Experimentos extensivos mostram que o Representation Shift permite uma compressão eficaz de tokens compatível com o FlashAttention, resultando em acelerações significativas de até 5,5% e 4,4% em recuperação de vídeo-texto e QA de vídeo, respectivamente. O código está disponível em https://github.com/mlvlab/Representation-Shift.

CRINN: Aprendizado por Reforço Contrastivo para Busca de Vizinhos Mais Próximos Aproximados
CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

Aug 4

ByXiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Algoritmos de busca por vizinhos mais próximos aproximados (ANNS) tornaram-se cada vez mais críticos para aplicações recentes de IA, particularmente em geração aumentada por recuperação (RAG) e aplicações de LLM baseadas em agentes. Neste artigo, apresentamos o CRINN, um novo paradigma para algoritmos ANNS. O CRINN trata a otimização de ANNS como um problema de aprendizado por reforço, onde a velocidade de execução serve como sinal de recompensa. Essa abordagem permite a geração automática de implementações de ANNS progressivamente mais rápidas, mantendo restrições de precisão. Nossa avaliação experimental demonstra a eficácia do CRINN em seis conjuntos de dados de referência amplamente utilizados para NNS. Quando comparado com algoritmos ANNS de código aberto de última geração, o CRINN alcança o melhor desempenho em três deles (GIST-960-Euclidiano, MNIST-784-Euclidiano e GloVe-25-angular), e empatou em primeiro lugar em dois deles (SIFT-128-Euclidiano e GloVe-25-angular). As implicações do sucesso do CRINN vão muito além da otimização de ANNS: ele valida que LLMs aumentados com aprendizado por reforço podem funcionar como uma ferramenta eficaz para automatizar otimizações algorítmicas sofisticadas que exigem conhecimento especializado e refinamento manual intensivo. O código pode ser encontrado em https://github.com/deepreinforce-ai/CRINN.

A Promessa do Aprendizado por Reforço para Edição Autoregressiva de Imagens
The Promise of RL for Autoregressive Image Editing

Aug 1

BySaba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal

Exploramos três estratégias para melhorar o desempenho em uma ampla gama de tarefas de edição de imagens: ajuste fino supervisionado (SFT), aprendizado por reforço (RL) e raciocínio em cadeia de pensamento (CoT). Para estudar todos esses componentes em um framework consistente, adotamos um modelo multimodal autorregressivo que processa tokens textuais e visuais de maneira unificada. Descobrimos que o RL combinado com um verificador LLM multimodal de grande escala é a estratégia mais eficaz. Como resultado, lançamos o EARL: Editing with Autoregression and RL, um modelo robusto de edição de imagens baseado em RL que se destaca em uma variedade de edições em comparação com baselines fortes, apesar de utilizar muito menos dados de treinamento. Assim, o EARL avança a fronteira dos modelos multimodais autorregressivos na edição de imagens. Disponibilizamos nosso código, dados de treinamento e modelos treinados em https://github.com/mair-lab/EARL.

Goedel-Prover-V2: Escalonando a Prova de Teoremas Formais com Síntese de Dados Escalonada e Autocorreção
Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

Aug 5

ByYong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

Apresentamos o Goedel-Prover-V2, uma série de modelos de linguagem de código aberto que estabelecem um novo estado da arte na prova automática de teoremas. Construído com base no pipeline padrão de iteração de especialistas e aprendizado por reforço, nossa abordagem incorpora três inovações principais: (1) Síntese de dados escalonada: Geramos tarefas sintéticas de dificuldade crescente para treinar o modelo a dominar teoremas cada vez mais complexos; (2) Autocorreção guiada por verificador: Permitimos que o modelo revise iterativamente suas provas, aproveitando o feedback do compilador Lean; (3) Média de modelos: Combinamos checkpoints de modelos para mitigar a diminuição na diversidade das saídas do modelo em estágios posteriores do treinamento. Nosso modelo pequeno, Goedel-Prover-V2-8B, alcança 84,6% de pass@32 no MiniF2F e supera o DeepSeek-Prover-V2-671B na mesma métrica, apesar de ser 80 vezes menor. Nosso modelo principal, Goedel-Prover-V2-32B, atinge 88,1% no MiniF2F em pass@32 no modo padrão e 90,4% no modo de autocorreção, superando o SOTA anterior por uma grande margem. Além disso, nosso modelo principal resolve 86 problemas no PutnamBench em pass@184, garantindo o primeiro lugar entre os modelos de código aberto no leaderboard, superando o recorde do DeepSeek-Prover-V2-671B de resolver 47 problemas em pass@1024, com um tamanho de modelo e orçamento computacional significativamente menores. No momento de seu lançamento (julho-agosto de 2025), o Goedel-Prover-V2 alcança o melhor desempenho geral entre todos os provadores de teoremas de código aberto. Ele também está entre os modelos de melhor desempenho—incluindo sistemas de código fechado com desempenho publicamente relatado—sob um orçamento computacional restrito no momento do teste. Nossos modelos, código e dados são disponibilizados em https://github.com/Goedel-LM/Goedel-Prover-V2.

Conjunto de Dados de Conversação Interativa Multi-humana
Multi-human Interactive Talking Dataset

Aug 5

ByZeyu Zhu, Weijia Wu, Mike Zheng Shou

Estudos existentes sobre a geração de vídeos de pessoas falando têm se concentrado predominantemente em monólogos de uma única pessoa ou em animações faciais isoladas, limitando sua aplicabilidade a interações realistas entre múltiplos indivíduos. Para preencher essa lacuna, apresentamos o MIT, um conjunto de dados em grande escala especificamente projetado para a geração de vídeos de múltiplas pessoas falando. Para isso, desenvolvemos um pipeline automático que coleta e anota vídeos de conversas com múltiplas pessoas. O conjunto de dados resultante compreende 12 horas de filmagens em alta resolução, cada uma apresentando de dois a quatro falantes, com anotações detalhadas de poses corporais e interações de fala. Ele captura a dinâmica natural de conversas em cenários com múltiplos falantes, oferecendo um recurso rico para o estudo de comportamentos visuais interativos. Para demonstrar o potencial do MIT, propomos ainda o CovOG, um modelo de base para essa nova tarefa. Ele integra um Codificador de Pose para Múltiplos Humanos (MPE) para lidar com números variáveis de falantes, agregando embeddings de pose individuais, e um Driver de Áudio Interativo (IAD) para modular a dinâmica da cabeça com base em características de áudio específicas de cada falante. Juntos, esses componentes demonstram a viabilidade e os desafios de gerar vídeos realistas de múltiplas pessoas falando, estabelecendo o MIT como um benchmark valioso para pesquisas futuras. O código está disponível em: https://github.com/showlab/Multi-human-Talking-Video-Dataset.

LAMIC: Composição Multi-Imagem Consciente do Layout via Escalabilidade do Transformador de Difusão Multimodal
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Aug 1

ByYuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang

Na síntese controlada de imagens, gerar imagens coerentes e consistentes a partir de múltiplas referências com consciência de layout espacial continua sendo um desafio em aberto. Apresentamos o LAMIC, um framework de Composição Multi-Imagem Consciente de Layout que, pela primeira vez, estende modelos de difusão de referência única para cenários de múltiplas referências de forma livre de treinamento. Construído sobre o modelo MMDiT, o LAMIC introduz dois mecanismos de atenção plug-and-play: 1) Atenção de Isolamento de Grupo (GIA) para melhorar o desembaraço de entidades; e 2) Atenção Modulada por Região (RMA) para permitir a geração consciente de layout. Para avaliar de forma abrangente as capacidades do modelo, introduzimos ainda três métricas: 1) Razão de Inclusão (IN-R) e Razão de Preenchimento (FI-R) para avaliar o controle de layout; e 2) Similaridade de Fundo (BG-S) para medir a consistência do fundo. Experimentos extensivos mostram que o LAMIC alcança desempenho de ponta na maioria das métricas principais: ele consistentemente supera as linhas de base de múltiplas referências existentes em ID-S, BG-S, IN-R e pontuações AVG em todas as configurações, e alcança o melhor DPG em tarefas de composição complexas. Esses resultados demonstram as habilidades superiores do LAMIC em manutenção de identidade, preservação de fundo, controle de layout e seguimento de prompt, tudo alcançado sem qualquer treinamento ou ajuste fino, mostrando uma forte capacidade de generalização zero-shot. Ao herdar os pontos fortes dos modelos avançados de referência única e permitir uma extensão perfeita para cenários de múltiplas imagens, o LAMIC estabelece um novo paradigma livre de treinamento para composição controlada de múltiplas imagens. À medida que os modelos de base continuam a evoluir, espera-se que o desempenho do LAMIC escale de acordo. Nossa implementação está disponível em: https://github.com/Suchenl/LAMIC.

ChartCap: Mitigando Alucinações na Geração de Legendas para Gráficos Densos
ChartCap: Mitigating Hallucination of Dense Chart Captioning

Aug 5

ByJunyoung Lim, Jaewoo Ahn, Gunhee Kim

Gerar legendas precisas, informativas e livres de alucinações para gráficos continua sendo um desafio para modelos de linguagem visual, principalmente devido à falta de conjuntos de dados em grande escala e de alta qualidade de gráficos do mundo real. No entanto, os conjuntos de dados existentes de gráficos reais sofrem com a inclusão de informações irrelevantes que não podem ser inferidas a partir do gráfico e pela falha em capturar adequadamente os elementos estruturais e os principais insights. Portanto, apresentamos o ChartCap, um conjunto de dados em grande escala composto por 565 mil imagens de gráficos reais, emparelhadas com legendas densas específicas para cada tipo, que excluem informações irrelevantes e destacam tanto os elementos estruturais quanto os principais insights em detalhes. Para construir o ChartCap, projetamos um pipeline de quatro estágios que gera legendas utilizando apenas os dados discerníveis do gráfico e empregamos uma verificação humana baseada em consistência cíclica, o que acelera o controle de qualidade sem sacrificar a precisão. Além disso, propomos uma nova métrica, o Visual Consistency Score (Pontuação de Consistência Visual), que avalia a qualidade da legenda medindo a similaridade entre o gráfico regenerado a partir de uma legenda e o gráfico original, independentemente de legendas de referência. Experimentos extensivos confirmam que modelos ajustados no ChartCap geram consistentemente legendas mais precisas e informativas, com alucinações reduzidas, superando tanto modelos de código aberto quanto proprietários, e até mesmo legendas anotadas por humanos.

HyCodePolicy: Controladores Híbridos de Linguagem para Monitoramento Multimodal e Tomada de Decisão em Agentes Corporificados
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

Aug 4

ByYibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Avanços recentes em modelos de linguagem multimodal de grande escala (MLLMs) têm possibilitado um embasamento perceptivo mais rico para a geração de políticas de código em agentes corporificados. No entanto, a maioria dos sistemas existentes carece de mecanismos eficazes para monitorar adaptativamente a execução de políticas e reparar códigos durante a conclusão de tarefas. Neste trabalho, apresentamos o HyCodePolicy, uma estrutura de controle híbrida baseada em linguagem que integra sistematicamente a síntese de código, o embasamento geométrico, o monitoramento perceptivo e o reparo iterativo em um ciclo de programação em malha fechada para agentes corporificados. Tecnicamente, dada uma instrução em linguagem natural, nosso sistema primeiro a decompõe em subobjetivos e gera um programa executável inicial embasado em primitivas geométricas centradas em objetos. O programa é então executado em simulação, enquanto um modelo de visão e linguagem (VLM) observa pontos de verificação selecionados para detectar e localizar falhas de execução e inferir suas causas. Ao fundir traços de execução estruturados que capturam eventos em nível de programa com feedback perceptivo baseado em VLM, o HyCodePolicy infere as causas das falhas e repara os programas. Esse mecanismo híbrido de duplo feedback permite a síntese de programas autocorretivos com supervisão humana mínima. Nossos resultados demonstram que o HyCodePolicy melhora significativamente a robustez e a eficiência amostral das políticas de manipulação robótica, oferecendo uma estratégia escalável para integrar o raciocínio multimodal em pipelines de tomada de decisão autônoma.

UniEgoMotion: Um Modelo Unificado para Reconstrução, Previsão e Geração de Movimento Egocêntrico
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

Aug 2

ByChaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli

A geração e previsão de movimento humano egocêntrico com contexto de cena é crucial para aprimorar experiências de AR/VR, melhorar a interação humano-robô, avançar tecnologias assistivas e permitir soluções de saúde adaptativas, ao prever e simular com precisão o movimento a partir de uma perspectiva em primeira pessoa. No entanto, os métodos existentes focam principalmente na síntese de movimento em terceira pessoa com contextos de cena 3D estruturados, limitando sua eficácia em cenários egocêntricos do mundo real, onde o campo de visão limitado, oclusões frequentes e câmeras dinâmicas dificultam a percepção da cena. Para preencher essa lacuna, introduzimos Geração de Movimento Egocêntrico e Previsão de Movimento Egocêntrico, duas novas tarefas que utilizam imagens em primeira pessoa para síntese de movimento consciente da cena sem depender de cenas 3D explícitas. Propomos o UniEgoMotion, um modelo unificado de difusão de movimento condicional com uma nova representação de movimento centrada na cabeça, projetada para dispositivos egocêntricos. O design simples, porém eficaz do UniEgoMotion, suporta reconstrução, previsão e geração de movimento egocêntrico a partir de entradas visuais em primeira pessoa em um framework unificado. Diferente de trabalhos anteriores que ignoram a semântica da cena, nosso modelo extrai efetivamente o contexto da cena baseado em imagens para inferir movimento 3D plausível. Para facilitar o treinamento, introduzimos o EE4D-Motion, um conjunto de dados em larga escala derivado do EgoExo4D, aumentado com anotações pseudo-ground-truth de movimento 3D. O UniEgoMotion alcança desempenho de ponta em reconstrução de movimento egocêntrico e é o primeiro a gerar movimento a partir de uma única imagem egocêntrica. Avaliações extensivas demonstram a eficácia do nosso framework unificado, estabelecendo um novo padrão para modelagem de movimento egocêntrico e abrindo novas possibilidades para aplicações egocêntricas.

O Que Seu Agente de IA Está Comprando? Avaliação, Implicações e Questões Emergentes para o Comércio Eletrônico Agente
What Is Your AI Agent Buying? Evaluation, Implications and Emerging Questions for Agentic E-Commerce

Aug 4

ByAmine Allouah, Omar Besbes, Josué D Figueroa, Yash Kanoria, Akshit Kumar

Os mercados online serão transformados por agentes de IA autônomos que agem em nome dos consumidores. Em vez de humanos navegando e clicando, agentes de modelos de visão e linguagem (VLM) podem analisar páginas da web, avaliar produtos e realizar transações. Isso levanta uma questão fundamental: o que os agentes de IA compram e por quê? Desenvolvemos o ACES, um ambiente de sandbox que combina um agente VLM independente de plataforma com um mercado simulado totalmente programável para estudar essa questão. Primeiro, realizamos verificações básicas de racionalidade no contexto de tarefas simples e, em seguida, ao randomizar posições de produtos, preços, avaliações, comentários, tags patrocinadas e endossos da plataforma, obtemos estimativas causais de como os VLMs de ponta realmente fazem compras. Os modelos mostram efeitos de posição fortes, mas heterogêneos: todos favorecem a linha superior, mas diferentes modelos preferem colunas diferentes, minando a suposição de um ranking "top" universal. Eles penalizam tags patrocinadas e recompensam endossos. As sensibilidades a preço, avaliações e comentários são direcionalmente semelhantes às humanas, mas variam acentuadamente em magnitude entre os modelos. Motivados por cenários em que vendedores usam agentes de IA para otimizar listagens de produtos, mostramos que um agente do lado do vendedor que faz pequenos ajustes nas descrições dos produtos, visando as preferências dos compradores de IA, pode gerar ganhos substanciais de participação de mercado se as compras mediadas por IA dominarem. Também descobrimos que as escolhas modais de produtos podem variar entre os modelos e, em alguns casos, a demanda pode se concentrar em alguns produtos selecionados, levantando questões de concorrência. Juntos, nossos resultados iluminam como os agentes de IA podem se comportar em ambientes de e-commerce e trazem à tona questões concretas de estratégia de vendedores, design de plataforma e regulamentação em um ecossistema mediado por IA.

Estimativa de Probabilidade Bidirecional com Modelos de Linguagem de Grande Escala Multimodais para Recuperação de Texto-Vídeo
Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

Jul 31

ByDohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim

O Text-Video Retrieval tem como objetivo encontrar o candidato de texto (ou vídeo) mais relevante dado uma consulta de vídeo (ou texto) em grandes bancos de dados online. Trabalhos recentes utilizam modelos de linguagem multimodal de grande escala (MLLMs) para melhorar a recuperação, especialmente para pares de consulta-candidato longos ou complexos. No entanto, observamos que a aplicação ingênua de MLLMs, ou seja, a recuperação baseada na probabilidade do candidato, introduz um viés de prioridade do candidato, favorecendo candidatos com prioridades inerentemente mais altas em detrimento daqueles mais relevantes para a consulta. Para isso, propomos um novo framework de recuperação, a Estimativa de Probabilidade Bidirecional com MLLM (BLiM), que aproveita tanto as probabilidades da consulta quanto do candidato, treinando o modelo para gerar texto a partir de um vídeo dado, bem como características de vídeo a partir de um texto dado. Além disso, introduzimos a Normalização de Prioridade do Candidato (CPN), um módulo simples, porém eficaz, de calibração de pontuação sem necessidade de treinamento, projetado para mitigar o viés de prioridade do candidato na probabilidade do candidato. Em quatro benchmarks de Text-Video Retrieval, nosso BLiM equipado com CPN supera os modelos state-of-the-art anteriores em 6,4 R@1 em média, aliviando efetivamente o viés de prioridade do candidato e enfatizando a relevância consulta-candidato. Nossa análise detalhada em várias tarefas multimodais além da recuperação destaca a ampla aplicabilidade do CPN, que melhora a compreensão visual ao reduzir a dependência de prioridades textuais. O código está disponível em https://github.com/mlvlab/BLiM.

TreeRanker: Sistema Rápido e Independente de Modelo para Classificação de Sugestões de Código em IDEs
TreeRanker: Fast and Model-agnostic Ranking System for Code Suggestions in IDEs

Aug 4

ByDaniele Cipollone, Egor Bogomolov, Arie van Deursen, Maliheh Izadi

A conclusão de código em nível de token é uma das funcionalidades mais críticas nos Ambientes de Desenvolvimento Integrado (IDEs) modernos. Ela auxilia os desenvolvedores ao sugerir identificadores e APIs relevantes durante a codificação. Embora as conclusões sejam tipicamente derivadas de análises estáticas, sua utilidade depende fortemente de como são classificadas, já que previsões corretas enterradas profundamente na lista raramente são vistas pelos usuários. A maioria dos sistemas atuais depende de heurísticas manuais ou modelos de aprendizado de máquina leves treinados em logs de usuários, que podem ser aprimorados para capturar informações de contexto e generalizar entre projetos e estilos de codificação. Neste trabalho, propomos uma nova abordagem de pontuação para classificar conclusões estáticas usando modelos de linguagem de forma leve e independente de modelo. Nosso método organiza todas as conclusões válidas em uma árvore de prefixos e realiza uma única passagem de decodificação gananciosa para coletar pontuações em nível de token ao longo da árvore. Isso permite uma classificação precisa e consciente dos tokens sem a necessidade de busca em feixe, engenharia de prompt ou adaptações do modelo. A abordagem é rápida, independente de arquitetura e compatível com modelos já implantados para conclusão de código. Esses achados destacam um caminho prático e eficaz para integrar modelos de linguagem em ferramentas já existentes dentro de IDEs e, por fim, fornecer uma assistência mais inteligente e responsiva aos desenvolvedores.

AttnTrace: Rastreamento de Contexto Baseado em Atenção para LLMs de Contexto Longo
AttnTrace: Attention-based Context Traceback for Long-Context LLMs

Aug 5

ByYanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

Modelos de linguagem de longo contexto (LLMs), como o Gemini-2.5-Pro e o Claude-Sonnet-4, estão sendo cada vez mais utilizados para capacitar sistemas avançados de IA, incluindo pipelines de geração aumentada por recuperação (RAG) e agentes autônomos. Nesses sistemas, um LLM recebe uma instrução junto com um contexto—frequentemente composto por textos recuperados de uma base de conhecimento ou memória—e gera uma resposta contextualmente fundamentada ao seguir a instrução. Estudos recentes têm projetado soluções para rastrear um subconjunto de textos no contexto que mais contribuem para a resposta gerada pelo LLM. Essas soluções têm diversas aplicações no mundo real, incluindo a realização de análises forenses pós-ataque e a melhoria da interpretabilidade e confiabilidade das saídas dos LLMs. Embora esforços significativos tenham sido feitos, soluções de ponta, como o TracLLM, frequentemente resultam em um alto custo computacional—por exemplo, o TracLLM leva centenas de segundos para realizar o rastreamento de um único par resposta-contexto. Neste trabalho, propomos o AttnTrace, um novo método de rastreamento de contexto baseado nos pesos de atenção produzidos por um LLM para um prompt. Para utilizar efetivamente os pesos de atenção, introduzimos duas técnicas projetadas para aumentar a eficácia do AttnTrace, e fornecemos insights teóricos para nossa escolha de design. Também realizamos uma avaliação sistemática do AttnTrace. Os resultados demonstram que o AttnTrace é mais preciso e eficiente do que os métodos de rastreamento de contexto de ponta existentes. Também mostramos que o AttnTrace pode melhorar métodos de ponta na detecção de injeção de prompt em contextos longos por meio do paradigma de atribuição antes da detecção. Como uma aplicação do mundo real, demonstramos que o AttnTrace pode efetivamente identificar instruções injetadas em um artigo projetado para manipular revisões geradas por LLMs. O código está disponível em https://github.com/Wang-Yanting/AttnTrace.

AlignGuard-LoRA: Ajuste Fino de Preservação de Alinhamento via Decomposição Guiada por Fisher e Regularização de Colisão Geodésica Riemanniana
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

Aug 4

ByAmitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha

A adaptação de baixo posto (LoRA) tornou-se uma ferramenta padrão para o ajuste fino eficiente de grandes modelos de linguagem (LLMs). No entanto, até mesmo pequenas atualizações LoRA podem induzir desvio de alinhamento, enfraquecendo restrições de segurança e comportamentais por meio de mudanças entrelaçadas nos parâmetros. Para abordar isso, propomos o AlignGuard-LoRA (AGL), uma estrutura fundamentada para preservar o alinhamento durante o ajuste fino. O AGL introduz vários componentes-chave: uma função de perda da tarefa principal para supervisão, regularização baseada na Matriz de Informação de Fisher para restringir atualizações em subespaços sensíveis ao alinhamento, e regularização específica da tarefa para estabilizar a integração de novos conhecimentos. Além disso, introduzimos a regularização consciente de colisão, combinando sobreposição Riemanniana -- que penaliza interferências coordenada a coordenada -- e separação geodésica -- que incentiva geometrias de atualização disjuntas. Criamos o DriftCaps, um benchmark diagnóstico direcionado de prompts seguros e inseguros projetado para quantificar o desvio de alinhamento e a degradação da segurança. Avaliações empíricas mostram que o AGL mitiga o desvio de alinhamento em até 50% em benchmarks críticos para segurança sem degradar o desempenho da tarefa subsequente. Uma ablação abrangente confirma que cada componente contribui distintamente para preservar comportamentos de segurança latentes. Por fim, derivamos e validamos uma lei de escala para o esquecimento catastrófico, revelando que o AGL aplaina a escalada de perda pós-ajuste fino enquanto preserva a dinâmica de adaptação. O AGL é um refinamento estruturalmente fundamentado do LoRA, garantindo a preservação do alinhamento com trocas mínimas. Para incentivar maior exploração e desenvolvimento, disponibilizamos nossa implementação em código aberto.

TRACEALIGN -- Rastreando a Deriva: Atribuindo Falhas de Alinhamento a Fontes de Crenças Durante o Treinamento em LLMs
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

Aug 4

ByAmitava Das, Vinija Jain, Aman Chadha

Modelos de Linguagem de Grande Escala (LLMs) ajustados para alinhar-se com valores humanos frequentemente exibem desvio de alinhamento, produzindo conclusões inseguras ou que violam políticas quando expostos a prompts adversariais, perturbações de decodificação ou jailbreaks parafraseados. Embora trabalhos anteriores tenham caracterizado comportamentalmente falhas de alinhamento, pouco se sabe sobre as fontes de crenças durante o treinamento que subjazem a essas falhas. Introduzimos o TraceAlign, um framework unificado para rastrear conclusões inseguras até suas causas raiz no corpus de treinamento do modelo. Central à nossa abordagem é o Índice de Conflito de Crenças (BCI), que quantifica a inconsistência semântica entre trechos gerados e políticas alinhadas, com base em documentos de treinamento recuperados usando correspondência de sufixo-array. Propomos três intervenções complementares: (i) TraceShield, um filtro de segurança em tempo de inferência que recusa conclusões com trechos de alto BCI, (ii) Perda de Desconflito de Crenças Contrastiva, um objetivo de ajuste fino contrastivo que penaliza continuações de alto BCI durante o DPO, e (iii) Prov-Decode, uma estratégia de decodificação consciente da proveniência que veta expansões de feixe previstas para gerar trechos de alto BCI. Juntas, essas defesas reduzem o desvio de alinhamento em até 85% em nosso Alignment Drift Benchmark (ADB) curado, preservando a utilidade em tarefas padrão, com delta menor que 0,2 e qualidade de recusa aprimorada. Além disso, derivamos um limite teórico superior para a probabilidade de desvio via estatísticas de trechos de sufixo-array, vinculando frequência e comprimento de memorização ao risco de reativação adversarial. O TraceAlign, portanto, fornece o primeiro kit de ferramentas escalável, rastreável e fundamentado para entender e mitigar falhas de alinhamento na fonte. Para encorajar maior exploração e desenvolvimento, disponibilizamos nossa implementação em código aberto em: https://anonymous.4open.science/r/tracealign-2DA7.