HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

24 papers found

MemGovern: Aprimorando Agentes de Código por meio da Aprendizagem com Experiências Humanas Supervisionadas
MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

Jan 11

ByQihao Wang, Ziming Cheng, Shuo Zhang, Fan Liu, Rui Xu, Heng Lian, Kunyi Wang, Xiaoming Yu, Jianghao Yin, Sen Hu, Yue Hu, Shaolei Zhang, Yanbing Liu, Ronghao Chen, Huacan Wang

Embora os agentes autónomos de engenharia de software (ES) estejam a remodelar os paradigmas de programação, atualmente sofrem de uma limitação de "mundo fechado": tentam corrigir erros do zero ou utilizando apenas o contexto local, ignorando a imensa experiência histórica humana disponível em plataformas como o GitHub. O acesso a esta experiência de "mundo aberto" é dificultado pela natureza não estruturada e fragmentada dos dados reais de rastreamento de problemas. Neste artigo, introduzimos o MemGovern, um *framework* concebido para gerir e transformar dados brutos do GitHub em memória experiencial acionável para agentes. O MemGovern emprega a governação da experiência para converter a experiência humana em cartões de experiência compatíveis com agentes e introduz uma estratégia de busca de experiência agentica que permite a recuperação orientada por lógica do conhecimento humano. Ao produzir 135 mil cartões de experiência geridos, o MemGovern alcança um aumento significativo de desempenho, melhorando as taxas de resolução no SWE-bench Verified em 4,65%. Como uma abordagem de *plug-in*, o MemGovern fornece uma solução para infraestrutura de memória compatível com agentes.

Atribuição de Movimento para Geração de Vídeo
Motion Attribution for Video Generation

Jan 13

ByXindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan Lorraine

Apesar do rápido progresso dos modelos de geração de vídeo, o papel dos dados na influência do movimento é pouco compreendido. Apresentamos o Motive (Atribuição de Movimento para Geração de Vídeo), uma estrutura de atribuição de dados centrada no movimento e baseada em gradientes que se dimensiona para conjuntos de dados e modelos de vídeo modernos, grandes e de alta qualidade. Utilizamos isso para estudar quais clipes de *fine-tuning* melhoram ou degradam a dinâmica temporal. O Motive isola a dinâmica temporal da aparência estática por meio de máscaras de perda ponderadas pelo movimento, resultando em um cálculo de influência específico para o movimento eficiente e escalável. Em modelos de texto para vídeo, o Motive identifica clipes que afetam fortemente o movimento e orienta a curadoria de dados que melhora a consistência temporal e a plausibilidade física. Com dados de alta influência selecionados pelo Motive, nosso método melhora tanto a suavidade do movimento quanto o grau dinâmico no VBench, alcançando uma taxa de preferência humana de 74,1% em comparação com o modelo base pré-treinado. Até onde sabemos, esta é a primeira estrutura a atribuir movimento em vez de aparência visual em modelos generativos de vídeo e a usá-la para curar dados de *fine-tuning*.

Relatório Técnico Aberto Solar
Solar Open Technical Report

Jan 11

BySungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh

Apresentamos o Solar Open, um modelo de linguagem bilíngue do tipo Mixture-of-Experts com 102 bilhões de parâmetros, desenvolvido para línguas subatendidas. O Solar Open demonstra uma metodologia sistemática para a construção de LLMs competitivos, abordando três desafios interconectados. Primeiro, para treinar de forma eficaz apesar da escassez de dados para línguas subatendidas, sintetizamos 4,5 trilhões de *tokens* de dados de alta qualidade, específicos de domínio e orientados para Aprendizado por Reforço (RL). Segundo, coordenamos esses dados por meio de um currículo progressivo que otimiza conjuntamente a composição, os limiares de qualidade e a cobertura de domínio em 20 trilhões de *tokens*. Terceiro, para habilitar capacidades de raciocínio por meio de RL escalável, aplicamos nossa estrutura proposta, a SnapPO, para uma otimização eficiente. Em *benchmarks* em inglês e coreano, o Solar Open atua de forma competitiva, demonstrando a eficácia desta metodologia para o desenvolvimento de IA em línguas subatendidas.

KnowMe-Bench: Avaliação da Compreensão de Pessoas para Companheiros Digitais ao Longo da Vida
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

Jan 8

ByTingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen

Os benchmarks de memória de longo prazo existentes utilizam principalmente diálogos multiturno ou históricos de usuário sintéticos, o que torna o desempenho de recuperação um proxy imperfeito para a compreensão da pessoa. Apresentamos o \BenchName, um benchmark publicamente disponível construído a partir de narrativas autobiográficas longas, onde ações, contexto e pensamentos internos fornecem evidências densas para inferir motivações estáveis e princípios de decisão. O \BenchName reconstrói cada narrativa em um fluxo temporalmente ancorado e consciente de flashbacks, e avalia os modelos com questões vinculadas a evidências que abrangem recall factual, atribuição de estado subjetivo e raciocínio em nível de princípios. Em diversas fontes narrativas, os sistemas aumentados por recuperação melhoram principalmente a precisão factual, enquanto os erros persistem em explicações temporalmente fundamentadas e inferências de nível superior, destacando a necessidade de mecanismos de memória além da recuperação. Nossos dados estão disponíveis em KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.

Ministral 3
Ministral 3

Jan 13

ByAlexander H. Liu, Kartik Khandelwal, Sandeep Subramanian, Victor Jouault, Abhinav Rastogi, Adrien Sadé, Alan Jeffares, Albert Jiang, Alexandre Cahill, Alexandre Gavaudan, Alexandre Sablayrolles, Amélie Héliou, Amos You, Andy Ehrenberg, Andy Lo, Anton Eliseev, Antonia Calvi, Avinash Sooriyarachchi, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Clémence Lanfranchi, Corentin Barreau, Cyprien Courtot, Daniele Grattarola, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Faruk Ahmed, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Georgii Novikov, Guillaume Kunsch, Guillaume Lample, Guillaume Martin, Gunshi Gupta, Jan Ludziejewski, Jason Rute, Joachim Studnia, Jonas Amar, Joséphine Delas, Josselin Somerville Roberts, Karmesh Yadav, Khyathi Chandu, Kush Jain, Laurence Aitchison, Laurent Fainsin, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mia Chiquier, Michel Schimpf, Nathan Grinsztajn, Neha Gupta, Nikhil Raghuraman, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Patrick von Platen, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Pavankumar Reddy Muddireddy, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Quentin Torroba, Romain Sauvestre, Roman Soletskyi, Rupert Menneer, Sagar Vaze, Samuel Barry, Sanchit Gandhi, Siddhant Waghjale, Siddharth Gandhi, Soham Ghosh, Srijan Mishra, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thiziri Nait Saada, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Bewley, Tom Edwards, Umar Jamil, Umberto Tomasini, Valeriia Nemychnikova, Van Phung, Vincent Maladière, Virgile Richard, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xinyu Yang, Yassine El Ouahidi, Yihan Wang, Yunhao Tang, Zaccharie Ramzi

Apresentamos a série Ministral 3, uma família de modelos de linguagem densos com eficiência de parâmetros, projetada para aplicações com restrições de computação e memória, disponível em três tamanhos: 3B, 8B e 14B de parâmetros. Para cada tamanho de modelo, lançamos três variantes: um modelo base pré-treinado para uso geral, um modelo com ajuste fino para instruções e um modelo de raciocínio para resolução de problemas complexos. Além disso, apresentamos nossa metodologia para derivar os modelos Ministral 3 por meio da Destilação em Cascata, uma técnica de poda iterativa e treinamento contínuo com destilação. Cada modelo possui capacidades de compreensão de imagens, todos sob a licença Apache 2.0.

ArenaRL: Escalonando o RL para Agentes de Escopo Aberto via Classificação Relacional Baseada em Torneios
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Jan 10

ByQiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha

O aprendizado por reforço melhorou substancialmente o desempenho de agentes de LLM em tarefas com resultados verificáveis, mas ainda enfrenta dificuldades em tarefas de agente de natureza aberta com vastos espaços de solução (por exemplo, planejamento complexo de viagens). Devido à ausência de uma verdade fundamental objetiva para essas tarefas, os algoritmos de RL atuais dependem amplamente de modelos de recompensa que atribuem pontuações escalares a respostas individuais. Nós argumentamos que essa pontuação pontual sofre de um colapso de discriminação inerente: o modelo de recompensa luta para distinguir vantagens sutis entre diferentes trajetórias, resultando em escores dentro de um grupo sendo comprimidos em uma faixa estreita. Consequentemente, o sinal de recompensa efetivo torna-se dominado pelo ruído do modelo de recompensa, levando à estagnação da otimização. Para resolver isso, propomos o ArenaRL, um paradigma de aprendizado por reforço que muda da pontuação escalar pontual para a classificação relativa intra-grupo. O ArenaRL introduz um mecanismo de avaliação pareada consciente do processo, empregando rubricas multinível para atribuir escores relativos de granularidade fina às trajetórias. Adicionalmente, construímos uma arena adversarial intra-grupo e elaboramos um esquema de classificação baseado em torneios para obter sinais de vantagem estáveis. Resultados empíricos confirmam que o esquema de eliminação simples inicial construído alcança uma precisão de estimativa de vantagem quase equivalente às comparações pareadas completas com complexidade O(N²), enquanto opera com apenas complexidade O(N), atingindo um equilíbrio ideal entre eficiência e precisão. Além disso, para abordar a carência de benchmarks de ciclo completo para agentes de natureza aberta, construímos o Open-Travel e o Open-DeepResearch, dois benchmarks de alta qualidade que apresentam um pipeline abrangente cobrando SFT, treinamento de RL e avaliação multidimensional. Experimentos extensivos mostram que o ArenaRL supera substancialmente as linhas de base padrão de RL, permitindo que agentes de LLM gerem soluções mais robustas para tarefas complexas do mundo real.

Geração de Diálogo Multi-turn Orientada ao Usuário com Uso de Ferramentas em Escala
User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

Jan 13

ByJungho Cho, Minbyul Jeong, Sungrae Park

A recente mudança de paradigma em direção a grandes modelos de raciocínio (LRMs) como agentes autónomos intensificou a demanda por capacidades sofisticadas e multi-turno de uso de ferramentas. No entanto, os conjuntos de dados e abordagens de geração de dados existentes são limitados por conjuntos de ferramentas estáticos e predefinidos, que não conseguem escalar para a complexidade da colaboração aberta entre humanos e agentes. Para resolver isso, desenvolvemos inicialmente uma estrutura para geração automatizada de diálogos multi-turno orientados por tarefas em escala, utilizando um simulador baseado em LRM para gerar dinamicamente ferramentas de alto valor e específicas de domínio para resolver tarefas especificadas. No entanto, observamos que um design puramente orientado a tarefas frequentemente resulta em trajetórias de "apenas resolução de tarefas", onde o agente conclui o objetivo com interação mínima, falhando em gerar as conversas com alto número de turnos vistas em cenários realistas. Para preencher esta lacuna, mudamos para um paradigma de simulação orientado ao utilizador. Ao desacoplar a geração de tarefas de um simulador de utilizador dedicado que imita regras comportamentais humanas – como a realização incremental de pedidos e o feedback turno a turno – facilitamos diálogos multi-turno mais autênticos e prolongados, que refletem a natureza iterativa da resolução de problemas do mundo real. Nossa pipeline de geração opera como um módulo versátil e plug-and-play, capaz de iniciar a geração a partir de qualquer estado, garantindo alta escalabilidade na produção de dados estendidos de uso de ferramentas. Além disso, ao facilitar múltiplas conclusões de tarefas dentro de uma única trajetória, produz um conjunto de dados de alta densidade que reflete as demandas multifacetadas da interação real entre humanos e agentes.

ShowUI-π: Modelos Geradores Baseados em Fluxo como Mãos Habilidosas de GUI
ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

Dec 31

BySiyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

A construção de agentes inteligentes capazes de manipulação destra é essencial para alcançar uma automação de caráter humanoide tanto em robótica quanto em ambientes digitais. No entanto, os agentes de interface gráfica (GUI) existentes baseiam-se em previsões discretas de cliques (x,y), o que proíbe trajetórias de livre-forma e em malha fechada (por exemplo, arrastar uma barra de progresso) que exigem perceção e ajuste contínuos e em tempo real. Neste trabalho, desenvolvemos o ShowUI-π, o primeiro modelo generativo baseado em fluxo como uma mão destra de GUI, apresentando os seguintes designs: (i) Ações Unificadas Discretas-Contínuas, integrando cliques discretos e arrastos contínuos dentro de um modelo partilhado, permitindo uma adaptação flexível através de diversos modos de interação; (ii) Geração de Ação Baseada em Fluxo para modelação de arrasto, que prevê ajustes incrementais do cursor a partir de observações visuais contínuas através de um perito de ação leve, garantindo trajetórias suaves e estáveis; (iii) Dados de Treino de Arrasto e Benchmark, onde recolhemos e sintetizamos manualmente 20 mil trajetórias de arrasto em cinco domínios (por exemplo, PowerPoint, Adobe Premiere Pro), e introduzimos o ScreenDrag, um benchmark com protocolos de avaliação online e offline abrangentes para avaliar as capacidades de arrasto de agentes de GUI. As nossas experiências mostram que os agentes proprietários de GUI ainda têm dificuldades no ScreenDrag (por exemplo, o Operator pontua 13,27, e o melhor Gemini-2.5-CUA atinge 22,18). Em contraste, o ShowUI-π atinge 26,98 com apenas 450M de parâmetros, sublinhando tanto a dificuldade da tarefa como a eficácia da nossa abordagem. Esperamos que este trabalho avance os agentes de GUI em direção a um controlo destro de caráter humanoide no mundo digital. O código está disponível em https://github.com/showlab/showui-pi.

MemoBrain: Memória Executiva como um Cérebro Agente para o Raciocínio
MemoBrain: Executive Memory as an Agentic Brain for Reasoning

Jan 12

ByHongjin Qian, Zhao Cao, Zheng Liu

O raciocínio complexo em estruturas de agentes aumentados por ferramentas é inerentemente de longo horizonte, fazendo com que os traços de raciocínio e os artefactos transitórios das ferramentas se acumulem e sobrecarreguem o contexto de trabalho limitado dos grandes modelos de linguagem. Sem mecanismos de memória explícitos, tal acumulação perturba a continuidade lógica e compromete o alinhamento com a tarefa. Isto posiciona a memória não como uma preocupação auxiliar de eficiência, mas como um componente central para sustentar um raciocínio coerente e orientado a objetivos em horizontes longos. Propomos o MemoBrain, um modelo de memória executiva para agentes aumentados por ferramentas que constrói uma memória com consciência de dependências sobre os passos de raciocínio, capturando estados intermédios salientes e as suas relações lógicas. Funcionando como um co-piloto ao lado do agente de raciocínio, o MemoBrain organiza o progresso do raciocínio sem bloquear a execução e gere ativamente o contexto de trabalho. Especificamente, ele poda passos inválidos, dobra sub-trajetórias concluídas e preserva uma espinha dorsal de raciocínio compacta e de alta saliência dentro de um orçamento fixo de contexto. Em conjunto, estes mecanismos permitem um controlo cognitivo explícito sobre as trajetórias de raciocínio, em vez de uma acumulação passiva de contexto. Avaliamos o MemoBrain em benchmarks desafiadores de longo horizonte, incluindo GAIA, WebWalker e BrowseComp-Plus, demonstrando melhorias consistentes face a linhas de base robustas.

3AM: Segmentar Qualquer Coisa com Consistência Geométrica em Vídeos
3AM: Segment Anything with Geometric Consistency in Videos

Jan 13

ByYang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

Métodos de segmentação de objetos em vídeo, como o SAM2, alcançam alto desempenho por meio de arquiteturas baseadas em memória, mas enfrentam dificuldades sob grandes mudanças de perspectiva devido à dependência de características de aparência. Métodos tradicionais de segmentação de instâncias 3D abordam a consistência de perspectiva, mas exigem poses de câmera, mapas de profundidade e pré-processamento dispendioso. Apresentamos o 3AM, um aprimoramento no tempo de treinamento que integra características 3D do MUSt3R no SAM2. Nosso Leve Fusionador de Características funde características multi-nível do MUSt3R que codificam correspondência geométrica implícita. Combinado com as características de aparência do SAM2, o modelo alcança reconhecimento geometricamente consistente baseado tanto na posição espacial quanto na similaridade visual. Propomos uma estratégia de amostragem consciente do campo de visão que garante que os quadros observem regiões de objetos espacialmente consistentes para um aprendizado confiável de correspondência 3D. Criticalmente, nosso método requer apenas entrada RGB na inferência, sem poses de câmera ou pré-processamento. Em conjuntos de dados desafiadores com movimento de linha de base ampla (ScanNet++, Replica), o 3AM supera substancialmente o SAM2 e suas extensões, alcançando 90,6% de IoU e 71,7% de IoU Positivo no Subconjunto Selecionado do ScanNet++, melhorando os métodos state-of-the-art de VOS em +15,9 e +30,4 pontos. Página do projeto: https://jayisaking.github.io/3AM-Page/

A Dicotomia da Confiança: Análise e Mitigação da Má Calibração em Agentes com Uso de Ferramentas
The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

Jan 12

ByWeihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya

Os agentes autónomos baseados em grandes modelos de linguagem (LLMs) estão a evoluir rapidamente para lidar com tarefas de múltiplos turnos, mas garantir a sua confiabilidade continua a ser um desafio crítico. Um pilar fundamental desta confiabilidade é a calibração, que se refere à capacidade de um agente expressar uma confiança que reflete de forma fiável o seu desempenho real. Embora a calibração esteja bem estabelecida para modelos estáticos, a sua dinâmica em fluxos de trabalho agentivos com integração de ferramentas permanece pouco explorada. Neste trabalho, investigamos sistematicamente a calibração verbalizada em agentes que utilizam ferramentas, revelando uma dicotomia fundamental de confiança impulsionada pelo tipo de ferramenta. Especificamente, o nosso estudo piloto identifica que as ferramentas de evidência (por exemplo, pesquisa na web) induzem sistematicamente uma sobreconfiança severa devido ao ruído inerente na informação recuperada, enquanto as ferramentas de verificação (por exemplo, interpretadores de código) podem fundamentar o raciocínio através de *feedback* determinístico e mitigar a má calibração. Para melhorar robustamente a calibração entre tipos de ferramentas, propomos um framework de *fine-tuning* por aprendizagem por reforço (RL) que otimiza conjuntamente a precisão da tarefa e a calibração, apoiado por um *benchmark* holístico de desenhos de recompensa. Demonstramos que os nossos agentes treinados não só alcançam uma calibração superior, mas também exibem uma generalização robusta desde ambientes de treino locais para configurações web ruidosas e para domínios distintos, como o raciocínio matemático. Os nossos resultados destacam a necessidade de estratégias de calibração específicas por domínio para agentes que utilizam ferramentas. De forma mais ampla, este trabalho estabelece uma base para a construção de agentes autoconscientes que podem comunicar de forma fiável a incerteza em implementações do mundo real de alto risco.

Decodificação Paralela de Contexto de Especialistas para Geração Aumentada por Recuperação
Parallel Context-of-Experts Decoding for Retrieval Augmented Generation

Jan 13

ByGiulio Corallo, Paolo Papotti

A Geração Aumentada por Recuperação enfrenta um dilema: a concatenação de documentos em um prompt extenso permite o raciocínio multi-documento, mas cria gargalos de preenchimento prévio, enquanto a codificação separada dos caches KV dos documentos oferece velocidade, mas quebra a interação entre documentos. Propomos a Decodificação Paralela do Contexto de Especialistas (Pced), uma estrutura livre de treinamento que desloca a agregação de evidências do mecanismo de atenção para a decodificação. O Pced trata os documentos recuperados como "especialistas" isolados, sincronizando suas previsões por meio de uma nova regra de decodificação contrastiva consciente da recuperação, que pondera os logits dos especialistas em relação ao prior do modelo. Esta abordagem recupera as capacidades de raciocínio entre documentos sem construir uma atenção compartilhada entre os documentos.

SnapGen++: Liberando Transformadores de Difusão para Geração Eficiente de Imagens de Alta Fidelidade em Dispositivos de Borda
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Jan 13

ByDongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag

Avanços recentes em transformadores de difusão (DiTs) estabeleceram novos padrões na geração de imagens, mas permanecem impraticáveis para implantação em dispositivos devido aos seus altos custos computacionais e de memória. Neste trabalho, apresentamos uma estrutura eficiente de DiT adaptada para dispositivos móveis e de borda que alcança qualidade de geração em nível de transformer sob rigorosas restrições de recursos. Nosso projeto combina três componentes principais. Primeiro, propomos uma arquitetura compacta de DiT com um mecanismo de atenção esparsa global-local adaptativa que equilibra a modelagem de contexto global e a preservação de detalhes locais. Segundo, propomos uma estrutura de treinamento elástica que otimiza conjuntamente sub-DiTs de capacidades variadas dentro de uma super-rede unificada, permitindo que um único modelo se ajuste dinamicamente para inferência eficiente em diferentes hardwares. Finalmente, desenvolvemos a Destilação por Correspondência de Distribuição Guiada por Conhecimento, um pipeline de destilação por etapas que integra o objetivo DMD com a transferência de conhecimento de modelos professores de poucas etapas, produzindo geração de alta fidelidade e baixa latência (por exemplo, 4 etapas) adequada para uso em tempo real no dispositivo. Juntas, essas contribuições permitem modelos de difusão escaláveis, eficientes e de alta qualidade para implantação em hardwares diversos.

ViDoRe V3: Uma Avaliação Abrangente da Geração Aumentada por Recuperação em Cenários Reais Complexos
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios

Jan 13

ByAntónio Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud

Os sistemas de Geração Aumentada por Recuperação (RAG) precisam superar desafios que vão além da simples recuperação de documentos únicos, como a interpretação de elementos visuais (tabelas, gráficos, imagens), a síntese de informações entre vários documentos e o fornecimento de uma fundamentação precisa das fontes. Os *benchmarks* existentes não capturam essa complexidade, focando-se frequentemente em dados textuais, na compreensão de documentos únicos ou na avaliação isolada da recuperação e da geração. Apresentamos o ViDoRe v3, um *benchmark* multimodal abrangente para RAG, que apresenta consultas de múltiplos tipos sobre corpora de documentos visualmente ricos. Abrange 10 conjuntos de dados de diversos domínios profissionais, compreendendo aproximadamente 26.000 páginas de documentos emparelhadas com 3.099 consultas validadas por humanos, cada uma disponível em 6 idiomas. Através de 12.000 horas de trabalho de anotação humana, fornecemos anotações de alta qualidade para relevância na recuperação, localização por *bounding boxes* e respostas de referência verificadas. A nossa avaliação dos sistemas RAG mais avançados revela que os recuperadores visuais superam os textuais, que os modelos de interação tardia e o reranking textual melhoram substancialmente o desempenho, e que contextos híbridos ou puramente visuais aumentam a qualidade da geração de respostas. No entanto, os modelos atuais ainda têm dificuldades com elementos não textuais, consultas abertas e a fundamentação visual de granularidade fina. Para incentivar o progresso na resolução destes desafios, o *benchmark* é disponibilizado sob uma licença comercialmente permissiva em https://hf.co/vidore.

Alinhando Texto, Código e Visão: Uma Estrutura de Aprendizagem por Reforço Multiobjetivo para Geração de Visualizações a partir de Texto
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Jan 8

ByMizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque

Os sistemas Texto para Visualização (Text2Vis) traduzem consultas em linguagem natural sobre dados tabulares em respostas concisas e visualizações executáveis. Embora os LLMs proprietários gerem código funcional, os gráficos resultantes frequentemente carecem de alinhamento semântico e clareza, qualidades que só podem ser avaliadas após a execução. Os modelos de código aberto enfrentam dificuldades ainda maiores, produzindo frequentemente saídas não executáveis ou visualmente pobres. Embora o ajuste fino supervisionado possa melhorar a capacidade de execução do código, ele não consegue aprimorar a qualidade geral da visualização, uma vez que a perda tradicional do SFT não consegue capturar o *feedback* pós-execução. Para preencher esta lacuna, propomos o RL-Text2Vis, o primeiro *framework* de aprendizagem por reforço para geração Text2Vis. Desenvolvido com base na Otimização de Política Relativa de Grupo (GRPO), o nosso método utiliza uma nova recompensa multiobjetivo que otimiza conjuntamente a precisão textual, a validade do código e a qualidade da visualização usando *feedback* pós-execução. Ao treinar modelos Qwen2.5 (7B e 14B), o RL-Text2Vis alcança uma melhoria relativa de 22% na qualidade dos gráficos em comparação com o GPT-4o no *benchmark* Text2Vis e aumenta o sucesso da execução do código de 78% para 97% em relação à sua linha de base *zero-shot*. Os nossos modelos superam significativamente as linhas de base *zero-shot* e supervisionadas robustas e também demonstram uma generalização robusta para conjuntos de dados fora do domínio, como o VIS-Eval e o NVBench. Estes resultados estabelecem o GRPO como uma estratégia eficaz para o raciocínio estruturado e multimodal na geração de visualizações. Disponibilizamos o nosso código em https://github.com/vis-nlp/RL-Text2Vis.

UM-Text: Um Modelo Multimodal Unificado para Compreensão de Imagens
UM-Text: A Unified Multimodal Model for Image Understanding

Jan 13

ByLichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang

Com o rápido avanço da geração de imagens, a edição de texto visual usando instruções em linguagem natural tem recebido atenção crescente. O principal desafio desta tarefa é compreender totalmente a instrução e a imagem de referência e, assim, gerar texto visual que seja estilisticamente consistente com a imagem. Métodos anteriores frequentemente envolvem etapas complexas de especificação do conteúdo do texto e seus atributos, como tamanho da fonte, cor e layout, sem considerar a consistência estilística com a imagem de referência. Para resolver isso, propomos o UM-Text, um modelo multimodal unificado para compreensão de contexto e edição de texto visual por meio de instruções em linguagem natural. Especificamente, introduzimos um Modelo de Linguagem Visual (VLM) para processar a instrução e a imagem de referência, de modo que o conteúdo e o layout do texto possam ser elaboradamente projetados de acordo com as informações contextuais. Para gerar uma imagem de texto visual precisa e harmoniosa, propomos ainda o UM-Encoder para combinar as incorporações de várias informações de condição, onde a combinação é configurada automaticamente pelo VLM de acordo com a instrução de entrada. Durante o treinamento, propomos uma função de perda por consistência regional para oferecer uma supervisão mais eficaz para a geração de glifos tanto no espaço latente quanto no espaço RGB, e projetamos uma estratégia de treinamento em três estágios sob medida para melhorar ainda mais o desempenho do modelo. Além disso, contribuímos com o UM-DATA-200K, um grande conjunto de dados de imagens de texto visual em diversas cenas para o treinamento do modelo. Resultados qualitativos e quantitativos extensivos em vários benchmarks públicos demonstram que nosso método alcança desempenho de ponta.

O Primeiro Dia do Agente: Avaliação de Aprendizado, Exploração e Planejamento em Cenários de Trabalho
The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

Jan 13

ByDaocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi

A rápida evolução dos Modelos de Linguagem de Grande Porte Multimodais (MLLMs) tem avançado a automação de fluxos de trabalho; no entanto, as pesquisas existentes focam principalmente nos limites superiores de desempenho em ambientes estáticos, negligenciando a robustez necessária para implantação estocástica no mundo real. Identificamos três desafios principais: escalonamento dinâmico de tarefas, exploração ativa sob incerteza e aprendizagem contínua a partir da experiência. Para preencher esta lacuna, introduzimos o , um ambiente de avaliação dinâmica que simula um agente "estagiário" explorando continuamente um cenário novo. Diferente dos benchmarks tradicionais, o avalia os agentes em três dimensões: (1) escalonamento sensível ao contexto para tarefas em fluxo com prioridades variáveis; (2) aquisição prudente de informação para reduzir alucinações por meio de exploração ativa; e (3) evolução contínua através da destilação de estratégias generalizadas a partir de tarefas baseadas em regras e geradas dinamicamente. Experimentos mostram que os agentes de ponta possuem deficiências significativas em ambientes dinâmicos, especialmente na exploração ativa e na aprendizagem contínua. Nosso trabalho estabelece uma estrutura para avaliar a confiabilidade de agentes, deslocando a avaliação de testes estáticos para cenários realistas e orientados à produção. Nossos códigos estão disponíveis em https://github.com/KnowledgeXLab/EvoEnv.

Substituição de Personagens em Vídeo de Forma Integral sem Orientação Estrutural
End-to-End Video Character Replacement without Structural Guidance

Jan 13

ByZhengbo Xu, Jie Ma, Ziheng Wang, Zhan Peng, Jun Liang, Jing Li

A substituição controlável de personagens em vídeo com uma identidade fornecida pelo utilizador continua a ser um problema desafiador devido à falta de dados de vídeo emparelhados. Trabalhos anteriores basearam-se predominantemente num paradigma de reconstrução que requer máscaras de segmentação por fotograma e orientação estrutural explícita (por exemplo, esqueleto, profundidade). Esta dependência, no entanto, limita severamente a sua generalização em cenários complexos que envolvem oclusões, interações personagem-objeto, poses incomuns ou iluminação desafiadora, frequentemente resultando em artefactos visuais e inconsistências temporais. Neste artigo, propomos o MoCha, uma estrutura pioneira que contorna estas limitações ao requerer apenas uma única máscara de fotograma arbitrária. Para adaptar eficazmente a condição de entrada multimodal e realçar a identidade facial, introduzimos um RoPE consciente da condição e empregamos uma fase de pós-treino baseada em RL. Adicionalmente, para superar a escassez de dados de treino emparelhados qualificados, propomos um pipeline abrangente de construção de dados. Especificamente, concebemos três conjuntos de dados especializados: um conjunto de dados renderizado de alta fidelidade construído com o Unreal Engine 5 (UE5), um conjunto de dados orientado por expressão sintetizado por técnicas atuais de animação de retrato, e um conjunto de dados aumentado derivado de pares vídeo-máscara existentes. Experiências extensivas demonstram que o nosso método supera substancialmente as abordagens state-of-the-art existentes. Disponibilizaremos o código para facilitar investigação futura. Consulte a nossa página do projeto para mais detalhes: orange-3dv-team.github.io/MoCha

VLingNav: Navegação Corporificada com Raciocínio Adaptativo e Memória Linguística Assistida por Visão
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Jan 13

ByShaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu

Os modelos VLA têm demonstrado potencial promissor na navegação incorporada ao unificar percepção e planeamento, herdando as fortes capacidades de generalização dos grandes VLMs. No entanto, a maioria dos modelos VLA existentes baseia-se em mapeamentos reativos diretos de observações para ações, carecendo das capacidades de raciocínio explícito e da memória persistente necessárias para tarefas de navegação complexas e de longo horizonte. Para enfrentar estes desafios, propomos o VLingNav, um modelo VLA para navegação incorporada fundamentado na cognição orientada linguisticamente. Primeiro, inspirados pela teoria do processo duplo da cognição humana, introduzimos um mecanismo adaptativo de cadeia de pensamento (chain-of-thought), que aciona dinamicamente o raciocínio explícito apenas quando necessário, permitindo que o agente alterne fluentemente entre uma execução rápida e intuitiva e um planeamento lento e deliberado. Segundo, para lidar com dependências espaciais de longo horizonte, desenvolvemos um módulo de memória linguística assistido visualmente que constrói uma memória semântica persistente e cross-modal, permitindo ao agente recordar observações passadas para evitar exploração repetitiva e inferir tendências de movimento em ambientes dinâmicos. Para a receita de treino, construímos o Nav-AdaCoT-2.9M, o maior conjunto de dados de navegação incorporada com anotações de raciocínio até à data, enriquecido com anotações de CoT adaptativas que induzem um paradigma de raciocínio capaz de ajustar tanto quando pensar como sobre o que pensar. Adicionalmente, incorporamos uma fase de aprendizagem por reforço online guiada por especialistas, permitindo que o modelo ultrapasse a aprendizagem por imitação pura e adquira comportamentos de navegação mais robustos e autoexplorados. Experiências extensivas demonstram que o VLingNav alcança um desempenho state-of-the-art numa ampla gama de benchmarks de navegação incorporada. Notavelmente, o VLingNav transfere-se para plataformas robóticas do mundo real de forma zero-shot, executando várias tarefas de navegação e demonstrando uma forte generalização cross-domínio e cross-tarefa.

VideoLoom: Um Modelo de Linguagem de Grande Porte para Vídeo com Compreensão Espaço-Temporal Conjunta
VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding

Jan 12

ByJiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu

Este artigo apresenta o VideoLoom, um Modelo de Linguagem de Grande Porte Unificado para Vídeo (Video LLM) voltado para a compreensão espaço-temporal conjunta. Para facilitar o desenvolvimento de capacidades de localização espacial e temporal de alta granularidade, criámos o LoomData-8.7k, um conjunto de dados de vídeo centrado no ser humano, com legendas temporalmente fundamentadas e espacialmente localizadas. Com isto, o VideoLoom alcança um desempenho state-of-the-art ou altamente competitivo em várias benchmarks espaciais e temporais (por exemplo, 63.1 J&F no ReVOS para segmentação de objetos em vídeo por referência, e 48.3 R1@0.7 no Charades-STA para localização temporal). Adicionalmente, introduzimos a LoomBench, uma nova benchmark composta por pares vídeo-pergunta temporais, espaciais e composicionais, permitindo uma avaliação abrangente de Video LLMs a partir de diversas perspetivas. Coletivamente, estas contribuições oferecem um conjunto universal e eficaz para a compreensão espaço-temporal conjunta de vídeo, estabelecendo um novo padrão em inteligência multimodal.

EpiCaR: Saber o que Você Não Sabe Importa para um Raciocínio Melhor em LLMs
EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Jan 11

ByJewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim

A melhoria das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) tem dependido amplamente do autoaprendizado iterativo com dados gerados pelo próprio modelo. Embora eficazes para aumentar a precisão, as abordagens existentes reforçam principalmente os caminhos de raciocínio bem-sucedidos, incorrendo num custo substancial de calibração: os modelos tornam-se excessivamente confiantes e perdem a capacidade de representar a incerteza. Esta falha foi caracterizada como uma forma de colapso do modelo no alinhamento, em que as distribuições preditivas degeneram em direção a estimativas pontuais de baixa variância. Nós abordamos esta questão reformulando o treino de raciocínio como um problema de aprendizagem epistémica, no qual os modelos devem aprender não apenas a raciocinar, mas também quando o seu raciocínio deve ser confiável. Propomos o raciocínio epistemicamente calibrado (EpiCaR) como um objetivo de treino que otimiza conjuntamente o desempenho do raciocínio e a calibração, e instanciamo-lo num quadro de *fine-tuning* supervisionado iterativo usando sinais explícitos de autoavaliação. Experiências nas famílias Llama-3 e Qwen-3 demonstram que a nossa abordagem alcança uma superioridade de Pareto sobre as linhas de base padrão, tanto em precisão como em calibração, particularmente em modelos com capacidade de raciocínio suficiente (ex: 3B+). Este quadro generaliza-se eficazmente para raciocínio matemático fora da distribuição (GSM8K) e geração de código (MBPP). No final, a nossa abordagem permite uma redução de 3X no cálculo de inferência, igualando o desempenho K=30 do STaR com apenas K=10 amostras em modelos capazes.

JudgeRLVR: Julgar Primeiro, Gerar Segundo para um Raciocínio Eficiente
JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Jan 13

ByJiangshan Duo, Hanyu Li, Hailin Zhang, Yudong Wang, Sujian Li, Liang Zhao

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um paradigma padrão para o raciocínio em Modelos de Linguagem de Grande Porte. No entanto, otimizar apenas para a correção da resposta final frequentemente leva os modelos a uma exploração sem rumo e verbosa, na qual eles dependem de táticas exaustivas de tentativa e erro, em vez de planejamento estruturado, para chegar a soluções. Embora restrições heurísticas, como penalidades de comprimento, possam reduzir a verbosidade, elas frequentemente truncam etapas de raciocínio essenciais, criando uma difícil compensação entre eficiência e verificação. Neste artigo, argumentamos que a capacidade discriminativa é um pré-requisito para a geração eficiente: ao aprender a distinguir soluções válidas, um modelo pode internalizar um sinal de orientação que poda o espaço de busca. Propomos o JudgeRLVR, um paradigma de julgar-depois-gerar em dois estágios. No primeiro estágio, treinamos o modelo para julgar respostas de soluções com respostas verificáveis. No segundo estágio, afinamos o mesmo modelo com o RLVR de geração padrão, inicializado a partir do "juiz". Em comparação com o RLVR Padrão usando os mesmos dados de treinamento do domínio matemático, o JudgeRLVR alcança uma melhor compensação qualidade-eficiência para o Qwen3-30B-A3B: em matemática dentro do domínio, ele proporciona um ganho médio de precisão de cerca de +3,7 pontos com uma redução de -42% no comprimento médio de geração; em benchmarks fora do domínio, ele proporciona uma melhoria média de precisão de cerca de +4,5 pontos, demonstrando uma generalização aprimorada.

Rumo a uma Avaliação Abrangente e por Estágios de Modelos de Linguagem de Grande Porte na Verificação de Fatos
Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

Jan 6

ByHongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu

Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais utilizados em sistemas de verificação de factos do mundo real, no entanto, as avaliações existentes concentram-se predominantemente na verificação de alegações e negligenciam o fluxo de trabalho mais abrangente da verificação de factos, incluindo a extração de alegações e a recuperação de evidências. Este foco restrito impede que os benchmarks atuais revelem falhas sistemáticas de raciocínio, pontos cegos factuais e limitações de robustez dos LLMs modernos. Para colmatar esta lacuna, apresentamos o FactArena, um quadro de avaliação de estilo arena totalmente automatizado que realiza uma avaliação abrangente e faseada de LLMs em todo o pipeline completo de verificação de factos. O FactArena integra três componentes principais: (i) um processo de verificação de factos conduzido por LLM que padroniza a decomposição de alegações, a recuperação de evidências através de interações aumentadas por ferramentas e a previsão de vereditos baseada em justificações; (ii) um mecanismo de julgamento de estilo arena orientado por diretrizes de referência consolidadas para garantir comparações pareadas imparciais e consistentes entre agentes juízes heterogéneos; e (iii) um módulo de evolução de alegações conduzido pela arena que gera de forma adaptativa alegações mais desafiantes e semanticamente controladas para analisar a robustez factual dos LLMs para além dos dados de origem fixos. Em 16 LLMs de última geração abrangendo sete famílias de modelos, o FactArena produz classificações estáveis e interpretáveis. As nossas análises revelam ainda discrepâncias significativas entre a precisão estática na verificação de alegações e a competência de verificação de factos de ponta a ponta, destacando a necessidade de uma avaliação holística. O quadro proposto oferece um paradigma escalável e confiável para diagnosticar o raciocínio factual dos LLMs, orientar o desenvolvimento futuro de modelos e avançar a implementação fiável de LLMs em aplicações de verificação de factos críticas para a segurança.

GeoMotionGPT: Compreensão de Movimento Alinhada à Geometria com Modelos de Linguagem de Grande Escala
GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

Jan 12

ByZhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu

A tokenização discreta de movimento tem permitido recentemente que os Grandes Modelos de Linguagem (LLMs) atuem como estruturas versáteis para a compreensão de movimento e o raciocínio entre movimento e linguagem. No entanto, os *pipelines* existentes geralmente desacoplam a quantização do movimento da aprendizagem de incorporação semântica, ligando-as apenas através de IDs de token. Essa abordagem não consegue alinhar efetivamente a geometria intrínseca do espaço de movimento com o espaço de incorporação, prejudicando assim a capacidade do LLM para um raciocínio de movimento matizado. Argumentamos que o alinhamento é mais eficaz quando ambas as modalidades compartilham uma base geométrica unificada. Portanto, em vez de forçar o LLM a reconstruir a geometria complexa entre os tokens de movimento do zero, apresentamos uma nova estrutura que impõe explicitamente ortogonalidade tanto no *codebook* de movimento quanto no espaço de incorporação do LLM, garantindo que suas estruturas relacionais se espelhem naturalmente. Especificamente, empregamos um quantizador apenas-decodificador com Gumbel-Softmax para treinamento diferenciável e uso balanceado do *codebook*. Para conectar as modalidades, usamos uma projeção esparsa que mapeia os códigos de movimento para o espaço de incorporação do LLM, preservando a ortogonalidade. Finalmente, um cronograma de regularização ortonormal em dois estágios impõe restrições suaves durante o treinamento do tokenizador e o ajuste fino do LLM para manter o alinhamento geométrico sem prejudicar a adaptação semântica. Experimentos extensivos no HumanML3D demonstram que nossa estrutura alcança uma melhoria de desempenho de 20% sobre os métodos state-of-the-art atuais, validando que uma base geométrica unificada capacita efetivamente o LLM para um raciocínio de movimento matizado.