HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

40 papers found

Os LLMs Podem Limpar a Sua Bagunça? Um Estudo sobre Preparação de Dados Pronta para Aplicação com LLMs
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Jan 22

ByWei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu

189

A preparação de dados visa remover o ruído de conjuntos de dados brutos, descobrir relações entre conjuntos de dados e extrair insights valiosos dos mesmos, sendo essencial para uma ampla gama de aplicações centradas em dados. Impulsionada (i) pelas crescentes demandas por dados prontos para aplicação (ex.: para análise, visualização, tomada de decisão), (ii) pelas técnicas de LLM cada vez mais poderosas e (iii) pelo surgimento de infraestruturas que facilitam a construção flexível de agentes (ex.: usando o Databricks Unity Catalog), os métodos aprimorados por LLM estão rapidamente se tornando um paradigma transformador e potencialmente dominante para a preparação de dados. Ao investigar centenas de trabalhos recentes da literatura, este artigo apresenta uma revisão sistemática deste panorama em evolução, focando no uso de técnicas de LLM para preparar dados para diversas tarefas subsequentes. Primeiro, caracterizamos a mudança de paradigma fundamental, de pipelines baseados em regras e específicos do modelo para fluxos de trabalho de preparação acionados por prompts, conscientes do contexto e agentivos. Em seguida, introduzimos uma taxonomia centrada em tarefas que organiza a área em três tarefas principais: limpeza de dados (ex.: padronização, tratamento de erros, imputação), integração de dados (ex.: correspondência de entidades, correspondência de esquemas) e enriquecimento de dados (ex.: anotação de dados, perfilamento). Para cada tarefa, examinamos técnicas representativas e destacamos seus respectivos pontos fortes (ex.: generalização aprimorada, compreensão semântica) e limitações (ex.: o custo proibitivo de dimensionar LLMs, alucinações persistentes mesmo em agentes avançados, o descompasso entre métodos avançados e avaliação fraca). Além disso, analisamos conjuntos de dados e métricas de avaliação comumente usados (a parte empírica). Finalmente, discutimos desafios abertos de pesquisa e delineamos um roteiro prospectivo que enfatiza sistemas escaláveis de LLM-dados, projetos fundamentados para fluxos de trabalho agentivos confiáveis e protocolos de avaliação robustos.

daVinci-Dev: Treinamento Médio Nativo de Agente para Engenharia de Software
daVinci-Dev: Agent-native Mid-training for Software Engineering

Jan 26

ByJi Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu

126

Recentemente, a fronteira das capacidades dos Modelos de Linguagem de Grande Porte (LLMs) deslocou-se da geração de código em tarefas únicas para a engenharia de software agentiva – um paradigma em que os modelos navegam, editam e testam repositórios complexos de forma autónoma. Embora os métodos de pós-treinamento tenham se tornado a abordagem *de facto* para agentes de código, o **pré-treinamento agentivo** – o pré-treinamento (PT) em dados de larga escala que espelham fluxos de trabalho agentivos autênticos – permanece criticamente subexplorado devido aos substanciais requisitos de recursos, apesar de oferecer um caminho mais escalável para incutir comportamentos agentivos fundamentais do que depender exclusivamente de aprendizagem por reforço, que é dispendiosa. Um desafio central para concretizar um pré-treinamento agentivo eficaz é o desajuste de distribuição entre os dados de treino estáticos e o ambiente dinâmico e rico em *feedback* do desenvolvimento real. Para enfrentar este problema, apresentamos um estudo sistemático sobre o pré-treinamento agentivo, estabelecendo tanto os princípios de síntese de dados como a metodologia de treino para um desenvolvimento eficaz de agentes em escala. Central à nossa abordagem estão os **dados nativamente agentivos** – supervisão composta por dois tipos complementares de trajetórias: **trajetórias contextualmente nativas**, que preservam o fluxo completo de informação que um agente experiencia, oferecendo ampla cobertura e diversidade; e **trajetórias ambientalmente nativas**, recolhidas a partir de repositórios executáveis onde as observações resultam de invocações reais de ferramentas e execuções de testes, proporcionando profundidade e autenticidade interativa. Verificamos as capacidades agentivas do modelo no `SWE-Bench Verified`. Demonstramos a nossa superioridade sobre a receita anterior de pré-treinamento em engenharia de software aberta `Kimi-Dev` sob duas configurações de pós-treinamento com um modelo base alinhado e um *scaffold* agentivo, utilizando menos de metade dos *tokens* de pré-treinamento (73,1B). Para além da vantagem relativa, os nossos modelos de melhor desempenho, de 32B e 72B, atingem taxas de resolução de **56,1%** e **58,5%**, respetivamente, que são ...

O Roteiro é Tudo que Você Precisa: Uma Estrutura Agêntica para Geração de Vídeo Cinematográfico de Diálogo de Longo Horizonte
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

Jan 25

ByChenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus

Os recentes avanços na geração de vídeo produziram modelos capazes de sintetizar conteúdo visual impressionante a partir de simples instruções textuais. No entanto, esses modelos lutam para gerar narrativas longas e coerentes a partir de conceitos de alto nível, como diálogos, revelando uma "lacuna semântica" entre uma ideia criativa e sua execução cinematográfica. Para preencher essa lacuna, introduzimos uma nova estrutura agentiva de ponta a ponta para geração de vídeo cinematográfico a partir de diálogo. Central para nossa estrutura é o ScripterAgent, um modelo treinado para traduzir diálogos gerais em um roteiro cinematográfico detalhado e executável. Para viabilizar isso, construímos o ScriptBench, um novo benchmark de larga escala com contexto multimodal rico, anotado por meio de um pipeline guiado por especialistas. O roteiro gerado então orienta o DirectorAgent, que orquestra modelos de vídeo state-of-the-art usando uma estratégia de geração contínua entre cenas para garantir a coerência de longo prazo. Nossa avaliação abrangente, apresentando um CriticAgent alimentado por IA e uma nova métrica de Alinhamento Visual-Roteiro (VSA), mostra que nossa estrutura melhora significativamente a fidelidade ao roteiro e a fidelidade temporal em todos os modelos de vídeo testados. Além disso, nossa análise revela uma troca crucial nos modelos SOTA atuais entre o espetáculo visual e a adesão estrita ao roteiro, fornecendo insights valiosos para o futuro da cinematografia automatizada.

Ensinando Modelos a Ensinarem a Si Mesmos: Raciocínio na Fronteira da Aprendibilidade
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

Jan 26

ByShobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe

Um modelo pode aprender a escapar do seu próprio platô de aprendizagem? Métodos de aprendizagem por reforço para o ajuste fino de grandes modelos de raciocínio estagnam em conjuntos de dados com baixas taxas de sucesso iniciais e, portanto, pouco sinal de treinamento. Investigamos uma questão fundamental: Um LLM pré-treinado pode aproveitar conhecimento latente para gerar um currículo automatizado para problemas que não consegue resolver? Para explorar isso, projetamos o SOAR: uma estrutura de autoaprimoramento concebida para revelar esses sinais pedagógicos através de meta-RL. Uma cópia "professor" do modelo propõe problemas sintéticos para uma cópia "estudante", sendo recompensada pela melhoria desta em um pequeno subconjunto de problemas difíceis. Criticalmente, o SOAR ancora o currículo no progresso mensurado do estudante, e não em recompensas proxy intrínsecas. Nosso estudo nos subconjuntos mais difíceis de benchmarks matemáticos (0/128 de sucesso) revela três descobertas principais. Primeiro, mostramos que é possível realizar meta-RL bi-nível que desbloqueia a aprendizagem sob recompensas binárias esparsas, aguçando uma capacidade latente dos modelos pré-treinados de gerar "degraus" úteis. Segundo, recompensas ancoradas no desempenho superam esquemas de recompensa intrínsecos usados em autojogo prévio de LLMs, evitando de forma confiável a instabilidade e os modos de colapso de diversidade que eles normalmente exibem. Terceiro, a análise das questões geradas revela que a qualidade estrutural e a boa formulação são mais críticas para o progresso da aprendizagem do que a correção da solução. Nossos resultados sugerem que a capacidade de gerar degraus úteis não requer a habilidade preexistente de realmente resolver os problemas difíceis, abrindo um caminho fundamentado para escapar dos platôs de raciocínio sem dados curados adicionais.

Síntese Científica de Imagens: Benchmarking, Metodologias e Utilidade em Aplicações Secundárias
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

Jan 17

ByHonglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu

Embora os dados sintéticos tenham se mostrado eficazes para melhorar o raciocínio científico no domínio textual, o raciocínio multimodal continua limitado pela dificuldade de sintetizar imagens cientificamente rigorosas. Os modelos existentes de Texto para Imagem (T2I) frequentemente produzem resultados visualmente plausíveis, mas cientificamente incorretos, resultando em uma persistente divergência lógico-visual que limita seu valor para o raciocínio subsequente. Motivados pelos avanços recentes em modelos T2I de próxima geração, realizamos um estudo sistemático sobre a síntese de imagens científicas, abrangendo paradigmas de geração, avaliação e uso subsequente. Analisamos tanto a geração direta baseada em pixels quanto a síntese programática, e propomos o ImgCoder, uma estrutura orientada pela lógica que segue um fluxo de trabalho explícito de "compreender - planejar - codificar" para melhorar a precisão estrutural. Para avaliar rigorosamente a correção científica, introduzimos o SciGenBench, que avalia as imagens geradas com base na utilidade da informação e na validade lógica. Nossa avaliação revela modos de falha sistemáticos nos modelos baseados em pixels e destaca uma compensação fundamental entre expressividade e precisão. Por fim, demonstramos que o ajuste fino de Modelos Multimodais de Grande Escala (LMMs) em imagens científicas sintéticas rigorosamente verificadas produz ganhos consistentes de raciocínio, com tendências de escalabilidade análogas às do domínio textual, validando a síntese científica de alta fidelidade como um caminho viável para desbloquear capacidades massivas de raciocínio multimodal.

Atenção Elástica: Proporções de Esparsidade Adaptáveis em Tempo de Teste para Transformers Eficientes
Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

Jan 24

ByZecheng Tang, Quantong Qiu, Yi Yang, Zhiyi Hong, Haiya Xiang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang

A complexidade quadrática dos mecanismos de atenção padrão representa um significativo gargalo de escalabilidade para grandes modelos de linguagem (LLMs) em cenários de contexto longo. Embora estratégias de atenção híbrida, que combinam atenção esparsa e completa dentro de um único modelo, ofereçam uma solução viável, elas geralmente empregam proporções de computação estáticas (ou seja, proporções fixas de atenção esparsa versus completa) e não se adaptam às variadas sensibilidades de esparsidade das tarefas downstream durante a inferência. Para resolver esta questão, propomos a Atenção Elástica, que permite ao modelo ajustar dinamicamente sua esparsidade geral com base na entrada. Isto é alcançado através da integração de um Roteador de Atenção leve no modelo pré-treinado existente, que atribui dinamicamente cada cabeça de atenção a diferentes modos de computação. Com apenas 12 horas de treinamento em 8 GPUs A800, o nosso método permite que os modelos alcancem tanto um forte desempenho quanto uma inferência eficiente. Experimentos em três benchmarks de contexto longo, realizados em LLMs amplamente utilizados, demonstram a superioridade do nosso método.

iFSQ: Melhorando o FSQ para Geração de Imagens com 1 Linha de Código
iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Jan 23

ByBin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan

O campo de geração de imagens está atualmente dividido entre modelos autorregressivos (AR) que operam em *tokens* discretos e modelos de difusão que utilizam latentes contínuos. Esta divisão, enraizada na distinção entre VQ-VAEs e VAEs, dificulta a modelação unificada e a comparação rigorosa de desempenho (*benchmarking*). A Quantização Escalar Finita (FSQ) oferece uma ponte teórica, no entanto, a FSQ padrão sofre de uma falha crítica: a sua quantização de intervalos iguais pode causar colapso de ativações. Este desajuste força um compromisso entre a fidelidade de reconstrução e a eficiência informacional. Neste trabalho, resolvemos este dilema simplesmente substituindo a função de ativação na FSQ original por um mapeamento de correspondência de distribuição para impor um *prior* uniforme. Denominada iFSQ, esta estratégia simples requer apenas uma linha de código, mas garante matematicamente tanto a utilização ideal dos *bins* quanto a precisão de reconstrução. Utilizando a iFSQ como um benchmark controlado, descobrimos dois *insights* fundamentais: (1) O equilíbrio ideal entre representações discretas e contínuas situa-se em aproximadamente 4 bits por dimensão. (2) Sob restrições de reconstrução idênticas, os modelos AR exibem convergência inicial rápida, enquanto os modelos de difusão alcançam um limite de desempenho superior, sugerindo que a ordenação sequencial estrita pode limitar os limites superiores da qualidade de geração. Por fim, estendemos a nossa análise adaptando o Alinhamento de Representação (REPA) a modelos AR, resultando no LlamaGen-REPA. O código está disponível em https://github.com/Tencent-Hunyuan/iFSQ.

DeepPlanning: Avaliação do Planejamento de Agentes de Longo Horizonte com Restrições Verificáveis
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Jan 26

ByYinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin

Embora a avaliação de agentes tenha migrado para tarefas de longo horizonte, a maioria dos benchmarks ainda enfatiza o raciocínio local, ao nível da etapa, em vez da otimização global com restrições (por exemplo, orçamentos de tempo e financeiros) que exige genuína capacidade de planeamento. Paralelamente, os benchmarks existentes para planeamento com LLMs sub-representam a recolha ativa de informação e as restrições locais de granularidade fina típicas de ambientes do mundo real. Para resolver esta lacuna, introduzimos o DeepPlanning, um benchmark desafiante para o planeamento prático de agentes de longo horizonte. Este apresenta tarefas de planeamento de viagens multi-dia e de compras multi-produto que exigem aquisição proativa de informação, raciocínio local com restrições e otimização global com restrições. As avaliações no DeepPlanning mostram que mesmo os LLMs agenticos mais avançados têm dificuldades com estes problemas, destacando a importância de padrões de raciocínio explícito confiáveis e do uso paralelo de ferramentas para alcançar melhores compromissos entre eficácia e eficiência. A análise de erros aponta ainda para direções promissoras para a melhoria de LLMs agenticos em horizontes de planeamento longos. Disponibilizamos publicamente o código e os dados para apoiar investigação futura.

Modelagem de Profundidade Mascarada para Percepção Espacial
Masked Depth Modeling for Spatial Perception

Jan 25

ByBin Tan, Changjiang Sun, Xiage Qin, Hanat Adai, Zelin Fu, Tianxiang Zhou, Han Zhang, Yinghao Xu, Xing Zhu, Yujun Shen, Nan Xue

A percepção visual espacial é um requisito fundamental em aplicações do mundo real, como condução autónoma e manipulação robótica, impulsionada pela necessidade de interagir com ambientes 3D. A captura de profundidade métrica alinhada por pixel utilizando câmaras RGB-D seria a forma mais viável, mas geralmente enfrenta obstáculos impostos pelas limitações de hardware e condições de imagem desafiadoras, especialmente na presença de superfícies especulares ou sem textura. Neste trabalho, argumentamos que as imprecisões dos sensores de profundidade podem ser vistas como sinais "mascarados" que refletem inerentemente ambiguidades geométricas subjacentes. Com base nesta motivação, apresentamos o LingBot-Depth, um modelo de conclusão de profundidade que aproveita o contexto visual para refinar mapas de profundidade através de modelação de profundidade mascarada e incorpora um pipeline de curadoria de dados automatizado para treino escalável. É encorajador ver que o nosso modelo supera as melhores câmaras RGB-D em termos de precisão de profundidade e cobertura de pixel. Os resultados experimentais numa série de tarefas subsequentes sugerem ainda que o LingBot-Depth oferece uma representação latente alinhada através das modalidades RGB e de profundidade. Disponibilizamos o código, o *checkpoint* e 3M pares RGB-profundidade (incluindo 2M de dados reais e 1M de dados simulados) para a comunidade de perceção espacial.

Autoamostragem de Vídeo com Refinamento Automático
Self-Refining Video Sampling

Jan 26

BySangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang

Os geradores de vídeo modernos ainda enfrentam dificuldades com dinâmicas físicas complexas, frequentemente ficando aquém do realismo físico. As abordagens existentes lidam com isso usando verificadores externos ou treinamento adicional em dados aumentados, o que é computacionalmente dispendioso e ainda limitado na captura de movimentos refinados. Neste trabalho, apresentamos a amostragem de vídeo com auto-refinamento, um método simples que usa um gerador de vídeo pré-treinado em conjuntos de dados em larga escala como seu próprio refinador. Ao interpretar o gerador como um autoencoder de remoção de ruído, permitimos um refinamento iterativo em loop interno durante a inferência, sem qualquer verificador externo ou treinamento adicional. Introduzimos ainda uma estratégia de refinamento consciente da incerteza que refina seletivamente regiões com base na auto-consistência, prevenindo artefatos causados por super-refinamento. Experimentos com geradores de vídeo state-of-the-art demonstram melhorias significativas na coerência do movimento e no alinhamento físico, alcançando mais de 70% de preferência humana em comparação com o amostrador padrão e o amostrador baseado em orientação.

Relatório Técnico do VIBEVOICE-ASR
VIBEVOICE-ASR Technical Report

Jan 26

ByZhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei

Este relatório apresenta o VibeVoice-ASR, uma estrutura de compreensão de voz de propósito geral construída sobre o VibeVoice, projetada para abordar os desafios persistentes de fragmentação de contexto e complexidade de múltiplos interlocutores em áudios de longa duração (por exemplo, reuniões, podcasts), que permanecem apesar dos avanços recentes no reconhecimento de fala de curta duração. Diferente das abordagens tradicionais em pipeline que dependem do fracionamento de áudio, o VibeVoice-ASR suporta processamento em passagem única para áudios de até 60 minutos. Ele unifica o Reconhecimento Automático de Fala, a Diarização de Locutores e a Marcação Temporal em uma única tarefa de geração de fim a fim. Além disso, o VibeVoice-ASR suporta mais de 50 idiomas, não requer configuração explícita de idioma e lida nativamente com a alternância de código dentro e entre enunciados. Adicionalmente, introduzimos um mecanismo de injeção de contexto baseado em *prompts* que permite aos usuários fornecer contexto personalizado, melhorando significativamente a precisão na terminologia específica de domínio e no desambiguamento de caracteres polifónicos.

Compreensão de Vídeos Muito Longos com Agência
Agentic Very Long Video Understanding

Jan 26

ByAniket Rege, Arka Sadhu, Yuliang Li, Kejie Li, Ramya Korlakai Vinayak, Yuning Chai, Yong Jae Lee, Hyo Jin Kim

O surgimento de assistentes pessoais de IA sempre ativos, possibilitados por dispositivos vestíveis de uso contínuo, como óculos inteligentes, exige um novo nível de compreensão contextual, que vá além de eventos isolados e curtos para abranger o fluxo contínuo e longitudinal de vídeo egocêntrico. Realizar essa visão requer avanços na compreensão de vídeo de longo horizonte, onde os sistemas devem interpretar e recordar informações visuais e sonoras abrangendo dias ou mesmo semanas. Os métodos existentes, incluindo grandes modelos de linguagem e geração aumentada por recuperação, são limitados por janelas de contexto restritas e carecem da capacidade de realizar raciocínio composicional e multi-etapas sobre fluxos de vídeo muito longos. Neste trabalho, abordamos esses desafios por meio do EGAgent, uma estrutura agentiva aprimorada centrada em grafos de cena de entidades, que representam pessoas, lugares, objetos e suas relações ao longo do tempo. Nosso sistema equipa um agente de planejamento com ferramentas para busca estruturada e raciocínio sobre esses grafos, bem como capacidades híbridas de busca visual e sonora, permitindo um raciocínio detalhado, cross-modal e temporalmente coerente. Experimentos nos conjuntos de dados EgoLifeQA e Video-MME (Long) mostram que nosso método alcança desempenho de ponta no EgoLifeQA (57,5%) e desempenho competitivo no Video-MME (Long) (74,1%) para tarefas complexas de compreensão de vídeo longitudinal.

AR-Omni: Um Modelo Autoregressivo Unificado para Geração Any-to-Any
AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Jan 25

ByDongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li

A percepção e interação no mundo real são inerentemente multimodais, abrangendo não apenas a linguagem, mas também a visão e a fala, o que motiva o desenvolvimento de MLLMs "Omni" que suportam entradas e saídas multimodais. Embora uma sequência de MLLMs omni tenha surgido, a maioria dos sistemas existentes ainda depende de componentes especializados adicionais para alcançar a geração multimodal, limitando a simplicidade do treinamento e inferência unificados. A modelagem autoregressiva (AR), com um único fluxo de tokens, um único objetivo de próximo token e um único decodificador, é uma base elegante e escalável no domínio textual. Motivados por isso, apresentamos o AR-Omni, um modelo unificado de qualquer-para-qualquer no paradigma autoregressivo, sem qualquer decodificador especializado. O AR-Omni suporta geração autoregressiva de texto e imagem, bem como geração de fala em fluxo contínuo, tudo sob um único decodificador Transformer. Abordamos ainda três questões práticas na modelagem AR unificada: desequilíbrio de modalidade via reponderação de perda consciente da tarefa, fidelidade visual via uma perda de alinhamento perceptual leve em nível de token para tokens de imagem, e compensações entre estabilidade e criatividade via um mecanismo de decodificação de estado finito. Empiricamente, o AR-Omni alcança alta qualidade nas três modalidades, mantendo-se em tempo real, atingindo um fator de tempo real de 0,88 para geração de fala.

CGPT: Tabelas Parciais com Orientação de Agrupamento e Supervisão Gerada por LLM para Recuperação de Tabelas
CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

Jan 22

ByTsung-Hsiang Chou, Chen-Jui Yu, Shui-Hsiang Hsu, Yao-Chung Fan

Os modelos de incorporação de propósito geral demonstraram um desempenho robusto na recuperação de texto, mas permanecem subótimos para a recuperação de tabelas, onde o conteúdo altamente estruturado resulta em compressão semântica e incompatibilidade entre consulta e tabela. Métodos recentes de aumento de recuperação baseados em LLM mitigam essa questão gerando consultas sintéticas, porém frequentemente dependem de seleção heurística de tabelas parciais e raramente utilizam essas consultas sintéticas como supervisão para melhorar o modelo de incorporação. Apresentamos o CGPT, uma estrutura de treinamento que aprimora a recuperação de tabelas por meio de supervisão gerada por LLM. O CGPT constrói tabelas parciais semanticamente diversas agrupando instâncias de tabelas usando K-means e amostrando entre clusters para ampliar a cobertura semântica. Um LLM gera então consultas sintéticas para essas tabelas parciais, que são utilizadas em um ajuste contrastivo com negativos difíceis para refinar o modelo de incorporação. Experimentos em quatro benchmarks públicos (MimoTable, OTTQA, FetaQA e E2E-WTQ) mostram que o CGPT supera consistentemente as linhas de base de recuperação, incluindo QGpT, com uma melhoria média de 16,54% no R@1. Em um cenário unificado de corpus multidisciplinar, o CGPT demonstra ainda uma forte generalização entre domínios e mantém sua eficácia mesmo quando utiliza LLMs menores para geração de consultas sintéticas. Esses resultados indicam que a construção de tabelas parciais guiada semanticamente, combinada com treinamento contrastivo a partir de supervisão gerada por LLM, oferece um paradigma eficaz e escalável para recuperação de tabelas em larga escala. Nosso código está disponível em https://github.com/yumeow0122/CGPT.

Pagar Menos Imposto de Generalização: Um Estudo de Generalização Cruzada no Treinamento por RL para Agentes de LLM
Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

Jan 26

ByZhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang

Os agentes de LLM generalistas são frequentemente pós-treinados num conjunto restrito de ambientes, mas são implantados em domínios muito mais amplos e não vistos. Neste trabalho, investigamos o desafio do pós-treinamento agentivo quando os domínios de teste finais são desconhecidos. Especificamente, analisamos quais propriedades dos ambientes de aprendizagem por reforço (RL) e escolhas de modelagem têm a maior influência no desempenho fora do domínio. Primeiro, identificamos dois eixos ambientais que se correlacionam fortemente com a generalização cruzada de domínios: (i) a riqueza de informação do estado, ou seja, a quantidade de informação para o agente processar a partir do estado, e (ii) a complexidade de planeamento, estimada através da alcançabilidade do objetivo e do comprimento da trajetória sob uma política base. Notavelmente, o realismo do domínio e a similaridade a nível de texto não são os fatores primários; por exemplo, o domínio simples de mundo em grelha Sokoban leva a uma generalização ainda mais forte em SciWorld do que o ALFWorld mais realista. Motivados por estas descobertas, mostramos ainda que aumentar apenas a riqueza de informação do estado pode já melhorar efetivamente a robustez cruzada de domínios. Propomos uma técnica de randomização, de baixa sobrecarga e amplamente aplicável: adicionar pequenas quantidades de características distrativas irrelevantes para o objetivo ao estado para o tornar mais rico sem alterar a tarefa. Para além das propriedades do lado do ambiente, também examinamos várias escolhas de modelagem: (a) o aquecimento por SFT ou o treino intermédio ajuda a prevenir o esquecimento catastrófico durante o RL, mas prejudica a generalização para domínios que não estão incluídos na mistura de dados do treino intermédio; e (b) ativar o pensamento passo a passo durante o RL, embora nem sempre melhore o desempenho dentro do domínio, desempenha um papel crucial na preservação da generalização.

C-RADIOv4 (Relatório Técnico)
C-RADIOv4 (Tech Report)

Jan 24

ByMike Ranzinger, Greg Heinrich, Collin McCarthy, Jan Kautz, Andrew Tao, Bryan Catanzaro, Pavlo Molchanov

Ao aproveitar a destilação multi-professores, os backbones visuais aglomerativos fornecem um modelo de estudante unificado que retém e aprimora as capacidades distintas de múltiplos professores. Neste relatório técnico, descrevemos o lançamento mais recente da família de modelos C-RADIO, o C-RADIOv4, que se baseia no AM-RADIO/RADIOv2.5 em design, oferecendo fortes melhorias em tarefas downstream-chave com a mesma complexidade computacional. Lançamos as variantes de modelo -SO400M (412M de parâmetros) e -H (631M), ambas treinadas com um conjunto atualizado de professores: SigLIP2, DINOv3 e SAM3. Além das melhorias nas métricas principais e das novas capacidades provenientes da imitação do SAM3, a família de modelos C-RADIOv4 aprimora ainda mais o suporte a qualquer resolução, traz de volta a opção ViTDet para eficiência drasticamente aprimorada em alta resolução, e é acompanhada por uma licença permissiva.

TSRBench: Um Benchmark Abrangente de Raciocínio em Séries Temporais Multi-tarefa e Multimodal para Modelos Generalistas
TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

Jan 26

ByFangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou

Os dados de séries temporais são ubíquos em cenários do mundo real e cruciais para aplicações críticas que vão desde a gestão de energia até o controle de tráfego. Consequentemente, a capacidade de raciocinar sobre séries temporais é uma competência fundamental para modelos generalistas resolverem problemas práticos. No entanto, esta dimensão está notavelmente ausente dos benchmarks existentes para modelos generalistas. Para preencher esta lacuna, introduzimos o TSRBench, um benchmark multimodal abrangente projetado para testar rigorosamente todo o espectro de capacidades de raciocínio sobre séries temporais. O TSRBench apresenta: i) um conjunto diversificado de 4125 problemas de 14 domínios, categorizado em 4 dimensões principais: Percepção, Raciocínio, Previsão e Tomada de Decisão; ii) 15 tarefas das 4 dimensões que avaliam capacidades essenciais de raciocínio (por exemplo, raciocínio numérico). Através de experimentos extensivos, avaliamos mais de 30 LLMs, VLMs e TSLLMs líderes, proprietários e de código aberto, dentro do TSRBench. Nossas descobertas revelam que: i) as leis de escala valem para perceção e raciocínio, mas falham na previsão; ii) um raciocínio forte não garante uma previsão contextual precisa, indicando um desacoplamento entre a compreensão semântica e a previsão numérica; e iii) apesar da natureza complementar das representações textuais e visuais de séries temporais como entradas, os modelos multimodais atuais não conseguem fundi-las eficazmente para obter ganhos recíprocos de desempenho. O TSRBench fornece uma plataforma de avaliação padronizada que não só destaca os desafios existentes, mas também oferece insights valiosos para avançar os modelos generalistas. O nosso código e conjunto de dados estão disponíveis em https://tsrbench.github.io/.

Uma Visão Mecanicista da Geração de Vídeo como Modelos do Mundo: Estado e Dinâmica
A Mechanistic View on Video Generation as World Models: State and Dynamics

Jan 22

ByLuozhou Wang, Zhifei Chen, Yihua Du, Dongyu Yan, Wenhang Ge, Guibao Shen, Xinli Xu, Leyi Wu, Man Chen, Tianshuo Xu, Peiran Ren, Xin Tao, Pengfei Wan, Ying-Cong Chen

Modelos de geração de vídeo em larga escala demonstraram coerência física emergente, posicionando-os como potenciais modelos de mundo. No entanto, persiste uma lacuna entre as arquiteturas de vídeo "sem estado" contemporâneas e as teorias clássicas de modelos de mundo centradas em estado. Este trabalho preenche essa lacuna propondo uma nova taxonomia centrada em dois pilares: Construção de Estado e Modelagem de Dinâmicas. Categorizamos a construção de estado em paradigmas implícitos (gerenciamento de contexto) e explícitos (compressão latente), enquanto a modelagem de dinâmicas é analisada por meio da integração de conhecimento e da reformulação arquitetônica. Além disso, defendemos uma transição na avaliação da fidelidade visual para *benchmarks* funcionais, testando a persistência física e o raciocínio causal. Concluímos identificando duas fronteiras críticas: aprimorar a persistência por meio de memória orientada a dados e fidelidade compactada, e avançar a causalidade por meio do desacoplamento de fatores latentes e da integração de *priors* de raciocínio. Ao enfrentar esses desafios, a área pode evoluir da geração de vídeos visualmente plausíveis para a construção de simuladores de mundo robustos e de propósito geral.

# Relatório Técnico do SkyReels-V3
SkyReels-V3 Technique Report

Jan 24

ByDebang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou

A geração de vídeo serve como pedra angular para a construção de modelos de mundo, onde a inferência contextual multimodal representa o teste definitivo de capacidade. Para este fim, apresentamos o SkyReels-V3, um modelo de geração de vídeo condicional, construído sobre um framework unificado de aprendizado in-context multimodal com Transformers de difusão. O modelo SkyReels-V3 suporta três paradigmas gerativos centrais em uma única arquitetura: síntese de imagens de referência para vídeo, extensão de vídeo para vídeo e geração de vídeo guiada por áudio. (i) O modelo de imagens de referência para vídeo é projetado para produzir vídeos de alta fidelidade com forte preservação da identidade do sujeito, coerência temporal e consistência narrativa. Para melhorar a aderência à referência e a estabilidade composicional, projetamos um pipeline abrangente de processamento de dados que aproveita o emparelhamento cruzado de frames, edição de imagem e reescrita semântica, mitigando efetivamente artefatos do tipo "copiar e colar". Durante o treinamento, uma estratégia híbrida de imagem e vídeo combinada com otimização conjunta de multi-resolução é empregada para melhorar a generalização e robustez em diversos cenários. (ii) O modelo de extensão de vídeo integra a modelagem de consistência espaço-temporal com a compreensão de vídeo em larga escala, permitindo tanto a continuação contínua de tomada única quanto a transição inteligente entre múltiplas tomadas com padrões cinematográficos profissionais. (iii) O modelo de avatar falante suporta a geração de vídeo condicionada por áudio em nível de minutos, treinando padrões de inserção de primeiro e último frame e reconstruindo paradigmas de inferência de key-frames. Com base na garantia da qualidade visual, a sincronização de áudio e vídeo foi otimizada. Avaliações extensivas demonstram que o SkyReels-V3 alcança desempenho state-of-the-art ou próximo dele em métricas-chave, incluindo qualidade visual, seguimento de instruções e métricas de aspectos específicos, aproximando-se de sistemas líderes de código fechado. Github: https://github.com/SkyworkAI/SkyReels-V3.

STAR: Representação Semântica de Tabelas com Agrupamento Consciente de Cabeçalhos e Fusão Ponderada Adaptativa
STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion

Jan 22

ByShui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan

A recuperação de tabelas é a tarefa de recuperar as tabelas mais relevantes de grandes corpora, dadas consultas em linguagem natural. No entanto, as discrepâncias estruturais e semânticas entre texto não estruturado e tabelas estruturadas tornam o alinhamento de *embeddings* particularmente desafiador. Métodos recentes, como o QGpT, tentam enriquecer a semântica das tabelas gerando consultas sintéticas, mas ainda dependem de amostragem grosseira de tabelas parciais e estratégias de fusão simples, o que limita a diversidade semântica e dificulta o alinhamento efetivo entre consulta e tabela. Propomos o STAR (*Semantic Table Representation*), um *framework* leve que melhora a representação semântica de tabelas por meio de agrupamento semântico e fusão ponderada. O STAR aplica primeiro o agrupamento K-means com consciência de cabeçalho para agrupar linhas semanticamente similares e seleciona instâncias centróides representativas para construir uma tabela parcial diversificada. Em seguida, gera consultas sintéticas específicas por cluster para cobrir de forma abrangente o espaço semântico da tabela. Por fim, o STAR emprega estratégias de fusão ponderada para integrar os *embeddings* da tabela e da consulta, permitindo um alinhamento semântico de granularidade fina. Este projeto permite que o STAR capture informações complementares de fontes estruturadas e textuais, melhorando a expressividade das representações de tabela. Experimentos em cinco *benchmarks* mostram que o STAR alcança um *Recall* consistentemente maior do que o QGpT em todos os conjuntos de dados, demonstrando a eficácia do agrupamento semântico e da fusão ponderada adaptativa para uma representação robusta de tabelas. O nosso código está disponível em https://github.com/adsl135789/STAR.

DRPG (Decompor, Recuperar, Planejar, Gerar): Uma Estrutura Agêntica para Réplica Acadêmica
DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal

Jan 26

ByPeixuan Han, Yingjie Yu, Jingjun Xu, Jiaxuan You

Apesar da crescente adoção de grandes modelos de linguagem (LLMs) nos fluxos de trabalho de pesquisa científica, o suporte automatizado para a réplica académica, uma etapa crucial na comunicação académica e na revisão por pares, permanece largamente inexplorado. As abordagens existentes geralmente dependem de LLMs padrão ou de pipelines simples, que lutam com a compreensão de contexto longo e frequentemente falham em produzir respostas direcionadas e persuasivas. Neste artigo, propomos o DRPG, uma estrutura agentiva para a geração automática de réplicas académicas que opera através de quatro etapas: Decompor as revisões em preocupações atómicas, Recuperar evidências relevantes do artigo, Planear estratégias de réplica e Gerar respostas em conformidade. Notavelmente, o Planeador no DRPG atinge mais de 98% de precisão na identificação da direção de réplica mais viável. Experiências com dados de conferências de topo demonstram que o DRPG supera significativamente os pipelines de réplica existentes e atinge um desempenho além do nível humano médio, utilizando apenas um modelo de 8B. A nossa análise demonstra ainda a eficácia do design do planeador e o seu valor em fornecer sugestões multi-perspetiva e explicáveis. Também mostrámos que o DRPG funciona bem num cenário multi-round mais complexo. Estes resultados destacam a eficácia do DRPG e o seu potencial para fornecer conteúdo de réplica de alta qualidade e apoiar a escalabilidade das discussões académicas. Os códigos para este trabalho estão disponíveis em https://github.com/ulab-uiuc/DRPG-RebuttalAgent.

IVRA: Melhoria das Relações Visual-Token para Políticas de Ação Robótica com Orientação Baseada em Dicas sem Treinamento
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

Jan 22

ByJongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo

Muitos modelos Visão-Linguagem-Ação (VLA) achatam os patches de imagem em uma sequência unidimensional de tokens, enfraquecendo as pistas espaciais 2D necessárias para uma manipulação precisa. Apresentamos o IVRA, um método leve e livre de treinamento que melhora a compreensão espacial explorando dicas de afinidade já disponíveis no codificador visual integrado do modelo, sem exigir qualquer codificador externo ou retreinamento. O IVRA injeta seletivamente esses sinais de afinidade em uma camada do modelo de linguagem onde residem as características em nível de instância. Esta intervenção em tempo de inferência realinha as interações visual-token e preserva melhor a estrutura geométrica, mantendo todos os parâmetros do modelo fixos. Demonstramos a generalidade do IVRA aplicando-o a diversas arquiteturas VLA (LLaRA, OpenVLA e FLOWER) em benchmarks simulados abrangendo manipulação 2D e 3D (VIMA e LIBERO) e em várias tarefas com robôs reais. No VIMA 2D, o IVRA melhora o sucesso médio em +4,2% sobre a linha de base LLaRA em um regime de poucos dados. No LIBERO 3D, produz ganhos consistentes sobre as linhas de base OpenVLA e FLOWER, incluindo melhorias quando a precisão da linha de base está próxima da saturação (96,3% para 97,1%). Todo o código e modelos serão liberados publicamente. Visualizações estão disponíveis em: jongwoopark7978.github.io/IVRA.

SAGE: Geração de Dados Agente Direcionável para Busca Profunda com Feedback de Execução
SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

Jan 26

ByFangyuan Xu, Rujun Han, Yanfei Chen, Zifeng Wang, I-Hung Hsu, Jun Yan, Vishy Tirumalashetty, Eunsol Choi, Tomas Pfister, Chen-Yu Lee

Os agentes de busca profunda, que visam responder a perguntas complexas exigindo raciocínio em múltiplos documentos, podem acelerar significativamente o processo de busca por informação. A recolha de anotações humanas para esta aplicação é proibitivamente cara devido às trajetórias de exploração longas e complexas. Propomos um pipeline agentivo que gera automaticamente pares pergunta-resposta de busca profunda, de alta qualidade e com dificuldade controlada, para um determinado corpus e um nível de dificuldade alvo. O nosso pipeline, SAGE, consiste num gerador de dados que propõe pares QA e num agente de busca que tenta resolver a pergunta gerada e fornecer *feedback* de execução ao gerador de dados. Os dois componentes interagem ao longo de múltiplas rondas para refinar iterativamente os pares pergunta-resposta até estes satisfazerem o nível de dificuldade alvo. A nossa avaliação intrínseca mostra que o SAGE gera perguntas que exigem estratégias de raciocínio diversificadas, aumentando simultaneamente a correção e a dificuldade dos dados gerados. A nossa avaliação extrínseca demonstra um ganho de desempenho relativo de até 23% em *benchmarks* populares de busca profunda, ao treinar agentes de busca profunda com os nossos dados sintéticos. Experiências adicionais mostram que agentes treinados com os nossos dados conseguem adaptar-se da recuperação em corpus fixo para a Pesquisa Google durante a inferência, sem treino adicional.

Yunjue Agent技术报告：面向开放任务的完全可复现、零启动原位自进化智能体系统
Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks

Jan 26

ByHaotian Li, Shijun Yang, Weizhen Qi, Silei Zhao, Rui Hua, Mingzhu Song, Xiaojian Yang, Chao Peng

Os sistemas de agentes convencionais frequentemente enfrentam dificuldades em ambientes abertos, onde as distribuições de tarefas mudam continuamente e a supervisão externa é escassa. Sua dependência de conjuntos de ferramentas estáticos ou treinamento offline fica aquém dessas dinâmicas, deixando os limites de capacidade do sistema rígidos e desconhecidos. Para resolver isso, propomos o paradigma de Autoevolução In Situ. Esta abordagem trata as interações sequenciais de tarefas como um fluxo contínuo de experiência, permitindo que o sistema destile o feedback de execução de curto prazo em capacidades reutilizáveis de longo prazo, sem acesso a rótulos de verdade fundamental. Dentro deste quadro, identificamos a evolução de ferramentas como o caminho crítico para a expansão de capacidades, que fornece sinais de feedback binários e verificáveis. Neste contexto, desenvolvemos o Agente Yunjue, um sistema que sintetiza, otimiza e reutiliza ferramentas iterativamente para enfrentar desafios emergentes. Para otimizar a eficiência evolutiva, introduzimos ainda uma estratégia de Evolução em Lote Paralelo. Avaliações empíricas em cinco benchmarks diversos, sob uma configuração de início zero, demonstram ganhos significativos de desempenho em comparação com baselines proprietárias. Adicionalmente, avaliações complementares de início aquecido confirmam que o conhecimento geral acumulado pode ser transferido perfeitamente para novos domínios. Por fim, propomos uma nova métrica para monitorar a convergência da evolução, funcionando como um análogo à perda de treinamento na otimização convencional. Disponibilizamos publicamente nosso código-base, traços do sistema e ferramentas evoluídas para facilitar pesquisas futuras em inteligência resiliente e autoevolutiva.

Difusão na Difusão: Recuperando a Coerência Global em Difusão Semi-Autorregressiva
Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

Jan 20

ByLinrui Ma, Yufei Cui, Kai Han, Yunhe Wang

Uma das características mais convincentes dos modelos de linguagem de difusão discreta global é sua capacidade contextual bidirecional global. No entanto, os estudos existentes sobre difusão baseada em blocos tendem a introduzir premissas autorregressivas que, embora ofereçam benefícios, podem fazer com que os modelos percam essa coerência global em nível macro. Para recuperar a compreensão contextual global enquanto preservamos as vantagens do paradigma semiautorregressivo, propomos o Difusão na Difusão, uma estrutura "rascunhar-depois-refinar" projetada para superar os problemas de irreversibilidade e miopia inerentes aos modelos de difusão em blocos. Nossa abordagem emprega primeiro a difusão em blocos para gerar rascunhos rápidos usando blocos pequenos e, em seguida, refina esses rascunhos por meio de difusão bidirecional global com um campo receptivo bidirecional maior. Utilizamos o remascaramento de confiança por instantâneo para identificar os tokens mais críticos que requerem modificação e aplicamos o treinamento em escala mista para expandir as capacidades globais do modelo de difusão em blocos. Resultados empíricos demonstram que nossa abordagem estabelece um novo padrão de referência para modelos de difusão discreta no conjunto de dados OpenWebText. Utilizando apenas 26% do orçamento de ajuste fino dos modelos de base, reduzimos a perplexidade gerativa de 25,7 para 21,9, estreitando significativamente a lacuna de desempenho com modelos autorregressivos.

Fast KVzip: Inferência Eficiente e Precis
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

Jan 25

ByJang-Hyun Kim, Dongyoon Han, Sangdoo Yun

A gestão eficiente da cache de pares chave-valor (KV) é crucial para a implantação prática de grandes modelos de linguagem (LLMs), mas as técnicas de compressão existentes frequentemente incorrem num compromisso entre degradação de desempenho e sobrecarga computacional. Propomos um novo método de evicção da cache KV baseado em portões para LLMs com pesos congelados, que alcança altas taxas de compressão com um custo computacional insignificante. A nossa abordagem introduz módulos leves de portões com atenção de sumidouro para identificar e reter pares KV críticos, e integra-se perfeitamente tanto na fase de pré-preenchimento como na de descodificação. O algoritmo de treino dos portões proposto baseia-se em passes diretos de um LLM, evitando a retropropagação dispendiosa, enquanto alcança uma forte generalização de tarefas através de um objetivo de reconstrução independente da tarefa. Experiências extensivas nas famílias Qwen2.5-1M, Qwen3 e Gemma3 mostram que o nosso método mantém um desempenho quase sem perdas enquanto evita até 70% da cache KV. Os resultados são consistentes numa ampla gama de tarefas, incluindo compreensão de contexto longo, compreensão de código e raciocínio matemático, demonstrando a generalidade da nossa abordagem.

Um Se Adapta a Todos: Meta Modelagem de Recompensa para Alinhamento Personalizado de LLMs
One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Jan 26

ByHongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li

O Alinhamento de Grandes Modelos de Linguagem (LLMs) visa alinhar as saídas com as preferências humanas, e o alinhamento personalizado adapta ainda mais os modelos a utilizadores individuais. Isto depende de modelos de recompensa personalizados que capturam preferências específicas do utilizador e fornecem automaticamente *feedback* individualizado. No entanto, o desenvolvimento destes modelos enfrenta dois desafios críticos: a escassez de *feedback* de utilizadores individuais e a necessidade de uma adaptação eficiente a utilizadores não vistos. Argumentamos que abordar estas restrições requer uma mudança de paradigma, passando de ajustar dados para aprender preferências do utilizador para aprender o processo de adaptação de preferências. Para concretizar isto, propomos a Modelação de Recompensa Meta (MRM), que reformula a modelação de recompensa personalizada como um problema de *meta-learning*. Especificamente, representamos o modelo de recompensa de cada utilizador como uma combinação ponderada de funções de recompensa base, e otimizamos a inicialização destes pesos usando uma estrutura do tipo Model-Agnostic Meta-Learning (MAML) para suportar uma adaptação rápida com *feedback* limitado. Para garantir robustez, introduzimos o Objetivo de Personalização Robusta (RPO), que coloca maior ênfase nos utilizadores difíceis de aprender durante a meta-otimização. Experiências extensas em conjuntos de dados de preferências personalizadas validam que a MRM melhora a personalização com poucos exemplos, aumenta a robustez do utilizador e supera consistentemente os métodos de comparação.

PingPong: Um Benchmark Natural para Diálogos com Alternância de Código em Múltiplos Turnos
PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues

Jan 24

ByMohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji

A alternância de códigos é uma prática generalizada entre a maioria multilíngue mundial, porém poucos benchmarks refletem com precisão sua complexidade na comunicação cotidiana. Apresentamos o PingPong, um benchmark para diálogos naturais de alternância de códigos multiparticipantes, abrangendo cinco variações de combinações linguísticas, algumas das quais são trilíngues. Nosso conjunto de dados consiste em conversas elaboradas por humanos entre 2 a 4 participantes, cobrindo estruturas autênticas e multithread onde as respostas frequentemente referenciam pontos muito anteriores no diálogo. Demonstramos que nossos dados são significativamente mais naturais e estruturalmente diversificados do que alternativas geradas por máquina, oferecendo maior variação no comprimento das mensagens, dominância do falante e distância de resposta. Com base nesses diálogos, definimos três tarefas derivadas: Resposta a Perguntas, Sumarização de Diálogos e Classificação de Tópicos. Avaliações de vários modelos de linguagem state-of-the-art no PingPong revelam que o desempenho permanece limitado em entradas com alternância de códigos, destacando a necessidade urgente de sistemas de PLN mais robustos capazes de abordar as complexidades do discurso multilíngue do mundo real.

Paralelismo de Especialistas com Menor Carga: Balanceamento de Carga em uma Mistura de Especialistas Desbalanceada Resumo A arquitetura Mistura de Especialistas (MoE) tornou-se uma técnica fundamental para escalar modelos de linguagem grandes (LLMs) de forma eficiente em termos de parâmetros. No entanto, o treinamento e a inferência eficientes de modelos MoE são frequentemente prejudicados por problemas de desbalanceamento de carga entre os especialistas. Este artigo apresenta o Paralelismo de Especialistas com Menor Carga (Least-Loaded Expert Parallelism - LLEP), uma nova estratégia de balanceamento de carga dinâmica e descentralizada projetada especificamente para ambientes de treinamento distribuído. Diferentemente das abordagens existentes, como o balanceamento de carga baseado em routing ou centralizado, o LLEP atribui tokens aos especialistas com base na sua carga computacional atual de forma pró-ativa, minimizando ociosidade e reduzindo significativamente o tempo de espera por sincronização (overhead). Avaliações experimentais em várias tarefas e configurações de modelo demonstram que o LLEP supera os métodos tradicionais, alcançando um melhor balanceamento de carga, maior eficiência de treinamento e melhor escalabilidade, especialmente em cenários com alta disparidade de carga entre especialistas. 1. Introdução Os modelos baseados na arquitetura Mistura de Especialistas (MoE) [1, 2] permitem escalar dramaticamente o número de parâmetros de um modelo sem um aumento proporcional no custo computacional. Nesses modelos, um mecanismo router (ou gate) seleciona dinamicamente um subconjunto de "especialistas" (redes neurais menores) para processar cada entrada. Embora eficiente em teoria, a eficácia prática dos modelos MoE depende criticamente de como a carga de trabalho é distribuída entre os especialistas disponíveis. Um desafio central é o desbalanceamento de carga. Se alguns especialistas recebem uma quantidade desproporcional de tokens para processar, eles se tornam gargalos, enquanto outros permanecem ociosos. Esse desequilíbrio leva a uma subutilização dos recursos computacionais (ex.: GPUs) e a um aumento do tempo de espera, pois o sistema precisa sincronizar todos os especialistas antes de prosseguir para a próxima etapa (o problema conhecido como "esperar pelo mais lento" ou straggler). As abordagens atuais para mitigar esse problema incluem: 1. **Restrições de Routing:** Adicionar uma função de perda de balanceamento de carga (load balancing loss) ao objetivo de treinamento [1] ou usar routing com top-k com capacidade limitada (capacity factor) [3]. Essas métodos são indiretos e podem prejudicar a performance do modelo ao restringir demais o router. 2. Balanceamento Centralizado: Utilizar um coordenador central para redistribuir tokens após o routing inicial [4]. Esta abordagem introduz um ponto único de falha e overhead de comunicação significativo, limitando sua escalabilidade. Neste trabalho, propomos o Paralelismo de Especialistas com Menor Carga (LLEP), um paradigma que aborda o problema do balanceamento de carga de forma fundamentalmente diferente. Em vez de confiar apenas no router ou em um controlador central, o LLEP implementa um esquema de atribuição de tokens descentralizado e baseado na carga atual de cada especialista. A ideia central é simples: antes de processar um lote de dados, cada nó de trabalho consulta a carga dos especialistas e atribui seus tokens aos especialistas que estão com menos trabalho alocado no momento. 2. Paralelismo de Especialistas com Menor Carga (LLEP) 2.1. Arquitetura do Sistema O LLEP é projetado para um ambiente de treinamento distribuído onde os especialistas estão distribuídos por múltiplos dispositivos (ex.: GPUs). Assume-se que há uma camada de comunicação eficiente (ex.: via NCCL) que permite a troca de mensagens entre os dispositivos. 2.2. Algoritmo de Atribuição O algoritmo principal do LLEP opera da seguinte forma para cada lote de treinamento: 1. Cálculo Local de Carga: Cada nó de trabalho (que contém uma parte dos dados do lote) calcula, de forma independente, a carga de trabalho local que seria gerada para cada especialista com base no routing inicial (ex.: usando uma política top-k). 2. Troca de Informação de Carga: Os nós trocam informações sobre a carga calculada para cada especialista. Isso pode ser feito de forma eficiente usando uma operação de all-to-all ou all-gather para agregar um vetor de carga global. 3. Seleção do Especialista com Menor Carga: Para cada token, em vez de seguir cegamente a decisão original do router, o nó reavalia a atribuição. Ele considera a lista de especialistas candidatos (por exemplo, os top-k do router) e seleciona aquele que tem a menor carga total agregada no momento, com base na informação global coletada no passo 2. 4. Roteamento e Processamento: Os tokens são então roteados para os especialistas selecionados e o processamento prossegue. Este processo é ilustrado na Figura 1, contrastando a abordagem tradicional com a LLEP. (Inserir Figura 1 aqui: Comparação entre o roteamento MoE tradicional e o esquema LLEP) 2.3. Vantagens * Balanceamento Dinâmico e Proativo: O LLEP adapta-se instantaneamente às flutuações de carga entre os especialistas a cada lote, prevenindo a formação de gargalos. * Descentralizado: Elimina a necessidade de um coordenador central, melhorando a robustez e a escalabilidade. * **Redução de Overhead de Sincronização:** Ao equilibrar melhor a carga, reduz o tempo que os especialistas rápidos ficam esperando pelos mais lentos, aumentando a eficiência geral. * Compatibilidade: Pode ser combinado com técnicas existentes de balanceamento de router (ex.: perda de balanceamento) para um controle ainda mais refinado. 3. Avaliação Experimental 3.1. Configuração Avaliamos o LLEP em tarefas de modelagem de linguagem usando os conjuntos de dados C4 e The Pile. Treinamos modelos MoE de escala média (centenas de milhões de parâmetros) em um cluster com 8 a 32 GPUs. Comparamos o LLEP com duas baselines: 1) MoE padrão com balanceamento de carga via router (capacidade limitada) e 2) Uma abordagem centralizada de balanceamento pós-routing. 3.2. Métricas * Desvio Padrão da Carga: Mede o quão igualmente a carga é distribuída entre os especialistas (quanto menor, melhor). * Utilização de Especialistas: Percentual de tempo que os especialistas estão ativamente processando dados. * Tokens Processados por Segundo (Throughput): A métrica final de eficiência de treinamento. * Perplexidade: Para garantir que o balanceamento de carga não degrada a qualidade do modelo. 3.3. Resultados Nossos resultados mostram que: * Balanceamento de Carga: O LLEP alcança um desvio padrão de carga consistentemente 50-70% menor do que a abordagem padrão com capacidade limitada, especialmente em lotes grandes ou com distribuição de tokens muito enviesada. * Eficiência de Treinamento (Throughput): O LLEP proporciona um ganho de 15-25% em throughput (tokens/segundo) em comparação com a baseline padrão, devido à redução drástica do tempo de espera. * Qualidade do Modelo: A perplexidade dos modelos treinados com LLEP é equivalente ou ligeiramente melhor do que a das baselines, indicando que a estratégia de balanceamento mais agressiva não prejudica a performance do modelo e pode até melhorar o aprendizado ao permitir um treinamento mais estável. * Escalabilidade: O overhead de comunicação do LLEP escala melhor do que o da abordagem centralizada à medida que o número de GPUs aumenta. 4. Trabalhos Relacionados Discutimos brevemente outras abordagens para otimizar modelos MoE, como BASE layers [5], que tentam balancear a carga via routing inteligente, e o Switch Transformer [3], que introduziu o conceito de capacidade limitada. O LLEP é complementar a essas técnicas, focando na camada de sistemas distribuídos em vez de modificar apenas o mecanismo de routing. 5. Conclusão e Trabalhos Futuros Apresentamos o Paralelismo de Especialistas com Menor Carga (LLEP), uma técnica eficaz para balanceamento de carga dinâmico em modelos Mistura de Especialistas. Ao descentralizar a decisão de roteamento e basear-se na carga computacional atual, o LLEP supera as limitações das abordagens existentes, levando a ganhos significativos de eficiência no treinamento distribuído. Para trabalhos futuros, planejamos investigar a integração do LLEP com algoritmos de routing mais avançados e explorar sua aplicação em cenários de inferência em tempo real, onde o balanceamento de carga é igualmente crítico. Referências [1] Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. [2] Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. [3] Fedus, W. et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. [4] ... (Trabalho sobre balanceamento centralizado) [5] Lewis, M. et al. (2021). BASE Layers: Simple and Effective Language Modeling.
Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts

Jan 23

ByXuan-Phi Nguyen, Shrey Pandit, Austin Xu, Caiming Xiong, Shafiq Joty

Os modelos Mixture-of-Experts (MoE) são tipicamente pré-treinados com restrições explícitas de balanceamento de carga para garantir um roteamento de especialistas estatisticamente equilibrado. Apesar disso, observamos que mesmo modelos MoE bem treinados exibem roteamento significativamente desequilibrado. Este comportamento é indiscutivelmente natural - e até mesmo desejável - pois o roteamento desequilibrado permite que os modelos concentrem conhecimento específico de domínio dentro de um subconjunto de especialistas. O paralelismo de especialistas (EP) é projetado para escalar modelos MoE distribuindo especialistas por múltiplos dispositivos, mas com uma suposição pouco discutida de roteamento equilibrado. Sob desequilíbrio extremo, o EP pode canalizar um número desproporcional de tokens para um pequeno número de especialistas, levando a falhas por limitação de computação e memória em dispositivos sobrecarregados durante o pós-treinamento ou inferência, onde o balanceamento explícito de carga geralmente não é aplicável. Propomos o Paralelismo de Especialistas de Menor Carga (LLEP), um algoritmo de EP inovador que rerroteia dinamicamente tokens excedentes e os parâmetros de especialistas associados de dispositivos sobrecarregados para subutilizados. Isso garante que todos os dispositivos completem suas cargas de trabalho dentro da latência coletiva mínima, respeitando as restrições de memória. Em diferentes escalas de modelo, o LLEP alcança até 5x de aceleração e redução de 4x no uso de memória de pico em comparação com o EP padrão. Isso permite pós-treinamento e inferência mais rápidos e com maior throughput, sendo ~1,9x mais rápido para o gpt-oss-120b. Suportamos nosso método com extensa análise teórica e avaliações empíricas abrangentes, incluindo estudos de ablação. Esses resultados elucidam compensações fundamentais e permitem uma estrutura fundamentada para ajuste de hiperparâmetros específicos de hardware para alcançar desempenho ótimo.

Diarização Conjunta de Papéis de Locutor e ASR de Fim a Fim em Interações Adulto-Criança
End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

Jan 25

ByAnfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan

A transcrição precisa e a diarização de falantes em interações faladas entre crianças e adultos são cruciais para a pesquisa clínica e do desenvolvimento. No entanto, a anotação manual é demorada e de difícil escalonamento. Os sistemas automatizados existentes normalmente dependem de pipelines em cascata de diarização de falantes e reconhecimento de fala, o que pode levar à propagação de erros. Este artigo apresenta uma estrutura unificada de fim-para-fim que estende a arquitetura codificador-decodificador do Whisper para modelar conjuntamente o ASR e a diarização do papel do falante (criança/adulto). A abordagem proposta integra: (i) um esquema de treinamento de saída serializada que emite etiquetas de falante e carimbos de data/hora de início/fim, (ii) um cabeçalho de diarização leve a nível de *frame* que aprimora as representações codificadoras discriminativas do falante, (iii) supressão de silêncio guiada por diarização para melhor precisão temporal, e (iv) um procedimento de decodificação forçada baseado em máquina de estados que garante saídas estruturalmente válidas. Avaliações abrangentes em dois conjuntos de dados demonstram melhorias consistentes e substanciais em relação a duas linhas de base em cascata, alcançando menores taxas de erro de palavras em falantes múltiplos e demonstrando precisão de diarização competitiva nos modelos Whisper-small e Whisper-large. Esses achados destacam a eficácia e a utilidade prática da estrutura de modelagem conjunta proposta para gerar transcrições confiáveis, com atribuição de falante, de interações criança-adulto em escala. O código e os pesos do modelo estão publicamente disponíveis.

Os Efeitos Colaterais de Ser Inteligente: Riscos de Segurança no Raciocínio com Múltiplas Imagens em MLLMs
The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

Jan 20

ByRenmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang

À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) adquirem capacidades de raciocínio mais fortes para lidar com instruções complexas envolvendo múltiplas imagens, este avanço pode representar novos riscos de segurança. Estudamos este problema através da introdução do MIR-SafetyBench, o primeiro benchmark focado na segurança do raciocínio multimodal com múltiplas imagens, que consiste em 2.676 instâncias distribuídas por uma taxonomia de 9 relações multimodais. As nossas avaliações extensivas em 19 MLLMs revelam uma tendência preocupante: modelos com capacidades de raciocínio multimodal mais avançadas podem ser mais vulneráveis no MIR-SafetyBench. Para além das taxas de sucesso de ataques, descobrimos que muitas respostas classificadas como seguras são superficiais, frequentemente impulsionadas por mal-entendidos ou por respostas evasivas e não comprometidas. Observámos ainda que as gerações inseguras exibem, em média, uma entropia de atenção mais baixa do que as seguras. Esta assinatura interna sugere um possível risco de os modelos poderem concentrar-se excessivamente na resolução da tarefa, negligenciando as restrições de segurança. O nosso código e dados estão disponíveis em https://github.com/thu-coai/MIR-SafetyBench.

Busca Agêntica na Prática: Intenções e Dinâmica de Trajetórias a partir de 14 Milhões+ de Solicitações Reais de Pesquisa
Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests

Jan 24

ByJingjie Ning, João Coelho, Yibo Kong, Yunfan Long, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong

Os agentes de busca baseados em LLM (Large Language Models) estão a ser cada vez mais utilizados para tarefas de busca de informação multi-etapa, contudo, a comunidade de RI (Recuperação de Informação) carece de uma compreensão empírica de como as sessões de busca agentivas se desenrolam e de como as evidências recuperadas são utilizadas. Este artigo apresenta uma análise de logs em larga escala da busca agentiva, baseada em 14,44 milhões de pedidos de busca (3,97 milhões de sessões) recolhidos do DeepResearchGym, ou seja, uma API de busca de código aberto acedida por clientes agentivos externos. Nós organizamos os logs em sessões, atribuímos intenções a nível de sessão e etiquetas de reformulação de consulta passo a passo usando anotação baseada em LLM, e propomos a Taxa de Adoção de Termos Orientada por Contexto (CTAR) para quantificar se os termos de consulta recentemente introduzidos são rastreáveis a evidências previamente recuperadas. As nossas análises revelam padrões comportamentais distintos. Primeiro, mais de 90% das sessões multi-turno contêm no máximo dez passos, e 89% dos intervalos entre passos são inferiores a um minuto. Segundo, o comportamento varia consoante a intenção. Sessões de busca factual exibem alta repetição que aumenta ao longo do tempo, enquanto sessões que requerem raciocínio mantêm uma exploração mais ampla. Terceiro, os agentes reutilizam evidências entre passos. Em média, 54% dos termos de consulta recentemente introduzidos aparecem no contexto de evidência acumulada, com contribuições de passos anteriores para além da recuperação mais recente. Os resultados sugerem que a busca agentiva pode beneficiar de uma paragem antecipada consciente da repetição, orçamentos de recuperação adaptáveis à intenção e um acompanhamento explícito do contexto entre passos. Planeamos disponibilizar os logs anonimizados para apoiar investigação futura.

TensorLens: Análise de Transformadores de Ponta a Ponta via Tensores de Atenção de Alta Ordem
TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors

Jan 25

ByIdo Andrew Atad, Itamar Zimerman, Shahar Katz, Lior Wolf

As matrizes de atenção são fundamentais para a pesquisa em transformadores, suportando uma ampla gama de aplicações, incluindo interpretabilidade, visualização, manipulação e destilação. No entanto, a maioria das análises existentes concentra-se em cabeças ou camadas de atenção individuais, não considerando o comportamento global do modelo. Embora esforços anteriores tenham estendido as formulações de atenção através de múltiplas cabeças via média e multiplicações de matrizes, ou incorporado componentes como normalização e FFNs, ainda falta uma representação unificada e completa que encapsule todos os blocos do transformador. Nós abordamos esta lacuna introduzindo o TensorLens, uma nova formulação que captura o transformador inteiro como um único operador linear dependente da entrada, expresso através de um tensor de interação-atenção de alta ordem. Este tensor codifica conjuntamente a atenção, FFNs, ativações, normalizações e conexões residuais, oferecendo uma representação linear teoricamente coerente e expressiva da computação do modelo. O TensorLens é teoricamente fundamentado e nossa validação empírica mostra que ele produz representações mais ricas do que métodos anteriores de agregação de atenção. Nossos experimentos demonstram que o tensor de atenção pode servir como uma base poderosa para o desenvolvimento de ferramentas voltadas à interpretabilidade e compreensão do modelo. Nosso código está anexado como material suplementar.

UI Remix: Apoio ao Design de Interface do Usuário por meio de Recuperação e Remixagem Interativa de Exemplos
UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing

Jan 26

ByJunling Wang, Hongyi Lan, Xiaotian Su, Mustafa Doga Dogan, April Yi Wang

O design de interfaces de utilizador (IU) é uma etapa crítica no lançamento de produtos, construção de portfólios ou personalização de projetos. No entanto, utilizadores finais sem conhecimentos de design frequentemente têm dificuldade em articular a sua intenção e em confiar nas escolhas de design. As ferramentas existentes baseadas em exemplos ou promovem uma exploração ampla, o que pode causar sobrecarga e deriva de design, ou exigem a adaptação de um único exemplo, arriscando a fixação de design. Apresentamos o UI Remix, um sistema interativo que suporta o design de IU móvel através de um fluxo de trabalho de design orientado por exemplos. Alimentado por um modelo de geração aumentada por recuperação multimodal (MMRAG), o UI Remix permite a pesquisa iterativa, seleção e adaptação de exemplos tanto a nível global (interface completa) como local (componente). Para fomentar a confiança, apresenta pistas de transparência da fonte, como classificações, contagens de download e informações do desenvolvedor. Num estudo empírico com 24 utilizadores finais, o UI Remix melhorou significativamente a capacidade dos participantes em alcançar os seus objetivos de design, facilitou a iteração eficaz e incentivou a exploração de designs alternativos. Os participantes também relataram que as pistas de transparência da fonte aumentaram a sua confiança na adaptação dos exemplos. As nossas descobertas sugerem novas direções para sistemas orientados por exemplos e assistidos por IA que capacitam os utilizadores finais a projetar com maior controlo, confiança e abertura à exploração.

MortalMATH: Avaliando o Conflito Entre Objetivos de Raciocínio e Contextos de Emergência
MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts

Jan 26

ByEtienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo

Os Grandes Modelos de Linguagem estão sendo cada vez mais otimizados para o raciocínio profundo, priorizando a execução correta de tarefas complexas em detrimento da conversação geral. Investigamos se este foco no cálculo cria uma "visão em túnel" que ignora a segurança em situações críticas. Apresentamos o MortalMATH, um benchmark de 150 cenários em que os usuários solicitam ajuda com álgebra enquanto descrevem emergências cada vez mais ameaçadoras à vida (por exemplo, sintomas de AVC, queda livre). Descobrimos uma divisão comportamental acentuada: modelos generalistas (como o Llama-3.1) recusam-se com sucesso a fazer os cálculos para abordar o perigo. Em contraste, modelos especializados em raciocínio (como o Qwen-3-32b e o GPT-5-nano) frequentemente ignoram completamente a emergência, mantendo taxas de conclusão da tarefa superiores a 95% enquanto o usuário descreve que está morrendo. Além disso, o tempo computacional necessário para o raciocínio introduz atrasos perigosos: até 15 segundos antes que qualquer ajuda potencial seja oferecida. Estes resultados sugerem que treinar modelos para perseguir incansavelmente respostas corretas pode, inadvertidamente, fazer com que eles desaprendam os instintos de sobrevivência necessários para uma implantação segura.

Benchmarking de Aprendizagem por Reforço para Controle de Fluxo em Larga Escala com Capacidade de Plug-and-Play
Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control

Jan 21

ByJannis Becktepe, Aleksandra Franz, Nils Thuerey, Sebastian Peitz

O aprendizado por reforço (RL) tem demonstrado resultados promissores no controle ativo de fluxo (AFC), mas o progresso na área permanece difícil de avaliar, uma vez que os estudos existentes dependem de esquemas heterogêneos de observação e atuação, configurações numéricas e protocolos de avaliação. Os benchmarks atuais de AFC tentam resolver essas questões, mas dependem fortemente de solucionadores externos de dinâmica dos fluidos computacional (CFD), não são totalmente diferenciáveis e oferecem suporte limitado para ambientes 3D e multiagente. Para superar essas limitações, apresentamos o FluidGym, o primeiro conjunto de benchmarks autônomo e totalmente diferenciável para RL em AFC. Construído inteiramente em PyTorch sobre o solucionador PICT acelerado por GPU, o FluidGym opera em uma única pilha Python, não requer software externo de CFD e fornece protocolos de avaliação padronizados. Apresentamos resultados de linha de base com PPO e SAC e disponibilizamos todos os ambientes, conjuntos de dados e modelos treinados como recursos públicos. O FluidGym permite a comparação sistemática de métodos de controle, estabelece uma base escalável para pesquisas futuras em controle de fluxo baseado em aprendizado e está disponível em https://github.com/safe-autonomous-systems/fluidgym.

Menos É Mais — Até Quebrar: Armadilhas de Segurança na Compactação de Tokens Visuais em Grandes Modelos de Linguagem e Visão
Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

Jan 17

ByXiaomei Zhang, Zhaoxi Zhang, Leo Yu Zhang, Yanjun Zhang, Guanhong Tao, Shirui Pan

A compressão de tokens visuais é amplamente adotada para melhorar a eficiência de inferência de Grandes Modelos de Linguagem e Visão (LVLMs), permitindo sua implantação em cenários sensíveis à latência e com recursos limitados. No entanto, os trabalhos existentes concentraram-se principalmente na eficiência e no desempenho, enquanto as implicações de segurança da compressão de tokens visuais permanecem amplamente inexploradas. Neste trabalho, revelamos primeiro que a compressão de tokens visuais degrada substancialmente a robustez dos LVLMs: modelos que são robustos sob inferência não comprimida tornam-se altamente vulneráveis uma vez que a compressão é ativada. Essas vulnerabilidades são específicas do estado; modos de falha emergem apenas no cenário comprimido e desaparecem completamente quando a compressão é desativada, tornando-os particularmente ocultos e difíceis de diagnosticar. Ao analisar os estágios-chave do processo de compressão, identificamos a instabilidade na classificação de importância dos tokens como a causa principal dessa degradação da robustez. Pequenas e imperceptíveis perturbações podem alterar significativamente as classificações dos tokens, levando o mecanismo de compressão a descartar erroneamente informações críticas para a tarefa e, por fim, causando falha do modelo. Motivados por essa observação, propomos um Ataque Consciente da Compressão para estudar e explorar sistematicamente essa vulnerabilidade. O CAA tem como alvo direto o mecanismo de seleção de tokens e induz falhas exclusivamente sob inferência comprimida. Estendemos ainda mais essa abordagem para cenários mais realistas de caixa-preta e introduzimos o Transfer CAA, onde nem o modelo alvo nem a configuração de compressão são acessíveis. Avaliamos ainda possíveis defesas e descobrimos que elas oferecem apenas proteção limitada. Experimentos extensos em modelos, conjuntos de dados e métodos de compressão mostram que a compressão de tokens visuais prejudica significativamente a robustez, revelando uma compensação entre eficiência e segurança anteriormente negligenciada.

HalluGuard: Desmistificando Alucinações Baseadas em Dados e em Raciocínio em LLMs
HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs

Jan 26

ByXinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou

A confiabilidade dos Modelos de Linguagem de Grande Porte (LLMs) em domínios de alta responsabilidade, como saúde, direito e descoberta científica, é frequentemente comprometida por alucinações. Essas falhas geralmente decorrem de duas fontes: alucinações orientadas por dados e alucinações orientadas por raciocínio. No entanto, os métodos de deteção existentes geralmente abordam apenas uma fonte e dependem de heurísticas específicas da tarefa, limitando sua generalização para cenários complexos. Para superar essas limitações, introduzimos o Limite de Risco de Alucinação, uma estrutura teórica unificada que decompõe formalmente o risco de alucinação em componentes orientados por dados e orientados por raciocínio, ligados respetivamente a discrepâncias no momento do treino e a instabilidades no momento da inferência. Isto fornece uma base fundamentada para analisar como as alucinações emergem e evoluem. Com base nesta fundação, introduzimos o HalluGuard, uma pontuação baseada em NTK que aproveita a geometria induzida e as representações capturadas pelo NTK para identificar conjuntamente alucinações orientadas por dados e orientadas por raciocínio. Avaliamos o HalluGuard em 10 benchmarks diversos, 11 linhas de base competitivas e 9 arquiteturas populares de LLMs, alcançando consistentemente um desempenho de última geração na deteção de diversas formas de alucinações em LLMs.

RouteMoA: Roteamento Dinâmico sem Pré-inferência Impulsiona Mistura Eficiente de Agentes
RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

Jan 26

ByJize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang, Zifei Shan, Yining Li, Songyang Zhang, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao

O Mixture-of-Agents (MoA) melhora o desempenho de LLMs através de uma colaboração em camadas, mas a sua topologia densa aumenta os custos e a latência. Os métodos existentes utilizam LLMs como juízes para filtrar respostas, mas ainda exigem que todos os modelos realizem inferência antes da avaliação, não conseguindo reduzir custos de forma eficaz. Além disso, carecem de critérios de seleção de modelos e têm dificuldades com pools de modelos grandes, onde a inferência completa é dispendiosa e pode exceder os limites de contexto. Para resolver isto, propomos o RouteMoA, um framework eficiente de mixture-of-agents com roteamento dinâmico. Este emprega um avaliador leve para realizar uma triagem inicial, prevendo o desempenho de alto nível a partir da consulta, restringindo os candidatos a um subconjunto de alto potencial sem necessidade de inferência. Uma mistura de juízes refina então estas pontuações através de uma autoavaliação e avaliação cruzada leve, baseada nas saídas existentes dos modelos, fornecendo uma correção posterior sem inferência adicional. Finalmente, um mecanismo de classificação de modelos seleciona os modelos equilibrando desempenho, custo e latência. O RouteMoA supera o MoA em várias tarefas e tamanhos de pool de modelos, reduzindo o custo em 89,8% e a latência em 63,6% no pool de modelos de grande escala.

Interp3D: Interpolação Consciente de Correspondências para Morphing 3D Texturizado Generativo
Interp3D: Correspondence-aware Interpolation for Generative Textured 3D Morphing

Jan 20

ByXiaolu Liu, Yicong Li, Qiyuan He, Jiayin Zhu, Wei Ji, Angela Yao, Jianke Zhu

A morfologia 3D texturizada visa gerar transições suaves e plausíveis entre dois ativos 3D, preservando tanto a coerência estrutural quanto a aparência de alto detalhe. Essa capacidade é crucial não apenas para avançar a pesquisa em geração 3D, mas também para aplicações práticas em animação, edição e criação de conteúdo digital. As abordagens existentes operam diretamente na geometria, limitando-se à morfologia apenas da forma e negligenciando as texturas, ou estendem estratégias de interpolação 2D para 3D, o que frequentemente causa ambiguidade semântica, desalinhamento estrutural e borramento de textura. Esses desafios ressaltam a necessidade de preservar conjuntamente a consistência geométrica, o alinhamento de textura e a robustez durante todo o processo de transição. Para resolver isso, propomos o Interp3D, uma nova estrutura *training-free* para morfologia 3D texturizada. Ele aproveita *priors* generativos e adota um princípio de alinhamento progressivo para garantir fidelidade geométrica e coerência de textura. Partindo de uma interpolação semanticamente alinhada no espaço de condições, o Interp3D impõe consistência estrutural via interpolação da estrutura guiada por SLAT (*Structured Latent*) e, finalmente, transfere detalhes de aparência através de uma fusão de textura de alto detalhe. Para avaliações abrangentes, construímos um conjunto de dados dedicado, o Interp3DData, com níveis de dificuldade graduados, e avaliamos os resultados de geração com base em fidelidade, suavidade da transição e plausibilidade. Tanto métricas quantitativas quanto estudos com humanos demonstram as vantagens significativas de nossa abordagem proposta em relação a métodos anteriores. O código-fonte está disponível em https://github.com/xiaolul2/Interp3D.