HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

17 papers found

GLM-5V-Turbo: Rumo a um Modelo de Base Nativo para Agentes Multimodais
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Apresentamos o GLM-5V-Turbo, um passo em direção a modelos de base nativos para agentes multimodais. À medida que os modelos de base são cada vez mais implantados em ambientes reais, a capacidade agentiva depende não apenas do raciocínio linguístico, mas também da capacidade de perceber, interpretar e agir sobre contextos heterogêneos, como imagens, vídeos, páginas da web, documentos e interfaces gráficas de utilizador (GUIs). O GLM-5V-Turbo foi construído em torno deste objetivo: a perceção multimodal é integrada como um componente central do raciocínio, planeamento, uso de ferramentas e execução, e não como uma interface auxiliar para um modelo de linguagem. Este relatório resume as principais melhorias por trás do GLM-5V-Turbo em termos de design do modelo, treino multimodal, aprendizagem por reforço, expansão da cadeia de ferramentas e integração com estruturas de agentes. Esses desenvolvimentos resultam num desempenho sólido em codificação multimodal, uso de ferramentas visuais e tarefas agentivas baseadas em estruturas, mantendo ao mesmo tempo uma capacidade competitiva de codificação apenas com texto. Mais importante ainda, o nosso processo de desenvolvimento oferece insights práticos para a construção de agentes multimodais, destacando o papel central da perceção multimodal, da otimização hierárquica e da verificação fiável de ponta a ponta.

Grandes Modelos de Linguagem Exploram por Meio da Destilação Latente
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

A geração de respostas diversificadas é crucial para a escalabilidade de modelos de linguagem de grande escala (LLMs) durante o teste, mas a amostragem estocástica padrão produz principalmente variações lexicais superficiais, limitando a exploração semântica. Neste artigo, propomos a Amostragem Exploratória (ESamp), uma abordagem de decodificação que incentiva explicitamente a diversidade semântica durante a geração. A ESamp é motivada pela observação bem conhecida de que redes neurais tendem a fazer previsões com menor erro em entradas semelhantes às encontradas anteriormente e incorrem em maior erro de previsão em entradas novas. Com base nessa propriedade, treinamos um Destilador leve durante o teste para prever as representações ocultas de camadas profundas do LLM a partir de suas representações de camadas superficiais, modelando assim as transições de representação em profundidade do LLM. Durante a decodificação, o Destilador adapta-se continuamente aos mapeamentos induzidos pelo contexto de geração atual. A ESamp utiliza o erro de previsão como um sinal de novidade para reponderar as extensões de tokens candidatos condicionadas ao prefixo atual, direcionando assim a decodificação para padrões semânticos menos explorados. A ESamp é implementada com um pipeline assíncrono de treinamento-inferência, com menos de 5% de sobrecarga no pior caso (1,2% na versão otimizada). Resultados empíricos mostram que a ESamp aumenta significativamente a eficiência Pass@k de modelos de raciocínio, apresentando desempenho superior ou comparável a bases estocásticas e heurísticas robustas. Notavelmente, a ESamp alcança generalização robusta em benchmarks de geração de matemática, ciência e código e quebra o compromisso entre diversidade e coerência na escrita criativa. Nosso código foi liberado em: https://github.com/LinesHogan/tLLM.

RADIO-ViPE: Fusão Multimodal Fortemente Acoplada em Tempo Real para SLAM Semântico de Vocabulário Aberto em Ambientes Dinâmicos
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

Apresentamos o RADIO-ViPE (Reduce All Domains Into One -- Video Pose Engine), um sistema de SLAM semântico online que possibilita a ancoragem semântica consciente da geometria, associando consultas arbitrárias em linguagem natural a regiões 3D localizadas e objetos em ambientes dinâmicos. Diferente de abordagens existentes que exigem entrada RGB-D calibrada e com pose conhecida, o RADIO-ViPE opera diretamente em fluxos de vídeo RGB monoculares brutos, não necessitando de intrínsecos de câmera, sensores de profundidade ou inicialização de pose prévios. O sistema acopla firmemente *embeddings* multimodais – abrangendo visão e linguagem – derivados de modelos de base aglomerativos (por exemplo, RADIO) com informações geométricas da cena. Este acoplamento ocorre na inicialização, otimização e conexões do grafo fatorial para melhorar a consistência do mapa a partir de múltiplas modalidades. A otimização é encapsulada dentro de *kernels* robustos adaptativos, projetados para lidar tanto com objetos em movimento ativo quanto com elementos da cena deslocados pelo agente (por exemplo, móveis rearranjados durante uma sessão egocêntrica). Experimentos demonstram que o RADIO-ViPE alcança resultados de ponta no benchmark dinâmico TUM-RGBD, mantendo desempenho competitivo contra métodos offline de vocabulário aberto que dependem de dados calibrados e suposições de cena estática. O RADIO-ViPE preenche uma lacuna crítica na implantação no mundo real, permitindo uma ancoragem semântica de vocabulário aberto robusta para robótica autónoma e fluxos de vídeo *in-the-wild* sem restrições. Página do projeto: https://be2rlab.github.io/radio_vipe

ClawGym: Uma Estrutura Escalável para a Construção de Agentes Claw Eficazes
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Ambientes do tipo Claw suportam fluxos de trabalho de múltiplos passos sobre ficheiros locais, ferramentas e estados persistentes de espaço de trabalho. No entanto, o desenvolvimento escalável em torno destes ambientes continua limitado pela ausência de uma estrutura sistemática, especialmente uma para sintetizar dados de treino verificáveis e integrá-los com o treino de agentes e avaliação diagnóstica. Para enfrentar este desafio, apresentamos o ClawGym, uma estrutura escalável que suporta o ciclo de vida completo do desenvolvimento de agentes pessoais do tipo Claw. Concretamente, construímos o ClawGym-SynData, um conjunto de dados diversificado de 13,5 mil tarefas filtradas, sintetizadas a partir de intenções baseadas em persona e operações fundamentadas em competências, emparelhadas com espaços de trabalho simulados realistas e mecanismos de verificação híbridos. De seguida, treinamos uma família de modelos capazes do tipo Claw, denominados ClawGym-Agents, através de afinação supervisionada em trajectórias de execução de caixa negra, e exploramos ainda a aprendizagem por reforço através de um *pipeline* leve que paraleliza execuções em *sandboxes* por tarefa. Para suportar uma avaliação fiável, construímos ainda o ClawGym-Bench, um *benchmark* de 200 instâncias calibradas através de filtragem automática e revisão humano-LLM. Os recursos relevantes serão brevemente disponibilizados em https://github.com/ClawGym.

Transformando a Maré: Distilação Transarquitetural para Modelos de Linguagem Grande Baseados em Difusão
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

Os modelos de linguagem de grande porte por difusão (dLLMs) oferecem decodificação paralela e contexto bidirecional, mas os dLLMs de última geração requerem bilhões de parâmetros para um desempenho competitivo. Embora os métodos de destilação existentes para dLLMs reduzam as etapas de inferência dentro de uma única arquitetura, nenhum aborda a transferência de conhecimento entre arquiteturas, na qual o professor e o aluno diferem em arquitetura, mecanismo de atenção e tokenizador. Apresentamos o TIDE, o primeiro framework para destilação de dLLM entre arquiteturas, composto por três componentes modulares: (1) o TIDAL, que modula conjuntamente a força da destilação ao longo do progresso do treinamento e do passo de difusão para contabilizar a confiabilidade dependente de ruído do professor; (2) o CompDemo, que enriquece o contexto do professor via divisão por máscaras complementares para melhorar as previsões sob mascaramento pesado; e (3) o Reverse CALM, um objetivo cross-tokenizer que inverte o pareamento de verossimilhança a nível de blocos (chunk-level), resultando em gradientes limitados e filtragem de ruído de dupla extremidade. A destilação de professores densos de 8B e MoE de 16B em um aluno de 0.6B por meio de dois pipelines heterogêneos supera a linha de base em uma média de 1,53 pontos em oito benchmarks, resultando em ganhos notáveis na geração de código, onde as pontuações no HumanEval chegam a 48,78 em comparação com 32,3 da linha de base AR.

Modelos de Difusão: Uma Estrutura de Plugin Unificada para Controle de Difusão
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

Os métodos de difusão controlável expandiram substancialmente a utilidade prática dos modelos de difusão, mas são tipicamente desenvolvidos como sistemas isolados e específicos para cada arquitetura-base, com pipelines de treinamento, formatos de parâmetros e hooks de tempo de execução incompatíveis. Essa fragmentação dificulta a reutilização de infraestrutura entre tarefas, a transferência de capacidades entre arquiteturas-base ou a composição de múltiplos controles dentro de um único pipeline de geração. Apresentamos o Diffusion Templates, uma estrutura de plugin unificada e aberta que desacopla a inferência do modelo-base da injeção de capacidades controláveis. A estrutura é organizada em torno de três componentes: Modelos Template que mapeiam entradas arbitrárias específicas da tarefa para uma representação intermediária de capacidade, um Cache Template que funciona como uma interface padronizada para injeção de capacidade, e um Pipeline Template que carrega, combina e injeta um ou mais Caches Template no tempo de execução do modelo de difusão base. Como a interface é definida no nível de sistemas, e não vinculada a uma arquitetura de controle específica, portadores de capacidade heterogêneos, como KV-Cache e LoRA, podem ser suportados sob a mesma abstração. Com base neste design, construímos um zoo de modelos diversificado abrangendo controle estrutural, ajuste de brilho, ajuste de cor, edição de imagem, super-resolução, aprimoramento de nitidez, alinhamento estético, referência de conteúdo, preenchimento local de áreas (inpainting) e controle de idade. Esses estudos de caso mostram que o Diffusion Templates pode unificar uma ampla gama de tarefas de geração controlável, preservando a modularidade, a composicionalidade e a extensibilidade prática em meio às arquiteturas-base de difusão em rápida evolução. Todos os recursos serão disponibilizados como código aberto, incluindo código, modelos e conjuntos de dados.

FAMA: Estrutura Meta-Agêntica com Consciência de Falhas para LLMs de Código Aberto em Ambientes Interativos de Uso de Ferramentas
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

Os Modelos de Linguagem de Grande Porte (LLMs) estão sendo cada vez mais implantados como núcleos de tomada de decisão para agentes autônomos capazes de efetuar mudanças em ambientes externos. No entanto, em benchmarks conversacionais, que simulam cenários do mundo real de resolução de problemas centrados no cliente, esses agentes frequentemente falham devido aos efeitos em cascata de decisões incorretas. Esses desafios são particularmente pronunciados em LLMs de código aberto com tamanhos de parâmetros menores, janelas de contexto limitadas e orçamentos de inferência restritos, o que contribui para um aumento no acúmulo de erros em configurações agentivas. Para enfrentar esses desafios, apresentamos a estrutura *Failure-Aware Meta-Agentic* (FAMA). A FAMA opera em dois estágios: primeiro, analisa trajetórias de falha de agentes de linha de base para identificar os erros mais prevalentes; segundo, emprega um mecanismo de orquestração que ativa um subconjunto mínimo de agentes especializados, projetados para abordar essas falhas, através da injeção de um contexto direcionado para o agente de uso de ferramentas antes da etapa de tomada de decisão. Experimentos com vários LLMs de código aberto demonstram ganhos de desempenho de até 27% em diferentes modos de avaliação em comparação com as linhas de base padrão. Esses resultados destacam que a curadoria direcionada de contexto por meio de agentes especializados para abordar falhas comuns é um princípio de design valioso para a construção de agentes LLM de uso de ferramentas confiáveis e multi-turno, que simulam cenários conversacionais do mundo real.

Modelagem Unificada de Ação no Mundo 4D a partir de Priores de Vídeo com Dessincronização Assíncrona
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

Propomos o X-WAM, um Modelo Mundial 4D Unificado que unifica a execução de ações robóticas em tempo real e a síntese de mundos 4D de alta fidelidade (vídeo + reconstrução 3D) em um único framework, superando as limitações críticas de modelos mundiais unificados anteriores (por exemplo, UWM) que apenas modelam o espaço de pixels 2D e não conseguem equilibrar a eficiência de ação e a qualidade da modelagem mundial. Para aproveitar os fortes *priors* visuais de modelos de difusão de vídeo pré-treinados, o X-WAM imagina o mundo futuro prevendo vídeos RGB-D multi-visão e obtém informações espaciais de forma eficiente através de uma adaptação estrutural leve: replicando os últimos blocos do *Diffusion Transformer* pré-treinado em um ramo dedicado à previsão de profundidade para a reconstrução da informação espacial futura. Além disso, propomos a Amostragem de Ruído Assíncrona (ANS) para otimizar conjuntamente a qualidade da geração e a eficiência da decodificação de ações. A ANS aplica um cronograma de remoção de ruído assíncrono especializado durante a inferência, que decodifica ações rapidamente com menos passos para permitir uma execução eficiente em tempo real, enquanto dedica a sequência completa de passos para gerar vídeo de alta fidelidade. Em vez de desacoplar totalmente os *timesteps* durante o treinamento, a ANS amostra da sua distribuição conjunta para se alinhar com a distribuição de inferência. Pré-treinado com mais de 5.800 horas de dados robóticos, o X-WAM atinge taxas médias de sucesso de 79,2% e 90,7% nos *benchmarks* RoboCasa e RoboTwin 2.0, enquanto produz reconstrução e geração 4D de alta fidelidade, superando os métodos existentes em métricas visuais e geométricas.

Aceleração de Rollouts Pós-Treinamento de RL via Decodificação Especulativa Integrada ao Sistema
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

O pós-treinamento por RL (Reinforcement Learning) de modelos de linguagem de fronteira está cada vez mais limitado pela geração autoregressiva de rollouts, tornando a aceleração desses rollouts um desafio central de sistemas. Muitos métodos de eficiência existentes melhoram a taxa de transferência alterando o regime de rollout ou otimização, por exemplo, através de execução off-policy, replay ou geração de baixa precisão. Estudamos a decodificação especulativa como um primitivo de aceleração sem perdas para rollouts de RL que preserva a distribuição de saída do modelo alvo. Implementamos a decodificação especulativa no NeMo-RL com um backend vLLM, suportando pipelines síncronos e assíncronos e permitindo especulação durante os rollouts de RL. Este benefício é realizável através de vários mecanismos de especulação, como cabeças MTP pré-treinadas, pequenos modelos de rascunho externos ou mesmo técnicas como Eagle3, tradicionalmente aplicadas após a fase de RL. Isso fornece um caminho de implantação para a decodificação especulativa de última geração dentro do treinamento por RL. Em uma carga de trabalho de pós-treinamento de raciocínio em escala de 8B sob RL síncrono, a decodificação especulativa melhora a taxa de transferência de rollout em 1,8x. Usando um simulador de desempenho de alta fidelidade, projetamos que a combinação da decodificação especulativa com RL assíncrono produz um aumento de velocidade de treinamento de ponta a ponta de até 2,5x em escala de 235B.

Controles da Camada Operacional para Agentes de Modelo de Linguagem Onchain Sob Capital Real
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

Estudamos a confiabilidade em agentes autónomos baseados em modelos de linguagem que traduzem mandatos do usuário em ações validadas de ferramentas sob capital real. O cenário é o DX Terminal Pro, uma implantação de 21 dias na qual 3.505 agentes financiados por usuários negociaram ETH real em um mercado on-chain delimitado. Os usuários configuraram cofres através de controlos estruturados e estratégias em linguagem natural, mas apenas os agentes podiam escolher operações normais de compra/venda. O sistema produziu 7,5 milhões de invocações de agentes, aproximadamente 300 mil ações on-chain, cerca de US$ 20 milhões em volume, mais de 5.000 ETH implantados, aproximadamente 70 mil milhões de *tokens* de inferência e 99,9% de sucesso na liquidação para transações submetidas validadas pela política. Agentes de longa duração acumularam milhares de decisões sequenciais, incluindo mais de 6.000 ciclos de estado-*prompt*-ação para agentes continuamente ativos, resultando num rastreio de larga escala desde o mandato do usuário até ao *prompt* renderizado, raciocínio, validação, estado da carteira e liquidação. A confiabilidade não resultou apenas do modelo base; emergiu da camada operacional em torno do modelo: compilação de *prompts*, controlos tipados, validação de políticas, guardas de execução, design de memória e observabilidade ao nível do rastreio. Testes pré-lançamento expuseram falhas que os *benchmarks* baseados apenas em texto raramente medem, incluindo regras de negociação fabricadas, paralisia por taxas, ancoragem numérica, negociação por cadência e leitura incorreta da tokenómica. Alterações direcionadas no *harness* reduziram as regras de venda fabricadas de 57% para 3%, reduziram as observações lideradas por taxas de 32,5% para menos de 10% e aumentaram a implantação de capital de 42,9% para 78,0% numa população de teste afetada. Mostramos que os agentes gestores de capital devem ser avaliados em todo o percurso, desde o mandato do usuário até ao *prompt*, ação validada e liquidação.

Um Estudo sobre Simulação de Utilizadores Conversacionais Baseada em LLM
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

A simulação de usuários tem desempenhado um papel vital na ciência da computação há muito tempo, devido ao seu potencial para suportar uma ampla gama de aplicações. A linguagem, como principal meio de comunicação humana, forma a base da interação e do comportamento social. Consequentemente, a simulação de comportamento conversacional tornou-se uma área-chave de estudo. Avanços recentes em grandes modelos de linguagem (LLMs) catalisaram significativamente o progresso neste domínio, permitindo a geração de alta fidelidade de conversas sintéticas de usuários. Neste artigo, revisamos os avanços recentes na simulação de usuários conversacionais baseada em LLMs. Introduzimos uma nova taxonomia que abrange a granularidade do usuário e os objetivos da simulação. Adicionalmente, analisamos sistematicamente as técnicas principais e as metodologias de avaliação. Visamos manter a comunidade de pesquisa informada sobre os últimos avanços na simulação de usuários conversacionais e facilitar ainda mais pesquisas futuras, identificando desafios em aberto e organizando o trabalho existente sob uma estrutura unificada.

PSP: Um Benchmark Interpretável de Sotaque por Dimensão para Síntese de Voz de Textos em Línguas Indianas
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

As medidas padrão de avaliação de síntese de fala (TTS) avaliam a inteligibilidade (WER, CER) e a naturalidade geral (MOS, UTMOS), mas não quantificam o sotaque. Um sintetizador pode obter bons resultados em todas as quatro métricas e, ainda assim, soar não nativo em características que são fonêmicas na língua-alvo. Para línguas indianas (Índicas), essas características incluem a articulação retroflexa, a aspiração, o comprimento vocálico e o aproximante retroflexo do tâmil (letra 'zha'). Apresentamos o PSP, o *Phoneme Substitution Profile*, um benchmark de sotaque interpretável, por dimensão fonológica, para TTS em línguas Índicas. O PSP decompõe o sotaque em seis dimensões complementares: taxa de colapso retroflexo (RR), fidelidade de aspiração (AF), fidelidade de comprimento vocálico (LF), fidelidade do 'zha' tâmil (ZF), Distância de Áudio Fréchet (FAD) e divergência da assinatura prosódica (PSD). As primeiras quatro são medidas via alinhamento forçado mais sondas acústicas de centróide de falantes nativos sobre *embeddings* da camada 9 do Wav2Vec2-XLS-R; as duas últimas são distâncias distribucionais em nível de corpus. Nesta v1, avaliamos quatro sistemas comerciais e de código aberto (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) em conjuntos piloto de híndi, telugu e tâmil, com um quinto sistema (Praxy Voice) incluído nas três línguas, além de um estudo de caso R5->R6 no telugu. Três descobertas: (i) o colapso retroflexo cresce monotonicamente com a dificuldade fonológica híndi < telugu < tâmil (~1%, ~40%, ~68%); (ii) a ordenação do PSP diverge da ordenação do WER – os líderes comerciais em WER não lideram uniformemente em fidelidade retroflexa ou prosódica; (iii) nenhum sistema único é Pareto-ótimo em todas as seis dimensões. Disponibilizamos centróides de referência nativa (500 clipes por língua), *embeddings* de 1000 clipes para FAD, matrizes de características prosódicas de 500 clipes para PSD, conjuntos de dados de referência (*golden sets*) de 300 enunciados por língua, código de pontuação sob licença MIT e centróides sob CC-BY. A correlação formal com MOS é adiada para a v2; a v1 relata cinco sinais de consistência interna mais um teste de sanidade com áudio nativo.

Praxy Voice: Recuperação por Comando de Voz + BUPS para TTS Comercial em Línguas Índicas a partir de uma Base Congelada Não-Índica com Custo Zero de Dados de Treinamento Comerciais
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

Os sistemas comerciais de TTS produzem áudio em línguas indianas de qualidade quase nativa, mas as melhores bases de código aberto (Chatterbox, Indic Parler-TTS, IndicF5) ficam atrás deles em dimensões fonológicas medidas, e a base multilíngue mais adotada (Chatterbox, 23 idiomas) nem mesmo tokeniza Telugu ou Tâmil. Perguntamos: qual é a intervenção mínima que traz essa base não-nativa em línguas indianas para uma saída de nível comercial em Telugu, Tâmil e Hindi, sem treinar um novo decodificador acústico e sem quaisquer dados de treinamento de TTS comerciais? Combinamos três partes: (1) BUPS, um Espaço de Fonemas Unificado Brahmi que romaniza deterministicamente sete escritas indianas para ISO-15919 para que o tokenizador latino do Chatterbox possa processá-las; (2) um adaptador LoRA apenas no preditor de tokens de texto (t3 do Chatterbox), treinado em ~1.220h de áudio indiano licenciado com um language_id proxy para Hindi; (3) uma receita de recuperação por prompt de voz – um clipe de referência de 8-11s no mesmo idioma mais três substituições de amostragem (exagero 0.7, temperatura 0.6, min_p 0.1; "Config B") – que recupera a saída acústica de nível comercial sem treinamento do decodificador acústico. Em Hindi, o LoRA regride a precisão e, em vez disso, usamos o Chatterbox vanilla + Config B, resultando em uma implantação de dois ramos. Avaliado em conjuntos piloto de 10 enunciados com o benchmark PSP complementar, o Praxy Voice iguala ou supera ligeiramente as linhas de base comerciais: 26,7% de colapso de retroflexas em Telugu (vs. Sarvam Bulbul 33,3%), 71% de colapso de 'zha' em Tâmil (vs. 86% do trio comercial), 0,025 LLM-WER em Hindi (empatado com Cartesia Sonic-3). Para code-mix intrafrasal, adicionamos um terceiro ramo (IndicF5 + transliteração para escrita nativa) que reduz o LLM-WER de code-mix de 0,80-0,85 para 0,14-0,27 em Hi/Te/Ta. Disponibilizamos os pesos LoRA R6 (Apache-2.0), o código de inferência e roteador (MIT) e uma demonstração no Gradio.

FASH-iCNN: Tornando a Identidade Editorial da Moda Inspecionável por Meio de Sondagem Multimodal com CNN
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

Os sistemas de IA de moda codificam rotineiramente a lógica estética de casas específicas, editores e momentos históricos sem a devida divulgação. Apresentamos o FASH-iCNN, um sistema multimodal treinado em 87.547 imagens de desfiles da Vogue de 15 casas de moda entre 1991-2024, que torna esta lógica cultural inspecionável. Dada uma fotografia de uma peça de vestuário, o sistema recupera qual casa a produziu, a que época pertence e qual tradição cromática reflete. Um modelo baseado apenas na peça de roupa identifica a casa de moda com 78,2% de acurácia top-1 em 14 casas, a década com 88,6% top-1 e o ano específico com 58,3% top-1 em 34 anos, com um erro médio de apenas 2,2 anos. A investigação sobre quais canais visuais carregam este sinal revela uma dissociação acentuada: remover a cor custa apenas 10,6 pontos percentuais (pp) na precisão da identidade da casa, enquanto remover a textura custa 37,6 pp, estabelecendo a textura e a luminância como os principais portadores da identidade editorial. O FASH-iCNN trata a cultura editorial como o sinal, e não como ruído de fundo, identificando quais casas, épocas e tradições cromáticas moldaram cada resultado, para que os usuários possam ver não apenas o que o sistema prevê, mas quais casas, editores e momentos históricos estão codificados nessa previsão.

Investigando o Planejamento Visual em Modelos de Edição de Imagens
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

O planeamento visual representa uma faceta crucial da inteligência humana, especialmente em tarefas que exigem raciocínio espacial complexo e navegação. No entanto, na aprendizagem automática, este problema inerentemente visual é frequentemente abordado através de uma lente centrada na verbalização. Embora investigações recentes demonstrem o potencial de abordagens totalmente visuais, estas sofrem de uma ineficiência computacional significativa devido ao paradigma de planeamento-por-geração passo a passo. Neste trabalho, apresentamos o EAR, um paradigma de edição-como-raciocínio que reformula o planeamento visual como uma transformação de imagem em passo único. Para isolar o raciocínio intrínseco do reconhecimento visual, empregamos quebra-cabeças abstratos como tarefas de sondagem e introduzimos o AMAZE, um conjunto de dados gerado proceduralmente que inclui os problemas clássicos do Labirinto e da Rainha, abrangendo formas distintas e complementares de planeamento visual. A natureza abstrata do AMAZE também facilita a avaliação automática de modelos autoregressivos e baseados em difusão, tanto em termos de fidelidade pixel a pixel como de validade lógica. Avaliamos os principais modelos de edição proprietários e de código aberto. Os resultados mostram que todos eles têm dificuldades numa configuração de execução sem exemplos prévios (zero-shot), mas que a afinação de parâmetros em escalas básicas permite uma generalização notável para escalas maiores dentro do domínio e para escalas e geometrias fora do domínio. Contudo, o nosso melhor modelo, que é executado em hardware de alto desempenho, não consegue igualar a eficiência de solucionadores humanos sem exemplos prévios, destacando uma lacuna persistente no raciocínio visual neural.

Privacidade Aprimorada e Eficiência de Comunicação em Aprendizado Federado Não-IID com Quantização Adaptativa e Privacidade Diferencial
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

A aprendizagem federada (FL) é um método de aprendizagem automática distribuída no qual múltiplos dispositivos treinam colaborativamente um modelo sob a gestão de um servidor central, sem partilhar os dados subjacentes. Um dos principais desafios da FL é o estrangulamento de comunicação causado pelas variações na velocidade de ligação e na largura de banda entre os dispositivos. Por conseguinte, é essencial reduzir o tamanho dos dados transmitidos durante o treino. Adicionalmente, existe um risco potencial de exposição de informações sensíveis através da análise do modelo ou dos gradientes durante o treino. Para abordar simultaneamente a privacidade e a eficiência de comunicação, combinamos métodos de privacidade diferencial (DP) e de quantização adaptativa. Utilizamos DP baseada em Laplaciano para preservar a privacidade, uma abordagem relativamente pouco explorada em FL que oferece garantias de privacidade mais rigorosas do que a DP baseada em Gaussiano. Propomos um programador simples e eficiente de comprimento de bits global usando *annealing* cosenoidal baseado em rondas, juntamente com um programador baseado no cliente que se adapta dinamicamente com base na contribuição do cliente, estimada através de análise de entropia do conjunto de dados. Avaliamos a nossa abordagem através de experiências extensas nos conjuntos de dados CIFAR10, MNIST e de imagiologia médica, utilizando distribuições de dados não-IID com diferentes números de clientes, programadores de comprimento de bits e orçamentos de privacidade. Os resultados mostram que os nossos métodos de quantização adaptativa reduzem o total de dados comunicados em até 52,64% para o MNIST, 45,06% para o CIFAR10 e 31% a 37% para os conjuntos de dados de imagiologia médica, em comparação com o treino com *floats* de 32 bits, mantendo uma precisão do modelo competitiva e assegurando uma privacidade robusta através da privacidade diferencial.

Seleção de Amostras Usando Autoencoders Multitarefa em Aprendizado Federado com Dados Não-IID
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

A aprendizagem federada é um paradigma de aprendizado de máquina no qual múltiplos dispositivos treinam colaborativamente um modelo sob a supervisão de um servidor central, garantindo a privacidade dos dados. No entanto, seu desempenho é frequentemente prejudicado por amostras redundantes, maliciosas ou anômalas, levando à degradação e ineficiência do modelo. Para superar esses problemas, propomos novos métodos de seleção de amostras para classificação de imagens, empregando um autoencoder multitarefa para estimar as contribuições das amostras por meio da análise de perda e de características. Nossa abordagem incorpora detecção não supervisionada de *outliers*, utilizando métodos de máquina de vetores de suporte de uma classe (OCSVM), floresta de isolamento (IF) e limiar de perda adaptativo (AT) gerenciados por um servidor central para filtrar amostras ruidosas nos clientes. Também propomos uma função de perda multiclasse baseada em descrição de dados de vetores de suporte (SVDD) profunda controlada por um servidor central para aprimorar a seleção de amostras baseada em características. Validamos nossos métodos nos conjuntos de dados CIFAR10 e MNIST, variando o número de clientes, distribuições não-IID e níveis de ruído de até 40%. Os resultados mostram melhorias significativas de precisão com a seleção de amostras baseada em perda, alcançando ganhos de até 7,02% no CIFAR10 com OCSVM e 1,83% no MNIST com AT. Adicionalmente, nossa função de perda SVDD federada aprimora ainda mais a seleção de amostras baseada em características, resultando em ganhos de precisão de até 0,99% no CIFAR10 com OCSVM. Esses resultados demonstram a eficácia de nossos métodos em melhorar a precisão do modelo em diversas quantidades de clientes e condições de ruído.

PSP: Um Benchmark Interpretável de Sotaque por Dimensão para Síntese de Voz de Textos em Línguas Indianas
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta