HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

44 papers found

Paper2Video: Geração Automática de Vídeos a partir de Artigos Científicos
Paper2Video: Automatic Video Generation from Scientific Papers

Oct 6

ByZeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou

106

Os vídeos de apresentações acadêmicas tornaram-se um meio essencial para a comunicação de pesquisas, mas sua produção continua sendo altamente trabalhosa, muitas vezes exigindo horas de design de slides, gravação e edição para um vídeo curto de 2 a 10 minutos. Diferente de vídeos naturais, a geração de vídeos de apresentação envolve desafios distintos: entradas de artigos de pesquisa, informações multimodais densas (texto, figuras, tabelas) e a necessidade de coordenar múltiplos canais alinhados, como slides, legendas, fala e o apresentador humano. Para enfrentar esses desafios, apresentamos o PaperTalker, o primeiro benchmark de 101 artigos de pesquisa emparelhados com vídeos de apresentação criados pelos autores, slides e metadados do apresentador. Além disso, projetamos quatro métricas de avaliação personalizadas—Meta Similarity, PresentArena, PresentQuiz e IP Memory—para medir como os vídeos transmitem as informações do artigo ao público. Com base nessa fundação, propomos o PaperTalker, o primeiro framework multiagente para geração de vídeos de apresentação acadêmica. Ele integra a geração de slides com refinamento eficaz de layout por meio de uma nova escolha visual de busca em árvore, ancoragem de cursor, legendagem, síntese de fala e renderização de cabeça falante, enquanto paraleliza a geração de slides para eficiência. Experimentos no Paper2Video demonstram que os vídeos de apresentação produzidos por nossa abordagem são mais fiéis e informativos do que as linhas de base existentes, estabelecendo um passo prático em direção à geração automatizada e pronta para uso de vídeos acadêmicos. Nosso conjunto de dados, agente e código estão disponíveis em https://github.com/showlab/Paper2Video.

Engenharia de Contexto Agêntico: Evolução de Contextos para Modelos de Linguagem de Autoaperfeiçoamento
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

Oct 6

ByQizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun

104

Aplicações de modelos de linguagem de grande escala (LLMs), como agentes e raciocínio específico de domínio, estão cada vez mais dependentes da adaptação de contexto — modificando entradas com instruções, estratégias ou evidências, em vez de atualizações de pesos. Abordagens anteriores melhoram a usabilidade, mas frequentemente sofrem de viés de brevidade, que descarta insights de domínio em favor de resumos concisos, e de colapso de contexto, onde reescritas iterativas erodem detalhes ao longo do tempo. Baseando-se na memória adaptativa introduzida pelo Dynamic Cheatsheet, apresentamos o ACE (Agentic Context Engineering), um framework que trata contextos como playbooks em evolução que acumulam, refinam e organizam estratégias por meio de um processo modular de geração, reflexão e curadoria. O ACE previne o colapso com atualizações estruturadas e incrementais que preservam conhecimento detalhado e escalam com modelos de contexto longo. Em benchmarks de agentes e domínios específicos, o ACE otimiza contextos tanto offline (por exemplo, prompts de sistema) quanto online (por exemplo, memória do agente), superando consistentemente baselines robustas: +10,6% em agentes e +8,6% em finanças, enquanto reduz significativamente a latência de adaptação e o custo de implantação. Notavelmente, o ACE conseguiu se adaptar efetivamente sem supervisão rotulada, utilizando feedback natural de execução. No leaderboard do AppWorld, o ACE iguala o agente de nível de produção mais bem classificado na média geral e o supera na divisão mais desafiadora de testes, apesar de usar um modelo open-source menor. Esses resultados mostram que contextos abrangentes e em evolução permitem sistemas LLM escaláveis, eficientes e autossuficientes com baixa sobrecarga.

Pós-treinamento de Video-LMM: Uma Análise Profunda do Raciocínio em Vídeo com Modelos Multimodais de Grande Escala
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

Oct 6

ByYunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu

A compreensão de vídeo representa a fronteira mais desafiadora na visão computacional, exigindo que os modelos raciocinem sobre relações espaço-temporais complexas, dependências de longo prazo e evidências multimodais. O recente surgimento dos Modelos Multimodais de Grande Escala para Vídeo (Video-LMMs), que integram codificadores visuais com poderosos modelos de linguagem baseados em decodificadores, demonstrou capacidades notáveis em tarefas de compreensão de vídeo. No entanto, a fase crítica que transforma esses modelos de sistemas básicos de percepção em motores de raciocínio sofisticados, o pós-treinamento, permanece fragmentada na literatura. Esta pesquisa oferece o primeiro exame abrangente das metodologias de pós-treinamento para Video-LMMs, abrangendo três pilares fundamentais: ajuste fino supervisionado (SFT) com cadeia de pensamento, aprendizado por reforço (RL) a partir de objetivos verificáveis e escalonamento em tempo de teste (TTS) por meio de computação de inferência aprimorada. Apresentamos uma taxonomia estruturada que esclarece os papéis, interconexões e adaptações específicas para vídeo dessas técnicas, abordando desafios únicos como localização temporal, fundamentação espaço-temporal, eficiência em vídeos longos e integração de evidências multimodais. Por meio de uma análise sistemática de métodos representativos, sintetizamos princípios-chave de design, insights e protocolos de avaliação, enquanto identificamos desafios críticos em aberto no design de recompensas, escalabilidade e otimização de custo-desempenho. Além disso, reunimos benchmarks, conjuntos de dados e métricas essenciais para facilitar uma avaliação rigorosa da eficácia do pós-treinamento. Esta pesquisa visa fornecer aos pesquisadores e profissionais um framework unificado para avançar as capacidades dos Video-LMMs. Recursos adicionais e atualizações são mantidos em: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training.

MITS: Aprimoramento do Raciocínio por Busca em Árvore para LLMs via Informação Mútua Pontual
MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information

Oct 4

ByJiaxi Li, Yucheng Shi, Jin Lu, Ninghao Liu

A busca em árvore emergiu como um framework representativo para raciocínio em tempo de teste com grandes modelos de linguagem (LLMs), exemplificado por métodos como Árvore de Pensamentos e Busca em Árvore de Monte Carlo, que exploram múltiplos caminhos de raciocínio. No entanto, ainda é difícil fornecer avaliações quantitativas instantâneas e confiáveis da qualidade das etapas intermediárias de raciocínio, e a exploração extensiva de caminhos é computacionalmente custosa. Para resolver isso, propomos a Busca em Árvore de Informação Mútua (MITS), um framework inovador que guia o raciocínio com princípios da teoria da informação. O MITS introduz uma função de pontuação eficaz baseada na informação mútua pontual (PMI), que permite a avaliação passo a passo dos caminhos de raciocínio e a expansão da árvore de busca via busca em feixe, sem a necessidade de simulações caras de antecipação, alcançando desempenhos superiores de raciocínio enquanto mantém a eficiência computacional. O framework é complementado por uma estratégia dinâmica de amostragem baseada em entropia, que aloca recursos computacionais de forma adaptativa para etapas de raciocínio incertas onde a exploração é mais benéfica. Para a previsão final, o MITS emprega um esquema de votação ponderada que combina pontuações PMI com consenso de previsão. Por meio de experimentos abrangentes em diversos benchmarks de raciocínio, o MITS supera consistentemente métodos de base, estabelecendo um framework eficiente e fundamentado para o raciocínio com LLMs.

Arquiteturas Híbridas para Modelos de Linguagem: Análise Sistemática e Insights de Projeto
Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

Oct 6

BySangmin Bae, Bilge Acun, Haroun Habeeb, Seungyeon Kim, Chien-Yu Lin, Liang Luo, Junjie Wang, Carole-Jean Wu

Os recentes avanços em modelos de linguagem de grande escala demonstram que arquiteturas híbridas—que combinam mecanismos de autoatenção com modelos de espaço de estados estruturados, como o Mamba—podem alcançar um equilíbrio convincente entre qualidade de modelagem e eficiência computacional, especialmente para tarefas de contexto longo. Embora esses modelos híbridos apresentem desempenho promissor, comparações sistemáticas de estratégias de hibridização e análises sobre os fatores-chave por trás de sua eficácia ainda não foram claramente compartilhadas com a comunidade. Neste trabalho, apresentamos uma avaliação holística de arquiteturas híbridas baseadas em fusão intercamadas (sequencial) ou intracamadas (paralela). Avaliamos esses projetos sob diversas perspectivas: desempenho em modelagem de linguagem, capacidades de contexto longo, análise de escalabilidade e eficiência de treinamento e inferência. Ao investigar as características centrais de seu primitivo computacional, identificamos os elementos mais críticos para cada estratégia de hibridização e, adicionalmente, propomos receitas de design ideais para ambos os modelos híbridos. Nossa análise abrangente fornece orientações práticas e insights valiosos para o desenvolvimento de modelos de linguagem híbridos, facilitando a otimização de configurações arquitetônicas.

VChain: Cadeia de Pensamento Visual para Raciocínio na Geração de Vídeo
VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Oct 6

ByZiqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu

Modelos recentes de geração de vídeo são capazes de produzir clipes suaves e visualmente atraentes, mas frequentemente enfrentam dificuldades para sintetizar dinâmicas complexas com uma cadeia coerente de consequências. Modelar com precisão os resultados visuais e as transições de estado ao longo do tempo continua sendo um desafio central. Em contraste, grandes modelos de linguagem e multimodais (por exemplo, GPT-4o) exibem fortes capacidades de raciocínio sobre estados visuais e previsão de cenários futuros. Para unir esses pontos fortes, introduzimos o VChain, uma nova estrutura de cadeia de pensamento visual em tempo de inferência que injeta sinais de raciocínio visual de modelos multimodais na geração de vídeo. Especificamente, o VChain contém um pipeline dedicado que aproveita grandes modelos multimodais para gerar um conjunto esparso de quadros-chave críticos como instantâneos, que são então usados para orientar a ajustagem esparsa em tempo de inferência de um gerador de vídeo pré-treinado apenas nesses momentos-chave. Nossa abordagem é eficiente em termos de ajustagem, introduz sobrecarga mínima e evita supervisão densa. Experimentos extensos em cenários complexos e de múltiplas etapas mostram que o VChain melhora significativamente a qualidade dos vídeos gerados.

Jailbreaking Imperceptível contra Modelos de Linguagem de Grande Escala
Imperceptible Jailbreaking against Large Language Models

Oct 6

ByKuofeng Gao, Yiming Li, Chao Du, Xin Wang, Xingjun Ma, Shu-Tao Xia, Tianyu Pang

Ataques de jailbreak na modalidade visual geralmente dependem de perturbações adversariais imperceptíveis, enquanto os ataques na modalidade textual são geralmente assumidos como necessitando de modificações visíveis (por exemplo, sufixos não semânticos). Neste artigo, introduzimos jailbreaks imperceptíveis que exploram uma classe de caracteres Unicode chamada seletores de variação. Ao anexar seletores de variação invisíveis a perguntas maliciosas, os prompts de jailbreak aparecem visualmente idênticos às perguntas maliciosas originais na tela, enquanto sua tokenização é "secretamente" alterada. Propomos um pipeline de cadeia de busca para gerar tais sufixos adversariais que induzem respostas prejudiciais. Nossos experimentos mostram que nossos jailbreaks imperceptíveis alcançam altas taxas de sucesso de ataque contra quatro LLMs alinhados e se generalizam para ataques de injeção de prompt, tudo sem produzir nenhuma modificação visível no prompt escrito. Nosso código está disponível em https://github.com/sail-sg/imperceptible-jailbreaks.

A Escalabilidade Ótima Requer uma Norma Ótima
Optimal Scaling Needs Optimal Norm

Oct 4

ByOleg Filatov, Jiangtao Wang, Jan Ebert, Stefan Kesselheim

Apesar dos recentes avanços na transferência ótima de hiperparâmetros sob escalonamento de modelo e conjunto de dados, nenhum princípio explicativo unificador foi estabelecido. Utilizando o otimizador Scion, descobrimos que o escalonamento ótimo conjunto entre tamanhos de modelo e conjunto de dados é governado por um único invariante: a norma do operador da camada de saída. Em modelos com até 1,3 bilhão de parâmetros treinados em até 138 bilhões de tokens, o par ótimo de taxa de aprendizado/tamanho do lote (eta^{ast}, B^{ast}) consistentemente apresenta o mesmo valor de norma do operador — um fenômeno que denominamos transferência de norma. Essa condição de norma constante é necessária, mas não suficiente: embora, para cada tamanho de conjunto de dados, múltiplos pares (eta, B) atinjam a norma ótima, apenas um único (eta^{ast}, B^{ast}) alcança a melhor perda. Como condição suficiente, fornecemos a primeira medição do escalonamento de (eta^{ast}, B^{ast}) com o tamanho do conjunto de dados para o Scion, e descobrimos que as regras de escalonamento são consistentes com as do otimizador Adam. Ajustar as taxas de aprendizado por grupo de camadas também melhora o desempenho do modelo, com a camada de saída sendo a mais sensível e as camadas ocultas se beneficiando de taxas de aprendizado mais baixas. Fornecemos insights práticos sobre o escalonamento ótimo guiado por norma e liberamos nossa implementação do Scion Distribuído (Disco) com logs de mais de dois mil experimentos para apoiar pesquisas sobre a dinâmica de treinamento de LLMs em escala.

Reactive Transformer (RxT) -- Processamento em Tempo Real com Estado para Modelos de Linguagem Reativos Orientados a Eventos
Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

Oct 3

ByAdam Filipek

A arquitetura Transformer tornou-se o padrão de facto para Modelos de Linguagem de Grande Escala (LLMs), demonstrando capacidades notáveis em compreensão e geração de linguagem. No entanto, sua aplicação em IA conversacional é fundamentalmente limitada por sua natureza sem estado e pela complexidade computacional quadrática (O(L^2)) em relação ao comprimento da sequência L. Os modelos atuais emulam memória reprocessando um histórico de conversação em constante expansão a cada turno, resultando em custos e latência proibitivos em diálogos longos. Este artigo introduz o Transformer Reativo (RxT), uma nova arquitetura projetada para superar essas limitações ao mudar de um paradigma orientado a dados para um paradigma orientado a eventos. O RxT processa cada turno conversacional como um evento discreto em tempo real, mantendo o contexto em um sistema integrado de Memória de Curto Prazo (STM) de tamanho fixo. A arquitetura apresenta um ciclo operacional distinto, onde um gerador-decodificador produz uma resposta com base na consulta atual e no estado anterior da memória, após o qual um codificador de memória e uma rede dedicada de Atenção à Memória atualizam de forma assíncrona a STM com uma representação da interação completa. Esse design altera fundamentalmente a dinâmica de escalonamento, reduzindo o custo total de uma conversação para o usuário de quadrático (O(N^2 cdot T)) para linear (O(N cdot T)) em relação ao número de interações N. Ao desacoplar a geração de respostas das atualizações de memória, o RxT alcança baixa latência, permitindo conversações longas em tempo real, com estado e economicamente viáveis. Validamos nossa arquitetura com uma série de experimentos de prova de conceito em dados sintéticos, demonstrando desempenho superior e latência de inferência constante em comparação com um modelo sem estado de tamanho comparável.

Pré-carregamento de Raciocínio: A Sinergia entre Dados de Pré-treinamento e Pós-treinamento
Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

Sep 26

BySyeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro

O paradigma predominante para aprimorar as habilidades de raciocínio dos LLMs (Modelos de Linguagem de Grande Escala) gira em torno do pós-treinamento com dados de alta qualidade e intensivos em raciocínio. Embora a literatura emergente sugira que os dados de raciocínio estão sendo cada vez mais incorporados também durante a fase intermediária de treinamento—uma prática que é relativamente mais proprietária e menos caracterizada abertamente—o papel desses dados no pré-treinamento permanece pouco claro. Em particular, devido à opacidade dos corpora de pré-treinamento na maioria dos modelos de ponta, o efeito dos dados de raciocínio introduzidos em diferentes fases do pré- e/ou pós-treinamento é relativamente menos relatado na literatura científica. Isso levanta várias questões importantes: Adicionar dados de raciocínio mais cedo, durante o pré-treinamento, é melhor do que introduzi-los durante o pós-treinamento? A inclusão mais cedo poderia arriscar o sobreajuste e prejudicar a generalização, ou, em vez disso, estabelecer fundamentos duradouros que o ajuste fino posterior não pode recuperar? Realizamos o primeiro estudo sistemático de como os dados de raciocínio—variando em escala, diversidade e qualidade—afetam o desempenho dos LLMs quando introduzidos em diferentes estágios do treinamento. Descobrimos que a antecipação dos dados de raciocínio no pré-treinamento é crítica (ganho médio de 19%), estabelecendo capacidades fundamentais que não podem ser totalmente replicadas pelo ajuste fino supervisionado (SFT) em estágios posteriores, mesmo com mais dados. Revelamos um princípio assimétrico para a alocação ótima de dados: o pré-treinamento se beneficia mais da ampla diversidade de padrões de raciocínio (ganho médio de 11%), enquanto o SFT é mais sensível à qualidade dos dados (ganho médio de 15%). Mostramos que os dados de pré-treinamento de alta qualidade têm efeitos latentes, ativados apenas após o SFT, e que o aumento ingênuo dos dados de SFT pode ser prejudicial, eliminando os benefícios da injeção precoce de raciocínio. Nossos resultados desafiam a separação convencional entre modelagem de linguagem e raciocínio, fornecendo um guia fundamentado para a alocação estratégica de dados em todo o pipeline de treinamento, visando a construção de modelos mais capazes.

MOSS-Speech: Rumo a Verdadeiros Modelos de Fala-para-Fala Sem Orientação de Texto
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance

Oct 1

ByXingjian Zhao, Zhe Xu, Qinyuan Cheng, Zhaoye Fei, Luozhijie Jin, Yang Wang, Hanfu Chen, Yaozhou Jiang, Qinghui Gao, Ke Chen, Ruixiao Li, Mingshu Chen, Ruiming Wang, Wenbo Zhang, Yiyang Zhang, Donghua Yu, Yang Gao, Xiaogui Yang, Yitian Gong, Yuanfan Xu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

Sistemas de diálogo falado frequentemente dependem de pipelines em cascata que transcrevem, processam e ressintetizam a fala. Embora eficaz, esse design descarta pistas paralinguísticas e limita a expressividade. Métodos recentes de ponta a ponta reduzem a latência e preservam melhor essas pistas, mas ainda dependem de intermediários de texto, criando um gargalo fundamental. Apresentamos o MOSS-Speech, um verdadeiro modelo de linguagem grande de fala para fala que compreende e gera fala diretamente sem depender de orientação textual. Nossa abordagem combina uma arquitetura de divisão de camadas baseada em modalidades com uma estratégia de pré-treinamento congelado, preservando o raciocínio e o conhecimento de LLMs de texto pré-treinados enquanto adiciona capacidades nativas de fala. Experimentos mostram que nosso modelo alcança resultados de ponta em respostas a perguntas faladas e oferece desempenho comparável em conversão de fala para fala em relação aos sistemas guiados por texto existentes, mantendo ainda um desempenho competitivo em texto. Ao reduzir a lacuna entre a geração de fala guiada por texto e a geração direta de fala, nosso trabalho estabelece um novo paradigma para interações de fala expressivas e eficientes de ponta a ponta.

A Factualidade Importa: Quando a Geração e Edição de Imagens Encontram os Visuais Estruturados
Factuality Matters: When Image Generation and Editing Meet Structured Visuals

Oct 6

ByLe Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li

Embora os modelos modernos de geração visual se destaquem na criação de imagens naturais esteticamente agradáveis, eles enfrentam dificuldades ao produzir ou editar visuais estruturados, como gráficos, diagramas e figuras matemáticas, que exigem planejamento de composição, renderização de texto e raciocínio multimodal para garantir fidelidade factual. Para abordar essa lacuna, apresentamos a primeira investigação abrangente e sistemática desse domínio, abrangendo a construção de dados, o treinamento de modelos e um benchmark de avaliação. Primeiro, construímos um conjunto de dados em larga escala com 1,3 milhão de pares de imagens estruturadas de alta qualidade, derivados de programas de desenho executáveis e aumentados com anotações de raciocínio em cadeia de pensamento. Com base nisso, treinamos um modelo unificado que integra um VLM com FLUX.1 Kontext por meio de um conector leve para aprimorar a compreensão multimodal. Um currículo de treinamento em três estágios permite o alinhamento progressivo de características, a infusão de conhecimento e a geração aprimorada por raciocínio, ainda mais impulsionada por um raciocinador externo durante a inferência. Por fim, introduzimos o StructBench, um novo benchmark para geração e edição com mais de 1.700 instâncias desafiadoras, e uma métrica de avaliação associada, o StructScore, que emprega um protocolo de Q&A em múltiplas rodadas para avaliar a precisão factual em nível granular. Avaliações de 15 modelos revelam que até mesmo os sistemas líderes de código fechado permanecem longe de serem satisfatórios. Nosso modelo alcança um forte desempenho em edição, e o raciocínio durante a inferência gera ganhos consistentes em diversas arquiteturas. Ao disponibilizar o conjunto de dados, o modelo e o benchmark, buscamos avançar as bases multimodais unificadas para visuais estruturados.

Ajuste Fino em Instruções Ruidosas: Efeitos na Generalização e Desempenho
Fine-Tuning on Noisy Instructions: Effects on Generalization and Performance

Oct 3

ByAhmed Alajrami, Xingwei Tan, Nikolaos Aletras

O ajuste por instrução desempenha um papel crucial no aprimoramento das habilidades de resolução de tarefas dos grandes modelos de linguagem (LLMs), melhorando sua usabilidade na geração de respostas úteis para diversas tarefas. No entanto, trabalhos anteriores demonstraram que esses modelos são sensíveis a pequenas variações na formulação das instruções. Neste artigo, exploramos se a introdução de perturbações nos dados de ajuste por instrução pode aumentar a resistência dos LLMs a instruções ruidosas. Nosso foco é entender como o ajuste por instrução com perturbações, como a remoção de palavras de parada ou a reorganização de palavras, afeta o desempenho dos LLMs em versões originais e perturbadas de benchmarks amplamente utilizados (MMLU, BBH, GSM8K). Além disso, avaliamos as dinâmicas de aprendizado e possíveis mudanças no comportamento do modelo. Surpreendentemente, nossos resultados sugerem que o ajuste por instrução com instruções perturbadas pode, em alguns casos, melhorar o desempenho subsequente. Essas descobertas destacam a importância de incluir instruções perturbadas no ajuste por instrução, o que pode tornar os LLMs mais resilientes a entradas ruidosas dos usuários.

Reinforce-Ada: Um Framework de Amostragem Adaptativa para Treinamento de LLMs no Estilo Reinforce
Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Oct 6

ByWei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang

O aprendizado por reforço aplicado a modelos de linguagem de grande escala (LLMs) para tarefas de raciocínio frequentemente enfrenta gargalos devido a estimativas de gradiente instáveis, causadas pela amostragem fixa e uniforme de respostas entre diferentes prompts. Trabalhos anteriores, como o GVM-RAFT, abordam esse problema ao alocar dinamicamente o orçamento de inferência por prompt, minimizando a variância do gradiente estocástico sob uma restrição de orçamento. Inspirados por essa ideia, propomos o Reinforce-Ada, uma estrutura de amostragem adaptativa para o pós-treinamento online de LLMs com aprendizado por reforço, que realoca continuamente o esforço de amostragem para os prompts com maior incerteza ou potencial de aprendizado. Diferente dos métodos convencionais de alocação em duas etapas, o Reinforce-Ada intercala estimação e amostragem em um processo de eliminação sucessiva online, e interrompe automaticamente a amostragem para um prompt uma vez que sinal suficiente é coletado. Para estabilizar as atualizações, formamos grupos de tamanho fixo com diversidade de recompensas imposta e calculamos baselines de vantagem usando estatísticas globais agregadas durante a fase de amostragem adaptativa. Resultados empíricos em múltiplas arquiteturas de modelos e benchmarks de raciocínio mostram que o Reinforce-Ada acelera a convergência e melhora o desempenho final em comparação ao GRPO, especialmente ao usar a variante de amostragem balanceada. Nosso trabalho destaca o papel central da curadoria de dados adaptativa e consciente da variância para permitir um aprendizado por reforço eficiente e confiável em LLMs capazes de raciocínio. O código está disponível em https://github.com/RLHFlow/Reinforce-Ada.

Julgando com Confiança: Calibrando Avaliadores Automáticos para Distribuições de Preferência
Judging with Confidence: Calibrating Autoraters to Preference Distributions

Sep 30

ByZhuohang Li, Xiaowei Li, Chengyu Huang, Guowang Li, Katayoon Goshvadi, Bo Dai, Dale Schuurmans, Paul Zhou, Hamid Palangi, Yiwen Song, Palash Goyal, Murat Kantarcioglu, Bradley A. Malin, Yuan Xue

O alinhamento de grandes modelos de linguagem (LLMs, na sigla em inglês) com valores humanos depende cada vez mais do uso de outros LLMs como juízes automatizados, ou "autoraters". No entanto, sua confiabilidade é limitada por uma questão fundamental: eles são treinados em rótulos de preferência discretos, impondo uma única verdade fundamental em tarefas que muitas vezes são subjetivas, ambíguas ou cheias de nuances. Argumentamos que um autorater confiável deve aprender a modelar a distribuição completa de preferências definida por uma população-alvo. Neste artigo, propomos um framework geral para calibrar autoraters probabilísticos para qualquer distribuição de preferência dada. Formalizamos o problema e apresentamos dois métodos de aprendizado adaptados a diferentes condições de dados: 1) um ajuste fino supervisionado direto para rótulos densos e probabilísticos, e 2) uma abordagem de aprendizado por reforço para rótulos esparsos e binários. Nossos resultados empíricos mostram que ajustar autoraters com um objetivo de correspondência de distribuição leva a previsões de probabilidade verbalizadas que estão melhor alinhadas com a distribuição de preferência alvo, com calibração aprimorada e viés posicional significativamente menor, tudo isso mantendo o desempenho em tarefas objetivas.

Prosperidade antes do Colapso: Até Onde o Aprendizado por Reforço Off-Policy Pode Chegar com Dados Desatualizados em LLMs?
Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

Oct 1

ByHaizhong Zheng, Jiawei Zhao, Bedi Chen

O aprendizado por reforço tem sido central para os avanços recentes no raciocínio de modelos de linguagem de grande escala, mas a maioria dos algoritmos depende de treinamento on-policy que exige novas execuções a cada atualização, limitando a eficiência e a escalabilidade. Sistemas de RL assíncronos aliviam isso ao desacoplar a geração de execuções do treinamento, mas sua eficácia depende da tolerância a grandes defasagens nos dados de execução, um cenário onde os métodos existentes ou degradam em desempenho ou colapsam. Revisitamos esse desafio e descobrimos um fenômeno de prosperidade antes do colapso: dados defasados podem ser tão informativos quanto dados on-policy se explorados adequadamente. Com base nessa percepção, introduzimos o M2PO (Second-Moment Trust Policy Optimization), que restringe o segundo momento dos pesos de importância para suprimir apenas outliers extremos, preservando atualizações informativas. Notavelmente, o M2PO reduz drasticamente a fração de tokens cortados sob alta defasagem (de 1,22% para 0,06% durante o treinamento), mascarando precisamente tokens de alta variância enquanto mantém uma otimização estável. Uma avaliação extensa em seis modelos (de 1,7B a 32B) e oito benchmarks mostra que o M2PO oferece treinamento off-policy estável mesmo com dados defasados por pelo menos 256 atualizações do modelo e iguala o desempenho on-policy.

SwiReasoning: Pensamento de Alternância em Níveis Latente e Explícito para Raciocínio Pareto-Superior em LLMs
SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

Oct 6

ByDachuan Shi, Abedelkadir Asi, Keying Li, Xiangchi Yuan, Leyan Pan, Wenke Lee, Wen Xiao

Trabalhos recentes mostram que, além do raciocínio discreto por meio de etapas explícitas de cadeia de pensamento, que são limitadas pelas fronteiras das linguagens naturais, os grandes modelos de linguagem (LLMs) também podem raciocinar continuamente no espaço latente, permitindo informações mais ricas por etapa e, assim, melhorando a eficiência de tokens. Apesar dessa promessa, o raciocínio latente ainda enfrenta dois desafios, especialmente em configurações sem treinamento: 1) o raciocínio puramente latente amplia a distribuição de busca ao manter múltiplos caminhos implícitos, o que difunde a massa de probabilidade, introduz ruído e impede a convergência para uma única solução de alta confiança, prejudicando a precisão; e 2) o excesso de pensamento persiste mesmo sem texto explícito, desperdiçando tokens e degradando a eficiência. Para abordar esses problemas, introduzimos o SwiReasoning, uma estrutura sem treinamento para raciocínio em LLMs que apresenta duas inovações principais: 1) o SwiReasoning alterna dinamicamente entre raciocínio explícito e latente, guiado pela confiança em blocos estimada a partir de tendências de entropia nas distribuições de próximos tokens, para equilibrar exploração e exploração e promover a convergência oportuna. 2) Ao limitar o número máximo de alternâncias de blocos de pensamento, o SwiReasoning controla o excesso de pensamento e melhora a eficiência de tokens em diferentes níveis de dificuldade de problemas. Em benchmarks amplamente utilizados de matemática e STEM, o SwiReasoning melhora consistentemente a precisão média em 1,5%-2,8% em LLMs de raciocínio de diferentes famílias e escalas de modelos. Além disso, sob orçamentos restritos, o SwiReasoning melhora a eficiência média de tokens em 56%-79%, com ganhos maiores à medida que os orçamentos se tornam mais restritos.

ChronoEdit: Rumo ao Raciocínio Temporal para Edição de Imagens e Simulação de Mundos
ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

Oct 5

ByJay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling

Os recentes avanços em grandes modelos generativos têm avançado significativamente a edição de imagens e a geração de imagens em contexto, mas ainda existe uma lacuna crítica em garantir a consistência física, onde os objetos editados devem permanecer coerentes. Essa capacidade é especialmente vital para tarefas relacionadas à simulação de mundos. Neste artigo, apresentamos o ChronoEdit, um framework que reformula a edição de imagens como um problema de geração de vídeo. Primeiro, o ChronoEdit trata as imagens de entrada e editadas como o primeiro e o último quadro de um vídeo, permitindo que ele aproveite grandes modelos generativos de vídeo pré-treinados que capturam não apenas a aparência dos objetos, mas também a física implícita do movimento e da interação por meio da consistência temporal aprendida. Segundo, o ChronoEdit introduz uma etapa de raciocínio temporal que realiza explicitamente a edição no momento da inferência. Nesse cenário, o quadro alvo é desnudado conjuntamente com tokens de raciocínio para imaginar uma trajetória de edição plausível que restringe o espaço de solução a transformações fisicamente viáveis. Os tokens de raciocínio são então descartados após alguns passos para evitar o alto custo computacional de renderizar um vídeo completo. Para validar o ChronoEdit, introduzimos o PBench-Edit, um novo benchmark de pares de imagem-prompt para contextos que exigem consistência física, e demonstramos que o ChronoEdit supera as baselines state-of-the-art tanto em fidelidade visual quanto em plausibilidade física. O código e os modelos para as variantes de 14B e 2B do ChronoEdit serão liberados na página do projeto: https://research.nvidia.com/labs/toronto-ai/chronoedit

Assista e Aprenda: Aprendendo a Usar Computadores com Vídeos Online
Watch and Learn: Learning to Use Computers from Online Videos

Oct 6

ByChan Hee Song, Yiwen Song, Palash Goyal, Yu Su, Oriana Riva, Hamid Palangi, Tomas Pfister

Agentes de uso de computador (CUAs) precisam planejar fluxos de trabalho de tarefas fundamentados em diversas aplicações e ambientes em constante mudança, mas o aprendizado é dificultado pela escassez de dados de treinamento em larga escala e de alta qualidade na aplicação alvo. Os conjuntos de dados existentes são específicos de domínio, estáticos e custosos de anotar, enquanto os métodos atuais de geração de dados sintéticos frequentemente produzem demonstrações de tarefas simplistas ou desalinhadas. Para abordar essas limitações, introduzimos o Watch & Learn (W&L), um framework que converte vídeos de demonstrações humanas facilmente disponíveis na Internet em trajetórias de UI executáveis em larga escala. Em vez de gerar trajetórias diretamente ou depender de heurísticas de raciocínio ad hoc, formulamos o problema como um objetivo de dinâmica inversa: prever a ação do usuário a partir de estados consecutivos da tela. Essa formulação reduz a engenharia manual, é mais fácil de aprender e generaliza de forma mais robusta entre aplicações. Concretamente, desenvolvemos um pipeline de rotulagem de dinâmica inversa com recuperação de vídeos consciente da tarefa, geramos mais de 53 mil trajetórias de alta qualidade a partir de vídeos brutos da web, e demonstramos que essas trajetórias melhoram os CUAs tanto como demonstrações em contexto quanto como dados de treinamento supervisionados. No desafiador benchmark OSWorld, as trajetórias de UI extraídas com o W&L consistentemente aprimoram tanto frameworks de propósito geral quanto os mais avançados em contexto, e proporcionam ganhos mais robustos para modelos de código aberto sob treinamento supervisionado. Esses resultados destacam os vídeos de demonstrações humanas em escala da web como uma base prática e escalável para avançar os CUAs em direção à implantação no mundo real.

Geração Autorreflexiva no Momento do Teste
Self-Reflective Generation at Test Time

Oct 3

ByJian Mu, Qixin Zhang, Zhiyong Wang, Menglin Yang, Shuang Qiu, Chengwei Qin, Zhongxiang Dai, Yao Shu

Modelos de linguagem de grande escala (LLMs) estão cada vez mais resolvendo tarefas complexas de raciocínio por meio de longas cadeias de pensamento, mas seu processo de geração autoregressivo, que avança apenas para frente, é frágil; erros nos primeiros tokens podem se propagar, o que cria uma necessidade clara de mecanismos de autorreflexão. No entanto, a autorreflexão existente ou realiza revisões em rascunhos completos ou aprende a autocorreção por meio de treinamento custoso, sendo ambas fundamentalmente reativas e ineficientes. Para resolver isso, propomos a Geração Autorreflexiva em Tempo de Teste (SRGen), uma estrutura leve que reflete antes de gerar em pontos incertos. Durante a geração de tokens, o SRGen utiliza limiares dinâmicos de entropia para identificar tokens de alta incerteza. Para cada token identificado, ele treina um vetor corretivo específico, que explora totalmente o contexto já gerado para uma geração autorreflexiva, corrigindo a distribuição de probabilidade do token. Ao analisar retrospectivamente a saída parcial, essa autorreflexão permite decisões mais confiáveis, reduzindo significativamente a probabilidade de erros em pontos altamente incertos. Avaliado em benchmarks desafiadores de raciocínio matemático e em um conjunto diversificado de LLMs, o SRGen pode consistentemente fortalecer o raciocínio do modelo: melhorias na qualidade de passagem única também se traduzem em uma votação de autoconsistência mais forte. Especialmente, no AIME2024 com o DeepSeek-R1-Distill-Qwen-7B, o SRGen produz melhorias absolutas de +12,0% no Pass@1 e +13,3% no Cons@5. Além disso, nossas descobertas posicionam o SRGen como um método plug-and-play que integra a reflexão ao processo de geração para um raciocínio confiável em LLMs, alcançando ganhos consistentes com sobrecarga limitada e ampla composabilidade com outras técnicas de treinamento (por exemplo, RLHF) e de teste (por exemplo, SLOT).

Code4MeV2: Uma Plataforma de Conclusão de Código Orientada à Pesquisa
Code4MeV2: a Research-oriented Code-completion Platform

Oct 4

ByRoham Koohestani, Parham Bateni, Aydin Ebrahimi, Behdad Etezadi, Kiarash Karimi, Maliheh Izadi

A adoção de ferramentas de conclusão de código impulsionadas por IA no desenvolvimento de software aumentou substancialmente, mas os dados de interação do usuário gerados por esses sistemas permanecem proprietários dentro de grandes corporações. Isso cria uma barreira para a comunidade acadêmica, pois os pesquisadores frequentemente precisam desenvolver plataformas dedicadas para conduzir estudos sobre interação humano-IA, tornando a pesquisa reproduzível e a análise de dados em larga escala impraticáveis. Neste trabalho, apresentamos o Code4MeV2, um plugin de conclusão de código de código aberto e voltado para pesquisa para IDEs da JetBrains, como uma solução para essa limitação. O Code4MeV2 foi projetado usando uma arquitetura cliente-servidor e apresenta conclusão de código em linha e um assistente de chat com consciência contextual. Sua principal contribuição é uma estrutura modular e transparente de coleta de dados que oferece aos pesquisadores controle refinado sobre a telemetria e a coleta de contexto. O Code4MeV2 alcança desempenho comparável ao da indústria em termos de conclusão de código, com uma latência média de 200~ms. Avaliamos nossa ferramenta por meio de uma combinação de avaliação de especialistas e um estudo de usuário com oito participantes. O feedback de pesquisadores e usuários diários destaca sua informatividade e utilidade. Convidamos a comunidade a adotar e contribuir para essa ferramenta. Mais informações sobre a ferramenta podem ser encontradas em https://app.code4me.me.

EvolProver: Avançando a Prova Automática de Teoremas através da Evolução de Problemas Formalizados via Simetria e Dificuldade
EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty

Oct 1

ByYuchen Tian, Ruiyuan Huang, Xuanwu Wang, Jing Ma, Zengfeng Huang, Ziyang Luo, Hongzhan Lin, Da Zheng, Lun Du

Modelos de Linguagem de Grande Escala (LLMs) para prova formal de teoremas têm demonstrado um potencial significativo, mas frequentemente carecem de generalização e são frágeis a transformações mínimas nos enunciados dos problemas. Para abordar essa limitação, introduzimos um novo pipeline de aumento de dados projetado para aprimorar a robustez do modelo a partir de duas perspectivas: simetria e dificuldade. Da perspectiva da simetria, propomos dois métodos complementares: EvolAST, uma abordagem baseada em Árvore de Sintaxe Abstrata (AST) que visa a simetria sintática para gerar variantes semanticamente equivalentes de problemas, e EvolDomain, que utiliza LLMs para tratar da simetria semântica ao traduzir teoremas entre domínios matemáticos. Da perspectiva da dificuldade, propomos EvolDifficulty, que usa instruções evolutivas cuidadosamente projetadas para orientar LLMs na geração de novos teoremas com uma gama mais ampla de dificuldade. Em seguida, usamos os dados evoluídos para treinar o EvolProver, um provador de teoremas sem raciocínio com 7 bilhões de parâmetros. O EvolProver estabelece um novo estado da arte (SOTA) no FormalMATH-Lite com uma taxa de 53,8% pass@32, superando todos os modelos de tamanho comparável, incluindo modelos baseados em raciocínio. Ele também define novos recordes SOTA para modelos sem raciocínio no MiniF2F-Test (69,8% pass@32), Ineq-Comp-Seed (52,2% pass@32) e Ineq-Comp-Transformed (34,0% pass@32). Estudos de ablação confirmam ainda mais a eficácia do nosso pipeline de aumento de dados em múltiplos benchmarks.

Boas Intenções Além da ACL: Quem Faz NLP para o Bem Social e Onde?
Good Intentions Beyond ACL: Who Does NLP for Social Good, and Where?

Oct 6

ByGrace LeFevre, Qingcheng Zeng, Adam Leif, Jason Jewell, Denis Peskoff, Rob Voigt

O impacto social do Processamento de Linguagem Natural (PLN) tem se tornado cada vez mais importante, com uma crescente atenção da comunidade em iniciativas relacionadas ao PLN para o Bem Social (PLN4SG). De fato, nos últimos anos, quase 20% de todos os artigos na ACL Anthology abordam tópicos relacionados ao bem social, conforme definido pelos Objetivos de Desenvolvimento Sustentável da ONU (Adauto et al., 2023). Neste estudo, adotamos uma perspectiva em nível de autores e eventos para mapear o cenário do PLN4SG, quantificando a proporção de trabalhos que abordam preocupações de bem social tanto dentro quanto fora da comunidade ACL, tanto por autores principais da ACL quanto por autores não pertencentes à ACL. Com essa abordagem, descobrimos dois fatos surpreendentes sobre o cenário do PLN4SG. Primeiro, autores da ACL são significativamente mais propensos a realizar trabalhos que abordam preocupações de bem social ao publicar em eventos fora da ACL. Segundo, a grande maioria das publicações que utilizam técnicas de PLN para abordar questões de bem social é feita por autores não pertencentes à ACL em eventos fora da ACL. Discutimos as implicações dessas descobertas para considerações sobre a definição de agendas da comunidade ACL relacionadas ao PLN4SG.

Mistura de Caracteres para Geração de Vídeo
Character Mixing for Video Generation

Oct 6

ByTingting Liao, Chongjian Ge, Guangyi Liu, Hao Li, Yi Zhou

Imagine o Mr. Bean entrando no mundo de Tom e Jerry—será que podemos gerar vídeos onde personagens interagem naturalmente em diferentes universos? Estudamos a interação entre personagens na geração de vídeos a partir de texto, onde o principal desafio é preservar a identidade e os comportamentos de cada personagem enquanto permitimos uma interação coerente entre contextos diferentes. Isso é difícil porque os personagens podem nunca ter coexistido e porque a mistura de estilos frequentemente causa uma ilusão de estilo, onde personagens realistas parecem caricatos ou vice-versa. Introduzimos um framework que aborda esses problemas com o Cross-Character Embedding (CCE), que aprende a identidade e a lógica comportamental a partir de fontes multimodais, e o Cross-Character Augmentation (CCA), que enriquece o treinamento com dados sintéticos de coexistência e mistura de estilos. Juntas, essas técnicas permitem interações naturais entre personagens que antes não coexistiam, sem perder a fidelidade estilística. Experimentos em um benchmark curado de desenhos animados e séries live-action com 10 personagens mostram melhorias claras na preservação da identidade, qualidade da interação e robustez à ilusão de estilo, possibilitando novas formas de narrativa generativa. Resultados adicionais e vídeos estão disponíveis em nossa página do projeto: https://tingtingliao.github.io/mimix/.

CWM: Um Modelo de Linguagem de Código Aberto para Pesquisa em Geração de Código com Modelos de Mundo
CWM: An Open-Weights LLM for Research on Code Generation with World Models

Sep 30

ByFAIR CodeGen team, Quentin Carbonneaux, Gal Cohen, Jonas Gehring, Jacob Kahn, Jannik Kossen, Felix Kreuk, Emily McMilin, Michel Meyer, Yuxiang Wei, David Zhang, Kunhao Zheng, Jordi Armengol-Estapé, Pedram Bashiri, Maximilian Beck, Pierre Chambon, Abhishek Charnalia, Chris Cummins, Juliette Decugis, Zacharias V. Fisches, François Fleuret, Fabian Gloeckle, Alex Gu, Michael Hassid, Daniel Haziza, Badr Youbi Idrissi, Christian Keller, Rahul Kindi, Hugh Leather, Gallil Maimon, Aram Markosyan, Francisco Massa, Pierre-Emmanuel Mazaré, Vegard Mella, Naila Murray, Keyur Muzumdar, Peter O'Hearn, Matteo Pagliardini, Dmitrii Pedchenko, Tal Remez, Volker Seeker, Marco Selvi, Oren Sultan, Sida Wang, Luca Wehrstedt, Ori Yoran, Lingming Zhang, Taco Cohen, Yossi Adi, Gabriel Synnaeve

Lançamos o Code World Model (CWM), um modelo de linguagem de grande escala (LLM) de 32 bilhões de parâmetros com pesos abertos, para avançar a pesquisa em geração de código com modelos de mundo. Para melhorar a compreensão de código além do que pode ser aprendido apenas com treinamento em código estático, realizamos um treinamento intermediário do CWM em uma grande quantidade de trajetórias de observação-ação provenientes de interpretadores Python e ambientes Docker agentivos, além de executar um extenso raciocínio multi-tarefa com RL (Reinforcement Learning) em ambientes de codificação verificável, matemática e engenharia de software multi-turn. Com o CWM, oferecemos uma plataforma robusta para pesquisadores explorarem as oportunidades que a modelagem de mundo proporciona para melhorar a geração de código com raciocínio e planejamento em ambientes computacionais. Apresentamos os primeiros passos de como os modelos de mundo podem beneficiar a codificação agentiva, permitir a simulação passo a passo da execução de código Python e mostrar resultados iniciais de como o raciocínio pode se beneficiar disso. O CWM é um LLM denso, apenas decodificador, treinado com um tamanho de contexto de até 131 mil tokens. Independente de suas capacidades de modelagem de mundo, o CWM oferece um desempenho forte em tarefas gerais de codificação e matemática: ele alcança pontuações pass@1 de 65,8% no SWE-bench Verified (com escalonamento em tempo de teste), 68,6% no LiveCodeBench, 96,6% no Math-500 e 76,0% no AIME 2024. Para apoiar pesquisas adicionais em modelagem de mundo de código, disponibilizamos checkpoints do modelo após o treinamento intermediário, SFT (Supervised Fine-Tuning) e RL.

Otimização Mínima de Projeção Gaussiana 4D
Optimized Minimal 4D Gaussian Splatting

Oct 4

ByMinseo Lee, Byeonghyeon Lee, Lucas Yunkyu Lee, Eunsoo Lee, Sangmin Kim, Seunghyeon Song, Joo Chan Lee, Jong Hwan Ko, Jaesik Park, Eunbyung Park

O Splatting Gaussiano 4D emergiu como um novo paradigma para a representação de cenas dinâmicas, permitindo a renderização em tempo real de cenas com movimentos complexos. No entanto, ele enfrenta um grande desafio de sobrecarga de armazenamento, já que milhões de Gaussianas são necessárias para uma reconstrução de alta fidelidade. Embora vários estudos tenham tentado aliviar esse fardo de memória, eles ainda enfrentam limitações na taxa de compressão ou na qualidade visual. Neste trabalho, apresentamos o OMG4 (Optimized Minimal 4D Gaussian Splatting), um framework que constrói um conjunto compacto de Gaussianas salientes capazes de representar fielmente modelos Gaussianos 4D. Nosso método poda progressivamente as Gaussianas em três estágios: (1) Amostragem Gaussiana para identificar primitivas críticas para a fidelidade da reconstrução, (2) Poda Gaussiana para remover redundâncias e (3) Fusão Gaussiana para fundir primitivas com características semelhantes. Além disso, integramos a compressão implícita de aparência e generalizamos a Quantização de Sub-Vetores (SVQ) para representações 4D, reduzindo ainda mais o armazenamento enquanto preservamos a qualidade. Experimentos extensivos em conjuntos de dados de benchmark padrão demonstram que o OMG4 supera significativamente os métodos state-of-the-art recentes, reduzindo os tamanhos dos modelos em mais de 60% enquanto mantém a qualidade da reconstrução. Esses resultados posicionam o OMG4 como um avanço significativo na representação compacta de cenas 4D, abrindo novas possibilidades para uma ampla gama de aplicações. Nosso código-fonte está disponível em https://minshirley.github.io/OMG4/.

SAEdit: Controle em nível de token para edição contínua de imagens via AutoEncoder Esparsa
SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

Oct 6

ByRonen Kamenetsky, Sara Dorfman, Daniel Garibi, Roni Paiss, Or Patashnik, Daniel Cohen-Or

Modelos de difusão de texto para imagem em larga escala tornaram-se a base da edição moderna de imagens, mas os prompts de texto por si só não oferecem controle adequado sobre o processo de edição. Duas propriedades são especialmente desejáveis: desacoplamento, onde a alteração de um atributo não modifica outros de forma não intencional, e controle contínuo, onde a intensidade de uma edição pode ser ajustada suavemente. Apresentamos um método para edição desacoplada e contínua por meio da manipulação em nível de token dos embeddings de texto. As edições são aplicadas manipulando os embeddings ao longo de direções cuidadosamente escolhidas, que controlam a intensidade do atributo alvo. Para identificar tais direções, empregamos um Autoencoder Esparsificado (SAE), cujo espaço latente esparso expõe dimensões semanticamente isoladas. Nosso método opera diretamente nos embeddings de texto sem modificar o processo de difusão, tornando-o agnóstico ao modelo e amplamente aplicável a diversos backbones de síntese de imagens. Experimentos mostram que ele permite manipulações intuitivas e eficientes com controle contínuo em diversos atributos e domínios.

Escalonamento em Tempo de Teste em LLMs de Difusão via Especialistas Semi-Autoregressivos Ocultos
Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts

Oct 6

ByJihoon Lee, Hoyeon Moon, Kevin Zhai, Arun Kumar Chithanar, Anit Kumar Sahu, Soummya Kar, Chul Lee, Souradip Chakraborty, Amrit Singh Bedi

Modelos de linguagem baseados em difusão (dLLMs) são treinados de forma flexível para modelar dependências extremas na distribuição de dados; no entanto, como melhor utilizar essa informação durante a inferência permanece um problema em aberto. Neste trabalho, descobrimos uma propriedade interessante desses modelos: dLLMs treinados em dados textuais aprendem implicitamente uma mistura de especialistas semi-autorregressivos, onde diferentes ordens de geração revelam comportamentos especializados distintos. Mostramos que comprometer-se com qualquer esquema fixo de inferência, uma prática comum, colapsa o desempenho ao falhar em aproveitar esse conjunto latente. Para resolver isso, introduzimos o HEX (Hidden semiautoregressive EXperts for test-time scaling), um método de inferência sem treinamento que faz um ensemble através de esquemas de blocos heterogêneos. Ao realizar uma votação majoritária sobre caminhos de geração com tamanhos de blocos diversos, o HEX evita robustamente modos de falha associados a qualquer esquema fixo. Em benchmarks de raciocínio como o GSM8K, ele aumenta a precisão em até 3,56X (de 24,72% para 88,10%), superando a inferência de margem top-K e métodos especializados de ajuste fino como o GRPO, sem treinamento adicional. O HEX também proporciona ganhos significativos no benchmark MATH, de 16,40% para 40,00%, no raciocínio científico do ARC-C, de 54,18% para 87,80%, e no TruthfulQA, de 28,36% para 57,46%. Nossos resultados estabelecem um novo paradigma para o escalonamento em tempo de teste em dLLMs baseados em difusão, revelando que a sequência em que o mascaramento é realizado desempenha um papel crítico na determinação do desempenho durante a inferência.

Detecção Semântica de Fim de Turno em Tailandês para Agentes de Voz em Tempo Real
Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

Oct 5

ByThanapol Popit, Natthapath Rungseesiripak, Monthol Charattrakool, Saksorn Ruangtanusak

A interação fluida de voz para voz requer uma detecção confiável e de baixa latência de quando um usuário terminou de falar. Os tradicionais detectores de fim de fala baseados em silêncio de áudio adicionam centenas de milissegundos de atraso e falham em casos de hesitações ou fenômenos específicos da língua. Apresentamos, até onde sabemos, o primeiro estudo sistemático de detecção de fim de turno (EOT, do inglês *End-of-Turn*) baseada apenas em texto em tailandês para agentes em tempo real. Comparamos o *prompting* de modelos de linguagem compactos (LLMs) em cenários *zero-shot* e *few-shot* com o ajuste fino supervisionado de transformadores leves. Utilizando legendas transcritas do corpus YODAS e pistas linguísticas específicas do tailandês (por exemplo, partículas finais de frase), formulamos o EOT como uma decisão binária sobre os limites dos *tokens*. Relatamos uma clara relação de compromisso entre precisão e latência e fornecemos um plano de implementação pronto para uso público. Este trabalho estabelece uma linha de base para o tailandês e demonstra que modelos pequenos e ajustados podem fornecer decisões de EOT quase instantâneas, adequadas para agentes em dispositivos locais.

MoME: Mistura de Especialistas Matryoshka para Reconhecimento de Fala Áudio-Visual
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

Oct 5

ByUmberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic

Modelos de linguagem de grande escala (LLMs) têm demonstrado recentemente um forte potencial no reconhecimento de fala audiovisual (AVSR), mas suas altas demandas computacionais e sensibilidade à granularidade dos tokens limitam sua praticidade em ambientes com recursos restritos. Métodos de compressão de tokens podem reduzir o custo de inferência, mas exigem a definição prévia de uma taxa de compressão e produzem uma saída de comprimento fixo, oferecendo pouca flexibilidade para equilibrar densidade de informação e eficiência durante a inferência. O aprendizado de representação Matryoshka (MRL) aborda isso ao permitir que um único modelo opere em múltiplas granularidades de tokens, possibilitando que as taxas de compressão sejam ajustadas dinamicamente. No entanto, os métodos atuais baseados em MRL tratam cada escala de forma independente durante o treinamento, limitando a generalização entre escalas, a robustez em altas compressões e a interpretabilidade. Para superar essas limitações, propomos o MoME (Mixture of Matryoshka Experts), uma nova estrutura que integra o Mixture-of-Experts (MoE) esparso em LLMs baseados em MRL para AVSR. O MoME amplia um LLM congelado com especialistas compartilhados e roteados por top-k, permitindo a alocação dinâmica de capacidade entre escalas e modalidades. Um roteador compartilhado promove a ativação consistente de especialistas entre granularidades, permitindo que sequências comprimidas se beneficiem de representações aprendidas em compressões menores. Experimentos no LRS2 e LRS3 demonstram que o MoME alcança desempenho de ponta em tarefas de AVSR, ASR e VSR, enquanto requer significativamente menos parâmetros e mantém a robustez sob ruído. O MoME unifica a adaptabilidade do MRL com a eficiência do MoE, oferecendo uma solução escalável e interpretável para o reconhecimento de fala consciente de recursos.

LLMSQL: Atualizando o WikiSQL para a Era dos LLMs em Texto-para-SQL
LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL

Sep 27

ByDzmitry Pihulski, Karol Charchut, Viktoria Novogrodskaia, Jan Kocoń

A conversão de perguntas em linguagem natural para consultas SQL (Text-to-SQL) permite que usuários não especialistas interajam com bancos de dados relacionais e tem sido uma tarefa central para interfaces de linguagem natural voltadas a dados. Embora o conjunto de dados WikiSQL tenha desempenhado um papel importante nas primeiras pesquisas em NL2SQL, seu uso diminuiu devido a problemas estruturais e de anotação, incluindo inconsistências na sensibilidade a maiúsculas e minúsculas, incompatibilidades de tipos de dados, erros de sintaxe e perguntas não respondidas. Apresentamos o LLMSQL, uma revisão e transformação sistemática do WikiSQL projetada para a era dos LLMs. Classificamos esses erros e implementamos métodos automatizados para limpeza e reanotação. Para avaliar o impacto dessas melhorias, testamos vários modelos de linguagem de grande escala (LLMs), incluindo Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 e outros. Em vez de servir como uma atualização, o LLMSQL é introduzido como um benchmark pronto para LLMs: ao contrário do WikiSQL original, projetado para modelos de rede de ponteiros que selecionam tokens da entrada, o LLMSQL fornece perguntas em linguagem natural limpas e consultas SQL completas como texto simples, permitindo geração e avaliação diretas para modelos modernos de conversão de linguagem natural para SQL.

Otimização de Política Lenta-Rápida: Reposicionar-Antes-de-Atualizar para Raciocínio em LLM
Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Oct 5

ByZiyan Wang, Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo

O aprendizado por reforço (RL) tornou-se central para aprimorar o raciocínio em modelos de linguagem de grande escala (LLMs). No entanto, algoritmos on-policy, como o Group Relative Policy Optimization (GRPO), frequentemente enfrentam dificuldades no início do treinamento: gradientes ruidosos provenientes de rollouts de baixa qualidade levam a atualizações instáveis e exploração ineficiente. Introduzimos o Slow-Fast Policy Optimization (SFPO), uma estrutura simples, porém eficiente, para abordar essas limitações por meio da decomposição de cada etapa em três fases: uma trajetória rápida e curta de passos internos no mesmo lote, um mecanismo de reposicionamento para controlar o desvio off-policy e uma correção lenta final. Esse design de reposicionamento antes da atualização preserva o objetivo e o processo de rollout inalterados, tornando o SFPO compatível com pipelines existentes de gradiente de política. Experimentos extensivos demonstram que o SFPO melhora consistentemente a estabilidade, reduz rollouts e acelera a convergência do treinamento de RL para raciocínio. Especificamente, ele supera o GRPO em até 2,80 pontos na média em benchmarks de raciocínio matemático. Além disso, alcança até 4,93 rollouts a menos e uma redução de 4,19 no tempo de execução para igualar a melhor precisão do GRPO.

HiKE: Estrutura de Avaliação Hierárquica para Reconhecimento de Fala com Alternância de Código Coreano-Inglês
HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition

Sep 29

ByGio Paik, Yongbeom Kim, Soungmin Lee, Sangmin Ahn, Chanwoo Kim

Apesar dos avanços no reconhecimento automático de fala (ASR) multilíngue, o code-switching (CS), a mistura de idiomas dentro de uma mesma expressão comum na fala cotidiana, continua sendo um desafio severamente subexplorado. Neste artigo, apresentamos o HiKE: o benchmark Hierárquico de Code-Switching Coreano-Inglês, o primeiro framework de avaliação globalmente acessível para CS Coreano-Inglês, com o objetivo de fornecer um meio para a avaliação precisa de modelos de ASR multilíngue e de fomentar pesquisas na área. O framework proposto não apenas consiste em dados de CS naturais e de alta qualidade abrangendo diversos tópicos, mas também fornece etiquetas meticulosas de empréstimos linguísticos e um esquema hierárquico de rotulagem de níveis de CS (palavra, frase e sentença) que, juntos, permitem uma avaliação sistemática da capacidade de um modelo de lidar com cada nível distinto de code-switching. Por meio de avaliações de diversos modelos de ASR multilíngue e experimentos de fine-tuning, este artigo demonstra que, embora a maioria dos modelos de ASR multilíngue inicialmente tenha dificuldades com CS-ASR, essa capacidade pode ser habilitada através do fine-tuning com dados de CS. O HiKE estará disponível em https://github.com/ThetaOne-AI/HiKE.

Processo de Desalinhamento Progressivo: Como a Auto-Evolução Desvia os Agentes de LLM do Caminho
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

Oct 6

BySiwei Han, Jiaqi Liu, Yaofeng Su, Wenbo Duan, Xinyuan Liu, Cihang Xie, Mohit Bansal, Mingyu Ding, Linjun Zhang, Huaxiu Yao

À medida que os agentes de Modelos de Linguagem de Grande Escala (LLM) ganham cada vez mais capacidades de auto-evolução para se adaptar e refinar suas estratégias por meio de interações no mundo real, sua confiabilidade a longo prazo torna-se uma preocupação crítica. Identificamos o Processo de Inclinação de Alinhamento (ATP, na sigla em inglês), um risco pós-implantação crítico exclusivo para agentes LLM auto-evolutivos. Diferente de falhas durante o treinamento, o ATP surge quando a interação contínua leva os agentes a abandonar as restrições de alinhamento estabelecidas durante o treinamento em favor de estratégias reforçadas e autointeressadas. Formalizamos e analisamos o ATP por meio de dois paradigmas complementares: Exploração Autointeressada, onde desvios repetidos de alta recompensa induzem a deriva comportamental individual, e Difusão de Estratégias Imitativas, onde comportamentos desviantes se espalham por sistemas multiagentes. Com base nesses paradigmas, construímos ambientes de teste controlados e avaliamos os modelos Qwen3-8B e Llama-3.1-8B-Instruct. Nossos experimentos mostram que os benefícios do alinhamento se deterioram rapidamente sob auto-evolução, com modelos inicialmente alinhados convergindo para estados desalinhados. Em cenários multiagentes, violações bem-sucedidas se difundem rapidamente, levando a um desalinhamento coletivo. Além disso, os métodos atuais de alinhamento baseados em aprendizado por reforço oferecem apenas defesas frágeis contra a inclinação do alinhamento. Juntos, esses achados demonstram que o alinhamento de agentes LLM não é uma propriedade estática, mas sim uma propriedade frágil e dinâmica, vulnerável à deterioração impulsionada por feedback durante a implantação. Nossos dados e código estão disponíveis em https://github.com/aiming-lab/ATP.

Roteamento Multilíngue em Mistura de Especialistas
Multilingual Routing in Mixture-of-Experts

Oct 6

ByLucas Bandarkar, Chenyuan Yang, Mohsen Fayyaz, Junlin Hu, Nanyun Peng

As arquiteturas Mixture-of-Experts (MoE) tornaram-se essenciais para a escalabilidade dos LLMs modernos, mas pouco se compreende sobre como suas dinâmicas de roteamento esparso respondem a dados multilingues. Neste trabalho, analisamos padrões de roteamento de especialistas utilizando conjuntos de dados multilingues paralelos e apresentamos fenômenos altamente interpretáveis em nível de camada. Descobrimos que os modelos MoE roteiam tokens de maneira específica ao idioma nas camadas iniciais e finais do decodificador, mas exibem um alinhamento significativo de roteamento entre idiomas nas camadas intermediárias, refletindo tendências de compartilhamento de parâmetros observadas em LLMs densos. Em particular, revelamos uma correlação clara e forte entre o desempenho do modelo em um determinado idioma e o quão similarmente seus tokens são roteados em relação ao inglês nessas camadas. Indo além da correlação, exploramos intervenções em tempo de inferência que induzem um maior alinhamento de roteamento entre idiomas. Introduzimos um método que direciona o roteador promovendo especialistas de tarefas nas camadas intermediárias frequentemente ativados em inglês, e ele aumenta com sucesso o desempenho multilingue. Esses ganhos de 1-2% são notavelmente consistentes em duas tarefas de avaliação, três modelos e mais de 15 idiomas, especialmente considerando que essas intervenções simples substituem roteadores de LLMs de última geração extensivamente treinados. Em comparação, intervenções fora das camadas intermediárias ou que visam especialistas multilingues específicos resultam apenas em degradação de desempenho. No geral, apresentamos diversas descobertas que explicam como os MoEs processam textos não ingleses e demonstramos que a generalização é limitada pela capacidade do modelo de aproveitar especialistas universais a todos os idiomas.

Paris: Um Modelo de Difusão de Pesos Abertos Treinado de Forma Descentralizada
Paris: A Decentralized Trained Open-Weight Diffusion Model

Oct 3

ByZhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy

Apresentamos Paris, o primeiro modelo de difusão pré-treinado lançado publicamente e desenvolvido inteiramente por meio de computação descentralizada. Paris demonstra que a geração de imagens de alta qualidade a partir de texto pode ser alcançada sem infraestrutura centralizada. Paris está disponível para uso em pesquisa e comercial. O desenvolvimento de Paris exigiu a implementação do nosso framework Distributed Diffusion Training do zero. O modelo consiste em 8 modelos especializados de difusão (com 129M a 605M de parâmetros cada) treinados em completo isolamento, sem sincronização de gradientes, parâmetros ou ativações intermediárias. Em vez de exigir atualizações de gradientes sincronizadas em milhares de GPUs, particionamos os dados em clusters semanticamente coerentes, onde cada especialista otimiza independentemente seu subconjunto, enquanto o coletivo aproxima a distribuição completa. Um roteador leve baseado em transformers seleciona dinamicamente os especialistas apropriados durante a inferência, alcançando qualidade de geração comparável a baselines centralizados. A eliminação da sincronização permite o treinamento em hardware heterogêneo sem interconexões especializadas. A validação empírica confirma que o treinamento descentralizado de Paris mantém a qualidade de geração enquanto remove a necessidade de clusters dedicados de GPUs para modelos de difusão em larga escala. Paris alcança isso utilizando 14 vezes menos dados de treinamento e 16 vezes menos computação do que o baseline descentralizado anterior.

Tensão de Aprendizado de Utilidade em Agentes Automodificáveis
Utility-Learning Tension in Self-Modifying Agents

Oct 5

ByCharles L. Wang, Keir Dorchen, Peter Jin

À medida que os sistemas tendem à superinteligência, uma premissa natural de modelagem é que os agentes podem se autoaperfeiçoar em todos os aspectos de seu próprio design. Formalizamos isso com uma decomposição de cinco eixos e uma camada de decisão, separando os incentivos do comportamento de aprendizado e analisando os eixos isoladamente. Nosso resultado central identifica e introduz uma tensão nítida entre utilidade e aprendizado, o conflito estrutural em sistemas de automodificação em que mudanças orientadas por utilidade que melhoram o desempenho imediato ou esperado também podem corroer as precondições estatísticas para aprendizado e generalização confiáveis. Nossas descobertas mostram que garantias livres de distribuição são preservadas se e somente se a família de modelos alcançável pela política for uniformemente limitada em capacidade; quando a capacidade pode crescer sem limites, mudanças autoinduzidas racionais em termos de utilidade podem tornar tarefas aprendíveis em inaprendíveis. Sob suposições padrão comuns na prática, esses eixos se reduzem ao mesmo critério de capacidade, resultando em um único limite para automodificação segura. Experimentos numéricos em vários eixos validam a teoria ao comparar políticas de utilidade destrutivas com nossas políticas de dois portões propostas, que preservam a capacidade de aprendizado.

Aprendendo no Trabalho: Currículos no Momento do Teste para Aprendizado por Reforço Direcionado
Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning

Oct 6

ByJonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt

Os seres humanos são bons em aprender durante a execução de tarefas: aprendemos a resolver os desafios que enfrentamos à medida que avançamos. Um modelo pode fazer o mesmo? Propomos um agente que monta um currículo específico para a tarefa, chamado de currículo em tempo de teste (TTC-RL), e aplica o aprendizado por reforço para continuar treinando o modelo para sua tarefa-alvo. O currículo em tempo de teste evita a curadoria demorada de conjuntos de dados por humanos, selecionando automaticamente os dados mais relevantes para a tarefa a partir de um grande pool de dados de treinamento disponíveis. Nossos experimentos demonstram que o aprendizado por reforço em um currículo em tempo de teste melhora consistentemente o modelo em suas tarefas-alvo, em uma variedade de avaliações e modelos. Notavelmente, em benchmarks desafiadores de matemática e programação, o TTC-RL melhora o pass@1 do Qwen3-8B em aproximadamente 1,8x no AIME25 e 2,1x no CodeElo. Além disso, descobrimos que o TTC-RL eleva significativamente o limite de desempenho em comparação com o modelo inicial, aumentando o pass@8 no AIME25 de 40% para 62% e no CodeElo de 28% para 43%. Nossas descobertas mostram o potencial dos currículos em tempo de teste para estender o paradigma de escalonamento em tempo de teste ao treinamento contínuo em milhares de experiências relevantes para a tarefa durante o tempo de teste.

AdvEvo-MARL: Moldando a Segurança Internalizada por meio da Coevolução Adversarial no Aprendizado por Reforço Multiagente
AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

Oct 2

ByZhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu

Sistemas multiagentes baseados em LLMs se destacam em planejamento, uso de ferramentas e coordenação de papéis, mas sua abertura e complexidade de interação também os expõem a jailbreaks, injeção de prompts e colaboração adversária. As defesas existentes se dividem em duas abordagens: (i) autoverificação, que solicita que cada agente pré-filtre instruções inseguras antes da execução, e (ii) módulos de guarda externos que monitoram comportamentos. A primeira frequentemente tem desempenho insuficiente porque um agente isolado carece de capacidade para detectar cadeias inseguras entre agentes e riscos induzidos por delegação; a segunda aumenta a sobrecarga do sistema e cria um ponto único de falha — uma vez comprometido, a segurança de todo o sistema colapsa, e adicionar mais guardas piora custo e complexidade. Para resolver esses desafios, propomos o AdvEvo-MARL, uma estrutura de aprendizado por reforço multiagente co-evolutiva que internaliza a segurança nos agentes de tarefa. Em vez de depender de guardas externos, o AdvEvo-MARL otimiza conjuntamente atacantes (que sintetizam prompts de jailbreak em evolução) e defensores (agentes de tarefa treinados tanto para cumprir suas funções quanto para resistir a ataques) em ambientes de aprendizado adversário. Para estabilizar o aprendizado e promover a cooperação, introduzimos uma linha de base pública para estimativa de vantagem: agentes dentro do mesmo grupo funcional compartilham uma linha de base de retorno médio em nível de grupo, permitindo atualizações com menor variância e uma coordenação intra-grupo mais forte. Em cenários de ataque representativos, o AdvEvo-MARL mantém consistentemente a taxa de sucesso de ataque (ASR) abaixo de 20%, enquanto as abordagens de referência atingem até 38,33%, preservando — e às vezes melhorando — a precisão das tarefas (até +3,67% em tarefas de raciocínio). Esses resultados mostram que segurança e utilidade podem ser aprimoradas conjuntamente sem depender de agentes de guarda extras ou sobrecarga adicional do sistema.

Diversidade Epistêmica e Colapso do Conhecimento em Modelos de Linguagem de Grande Escala
Epistemic Diversity and Knowledge Collapse in Large Language Models

Oct 5

ByDustin Wright, Sarah Masud, Jared Moore, Srishti Yadav, Maria Antoniak, Chan Young Park, Isabelle Augenstein

Modelos de linguagem de grande escala (LLMs) tendem a gerar textos lexical, semântica e estilisticamente homogêneos. Isso representa um risco de colapso do conhecimento, onde LLMs homogêneos mediam uma redução na gama de informações acessíveis ao longo do tempo. Os trabalhos existentes sobre homogeneização são limitados por um foco em configurações de múltipla escolha de resposta fechada ou em características semânticas imprecisas, e não analisam tendências ao longo do tempo e contextos culturais. Para superar isso, apresentamos uma nova metodologia para medir a diversidade epistêmica, ou seja, a variação em afirmações do mundo real nas saídas de LLMs, que utilizamos para realizar um amplo estudo empírico sobre o colapso do conhecimento em LLMs. Testamos 27 LLMs, 155 tópicos abrangendo 12 países e 200 variações de prompts extraídas de chats reais de usuários. Para os tópicos em nosso estudo, mostramos que, embora modelos mais recentes tendam a gerar afirmações mais diversas, quase todos os modelos são menos epistemicamente diversos do que uma pesquisa básica na web. Descobrimos que o tamanho do modelo tem um impacto negativo na diversidade epistêmica, enquanto a geração aumentada por recuperação (RAG) tem um impacto positivo, embora a melhoria proporcionada pela RAG varie de acordo com o contexto cultural. Por fim, em comparação com uma fonte tradicional de conhecimento (Wikipedia), descobrimos que afirmações específicas de países refletem mais o idioma inglês do que o local, destacando uma lacuna na representação epistêmica.

Posição: Privacidade Não É Apenas Memorização!
Position: Privacy Is Not Just Memorization!

Oct 2

ByNiloofar Mireshghallah, Tianshi Li

O discurso sobre os riscos de privacidade em Modelos de Linguagem de Grande Escala (LLMs) tem se concentrado desproporcionalmente na memorização literal dos dados de treinamento, enquanto uma constelação de ameaças de privacidade mais imediatas e escaláveis permanece subexplorada. Este artigo de posicionamento argumenta que o cenário de privacidade dos sistemas de LLM vai muito além da extração de dados de treinamento, abrangendo riscos decorrentes das práticas de coleta de dados, vazamento de contexto no momento da inferência, capacidades de agentes autônomos e a democratização da vigilância por meio de ataques de inferência profunda. Apresentamos uma taxonomia abrangente dos riscos de privacidade ao longo do ciclo de vida dos LLMs — desde a coleta de dados até a implantação — e demonstramos, por meio de estudos de caso, como os atuais frameworks de privacidade falham em abordar essas ameaças multifacetadas. Por meio de uma análise longitudinal de 1.322 artigos sobre privacidade em IA/ML publicados em conferências líderes na última década (2016–2025), revelamos que, embora a memorização receba atenção desproporcional na pesquisa técnica, os danos mais urgentes à privacidade estão em outros lugares, onde as abordagens técnicas atuais oferecem pouca tração e os caminhos viáveis a seguir permanecem obscuros. Defendemos uma mudança fundamental na forma como a comunidade de pesquisa aborda a privacidade em LLMs, indo além do foco estreito das soluções técnicas atuais e adotando abordagens interdisciplinares que tratem da natureza sociotécnica dessas ameaças emergentes.

Graph2Eval: Geração Automática de Tarefas Multimodais para Agentes via Grafos de Conhecimento
Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Oct 1

ByYurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang

À medida que os agentes impulsionados por LLMs multimodais continuam a avançar em autonomia e generalização, a avaliação baseada em conjuntos de dados estáticos não consegue mais avaliar adequadamente suas verdadeiras capacidades em ambientes dinâmicos e tarefas diversas. Os métodos existentes de geração de dados sintéticos baseados em LLMs são amplamente projetados para treinamento e avaliação de LLMs e, portanto, não podem ser aplicados diretamente a tarefas de agentes que exigem o uso de ferramentas e capacidades interativas. Embora estudos recentes tenham explorado a geração automática de tarefas para agentes com LLMs, a maioria dos esforços permanece limitada à análise de texto ou imagem, sem modelar sistematicamente interações de múltiplos passos em ambientes web. Para enfrentar esses desafios, propomos o Graph2Eval, um framework baseado em grafos de conhecimento que gera automaticamente tanto tarefas de compreensão de documentos multimodais quanto tarefas de interação web, permitindo uma avaliação abrangente das capacidades de raciocínio, colaboração e interação dos agentes. Em nossa abordagem, grafos de conhecimento construídos a partir de dados externos de múltiplas fontes servem como o espaço de tarefas, onde traduzimos relações semânticas em tarefas multimodais estruturadas usando amostragem de subgrafos, modelos de tarefas e meta-caminhos. Um pipeline de filtragem em múltiplos estágios, baseado em alcance de nós, pontuação de LLM e análise de similaridade, é aplicado para garantir a qualidade e a executabilidade das tarefas geradas. Além disso, o Graph2Eval suporta a avaliação de ponta a ponta de múltiplos tipos de agentes (Agente Único, Multi-Agente, Agente Web) e mede as capacidades de raciocínio, colaboração e interação. Instanciamos o framework com o Graph2Eval-Bench, um conjunto de dados curado de 1.319 tarefas abrangendo cenários de compreensão de documentos e interação web. Experimentos mostram que o Graph2Eval gera tarefas de forma eficiente que diferenciam o desempenho de agentes e modelos, revelando lacunas no raciocínio, colaboração e interação web em diferentes configurações e oferecendo uma nova perspectiva para a avaliação de agentes.

Cálculo Federado de Curvas ROC e PR
Federated Computation of ROC and PR Curves

Oct 6

ByXuefeng Xu, Graham Cormode

As curvas Receiver Operating Characteristic (ROC) e Precision-Recall (PR) são ferramentas fundamentais para avaliar classificadores de aprendizado de máquina, oferecendo insights detalhados sobre as compensações entre a taxa de verdadeiros positivos versus a taxa de falsos positivos (ROC) ou precisão versus recall (PR). No entanto, em cenários de Aprendizado Federado (FL), onde os dados estão distribuídos entre múltiplos clientes, o cálculo dessas curvas é desafiador devido a restrições de privacidade e comunicação. Especificamente, o servidor não pode acessar as pontuações brutas de predição e os rótulos das classes, que são usados para calcular as curvas ROC e PR em um ambiente centralizado. Neste artigo, propomos um método inovador para aproximar as curvas ROC e PR em um ambiente federado, estimando quantis da distribuição das pontuações de predição sob privacidade diferencial distribuída. Fornecemos limites teóricos sobre o Erro de Área (EA) entre as curvas verdadeiras e estimadas, demonstrando as compensações entre precisão de aproximação, privacidade e custo de comunicação. Resultados empíricos em conjuntos de dados do mundo real mostram que nosso método alcança alta precisão de aproximação com comunicação mínima e fortes garantias de privacidade, tornando-o prático para a avaliação de modelos com preservação de privacidade em sistemas federados.

Transformação de Potência Revisitada: Estabilidade Numérica e Federada
Power Transform Revisited: Numerically Stable, and Federated

Oct 6

ByXuefeng Xu, Graham Cormode

Transformações de potência são técnicas paramétricas populares para tornar os dados mais semelhantes a uma distribuição Gaussiana, sendo amplamente utilizadas como etapas de pré-processamento em análises estatísticas e aprendizado de máquina. No entanto, observamos que implementações diretas de transformações de potência sofrem com instabilidades numéricas severas, o que pode levar a resultados incorretos ou até mesmo a falhas. Neste artigo, fornecemos uma análise abrangente das fontes dessas instabilidades e propomos soluções eficazes. Além disso, estendemos as transformações de potência para o cenário de aprendizado federado, abordando tanto os desafios numéricos quanto os distribucionais que surgem nesse contexto. Experimentos em conjuntos de dados do mundo real demonstram que nossos métodos são eficazes e robustos, melhorando substancialmente a estabilidade em comparação com abordagens existentes.