Artigos de pesquisa em IA selecionados diariamente com traduções
Os vídeos de apresentações acadêmicas tornaram-se um meio essencial para a comunicação de pesquisas, mas sua produção continua sendo altamente trabalhosa, muitas vezes exigindo horas de design de slides, gravação e edição para um vídeo curto de 2 a 10 minutos. Diferente de vídeos naturais, a geração de vídeos de apresentação envolve desafios distintos: entradas de artigos de pesquisa, informações multimodais densas (texto, figuras, tabelas) e a necessidade de coordenar múltiplos canais alinhados, como slides, legendas, fala e o apresentador humano. Para enfrentar esses desafios, apresentamos o PaperTalker, o primeiro benchmark de 101 artigos de pesquisa emparelhados com vídeos de apresentação criados pelos autores, slides e metadados do apresentador. Além disso, projetamos quatro métricas de avaliação personalizadas—Meta Similarity, PresentArena, PresentQuiz e IP Memory—para medir como os vídeos transmitem as informações do artigo ao público. Com base nessa fundação, propomos o PaperTalker, o primeiro framework multiagente para geração de vídeos de apresentação acadêmica. Ele integra a geração de slides com refinamento eficaz de layout por meio de uma nova escolha visual de busca em árvore, ancoragem de cursor, legendagem, síntese de fala e renderização de cabeça falante, enquanto paraleliza a geração de slides para eficiência. Experimentos no Paper2Video demonstram que os vídeos de apresentação produzidos por nossa abordagem são mais fiéis e informativos do que as linhas de base existentes, estabelecendo um passo prático em direção à geração automatizada e pronta para uso de vídeos acadêmicos. Nosso conjunto de dados, agente e código estão disponíveis em https://github.com/showlab/Paper2Video.
Aplicações de modelos de linguagem de grande escala (LLMs), como agentes e raciocínio específico de domínio, estão cada vez mais dependentes da adaptação de contexto — modificando entradas com instruções, estratégias ou evidências, em vez de atualizações de pesos. Abordagens anteriores melhoram a usabilidade, mas frequentemente sofrem de viés de brevidade, que descarta insights de domínio em favor de resumos concisos, e de colapso de contexto, onde reescritas iterativas erodem detalhes ao longo do tempo. Baseando-se na memória adaptativa introduzida pelo Dynamic Cheatsheet, apresentamos o ACE (Agentic Context Engineering), um framework que trata contextos como playbooks em evolução que acumulam, refinam e organizam estratégias por meio de um processo modular de geração, reflexão e curadoria. O ACE previne o colapso com atualizações estruturadas e incrementais que preservam conhecimento detalhado e escalam com modelos de contexto longo. Em benchmarks de agentes e domínios específicos, o ACE otimiza contextos tanto offline (por exemplo, prompts de sistema) quanto online (por exemplo, memória do agente), superando consistentemente baselines robustas: +10,6% em agentes e +8,6% em finanças, enquanto reduz significativamente a latência de adaptação e o custo de implantação. Notavelmente, o ACE conseguiu se adaptar efetivamente sem supervisão rotulada, utilizando feedback natural de execução. No leaderboard do AppWorld, o ACE iguala o agente de nível de produção mais bem classificado na média geral e o supera na divisão mais desafiadora de testes, apesar de usar um modelo open-source menor. Esses resultados mostram que contextos abrangentes e em evolução permitem sistemas LLM escaláveis, eficientes e autossuficientes com baixa sobrecarga.
A compreensão de vídeo representa a fronteira mais desafiadora na visão computacional, exigindo que os modelos raciocinem sobre relações espaço-temporais complexas, dependências de longo prazo e evidências multimodais. O recente surgimento dos Modelos Multimodais de Grande Escala para Vídeo (Video-LMMs), que integram codificadores visuais com poderosos modelos de linguagem baseados em decodificadores, demonstrou capacidades notáveis em tarefas de compreensão de vídeo. No entanto, a fase crítica que transforma esses modelos de sistemas básicos de percepção em motores de raciocínio sofisticados, o pós-treinamento, permanece fragmentada na literatura. Esta pesquisa oferece o primeiro exame abrangente das metodologias de pós-treinamento para Video-LMMs, abrangendo três pilares fundamentais: ajuste fino supervisionado (SFT) com cadeia de pensamento, aprendizado por reforço (RL) a partir de objetivos verificáveis e escalonamento em tempo de teste (TTS) por meio de computação de inferência aprimorada. Apresentamos uma taxonomia estruturada que esclarece os papéis, interconexões e adaptações específicas para vídeo dessas técnicas, abordando desafios únicos como localização temporal, fundamentação espaço-temporal, eficiência em vídeos longos e integração de evidências multimodais. Por meio de uma análise sistemática de métodos representativos, sintetizamos princípios-chave de design, insights e protocolos de avaliação, enquanto identificamos desafios críticos em aberto no design de recompensas, escalabilidade e otimização de custo-desempenho. Além disso, reunimos benchmarks, conjuntos de dados e métricas essenciais para facilitar uma avaliação rigorosa da eficácia do pós-treinamento. Esta pesquisa visa fornecer aos pesquisadores e profissionais um framework unificado para avançar as capacidades dos Video-LMMs. Recursos adicionais e atualizações são mantidos em: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training.
A busca em árvore emergiu como um framework representativo para raciocínio em tempo de teste com grandes modelos de linguagem (LLMs), exemplificado por métodos como Árvore de Pensamentos e Busca em Árvore de Monte Carlo, que exploram múltiplos caminhos de raciocínio. No entanto, ainda é difícil fornecer avaliações quantitativas instantâneas e confiáveis da qualidade das etapas intermediárias de raciocínio, e a exploração extensiva de caminhos é computacionalmente custosa. Para resolver isso, propomos a Busca em Árvore de Informação Mútua (MITS), um framework inovador que guia o raciocínio com princípios da teoria da informação. O MITS introduz uma função de pontuação eficaz baseada na informação mútua pontual (PMI), que permite a avaliação passo a passo dos caminhos de raciocínio e a expansão da árvore de busca via busca em feixe, sem a necessidade de simulações caras de antecipação, alcançando desempenhos superiores de raciocínio enquanto mantém a eficiência computacional. O framework é complementado por uma estratégia dinâmica de amostragem baseada em entropia, que aloca recursos computacionais de forma adaptativa para etapas de raciocínio incertas onde a exploração é mais benéfica. Para a previsão final, o MITS emprega um esquema de votação ponderada que combina pontuações PMI com consenso de previsão. Por meio de experimentos abrangentes em diversos benchmarks de raciocínio, o MITS supera consistentemente métodos de base, estabelecendo um framework eficiente e fundamentado para o raciocínio com LLMs.
Os recentes avanços em modelos de linguagem de grande escala demonstram que arquiteturas híbridas—que combinam mecanismos de autoatenção com modelos de espaço de estados estruturados, como o Mamba—podem alcançar um equilíbrio convincente entre qualidade de modelagem e eficiência computacional, especialmente para tarefas de contexto longo. Embora esses modelos híbridos apresentem desempenho promissor, comparações sistemáticas de estratégias de hibridização e análises sobre os fatores-chave por trás de sua eficácia ainda não foram claramente compartilhadas com a comunidade. Neste trabalho, apresentamos uma avaliação holística de arquiteturas híbridas baseadas em fusão intercamadas (sequencial) ou intracamadas (paralela). Avaliamos esses projetos sob diversas perspectivas: desempenho em modelagem de linguagem, capacidades de contexto longo, análise de escalabilidade e eficiência de treinamento e inferência. Ao investigar as características centrais de seu primitivo computacional, identificamos os elementos mais críticos para cada estratégia de hibridização e, adicionalmente, propomos receitas de design ideais para ambos os modelos híbridos. Nossa análise abrangente fornece orientações práticas e insights valiosos para o desenvolvimento de modelos de linguagem híbridos, facilitando a otimização de configurações arquitetônicas.
Modelos recentes de geração de vídeo são capazes de produzir clipes suaves e visualmente atraentes, mas frequentemente enfrentam dificuldades para sintetizar dinâmicas complexas com uma cadeia coerente de consequências. Modelar com precisão os resultados visuais e as transições de estado ao longo do tempo continua sendo um desafio central. Em contraste, grandes modelos de linguagem e multimodais (por exemplo, GPT-4o) exibem fortes capacidades de raciocínio sobre estados visuais e previsão de cenários futuros. Para unir esses pontos fortes, introduzimos o VChain, uma nova estrutura de cadeia de pensamento visual em tempo de inferência que injeta sinais de raciocínio visual de modelos multimodais na geração de vídeo. Especificamente, o VChain contém um pipeline dedicado que aproveita grandes modelos multimodais para gerar um conjunto esparso de quadros-chave críticos como instantâneos, que são então usados para orientar a ajustagem esparsa em tempo de inferência de um gerador de vídeo pré-treinado apenas nesses momentos-chave. Nossa abordagem é eficiente em termos de ajustagem, introduz sobrecarga mínima e evita supervisão densa. Experimentos extensos em cenários complexos e de múltiplas etapas mostram que o VChain melhora significativamente a qualidade dos vídeos gerados.
Ataques de jailbreak na modalidade visual geralmente dependem de perturbações adversariais imperceptíveis, enquanto os ataques na modalidade textual são geralmente assumidos como necessitando de modificações visíveis (por exemplo, sufixos não semânticos). Neste artigo, introduzimos jailbreaks imperceptíveis que exploram uma classe de caracteres Unicode chamada seletores de variação. Ao anexar seletores de variação invisíveis a perguntas maliciosas, os prompts de jailbreak aparecem visualmente idênticos às perguntas maliciosas originais na tela, enquanto sua tokenização é "secretamente" alterada. Propomos um pipeline de cadeia de busca para gerar tais sufixos adversariais que induzem respostas prejudiciais. Nossos experimentos mostram que nossos jailbreaks imperceptíveis alcançam altas taxas de sucesso de ataque contra quatro LLMs alinhados e se generalizam para ataques de injeção de prompt, tudo sem produzir nenhuma modificação visível no prompt escrito. Nosso código está disponível em https://github.com/sail-sg/imperceptible-jailbreaks.
Apesar dos recentes avanços na transferência ótima de hiperparâmetros sob escalonamento de modelo e conjunto de dados, nenhum princípio explicativo unificador foi estabelecido. Utilizando o otimizador Scion, descobrimos que o escalonamento ótimo conjunto entre tamanhos de modelo e conjunto de dados é governado por um único invariante: a norma do operador da camada de saída. Em modelos com até 1,3 bilhão de parâmetros treinados em até 138 bilhões de tokens, o par ótimo de taxa de aprendizado/tamanho do lote (eta^{ast}, B^{ast}) consistentemente apresenta o mesmo valor de norma do operador — um fenômeno que denominamos transferência de norma. Essa condição de norma constante é necessária, mas não suficiente: embora, para cada tamanho de conjunto de dados, múltiplos pares (eta, B) atinjam a norma ótima, apenas um único (eta^{ast}, B^{ast}) alcança a melhor perda. Como condição suficiente, fornecemos a primeira medição do escalonamento de (eta^{ast}, B^{ast}) com o tamanho do conjunto de dados para o Scion, e descobrimos que as regras de escalonamento são consistentes com as do otimizador Adam. Ajustar as taxas de aprendizado por grupo de camadas também melhora o desempenho do modelo, com a camada de saída sendo a mais sensível e as camadas ocultas se beneficiando de taxas de aprendizado mais baixas. Fornecemos insights práticos sobre o escalonamento ótimo guiado por norma e liberamos nossa implementação do Scion Distribuído (Disco) com logs de mais de dois mil experimentos para apoiar pesquisas sobre a dinâmica de treinamento de LLMs em escala.
A arquitetura Transformer tornou-se o padrão de facto para Modelos de Linguagem de Grande Escala (LLMs), demonstrando capacidades notáveis em compreensão e geração de linguagem. No entanto, sua aplicação em IA conversacional é fundamentalmente limitada por sua natureza sem estado e pela complexidade computacional quadrática (O(L^2)) em relação ao comprimento da sequência L. Os modelos atuais emulam memória reprocessando um histórico de conversação em constante expansão a cada turno, resultando em custos e latência proibitivos em diálogos longos. Este artigo introduz o Transformer Reativo (RxT), uma nova arquitetura projetada para superar essas limitações ao mudar de um paradigma orientado a dados para um paradigma orientado a eventos. O RxT processa cada turno conversacional como um evento discreto em tempo real, mantendo o contexto em um sistema integrado de Memória de Curto Prazo (STM) de tamanho fixo. A arquitetura apresenta um ciclo operacional distinto, onde um gerador-decodificador produz uma resposta com base na consulta atual e no estado anterior da memória, após o qual um codificador de memória e uma rede dedicada de Atenção à Memória atualizam de forma assíncrona a STM com uma representação da interação completa. Esse design altera fundamentalmente a dinâmica de escalonamento, reduzindo o custo total de uma conversação para o usuário de quadrático (O(N^2 cdot T)) para linear (O(N cdot T)) em relação ao número de interações N. Ao desacoplar a geração de respostas das atualizações de memória, o RxT alcança baixa latência, permitindo conversações longas em tempo real, com estado e economicamente viáveis. Validamos nossa arquitetura com uma série de experimentos de prova de conceito em dados sintéticos, demonstrando desempenho superior e latência de inferência constante em comparação com um modelo sem estado de tamanho comparável.
O paradigma predominante para aprimorar as habilidades de raciocínio dos LLMs (Modelos de Linguagem de Grande Escala) gira em torno do pós-treinamento com dados de alta qualidade e intensivos em raciocínio. Embora a literatura emergente sugira que os dados de raciocínio estão sendo cada vez mais incorporados também durante a fase intermediária de treinamento—uma prática que é relativamente mais proprietária e menos caracterizada abertamente—o papel desses dados no pré-treinamento permanece pouco claro. Em particular, devido à opacidade dos corpora de pré-treinamento na maioria dos modelos de ponta, o efeito dos dados de raciocínio introduzidos em diferentes fases do pré- e/ou pós-treinamento é relativamente menos relatado na literatura científica. Isso levanta várias questões importantes: Adicionar dados de raciocínio mais cedo, durante o pré-treinamento, é melhor do que introduzi-los durante o pós-treinamento? A inclusão mais cedo poderia arriscar o sobreajuste e prejudicar a generalização, ou, em vez disso, estabelecer fundamentos duradouros que o ajuste fino posterior não pode recuperar? Realizamos o primeiro estudo sistemático de como os dados de raciocínio—variando em escala, diversidade e qualidade—afetam o desempenho dos LLMs quando introduzidos em diferentes estágios do treinamento. Descobrimos que a antecipação dos dados de raciocínio no pré-treinamento é crítica (ganho médio de 19%), estabelecendo capacidades fundamentais que não podem ser totalmente replicadas pelo ajuste fino supervisionado (SFT) em estágios posteriores, mesmo com mais dados. Revelamos um princípio assimétrico para a alocação ótima de dados: o pré-treinamento se beneficia mais da ampla diversidade de padrões de raciocínio (ganho médio de 11%), enquanto o SFT é mais sensível à qualidade dos dados (ganho médio de 15%). Mostramos que os dados de pré-treinamento de alta qualidade têm efeitos latentes, ativados apenas após o SFT, e que o aumento ingênuo dos dados de SFT pode ser prejudicial, eliminando os benefícios da injeção precoce de raciocínio. Nossos resultados desafiam a separação convencional entre modelagem de linguagem e raciocínio, fornecendo um guia fundamentado para a alocação estratégica de dados em todo o pipeline de treinamento, visando a construção de modelos mais capazes.
Sistemas de diálogo falado frequentemente dependem de pipelines em cascata que transcrevem, processam e ressintetizam a fala. Embora eficaz, esse design descarta pistas paralinguísticas e limita a expressividade. Métodos recentes de ponta a ponta reduzem a latência e preservam melhor essas pistas, mas ainda dependem de intermediários de texto, criando um gargalo fundamental. Apresentamos o MOSS-Speech, um verdadeiro modelo de linguagem grande de fala para fala que compreende e gera fala diretamente sem depender de orientação textual. Nossa abordagem combina uma arquitetura de divisão de camadas baseada em modalidades com uma estratégia de pré-treinamento congelado, preservando o raciocínio e o conhecimento de LLMs de texto pré-treinados enquanto adiciona capacidades nativas de fala. Experimentos mostram que nosso modelo alcança resultados de ponta em respostas a perguntas faladas e oferece desempenho comparável em conversão de fala para fala em relação aos sistemas guiados por texto existentes, mantendo ainda um desempenho competitivo em texto. Ao reduzir a lacuna entre a geração de fala guiada por texto e a geração direta de fala, nosso trabalho estabelece um novo paradigma para interações de fala expressivas e eficientes de ponta a ponta.
Embora os modelos modernos de geração visual se destaquem na criação de imagens naturais esteticamente agradáveis, eles enfrentam dificuldades ao produzir ou editar visuais estruturados, como gráficos, diagramas e figuras matemáticas, que exigem planejamento de composição, renderização de texto e raciocínio multimodal para garantir fidelidade factual. Para abordar essa lacuna, apresentamos a primeira investigação abrangente e sistemática desse domínio, abrangendo a construção de dados, o treinamento de modelos e um benchmark de avaliação. Primeiro, construímos um conjunto de dados em larga escala com 1,3 milhão de pares de imagens estruturadas de alta qualidade, derivados de programas de desenho executáveis e aumentados com anotações de raciocínio em cadeia de pensamento. Com base nisso, treinamos um modelo unificado que integra um VLM com FLUX.1 Kontext por meio de um conector leve para aprimorar a compreensão multimodal. Um currículo de treinamento em três estágios permite o alinhamento progressivo de características, a infusão de conhecimento e a geração aprimorada por raciocínio, ainda mais impulsionada por um raciocinador externo durante a inferência. Por fim, introduzimos o StructBench, um novo benchmark para geração e edição com mais de 1.700 instâncias desafiadoras, e uma métrica de avaliação associada, o StructScore, que emprega um protocolo de Q&A em múltiplas rodadas para avaliar a precisão factual em nível granular. Avaliações de 15 modelos revelam que até mesmo os sistemas líderes de código fechado permanecem longe de serem satisfatórios. Nosso modelo alcança um forte desempenho em edição, e o raciocínio durante a inferência gera ganhos consistentes em diversas arquiteturas. Ao disponibilizar o conjunto de dados, o modelo e o benchmark, buscamos avançar as bases multimodais unificadas para visuais estruturados.
O ajuste por instrução desempenha um papel crucial no aprimoramento das habilidades de resolução de tarefas dos grandes modelos de linguagem (LLMs), melhorando sua usabilidade na geração de respostas úteis para diversas tarefas. No entanto, trabalhos anteriores demonstraram que esses modelos são sensíveis a pequenas variações na formulação das instruções. Neste artigo, exploramos se a introdução de perturbações nos dados de ajuste por instrução pode aumentar a resistência dos LLMs a instruções ruidosas. Nosso foco é entender como o ajuste por instrução com perturbações, como a remoção de palavras de parada ou a reorganização de palavras, afeta o desempenho dos LLMs em versões originais e perturbadas de benchmarks amplamente utilizados (MMLU, BBH, GSM8K). Além disso, avaliamos as dinâmicas de aprendizado e possíveis mudanças no comportamento do modelo. Surpreendentemente, nossos resultados sugerem que o ajuste por instrução com instruções perturbadas pode, em alguns casos, melhorar o desempenho subsequente. Essas descobertas destacam a importância de incluir instruções perturbadas no ajuste por instrução, o que pode tornar os LLMs mais resilientes a entradas ruidosas dos usuários.
O aprendizado por reforço aplicado a modelos de linguagem de grande escala (LLMs) para tarefas de raciocínio frequentemente enfrenta gargalos devido a estimativas de gradiente instáveis, causadas pela amostragem fixa e uniforme de respostas entre diferentes prompts. Trabalhos anteriores, como o GVM-RAFT, abordam esse problema ao alocar dinamicamente o orçamento de inferência por prompt, minimizando a variância do gradiente estocástico sob uma restrição de orçamento. Inspirados por essa ideia, propomos o Reinforce-Ada, uma estrutura de amostragem adaptativa para o pós-treinamento online de LLMs com aprendizado por reforço, que realoca continuamente o esforço de amostragem para os prompts com maior incerteza ou potencial de aprendizado. Diferente dos métodos convencionais de alocação em duas etapas, o Reinforce-Ada intercala estimação e amostragem em um processo de eliminação sucessiva online, e interrompe automaticamente a amostragem para um prompt uma vez que sinal suficiente é coletado. Para estabilizar as atualizações, formamos grupos de tamanho fixo com diversidade de recompensas imposta e calculamos baselines de vantagem usando estatísticas globais agregadas durante a fase de amostragem adaptativa. Resultados empíricos em múltiplas arquiteturas de modelos e benchmarks de raciocínio mostram que o Reinforce-Ada acelera a convergência e melhora o desempenho final em comparação ao GRPO, especialmente ao usar a variante de amostragem balanceada. Nosso trabalho destaca o papel central da curadoria de dados adaptativa e consciente da variância para permitir um aprendizado por reforço eficiente e confiável em LLMs capazes de raciocínio. O código está disponível em https://github.com/RLHFlow/Reinforce-Ada.
O alinhamento de grandes modelos de linguagem (LLMs, na sigla em inglês) com valores humanos depende cada vez mais do uso de outros LLMs como juízes automatizados, ou "autoraters". No entanto, sua confiabilidade é limitada por uma questão fundamental: eles são treinados em rótulos de preferência discretos, impondo uma única verdade fundamental em tarefas que muitas vezes são subjetivas, ambíguas ou cheias de nuances. Argumentamos que um autorater confiável deve aprender a modelar a distribuição completa de preferências definida por uma população-alvo. Neste artigo, propomos um framework geral para calibrar autoraters probabilísticos para qualquer distribuição de preferência dada. Formalizamos o problema e apresentamos dois métodos de aprendizado adaptados a diferentes condições de dados: 1) um ajuste fino supervisionado direto para rótulos densos e probabilísticos, e 2) uma abordagem de aprendizado por reforço para rótulos esparsos e binários. Nossos resultados empíricos mostram que ajustar autoraters com um objetivo de correspondência de distribuição leva a previsões de probabilidade verbalizadas que estão melhor alinhadas com a distribuição de preferência alvo, com calibração aprimorada e viés posicional significativamente menor, tudo isso mantendo o desempenho em tarefas objetivas.
O aprendizado por reforço tem sido central para os avanços recentes no raciocínio de modelos de linguagem de grande escala, mas a maioria dos algoritmos depende de treinamento on-policy que exige novas execuções a cada atualização, limitando a eficiência e a escalabilidade. Sistemas de RL assíncronos aliviam isso ao desacoplar a geração de execuções do treinamento, mas sua eficácia depende da tolerância a grandes defasagens nos dados de execução, um cenário onde os métodos existentes ou degradam em desempenho ou colapsam. Revisitamos esse desafio e descobrimos um fenômeno de prosperidade antes do colapso: dados defasados podem ser tão informativos quanto dados on-policy se explorados adequadamente. Com base nessa percepção, introduzimos o M2PO (Second-Moment Trust Policy Optimization), que restringe o segundo momento dos pesos de importância para suprimir apenas outliers extremos, preservando atualizações informativas. Notavelmente, o M2PO reduz drasticamente a fração de tokens cortados sob alta defasagem (de 1,22% para 0,06% durante o treinamento), mascarando precisamente tokens de alta variância enquanto mantém uma otimização estável. Uma avaliação extensa em seis modelos (de 1,7B a 32B) e oito benchmarks mostra que o M2PO oferece treinamento off-policy estável mesmo com dados defasados por pelo menos 256 atualizações do modelo e iguala o desempenho on-policy.
Trabalhos recentes mostram que, além do raciocínio discreto por meio de etapas explícitas de cadeia de pensamento, que são limitadas pelas fronteiras das linguagens naturais, os grandes modelos de linguagem (LLMs) também podem raciocinar continuamente no espaço latente, permitindo informações mais ricas por etapa e, assim, melhorando a eficiência de tokens. Apesar dessa promessa, o raciocínio latente ainda enfrenta dois desafios, especialmente em configurações sem treinamento: 1) o raciocínio puramente latente amplia a distribuição de busca ao manter múltiplos caminhos implícitos, o que difunde a massa de probabilidade, introduz ruído e impede a convergência para uma única solução de alta confiança, prejudicando a precisão; e 2) o excesso de pensamento persiste mesmo sem texto explícito, desperdiçando tokens e degradando a eficiência. Para abordar esses problemas, introduzimos o SwiReasoning, uma estrutura sem treinamento para raciocínio em LLMs que apresenta duas inovações principais: 1) o SwiReasoning alterna dinamicamente entre raciocínio explícito e latente, guiado pela confiança em blocos estimada a partir de tendências de entropia nas distribuições de próximos tokens, para equilibrar exploração e exploração e promover a convergência oportuna. 2) Ao limitar o número máximo de alternâncias de blocos de pensamento, o SwiReasoning controla o excesso de pensamento e melhora a eficiência de tokens em diferentes níveis de dificuldade de problemas. Em benchmarks amplamente utilizados de matemática e STEM, o SwiReasoning melhora consistentemente a precisão média em 1,5%-2,8% em LLMs de raciocínio de diferentes famílias e escalas de modelos. Além disso, sob orçamentos restritos, o SwiReasoning melhora a eficiência média de tokens em 56%-79%, com ganhos maiores à medida que os orçamentos se tornam mais restritos.
Os recentes avanços em grandes modelos generativos têm avançado significativamente a edição de imagens e a geração de imagens em contexto, mas ainda existe uma lacuna crítica em garantir a consistência física, onde os objetos editados devem permanecer coerentes. Essa capacidade é especialmente vital para tarefas relacionadas à simulação de mundos. Neste artigo, apresentamos o ChronoEdit, um framework que reformula a edição de imagens como um problema de geração de vídeo. Primeiro, o ChronoEdit trata as imagens de entrada e editadas como o primeiro e o último quadro de um vídeo, permitindo que ele aproveite grandes modelos generativos de vídeo pré-treinados que capturam não apenas a aparência dos objetos, mas também a física implícita do movimento e da interação por meio da consistência temporal aprendida. Segundo, o ChronoEdit introduz uma etapa de raciocínio temporal que realiza explicitamente a edição no momento da inferência. Nesse cenário, o quadro alvo é desnudado conjuntamente com tokens de raciocínio para imaginar uma trajetória de edição plausível que restringe o espaço de solução a transformações fisicamente viáveis. Os tokens de raciocínio são então descartados após alguns passos para evitar o alto custo computacional de renderizar um vídeo completo. Para validar o ChronoEdit, introduzimos o PBench-Edit, um novo benchmark de pares de imagem-prompt para contextos que exigem consistência física, e demonstramos que o ChronoEdit supera as baselines state-of-the-art tanto em fidelidade visual quanto em plausibilidade física. O código e os modelos para as variantes de 14B e 2B do ChronoEdit serão liberados na página do projeto: https://research.nvidia.com/labs/toronto-ai/chronoedit
Agentes de uso de computador (CUAs) precisam planejar fluxos de trabalho de tarefas fundamentados em diversas aplicações e ambientes em constante mudança, mas o aprendizado é dificultado pela escassez de dados de treinamento em larga escala e de alta qualidade na aplicação alvo. Os conjuntos de dados existentes são específicos de domínio, estáticos e custosos de anotar, enquanto os métodos atuais de geração de dados sintéticos frequentemente produzem demonstrações de tarefas simplistas ou desalinhadas. Para abordar essas limitações, introduzimos o Watch & Learn (W&L), um framework que converte vídeos de demonstrações humanas facilmente disponíveis na Internet em trajetórias de UI executáveis em larga escala. Em vez de gerar trajetórias diretamente ou depender de heurísticas de raciocínio ad hoc, formulamos o problema como um objetivo de dinâmica inversa: prever a ação do usuário a partir de estados consecutivos da tela. Essa formulação reduz a engenharia manual, é mais fácil de aprender e generaliza de forma mais robusta entre aplicações. Concretamente, desenvolvemos um pipeline de rotulagem de dinâmica inversa com recuperação de vídeos consciente da tarefa, geramos mais de 53 mil trajetórias de alta qualidade a partir de vídeos brutos da web, e demonstramos que essas trajetórias melhoram os CUAs tanto como demonstrações em contexto quanto como dados de treinamento supervisionados. No desafiador benchmark OSWorld, as trajetórias de UI extraídas com o W&L consistentemente aprimoram tanto frameworks de propósito geral quanto os mais avançados em contexto, e proporcionam ganhos mais robustos para modelos de código aberto sob treinamento supervisionado. Esses resultados destacam os vídeos de demonstrações humanas em escala da web como uma base prática e escalável para avançar os CUAs em direção à implantação no mundo real.
Modelos de linguagem de grande escala (LLMs) estão cada vez mais resolvendo tarefas complexas de raciocínio por meio de longas cadeias de pensamento, mas seu processo de geração autoregressivo, que avança apenas para frente, é frágil; erros nos primeiros tokens podem se propagar, o que cria uma necessidade clara de mecanismos de autorreflexão. No entanto, a autorreflexão existente ou realiza revisões em rascunhos completos ou aprende a autocorreção por meio de treinamento custoso, sendo ambas fundamentalmente reativas e ineficientes. Para resolver isso, propomos a Geração Autorreflexiva em Tempo de Teste (SRGen), uma estrutura leve que reflete antes de gerar em pontos incertos. Durante a geração de tokens, o SRGen utiliza limiares dinâmicos de entropia para identificar tokens de alta incerteza. Para cada token identificado, ele treina um vetor corretivo específico, que explora totalmente o contexto já gerado para uma geração autorreflexiva, corrigindo a distribuição de probabilidade do token. Ao analisar retrospectivamente a saída parcial, essa autorreflexão permite decisões mais confiáveis, reduzindo significativamente a probabilidade de erros em pontos altamente incertos. Avaliado em benchmarks desafiadores de raciocínio matemático e em um conjunto diversificado de LLMs, o SRGen pode consistentemente fortalecer o raciocínio do modelo: melhorias na qualidade de passagem única também se traduzem em uma votação de autoconsistência mais forte. Especialmente, no AIME2024 com o DeepSeek-R1-Distill-Qwen-7B, o SRGen produz melhorias absolutas de +12,0% no Pass@1 e +13,3% no Cons@5. Além disso, nossas descobertas posicionam o SRGen como um método plug-and-play que integra a reflexão ao processo de geração para um raciocínio confiável em LLMs, alcançando ganhos consistentes com sobrecarga limitada e ampla composabilidade com outras técnicas de treinamento (por exemplo, RLHF) e de teste (por exemplo, SLOT).
A adoção de ferramentas de conclusão de código impulsionadas por IA no desenvolvimento de software aumentou substancialmente, mas os dados de interação do usuário gerados por esses sistemas permanecem proprietários dentro de grandes corporações. Isso cria uma barreira para a comunidade acadêmica, pois os pesquisadores frequentemente precisam desenvolver plataformas dedicadas para conduzir estudos sobre interação humano-IA, tornando a pesquisa reproduzível e a análise de dados em larga escala impraticáveis. Neste trabalho, apresentamos o Code4MeV2, um plugin de conclusão de código de código aberto e voltado para pesquisa para IDEs da JetBrains, como uma solução para essa limitação. O Code4MeV2 foi projetado usando uma arquitetura cliente-servidor e apresenta conclusão de código em linha e um assistente de chat com consciência contextual. Sua principal contribuição é uma estrutura modular e transparente de coleta de dados que oferece aos pesquisadores controle refinado sobre a telemetria e a coleta de contexto. O Code4MeV2 alcança desempenho comparável ao da indústria em termos de conclusão de código, com uma latência média de 200~ms. Avaliamos nossa ferramenta por meio de uma combinação de avaliação de especialistas e um estudo de usuário com oito participantes. O feedback de pesquisadores e usuários diários destaca sua informatividade e utilidade. Convidamos a comunidade a adotar e contribuir para essa ferramenta. Mais informações sobre a ferramenta podem ser encontradas em https://app.code4me.me.
Modelos de Linguagem de Grande Escala (LLMs) para prova formal de teoremas têm demonstrado um potencial significativo, mas frequentemente carecem de generalização e são frágeis a transformações mínimas nos enunciados dos problemas. Para abordar essa limitação, introduzimos um novo pipeline de aumento de dados projetado para aprimorar a robustez do modelo a partir de duas perspectivas: simetria e dificuldade. Da perspectiva da simetria, propomos dois métodos complementares: EvolAST, uma abordagem baseada em Árvore de Sintaxe Abstrata (AST) que visa a simetria sintática para gerar variantes semanticamente equivalentes de problemas, e EvolDomain, que utiliza LLMs para tratar da simetria semântica ao traduzir teoremas entre domínios matemáticos. Da perspectiva da dificuldade, propomos EvolDifficulty, que usa instruções evolutivas cuidadosamente projetadas para orientar LLMs na geração de novos teoremas com uma gama mais ampla de dificuldade. Em seguida, usamos os dados evoluídos para treinar o EvolProver, um provador de teoremas sem raciocínio com 7 bilhões de parâmetros. O EvolProver estabelece um novo estado da arte (SOTA) no FormalMATH-Lite com uma taxa de 53,8% pass@32, superando todos os modelos de tamanho comparável, incluindo modelos baseados em raciocínio. Ele também define novos recordes SOTA para modelos sem raciocínio no MiniF2F-Test (69,8% pass@32), Ineq-Comp-Seed (52,2% pass@32) e Ineq-Comp-Transformed (34,0% pass@32). Estudos de ablação confirmam ainda mais a eficácia do nosso pipeline de aumento de dados em múltiplos benchmarks.
O impacto social do Processamento de Linguagem Natural (PLN) tem se tornado cada vez mais importante, com uma crescente atenção da comunidade em iniciativas relacionadas ao PLN para o Bem Social (PLN4SG). De fato, nos últimos anos, quase 20% de todos os artigos na ACL Anthology abordam tópicos relacionados ao bem social, conforme definido pelos Objetivos de Desenvolvimento Sustentável da ONU (Adauto et al., 2023). Neste estudo, adotamos uma perspectiva em nível de autores e eventos para mapear o cenário do PLN4SG, quantificando a proporção de trabalhos que abordam preocupações de bem social tanto dentro quanto fora da comunidade ACL, tanto por autores principais da ACL quanto por autores não pertencentes à ACL. Com essa abordagem, descobrimos dois fatos surpreendentes sobre o cenário do PLN4SG. Primeiro, autores da ACL são significativamente mais propensos a realizar trabalhos que abordam preocupações de bem social ao publicar em eventos fora da ACL. Segundo, a grande maioria das publicações que utilizam técnicas de PLN para abordar questões de bem social é feita por autores não pertencentes à ACL em eventos fora da ACL. Discutimos as implicações dessas descobertas para considerações sobre a definição de agendas da comunidade ACL relacionadas ao PLN4SG.
Imagine o Mr. Bean entrando no mundo de Tom e Jerry—será que podemos gerar vídeos onde personagens interagem naturalmente em diferentes universos? Estudamos a interação entre personagens na geração de vídeos a partir de texto, onde o principal desafio é preservar a identidade e os comportamentos de cada personagem enquanto permitimos uma interação coerente entre contextos diferentes. Isso é difícil porque os personagens podem nunca ter coexistido e porque a mistura de estilos frequentemente causa uma ilusão de estilo, onde personagens realistas parecem caricatos ou vice-versa. Introduzimos um framework que aborda esses problemas com o Cross-Character Embedding (CCE), que aprende a identidade e a lógica comportamental a partir de fontes multimodais, e o Cross-Character Augmentation (CCA), que enriquece o treinamento com dados sintéticos de coexistência e mistura de estilos. Juntas, essas técnicas permitem interações naturais entre personagens que antes não coexistiam, sem perder a fidelidade estilística. Experimentos em um benchmark curado de desenhos animados e séries live-action com 10 personagens mostram melhorias claras na preservação da identidade, qualidade da interação e robustez à ilusão de estilo, possibilitando novas formas de narrativa generativa. Resultados adicionais e vídeos estão disponíveis em nossa página do projeto: https://tingtingliao.github.io/mimix/.
Lançamos o Code World Model (CWM), um modelo de linguagem de grande escala (LLM) de 32 bilhões de parâmetros com pesos abertos, para avançar a pesquisa em geração de código com modelos de mundo. Para melhorar a compreensão de código além do que pode ser aprendido apenas com treinamento em código estático, realizamos um treinamento intermediário do CWM em uma grande quantidade de trajetórias de observação-ação provenientes de interpretadores Python e ambientes Docker agentivos, além de executar um extenso raciocínio multi-tarefa com RL (Reinforcement Learning) em ambientes de codificação verificável, matemática e engenharia de software multi-turn. Com o CWM, oferecemos uma plataforma robusta para pesquisadores explorarem as oportunidades que a modelagem de mundo proporciona para melhorar a geração de código com raciocínio e planejamento em ambientes computacionais. Apresentamos os primeiros passos de como os modelos de mundo podem beneficiar a codificação agentiva, permitir a simulação passo a passo da execução de código Python e mostrar resultados iniciais de como o raciocínio pode se beneficiar disso. O CWM é um LLM denso, apenas decodificador, treinado com um tamanho de contexto de até 131 mil tokens. Independente de suas capacidades de modelagem de mundo, o CWM oferece um desempenho forte em tarefas gerais de codificação e matemática: ele alcança pontuações pass@1 de 65,8% no SWE-bench Verified (com escalonamento em tempo de teste), 68,6% no LiveCodeBench, 96,6% no Math-500 e 76,0% no AIME 2024. Para apoiar pesquisas adicionais em modelagem de mundo de código, disponibilizamos checkpoints do modelo após o treinamento intermediário, SFT (Supervised Fine-Tuning) e RL.
O Splatting Gaussiano 4D emergiu como um novo paradigma para a representação de cenas dinâmicas, permitindo a renderização em tempo real de cenas com movimentos complexos. No entanto, ele enfrenta um grande desafio de sobrecarga de armazenamento, já que milhões de Gaussianas são necessárias para uma reconstrução de alta fidelidade. Embora vários estudos tenham tentado aliviar esse fardo de memória, eles ainda enfrentam limitações na taxa de compressão ou na qualidade visual. Neste trabalho, apresentamos o OMG4 (Optimized Minimal 4D Gaussian Splatting), um framework que constrói um conjunto compacto de Gaussianas salientes capazes de representar fielmente modelos Gaussianos 4D. Nosso método poda progressivamente as Gaussianas em três estágios: (1) Amostragem Gaussiana para identificar primitivas críticas para a fidelidade da reconstrução, (2) Poda Gaussiana para remover redundâncias e (3) Fusão Gaussiana para fundir primitivas com características semelhantes. Além disso, integramos a compressão implícita de aparência e generalizamos a Quantização de Sub-Vetores (SVQ) para representações 4D, reduzindo ainda mais o armazenamento enquanto preservamos a qualidade. Experimentos extensivos em conjuntos de dados de benchmark padrão demonstram que o OMG4 supera significativamente os métodos state-of-the-art recentes, reduzindo os tamanhos dos modelos em mais de 60% enquanto mantém a qualidade da reconstrução. Esses resultados posicionam o OMG4 como um avanço significativo na representação compacta de cenas 4D, abrindo novas possibilidades para uma ampla gama de aplicações. Nosso código-fonte está disponível em https://minshirley.github.io/OMG4/.
Modelos de difusão de texto para imagem em larga escala tornaram-se a base da edição moderna de imagens, mas os prompts de texto por si só não oferecem controle adequado sobre o processo de edição. Duas propriedades são especialmente desejáveis: desacoplamento, onde a alteração de um atributo não modifica outros de forma não intencional, e controle contínuo, onde a intensidade de uma edição pode ser ajustada suavemente. Apresentamos um método para edição desacoplada e contínua por meio da manipulação em nível de token dos embeddings de texto. As edições são aplicadas manipulando os embeddings ao longo de direções cuidadosamente escolhidas, que controlam a intensidade do atributo alvo. Para identificar tais direções, empregamos um Autoencoder Esparsificado (SAE), cujo espaço latente esparso expõe dimensões semanticamente isoladas. Nosso método opera diretamente nos embeddings de texto sem modificar o processo de difusão, tornando-o agnóstico ao modelo e amplamente aplicável a diversos backbones de síntese de imagens. Experimentos mostram que ele permite manipulações intuitivas e eficientes com controle contínuo em diversos atributos e domínios.
Modelos de linguagem baseados em difusão (dLLMs) são treinados de forma flexível para modelar dependências extremas na distribuição de dados; no entanto, como melhor utilizar essa informação durante a inferência permanece um problema em aberto. Neste trabalho, descobrimos uma propriedade interessante desses modelos: dLLMs treinados em dados textuais aprendem implicitamente uma mistura de especialistas semi-autorregressivos, onde diferentes ordens de geração revelam comportamentos especializados distintos. Mostramos que comprometer-se com qualquer esquema fixo de inferência, uma prática comum, colapsa o desempenho ao falhar em aproveitar esse conjunto latente. Para resolver isso, introduzimos o HEX (Hidden semiautoregressive EXperts for test-time scaling), um método de inferência sem treinamento que faz um ensemble através de esquemas de blocos heterogêneos. Ao realizar uma votação majoritária sobre caminhos de geração com tamanhos de blocos diversos, o HEX evita robustamente modos de falha associados a qualquer esquema fixo. Em benchmarks de raciocínio como o GSM8K, ele aumenta a precisão em até 3,56X (de 24,72% para 88,10%), superando a inferência de margem top-K e métodos especializados de ajuste fino como o GRPO, sem treinamento adicional. O HEX também proporciona ganhos significativos no benchmark MATH, de 16,40% para 40,00%, no raciocínio científico do ARC-C, de 54,18% para 87,80%, e no TruthfulQA, de 28,36% para 57,46%. Nossos resultados estabelecem um novo paradigma para o escalonamento em tempo de teste em dLLMs baseados em difusão, revelando que a sequência em que o mascaramento é realizado desempenha um papel crítico na determinação do desempenho durante a inferência.
A interação fluida de voz para voz requer uma detecção confiável e de baixa latência de quando um usuário terminou de falar. Os tradicionais detectores de fim de fala baseados em silêncio de áudio adicionam centenas de milissegundos de atraso e falham em casos de hesitações ou fenômenos específicos da língua. Apresentamos, até onde sabemos, o primeiro estudo sistemático de detecção de fim de turno (EOT, do inglês *End-of-Turn*) baseada apenas em texto em tailandês para agentes em tempo real. Comparamos o *prompting* de modelos de linguagem compactos (LLMs) em cenários *zero-shot* e *few-shot* com o ajuste fino supervisionado de transformadores leves. Utilizando legendas transcritas do corpus YODAS e pistas linguísticas específicas do tailandês (por exemplo, partículas finais de frase), formulamos o EOT como uma decisão binária sobre os limites dos *tokens*. Relatamos uma clara relação de compromisso entre precisão e latência e fornecemos um plano de implementação pronto para uso público. Este trabalho estabelece uma linha de base para o tailandês e demonstra que modelos pequenos e ajustados podem fornecer decisões de EOT quase instantâneas, adequadas para agentes em dispositivos locais.
Modelos de linguagem de grande escala (LLMs) têm demonstrado recentemente um forte potencial no reconhecimento de fala audiovisual (AVSR), mas suas altas demandas computacionais e sensibilidade à granularidade dos tokens limitam sua praticidade em ambientes com recursos restritos. Métodos de compressão de tokens podem reduzir o custo de inferência, mas exigem a definição prévia de uma taxa de compressão e produzem uma saída de comprimento fixo, oferecendo pouca flexibilidade para equilibrar densidade de informação e eficiência durante a inferência. O aprendizado de representação Matryoshka (MRL) aborda isso ao permitir que um único modelo opere em múltiplas granularidades de tokens, possibilitando que as taxas de compressão sejam ajustadas dinamicamente. No entanto, os métodos atuais baseados em MRL tratam cada escala de forma independente durante o treinamento, limitando a generalização entre escalas, a robustez em altas compressões e a interpretabilidade. Para superar essas limitações, propomos o MoME (Mixture of Matryoshka Experts), uma nova estrutura que integra o Mixture-of-Experts (MoE) esparso em LLMs baseados em MRL para AVSR. O MoME amplia um LLM congelado com especialistas compartilhados e roteados por top-k, permitindo a alocação dinâmica de capacidade entre escalas e modalidades. Um roteador compartilhado promove a ativação consistente de especialistas entre granularidades, permitindo que sequências comprimidas se beneficiem de representações aprendidas em compressões menores. Experimentos no LRS2 e LRS3 demonstram que o MoME alcança desempenho de ponta em tarefas de AVSR, ASR e VSR, enquanto requer significativamente menos parâmetros e mantém a robustez sob ruído. O MoME unifica a adaptabilidade do MRL com a eficiência do MoE, oferecendo uma solução escalável e interpretável para o reconhecimento de fala consciente de recursos.
A conversão de perguntas em linguagem natural para consultas SQL (Text-to-SQL) permite que usuários não especialistas interajam com bancos de dados relacionais e tem sido uma tarefa central para interfaces de linguagem natural voltadas a dados. Embora o conjunto de dados WikiSQL tenha desempenhado um papel importante nas primeiras pesquisas em NL2SQL, seu uso diminuiu devido a problemas estruturais e de anotação, incluindo inconsistências na sensibilidade a maiúsculas e minúsculas, incompatibilidades de tipos de dados, erros de sintaxe e perguntas não respondidas. Apresentamos o LLMSQL, uma revisão e transformação sistemática do WikiSQL projetada para a era dos LLMs. Classificamos esses erros e implementamos métodos automatizados para limpeza e reanotação. Para avaliar o impacto dessas melhorias, testamos vários modelos de linguagem de grande escala (LLMs), incluindo Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 e outros. Em vez de servir como uma atualização, o LLMSQL é introduzido como um benchmark pronto para LLMs: ao contrário do WikiSQL original, projetado para modelos de rede de ponteiros que selecionam tokens da entrada, o LLMSQL fornece perguntas em linguagem natural limpas e consultas SQL completas como texto simples, permitindo geração e avaliação diretas para modelos modernos de conversão de linguagem natural para SQL.
O aprendizado por reforço (RL) tornou-se central para aprimorar o raciocínio em modelos de linguagem de grande escala (LLMs). No entanto, algoritmos on-policy, como o Group Relative Policy Optimization (GRPO), frequentemente enfrentam dificuldades no início do treinamento: gradientes ruidosos provenientes de rollouts de baixa qualidade levam a atualizações instáveis e exploração ineficiente. Introduzimos o Slow-Fast Policy Optimization (SFPO), uma estrutura simples, porém eficiente, para abordar essas limitações por meio da decomposição de cada etapa em três fases: uma trajetória rápida e curta de passos internos no mesmo lote, um mecanismo de reposicionamento para controlar o desvio off-policy e uma correção lenta final. Esse design de reposicionamento antes da atualização preserva o objetivo e o processo de rollout inalterados, tornando o SFPO compatível com pipelines existentes de gradiente de política. Experimentos extensivos demonstram que o SFPO melhora consistentemente a estabilidade, reduz rollouts e acelera a convergência do treinamento de RL para raciocínio. Especificamente, ele supera o GRPO em até 2,80 pontos na média em benchmarks de raciocínio matemático. Além disso, alcança até 4,93 rollouts a menos e uma redução de 4,19 no tempo de execução para igualar a melhor precisão do GRPO.
Apesar dos avanços no reconhecimento automático de fala (ASR) multilíngue, o code-switching (CS), a mistura de idiomas dentro de uma mesma expressão comum na fala cotidiana, continua sendo um desafio severamente subexplorado. Neste artigo, apresentamos o HiKE: o benchmark Hierárquico de Code-Switching Coreano-Inglês, o primeiro framework de avaliação globalmente acessível para CS Coreano-Inglês, com o objetivo de fornecer um meio para a avaliação precisa de modelos de ASR multilíngue e de fomentar pesquisas na área. O framework proposto não apenas consiste em dados de CS naturais e de alta qualidade abrangendo diversos tópicos, mas também fornece etiquetas meticulosas de empréstimos linguísticos e um esquema hierárquico de rotulagem de níveis de CS (palavra, frase e sentença) que, juntos, permitem uma avaliação sistemática da capacidade de um modelo de lidar com cada nível distinto de code-switching. Por meio de avaliações de diversos modelos de ASR multilíngue e experimentos de fine-tuning, este artigo demonstra que, embora a maioria dos modelos de ASR multilíngue inicialmente tenha dificuldades com CS-ASR, essa capacidade pode ser habilitada através do fine-tuning com dados de CS. O HiKE estará disponível em https://github.com/ThetaOne-AI/HiKE.
À medida que os agentes de Modelos de Linguagem de Grande Escala (LLM) ganham cada vez mais capacidades de auto-evolução para se adaptar e refinar suas estratégias por meio de interações no mundo real, sua confiabilidade a longo prazo torna-se uma preocupação crítica. Identificamos o Processo de Inclinação de Alinhamento (ATP, na sigla em inglês), um risco pós-implantação crítico exclusivo para agentes LLM auto-evolutivos. Diferente de falhas durante o treinamento, o ATP surge quando a interação contínua leva os agentes a abandonar as restrições de alinhamento estabelecidas durante o treinamento em favor de estratégias reforçadas e autointeressadas. Formalizamos e analisamos o ATP por meio de dois paradigmas complementares: Exploração Autointeressada, onde desvios repetidos de alta recompensa induzem a deriva comportamental individual, e Difusão de Estratégias Imitativas, onde comportamentos desviantes se espalham por sistemas multiagentes. Com base nesses paradigmas, construímos ambientes de teste controlados e avaliamos os modelos Qwen3-8B e Llama-3.1-8B-Instruct. Nossos experimentos mostram que os benefícios do alinhamento se deterioram rapidamente sob auto-evolução, com modelos inicialmente alinhados convergindo para estados desalinhados. Em cenários multiagentes, violações bem-sucedidas se difundem rapidamente, levando a um desalinhamento coletivo. Além disso, os métodos atuais de alinhamento baseados em aprendizado por reforço oferecem apenas defesas frágeis contra a inclinação do alinhamento. Juntos, esses achados demonstram que o alinhamento de agentes LLM não é uma propriedade estática, mas sim uma propriedade frágil e dinâmica, vulnerável à deterioração impulsionada por feedback durante a implantação. Nossos dados e código estão disponíveis em https://github.com/aiming-lab/ATP.
As arquiteturas Mixture-of-Experts (MoE) tornaram-se essenciais para a escalabilidade dos LLMs modernos, mas pouco se compreende sobre como suas dinâmicas de roteamento esparso respondem a dados multilingues. Neste trabalho, analisamos padrões de roteamento de especialistas utilizando conjuntos de dados multilingues paralelos e apresentamos fenômenos altamente interpretáveis em nível de camada. Descobrimos que os modelos MoE roteiam tokens de maneira específica ao idioma nas camadas iniciais e finais do decodificador, mas exibem um alinhamento significativo de roteamento entre idiomas nas camadas intermediárias, refletindo tendências de compartilhamento de parâmetros observadas em LLMs densos. Em particular, revelamos uma correlação clara e forte entre o desempenho do modelo em um determinado idioma e o quão similarmente seus tokens são roteados em relação ao inglês nessas camadas. Indo além da correlação, exploramos intervenções em tempo de inferência que induzem um maior alinhamento de roteamento entre idiomas. Introduzimos um método que direciona o roteador promovendo especialistas de tarefas nas camadas intermediárias frequentemente ativados em inglês, e ele aumenta com sucesso o desempenho multilingue. Esses ganhos de 1-2% são notavelmente consistentes em duas tarefas de avaliação, três modelos e mais de 15 idiomas, especialmente considerando que essas intervenções simples substituem roteadores de LLMs de última geração extensivamente treinados. Em comparação, intervenções fora das camadas intermediárias ou que visam especialistas multilingues específicos resultam apenas em degradação de desempenho. No geral, apresentamos diversas descobertas que explicam como os MoEs processam textos não ingleses e demonstramos que a generalização é limitada pela capacidade do modelo de aproveitar especialistas universais a todos os idiomas.
Apresentamos Paris, o primeiro modelo de difusão pré-treinado lançado publicamente e desenvolvido inteiramente por meio de computação descentralizada. Paris demonstra que a geração de imagens de alta qualidade a partir de texto pode ser alcançada sem infraestrutura centralizada. Paris está disponível para uso em pesquisa e comercial. O desenvolvimento de Paris exigiu a implementação do nosso framework Distributed Diffusion Training do zero. O modelo consiste em 8 modelos especializados de difusão (com 129M a 605M de parâmetros cada) treinados em completo isolamento, sem sincronização de gradientes, parâmetros ou ativações intermediárias. Em vez de exigir atualizações de gradientes sincronizadas em milhares de GPUs, particionamos os dados em clusters semanticamente coerentes, onde cada especialista otimiza independentemente seu subconjunto, enquanto o coletivo aproxima a distribuição completa. Um roteador leve baseado em transformers seleciona dinamicamente os especialistas apropriados durante a inferência, alcançando qualidade de geração comparável a baselines centralizados. A eliminação da sincronização permite o treinamento em hardware heterogêneo sem interconexões especializadas. A validação empírica confirma que o treinamento descentralizado de Paris mantém a qualidade de geração enquanto remove a necessidade de clusters dedicados de GPUs para modelos de difusão em larga escala. Paris alcança isso utilizando 14 vezes menos dados de treinamento e 16 vezes menos computação do que o baseline descentralizado anterior.
À medida que os sistemas tendem à superinteligência, uma premissa natural de modelagem é que os agentes podem se autoaperfeiçoar em todos os aspectos de seu próprio design. Formalizamos isso com uma decomposição de cinco eixos e uma camada de decisão, separando os incentivos do comportamento de aprendizado e analisando os eixos isoladamente. Nosso resultado central identifica e introduz uma tensão nítida entre utilidade e aprendizado, o conflito estrutural em sistemas de automodificação em que mudanças orientadas por utilidade que melhoram o desempenho imediato ou esperado também podem corroer as precondições estatísticas para aprendizado e generalização confiáveis. Nossas descobertas mostram que garantias livres de distribuição são preservadas se e somente se a família de modelos alcançável pela política for uniformemente limitada em capacidade; quando a capacidade pode crescer sem limites, mudanças autoinduzidas racionais em termos de utilidade podem tornar tarefas aprendíveis em inaprendíveis. Sob suposições padrão comuns na prática, esses eixos se reduzem ao mesmo critério de capacidade, resultando em um único limite para automodificação segura. Experimentos numéricos em vários eixos validam a teoria ao comparar políticas de utilidade destrutivas com nossas políticas de dois portões propostas, que preservam a capacidade de aprendizado.
Os seres humanos são bons em aprender durante a execução de tarefas: aprendemos a resolver os desafios que enfrentamos à medida que avançamos. Um modelo pode fazer o mesmo? Propomos um agente que monta um currículo específico para a tarefa, chamado de currículo em tempo de teste (TTC-RL), e aplica o aprendizado por reforço para continuar treinando o modelo para sua tarefa-alvo. O currículo em tempo de teste evita a curadoria demorada de conjuntos de dados por humanos, selecionando automaticamente os dados mais relevantes para a tarefa a partir de um grande pool de dados de treinamento disponíveis. Nossos experimentos demonstram que o aprendizado por reforço em um currículo em tempo de teste melhora consistentemente o modelo em suas tarefas-alvo, em uma variedade de avaliações e modelos. Notavelmente, em benchmarks desafiadores de matemática e programação, o TTC-RL melhora o pass@1 do Qwen3-8B em aproximadamente 1,8x no AIME25 e 2,1x no CodeElo. Além disso, descobrimos que o TTC-RL eleva significativamente o limite de desempenho em comparação com o modelo inicial, aumentando o pass@8 no AIME25 de 40% para 62% e no CodeElo de 28% para 43%. Nossas descobertas mostram o potencial dos currículos em tempo de teste para estender o paradigma de escalonamento em tempo de teste ao treinamento contínuo em milhares de experiências relevantes para a tarefa durante o tempo de teste.
Sistemas multiagentes baseados em LLMs se destacam em planejamento, uso de ferramentas e coordenação de papéis, mas sua abertura e complexidade de interação também os expõem a jailbreaks, injeção de prompts e colaboração adversária. As defesas existentes se dividem em duas abordagens: (i) autoverificação, que solicita que cada agente pré-filtre instruções inseguras antes da execução, e (ii) módulos de guarda externos que monitoram comportamentos. A primeira frequentemente tem desempenho insuficiente porque um agente isolado carece de capacidade para detectar cadeias inseguras entre agentes e riscos induzidos por delegação; a segunda aumenta a sobrecarga do sistema e cria um ponto único de falha — uma vez comprometido, a segurança de todo o sistema colapsa, e adicionar mais guardas piora custo e complexidade. Para resolver esses desafios, propomos o AdvEvo-MARL, uma estrutura de aprendizado por reforço multiagente co-evolutiva que internaliza a segurança nos agentes de tarefa. Em vez de depender de guardas externos, o AdvEvo-MARL otimiza conjuntamente atacantes (que sintetizam prompts de jailbreak em evolução) e defensores (agentes de tarefa treinados tanto para cumprir suas funções quanto para resistir a ataques) em ambientes de aprendizado adversário. Para estabilizar o aprendizado e promover a cooperação, introduzimos uma linha de base pública para estimativa de vantagem: agentes dentro do mesmo grupo funcional compartilham uma linha de base de retorno médio em nível de grupo, permitindo atualizações com menor variância e uma coordenação intra-grupo mais forte. Em cenários de ataque representativos, o AdvEvo-MARL mantém consistentemente a taxa de sucesso de ataque (ASR) abaixo de 20%, enquanto as abordagens de referência atingem até 38,33%, preservando — e às vezes melhorando — a precisão das tarefas (até +3,67% em tarefas de raciocínio). Esses resultados mostram que segurança e utilidade podem ser aprimoradas conjuntamente sem depender de agentes de guarda extras ou sobrecarga adicional do sistema.
Modelos de linguagem de grande escala (LLMs) tendem a gerar textos lexical, semântica e estilisticamente homogêneos. Isso representa um risco de colapso do conhecimento, onde LLMs homogêneos mediam uma redução na gama de informações acessíveis ao longo do tempo. Os trabalhos existentes sobre homogeneização são limitados por um foco em configurações de múltipla escolha de resposta fechada ou em características semânticas imprecisas, e não analisam tendências ao longo do tempo e contextos culturais. Para superar isso, apresentamos uma nova metodologia para medir a diversidade epistêmica, ou seja, a variação em afirmações do mundo real nas saídas de LLMs, que utilizamos para realizar um amplo estudo empírico sobre o colapso do conhecimento em LLMs. Testamos 27 LLMs, 155 tópicos abrangendo 12 países e 200 variações de prompts extraídas de chats reais de usuários. Para os tópicos em nosso estudo, mostramos que, embora modelos mais recentes tendam a gerar afirmações mais diversas, quase todos os modelos são menos epistemicamente diversos do que uma pesquisa básica na web. Descobrimos que o tamanho do modelo tem um impacto negativo na diversidade epistêmica, enquanto a geração aumentada por recuperação (RAG) tem um impacto positivo, embora a melhoria proporcionada pela RAG varie de acordo com o contexto cultural. Por fim, em comparação com uma fonte tradicional de conhecimento (Wikipedia), descobrimos que afirmações específicas de países refletem mais o idioma inglês do que o local, destacando uma lacuna na representação epistêmica.
O discurso sobre os riscos de privacidade em Modelos de Linguagem de Grande Escala (LLMs) tem se concentrado desproporcionalmente na memorização literal dos dados de treinamento, enquanto uma constelação de ameaças de privacidade mais imediatas e escaláveis permanece subexplorada. Este artigo de posicionamento argumenta que o cenário de privacidade dos sistemas de LLM vai muito além da extração de dados de treinamento, abrangendo riscos decorrentes das práticas de coleta de dados, vazamento de contexto no momento da inferência, capacidades de agentes autônomos e a democratização da vigilância por meio de ataques de inferência profunda. Apresentamos uma taxonomia abrangente dos riscos de privacidade ao longo do ciclo de vida dos LLMs — desde a coleta de dados até a implantação — e demonstramos, por meio de estudos de caso, como os atuais frameworks de privacidade falham em abordar essas ameaças multifacetadas. Por meio de uma análise longitudinal de 1.322 artigos sobre privacidade em IA/ML publicados em conferências líderes na última década (2016–2025), revelamos que, embora a memorização receba atenção desproporcional na pesquisa técnica, os danos mais urgentes à privacidade estão em outros lugares, onde as abordagens técnicas atuais oferecem pouca tração e os caminhos viáveis a seguir permanecem obscuros. Defendemos uma mudança fundamental na forma como a comunidade de pesquisa aborda a privacidade em LLMs, indo além do foco estreito das soluções técnicas atuais e adotando abordagens interdisciplinares que tratem da natureza sociotécnica dessas ameaças emergentes.
À medida que os agentes impulsionados por LLMs multimodais continuam a avançar em autonomia e generalização, a avaliação baseada em conjuntos de dados estáticos não consegue mais avaliar adequadamente suas verdadeiras capacidades em ambientes dinâmicos e tarefas diversas. Os métodos existentes de geração de dados sintéticos baseados em LLMs são amplamente projetados para treinamento e avaliação de LLMs e, portanto, não podem ser aplicados diretamente a tarefas de agentes que exigem o uso de ferramentas e capacidades interativas. Embora estudos recentes tenham explorado a geração automática de tarefas para agentes com LLMs, a maioria dos esforços permanece limitada à análise de texto ou imagem, sem modelar sistematicamente interações de múltiplos passos em ambientes web. Para enfrentar esses desafios, propomos o Graph2Eval, um framework baseado em grafos de conhecimento que gera automaticamente tanto tarefas de compreensão de documentos multimodais quanto tarefas de interação web, permitindo uma avaliação abrangente das capacidades de raciocínio, colaboração e interação dos agentes. Em nossa abordagem, grafos de conhecimento construídos a partir de dados externos de múltiplas fontes servem como o espaço de tarefas, onde traduzimos relações semânticas em tarefas multimodais estruturadas usando amostragem de subgrafos, modelos de tarefas e meta-caminhos. Um pipeline de filtragem em múltiplos estágios, baseado em alcance de nós, pontuação de LLM e análise de similaridade, é aplicado para garantir a qualidade e a executabilidade das tarefas geradas. Além disso, o Graph2Eval suporta a avaliação de ponta a ponta de múltiplos tipos de agentes (Agente Único, Multi-Agente, Agente Web) e mede as capacidades de raciocínio, colaboração e interação. Instanciamos o framework com o Graph2Eval-Bench, um conjunto de dados curado de 1.319 tarefas abrangendo cenários de compreensão de documentos e interação web. Experimentos mostram que o Graph2Eval gera tarefas de forma eficiente que diferenciam o desempenho de agentes e modelos, revelando lacunas no raciocínio, colaboração e interação web em diferentes configurações e oferecendo uma nova perspectiva para a avaliação de agentes.
As curvas Receiver Operating Characteristic (ROC) e Precision-Recall (PR) são ferramentas fundamentais para avaliar classificadores de aprendizado de máquina, oferecendo insights detalhados sobre as compensações entre a taxa de verdadeiros positivos versus a taxa de falsos positivos (ROC) ou precisão versus recall (PR). No entanto, em cenários de Aprendizado Federado (FL), onde os dados estão distribuídos entre múltiplos clientes, o cálculo dessas curvas é desafiador devido a restrições de privacidade e comunicação. Especificamente, o servidor não pode acessar as pontuações brutas de predição e os rótulos das classes, que são usados para calcular as curvas ROC e PR em um ambiente centralizado. Neste artigo, propomos um método inovador para aproximar as curvas ROC e PR em um ambiente federado, estimando quantis da distribuição das pontuações de predição sob privacidade diferencial distribuída. Fornecemos limites teóricos sobre o Erro de Área (EA) entre as curvas verdadeiras e estimadas, demonstrando as compensações entre precisão de aproximação, privacidade e custo de comunicação. Resultados empíricos em conjuntos de dados do mundo real mostram que nosso método alcança alta precisão de aproximação com comunicação mínima e fortes garantias de privacidade, tornando-o prático para a avaliação de modelos com preservação de privacidade em sistemas federados.
Transformações de potência são técnicas paramétricas populares para tornar os dados mais semelhantes a uma distribuição Gaussiana, sendo amplamente utilizadas como etapas de pré-processamento em análises estatísticas e aprendizado de máquina. No entanto, observamos que implementações diretas de transformações de potência sofrem com instabilidades numéricas severas, o que pode levar a resultados incorretos ou até mesmo a falhas. Neste artigo, fornecemos uma análise abrangente das fontes dessas instabilidades e propomos soluções eficazes. Além disso, estendemos as transformações de potência para o cenário de aprendizado federado, abordando tanto os desafios numéricos quanto os distribucionais que surgem nesse contexto. Experimentos em conjuntos de dados do mundo real demonstram que nossos métodos são eficazes e robustos, melhorando substancialmente a estabilidade em comparação com abordagens existentes.