Artigos de pesquisa em IA selecionados diariamente com traduções
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como uma abordagem poderosa para aprimorar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs), embora seus mecanismos ainda não sejam bem compreendidos. Neste trabalho, realizamos uma exploração pioneira do RLVR através da nova perspectiva dos padrões de entropia de tokens, analisando de forma abrangente como diferentes tokens influenciam o desempenho do raciocínio. Ao examinar os padrões de entropia de tokens no raciocínio em Cadeia de Pensamento (CoT), observamos que apenas uma pequena fração dos tokens exibe alta entropia, e esses tokens atuam como pontos críticos que direcionam o modelo para diversos caminhos de raciocínio. Além disso, ao estudar como os padrões de entropia evoluem durante o treinamento do RLVR, descobrimos que o RLVR segue amplamente os padrões de entropia do modelo base, ajustando principalmente a entropia dos tokens de alta entropia. Essas descobertas destacam a importância dos tokens de alta entropia (ou seja, tokens de bifurcação) para o RLVR. Por fim, aprimoramos o RLVR ao restringir as atualizações do gradiente de política aos tokens de bifurcação e descobrimos um achado que vai além da regra 80/20: utilizando apenas 20% dos tokens, mantemos um desempenho comparável às atualizações de gradiente completo no modelo base Qwen3-8B e superamos significativamente as atualizações de gradiente completo nos modelos base Qwen3-32B (+11,04 no AIME'25 e +7,71 no AIME'24) e Qwen3-14B (+4,79 no AIME'25 e +5,21 no AIME'24), destacando uma forte tendência de escalabilidade. Em contraste, o treinamento exclusivo nos 80% dos tokens de menor entropia resulta em uma queda acentuada no desempenho. Esses achados indicam que a eficácia do RLVR surge principalmente da otimização dos tokens de alta entropia que decidem as direções do raciocínio. Coletivamente, nossos resultados destacam o potencial de compreender o RLVR através de uma perspectiva de entropia de tokens e otimizar o RLVR ao aproveitar os tokens minoritários de alta entropia para melhorar ainda mais o raciocínio dos LLMs.
Modelos visão-linguagem (VLMs) pré-treinados em grandes conjuntos de dados multimodais codificam conhecimento visual e linguístico rico, tornando-os uma base sólida para a robótica. Em vez de treinar políticas robóticas do zero, abordagens recentes adaptam VLMs em modelos visão-linguagem-ação (VLAs) que permitem percepção e controle orientados por linguagem natural. No entanto, os VLAs existentes são tipicamente massivos—frequentemente com bilhões de parâmetros—resultando em altos custos de treinamento e limitada capacidade de implantação no mundo real. Além disso, eles dependem de conjuntos de dados acadêmicos e industriais, ignorando a crescente disponibilidade de dados coletados pela comunidade a partir de plataformas robóticas acessíveis. Neste trabalho, apresentamos o SmolVLA, um VLA pequeno, eficiente e orientado pela comunidade que reduz drasticamente tanto os custos de treinamento quanto de inferência, mantendo um desempenho competitivo. O SmolVLA foi projetado para ser treinado em uma única GPU e implantado em GPUs de nível consumidor ou até mesmo CPUs. Para melhorar ainda mais a responsividade, introduzimos uma pilha de inferência assíncrona que desacopla a percepção e a previsão de ações da execução de ações, permitindo taxas de controle mais altas com geração de ações em blocos. Apesar de seu tamanho compacto, o SmolVLA alcança um desempenho comparável a VLAs que são 10 vezes maiores. Avaliamos o SmolVLA em uma variedade de benchmarks robóticos simulados e do mundo real e disponibilizamos todo o código, modelos pré-treinados e dados de treinamento.
Apresentamos o Reasoning Gym (RG), uma biblioteca de ambientes de raciocínio para aprendizado por reforço com recompensas verificáveis. Ele oferece mais de 100 geradores e verificadores de dados abrangendo múltiplos domínios, incluindo álgebra, aritmética, computação, cognição, geometria, teoria dos grafos, lógica e diversos jogos comuns. Sua principal inovação é a capacidade de gerar virtualmente infinitos dados de treinamento com complexidade ajustável, ao contrário da maioria dos conjuntos de dados de raciocínio anteriores, que são tipicamente fixos. Essa abordagem de geração procedural permite uma avaliação contínua em diferentes níveis de dificuldade. Nossos resultados experimentais demonstram a eficácia do RG tanto na avaliação quanto no aprendizado por reforço de modelos de raciocínio.
Modelos de linguagem multimodal de grande escala (MLLMs) têm demonstrado capacidades promissoras em tarefas de raciocínio, mas ainda enfrentam dificuldades com problemas complexos que exigem autorreflexão e autocorreção explícitas, especialmente quando comparados aos seus equivalentes unimodais baseados em texto. Os métodos de reflexão existentes são simplistas e lutam para gerar feedback significativo e instrutivo, uma vez que a capacidade de raciocínio e os limites de conhecimento dos modelos pré-treinados são amplamente fixados durante o treinamento inicial. Para superar esses desafios, propomos o **Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO)**, uma estrutura de aprendizado por reforço (RL) em dois estágios, projetada explicitamente para aprimorar o raciocínio de MLLMs multimodais. No primeiro estágio, construímos um conjunto de dados de alta qualidade focado em reflexão, sob a orientação de um MLLM avançado, que gera reflexões com base em respostas iniciais para ajudar o modelo de política a aprender tanto o raciocínio quanto a autorreflexão. No segundo estágio, introduzimos um novo mecanismo de recompensa dentro da estrutura GRPO que incentiva reflexões concisas e cognitivamente significativas, evitando redundâncias. Experimentos extensos em vários benchmarks de raciocínio multimodal, incluindo MathVista, MathVision, MathVerse e MMMU-Pro, utilizando Qwen-2.5-VL-7B e Qwen-2.5-VL-32B, demonstram que o SRPO supera significativamente os modelos state-of-the-art, alcançando melhorias notáveis tanto na precisão do raciocínio quanto na qualidade da reflexão.
O treinamento de grandes modelos de linguagem (LLMs) apresenta desafios devido à sua escala massiva e arquiteturas heterogêneas. Embora otimizadores adaptativos como o AdamW ajudem a lidar com variações de gradiente, eles ainda lutam com a estimativa eficiente e eficaz das taxas de aprendizado por parâmetro, resultando em instabilidade no treinamento, convergência lenta e baixa compatibilidade com técnicas de ajuste fino eficiente em parâmetros (PEFT). Este trabalho introduz o Scaling with Gradient Grouping (SGG), um wrapper de otimizador que melhora a estimativa adaptativa da taxa de aprendizado por meio de agrupamento dinâmico e escalonamento específico por grupo. O SGG primeiro agrupa as estatísticas de gradiente em cada camada em clusters e, em seguida, aplica um escalonamento específico por cluster para calibrar as taxas de aprendizado para cada parâmetro, impondo assim restrições coletivas por grupo enquanto mantém uma adaptação precisa por parâmetro. Experimentos em diversos benchmarks de (M)LLMs mostram que o SGG se integra perfeitamente com otimizadores existentes e oferece ganhos consistentes e convergência mais rápida em relação às linhas de base, com vários tamanhos de modelo. Sua estabilidade em diferentes tamanhos de lote e taxas de aprendizado estabelece o SGG como uma escolha robusta para a otimização de LLMs.
Os recentes avanços em modelos de difusão de texto para vídeo permitiram a síntese de vídeos de alta qualidade, mas a geração controlável ainda é desafiadora, especialmente sob limitações de dados e capacidade computacional. Os métodos existentes de ajuste fino para geração condicional frequentemente dependem de codificadores externos ou modificações arquitetônicas, que exigem grandes conjuntos de dados e são tipicamente restritos a condicionamentos espacialmente alinhados, limitando a flexibilidade e escalabilidade. Neste trabalho, introduzimos o Temporal In-Context Fine-Tuning (TIC-FT), uma abordagem eficiente e versátil para adaptar modelos de difusão de vídeo pré-treinados a diversas tarefas de geração condicional. Nossa ideia principal é concatenar quadros de condição e alvo ao longo do eixo temporal e inserir quadros intermediários de buffer com níveis de ruído progressivamente crescentes. Esses quadros de buffer permitem transições suaves, alinhando o processo de ajuste fino com a dinâmica temporal do modelo pré-treinado. O TIC-FT não requer alterações arquitetônicas e alcança um desempenho robusto com apenas 10 a 30 amostras de treinamento. Validamos nosso método em uma variedade de tarefas, incluindo geração de imagem para vídeo e vídeo para vídeo, utilizando modelos base de grande escala, como o CogVideoX-5B e o Wan-14B. Experimentos extensivos mostram que o TIC-FT supera as linhas de base existentes tanto em fidelidade de condição quanto em qualidade visual, mantendo-se altamente eficiente tanto no treinamento quanto na inferência. Para resultados adicionais, visite https://kinam0252.github.io/TIC-FT/.
Modelos de linguagem de grande escala (LLMs) têm permitido que agentes realizem raciocínios complexos e tomadas de decisão por meio de interações linguísticas de forma livre. No entanto, em ambientes de ação linguística de final aberto (por exemplo, negociação ou jogos de perguntas e respostas), o espaço de ação pode ser formulado como uma distribuição conjunta sobre tokens, resultando em um espaço de ação exponencialmente grande. A amostragem de ações nesse espaço pode levar a uma extrema esparsidade de recompensas, o que traz uma grande variância de recompensas, dificultando o aprendizado por reforço (RL) eficaz. Para resolver isso, propomos o ARIA, um método que Agrega Recompensas no espaço de Intenção para permitir o treinamento eficiente e eficaz de Agentes de linguagem. O ARIA visa projetar ações de linguagem natural do espaço de distribuição conjunta de alta dimensão de tokens em um espaço de intenção de baixa dimensão, onde ações semanticamente semelhantes são agrupadas e recebem recompensas compartilhadas. Essa agregação de recompensas consciente da intenção reduz a variância das recompensas ao densificar os sinais de recompensa, promovendo uma melhor otimização de políticas. Experimentos extensivos demonstram que o ARIA não apenas reduz significativamente a variância do gradiente de política, mas também proporciona ganhos substanciais de desempenho, com uma média de 9,95% em quatro tarefas subsequentes, superando consistentemente as linhas de base de RL offline e online.
Agentes corporificados no mundo real enfrentam tarefas de longo horizonte, caracterizadas por objetivos de alto nível que exigem soluções em múltiplas etapas, além de ações isoladas. Para navegar com sucesso por essas tarefas, é necessário tanto o planejamento de alto nível (ou seja, decompor objetivos em sub-tarefas) quanto o controle de movimento de baixo nível (ou seja, gerar ações precisas do robô). Embora os modelos existentes de visão, linguagem e ação (VLA) e as arquiteturas hierárquicas ofereçam potencial para tarefas corporificadas, os primeiros frequentemente falham no planejamento, e os últimos podem sofrer com problemas de coordenação, ambos prejudicando o desempenho. Introduzimos um novo framework VLA unificado para tarefas de longo horizonte, denominado LoHoVLA, para superar essas limitações. O LoHoVLA aproveita um grande modelo de visão e linguagem (VLM) pré-treinado como base para gerar conjuntamente tokens de linguagem e ação para a geração de sub-tarefas e a previsão de ações do robô, respectivamente. Essa representação compartilhada promove uma melhor generalização entre tarefas. Além disso, o LoHoVLA adota um mecanismo de controle hierárquico em malha fechada para mitigar erros originados tanto do planejamento de alto nível quanto do controle de baixo nível. Para treinar o LoHoVLA, introduzimos o LoHoSet, um conjunto de dados construído no simulador Ravens, contendo 20 tarefas de longo horizonte, cada uma com 1.000 demonstrações especializadas compostas por observações visuais, objetivos linguísticos, sub-tarefas e ações do robô. Os resultados experimentais mostram que o LoHoVLA supera significativamente tanto as abordagens hierárquicas quanto os modelos VLA padrão em tarefas corporificadas de longo horizonte no simulador Ravens. Esses achados destacam a promessa de arquiteturas unificadas para avançar a inteligência corporificada generalizável.
Recentemente, as poderosas capacidades de geração de texto para imagem do ChatGPT-4o têm levado a uma crescente apreciação pelos modelos de linguagem multimodal nativos. No entanto, suas capacidades multimodais permanecem restritas a imagens e texto. Além das imagens, a capacidade de compreender e gerar conteúdo 3D é igualmente crucial. Para abordar essa lacuna, propomos o ShapeLLM-Omni, um modelo de linguagem grande nativo 3D capaz de compreender e gerar ativos 3D e texto em qualquer sequência. Primeiro, treinamos um autoencoder variacional quantizado vetorial 3D (VQVAE), que mapeia objetos 3D em um espaço latente discreto para alcançar uma representação e reconstrução de formas eficiente e precisa. Com base nos tokens discretos conscientes de 3D, construímos de forma inovadora um grande conjunto de dados de treinamento contínuo chamado 3D-Alpaca, abrangendo geração, compreensão e edição, fornecendo assim recursos ricos para pesquisas e treinamentos futuros. Por fim, realizamos o treinamento baseado em instruções do modelo Qwen-2.5-vl-7B-Instruct no conjunto de dados 3D-Alpaca. Nosso trabalho fornece uma tentativa eficaz de estender modelos multimodais com capacidades básicas de 3D, contribuindo para pesquisas futuras em IA nativa 3D. Página do projeto: https://github.com/JAMESYJL/ShapeLLM-Omni
A aplicação de aprendizado por reforço baseado em regras (RL) a modelos de linguagem multimodal de grande escala (MLLMs) introduz desafios únicos e possíveis desvios em relação aos achados em domínios exclusivamente textuais, especialmente para tarefas que demandam percepção intensa. Este artigo apresenta um estudo abrangente de RL visual baseado em regras, utilizando quebra-cabeças como um framework experimental estruturado. Quebra-cabeças oferecem verdades fundamentais inerentes, dificuldade ajustável e exigem tomadas de decisão complexas, tornando-os ideais para este estudo. Nossa pesquisa revela várias descobertas-chave: Primeiramente, observamos que MLLMs, inicialmente com desempenho próximo ao acaso nos quebra-cabeças mais simples, alcançam precisão quase perfeita e generalizam para configurações complexas e não vistas após ajuste fino. Em segundo lugar, o treinamento em quebra-cabeças pode induzir generalização para outras tarefas visuais, com eficácia ligada a configurações específicas de tarefas. Terceiro, MLLMs podem aprender e generalizar com ou sem raciocínio explícito, embora modelos de código aberto frequentemente prefiram respostas diretas. Consequentemente, mesmo quando treinados para raciocínio passo a passo, podem ignorar o processo de pensamento ao derivar a resposta final. Quarto, observamos que padrões complexos de raciocínio parecem ser pré-existentes em vez de emergentes, com sua frequência aumentando junto com o treinamento e a dificuldade da tarefa. Por fim, nossos resultados demonstram que RL exibe generalização mais eficaz do que o Ajuste Fino Supervisionado (SFT), e uma fase inicial de "cold start" com SFT pode prejudicar a otimização subsequente de RL. Embora essas observações sejam baseadas em quebra-cabeças e possam variar em outras tarefas visuais, esta pesquisa contribui com uma peça valiosa para o quebra-cabeça maior do entendimento coletivo sobre RL visual baseado em regras e seu potencial no aprendizado multimodal. O código está disponível em: https://github.com/zifuwanggg/Jigsaw-R1.
Avanços recentes em modelos de difusão de vídeo demonstraram um forte potencial para a geração de dados de tomada de decisão robótica, com condições de trajetória permitindo um controle ainda mais refinado. No entanto, os métodos baseados em trajetória existentes focam principalmente no movimento de objetos individuais e têm dificuldade em capturar a interação entre múltiplos objetos, crucial para manipulações robóticas complexas. Essa limitação surge do entrelaçamento de múltiplas características em regiões sobrepostas, o que leva à degradação da fidelidade visual. Para resolver isso, apresentamos o RoboMaster, uma nova estrutura que modela a dinâmica entre objetos por meio de uma formulação colaborativa de trajetória. Diferente de métodos anteriores que decompõem objetos, nossa abordagem central é decompor o processo de interação em três subetapas: pré-interação, interação e pós-interação. Cada etapa é modelada usando a característica do objeto dominante, especificamente o braço robótico nas fases de pré e pós-interação e o objeto manipulado durante a interação, mitigando assim a desvantagem da fusão de características de múltiplos objetos presente em trabalhos anteriores. Para garantir ainda mais a consistência semântica do sujeito ao longo do vídeo, incorporamos representações latentes conscientes da aparência e da forma dos objetos. Experimentos extensivos no desafiador conjunto de dados Bridge V2, bem como avaliações em cenários reais, demonstram que nosso método supera as abordagens existentes, estabelecendo um novo estado da arte na geração de vídeos controlados por trajetória para manipulação robótica.
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se um paradigma em ascensão para o treinamento de grandes modelos de linguagem (LLMs, do inglês Large Language Models), especialmente para tarefas de raciocínio. Um RL eficaz para LLMs exige uma paralelização massiva e cria uma necessidade urgente de sistemas de treinamento eficientes. A maioria dos sistemas de RL em larga escala existentes para LLMs são síncronos, alternando geração e treinamento em um ambiente de lote, onde as execuções (rollouts) em cada lote de treinamento são geradas pelo mesmo (ou mais recente) modelo. Isso estabiliza o treinamento de RL, mas sofre com uma grave ineficiência no nível do sistema. A geração deve aguardar até que a saída mais longa no lote seja concluída antes da atualização do modelo, resultando em subutilização da GPU. Apresentamos o AReaL, um sistema de RL totalmente assíncrono que desacopla completamente a geração do treinamento. Os trabalhadores de execução (rollout workers) no AReaL geram continuamente novas saídas sem esperar, enquanto os trabalhadores de treinamento (training workers) atualizam o modelo sempre que um lote de dados é coletado. O AReaL também incorpora uma série de otimizações no nível do sistema, levando a uma utilização significativamente maior da GPU. Para estabilizar o treinamento de RL, o AReaL equilibra a carga de trabalho dos trabalhadores de execução e treinamento para controlar a obsolescência dos dados e adota uma variante do PPO (Proximal Policy Optimization) aprimorada para obsolescência, a fim de lidar melhor com amostras de treinamento desatualizadas. Experimentos extensivos em benchmarks de raciocínio matemático e de código mostram que o AReaL alcança uma aceleração de até 2,57 vezes no treinamento em comparação com os melhores sistemas síncronos com o mesmo número de GPUs, além de desempenho final igual ou até melhorado. O código do AReaL está disponível em https://github.com/inclusionAI/AReaL/.
Modelos Multimodais de Grande Escala (LMMs) têm demonstrado um desempenho robusto em diversas tarefas de visão e linguagem. No entanto, eles frequentemente enfrentam dificuldades para compreender de forma abrangente dados de Observação da Terra (EO), que são essenciais para monitorar o meio ambiente e os impactos da atividade humana sobre ele. Neste trabalho, apresentamos o EarthMind, uma nova estrutura de visão e linguagem para a compreensão de dados EO multi-granulares e multi-sensores. O EarthMind possui dois componentes principais: (1) o Spatial Attention Prompting (SAP), que redistribui a atenção dentro do LLM para aprimorar a compreensão em nível de pixel; e (2) a Fusão Cross-modal, que alinha modalidades heterogêneas em um espaço compartilhado e reajusta de forma adaptativa os tokens com base em sua densidade de informação para uma fusão eficaz. Para facilitar a avaliação da fusão multi-sensor, propomos o EarthMind-Bench, um benchmark abrangente com mais de 2.000 pares de imagem-pergunta multi-sensores anotados manualmente, cobrindo uma ampla gama de tarefas de percepção e raciocínio. Experimentos extensivos demonstram a eficácia do EarthMind. Ele alcança desempenho de ponta no EarthMind-Bench, superando o GPT-4o apesar de ter apenas 4B de escala. Além disso, o EarthMind supera métodos existentes em múltiplos benchmarks públicos de EO, destacando seu potencial para lidar com desafios multi-granulares e multi-sensores em uma estrutura unificada.
As leis de escala têm moldado os avanços recentes em aprendizado de máquina ao permitir a escalabilidade previsível do desempenho do modelo com base no tamanho do modelo, na computação e no volume de dados. Paralelamente, o aumento no custo computacional para IA tem motivado técnicas de compressão de modelos, notadamente quantização e esparsificação, que surgiram para mitigar as demandas computacionais significativas associadas ao treinamento e inferência em grande escala. Este artigo investiga a interação entre as leis de escala e os formatos de compressão, explorando se uma estrutura de escala unificada pode prever com precisão o desempenho do modelo quando o treinamento ocorre sobre várias representações comprimidas, como formatos esparsos, quantizados escalarmente, esparsos-quantizados ou até mesmo quantizados vetorialmente. Nossas principais contribuições incluem validar uma formulação geral da lei de escala e mostrar que ela é aplicável tanto individualmente quanto de forma combinada entre tipos de compressão. Com base nisso, nossa principal descoberta é demonstrar tanto teoricamente quanto empiricamente que existe uma métrica simples de "capacidade" — baseada na capacidade da representação de ajustar dados gaussianos aleatórios — que pode prever robustamente a eficiência de parâmetros em múltiplas representações comprimidas. No lado prático, estendemos nossa formulação para comparar diretamente o potencial de precisão de diferentes formatos comprimidos e para derivar algoritmos melhores para treinamento em formatos esparsos-quantizados.
Os grandes modelos de linguagem (LLMs) existentes enfrentam desafios ao seguir instruções complexas, especialmente quando múltiplas restrições estão presentes e organizadas em estruturas paralelas, encadeadas e ramificadas. Uma solução intuitiva, conhecida como cadeia de pensamento (CoT), é esperada para melhorar universalmente as capacidades dos LLMs. No entanto, descobrimos que a CoT básica exerce um impacto negativo no desempenho devido ao seu padrão superficial de raciocínio, que simplesmente parafraseia as instruções. Ela falha em desvendar as composições das restrições para identificar suas relações através de hierarquias de tipos e dimensões. Para isso, propomos um método sistemático para impulsionar os LLMs no tratamento de instruções complexas, incentivando o raciocínio para a escalabilidade computacional em tempo de teste. Primeiro, partimos da decomposição de instruções complexas sob taxonomias existentes e propomos um método reprodutível de aquisição de dados. Segundo, exploramos o aprendizado por reforço (RL) com sinais de recompensa centrados em regras verificáveis para cultivar o raciocínio especificamente para o seguimento de instruções. Abordamos a natureza superficial e não essencial do raciocínio sob instruções complexas por meio de contraste amostral para uma aplicação superior da CoT. Também exploramos a clonagem de comportamento de especialistas para facilitar uma mudança estável na distribuição de LLMs de pensamento rápido para raciocinadores habilidosos. Avaliações extensas em sete benchmarks abrangentes confirmam a validade do método proposto, onde um LLM de 1,5B alcança ganhos de 11,74% com desempenho comparável a um LLM de 8B. Códigos e dados estão disponíveis em https://github.com/yuleiqin/RAIF.
A modelagem de recompensas é uma etapa crucial na construção de modelos fundamentais seguros ao aplicar o aprendizado por reforço com feedback humano (RLHF) para alinhar Modelos de Linguagem de Grande Escala (LLMs). No entanto, a modelagem de recompensas baseada no modelo de Bradley-Terry (BT) assume uma função de recompensa global, falhando em capturar as preferências humanas inerentemente diversas e heterogêneas. Assim, essa simplificação excessiva limita os LLMs de suportar personalização e alinhamento pluralístico. Teoricamente, mostramos que, quando as preferências humanas seguem uma distribuição de mistura de subgrupos diversos, um único modelo BT possui um erro irredutível. Embora soluções existentes, como aprendizado multiobjetivo com anotações refinadas, ajudem a abordar esse problema, elas são custosas e limitadas por atributos predefinidos, falhando em capturar plenamente a riqueza dos valores humanos. Neste trabalho, introduzimos o MiCRo, uma estrutura de duas etapas que aprimora o aprendizado de preferências personalizadas ao aproveitar grandes conjuntos de dados binários de preferências sem exigir anotações refinadas explícitas. Na primeira etapa, o MiCRo introduz uma abordagem de modelagem de mistura sensível ao contexto para capturar as diversas preferências humanas. Na segunda etapa, o MiCRo integra uma estratégia de roteamento online que adapta dinamicamente os pesos da mistura com base no contexto específico para resolver ambiguidades, permitindo uma adaptação de preferências eficiente e escalável com supervisão adicional mínima. Experimentos em múltiplos conjuntos de dados de preferências demonstram que o MiCRo captura efetivamente as diversas preferências humanas e melhora significativamente a personalização em tarefas subsequentes.
O rápido avanço do Conteúdo Gerado por Inteligência Artificial (AIGC) em domínios visuais resultou em imagens e vídeos sintéticos altamente realistas, impulsionados por estruturas generativas sofisticadas, como arquiteturas baseadas em difusão. Embora esses avanços abram oportunidades substanciais, eles simultaneamente levantam preocupações críticas sobre a autenticidade e integridade do conteúdo. Muitos dos métodos atuais de detecção de AIGC operam como classificadores binários de caixa preta, que oferecem interpretabilidade limitada, e nenhuma abordagem suporta a detecção de imagens e vídeos em um framework unificado. Essa dupla limitação compromete a transparência do modelo, reduz a confiabilidade e dificulta a implantação prática. Para enfrentar esses desafios, apresentamos o IVY-FAKE, um novo conjunto de dados unificado e em grande escala, projetado especificamente para a detecção explicável de AIGC multimodal. Diferente de benchmarks anteriores, que sofrem com cobertura de modalidade fragmentada e anotações esparsas, o IVY-FAKE contém mais de 150.000 amostras de treinamento ricamente anotadas (imagens e vídeos) e 18.700 exemplos de avaliação, cada um acompanhado por raciocínio detalhado em linguagem natural além de simples rótulos binários. Com base nisso, propomos o Ivy Explainable Detector (IVY-XDETECTOR), uma arquitetura unificada de detecção e explicação de AIGC que realiza conjuntamente a detecção explicável de conteúdo de imagem e vídeo. Nosso modelo unificado de visão e linguagem alcança desempenho de ponta em vários benchmarks de detecção de imagens e vídeos, destacando os avanços significativos possibilitados por nosso conjunto de dados e framework de modelagem. Nossos dados estão publicamente disponíveis em https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
O prompting Chain-of-Thought (CoT) permite raciocínio complexo em grandes modelos de linguagem (LLMs), incluindo aplicações em recuperação de informação (IR). No entanto, ele frequentemente leva a um excesso de pensamento, onde os modelos produzem traços excessivamente longos e semanticamente redundantes com pouco ou nenhum benefício. Identificamos dois desafios principais em IR: trajetórias redundantes que revisitam estados semelhantes e raciocínios equivocados que divergem da intenção do usuário. Para abordar esses problemas, propomos o State Machine Reasoning (SMR), um framework de raciocínio baseado em transições composto por ações discretas (Refinar, Reordenar, Parar) que suportam parada antecipada e controle refinado. Experimentos nos benchmarks BEIR e BRIGHT mostram que o SMR melhora o desempenho de recuperação (nDCG@10) em 3,4% enquanto reduz o uso de tokens em 74,4%. Ele generaliza-se entre LLMs e recuperadores sem exigir ajustes específicos para a tarefa, oferecendo uma alternativa prática ao raciocínio CoT convencional. O código e os detalhes estão disponíveis em https://github.com/ldilab/SMR.
Treinar diretamente Modelos de Linguagem de Grande Escala (LLMs) para Sistemas Multiagentes (MAS) continua sendo um desafio devido à modelagem complexa de recompensas, interações dinâmicas entre agentes e exigências rigorosas de generalização. Este artigo investiga se técnicas de pós-treinamento, especificamente Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Recompensas Verificáveis (RLVR), podem efetivamente generalizar para cenários multiagentes. Utilizamos o raciocínio econômico como um campo de testes, aproveitando suas bases sólidas em matemática e teoria dos jogos, sua demanda por raciocínio analítico estruturado e sua relevância para aplicações do mundo real, como design de mercado, alocação de recursos e análise de políticas. Apresentamos o Recon (Raciocinar como um ECONomista), um LLM de código aberto com 7 bilhões de parâmetros, pós-treinado em um conjunto de dados cuidadosamente selecionado de 2.100 problemas de raciocínio econômico de alta qualidade. Uma avaliação abrangente em benchmarks de raciocínio econômico e jogos multiagentes revela melhorias claras no raciocínio estruturado e na racionalidade econômica. Esses resultados destacam o potencial do pós-treinamento alinhado ao domínio para aprimorar o raciocínio e o alinhamento de agentes, lançando luz sobre os papéis do SFT e do RL na modelagem do comportamento do modelo. O código está disponível em https://github.com/MasterZhou1/Recon.
A edição de imagens é uma tarefa importante em computação gráfica, visão computacional e efeitos visuais, com métodos recentes baseados em difusão alcançando resultados rápidos e de alta qualidade. No entanto, edições que exigem mudanças estruturais significativas, como deformações não rígidas, modificações de objetos ou geração de conteúdo, ainda são desafiadoras. As abordagens existentes de edição em poucos passos produzem artefatos, como texturas irrelevantes, ou têm dificuldade em preservar atributos-chave da imagem original (por exemplo, pose). Apresentamos Cora, uma nova estrutura de edição que aborda essas limitações ao introduzir correção de ruído com consciência de correspondência e mapas de atenção interpolados. Nosso método alinha texturas e estruturas entre as imagens de origem e destino por meio de correspondência semântica, permitindo a transferência precisa de textura enquanto gera novo conteúdo quando necessário. O Cora oferece controle sobre o equilíbrio entre geração e preservação de conteúdo. Experimentos extensivos demonstram que, quantitativa e qualitativamente, o Cora se destaca na manutenção de estrutura, texturas e identidade em diversas edições, incluindo mudanças de pose, adição de objetos e refinamentos de textura. Estudos com usuários confirmam que o Cora oferece resultados superiores, superando as alternativas.
Os sistemas de IA atuais possuem arquiteturas fixas projetadas por humanos e não podem se aprimorar de forma autônoma e contínua. O avanço da IA poderia ser automatizado. Se feito com segurança, isso aceleraria o desenvolvimento da IA e nos permitiria colher seus benefícios muito mais cedo. A meta-aprendizagem pode automatizar a descoberta de novos algoritmos, mas é limitada por melhorias de primeira ordem e pelo design humano de um espaço de busca adequado. A Máquina de Gödel propôs uma alternativa teórica: uma IA autoaprimorante que se modifica repetidamente de maneira comprovadamente benéfica. Infelizmente, provar que a maioria das mudanças é benéfica líquida é impossível na prática. Introduzimos a Máquina de Gödel Darwiniana (DGM), um sistema autoaprimorante que modifica iterativamente seu próprio código (melhorando assim também sua capacidade de modificar sua base de código) e valida empiricamente cada mudança usando benchmarks de codificação. Inspirada pela evolução darwiniana e pela pesquisa de abertura infinita, a DGM mantém um arquivo de agentes de codificação gerados. Ela expande o arquivo ao amostrar um agente dele e usar um modelo de base para criar uma nova versão interessante do agente amostrado. Essa exploração de abertura infinita forma uma árvore crescente de agentes diversos e de alta qualidade e permite a exploração paralela de muitos caminhos diferentes através do espaço de busca. Empiricamente, a DGM aprimora automaticamente suas capacidades de codificação (por exemplo, melhores ferramentas de edição de código, gerenciamento de janelas de contexto longo, mecanismos de revisão por pares), aumentando o desempenho no SWE-bench de 20,0% para 50,0%, e no Polyglot de 14,2% para 30,7%. Além disso, a DGM supera significativamente as linhas de base sem autoaprimoramento ou exploração de abertura infinita. Todos os experimentos foram realizados com precauções de segurança (por exemplo, sandboxing, supervisão humana). A DGM é um passo significativo em direção à IA autoaprimorante, capaz de reunir seus próprios degraus ao longo de caminhos que se desdobram em inovação infinita.
Impulsionado por um modelo de linguagem de grande escala (LLM), um agente de navegação na web opera navegadores de forma semelhante aos humanos e oferece um caminho altamente transparente para automatizar uma ampla gama de tarefas cotidianas. À medida que os agentes web se tornam cada vez mais capazes e demonstram proficiência em tarefas gerais de navegação, uma questão crítica surge: Eles podem ir além da navegação geral para lidar de forma robusta com tarefas tediosas e complexas, ou com tarefas que os humanos frequentemente evitam fazer? Neste artigo, apresentamos o WebChoreArena, um novo benchmark totalmente reproduzível composto por 532 tarefas cuidadosamente curadas, projetadas para estender o escopo do WebArena além da navegação geral para tarefas mais trabalhosas e tediosas. O WebChoreArena integra sistematicamente três desafios principais: (i) Tarefas de Memória Massiva, que exigem a recuperação precisa de grandes quantidades de informação nas observações, (ii) Tarefas de Cálculo, que demandam raciocínio matemático preciso, e (iii) Tarefas de Memória de Longo Prazo, que exigem memória de longo prazo em várias páginas da web. Construído sobre os quatro ambientes de simulação do WebArena, totalmente reproduzíveis e amplamente adotados, o WebChoreArena garante estrita reprodutibilidade e permite comparações diretas e justas com o benchmark estabelecido do WebArena, oferecendo insights importantes sobre o progresso dos agentes. Nossos resultados experimentais demonstram que, à medida que os LLMs evoluem, representados pelo GPT-4o, Claude 3.7 Sonnet e Gemini 2.5 Pro, melhorias significativas no desempenho são observadas no WebChoreArena. Esses achados sugerem que o WebChoreArena é bem adequado para medir o avanço dos LLMs de última geração com maior clareza. No entanto, os resultados também indicam que, mesmo com o Gemini 2.5 Pro, ainda há um espaço considerável para melhoria em comparação com o WebArena, destacando os desafios aumentados apresentados pelo WebChoreArena.
A orientação negativa -- a supressão explícita de atributos indesejados -- continua sendo um desafio fundamental em modelos de difusão, particularmente em regimes de amostragem com poucos passos. Embora a Orientação Livre de Classificador (CFG) funcione bem em configurações padrão, ela falha sob compressão agressiva de passos de amostragem devido a previsões divergentes entre os ramos positivo e negativo. Apresentamos a Orientação de Atenção Normalizada (NAG), um mecanismo eficiente e livre de treinamento que aplica extrapolação no espaço de atenção com normalização baseada em L1 e refinamento. A NAG restaura a orientação negativa eficaz onde a CFG colapsa, mantendo a fidelidade. Diferente das abordagens existentes, a NAG generaliza-se através de arquiteturas (UNet, DiT), regimes de amostragem (poucos passos, múltiplos passos) e modalidades (imagem, vídeo), funcionando como um plug-in universal com sobrecarga computacional mínima. Através de experimentação extensiva, demonstramos melhorias consistentes no alinhamento de texto (CLIP Score), fidelidade (FID, PFID) e qualidade percebida por humanos (ImageReward). Nossos estudos de ablação validam cada componente do design, enquanto estudos com usuários confirmam uma preferência significativa pelos resultados guiados por NAG. Como uma abordagem agnóstica ao modelo no tempo de inferência, que não requer retreinamento, a NAG fornece orientação negativa sem esforço para todos os frameworks modernos de difusão -- pseudocódigo no Apêndice!
Os recentes avanços em IA Generativa e Modelos de Linguagem de Grande Escala (LLMs) têm possibilitado a criação de conteúdo sintético altamente realista, levantando preocupações sobre o potencial de uso malicioso, como desinformação e manipulação. Além disso, a detecção de Texto Gerado por Máquina (MGT) continua desafiadora devido à falta de benchmarks robustos que avaliem a generalização para cenários do mundo real. Neste trabalho, apresentamos um pipeline para testar a resiliência de detectores de MGT de última geração (por exemplo, Mage, Radar, LLM-DetectAIve) a ataques adversários linguisticamente informados. Para desafiar os detectores, ajustamos finamente modelos de linguagem usando Otimização de Preferência Direta (DPO) para deslocar o estilo do MGT em direção ao texto escrito por humanos (HWT). Isso explora a dependência dos detectores em pistas estilísticas, tornando as novas gerações mais difíceis de detectar. Adicionalmente, analisamos as mudanças linguísticas induzidas pelo alinhamento e quais características são utilizadas pelos detectores para identificar textos MGT. Nossos resultados mostram que os detectores podem ser facilmente enganados com relativamente poucos exemplos, resultando em uma queda significativa no desempenho de detecção. Isso destaca a importância de aprimorar os métodos de detecção e torná-los robustos a textos inéditos dentro do domínio.
Espera-se que os modelos de linguagem visual (VLMs) realizem raciocínio multimodal eficaz e tomem decisões logicamente coerentes, o que é crucial para tarefas como compreensão de diagramas e resolução de problemas espaciais. No entanto, o raciocínio dos VLMs atuais carece de conjuntos de dados de treinamento em grande escala e bem estruturados. Para preencher essa lacuna, propomos o VisualSphinx, um conjunto de dados sintético de treinamento em grande escala para raciocínio lógico visual, pioneiro em seu tipo. Para enfrentar o desafio da síntese de imagens com respostas fundamentadas, propomos um pipeline de síntese de regras para imagens, que extrai e expande as regras dos quebra-cabeças a partir de perguntas iniciais e gera o código de síntese de imagens fundamentadas para a montagem de amostras de quebra-cabeças. Experimentos demonstram que os VLMs treinados usando GRPO no VisualSphinx se beneficiam da coerência lógica e da legibilidade do nosso conjunto de dados e exibem desempenho aprimorado em tarefas de raciocínio lógico. As capacidades de raciocínio aprimoradas desenvolvidas a partir do VisualSphinx também beneficiam outras tarefas de raciocínio, como raciocínio algébrico, aritmético e geométrico.
Modelos de linguagem baseados em difusão oferecem uma alternativa atraente aos modelos autoregressivos (AR) ao permitir geração paralela e controlável. Dentro dessa família de modelos, os Masked Diffusion Models (MDMs) alcançam o melhor desempenho, mas ainda ficam aquém dos modelos AR em termos de perplexidade e carecem de recursos essenciais de eficiência durante a inferência—notavelmente, o cache KV. Neste trabalho, introduzimos os Eso-LMs, uma nova família de modelos que combina os paradigmas AR e MDM, permitindo uma interpolação suave entre suas perplexidades enquanto supera suas respectivas limitações. Os Eso-LMs estabelecem um novo estado da arte em benchmarks padrão de modelagem de linguagem. Crucialmente, somos os **primeiros a introduzir o cache KV para MDMs** enquanto preservamos a geração paralela, melhorando significativamente a eficiência da inferência. Combinado com um esquema de amostragem otimizado, nosso método alcança inferências até **65x** mais rápidas do que os MDMs padrão e **4x** mais rápidas do que abordagens semi-autoregressivas anteriores. Disponibilizamos o código e os checkpoints dos modelos na página do projeto: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
O projeto Open Whisper-style Speech Models (OWSM) desenvolveu uma série de modelos de base de fala totalmente abertos utilizando recursos em escala acadêmica, mas seus dados de treinamento permanecem insuficientes. Este trabalho aprimora o OWSM ao integrar o YODAS, um conjunto de dados em grande escala obtido por web crawling com licença Creative Commons. No entanto, a incorporação do YODAS não é trivial devido à sua natureza diversificada, que introduz desafios como rótulos de idioma incorretos e desalinhamentos entre áudio e texto. Para resolver isso, desenvolvemos um pipeline escalável de limpeza de dados utilizando kits de ferramentas públicos, resultando em um conjunto de dados com 166.000 horas de fala em 75 idiomas. Nossa nova série de modelos OWSM v4, treinada nesse conjunto de dados curado juntamente com os dados existentes do OWSM, supera significativamente as versões anteriores em benchmarks multilingues. Nossos modelos até mesmo igualam ou superam modelos industriais de ponta, como Whisper e MMS, em múltiplos cenários. Disponibilizaremos publicamente os dados limpos do YODAS, os modelos pré-treinados e todos os scripts associados por meio do kit de ferramentas ESPnet.
Pesquisas anteriores investigaram a aplicação de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) na compreensão de cenas 3D, interpretando-as como vídeos. Essas abordagens geralmente dependem de entradas abrangentes de dados 3D, como nuvens de pontos ou mapas reconstruídos de Visão de Cima para Baixo (BEV). Em nossa pesquisa, avançamos nesse campo ao aprimorar a capacidade dos MLLMs de entender e raciocinar em espaços 3D diretamente a partir de dados de vídeo, sem a necessidade de entradas adicionais de dados 3D. Propomos um método novo e eficiente, o Modelo de Linguagem de Grande Escala de Geometria 3D a partir de Vídeo (VG LLM). Nossa abordagem emprega um codificador de geometria visual 3D que extrai informações prévias de 3D a partir de sequências de vídeo. Essas informações são integradas com tokens visuais e alimentadas no MLLM. Experimentos extensivos mostraram que nosso método alcançou melhorias substanciais em várias tarefas relacionadas à compreensão de cenas 3D e raciocínio espacial, todas aprendidas diretamente a partir de fontes de vídeo. Impressionantemente, nosso modelo de 4B, que não depende de entradas explícitas de dados 3D, alcança resultados competitivos em comparação com os métodos state-of-the-art existentes, e até supera o Gemini-1.5-Pro nas avaliações do VSI-Bench.
Modelos de linguagem de grande escala (LLMs) treinados por meio de aprendizado por reforço com recompensa verificável (RLVR) alcançaram avanços significativos em tarefas com verificação explícita e automatizável, como programação de software e problemas matemáticos. No entanto, estender o RLVR para automação de projeto eletrônico (EDA), especialmente para a geração automática de linguagens de descrição de hardware (HDLs) como Verilog a partir de especificações em linguagem natural (NL), apresenta três desafios principais: a falta de ambientes de verificação automatizados e precisos, a escassez de pares NL-código de alta qualidade e o custo computacional proibitivo do RLVR. Para isso, introduzimos o CodeV-R1, um framework RLVR para treinar LLMs de geração de Verilog. Primeiro, desenvolvemos um gerador de bancos de teste baseado em regras que realiza verificações robustas de equivalência em relação a referências de ouro. Segundo, propomos um método de síntese de dados de ida e volta que emparelha trechos de Verilog de código aberto com descrições NL geradas por LLM, verifica a consistência código-NL-código por meio do banco de teste gerado e filtra exemplos não equivalentes para produzir um conjunto de dados de alta qualidade. Terceiro, empregamos um pipeline de treinamento em duas etapas "distill-then-RL": destilação para o início frio das habilidades de raciocínio, seguido pelo DAPO adaptativo, nosso novo algoritmo RLVR que pode reduzir o custo de treinamento ao ajustar adaptativamente a taxa de amostragem. O modelo resultante, CodeV-R1-7B, alcança 68,6% e 72,9% de pass@1 no VerilogEval v2 e RTLLM v1.1, respectivamente, superando o estado da arte anterior em 12~20%, enquanto iguala ou até excede o desempenho do DeepSeek-R1 de 671B. Liberaremos nosso modelo, pipeline de treinamento e conjunto de dados para facilitar pesquisas nas comunidades de EDA e LLM.
Os benchmarks abertos são essenciais para avaliar e avançar os modelos de linguagem de grande escala, oferecendo reprodutibilidade e transparência. No entanto, sua acessibilidade os torna alvos prováveis de contaminação do conjunto de testes. Neste trabalho, apresentamos o DyePack, uma estrutura que utiliza ataques de backdoor para identificar modelos que utilizaram conjuntos de testes de benchmark durante o treinamento, sem a necessidade de acessar a função de perda, os logits ou qualquer detalhe interno do modelo. Assim como os bancos misturam pacotes de tinta com o dinheiro para marcar ladrões, o DyePack mistura amostras de backdoor com os dados de teste para sinalizar modelos que foram treinados com eles. Propomos um design fundamentado que incorpora múltiplos backdoors com alvos estocásticos, permitindo o cálculo exato da taxa de falsos positivos (FPR) ao sinalizar cada modelo. Isso comprovadamente evita acusações falsas, ao mesmo tempo que fornece evidências robustas para cada caso detectado de contaminação. Avaliamos o DyePack em cinco modelos em três conjuntos de dados, abrangendo tanto tarefas de múltipla escolha quanto de geração aberta. Para questões de múltipla escolha, ele detecta com sucesso todos os modelos contaminados com FPRs garantidos tão baixos quanto 0,000073% no MMLU-Pro e 0,000017% no Big-Bench-Hard, utilizando oito backdoors. Para tarefas de geração aberta, ele se generaliza bem e identifica todos os modelos contaminados no Alpaca com uma taxa de falsos positivos garantida de apenas 0,127%, utilizando seis backdoors.
A eficiência da tokenização desempenha um papel crítico no desempenho e no custo dos grandes modelos de linguagem (LLMs, na sigla em inglês), mas a maioria dos modelos depende de tokenizadores estáticos otimizados para corpora de propósito geral. Os vocabulários fixos desses tokenizadores frequentemente falham em se adaptar a entradas específicas de domínio ou idioma, resultando em sequências de tokens mais longas e custos computacionais mais elevados. Apresentamos o zip2zip, uma estrutura que permite que LLMs ajustem dinamicamente o vocabulário de tokens durante a inferência, possibilitando a geração de menos tokens e, consequentemente, uma inferência mais rápida. O zip2zip consiste em três componentes principais: (1) um tokenizador baseado na compressão Lempel-Ziv-Welch (LZW) que comprime incrementalmente tokens em "hipertokens" reutilizáveis em tempo real; (2) uma camada de embedding que calcula embeddings para hipertokens recém-formados durante a execução; e (3) uma variante de modelagem de linguagem causal que treina o modelo para operar em sequências comprimidas e hipertokenizadas. Demonstramos que um LLM existente pode ser "zip2zip-ificado" em 10 horas de GPU por meio de ajuste fino eficiente em parâmetros. Os LLMs resultantes com zip2zip aprendem efetivamente a usar hipertokens durante a inferência, reduzindo o comprimento das sequências de entrada e saída em 20-60\%, com melhorias significativas na latência de inferência.
Sistemas de diálogo orientados a tarefas frequentemente enfrentam dificuldades quando as expressões dos usuários parecem semanticamente completas, mas carecem de informações estruturais necessárias para ações apropriadas do sistema. Isso ocorre porque os usuários geralmente não compreendem plenamente suas próprias necessidades, enquanto os sistemas exigem definições precisas de intenções. Os agentes baseados em LLMs atuais não conseguem distinguir efetivamente entre expressões linguisticamente completas e expressões acionáveis contextualmente, faltando estruturas para a formação colaborativa de intenções. Apresentamos o STORM, um framework que modela a dinâmica de informação assimétrica por meio de conversas entre UserLLM (acesso interno completo) e AgentLLM (apenas comportamento observável). O STORM produz corpora anotados capturando trajetórias de expressões e transições cognitivas latentes, permitindo uma análise sistemática do desenvolvimento do entendimento colaborativo. Nossas contribuições incluem: (1) formalização do processamento de informação assimétrica em sistemas de diálogo; (2) modelagem da formação de intenções acompanhando a evolução do entendimento colaborativo; e (3) métricas de avaliação que medem melhorias cognitivas internas juntamente com o desempenho da tarefa. Experimentos com quatro modelos de linguagem revelam que uma incerteza moderada (40-60%) pode superar a transparência completa em certos cenários, com padrões específicos de modelos sugerindo uma reconsideração da completude ideal de informação na colaboração humano-IA. Esses achados contribuem para a compreensão da dinâmica de raciocínio assimétrico e informam o design de sistemas de diálogo calibrados para incerteza.
A destilação de modelos tornou-se essencial para a criação de modelos de linguagem menores e implantáveis que retêm as capacidades de sistemas maiores. No entanto, a implantação generalizada levanta preocupações sobre a resiliência à manipulação adversária. Este artigo investiga a vulnerabilidade de modelos destilados à injeção adversária de conteúdo tendencioso durante o treinamento. Demonstramos que adversários podem injetar vieses sutis em modelos professores por meio de envenenamento mínimo de dados, que se propaga para modelos estudantes e se amplifica significativamente. Propomos dois modos de propagação: Propagação Não Direcionada, onde o viés afeta múltiplas tarefas, e Propagação Direcionada, focando em tarefas específicas enquanto mantém o comportamento normal em outros lugares. Com apenas 25 amostras envenenadas (taxa de envenenamento de 0,25%), os modelos estudantes geram respostas tendenciosas 76,9% das vezes em cenários direcionados - maior que 69,4% nos modelos professores. Para a propagação não direcionada, o viés adversário aparece de 6 a 29 vezes mais frequentemente em modelos estudantes em tarefas não vistas. Validamos os resultados em seis tipos de viés (anúncios direcionados, links de phishing, manipulações narrativas, práticas de codificação inseguras), vários métodos de destilação e diferentes modalidades abrangendo geração de texto e código. Nossa avaliação revela deficiências nas defesas atuais - filtragem de perplexidade, sistemas de detecção de viés e frameworks de autorater baseados em LLM - contra esses ataques. Os resultados expõem vulnerabilidades de segurança significativas em modelos destilados, destacando a necessidade de salvaguardas especializadas. Propomos princípios práticos de design para a construção de estratégias eficazes de mitigação de viés adversário.
O Entendimento de Anomalias em Vídeo (VAU) é essencial para aplicações como cidades inteligentes, vigilância de segurança e sistemas de alerta de desastres, mas continua desafiador devido à sua demanda por percepção espaço-temporal refinada e raciocínio robusto sob ambiguidade. Apesar dos avanços na detecção de anomalias, os métodos existentes frequentemente carecem de interpretabilidade e lutam para capturar os aspectos causais e contextuais de eventos anormais. Essa limitação é ainda mais agravada pela ausência de benchmarks abrangentes para avaliar a capacidade de raciocínio em cenários de anomalias. Para abordar ambos os desafios, introduzimos o VAU-R1, um framework eficiente em dados baseado em Modelos de Linguagem Multimodais de Grande Escala (MLLMs), que aprimora o raciocínio de anomalias por meio de Ajuste Fino por Reforço (RFT). Além disso, propomos o VAU-Bench, o primeiro benchmark de Cadeia de Pensamento (Chain-of-Thought) projetado especificamente para raciocínio de anomalias em vídeo, apresentando questões de múltipla escolha, racionais detalhados, anotações temporais e legendas descritivas. Resultados empíricos mostram que o VAU-R1 melhora significativamente a precisão na resposta a perguntas, a localização temporal e a coerência do raciocínio em diversos contextos. Juntos, nosso método e benchmark estabelecem uma base sólida para o entendimento de anomalias em vídeo interpretável e consciente do raciocínio. Nosso código está disponível em https://github.com/GVCLab/VAU-R1.
A detoxificação, a tarefa de reescrever linguagem prejudicial em texto não tóxico, tornou-se cada vez mais importante diante da crescente prevalência de conteúdo tóxico online. No entanto, conjuntos de dados paralelos de alta qualidade para detoxificação, especialmente para discurso de ódio, permanecem escassos devido ao custo e à sensibilidade da anotação humana. Neste artigo, propomos um novo pipeline de LLM-in-the-loop que aproveita o GPT-4o-mini para detoxificação automatizada. Primeiro, replicamos o pipeline ParaDetox substituindo os anotadores humanos por um LLM e mostramos que o LLM tem desempenho comparável à anotação humana. Com base nisso, construímos o PARADEHATE, um conjunto de dados paralelo em grande escala especificamente para detoxificação de discurso de ódio. Disponibilizamos o PARADEHATE como um benchmark com mais de 8K pares de texto de ódio/não ódio e avaliamos uma ampla gama de métodos de linha de base. Os resultados experimentais mostram que modelos como o BART, ajustados no PARADEHATE, alcançam melhor desempenho em precisão de estilo, preservação de conteúdo e fluência, demonstrando a eficácia do texto de detoxificação gerado por LLM como uma alternativa escalável à anotação humana.
A Geração Aumentada por Recuperação (RAG) melhora a atualidade e a factualidade das respostas. No entanto, as avaliações existentes raramente testam quão bem esses sistemas lidam com ruídos do mundo real, conflitos entre contextos recuperados internos e externos, ou fatos que mudam rapidamente. Introduzimos a Avaliação de Robustez Consciente de Recuperação (RARE), uma estrutura unificada e um benchmark em larga escala que testa conjuntamente perturbações em consultas e documentos em corpora dinâmicos e sensíveis ao tempo. Uma das características centrais da RARE é um pipeline de síntese orientado por grafo de conhecimento (RARE-Get) que extrai automaticamente relações de salto único e múltiplos saltos do corpus personalizado e gera conjuntos de perguntas de múltiplos níveis sem intervenção manual. Aproveitando esse pipeline, construímos um conjunto de dados (RARE-Set) abrangendo 400 documentos especializados e sensíveis ao tempo de finanças, economia e política, e 48.322 perguntas cuja distribuição evolui à medida que as fontes subjacentes mudam. Para quantificar a resiliência, formalizamos métricas de robustez condicionadas à recuperação (RARE-Met) que capturam a capacidade de um modelo de permanecer correto ou se recuperar quando consultas, documentos ou resultados de recuperação do mundo real são sistematicamente alterados. Nossos resultados mostram que os sistemas RAG exibem uma vulnerabilidade surpreendente a perturbações, com a robustez de documentos consistentemente sendo o ponto mais fraco, independentemente do tamanho ou arquitetura do gerador. Os sistemas RAG consistentemente mostram menor robustez em consultas de múltiplos saltos em comparação com consultas de salto único em todos os domínios.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais avaliados em tarefas de múltipla escolha com resposta única, mas muitos problemas do mundo real exigem a identificação de todas as respostas corretas em um conjunto de opções. Essa capacidade ainda é pouco explorada. Apresentamos o SATA-BENCH, o primeiro benchmark dedicado à avaliação de LLMs em questões do tipo "Selecione Todas as Aplicáveis" (SATA) em diversos domínios, incluindo compreensão de leitura, direito e biomedicina. Nossa avaliação de 27 modelos de código aberto e proprietários revela uma lacuna significativa: mesmo o modelo mais forte alcança apenas 41,8% de correspondência exata, expondo a incapacidade dos LLMs de identificar de forma confiável todas as respostas corretas. Descobrimos que essa fraqueza decorre de dois desafios principais: viés de seleção - os modelos favorecem certas escolhas independentemente do conteúdo, e viés de contagem - os modelos falham em prever o número correto de respostas. Para abordar esses problemas, propomos o Choice Funnel, uma estratégia de decodificação que combina a redução de viés de tokens com limiarização adaptativa para guiar os modelos em direção a seleções completas e precisas. O Choice Funnel alcança até 29% a mais de correspondência exata em comparação com baselines competitivas, enquanto reduz o custo de inferência em mais de 64%. Nossas descobertas expõem limitações fundamentais nos LLMs atuais e introduzem uma nova estrutura para diagnosticar e melhorar o raciocínio de múltiplas respostas. Disponibilizamos o SATA-BENCH e o Choice Funnel para promover o desenvolvimento de LLMs para tomadas de decisão robustas em aplicações realistas de múltiplas respostas.
A edição 3D guiada por texto visa editar com precisão regiões locais 3D semanticamente relevantes, o que tem um potencial significativo para diversas aplicações práticas, desde jogos 3D até produção cinematográfica. Os métodos existentes geralmente seguem um paradigma indiferenciado por visão: editam indiscriminadamente as visões 2D e as projetam de volta no espaço 3D. No entanto, eles ignoram as diferentes interdependências entre visões, resultando em edição multivisão inconsistente. Neste estudo, argumentamos que a edição 3D consistente ideal pode ser alcançada por meio de um paradigma de visões progressivas, que propaga a semântica de edição da visão mais saliente para edição para outras visões esparsas em edição. Especificamente, propomos o Pro3D-Editor, uma nova estrutura que inclui principalmente o Amostrador de Visão Primária, o Renderizador de Visão-Chave e o Refinador de Visão Completa. O Amostrador de Visão Primária dinamicamente amostra e edita a visão mais saliente para edição como a visão primária. O Renderizador de Visão-Chave propaga com precisão a semântica de edição da visão primária para outras visões-chave por meio de sua Adaptação de Baixa Classificação de Mistura de Especialistas de Visão (MoVE-LoRA). O Refinador de Visão Completa edita e refina o objeto 3D com base nas múltiplas visões editadas. Experimentos extensivos demonstram que nosso método supera os métodos existentes em precisão de edição e consistência espacial.
Os crescentes custos computacionais e os recursos limitados destacam a necessidade crítica de treinamento com iterações orçamentadas, que visa alcançar o aprendizado ótimo dentro de orçamentos de iteração predeterminados. Embora os cronogramas de taxa de aprendizado governem fundamentalmente o desempenho de diferentes redes e tarefas, especialmente em cenários de iterações orçamentadas, seu projeto permanece amplamente heurístico, carecendo de fundamentos teóricos. Além disso, o cronograma ideal de taxa de aprendizado requer uma extensa seleção por tentativa e erro, tornando o processo de treinamento ineficiente. Neste trabalho, propomos o cronograma Unificado Consciente do Orçamento (UBA), um cronograma de taxa de aprendizado fundamentado teoricamente que consistentemente supera os cronogramas comumente usados em diversas arquiteturas e tarefas sob diferentes orçamentos de treinamento restritos. Primeiro, preenchemos a lacuna construindo uma nova estrutura de otimização consciente do orçamento de treinamento, que explicitamente leva em conta a robustez às variações de curvatura do cenário. A partir dessa estrutura, derivamos o cronograma UBA, controlado por um único hiperparâmetro varphi que oferece uma troca entre flexibilidade e simplicidade, eliminando a necessidade de otimização numérica por rede. Além disso, estabelecemos uma conexão teórica entre varphi e o número de condição, adicionando interpretação e justificativa à nossa abordagem. Adicionalmente, provamos a convergência para diferentes valores de varphi. Oferecemos diretrizes práticas para sua seleção por meio de análise teórica e resultados empíricos. Resultados experimentais extensivos mostram que o UBA consistentemente supera os cronogramas comumente usados em diversas tarefas de visão e linguagem, abrangendo arquiteturas de rede (por exemplo, ResNet, OLMo) e escalas, sob diferentes orçamentos de iteração de treinamento.
Este artigo aborda lacunas críticas na avaliação de modelos de linguagem para o árabe, estabelecendo diretrizes teóricas abrangentes e introduzindo um novo framework de avaliação. Primeiramente, analisamos conjuntos de dados de avaliação existentes para o árabe, identificando problemas significativos em precisão linguística, alinhamento cultural e rigor metodológico. Para superar essas limitações em LLMs, apresentamos o Arabic Depth Mini Dataset (ADMD), uma coleção cuidadosamente curada de 490 perguntas desafiadoras abrangendo dez domínios principais (42 subdomínios, ver Figura 1). Utilizando o ADMD, avaliamos cinco modelos de linguagem líderes: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B e Qwen-Max. Nossos resultados revelam variações significativas no desempenho dos modelos em diferentes domínios, com desafios particulares em áreas que exigem profundo entendimento cultural e conhecimento especializado. O Claude 3.5 Sonnet demonstrou a maior precisão geral, com 30%, mostrando força relativa em teoria matemática em árabe, língua árabe e domínios islâmicos. Este trabalho fornece tanto fundamentos teóricos quanto insights práticos para melhorar a avaliação de modelos de linguagem para o árabe, enfatizando a importância da competência cultural aliada às capacidades técnicas.
Este artigo aborda lacunas críticas na avaliação de modelos de linguagem para o árabe, estabelecendo diretrizes teóricas abrangentes e introduzindo um novo framework de avaliação. Primeiramente, analisamos conjuntos de dados de avaliação existentes para o árabe, identificando problemas significativos em precisão linguística, alinhamento cultural e rigor metodológico. Para superar essas limitações em LLMs, apresentamos o Arabic Depth Mini Dataset (ADMD), uma coleção cuidadosamente curada de 490 perguntas desafiadoras abrangendo dez domínios principais (42 subdomínios, ver Figura 1). Utilizando o ADMD, avaliamos cinco modelos de linguagem líderes: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B e Qwen-Max. Nossos resultados revelam variações significativas no desempenho dos modelos em diferentes domínios, com desafios particulares em áreas que exigem profundo entendimento cultural e conhecimento especializado. O Claude 3.5 Sonnet demonstrou a maior precisão geral, com 30%, mostrando força relativa em teoria matemática em árabe, língua árabe e domínios islâmicos. Este trabalho fornece tanto fundamentos teóricos quanto insights práticos para melhorar a avaliação de modelos de linguagem para o árabe, enfatizando a importância da competência cultural aliada às capacidades técnicas.
Gerar imagens a partir de textos que envolvem arranjos complexos e inovadores de objetos continua sendo um desafio significativo para os modelos atuais de texto para imagem (T2I). Embora métodos anteriores baseados em layout melhorem os arranjos de objetos utilizando restrições espaciais com layouts 2D, eles frequentemente têm dificuldade em capturar o posicionamento 3D e sacrificam a qualidade e a coerência. Neste trabalho, apresentamos o ComposeAnything, uma nova estrutura para melhorar a geração de imagens composicionais sem a necessidade de retreinar modelos T2I existentes. Nossa abordagem primeiro aproveita as habilidades de raciocínio em cadeia de pensamento (chain-of-thought) de LLMs para produzir layouts semânticos 2.5D a partir de texto, consistindo em caixas delimitadoras 2D de objetos enriquecidas com informações de profundidade e legendas detalhadas. Com base nesse layout, geramos uma composição grosseira de objetos com consciência espacial e de profundidade que captura a composição pretendida, servindo como um prior forte e interpretável que substitui a inicialização de ruído estocástico em modelos T2I baseados em difusão. Esse prior guia o processo de remoção de ruído através do reforço de prior de objetos e da remoção de ruído controlada espacialmente, permitindo a geração contínua de objetos composicionais e fundos coerentes, ao mesmo tempo que permite o refinamento de priors imprecisos. O ComposeAnything supera os métodos state-of-the-art nos benchmarks T2I-CompBench e NSR-1K para prompts com arranjos espaciais 2D/3D, alto número de objetos e composições surreais. Avaliações humanas demonstram ainda que nosso modelo gera imagens de alta qualidade com composições que refletem fielmente o texto.
Neste artigo, apresentamos a Geração de Respostas Conversacionais Multimodais Online (OMCRG, na sigla em inglês), uma nova tarefa que visa gerar online feedbacks sincronizados de ouvinte, tanto verbais quanto não verbais, condicionados à entrada multimodal do falante. A OMCRG reflete interações diádicas naturais e apresenta novos desafios na sincronização entre as respostas geradas em áudio e as expressões faciais do ouvinte. Para enfrentar esses desafios, introduzimos de forma inovadora o texto como uma modalidade intermediária para conectar as respostas de áudio e facial. Propomos, portanto, o OmniResponse, um Modelo de Linguagem Multimodal de Grande Escala (MLLM) que gera autoregressivamente respostas multimodais de alta qualidade do ouvinte. O OmniResponse aproveita um LLM pré-treinado aprimorado com dois novos componentes: o Chrono-Text, que ancora temporalmente os tokens de texto gerados, e o TempoVoice, um módulo de TTS online controlável que produz fala sincronizada com as reações faciais. Para apoiar pesquisas futuras em OMCRG, apresentamos o ResponseNet, um novo conjunto de dados composto por 696 interações diádicas de alta qualidade, contendo vídeos em tela dividida sincronizados, áudio multicanal, transcrições e anotações de comportamento facial. Avaliações abrangentes realizadas no ResponseNet demonstram que o OmniResponse supera significativamente os modelos de linha de base em termos de conteúdo semântico da fala, sincronização áudio-visual e qualidade de geração.
Modelos de Linguagem de Grande Escala (LLMs) têm alcançado sucesso notável em tarefas complexas de raciocínio, mas sua inferência permanece computacionalmente ineficiente. Observamos um modo comum de falha em muitos LLMs prevalentes, o "overthinking", onde os modelos geram traços de raciocínio verbosos e tangenciais, mesmo para consultas simples. Trabalhos recentes tentaram mitigar isso impondo orçamentos fixos de tokens, no entanto, isso pode levar ao "underthinking", especialmente em problemas mais difíceis. Através de análise empírica, identificamos que essa ineficiência frequentemente decorre de estratégias de resolução de problemas pouco claras. Para formalizar isso, desenvolvemos um modelo teórico, BBAM (Bayesian Budget Allocation Model), que modela o raciocínio como uma sequência de subquestões com incerteza variável, e introduzimos a métrica E^3 para capturar o equilíbrio entre correção e eficiência computacional. Com base nos resultados teóricos do BBAM, propomos o Plan-and-Budget, um framework agnóstico ao modelo e aplicável em tempo de teste, que decompõe consultas complexas em subquestões e aloca orçamentos de tokens com base na complexidade estimada usando agendamento adaptativo. O Plan-and-Budget melhora a eficiência do raciocínio em uma variedade de tarefas e modelos, alcançando ganhos de até +70% em precisão, redução de -39% em tokens e uma melhoria de +187,5% na métrica E^3. Notavelmente, ele eleva um modelo menor (DS-Qwen-32B) para igualar a eficiência de um modelo maior (DS-LLaMA-70B), demonstrando a capacidade do Plan-and-Budget de fechar lacunas de desempenho sem necessidade de retreinamento. Nosso código está disponível em anonymous.4open.science/r/P-and-B-6513/.
Vários estudos exploraram os mecanismos dos modelos de linguagem de grande escala (LLMs) em tarefas de codificação, mas a maioria se concentrou em linguagens de programação (PLs) em um contexto monolíngue. Neste artigo, investigamos a relação entre múltiplas PLs e o inglês no espaço conceitual dos LLMs. Realizamos uma tarefa de tradução few-shot em 21 pares de PLs utilizando dois modelos baseados em Llama. Ao decodificar os embeddings das camadas intermediárias durante essa tarefa, observamos que o espaço conceitual está mais próximo do inglês (incluindo palavras-chave das PLs) e atribui altas probabilidades aos tokens em inglês na segunda metade das camadas intermediárias. Analisamos as ativações de neurônios para 11 PLs e o inglês, descobrindo que, embora os neurônios específicos de cada linguagem estejam principalmente concentrados nas camadas inferiores, aqueles exclusivos de cada PL tendem a aparecer nas camadas superiores. Para PLs que estão altamente alinhadas com múltiplas outras PLs, identificar neurônios específicos de cada linguagem não é viável. Essas PLs também tendem a ter um conjunto maior de palavras-chave em comparação com outras PLs e estão mais próximas do espaço conceitual do modelo, independentemente da PL de entrada/saída na tarefa de tradução. Nossas descobertas fornecem insights sobre como os LLMs representam internamente as PLs, revelando padrões estruturais no espaço conceitual do modelo. O código está disponível em https://github.com/cisnlp/code-specific-neurons.
Apresentamos o SealQA, um novo benchmark de desafio para avaliar modelos de linguagem aumentados por busca (SEarch-Augmented Language models) em questões de busca por fatos onde a pesquisa na web resulta em informações conflitantes, ruidosas ou inúteis. O SealQA vem em três versões: (1) Seal-0 (principal) e (2) Seal-Hard, que avaliam a precisão factual e as capacidades de raciocínio, com o Seal-0 focando nas questões mais desafiadoras onde modelos de chat (por exemplo, GPT-4.1) normalmente atingem uma precisão próxima de zero; e (3) LongSeal, que estende o SealQA para testar o raciocínio de longo contexto e multi-documento em cenários de "agulha no palheiro". Nossa avaliação revela limitações críticas nos modelos atuais: mesmo os LLMs de ponta têm desempenho ruim em todas as versões do SealQA. No Seal-0, modelos agentes de ponta equipados com ferramentas como o3 e o4-mini atingem apenas 17,1% e 6,3% de precisão, respectivamente, em seus melhores esforços de raciocínio. Descobrimos que modelos avançados de raciocínio, como o DeepSeek-R1-671B e o o3-mini, são altamente vulneráveis a resultados de pesquisa ruidosos. Notavelmente, aumentar o poder de computação no momento do teste não resulta em ganhos confiáveis no o3-mini, o4-mini e o3, com o desempenho frequentemente estagnando ou até mesmo diminuindo precocemente. Além disso, embora os modelos recentes sejam menos afetados pelo problema de "perdido-no-meio", eles ainda falham em identificar documentos relevantes de forma confiável no LongSeal quando confrontados com numerosos distratores. Para facilitar trabalhos futuros, disponibilizamos o SealQA em huggingface.co/datasets/vtllms/sealqa.
Modelos de linguagem de grande escala (LLMs) têm sido recentemente aplicados a tarefas de previsão, com alguns trabalhos afirmando que esses sistemas igualam ou superam o desempenho humano. Neste artigo, argumentamos que, como comunidade, devemos ser cautelosos com tais conclusões, pois a avaliação de previsores baseados em LLMs apresenta desafios únicos. Identificamos duas categorias amplas de problemas: (1) dificuldade em confiar nos resultados de avaliação devido a várias formas de vazamento temporal, e (2) dificuldade em extrapolar o desempenho de avaliação para previsões no mundo real. Por meio de análise sistemática e exemplos concretos de trabalhos anteriores, demonstramos como falhas na avaliação podem levantar preocupações sobre as alegações de desempenho atuais e futuras. Argumentamos que metodologias de avaliação mais rigorosas são necessárias para avaliar com confiança as habilidades de previsão dos LLMs.
O Distillation por Correspondência de Distribuição (DMD) foi aplicado com sucesso a modelos de difusão de texto para imagem, como o Stable Diffusion (SD) 1.5. No entanto, o DMD básico enfrenta dificuldades de convergência em modelos de fluxo de texto para imagem em grande escala, como o SD 3.5 e o FLUX. Neste artigo, primeiro analisamos os problemas ao aplicar o DMD básico em modelos de grande escala. Em seguida, para superar o desafio de escalabilidade, propomos o alinhamento implícito de distribuição (IDA) para regularizar a distância entre o gerador e a distribuição falsa. Além disso, propomos a orientação intra-segmento (ISG) para reposicionar a distribuição de importância do passo de tempo do modelo professor. Com apenas o IDA, o DMD converge para o SD 3.5; ao empregar tanto o IDA quanto o ISG, o DMD converge para o SD 3.5 e o FLUX.1 dev. Juntamente com outras melhorias, como modelos de discriminador ampliados, nosso modelo final, denominado SenseFlow, alcança desempenho superior na destilação tanto para modelos de difusão de texto para imagem, como o SDXL, quanto para modelos de correspondência de fluxo, como o SD 3.5 Large e o FLUX. O código-fonte estará disponível em https://github.com/XingtongGe/SenseFlow.
Codecs neurais de áudio têm feito avanços significativos no mapeamento eficiente de formas de onda de áudio brutas em representações discretas de tokens, que são fundamentais para modelos generativos de áudio contemporâneos. No entanto, a maioria dos codecs existentes é otimizada principalmente para qualidade de reconstrução, frequentemente em detrimento da modelabilidade dos tokens codificados em tarefas subsequentes. Motivados pela necessidade de superar esse gargalo, introduzimos o MagiCodec, um novo codec de áudio baseado em Transformer de camada única e streaming. O MagiCodec foi projetado com um pipeline de treinamento em múltiplas etapas que incorpora injeção de ruído gaussiano e regularização latente, visando explicitamente o aprimoramento da expressividade semântica nos códigos gerados, ao mesmo tempo em que preserva alta fidelidade de reconstrução. Analiticamente, derivamos o efeito da injeção de ruído no domínio da frequência, demonstrando sua eficácia na atenuação de componentes de alta frequência e no fomento de uma tokenização robusta. Avaliações experimentais extensivas mostram que o MagiCodec supera codecs state-of-the-art tanto em qualidade de reconstrução quanto em tarefas subsequentes. Notavelmente, os tokens produzidos pelo MagiCodec exibem distribuições semelhantes à lei de Zipf, como observado em linguagens naturais, melhorando assim a compatibilidade com arquiteturas generativas baseadas em modelos de linguagem. O código e os modelos pré-treinados estão disponíveis em https://github.com/Ereboas/MagiCodec.
Os Modelos de Linguagem Aumentados por Recuperação (RALMs, na sigla em inglês) representam um paradigma clássico em que os modelos aprimoram suas capacidades generativas utilizando conhecimento externo recuperado por meio de um módulo especializado. Avanços recentes em técnicas de Agentes permitem que Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) utilizem ferramentas de forma autônoma para recuperação, planejamento e raciocínio. Embora os métodos baseados em treinamento existentes mostrem potencial, suas habilidades agentivas são limitadas pelas características inerentes dos dados específicos da tarefa utilizados durante o treinamento. Para aprimorar ainda mais a capacidade de busca universal dos agentes, propomos um novo framework de pré-treinamento, o MaskSearch. Na etapa de pré-treinamento, introduzimos a tarefa de Predição de Máscara Aumentada por Recuperação (RAMP, na sigla em inglês), na qual o modelo aprende a utilizar ferramentas de busca para preencher trechos mascarados em um grande volume de dados de pré-treinamento, adquirindo assim capacidades universais de recuperação e raciocínio para LLMs. Posteriormente, o modelo é treinado em tarefas subsequentes para obter melhorias adicionais. Aplicamos tanto o Ajuste Fino Supervisionado (SFT, na sigla em inglês) quanto o Aprendizado por Reforço (RL, na sigla em inglês) para o treinamento. Para o SFT, combinamos métodos baseados em agentes e em destilação para gerar dados de treinamento, começando com um sistema multiagente composto por um planejador, reescritor, observador e seguido por um modelo professor de auto-evolução. Já para o RL, empregamos o DAPO como framework de treinamento e adotamos um sistema de recompensas híbrido, composto por recompensas de resposta e recompensas de formato. Além disso, introduzimos uma abordagem de aprendizado curricular que permite ao modelo aprender progressivamente, de instâncias mais fáceis para as mais desafiadoras, com base no número de trechos mascarados. Avaliamos a eficácia do nosso framework no cenário de questionamento de múltiplos saltos em domínio aberto. Por meio de extensos experimentos, demonstramos que o MaskSearch melhora significativamente o desempenho de agentes de busca baseados em LLMs tanto em tarefas subsequentes dentro do domínio quanto fora dele.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se integram profundamente na vida humana e influenciam cada vez mais a tomada de decisões, é crucial avaliar se e em que medida eles exibem preferências, opiniões e crenças subjetivas. Essas tendências podem surgir de vieses presentes nos modelos, que podem moldar seu comportamento, influenciar os conselhos e recomendações que oferecem aos usuários e potencialmente reforçar certos pontos de vista. Este artigo apresenta o levantamento de Preferências, Opiniões e Crenças (POBs), um benchmark desenvolvido para avaliar as inclinações subjetivas dos LLMs em domínios sociais, culturais, éticos e pessoais. Aplicamos nosso benchmark para avaliar os principais LLMs de código aberto e fechado, medindo propriedades desejadas, como confiabilidade, neutralidade e consistência. Além disso, investigamos o efeito de aumentar o poder computacional no momento do teste, por meio de mecanismos de raciocínio e autorreflexão, sobre essas métricas. Embora eficazes em outras tarefas, nossos resultados mostram que esses mecanismos oferecem ganhos limitados em nosso domínio. Além disso, revelamos que versões mais recentes dos modelos estão se tornando menos consistentes e mais tendenciosas em relação a pontos de vista específicos, destacando uma lacuna e uma tendência preocupante. POBS: https://ibm.github.io/POBS
Apresentamos os Frankentexts, um novo tipo de narrativa longa produzida por LLMs sob a extrema restrição de que a maioria dos tokens (por exemplo, 90%) deve ser copiada literalmente de escritos humanos. Essa tarefa representa um teste desafiador de geração controlada, exigindo que os modelos atendam a um prompt de escrita, integrem fragmentos de texto díspares e ainda produzam uma narrativa coerente. Para gerar Frankentexts, instruímos o modelo a produzir um rascunho selecionando e combinando passagens escritas por humanos, e então revisamos iterativamente o rascunho enquanto mantemos uma proporção de cópia especificada pelo usuário. Avaliamos os Frankentexts resultantes em três eixos: qualidade da escrita, aderência às instruções e detectabilidade. O Gemini-2.5-Pro se sai surpreendentemente bem nessa tarefa: 81% de seus Frankentexts são coerentes e 100% relevantes ao prompt. Notavelmente, até 59% dessas saídas são erroneamente classificadas como escritas por humanos por detectores como o Pangram, revelando limitações nos detectores de texto de IA. Anotadores humanos podem, às vezes, identificar Frankentexts por meio de suas mudanças abruptas de tom e gramática inconsistente entre segmentos, especialmente em gerações mais longas. Além de apresentar uma tarefa de geração desafiadora, os Frankentexts convidam à discussão sobre a construção de detectores eficazes para essa nova zona cinzenta de autoria, fornecem dados de treinamento para detecção de autoria mista e servem como um ambiente de testes para estudar processos de coescrita humano-IA.
Modelos de visão e linguagem (VLMs) alinhados com objetivos humanos gerais, como ser inofensivo e livre de alucinações, tornaram-se assistentes valiosos para os humanos na execução de tarefas visuais. No entanto, pessoas com diferentes contextos têm cognições distintas, mesmo em situações idênticas. Consequentemente, elas podem ter expectativas personalizadas em relação aos assistentes VLM. Isso destaca a necessidade urgente de alinhar os assistentes VLM com a cognição situada personalizada para auxílio no mundo real. Para estudar esse problema, primeiro o simplificamos caracterizando indivíduos com base no conceito sociológico de Conjunto de Papéis (Role-Set). Em seguida, propomos avaliar as ações dos indivíduos para verificar se o alinhamento personalizado foi alcançado. Além disso, construímos um benchmark chamado PCogAlignBench, que inclui 18 mil instâncias e 20 indivíduos com diferentes Conjuntos de Papéis. Por fim, apresentamos uma estrutura chamada PCogAlign, que constrói um modelo de recompensa baseado em ações e consciente da cognição para o alinhamento personalizado. Resultados experimentais e avaliações humanas demonstram a confiabilidade do PCogAlignBench e a eficácia do nosso PCogAlign proposto. Disponibilizaremos o benchmark e o código em código aberto em https://github.com/NLPGM/PCogAlign.
Estudos recentes demonstraram que o ajuste fino supervisionado de LLMs em um pequeno número de conjuntos de dados de alta qualidade pode resultar em capacidades de raciocínio robustas. No entanto, o ajuste fino completo (Full FT), embora poderoso, é computacionalmente caro e suscetível a overfitting e esquecimento catastrófico, especialmente quando os dados são limitados. O ajuste fino esparso, que anteriormente obteve sucesso notável ao atualizar apenas um pequeno subconjunto de parâmetros do modelo, oferece uma compensação promissora entre eficiência e eficácia. No entanto, ele ficou para trás na era dos LLMs devido à dificuldade de identificar parâmetros verdadeiramente críticos para o raciocínio. Neste trabalho, afirmamos que os pesos com a maior magnitude após a aproximação de baixa classificação são pesos críticos para o ajuste fino, que chamamos de Pesos Principais. Surpreendentemente, embora o ajuste fino esparso baseado em magnitude tenha um desempenho ruim como linha de base no ajuste fino de LLMs, ele se torna altamente eficaz após a redução de classificação. Esses insights motivam nosso método: Ajuste Fino Especial Informado por Baixa Classificação (LIFT). O LIFT atualiza apenas os 5% principais Pesos Principais durante o treinamento e consistentemente alcança um desempenho melhor em tarefas de raciocínio do que o Full FT, mantendo a eficiência de memória em par com métodos populares de ajuste fino eficiente em parâmetros. Além de um forte desempenho em domínios-alvo, como raciocínio aritmético, o LIFT também retém até 20% a mais de conhecimento do domínio de origem, em comparação com o Full FT e o LoRA. Nosso código está disponível em: https://github.com/zihanghliu/LIFT.
Compreender as condições socioeconômicas urbanas por meio de dados visuais é uma tarefa desafiadora, porém essencial, para o desenvolvimento urbano sustentável e o planejamento de políticas. Neste trabalho, apresentamos o CityLens, um benchmark abrangente projetado para avaliar as capacidades de modelos de linguagem-visão de grande escala (LLVMs) na previsão de indicadores socioeconômicos a partir de imagens de satélite e de visão de rua. Construímos um conjunto de dados multimodal que abrange um total de 17 cidades distribuídas globalmente, abrangendo 6 domínios principais: economia, educação, criminalidade, transporte, saúde e meio ambiente, refletindo a natureza multifacetada da vida urbana. Com base nesse conjunto de dados, definimos 11 tarefas de previsão e utilizamos três paradigmas de avaliação: Previsão Direta de Métricas, Estimativa Normalizada de Métricas e Regressão Baseada em Características. Avaliamos 17 LLVMs de ponta nessas tarefas. Nossos resultados revelam que, embora os LLVMs demonstrem capacidades perceptivas e de raciocínio promissoras, eles ainda apresentam limitações na previsão de indicadores socioeconômicos urbanos. O CityLens fornece uma estrutura unificada para diagnosticar essas limitações e orientar esforços futuros no uso de LLVMs para compreender e prever padrões socioeconômicos urbanos. Nossos códigos e conjuntos de dados estão disponíveis em código aberto via https://github.com/tsinghua-fib-lab/CityLens.
Este artigo investiga uma decisão crítica de design na prática de pré-treinamento contínuo massivamente multilíngue — a inclusão de dados paralelos. Especificamente, estudamos o impacto dos dados de tradução bilíngue para a adaptação massivamente multilíngue de linguagem da família de modelos Llama3 para 500 idiomas. Para tanto, construímos o corpus de tradução bilíngue MaLA, contendo dados de mais de 2.500 pares de idiomas. Posteriormente, desenvolvemos o conjunto EMMA-500 Llama 3 de quatro modelos massivamente multilíngues — pré-treinados continuamente a partir dos modelos base da família Llama 3 extensivamente em diversas misturas de dados até 671 bilhões de tokens — e exploramos o efeito do pré-treinamento contínuo com ou sem dados de tradução bilíngue. Uma avaliação abrangente em 7 tarefas e 12 benchmarks demonstra que os dados bilíngues tendem a melhorar a transferência de linguagem e o desempenho, particularmente para idiomas de baixo recurso. Disponibilizamos publicamente o corpus MaLA, os artefatos do conjunto EMMA-500 Llama 3, o código e as gerações dos modelos.
Decodificar linguagem contínua a partir de sinais neurais continua sendo um desafio significativo na interseção entre neurociência e inteligência artificial. Apresentamos o Neuro2Semantic, uma estrutura inovadora que reconstrói o conteúdo semântico da fala percebida a partir de gravações de EEG intracraniano (iEEG). Nossa abordagem consiste em duas fases: primeiro, um adaptador baseado em LSTM alinha os sinais neurais com embeddings de texto pré-treinados; segundo, um módulo corretor gera texto contínuo e natural diretamente a partir desses embeddings alinhados. Esse método flexível supera as limitações das abordagens anteriores de decodificação e permite a geração de texto sem restrições. O Neuro2Semantic alcança um desempenho robusto com apenas 30 minutos de dados neurais, superando um método recente de ponta em cenários de baixo volume de dados. Esses resultados destacam o potencial para aplicações práticas em interfaces cérebro-computador e tecnologias de decodificação neural.
A renderização binaural visa sintetizar áudio binaural que imita a audição natural com base em um áudio mono e nas localizações do falante e do ouvinte. Embora muitos métodos tenham sido propostos para resolver esse problema, eles enfrentam dificuldades com a qualidade de renderização e inferência em fluxo contínuo. Sintetizar áudio binaural de alta qualidade que seja indistinguível de gravações do mundo real requer uma modelagem precisa de pistas binaurais, reverberação do ambiente e sons ambientes. Além disso, aplicações do mundo real demandam inferência em fluxo contínuo. Para abordar esses desafios, propomos um framework de síntese de fala binaural em fluxo contínuo baseado em correspondência de fluxo, chamado BinauralFlow. Consideramos a renderização binaural como um problema de geração em vez de um problema de regressão e projetamos um modelo de correspondência de fluxo condicional para renderizar áudio de alta qualidade. Além disso, projetamos uma arquitetura causal U-Net que estima o quadro de áudio atual com base apenas em informações passadas, adaptando modelos generativos para inferência em fluxo contínuo. Por fim, introduzimos um pipeline de inferência contínua que incorpora operações de STFT/ISTFT em fluxo contínuo, um banco de buffers, um resolvedor de ponto médio e um esquema de salto antecipado para melhorar a continuidade e a velocidade da renderização. Avaliações quantitativas e qualitativas demonstram a superioridade do nosso método em relação às abordagens state-of-the-art (SOTA). Um estudo perceptual revela ainda que nosso modelo é quase indistinguível de gravações do mundo real, com uma taxa de confusão de 42%.
Apesar dos avanços no raciocínio e planejamento de modelos semelhantes ao R1, os Modelos de Linguagem de Grande Escala (LLMs) ainda enfrentam dificuldades em tarefas que exigem computação precisa, manipulação simbólica, otimização e raciocínio algorítmico, nas quais o raciocínio textual carece do rigor da execução de código. Um desafio fundamental é capacitar os LLMs a decidir quando usar raciocínio textual versus geração de código. Embora a OpenAI treine modelos para invocar um Interpretador de Código conforme necessário, a pesquisa pública carece de orientações sobre como alinhar LLMs pré-treinados para aproveitar efetivamente o código e generalizar em diversas tarefas. Apresentamos o R1-Code-Interpreter, uma extensão de um LLM apenas de texto, treinado por meio de ajuste fino supervisionado (SFT) multietapas e aprendizado por reforço (RL) para gerar autonomamente múltiplas consultas de código durante o raciocínio passo a passo. Curamos 144 tarefas de raciocínio e planejamento (107 para treinamento, 37 para teste), cada uma com mais de 200 perguntas diversas. Ajustamos finamente os modelos Qwen-2.5 (3B/7B/14B) usando várias estratégias de SFT e RL, investigando diferentes formatos de resposta, modelos de raciocínio versus não raciocínio, inícios frios versus quentes, GRPO versus PPO e saídas de código mascaradas versus não mascaradas. Diferente de trabalhos anteriores de RL em domínios restritos, descobrimos que o treinamento do Interpretador de Código é significativamente mais difícil devido à alta diversidade de tarefas e à execução de código custosa, destacando o papel crítico da etapa de SFT. Nosso modelo final, R1-CI-14B, melhora a precisão média nas 37 tarefas de teste de 44,0% para 64,1%, superando o GPT-4o (apenas texto: 58,6%) e se aproximando do GPT-4o com Interpretador de Código (70,9%), com o comportamento emergente de auto-verificação via geração de código. Conjuntos de dados, códigos e modelos estão disponíveis em https://github.com/yongchao98/R1-Code-Interpreter e https://huggingface.co/yongchao98.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) apresentam bom desempenho em tarefas como resposta a perguntas visuais, mas ainda não está claro se seu raciocínio depende mais de conhecimento prévio memorizado ou das informações visuais presentes na imagem de entrada. Para investigar isso, introduzimos o Visual CounterFact, um novo conjunto de dados de contra-factuais visualmente realistas que colocam conhecimentos prévios do mundo (por exemplo, morango vermelho) em conflito direto com a entrada visual (por exemplo, morango azul). Usando o Visual CounterFact, mostramos que as previsões do modelo inicialmente refletem conhecimentos prévios memorizados, mas mudam em direção à evidência visual nas camadas intermediárias e finais. Essa dinâmica revela uma competição entre as duas modalidades, com a entrada visual finalmente sobrepondo os conhecimentos prévios durante a avaliação. Para controlar esse comportamento, propomos vetores de direcionamento Pixels Versus Priors (PvP), um mecanismo para controlar as saídas do modelo em direção ao conhecimento do mundo ou à entrada visual por meio de intervenções no nível de ativação. Em média, o PvP consegue mudar 92,5% das previsões de cor e 74,6% das previsões de tamanho de conhecimentos prévios para contra-factuais. Juntos, esses achados oferecem novas ferramentas para interpretar e controlar o comportamento factual em modelos multimodais.
A aquisição de dados de fala emocional em grande escala com alta consistência continua sendo um desafio para a síntese de fala. Este artigo apresenta o MIKU-PAL, um pipeline multimodal totalmente automatizado para extrair fala emocional de alta consistência a partir de dados de vídeo não rotulados. Utilizando algoritmos de detecção e rastreamento facial, desenvolvemos um sistema automático de análise de emoções com base em um modelo de linguagem multimodal de grande escala (MLLM). Nossos resultados demonstram que o MIKU-PAL pode alcançar precisão em nível humano (68,5% no MELD) e consistência superior (escore Fleiss kappa de 0,93), sendo muito mais barato e rápido do que a anotação humana. Com a anotação de alta qualidade, flexível e consistente do MIKU-PAL, podemos rotular categorias de emoção de fala em nível detalhado, com até 26 tipos, validados por anotadores humanos com 83% de avaliações de racionalidade. Com base no sistema proposto, lançamos ainda o conjunto de dados de fala emocional detalhado MIKU-EmoBench (131,2 horas) como um novo benchmark para síntese de fala emocional e clonagem visual de voz.
Este trabalho investiga a Adaptação de Domínio Livre de Fonte (Source-Free Domain Adaptation - SFDA), onde um modelo se adapta a um domínio de destino sem acesso aos dados de origem. Uma nova técnica de aumento de dados, Shuffle PatchMix (SPM), e uma estratégia inovadora de rebalanceamento são introduzidas para melhorar o desempenho. O SPM embaralha e combina partes de imagens para gerar aumentos de dados diversos e desafiadores, enquanto a estratégia de rebalanceamento prioriza pseudo-rótulos confiáveis para mitigar o ruído nos rótulos. Essas técnicas são particularmente eficazes em conjuntos de dados menores, como o PACS, onde o overfitting e o ruído nos pseudo-rótulos representam riscos maiores. Resultados de ponta são alcançados em três benchmarks principais: PACS, VisDA-C e DomainNet-126. Notavelmente, no PACS, são observadas melhorias de 7,3% (de 79,4% para 86,7%) e 7,2% em configurações de alvo único e múltiplos alvos, respectivamente, enquanto ganhos de 2,8% e 0,7% são obtidos no DomainNet-126 e VisDA-C. Essa combinação de aumento de dados avançado e rebalanceamento robusto de pseudo-rótulos estabelece um novo padrão para SFDA. O código está disponível em: https://github.com/PrasannaPulakurthi/SPM.
A compilação eficiente de operações quânticas continua sendo um grande obstáculo para a escalabilidade da computação quântica. Os métodos mais avançados atuais alcançam baixos erros de compilação ao combinar algoritmos de busca com otimização de parâmetros baseada em gradientes, mas eles resultam em tempos de execução longos e exigem múltiplas chamadas ao hardware quântico ou simulações clássicas custosas, tornando sua escalabilidade proibitiva. Recentemente, modelos de aprendizado de máquina surgiram como uma alternativa, embora atualmente estejam restritos a conjuntos de portas discretas. Aqui, introduzimos um modelo de difusão de desruído multimodal que gera simultaneamente a estrutura de um circuito e seus parâmetros contínuos para compilar uma unitária alvo. Ele utiliza dois processos de difusão independentes, um para a seleção de portas discretas e outro para a previsão de parâmetros. Avaliamos o modelo em diferentes experimentos, analisando a precisão do método em relação a diferentes contagens de qubits, profundidades de circuito e proporções de portas parametrizadas. Por fim, ao explorar sua rápida geração de circuitos, criamos grandes conjuntos de dados de circuitos para operações específicas e os utilizamos para extrair heurísticas valiosas que podem nos ajudar a descobrir novos insights sobre a síntese de circuitos quânticos.