Artigos de pesquisa em IA selecionados diariamente com traduções
O aprendizado por reforço baseado em políticas atualmente desempenha um papel importante na melhoria de LLMs (Large Language Models) em tarefas de raciocínio matemático. No entanto, os métodos existentes de aprendizado por reforço baseados em rollouts (GRPO, DAPO, GSPO, etc.) falham em considerar explicitamente a capacidade de aprendizado dos LLMs para amostras de diferentes níveis de dificuldade, o que contraria o processo cognitivo humano de tarefas de raciocínio matemático, que vai do fácil para o difícil. Intuitivamente, observamos que a variância da recompensa do grupo de rollouts no RLVR reflete parcialmente a dificuldade da amostra atual para os LLMs. Amostras que são muito fáceis ou muito difíceis têm uma variância menor, enquanto amostras com dificuldade moderada apresentam uma variância maior. Com base nisso, propomos o VCRL, um framework de aprendizado por reforço curricular que controla dinamicamente a dificuldade das amostras de treinamento com base na variância das recompensas do grupo. Experimentos em cinco benchmarks matemáticos e dois modelos revelam as vantagens do VCRL em relação às atuais abordagens de RL para LLMs.
Modelos de raciocínio multimodal de grande escala têm alcançado progresso rápido, mas seu avanço é limitado por duas grandes restrições: a ausência de dados abertos, em larga escala e de alta qualidade, com cadeias longas de pensamento (CoT, do inglês "Chain-of-Thought"), e a instabilidade de algoritmos de aprendizado por reforço (RL, do inglês "Reinforcement Learning") no pós-treinamento. O Group Relative Policy Optimization (GRPO), o framework padrão para ajuste fino de RL, é propenso ao desaparecimento de gradientes quando a variância da recompensa é baixa, o que enfraquece os sinais de otimização e prejudica a convergência. Este trabalho faz três contribuições: (1) Propomos o Variance-Aware Sampling (VAS), uma estratégia de seleção de dados guiada pelo Variance Promotion Score (VPS), que combina variância de resultados e diversidade de trajetórias para promover a variância de recompensa e estabilizar a otimização de políticas. (2) Disponibilizamos recursos em larga escala, cuidadosamente curados, contendo ~1,6M de dados de CoT longos para inicialização a frio e ~15k pares de perguntas e respostas de RL, projetados para garantir qualidade, dificuldade e diversidade, juntamente com uma base de código de treinamento totalmente reproduzível de ponta a ponta. (3) Disponibilizamos publicamente uma família de modelos de raciocínio multimodal em múltiplas escalas, estabelecendo baselines padronizadas para a comunidade. Experimentos em benchmarks de raciocínio matemático demonstram a eficácia tanto dos dados curados quanto do VAS proposto. Estudos de ablação e análises abrangentes fornecem insights adicionais sobre as contribuições de cada componente. Além disso, estabelecemos teoricamente que a variância da recompensa limita inferiormente a magnitude esperada do gradiente da política, com o VAS servindo como um mecanismo prático para realizar essa garantia. Nosso código, dados e checkpoints estão disponíveis em https://github.com/LengSicong/MMR1.
Apresentamos um modelo de fundação para raciocínio científico que alinha linguagem natural com representações científicas heterogêneas. O modelo é pré-treinado em um corpus de 206 bilhões de tokens, abrangendo textos científicos, sequências puras e pares de sequência-texto, e então alinhado via SFT (Supervised Fine-Tuning) em 40 milhões de instruções, utilizando bootstrapping de inicialização a frio para eliciar cadeias de pensamento de longo formato e aprendizado por reforço com modelagem de recompensa específica para tarefas, o que instila raciocínio científico deliberado. Ele suporta quatro famílias de capacidades, cobrindo até 103 tarefas em fluxos de trabalho: (i) tradução fiel entre texto e formatos científicos, (ii) extração de texto/conhecimento, (iii) previsão de propriedades, (iv) classificação de propriedades, (v) geração e design de sequências incondicionais e condicionais. Comparado com sistemas especializados, nossa abordagem amplia a cobertura de instruções, melhora a generalização entre domínios e aumenta a fidelidade. Detalhamos a curadoria de dados e o treinamento, e mostramos que o aprendizado interdisciplinar fortalece a transferência e a confiabilidade em tarefas subsequentes. O modelo, os conjuntos de dados de ajuste de instruções e o código de avaliação são disponibilizados como código aberto em https://huggingface.co/SciReason e https://github.com/open-sciencelab/SciReason.
Avanços recentes em aprendizado por reforço (RL) têm aprimorado significativamente as capacidades agentivas de grandes modelos de linguagem (LLMs). Em tarefas de agentes de longo prazo e multi-turnos, abordagens existentes guiadas apenas por recompensas de resultado frequentemente sofrem com o problema de supervisão esparsa. Para enfrentar esse desafio, propomos a Otimização de Política Relativa em Grupo Baseada em Árvore (Tree-GRPO), um método de RL para agentes agrupados baseado em busca em árvore, onde cada nó da árvore representa o passo completo de interação do agente. Ao compartilhar prefixos comuns, a amostragem de busca em árvore aumenta o número de rollouts alcançáveis dentro de um orçamento fixo de tokens ou chamadas de ferramentas. Além disso, descobrimos que a trajetória estruturada em árvore permite naturalmente a construção de sinais de supervisão passo a passo, mesmo utilizando apenas a recompensa de resultado. Com base nisso, o Tree-GRPO estima as vantagens relativas agrupadas tanto em nível intra-árvore quanto inter-árvore. Através de análise teórica, demonstramos que o objetivo da otimização de política relativa em grupo no nível intra-árvore é equivalente ao do aprendizado de preferência direta no nível de passo. Experimentos em 11 conjuntos de dados e 3 tipos de tarefas de Q&A demonstram a superioridade do RL baseado em árvore sobre o método de RL baseado em cadeia.
Apresentamos o Seedream 4.0, um sistema eficiente e de alto desempenho para geração multimodal de imagens que unifica a síntese de texto para imagem (T2I), edição de imagem e composição de múltiplas imagens em um único framework. Desenvolvemos um transformer de difusão altamente eficiente com um VAE poderoso, que também pode reduzir consideravelmente o número de tokens de imagem. Isso permite o treinamento eficiente do nosso modelo e possibilita a geração rápida de imagens nativas de alta resolução (por exemplo, 1K-4K). O Seedream 4.0 foi pré-treinado em bilhões de pares texto-imagem que abrangem diversas taxonomias e conceitos centrados em conhecimento. Uma coleta abrangente de dados em centenas de cenários verticais, aliada a estratégias otimizadas, garante um treinamento estável e em larga escala, com forte generalização. Ao incorporar um modelo VLM cuidadosamente ajustado, realizamos pós-treinamento multimodal para treinar conjuntamente as tarefas de T2I e edição de imagem. Para aceleração da inferência, integramos destilação adversarial, correspondência de distribuição e quantização, além de decodificação especulativa. O sistema alcança um tempo de inferência de até 1,8 segundos para gerar uma imagem 2K (sem um LLM/VLM como modelo PE). Avaliações abrangentes revelam que o Seedream 4.0 pode alcançar resultados de ponta tanto em T2I quanto em edição multimodal de imagens. Em particular, ele demonstra capacidades multimodais excepcionais em tarefas complexas, incluindo edição precisa de imagens e raciocínio em contexto, além de permitir referência a múltiplas imagens e gerar várias imagens de saída. Isso estende os sistemas tradicionais de T2I para uma ferramenta criativa mais interativa e multidimensional, expandindo os limites da IA generativa tanto para criatividade quanto para aplicações profissionais. O Seedream 4.0 já está acessível em https://www.volcengine.com/experience/ark?launch=seedream.
Avanços recentes em modelos generativos nativos 3D têm acelerado a criação de ativos para jogos, filmes e design. No entanto, a maioria dos métodos ainda depende principalmente de condicionamento por imagens ou texto e carece de controles refinados e cross-modais, o que limita a controlabilidade e a adoção prática. Para abordar essa lacuna, apresentamos o Hunyuan3D-Omni, uma estrutura unificada para geração de ativos 3D controláveis e refinados, construída sobre o Hunyuan3D 2.1. Além de imagens, o Hunyuan3D-Omni aceita nuvens de pontos, voxels, caixas delimitadoras e priors de pose esquelética como sinais de condicionamento, permitindo controle preciso sobre geometria, topologia e pose. Em vez de cabeças separadas para cada modalidade, nosso modelo unifica todos os sinais em uma única arquitetura cross-modal. Treinamos com uma estratégia de amostragem progressiva e consciente da dificuldade, que seleciona uma modalidade de controle por exemplo e tende a amostrar sinais mais difíceis (por exemplo, pose esquelética) enquanto reduz o peso de sinais mais fáceis (por exemplo, nuvens de pontos), incentivando uma fusão multimodal robusta e um tratamento gracioso de entradas ausentes. Experimentos mostram que esses controles adicionais melhoram a precisão da geração, permitem transformações conscientes da geometria e aumentam a robustez para fluxos de trabalho de produção.
O AutoIntent é uma ferramenta de aprendizado de máquina automatizada para tarefas de classificação de texto. Diferente das soluções existentes, o AutoIntent oferece automação de ponta a ponta com seleção de modelos de embedding, otimização de classificadores e ajuste de limiares de decisão, tudo dentro de uma interface modular semelhante ao sklearn. O framework foi projetado para suportar classificação multi-rótulo e detecção de escopo fora do domínio. O AutoIntent demonstra desempenho superior em comparação com as ferramentas de AutoML existentes em conjuntos de dados padrão de classificação de intenções e permite que os usuários equilibrem eficácia e consumo de recursos.
A adoção de Modelos de Linguagem de Grande Escala (LLMs) como avaliadores automatizados (LLM-as-a-judge) revelou inconsistências críticas nos frameworks de avaliação atuais. Identificamos dois tipos fundamentais de inconsistências: (1) Inconsistência de Comparação de Pontuação, onde respostas com pontuações mais baixas superam aquelas com pontuações mais altas em comparações pareadas, e (2) Inconsistência de Transitividade Pareada, manifestada através de cadeias de preferência circulares (A>B>C>A) e contradições de equivalência (A=B=C≠A). Argumentamos que esses problemas surgem da perda de informação em sistemas de avaliação discretos e de julgamentos de empate ambíguos durante a avaliação pareada. Propomos o TrustJudge, um framework probabilístico que aborda essas limitações por meio de duas inovações principais: 1) pontuação sensível à distribuição, que calcula expectativas contínuas a partir de probabilidades de avaliação discretas, preservando a entropia da informação para uma pontuação mais precisa, e 2) agregação consciente da verossimilhança, que resolve violações de transitividade usando probabilidades de preferência bidirecionais ou perplexidade. Também formalizamos as limitações teóricas dos frameworks atuais de LLM-as-a-judge e demonstramos como os componentes do TrustJudge as superam. Quando avaliado com o Llama-3.1-70B-Instruct como juiz usando nosso conjunto de dados, o TrustJudge reduz a inconsistência de Comparação de Pontuação em 8,43% (de 23,32% para 14,89%) e a inconsistência de Transitividade Pareada em 10,82% (de 15,22% para 4,40%), mantendo uma maior precisão de avaliação. Nosso trabalho fornece a primeira análise sistemática das inconsistências nos frameworks de avaliação em paradigmas de LLM-as-a-judge, oferecendo insights teóricos e soluções práticas para uma avaliação automatizada confiável. O framework demonstra melhorias consistentes em várias arquiteturas e escalas de modelos, permitindo uma avaliação de LLMs mais confiável sem a necessidade de treinamento adicional ou anotações humanas. Os códigos podem ser encontrados em https://github.com/TrustJudge/TrustJudge.
Este artigo apresenta uma abordagem simples e escalável para melhorar a eficiência de dados no treinamento de grandes modelos de linguagem (LLMs) ao aumentar os dados textuais existentes com trajetórias de pensamento. O poder computacional necessário para o pré-treinamento de LLMs tem crescido a uma taxa sem precedentes, enquanto a disponibilidade de dados de alta qualidade permanece limitada. Consequentemente, maximizar a utilidade dos dados disponíveis constitui um desafio de pesquisa significativo. Um dos principais obstáculos é que certos tokens de alta qualidade são difíceis de aprender dada uma capacidade fixa do modelo, já que a lógica subjacente para um único token pode ser excepcionalmente complexa e profunda. Para resolver esse problema, propomos o Pré-Treinamento Aumentado com Pensamento (TPT), uma metodologia universal que aumenta o texto com trajetórias de pensamento geradas automaticamente. Esse aumento efetivamente expande o volume dos dados de treinamento e torna os tokens de alta qualidade mais aprendíveis por meio de raciocínio e decomposição passo a passo. Aplicamos o TPT em diversas configurações de treinamento com até 100 bilhões de tokens, abrangendo pré-treinamento com dados limitados e abundantes, bem como treinamento intermediário a partir de checkpoints de código aberto robustos. Os resultados experimentais indicam que nosso método melhora substancialmente o desempenho de LLMs em vários tamanhos e famílias de modelos. Notavelmente, o TPT aumenta a eficiência de dados no pré-treinamento de LLMs por um fator de 3. Para um modelo com 3 bilhões de parâmetros, ele melhora o desempenho pós-treinamento em mais de 10% em vários benchmarks desafiadores de raciocínio.
Os avanços recentes na clonagem de comportamento (BC) permitiram políticas impressionantes de controle visuomotor. No entanto, essas abordagens são limitadas pela qualidade das demonstrações humanas, pelo esforço manual necessário para a coleta de dados e pelos retornos decrescentes do aumento de dados offline. Em comparação, o aprendizado por reforço (RL) treina um agente por meio da interação autônoma com o ambiente e tem mostrado sucesso notável em vários domínios. Ainda assim, o treinamento de políticas de RL diretamente em robôs do mundo real continua desafiador devido à ineficiência de amostras, preocupações de segurança e a dificuldade de aprender a partir de recompensas esparsas para tarefas de longo horizonte, especialmente para sistemas com alto grau de liberdade (DoF). Apresentamos uma receita que combina os benefícios do BC e do RL por meio de uma estrutura de aprendizado residual. Nossa abordagem aproveita as políticas de BC como bases de caixa preta e aprende correções residuais leves por etapa por meio de RL eficiente em amostras fora da política. Demonstramos que nosso método requer apenas sinais de recompensa binária esparsa e pode efetivamente melhorar as políticas de manipulação em sistemas com alto grau de liberdade (DoF) tanto em simulação quanto no mundo real. Em particular, demonstramos, até onde sabemos, o primeiro treinamento de RL bem-sucedido no mundo real em um robô humanóide com mãos hábeis. Nossos resultados demonstram desempenho de ponta em várias tarefas baseadas em visão, apontando para um caminho prático para a implantação do RL no mundo real. Site do projeto: https://residual-offpolicy-rl.github.io
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se um paradigma poderoso para otimizar modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) no tratamento de tarefas complexas de raciocínio. Um desafio central nesse processo reside no gerenciamento da entropia da política, que reflete o equilíbrio entre exploração e explotação durante o treinamento. Métodos existentes, como a otimização de política proximal (PPO, do inglês Proximal Policy Optimization) e suas variantes, descartam sinais de gradiente valiosos de tokens de baixa probabilidade devido ao mecanismo de recorte. Analisamos sistematicamente a dinâmica da entropia e revelamos que esses tokens recortados desempenham um papel crítico, porém negligenciado, na regulação da evolução da entropia. Propomos o Controle de Entropia via Otimização de Política com Preservação de Gradiente (CE-GPPO, do inglês Controlling Entropy via Gradient-Preserving Policy Optimization), um algoritmo inovador que reintroduz gradientes de tokens recortados no PPO original de maneira suave e limitada. Ao controlar a magnitude dos gradientes de tokens fora do intervalo de recorte, o CE-GPPO consegue alcançar um equilíbrio entre exploração e explotação. Fornecemos justificativa teórica e evidências empíricas mostrando que o CE-GPPO mitiga efetivamente a instabilidade da entropia. Experimentos extensos em benchmarks de raciocínio matemático demonstram que o CE-GPPO supera consistentemente baselines robustas em diferentes escalas de modelos.
Nos últimos anos, os modelos multimodais fizeram avanços notáveis e abriram caminho para agentes inteligentes de uso em navegadores. No entanto, ao resolver tarefas em páginas da web do mundo real em trajetórias de múltiplas interações e longo prazo, os agentes atuais ainda sofrem com sequenciamento de ações desordenado e excesso de tentativa e erro durante a execução. Este artigo apresenta o Recon-Act, uma estrutura multiagente de auto-evolução baseada no paradigma comportamental de Reconhecimento-Ação. O sistema é composto por uma Equipe de Reconhecimento e uma Equipe de Ação: a primeira realiza análise comparativa e geração de ferramentas, enquanto a segunda lida com a decomposição de intenções, orquestração de ferramentas e execução. Ao contrastar as trajetórias errôneas com as bem-sucedidas, a Equipe de Reconhecimento infere correções e as abstrai em uma noção unificada de ferramentas generalizadas, expressas como dicas ou códigos baseados em regras, e as registra no arquivo de ferramentas em tempo real. A Equipe de Ação re-infere o processo, agora capacitado com essas ferramentas direcionadas, estabelecendo assim um pipeline de treinamento em loop fechado de dados-ferramentas-ação-feedback. Seguindo o roteiro de implementação de 6 níveis proposto neste trabalho, atualmente alcançamos o Nível 3 (com intervenção humana limitada no loop). Aproveitando as ferramentas generalizadas obtidas por meio do reconhecimento, o Recon-Act melhora substancialmente a adaptabilidade a sites não vistos e a capacidade de resolução em tarefas de longo prazo, alcançando desempenho de ponta no desafiador conjunto de dados VisualWebArena.
Apresentamos o CHARM, uma nova representação paramétrica e framework generativo para modelagem de penteados de anime. Enquanto os métodos tradicionais de modelagem de cabelo focam em cabelos realistas usando representações baseadas em fios ou volumétricas, os penteados de anime exibem uma geometria altamente estilizada e estruturada em partes, o que desafia as técnicas existentes. Trabalhos anteriores frequentemente dependem de modelagem densa de malhas ou curvas spline artesanais, tornando-os ineficientes para edição e inadequados para aprendizado escalável. O CHARM introduz uma parametrização compacta e invertível baseada em pontos de controle, onde uma sequência de pontos de controle representa cada tufo de cabelo, e cada ponto é codificado com apenas cinco parâmetros geométricos. Essa representação eficiente e precisa suporta tanto o design amigável para artistas quanto a geração baseada em aprendizado. Baseado nessa representação, o CHARM introduz um framework generativo autorregressivo que gera efetivamente penteados de anime a partir de imagens de entrada ou nuvens de pontos. Ao interpretar penteados de anime como uma "linguagem de cabelo" sequencial, nosso transformer autorregressivo captura tanto a geometria local quanto a topologia global do penteado, resultando na criação de penteados de anime de alta fidelidade. Para facilitar tanto o treinamento quanto a avaliação da geração de penteados de anime, construímos o AnimeHair, um conjunto de dados em larga escala de 37 mil penteados de anime de alta qualidade com tufos de cabelo separados e dados de malha processados. Experimentos extensivos demonstram o desempenho de ponta do CHARM tanto em precisão de reconstrução quanto em qualidade de geração, oferecendo uma solução expressiva e escalável para a modelagem de penteados de anime. Página do projeto: https://hyzcluster.github.io/charm/
A composição de imagens visa inserir de forma perfeita um objeto especificado pelo usuário em uma nova cena, mas os modelos existentes enfrentam dificuldades com iluminação complexa (por exemplo, sombras precisas, reflexos na água) e entradas diversas e de alta resolução. Os modernos modelos de difusão de texto para imagem (por exemplo, SD3.5, FLUX) já codificam prioridades físicas e de resolução essenciais, mas carecem de uma estrutura para liberá-las sem recorrer à inversão latente, que frequentemente fixa as poses dos objetos em orientações contextualmente inadequadas, ou à cirurgia de atenção frágil. Propomos o SHINE, uma estrutura livre de treinamento para Inserção Contínua e de Alta Fidelidade com Erros Neutralizados. O SHINE introduz a perda de âncora orientada por variedade, aproveitando adaptadores de personalização pré-treinados (por exemplo, IP-Adapter) para guiar os latentes para uma representação fiel do sujeito, preservando a integridade do fundo. A orientação de supressão de degradação e a mistura adaptativa de fundo são propostas para eliminar ainda mais saídas de baixa qualidade e costuras visíveis. Para abordar a falta de benchmarks rigorosos, introduzimos o ComplexCompo, que apresenta diversas resoluções e condições desafiadoras, como iluminação baixa, iluminação intensa, sombras intrincadas e superfícies reflexivas. Experimentos no ComplexCompo e no DreamEditBench mostram desempenho de ponta em métricas padrão (por exemplo, DINOv2) e pontuações alinhadas com humanos (por exemplo, DreamSim, ImageReward, VisionReward). O código e o benchmark estarão publicamente disponíveis após a publicação.
Embora os Modelos de Raciocínio de Grande Escala (LRMs) gerem extensas cadeias de pensamento, carecemos de uma estrutura teórica para compreender como esses pensamentos são estruturados. Neste artigo, introduzimos uma abordagem inovadora ao aplicar a Teoria dos Episódios de Schoenfeld, um marco clássico da cognição humana na resolução de problemas matemáticos, para analisar os traços de raciocínio dos LRMs. Anotamos milhares de frases e parágrafos de soluções geradas por modelos para problemas matemáticos, utilizando sete rótulos cognitivos (por exemplo, Planejar, Implementar, Verificar). O resultado é o primeiro benchmark publicamente disponível para a análise detalhada do raciocínio de máquinas, incluindo um grande corpus anotado e manuais de anotação detalhados. Nossa análise preliminar revela padrões distintos no raciocínio dos LRMs, como as dinâmicas de transição entre estados cognitivos. Essa estrutura oferece uma metodologia fundamentada teoricamente para interpretar a cognição dos LRMs e possibilita trabalhos futuros em sistemas de raciocínio mais controláveis e transparentes.
O aprendizado por reforço (RL) tem mostrado potencial no treinamento de modelos agentes que vão além de benchmarks estáticos para se engajar em interações dinâmicas e multi-turnos. No entanto, o valor final desses agentes reside em sua capacidade de auxiliar os usuários, um cenário onde a diversidade e a dinâmica da interação do usuário apresentam desafios. Neste trabalho, propomos o UserRL, um framework unificado para treinar e avaliar habilidades centradas no usuário por meio de ambientes padronizados de ginásio (gym) combinados com usuários simulados. Variamos sistematicamente a atribuição de recompensas no nível de turno e o cálculo de pontuação no nível de trajetória para analisar como diferentes formulações afetam o aprendizado sob o algoritmo GRPO. Nossos experimentos com modelos Qwen3 revelam três descobertas principais: (i) o início frio com SFT é crucial para desbloquear a capacidade inicial de interação e permitir melhorias contínuas com RL; (ii) a pontuação deliberada de trajetórias resulta em interações multi-turnos mais eficientes e eficazes; e (iii) embora usuários simulados mais fortes (por exemplo, GPT-4o) facilitem o treinamento, simuladores de código aberto (por exemplo, Qwen3-32B) permanecem uma opção econômica e transferível. Juntos, esses resultados destacam que o design cuidadoso da modelagem de recompensas e a escolha da simulação de usuários são tão cruciais quanto a escala do modelo, e estabelecem o UserRL como um caminho prático para o desenvolvimento de modelos agentes robustos e centrados no usuário. Todos os códigos e dados estão públicos para pesquisas futuras.
Apresentamos o SD3.5-Flash, uma estrutura eficiente de destilação em poucos passos que traz geração de imagens de alta qualidade para dispositivos de consumo acessíveis. Nossa abordagem destila modelos de fluxo retificado computacionalmente proibitivos por meio de um objetivo reformulado de correspondência de distribuição, especificamente adaptado para geração em poucos passos. Introduzimos duas inovações principais: "compartilhamento de timesteps" para reduzir o ruído do gradiente e "ajuste fino de timesteps divididos" para melhorar o alinhamento com o prompt. Combinadas com otimizações abrangentes do pipeline, como reestruturação do codificador de texto e quantização especializada, nosso sistema permite tanto geração rápida quanto implantação eficiente em memória em diferentes configurações de hardware. Isso democratiza o acesso em toda a gama de dispositivos, desde telefones móveis até computadores desktop. Por meio de avaliação extensa, incluindo estudos de usuários em larga escala, demonstramos que o SD3.5-Flash supera consistentemente os métodos existentes de poucos passos, tornando a IA generativa avançada verdadeiramente acessível para implantação prática.
Modelos de Raciocínio de Grande Escala (LRMs) têm demonstrado capacidades impressionantes na resolução de problemas complexos, frequentemente se beneficiando do treinamento em problemas matemáticos difíceis que estimulam raciocínios intrincados. Esforços recentes exploraram a síntese automatizada de problemas matemáticos por meio da solicitação de modelos proprietários ou modelos de código aberto em grande escala a partir de dados iniciais ou conceitos matemáticos inerentes. No entanto, escalonar esses métodos continua desafiador devido ao alto custo computacional/de API, à complexidade da solicitação e ao nível limitado de dificuldade dos problemas gerados. Para superar essas limitações, propomos o ScaleDiff, um pipeline simples, porém eficaz, projetado para escalar a criação de problemas difíceis. Identificamos de forma eficiente problemas difíceis em conjuntos de dados existentes com apenas uma passagem direta usando um modelo de pensamento adaptativo, que pode perceber a dificuldade do problema e alternar automaticamente entre os modos "Pensar" e "Não Pensar". Em seguida, treinamos um gerador especializado de problemas difíceis (DiffGen-8B) nesses dados filtrados, que pode produzir novos problemas difíceis em grande escala, eliminando a necessidade de solicitações complexas por instância e seus altos custos associados de API. O ajuste fino do Qwen2.5-Math-7B-Instruct no conjunto de dados ScaleDiff-Math resulta em um aumento substancial de desempenho de 11,3% em comparação com o conjunto de dados original e alcança uma precisão média de 65,9% em AIME'24, AIME'25, HMMT-Fev'25, BRUMO'25 e MATH500, superando LRMs recentes e robustos como o OpenThinker3. Notavelmente, esse desempenho é alcançado usando o modelo econômico Qwen3-8B como professor, demonstrando que nosso pipeline pode transferir efetivamente capacidades avançadas de raciocínio sem depender de modelos professores maiores e mais caros. Além disso, observamos um claro fenômeno de escalonamento no desempenho do modelo em benchmarks difíceis à medida que a quantidade de problemas difíceis aumenta. Código: https://github.com/QizhiPei/ScaleDiff.
Modelos de linguagem de grande escala para código têm demonstrado capacidades notáveis em tarefas de programação, mas os benchmarks atuais focam principalmente em uma única modalidade, em vez de desenvolvimento de jogos visuais. A maioria dos benchmarks existentes relacionados a código avaliam a correção sintática e a precisão de execução, negligenciando métricas críticas específicas de jogos, como jogabilidade, estética visual e engajamento do usuário, que são essenciais para implantação no mundo real. Para abordar a lacuna entre as capacidades atuais de LLMs em resolução de problemas algorítmicos e programação competitiva versus os requisitos abrangentes do desenvolvimento prático de jogos, apresentamos o V-GameGym, um benchmark abrangente composto por 2.219 amostras de alta qualidade em 100 clusters temáticos derivados de repositórios do mundo real, adotando uma metodologia de curadoria baseada em clustering para garantir diversidade e completude estrutural. Além disso, introduzimos um framework de avaliação multimodal com um pipeline automatizado orientado por LLM para síntese visual de código usando ambientes sandbox de UI completos. Nossa análise extensiva revela que o V-GameGym efetivamente preenche a lacuna entre a precisão de geração de código e os fluxos de trabalho práticos de desenvolvimento de jogos, fornecendo métricas quantificáveis de qualidade para programação visual e geração de elementos interativos.
Embora codificações posicionais explícitas, como o RoPE, sejam uma fonte primária de informação posicional em decodificadores Transformer, a máscara causal também fornece informações posicionais. Neste trabalho, demonstramos que a máscara causal pode induzir padrões dependentes de posição nos escores de atenção, mesmo sem parâmetros ou dependência causal na entrada. Nossa análise teórica indica que o padrão de atenção induzido tende a favorecer pares de consulta-chave próximos, refletindo o comportamento de codificações posicionais comuns. A análise empírica confirma que modelos treinados exibem o mesmo comportamento, com parâmetros aprendidos amplificando ainda mais esses padrões. Notavelmente, descobrimos que a interação entre a máscara causal e o RoPE distorce os padrões de escores de atenção relativa do RoPE em padrões não relativos. Observamos consistentemente esse efeito em modelos modernos de linguagem de grande escala, sugerindo a importância de considerar a máscara causal como uma fonte de informação posicional juntamente com codificações posicionais explícitas.
A síntese de cenas internas tornou-se cada vez mais importante com o surgimento da IA Embarcada, que requer ambientes 3D que não apenas sejam visualmente realistas, mas também fisicamente plausíveis e funcionalmente diversos. Embora abordagens recentes tenham avançado a fidelidade visual, elas frequentemente permanecem limitadas a categorias de cenas fixas, carecem de detalhes suficientes em nível de objeto e consistência física, e lutam para se alinhar com instruções complexas do usuário. Neste trabalho, apresentamos o SceneWeaver, uma estrutura agencial reflexiva que unifica diversos paradigmas de síntese de cenas por meio de refinamento iterativo baseado em ferramentas. No cerne do SceneWeaver, um planejador baseado em modelo de linguagem seleciona entre um conjunto de ferramentas extensíveis de geração de cenas, que variam desde modelos generativos baseados em dados até métodos baseados em visão e LLM, guiados por autoavaliação de plausibilidade física, realismo visual e alinhamento semântico com a entrada do usuário. Este design de raciocínio-ação-reflexão em loop fechado permite que o agente identifique inconsistências semânticas, invoque ferramentas específicas e atualize o ambiente ao longo de iterações sucessivas. Experimentos extensivos em tipos de cômodos comuns e de vocabulário aberto demonstram que o SceneWeaver não apenas supera métodos anteriores em métricas físicas, visuais e semânticas, mas também generaliza efetivamente para cenas complexas com instruções diversas, marcando um passo em direção à geração de ambientes 3D de propósito geral. Site do projeto: https://scene-weaver.github.io/.
Modelos de reconstrução 3D baseados em aprendizado, representados pelos Visual Geometry Grounded Transformers (VGGTs), têm alcançado progressos notáveis com o uso de transformadores em larga escala. No entanto, seus custos proibitivos de computação e memória dificultam severamente a implantação no mundo real. A Quantização Pós-Treinamento (PTQ) tornou-se uma prática comum para comprimir e acelerar modelos. Contudo, observamos empiricamente que a PTQ enfrenta obstáculos únicos ao comprimir VGGTs em escala de bilhões: os tokens especiais independentes de dados induzem distribuições de ativação com cauda pesada, enquanto a natureza multivista dos dados 3D torna a seleção de amostras de calibração altamente instável. Este artigo propõe o primeiro framework de Quantização para VGGTs, denominado QuantVGGT. Isso se baseia principalmente em duas contribuições técnicas: Primeiro, introduzimos a Quantização de Granulação Fina com Suavização Dupla, que integra a rotação de Hadamard pré-global e a suavização de canal pós-local para mitigar robustamente as distribuições de cauda pesada e a variância intercanal. Segundo, projetamos a Amostragem Diversificada com Filtragem de Ruído, que filtra outliers por meio de estatísticas de camadas profundas e constrói clusters de calibração diversos e conscientes de quadro para garantir faixas de quantização estáveis. Experimentos abrangentes demonstram que o QuantVGGT alcança resultados de ponta em diferentes benchmarks e larguras de bits, superando o método de quantização genérico anterior com uma grande margem. Destacamos que nosso QuantVGGT de 4 bits pode proporcionar uma redução de memória de 3,7 vezes e uma aceleração de 2,5 vezes na inferência em hardware real, mantendo a precisão de reconstrução acima de 98% de sua contraparte de precisão total. Isso demonstra as vastas vantagens e praticidade do QuantVGGT em cenários com recursos limitados. Nosso código está disponível em https://github.com/wlfeng0509/QuantVGGT.
Os benchmarks avaliados por LLMs (Large Language Models) estão sendo cada vez mais utilizados para avaliar comportamentos complexos de modelos, mas seu projeto introduz modos de falha ausentes nos benchmarks convencionais baseados em verdades absolutas. Argumentamos que, sem objetivos bem definidos e construções verificáveis, as classificações dos benchmarks podem produzir rankings de alta confiança que, na verdade, são em grande parte ruído. Introduzimos dois mecanismos para diagnosticar esses problemas. A adesão esquemática quantifica quanto do veredito geral de um avaliador é explicado pelo esquema de avaliação explícito, revelando variância inexplicada quando os avaliadores se desviam de sua própria rubrica. A validade psicométrica agrega sinais de consistência interna e validade discriminante para quantificar a incerteza irredutível em qualquer execução de benchmark. Aplicando essas ferramentas ao Arena-Hard Auto, encontramos incoerência esquemática severa e colapso de fatores entre avaliadores populares: por exemplo, variância inexplicada excedendo 90% para o DeepSeek-R1-32B e correlações de fatores acima de 0,93 para a maioria dos critérios. Também mostramos que a agregação no estilo ELO usada pelo Arena-Hard Auto colapsa e mascara a incerteza genuína do ranking. Nossos resultados destacam falhas de projeto que comprometem a validade e oferecem princípios acionáveis para a construção de benchmarks avaliados por LLMs com escopo melhor definido e conscientes da confiabilidade. Disponibilizamos nosso código em https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
Modelos de Linguagem de Grande Escala (LLMs) enfrentam desafios computacionais significativos ao processar contextos longos devido à complexidade quadrática da autoatenção. Embora métodos de compressão de contexto suave, que mapeiam o texto de entrada para representações latentes menores, tenham mostrado potencial, sua adoção no mundo real é limitada. As técnicas existentes geralmente comprimem o contexto como uma única unidade, o que resulta em complexidade quadrática de compressão e na incapacidade de reutilizar cálculos em consultas com contextos sobrepostos. Neste trabalho, apresentamos o CompLLM, uma técnica de compressão suave projetada para implantação prática. Em vez de processar o contexto de forma holística, o CompLLM o divide em segmentos e comprime cada um independentemente. Essa escolha de design simples resulta em três propriedades críticas: eficiência, pois a etapa de compressão escala linearmente com o comprimento do contexto; escalabilidade, permitindo que modelos treinados em sequências curtas (por exemplo, 1k tokens) generalizem para contextos de 100k tokens; e reutilização, permitindo que segmentos comprimidos sejam armazenados em cache e reutilizados em diferentes consultas. Nossos experimentos mostram que, com uma taxa de compressão de 2x, em contextos longos, o CompLLM acelera o Tempo para o Primeiro Token (TTFT) em até 4x e reduz o tamanho do cache KV em 50%. Além disso, o CompLLM alcança desempenho comparável ao obtido com o contexto não comprimido, e até o supera em sequências muito longas, demonstrando sua eficácia e utilidade prática.
Modelos de linguagem de grande escala (LLMs) aprimorados por busca avançaram tarefas de busca de informação ao integrar a recuperação na geração, reduzindo a carga cognitiva dos usuários em comparação com sistemas de busca tradicionais. No entanto, eles ainda são insuficientes para atender plenamente às diversas necessidades dos usuários, o que requer reconhecer como a mesma consulta pode refletir diferentes intenções entre os usuários e entregar a informação em formatos preferidos. Embora sistemas recentes como o ChatGPT e o Gemini tentem personalizar as respostas utilizando históricos dos usuários, a avaliação sistemática dessa personalização ainda é pouco explorada. Para preencher essa lacuna, propomos o BESPOKE, um benchmark realista para avaliar a personalização em LLMs aprimorados por busca. O BESPOKE foi projetado para ser realista, coletando históricos de chat e busca diretamente de humanos, e diagnóstico, associando respostas a pontuações detalhadas de preferência e feedback. O benchmark foi construído por meio de anotações humanas de longo prazo e engajamento profundo, onde anotadores contribuíram com seus próprios históricos, criaram consultas com necessidades de informação detalhadas e avaliaram respostas com pontuações e feedback diagnóstico. Utilizando o BESPOKE, realizamos análises sistemáticas que revelam requisitos-chave para uma personalização eficaz em tarefas de busca de informação, fornecendo uma base para avaliação detalhada de LLMs aprimorados por busca personalizados. Nosso código e dados estão disponíveis em https://augustinlib.github.io/BESPOKE/.
Apesar do progresso constante na geração de imagens a partir de layouts, os métodos atuais ainda enfrentam dificuldades com layouts que contêm sobreposições significativas entre caixas delimitadoras. Identificamos dois desafios principais: (1) grandes regiões sobrepostas e (2) instâncias sobrepostas com distinção semântica mínima. Por meio de exemplos qualitativos e análises quantitativas, demonstramos como esses fatores degradam a qualidade da geração. Para avaliar sistematicamente esse problema, introduzimos o OverLayScore, uma nova métrica que quantifica a complexidade das caixas delimitadoras sobrepostas. Nossa análise revela que os benchmarks existentes são tendenciosos para casos mais simples com valores baixos de OverLayScore, limitando sua eficácia na avaliação do desempenho dos modelos em condições mais desafiadoras. Para preencher essa lacuna, apresentamos o OverLayBench, um novo benchmark que apresenta anotações de alta qualidade e uma distribuição equilibrada em diferentes níveis de OverLayScore. Como um passo inicial para melhorar o desempenho em sobreposições complexas, também propomos o CreatiLayout-AM, um modelo ajustado em um conjunto de dados de máscaras amodais cuidadosamente selecionado. Juntas, nossas contribuições estabelecem as bases para uma geração de imagens a partir de layouts mais robusta em cenários realistas e desafiadores. Link do projeto: https://mlpc-ucsd.github.io/OverLayBench.
O raciocínio em vídeo emergiu como uma capacidade crítica para modelos de linguagem multimodal de grande escala (MLLMs), exigindo que os modelos vão além da percepção estática em direção a uma compreensão coerente da dinâmica temporal em cenas complexas. No entanto, os MLLMs existentes frequentemente exibem inconsistência de processo, onde o raciocínio intermediário se desvia da dinâmica do vídeo, mesmo quando a resposta final está correta, comprometendo a interpretabilidade e a robustez. Para abordar essa questão, introduzimos o MOSS-ChatV, um framework de aprendizado por reforço com uma recompensa de processo baseada em Dynamic Time Warping (DTW). Essa recompensa baseada em regras alinha os traços de raciocínio com referências temporalmente fundamentadas, permitindo supervisão eficiente do processo sem modelos de recompensa auxiliares. Além disso, identificamos a previsão de estado dinâmico como uma medida-chave do raciocínio em vídeo e construímos o MOSS-Video, um benchmark com traços de raciocínio anotados, onde a divisão de treinamento é usada para ajustar o MOSS-ChatV e a divisão reservada é mantida para avaliação. O MOSS-ChatV alcança 87,2\% no MOSS-Video (teste) e melhora o desempenho em benchmarks gerais de vídeo, como MVBench e MMVU. O framework consistentemente gera ganhos em diferentes arquiteturas, incluindo Qwen2.5-VL e Phi-2, confirmando sua ampla aplicabilidade. Avaliações com GPT-4o como juiz mostram ainda que o MOSS-ChatV produz traços de raciocínio mais consistentes e estáveis.
Os sistemas tradicionais de recomendação dependem de mecanismos de feedback passivo que limitam os usuários a escolhas simples, como "curtir" e "não curtir". No entanto, esses sinais de baixa granularidade não conseguem capturar as motivações e intenções comportamentais mais sutis dos usuários. Por sua vez, os sistemas atuais também não conseguem distinguir quais atributos específicos dos itens geram satisfação ou insatisfação do usuário, resultando em uma modelagem imprecisa de preferências. Essas limitações fundamentais criam uma lacuna persistente entre as intenções dos usuários e as interpretações do sistema, prejudicando, em última instância, a satisfação do usuário e a eficácia do sistema. Para superar essas limitações, introduzimos o Feed de Recomendação Interativa (IRF, na sigla em inglês), um paradigma pioneiro que permite comandos em linguagem natural dentro dos feeds de recomendação convencionais. Diferente dos sistemas tradicionais, que confinam os usuários a uma influência comportamental implícita e passiva, o IRF oferece controle explícito e ativo sobre as políticas de recomendação por meio de comandos linguísticos em tempo real. Para suportar esse paradigma, desenvolvemos o RecBot, uma arquitetura de agente duplo em que um Agente de Análise transforma expressões linguísticas em preferências estruturadas e um Agente de Planejamento orquestra dinamicamente cadeias de ferramentas adaptativas para ajustes instantâneos das políticas. Para viabilizar a implantação prática, empregamos a destilação de conhecimento aumentada por simulação, alcançando desempenho eficiente enquanto mantemos capacidades de raciocínio robustas. Por meio de extensos experimentos offline e de longo prazo online, o RecBot demonstra melhorias significativas tanto na satisfação do usuário quanto nos resultados de negócios.
Propomos um framework que permite que modelos neurais "pensem enquanto ouvem" sons cotidianos, melhorando assim o desempenho na classificação de áudio. Motivados pelos avanços recentes nas capacidades de raciocínio de grandes modelos de linguagem, abordamos duas questões centrais: (i) como o pensamento pode ser incorporado aos pipelines existentes de classificação de áudio para permitir o raciocínio no espaço de categorias e melhorar o desempenho, e (ii) uma nova arquitetura pode ser projetada desde o início para suportar tanto o pensamento quanto a escalabilidade em tempo de teste? Demonstramos que, em ambos os cenários, nossos modelos exibem uma precisão de classificação aprimorada. Aproveitando a escalabilidade em tempo de teste, observamos ganhos consistentes à medida que o número de traços amostrados aumenta. Além disso, avaliamos dois modelos de raciocínio de código aberto, GPT-OSS-20B e Qwen3-14B, mostrando que, embora tais modelos sejam capazes de raciocínio zero-shot, uma abordagem leve—retreinando apenas a matriz de embeddings de um modelo menor e congelado, como o GPT-2—pode superar o desempenho de modelos de raciocínio baseados em texto com bilhões de parâmetros.
A otimização perceptual é impulsionada principalmente pelo objetivo de fidelidade, que impõe tanto consistência semântica quanto realismo visual geral, enquanto o objetivo adversarial fornece refinamento complementar ao aprimorar a nitidez perceptual e os detalhes de granularidade fina. Apesar de seu papel central, a correlação entre sua eficácia como objetivos de otimização e sua capacidade como métricas de avaliação de qualidade de imagem (IQA, na sigla em inglês) permanece pouco explorada. Neste trabalho, realizamos uma análise sistemática e revelamos uma assimetria inesperada entre otimização e avaliação perceptual: métricas de fidelidade que se destacam em IQA não são necessariamente eficazes para otimização perceptual, com esse desalinhamento surgindo de forma mais distinta sob treinamento adversarial. Além disso, embora discriminadores suprimam efetivamente artefatos durante a otimização, suas representações aprendidas oferecem benefícios limitados quando reutilizadas como inicializações de backbone para modelos de IQA. Além dessa assimetria, nossos achados demonstram ainda que o design do discriminador desempenha um papel decisivo na moldagem da otimização, com arquiteturas em nível de patch e convolucionais fornecendo reconstruções de detalhes mais fiéis do que alternativas convencionais ou baseadas em Transformers. Esses insights avançam a compreensão do design de funções de perda e sua conexão com a transferibilidade de IQA, abrindo caminho para abordagens mais fundamentadas em otimização perceptual.
Soluções End-to-End (E2E) emergiram como uma abordagem predominante para sistemas de condução autônoma, com modelos Visão-Linguagem-Ação (VLA) representando um novo paradigma que aproveita o conhecimento multimodal pré-treinado de Modelos de Visão-Linguagem (VLMs) para interpretar e interagir com ambientes complexos do mundo real. No entanto, esses métodos permanecem limitados pelas restrições do aprendizado por imitação, que luta para codificar regras físicas de forma inerente durante o treinamento. As abordagens existentes frequentemente dependem de refinamentos pós-processados baseados em regras complexas, empregam aprendizado por reforço que permanece amplamente limitado a simulações ou utilizam orientação por difusão que requer cálculos de gradiente computacionalmente caros. Para enfrentar esses desafios, introduzimos o ReflectDrive, uma nova estrutura baseada em aprendizado que integra um mecanismo de reflexão para geração segura de trajetórias via difusão discreta. Primeiro, discretizamos o espaço bidimensional de condução para construir um codebook de ações, permitindo o uso de Modelos de Linguagem de Difusão pré-treinados para tarefas de planejamento por meio de ajuste fino. Central à nossa abordagem é um mecanismo de reflexão consciente da segurança que realiza autocorreção iterativa sem computação de gradiente. Nosso método começa com a geração de trajetórias condicionadas por objetivos para modelar comportamentos de condução multimodais. Com base nisso, aplicamos métodos de busca local para identificar tokens inseguros e determinar soluções viáveis, que então servem como âncoras seguras para regeneração baseada em inpainting. Avaliado no benchmark NAVSIM, o ReflectDrive demonstra vantagens significativas na geração de trajetórias críticas para segurança, oferecendo uma solução escalável e confiável para sistemas de condução autônoma.
A eficácia dos Modelos de Linguagem de Grande Escala (LLMs) é fortemente influenciada pelas estratégias de raciocínio, ou estilos de pensamento, empregados em seus prompts. No entanto, a interação entre esses estilos de raciocínio, a arquitetura do modelo e o tipo de tarefa permanece pouco compreendida. Para abordar isso, introduzimos o StyleBench, um benchmark abrangente para avaliar sistematicamente estilos de raciocínio em diversas tarefas e modelos. Avaliamos cinco estilos de raciocínio representativos, incluindo Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) e Chain-of-Draft (CoD) em cinco tarefas de raciocínio, utilizando 15 modelos de código aberto de famílias principais (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi e DeepSeek) variando de 270M a 120B parâmetros. Nossa análise em larga escala revela que nenhum estilo é universalmente ótimo. Demonstramos que a eficácia da estratégia é altamente dependente tanto da escala do modelo quanto do tipo de tarefa: métodos baseados em busca (AoT, ToT) se destacam em problemas de resposta aberta, mas exigem modelos de grande escala, enquanto estilos concisos (SoT, CoD) alcançam ganhos radicais de eficiência em tarefas bem definidas. Além disso, identificamos padrões comportamentais-chave: modelos menores frequentemente falham em seguir instruções de saída e recorrem a adivinhações, enquanto a robustez do raciocínio emerge como uma função da escala. Nossas descobertas oferecem um roteiro crucial para a seleção de estratégias de raciocínio ideais com base em restrições específicas, e disponibilizamos o benchmark em código aberto em https://github.com/JamesJunyuGuo/Style_Bench.
Este artigo apresenta o Hazard-Aware System Card (HASC), um novo framework projetado para aumentar a transparência e a responsabilidade no desenvolvimento e implantação de sistemas de IA. O HASC expande os conceitos existentes de model cards e system cards ao integrar um registro abrangente e dinâmico da postura de segurança e segurança de um sistema de IA. O framework propõe um sistema padronizado de identificadores, incluindo um novo AI Safety Hazard (ASH) ID, para complementar identificadores de segurança existentes, como CVEs, permitindo uma comunicação clara e consistente de falhas corrigidas. Ao fornecer uma única fonte de verdade acessível, o HASC capacita desenvolvedores e partes interessadas a tomar decisões mais informadas sobre a segurança de sistemas de IA ao longo de seu ciclo de vida. Por fim, também comparamos nossos system cards de IA propostos com o padrão ISO/IEC 42001:2023 e discutimos como eles podem ser usados para se complementarem, proporcionando maior transparência e responsabilidade para sistemas de IA.
Modelos grandes de áudio-linguagem (LALMs, do inglês Large Audio-Language Models) demonstram forte capacidade zero-shot em tarefas de fala, sugerindo potencial para reconhecimento de emoções em fala (SER, do inglês Speech Emotion Recognition). No entanto, o SER em implantações do mundo real frequentemente falha sob incompatibilidade de domínio, onde os dados de origem não estão disponíveis e LALMs poderosos são acessíveis apenas por meio de uma API. Nós questionamos: dado apenas áudio não rotulado do domínio de destino e um LALM acessível apenas por API, um modelo estudante pode ser adaptado para superar o LALM no domínio de destino? Para isso, propomos o MI-Fuse, uma estrutura de fusão de rótulos desnaturada que complementa o LALM com um classificador SER treinado no domínio de origem como um professor auxiliar. A estrutura obtém múltiplas previsões estocásticas de ambos os professores, pondera suas distribuições médias com base na incerteza calculada por informação mútua e estabiliza o treinamento com um professor de média móvel exponencial. Experimentos em três conjuntos de dados públicos de emoções e seis transferências cruzadas de domínio mostram ganhos consistentes, com o estudante superando o LALM e ultrapassando a linha de base mais forte em 3,9%. Essa abordagem fortalece sistemas de fala conscientes de emoções sem compartilhar dados de origem, permitindo uma adaptação realista.
Detectar conteúdo de ódio é um problema desafiador e importante. Ferramentas automatizadas, como modelos de aprendizado de máquina, podem ajudar, mas exigem treinamento contínuo para se adaptar ao cenário em constante mudança das redes sociais. Neste trabalho, avaliamos a capacidade de oito LLMs de código aberto para detectar conteúdo antissemita, especificamente utilizando a definição em contexto como uma diretriz de política. Exploramos várias técnicas de prompt e projetamos um novo prompt semelhante ao CoT, chamado Guided-CoT. O Guided-CoT lida bem com a política em contexto, aumentando o desempenho em todos os modelos avaliados, independentemente da configuração de decodificação, tamanho dos modelos ou capacidade de raciocínio. Notavelmente, o Llama 3.1 70B supera o GPT-3.5 ajustado. Além disso, examinamos os erros dos LLMs e introduzimos métricas para quantificar a divergência semântica nas racionalidades geradas pelos modelos, revelando diferenças notáveis e comportamentos paradoxais entre os LLMs. Nossos experimentos destacam as diferenças observadas na utilidade, explicabilidade e confiabilidade dos LLMs.