Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem baseados em difusão (dLLMs) surgiram recentemente como uma alternativa poderosa aos LLMs autoregressivos, oferecendo inferência mais rápida e maior interatividade por meio de decodificação paralela e modelagem bidirecional. No entanto, apesar do forte desempenho em geração de código e preenchimento de texto, identificamos uma preocupação fundamental de segurança: os mecanismos de alinhamento existentes falham em proteger os dLLMs contra prompts adversariais com entradas mascaradas e conscientes do contexto, expondo novas vulnerabilidades. Para isso, apresentamos o DIJA, o primeiro estudo sistemático e framework de ataque de jailbreak que explora as fraquezas de segurança únicas dos dLLMs. Especificamente, nosso DIJA proposto constrói prompts adversariais intercalados de máscara-texto que exploram os mecanismos de geração de texto dos dLLMs, ou seja, a modelagem bidirecional e a decodificação paralela. A modelagem bidirecional leva o modelo a produzir saídas contextualmente consistentes para trechos mascarados, mesmo quando prejudiciais, enquanto a decodificação paralela limita a filtragem dinâmica e a amostragem de rejeição de conteúdo inseguro pelo modelo. Isso faz com que os mecanismos de alinhamento padrão falhem, permitindo conclusões prejudiciais em dLLMs ajustados para alinhamento, mesmo quando comportamentos prejudiciais ou instruções inseguras são expostos diretamente no prompt. Por meio de experimentos abrangentes, demonstramos que o DIJA supera significativamente os métodos de jailbreak existentes, expondo uma superfície de ameaça previamente negligenciada nas arquiteturas de dLLMs. Notavelmente, nosso método alcança até 100% de ASR baseado em palavras-chave no Dream-Instruct, superando a linha de base anterior mais forte, o ReNeLLM, em até 78,5% no ASR baseado em avaliador no JailbreakBench e em 37,7 pontos no score StrongREJECT, sem exigir reescrita ou ocultação de conteúdo prejudicial no prompt de jailbreak. Nossas descobertas destacam a necessidade urgente de repensar o alinhamento de segurança nesta classe emergente de modelos de linguagem. O código está disponível em https://github.com/ZichenWen1/DIJA.
A síntese de fala em russo apresenta desafios distintos, incluindo redução vocálica, ensurdecimento de consoantes, padrões variáveis de acentuação, ambiguidade de homógrafos e entonação não natural. Este artigo apresenta Balalaika, um novo conjunto de dados que compreende mais de 2.000 horas de fala em russo de qualidade de estúdio, com anotações textuais abrangentes, incluindo pontuação e marcações de acentuação. Resultados experimentais mostram que modelos treinados com Balalaika superam significativamente aqueles treinados em conjuntos de dados existentes, tanto em tarefas de síntese de fala quanto de aprimoramento. Detalhamos o pipeline de construção do conjunto de dados, a metodologia de anotação e os resultados de avaliações comparativas.
Apresentamos Franca (pronunciado Fran-ka): livre um; o primeiro modelo de base de visão totalmente de código aberto (dados, código, pesos) que iguala e, em muitos casos, supera o desempenho de modelos proprietários de última geração, como DINOv2, CLIP, SigLIPv2, etc. Nossa abordagem é fundamentada em um pipeline de treinamento transparente inspirado no Web-SSL e utiliza dados publicamente disponíveis: ImageNet-21K e um subconjunto do ReLAION-2B. Além do lançamento do modelo, abordamos limitações críticas nos métodos de clustering de SSL. Enquanto os modelos modernos dependem da atribuição de características de imagem a grandes codebooks por meio de algoritmos de clustering como Sinkhorn-Knopp, eles falham em considerar a ambiguidade inerente na semântica do clustering. Para resolver isso, introduzimos um projetor de clustering multi-cabeça eficiente em parâmetros, baseado em representações aninhadas de Matryoshka. Esse design refina progressivamente as características em clusters cada vez mais refinados sem aumentar o tamanho do modelo, permitindo tanto desempenho quanto eficiência de memória. Além disso, propomos uma nova estratégia de desembaraço posicional que remove explicitamente vieses posicionais de representações densas, melhorando assim a codificação de conteúdo semântico. Isso resulta em ganhos consistentes em vários benchmarks de tarefas subsequentes, demonstrando a utilidade de espaços de características mais limpos. Nossas contribuições estabelecem um novo padrão para modelos de visão transparentes e de alto desempenho e abrem um caminho para modelos de base mais reproduzíveis e generalizáveis para a comunidade mais ampla de IA. O código e os checkpoints do modelo estão disponíveis em https://github.com/valeoai/Franca.
Na era dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), o alinhamento surgiu como um problema fundamental, porém desafiador, na busca por uma inteligência artificial mais confiável, controlável e capaz. O sucesso recente de modelos de raciocínio e sistemas de IA conversacional destacou o papel crítico do aprendizado por reforço (RL, na sigla em inglês) no aprimoramento desses sistemas, impulsionando um maior interesse de pesquisa na interseção entre RL e o alinhamento de LLMs. Este artigo oferece uma revisão abrangente dos avanços recentes no alinhamento de LLMs sob a perspectiva do aprendizado por reforço inverso (IRL, na sigla em inglês), enfatizando as distinções entre as técnicas de RL empregadas no alinhamento de LLMs e aquelas em tarefas convencionais de RL. Em particular, destacamos a necessidade de construir modelos de recompensa neural a partir de dados humanos e discutimos as implicações formais e práticas dessa mudança de paradigma. Começamos introduzindo conceitos fundamentais de RL para fornecer uma base para leitores não familiarizados com o campo. Em seguida, examinamos os avanços recentes nessa agenda de pesquisa, discutindo desafios e oportunidades-chave na realização de IRL para o alinhamento de LLMs. Além de considerações metodológicas, exploramos aspectos práticos, incluindo conjuntos de dados, benchmarks, métricas de avaliação, infraestrutura e técnicas computacionalmente eficientes de treinamento e inferência. Por fim, extraímos insights da literatura sobre RL com recompensas esparsas para identificar questões em aberto e possíveis direções de pesquisa. Ao sintetizar descobertas de diversos estudos, nosso objetivo é fornecer uma visão estruturada e crítica do campo, destacar desafios não resolvidos e delinear direções futuras promissoras para melhorar o alinhamento de LLMs por meio de técnicas de RL e IRL.
Desvincular conteúdo e estilo a partir de uma única imagem, conhecido como decomposição conteúdo-estilo (CSD, na sigla em inglês), permite a recontextualização do conteúdo extraído e a estilização dos estilos extraídos, oferecendo maior flexibilidade criativa na síntese visual. Embora métodos recentes de personalização tenham explorado a decomposição explícita de conteúdo e estilo, eles permanecem adaptados para modelos de difusão. Enquanto isso, a Modelagem Autoregressiva Visual (VAR, na sigla em inglês) surgiu como uma alternativa promissora com um paradigma de previsão em escala seguinte, alcançando desempenho comparável ao dos modelos de difusão. Neste artigo, exploramos a VAR como uma estrutura gerativa para CSD, aproveitando seu processo de geração em escala para melhorar a desvinculação. Para isso, propomos o CSD-VAR, um método novo que introduz três inovações principais: (1) uma estratégia de otimização alternada consciente da escala que alinha as representações de conteúdo e estilo com suas respectivas escalas para aprimorar a separação, (2) um método de retificação baseado em SVD para mitigar o vazamento de conteúdo nas representações de estilo, e (3) uma memória Chave-Valor (K-V) Aumentada que melhora a preservação da identidade do conteúdo. Para avaliar essa tarefa, introduzimos o CSD-100, um conjunto de dados especificamente projetado para decomposição conteúdo-estilo, apresentando diversos temas renderizados em vários estilos artísticos. Experimentos demonstram que o CSD-VAR supera abordagens anteriores, alcançando preservação de conteúdo e fidelidade de estilização superiores.
Este artigo foca em Modelos de Linguagem Multimodais Monolíticos (MLLMs), que integram codificação visual e decodificação de linguagem em um único modelo. As estruturas e estratégias de pré-treinamento existentes para MLLMs monolíticos frequentemente sofrem com otimização instável e esquecimento catastrófico. Para abordar esses desafios, nossa ideia principal é incorporar um novo espaço de parâmetros visuais em um LLM pré-treinado, permitindo o aprendizado estável de conhecimento visual a partir de dados ruidosos via ajuste delta. Com base nesse princípio, primeiro introduzimos o Mono-InternVL, um MLLM monolítico avançado que incorpora um conjunto de especialistas visuais por meio de uma arquitetura multimodal de mistura de especialistas. Além disso, projetamos um pré-treinamento visual endógeno inovador (EViP) para o Mono-InternVL, a fim de maximizar suas capacidades visuais por meio de aprendizado progressivo. O Mono-InternVL alcança desempenho competitivo em comparação com MLLMs existentes, mas também resulta em um custo de dados relativamente alto. Portanto, apresentamos ainda o Mono-InternVL-1.5, um MLLM monolítico mais barato e mais forte, equipado com um EViP aprimorado (EViP++). O EViP++ introduz especialistas adicionais de atenção visual ao Mono-InternVL-1.5 e reorganiza o processo de pré-treinamento de maneira eficiente. Durante a inferência, ele inclui um kernel CUDA fundido para acelerar suas operações de MoE. Com esses projetos, o Mono-InternVL-1.5 reduz significativamente os custos de treinamento e inferência, mantendo ainda um desempenho competitivo com o Mono-InternVL. Para avaliar nossa abordagem, realizamos extensos experimentos em 15 benchmarks. Os resultados demonstram que o Mono-InternVL supera os MLLMs monolíticos existentes em 12 dos 15 benchmarks, por exemplo, uma melhoria de +114 pontos sobre o Emu3 no OCRBench. Em comparação com sua contraparte modular, ou seja, o InternVL-1.5, o Mono-InternVL-1.5 alcança desempenho multimodal similar enquanto reduz a latência do primeiro token em até 69%. Códigos e modelos são disponibilizados em https://github.com/OpenGVLab/Mono-InternVL.
A previsão de tokens mascarados emergiu como um objetivo poderoso de pré-treinamento em linguagem, visão e fala, oferecendo o potencial de unificar essas diversas modalidades por meio de uma única tarefa de pré-treinamento. No entanto, sua aplicação para o entendimento geral de áudio permanece pouco explorada, com BEATs sendo o único exemplo notável. BEATs teve modificações limitadas devido à ausência de código aberto de pré-treinamento. Além disso, BEATs foi treinado apenas no AudioSet, restringindo sua aplicabilidade mais ampla em tarefas subsequentes. Para abordar essas lacunas, apresentamos OpenBEATs, uma estrutura de código aberto que estende BEATs por meio de pré-treinamento de áudio em múltiplos domínios. Realizamos avaliações abrangentes em seis tipos de tarefas, vinte e cinco conjuntos de dados e três domínios de áudio, incluindo tarefas de raciocínio de áudio, como resposta a perguntas, implicação e legendagem de áudio. OpenBEATs alcança desempenho de ponta em seis conjuntos de dados de bioacústica, dois conjuntos de dados de sons ambientais e cinco conjuntos de dados de raciocínio, superando modelos com mais de um bilhão de parâmetros com apenas um quarto do tamanho de seus parâmetros. Esses resultados demonstram a eficácia de conjuntos de dados de múltiplos domínios e da tarefa de previsão de tokens mascarados para aprender representações de áudio de propósito geral. Para promover mais pesquisas e reprodutibilidade, disponibilizamos todo o código de pré-treinamento e avaliação, checkpoints pré-treinados e ajustados, e logs de treinamento em https://shikhar-s.github.io/OpenBEATs.
Modelos de linguagem multimodal de grande escala (MLLMs) revolucionaram o entendimento entre modalidades, mas continuam a enfrentar desafios com alucinações - conteúdo fabricado que contradiz as entradas visuais. Os métodos existentes para mitigação de alucinações ou incorrem em custos computacionais proibitivos ou introduzem discrepâncias de distribuição entre os dados de treinamento e as saídas do modelo. Identificamos uma percepção crítica: as alucinações predominantemente surgem nos estágios iniciais da geração de texto e se propagam através das saídas subsequentes. Para abordar isso, propomos **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), uma estrutura que elimina a dependência de anotações humanas. Especificamente, primeiro inicializamos pares de preferência de alta qualidade no domínio, iterativamente amostrando as saídas do modelo, validando a existência de objetos através de verificação cruzada com dois detectores de vocabulário aberto, e classificando frases em categorias alucinadas/não alucinadas. Posteriormente, usamos amostras positivas coerentes com o contexto e amostras negativas alucinadas para construir dados de preferência conscientes do contexto iterativamente. Finalmente, treinamos os modelos usando uma função de perda de preferência consciente do contexto (C-DPO) que enfatiza o aprendizado discriminativo no nível da frase, onde as alucinações inicialmente se manifestam. Resultados experimentais mostram que o SENTINEL pode reduzir alucinações em mais de 90\% em comparação com o modelo original e supera o método anterior de última geração tanto em benchmarks de alucinação quanto em benchmarks de capacidades gerais, demonstrando sua superioridade e capacidade de generalização. Os modelos, conjuntos de dados e código estão disponíveis em https://github.com/pspdada/SENTINEL.
Como principal meio de disseminação de informações na era moderna, os serviços de redes sociais (SNS) têm experimentado um crescimento acelerado, o que tem apresentado desafios significativos para a gestão de conteúdo nas plataformas e a melhoria da qualidade das interações. Recentemente, o desenvolvimento de modelos de linguagem de grande escala (LLMs) tem oferecido soluções potenciais, mas os estudos existentes focam em tarefas isoladas, que não apenas enfrentam benefícios decrescentes com o escalonamento de dados em cenários individuais, mas também falham em se adaptar de forma flexível a diversos contextos do mundo real. Para enfrentar esses desafios, apresentamos o RedOne, um LLM específico para domínio, projetado para superar o gargalo de desempenho das abordagens de tarefa única e estabelecer uma base abrangente para os SNS. O RedOne foi desenvolvido por meio de uma estratégia de treinamento em três etapas, consistindo em pré-treinamento contínuo, ajuste fino supervisionado e otimização de preferências, utilizando um extenso conjunto de dados do mundo real. Por meio de experimentos extensivos, o RedOne mantém capacidades gerais robustas e alcança uma melhoria média de até 14,02% em 8 tarefas principais de SNS e 7,56% no benchmark de avaliação bilíngue de SNS, em comparação com os modelos base. Além disso, por meio de testes online, o RedOne reduziu a taxa de exposição na detecção de conteúdo prejudicial em 11,23% e melhorou a taxa de cliques na busca pós-visualização em 14,95%, em comparação com modelos de linha de base ajustados para tarefas únicas. Esses resultados estabelecem o RedOne como um LLM robusto e específico para SNS, demonstrando excelente generalização em várias tarefas e aplicabilidade promissora em cenários do mundo real.
A avaliação de modelos de linguagem de grande escala é uma tarefa complexa, na qual várias abordagens foram propostas. A mais comum é o uso de benchmarks automatizados, nos quais os LLMs precisam responder a perguntas de múltipla escolha sobre diferentes tópicos. No entanto, esse método apresenta certas limitações, sendo a mais preocupante a baixa correlação com os humanos. Uma abordagem alternativa é ter humanos avaliando os LLMs. Isso traz problemas de escalabilidade, já que há um número grande e crescente de modelos a serem avaliados, tornando impraticável (e custoso) realizar estudos tradicionais baseados no recrutamento de avaliadores e na classificação das respostas dos modelos. Uma abordagem alternativa é o uso de arenas públicas, como a popular LM arena, na qual qualquer usuário pode avaliar livremente modelos em qualquer pergunta e classificar as respostas de dois modelos. Os resultados são então elaborados em um ranking de modelos. Um aspecto cada vez mais importante dos LLMs é seu consumo de energia e, portanto, avaliar como a conscientização energética influencia as decisões dos humanos na seleção de um modelo é de interesse. Neste artigo, apresentamos a GEA, a Generative Energy Arena, uma arena que incorpora informações sobre o consumo de energia do modelo no processo de avaliação. Resultados preliminares obtidos com a GEA também são apresentados, mostrando que, para a maioria das perguntas, quando os usuários estão cientes do consumo de energia, eles favorecem modelos menores e mais eficientes em termos energéticos. Isso sugere que, para a maioria das interações dos usuários, o custo e a energia adicionais incorridos pelos modelos mais complexos e de alto desempenho não proporcionam um aumento na qualidade percebida das respostas que justifique seu uso.
Esta pesquisa apresenta um framework para gestão quantitativa de risco em mercados voláteis, com foco específico em metodologias baseadas em expectis aplicadas ao índice FTSE 100. Medidas tradicionais de risco, como o Value-at-Risk (VaR), demonstraram limitações significativas durante períodos de estresse de mercado, como evidenciado durante a crise financeira de 2008 e subsequentes períodos voláteis. Este estudo desenvolve um framework avançado baseado em expectis que aborda as deficiências das abordagens convencionais baseadas em quantis, proporcionando maior sensibilidade a perdas extremas e melhor estabilidade em condições de mercado extremas. A pesquisa utiliza um conjunto de dados que abrange duas décadas de retornos do FTSE 100, incorporando períodos de alta volatilidade, quedas de mercado e fases de recuperação. Nossa metodologia introduz novas formulações matemáticas para modelos de regressão de expectis, técnicas aprimoradas de determinação de limiares utilizando análise de séries temporais e procedimentos robustos de backtesting. Os resultados empíricos demonstram que o Value-at-Risk baseado em expectis (EVaR) supera consistentemente as medidas tradicionais de VaR em vários níveis de confiança e condições de mercado. O framework exibe desempenho superior durante períodos voláteis, com risco de modelo reduzido e precisão preditiva aprimorada. Além disso, o estudo estabelece diretrizes práticas para implementação em instituições financeiras e fornece recomendações baseadas em evidências para conformidade regulatória e gestão de portfólios. Os achados contribuem significativamente para a literatura sobre gestão de risco financeiro e oferecem ferramentas práticas para profissionais que lidam com ambientes de mercado voláteis.