Artigos de pesquisa em IA selecionados diariamente com traduções
As salientes capacidades multimodais e a experiência interativa do GPT-4o destacam o seu papel crítico em aplicações práticas, no entanto, ele carece de um equivalente de código aberto de alto desempenho. Neste artigo, apresentamos o Baichuan-Omni, o primeiro Modelo de Linguagem Multimodal Grande (MLLM) de 7B de código aberto capaz de processar e analisar modalidades de imagem, vídeo, áudio e texto simultaneamente, proporcionando uma experiência interativa multimodal avançada e alto desempenho. Propomos um esquema de treinamento multimodal eficaz começando com o modelo de 7B e passando por duas etapas de alinhamento multimodal e ajuste fino multitarefa em áudio, imagem, vídeo e texto. Esta abordagem capacita o modelo de linguagem a lidar eficazmente com dados visuais e de áudio. Demonstrando alto desempenho em diversos benchmarks omni-modais e multimodais, almejamos que esta contribuição sirva como uma linha de base competitiva para a comunidade de código aberto no avanço da compreensão multimodal e interação em tempo real.
Modelos de difusão, como a Difusão Estável, avançaram significativamente na geração visual, no entanto, seu paradigma permanece fundamentalmente diferente dos modelos de linguagem autoregressivos, o que complica o desenvolvimento de modelos unificados de linguagem-visão. Esforços recentes, como o LlamaGen, tentaram a geração de imagens autoregressivas usando tokens discretos VQVAE, mas o grande número de tokens envolvidos torna esse método ineficiente e lento. Neste trabalho, apresentamos o Meissonic, que eleva a modelagem de imagens mascaradas não autoregressivas (MIM) texto-para-imagem a um nível comparável aos modelos de difusão de última geração, como o SDXL. Ao incorporar uma ampla gama de inovações arquiteturais, estratégias avançadas de codificação posicional e condições de amostragem otimizadas, o Meissonic melhora substancialmente o desempenho e a eficiência do MIM. Além disso, aproveitamos dados de treinamento de alta qualidade, integramos microcondições informadas por pontuações de preferência humana e utilizamos camadas de compressão de características para aprimorar ainda mais a fidelidade e a resolução da imagem. Nosso modelo não apenas iguala, mas muitas vezes supera o desempenho de modelos existentes como o SDXL na geração de imagens de alta qualidade e alta resolução. Experimentos extensivos validam as capacidades do Meissonic, demonstrando seu potencial como um novo padrão na síntese de texto-para-imagem. Disponibilizamos um ponto de verificação do modelo capaz de produzir imagens de resolução 1024 vezes 1024.
A geração aumentada por recuperação (RAG) é um meio fundamental para aprimorar efetivamente os grandes modelos de linguagem (LLMs) em muitas tarefas baseadas em conhecimento. No entanto, os métodos de RAG existentes enfrentam dificuldades em tarefas de raciocínio intensivo em conhecimento, pois as informações úteis necessárias para essas tarefas estão dispersas de forma desordenada. Essa característica torna difícil para os métodos de RAG existentes identificar com precisão informações-chave e realizar raciocínio global com tal aumento ruidoso. Neste artigo, motivados pelas teorias cognitivas de que os humanos convertem informações brutas em vários conhecimentos estruturados ao lidar com raciocínio intensivo em conhecimento, propomos um novo framework, StructRAG, que pode identificar o tipo de estrutura ideal para a tarefa em questão, reconstruir documentos originais nesse formato estruturado e inferir respostas com base na estrutura resultante. Experimentos extensivos em várias tarefas intensivas em conhecimento mostram que o StructRAG alcança desempenho de ponta, destacando-se especialmente em cenários desafiadores, demonstrando seu potencial como uma solução eficaz para aprimorar LLMs em aplicações do mundo real complexas.
Os modelos de linguagem com visão ampla (VLMs) combinam grandes modelos de linguagem com codificadores de visão, demonstrando promessa em várias tarefas. No entanto, muitas vezes apresentam desempenho inferior em aplicações específicas devido a lacunas de domínio entre o pré-treinamento e o ajuste fino. Apresentamos o VITask, um novo framework que aprimora a adaptabilidade específica da tarefa dos VLMs integrando modelos específicos da tarefa (TSMs). O VITask emprega três estratégias-chave: estímulo de exemplar (EP), alinhamento de distribuição de respostas (RDA) e ajuste de respostas contrastivas (CRT) para melhorar o desempenho específico da tarefa dos VLMs ajustando suas distribuições de respostas. O EP permite que as características do TSM guiem os VLMs, enquanto o RDA permite que os VLMs se adaptem sem os TSMs durante a inferência, aprendendo com modelos estimulados por exemplares. O CRT otimiza ainda mais a classificação de pares corretos de imagem-resposta, reduzindo assim o risco de gerar respostas indesejadas. Experimentos em 12 conjuntos de dados de diagnóstico médico em 9 modalidades de imagem mostram que o VITask supera tanto os VLMs ajustados por instrução simples quanto os TSMs, demonstrando sua capacidade de integrar efetivamente características complementares de ambos os modelos. Além disso, o VITask oferece vantagens práticas, como integração flexível de TSM e robustez a instruções incompletas, tornando-o uma solução versátil e eficiente para ajuste de VLM específico da tarefa. Nosso código está disponível em https://github.com/baiyang4/VITask.
A seleção eficiente de dados é crucial para acelerar o pré-treinamento de grandes modelos de linguagem (LLMs). Embora vários métodos tenham sido propostos para aprimorar a eficiência dos dados, poucas pesquisas abordaram os conflitos inerentes entre essas abordagens para alcançar uma seleção de dados ideal para o pré-treinamento de LLMs. Para enfrentar esse problema, propomos um novo mecanismo de seleção de dados colaborativo multiagente. Neste framework, cada método de seleção de dados atua como um agente independente, e um console de agente é projetado para integrar dinamicamente as informações de todos os agentes ao longo do processo de treinamento do LLM. Realizamos extensivos estudos empíricos para avaliar nosso framework multiagente. Os resultados experimentais demonstram que nossa abordagem melhora significativamente a eficiência dos dados, acelera a convergência no treinamento do LLM e alcança um ganho médio de desempenho de 10,5% em múltiplos benchmarks de modelos de linguagem em comparação com os métodos de ponta.
Compreender como as características evoluem através das camadas em redes neurais profundas é um desafio fundamental em interpretabilidade mecanicista, especialmente devido à polissemia e sobreposição de características. Enquanto Autoencoders Esparsos (SAEs) têm sido usados para extrair características interpretáveis de camadas individuais, alinhar essas características entre camadas tem permanecido um problema em aberto. Neste artigo, apresentamos o SAE Match, um método inovador e sem necessidade de dados para alinhar características de SAE em diferentes camadas de uma rede neural. Nossa abordagem envolve combinar características minimizando o erro quadrático médio entre os parâmetros dobrados dos SAEs, uma técnica que incorpora limiares de ativação nos pesos do codificador e decodificador para considerar diferenças nas escalas das características. Através de experimentos extensivos no modelo de linguagem Gemma 2, demonstramos que nosso método captura efetivamente a evolução das características entre camadas, melhorando a qualidade do alinhamento das características. Também mostramos que as características persistem por várias camadas e que nossa abordagem pode aproximar estados ocultos entre camadas. Nosso trabalho avança a compreensão da dinâmica das características em redes neurais e fornece uma nova ferramenta para estudos de interpretabilidade mecanicista.
Os avanços recentes em modelos de geração têm demonstrado capacidades notáveis na criação de conteúdo fantástico. No entanto, a maioria deles é treinada em dados proprietários de alta qualidade, e alguns modelos retêm seus parâmetros, disponibilizando apenas interfaces de programação de aplicativos (APIs) acessíveis, limitando seus benefícios para tarefas subsequentes. Para explorar a viabilidade de treinar um modelo de geração de texto para imagem comparável aos modelos avançados usando recursos publicamente disponíveis, apresentamos o EvolveDirector. Este framework interage com modelos avançados por meio de suas APIs públicas para obter pares de dados texto-imagem para treinar um modelo base. Nossos experimentos com dados extensivos indicam que o modelo treinado em dados gerados pelo modelo avançado pode se aproximar de sua capacidade de geração. No entanto, isso requer amostras em larga escala de 10 milhões ou mais. Isso acarreta despesas significativas em tempo, recursos computacionais e especialmente os custos associados à chamada de APIs pagas. Para lidar com esse problema, aproveitamos modelos pré-treinados de visão-linguagem (VLMs) de grande escala para orientar a evolução do modelo base. O VLM avalia continuamente o modelo base durante o treinamento e atualiza e refina dinamicamente o conjunto de dados de treinamento por meio de operações de discriminação, expansão, exclusão e mutação. Resultados experimentais mostram que esse paradigma reduz significativamente o volume de dados necessário. Além disso, ao se aproximar de vários modelos avançados, o EvolveDirector pode selecionar as melhores amostras geradas por eles para aprender habilidades poderosas e equilibradas. O modelo treinado final, Edgen, é demonstrado superar esses modelos avançados. O código e os pesos do modelo estão disponíveis em https://github.com/showlab/EvolveDirector.
Grandes modelos de linguagem (LLMs) como GPT-4, PaLM e LLaMA têm demonstrado melhorias significativas em várias tarefas de raciocínio. No entanto, modelos menores como Llama-3-8B e DeepSeekMath-Base ainda enfrentam dificuldades com o raciocínio matemático complexo, pois falham em identificar e corrigir efetivamente erros de raciocínio. Métodos recentes baseados em reflexão buscam abordar essas questões, permitindo a autorreflexão e autocorreção, mas ainda enfrentam desafios na detecção independente de erros em seus passos de raciocínio. Para superar essas limitações, propomos o SuperCorrect, um novo framework em duas etapas que utiliza um grande modelo professor para supervisionar e corrigir tanto os processos de raciocínio quanto de reflexão de um modelo aluno menor. Na primeira etapa, extraímos modelos de pensamento hierárquicos de alto nível e detalhados do modelo professor para orientar o modelo aluno na elicitação de pensamentos de raciocínio mais refinados. Na segunda etapa, introduzimos a otimização de preferência direta colaborativa entre modelos (DPO) para aprimorar as habilidades de autocorreção do modelo aluno, seguindo os rastros de correção do professor durante o treinamento. Essa abordagem de DPO entre modelos ensina o modelo aluno a localizar e resolver efetivamente pensamentos errôneos com insights orientados por erros do modelo professor, rompendo o gargalo de seus pensamentos e adquirindo novas habilidades e conhecimentos para lidar com problemas desafiadores. Experimentos extensivos demonstram consistentemente nossa superioridade em relação a métodos anteriores. Notavelmente, nosso modelo SuperCorrect-7B supera significativamente o poderoso DeepSeekMath-7B em 7,8%/5,3% e o Qwen2.5-Math-7B em 15,1%/6,3% nos benchmarks MATH/GSM8K, alcançando um novo desempenho de SOTA entre todos os modelos 7B. Código: https://github.com/YangLing0818/SuperCorrect-llm
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram impressionantes capacidades em diversos domínios, incluindo interpretação de papéis, escrita criativa, raciocínio matemático e codificação. Apesar desses avanços, os LLMs ainda enfrentam desafios com o controle de comprimento, frequentemente falhando em aderir a restrições específicas de comprimento devido às suas operações a nível de token e treinamento insuficiente em dados com limitações rígidas de comprimento. Identificamos esse problema como decorrente de uma falta de consciência posicional e propomos abordagens inovadoras - Estímulo de Identificação de Posição (PositionID Prompting) e Ajuste Fino de Identificação de Posição (PositionID Fine-Tuning) - para abordá-lo. Esses métodos aprimoram a capacidade do modelo de monitorar e gerenciar continuamente o comprimento do texto durante a geração. Além disso, introduzimos o Estímulo de CP de Identificação de Posição (PositionID CP Prompting) para permitir que os LLMs realizem operações de copiar e colar com precisão. Além disso, desenvolvemos dois benchmarks para avaliar o controle de comprimento e as habilidades de copiar e colar. Nossos experimentos demonstram que nossos métodos melhoram significativamente a adesão do modelo às restrições de comprimento e a precisão de copiar e colar sem comprometer a qualidade da resposta.
A geração de ativos 3D de alta qualidade a partir de descrições textuais continua a ser um desafio fundamental na pesquisa de gráficos computacionais e visão. Devido à escassez de dados 3D, abordagens de ponta utilizam priores de difusão 2D pré-treinados, otimizados por meio de Amostragem de Difusão de Pontuação (SDS). Apesar do progresso, criar cenas 3D complexas com vários objetos ou interações intricadas ainda é difícil. Para lidar com isso, métodos recentes têm incorporado orientações de caixa ou layout. No entanto, esses métodos composicionais orientados por layout frequentemente têm dificuldade em fornecer controle detalhado, pois geralmente são grosseiros e carentes de expressividade. Para superar esses desafios, apresentamos uma nova abordagem SDS, Amostragem de Difusão de Pontuação Semântica (SemanticSDS), projetada para melhorar efetivamente a expressividade e precisão da geração de texto para 3D. Nossa abordagem integra novas incorporações semânticas que mantêm consistência em diferentes visualizações de renderização e diferenciam claramente entre vários objetos e partes. Essas incorporações são transformadas em um mapa semântico, que direciona um processo de SDS específico da região, permitindo otimização precisa e geração composicional. Ao alavancar orientações semânticas explícitas, nosso método desbloqueia as capacidades composicionais de modelos de difusão pré-treinados existentes, alcançando assim uma qualidade superior na geração de conteúdo 3D, especialmente para objetos e cenas complexas. Resultados experimentais demonstram que nosso framework SemanticSDS é altamente eficaz para gerar conteúdo 3D complexo de última geração. Código: https://github.com/YangLing0818/SemanticSDS-3D
A inferência com modelos de linguagem baseados em transformadores começa com uma etapa de processamento do prompt. Nesta etapa, o modelo gera o primeiro token de saída e armazena o cache KV necessário para futuras etapas de geração. Esta etapa de processamento do prompt pode ser computacionalmente cara, levando dezenas de segundos ou mais para modelos de bilhões de parâmetros em dispositivos de borda quando os comprimentos dos prompts ou os tamanhos dos lotes aumentam. Isso degrada a experiência do usuário ao introduzir uma latência significativa nas saídas do modelo. Para reduzir o tempo gasto na produção do primeiro resultado (conhecido como "tempo para o primeiro token", ou TTFT) de um modelo pré-treinado, introduzimos um método inovador chamado Predição KV. Em nosso método, um pequeno modelo auxiliar é usado para processar o prompt e produzir uma aproximação do cache KV usado por um modelo base. Este cache KV aproximado é então usado com o modelo base para geração autoregressiva sem a necessidade de consultar novamente o modelo auxiliar. Demonstramos que nosso método produz uma troca eficiência-precisão pareto-ótima quando comparado com baselines. No TriviaQA, demonstramos melhorias relativas de precisão na faixa de 15%-50% em uma variedade de orçamentos de FLOPs de TTFT. Também demonstramos melhorias de precisão de até 30% na conclusão de código Python HumanEval em orçamentos de FLOPs de TTFT fixos. Além disso, avaliamos modelos em uma CPU Apple M2 Pro e demonstramos que nossa melhoria em FLOPs se traduz em uma aceleração de TTFT no hardware. Disponibilizamos nosso código em https://github.com/apple/corenet/tree/main/projects/kv-prediction.
A difusão discreta alcançou desempenho de ponta, superando ou se aproximando de modelos autorregressivos em benchmarks padrão. Neste trabalho, apresentamos a Difusão Discreta com Desnublamento Planejado (DDPD), um novo framework que separa o processo de geração em dois modelos: um planejador e um desnublador. No momento da inferência, o planejador seleciona quais posições desnublar a seguir, identificando as posições mais corrompidas que necessitam de desnublamento, incluindo aquelas inicialmente corrompidas e aquelas que requerem refinamento adicional. Essa abordagem de planejamento e desnublamento permite uma reconstrução mais eficiente durante a geração, identificando e desnublando iterativamente as corrupções na ordem ótima. A DDPD supera os métodos tradicionais de difusão de máscara apenas com desnublador, alcançando resultados superiores em benchmarks de modelagem de linguagem, como text8, OpenWebText e geração baseada em token no ImageNet 256 vezes 256. Notavelmente, na modelagem de linguagem, a DDPD reduz significativamente a diferença de desempenho entre métodos baseados em difusão e autorregressivos em termos de perplexidade generativa. O código está disponível em https://github.com/liusulin/DDPD.
Apresentamos o ZeroComp, uma abordagem eficaz de composição de objetos 3D sem a necessidade de imagens de cena compostas em pares durante o treinamento. Nosso método aproveita o ControlNet para condicionar a partir de imagens intrínsecas e combina-o com um modelo de Difusão Estável para utilizar seus conhecimentos prévios de cena, operando juntos como um mecanismo de renderização eficaz. Durante o treinamento, o ZeroComp utiliza imagens intrínsecas baseadas em geometria, albedo e sombreamento mascarado, tudo isso sem a necessidade de imagens em pares de cenas com e sem objetos compostos. Uma vez treinado, ele integra perfeitamente objetos virtuais 3D em cenas, ajustando o sombreamento para criar composições realistas. Desenvolvemos um conjunto de dados de avaliação de alta qualidade e demonstramos que o ZeroComp supera os métodos que utilizam estimativas de iluminação explícitas e técnicas generativas em benchmarks quantitativos e de percepção humana. Além disso, o ZeroComp se estende à composição de imagens reais e ao ar livre, mesmo quando treinado exclusivamente em dados sintéticos internos, demonstrando sua eficácia na composição de imagens.
Os Transformadores de Fluxo Retificado (RFTs) oferecem uma eficiência superior em treinamento e inferência, tornando-os provavelmente a direção mais viável para ampliar modelos de difusão. No entanto, o progresso na resolução de geração tem sido relativamente lento devido à qualidade dos dados e aos custos de treinamento. A extrapolação de resolução sem ajuste apresenta uma alternativa, mas os métodos atuais frequentemente reduzem a estabilidade generativa, limitando a aplicação prática. Neste artigo, revisamos os métodos existentes de extrapolação de resolução e introduzimos o framework I-Max para maximizar o potencial de resolução dos RFTs de Texto-para-Imagem. O I-Max apresenta: (i) uma estratégia de Fluxo Projetado inovadora para extrapolação estável e (ii) um conjunto avançado de ferramentas de inferência para generalizar o conhecimento do modelo para resoluções mais altas. Experimentos com Lumina-Next-2K e Flux.1-dev demonstram a capacidade do I-Max de aprimorar a estabilidade na extrapolação de resolução e mostram que ele pode trazer a emergência de detalhes de imagem e a correção de artefatos, confirmando o valor prático da extrapolação de resolução sem ajuste.
Apresentamos o DA-Code, um benchmark de geração de código especificamente projetado para avaliar LLMs em tarefas de ciência de dados baseadas em agentes. Este benchmark apresenta três elementos principais: Primeiro, as tarefas dentro do DA-Code são inerentemente desafiadoras, diferenciando-se das tradicionais tarefas de geração de código e exigindo habilidades avançadas de codificação em fundamentação e planejamento. Em segundo lugar, os exemplos no DA-Code são todos baseados em dados reais e diversos, abrangendo uma ampla gama de tarefas complexas de manipulação e análise de dados. Terceiro, para resolver as tarefas, os modelos devem utilizar linguagens de programação complexas de ciência de dados, para realizar processamento de dados intricado e derivar as respostas. Configuramos o benchmark em um ambiente controlável e executável que se alinha com cenários reais de análise de dados e é escalável. Os anotadores projetam meticulosamente a suíte de avaliação para garantir a precisão e robustez da avaliação. Desenvolvemos a linha de base do DA-Agent. Experimentos mostram que, embora a linha de base tenha um desempenho melhor do que outros frameworks existentes, o uso dos atuais melhores LLMs alcança apenas 30,5% de precisão, deixando amplo espaço para melhorias. Disponibilizamos nosso benchmark em https://da-code-bench.github.io.
A proliferação de conteúdo inflamatório ou enganoso de "fake news" tornou-se cada vez mais comum nos últimos anos. Simultaneamente, tornou-se mais fácil do que nunca usar ferramentas de IA para gerar imagens fotorrealistas representando qualquer cena imaginável. Combinar esses dois elementos - conteúdo de "fake news" gerado por IA - é particularmente potente e perigoso. Para combater a disseminação de notícias falsas geradas por IA, propomos o Conjunto de Dados MiRAGeNews, um conjunto de dados com 12.500 pares de imagens e legendas de alta qualidade reais e gerados por IA a partir de geradores de última geração. Descobrimos que nosso conjunto de dados representa um desafio significativo para humanos (60% F-1) e para modelos de linguagem com múltiplos modais de última geração (< 24% F-1). Usando nosso conjunto de dados, treinamos um detector multimodal (MiRAGe) que melhora em +5,1% o F-1 em relação aos baselines de última geração em pares de imagens e legendas de geradores de imagens e publicadores de notícias fora do domínio. Disponibilizamos nosso código e dados para auxiliar trabalhos futuros na detecção de conteúdo gerado por IA.
Gerar respostas diversas a partir de grandes modelos de linguagem (LLMs) é crucial para aplicações como planejamento/busca e geração de dados sintéticos, onde a diversidade proporciona respostas distintas entre gerações. Abordagens anteriores dependem do aumento da temperatura para aumentar a diversidade. No entanto, ao contrário do que se acredita, mostramos que não apenas essa abordagem produz gerações individuais de menor qualidade à medida que a temperatura aumenta, mas também depende das probabilidades do próximo token do modelo serem semelhantes à distribuição real das respostas. Propomos uma abordagem alternativa que utiliza o próprio modelo de linguagem para particionar o espaço em estratos. Durante a inferência, um estrato aleatório é selecionado e uma amostra é retirada de dentro do estrato. Para medir a diversidade, introduzimos o CoverageQA, um conjunto de dados de perguntas subespecificadas com múltiplas respostas igualmente plausíveis, e avaliamos a diversidade medindo a Divergência KL entre a distribuição de saída e a distribuição uniforme sobre as respostas válidas reais. Como calcular a probabilidade por resposta/solução para modelos proprietários é inviável, medimos a recall nas soluções reais. Nossa avaliação mostra que o uso do SimpleStrat alcança uma recall maior em 0.05 em comparação com o GPT-4o e uma redução média de 0.36 na Divergência KL em comparação com o Llama 3.
Os Modelos de Linguagem de Grande Escala (LLMs) têm exibido desempenhos notáveis em várias tarefas complexas ao aproveitar a técnica de Encadeamento de Pensamento (CoT). Recentemente, estudos têm proposto uma abordagem de Destilação de Conhecimento (KD), chamada de destilação de raciocínio, que transfere essa capacidade de raciocínio dos LLMs por meio do ajuste fino de modelos de linguagem com justificativas de vários passos geradas pelos LLMs professores. No entanto, eles têm considerado de forma inadequada dois desafios relacionados à insuficiência de conjuntos de destilação do modelo professor LLM, em termos de 1) qualidade dos dados e 2) fornecimento de rótulos suaves. Neste artigo, propomos o Mentor-KD, que destila de forma eficaz a capacidade de raciocínio de vários passos dos LLMs para LMs menores, ao lidar com os desafios mencionados anteriormente. Especificamente, exploramos um mentor, um modelo intermediário de tamanho específico da tarefa ajustado finamente, para adicionar anotações CoT adicionais e fornecer rótulos suaves para o modelo aluno durante a destilação de raciocínio. Realizamos experimentos extensivos e confirmamos a eficácia do Mentor-KD em vários modelos e tarefas complexas de raciocínio.
Os Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades impressionantes, mas requerem alinhamento cuidadoso com as preferências humanas. Métodos tradicionais de treinamento ajustam os LLMs usando conjuntos de dados de preferências humanas, porém incorrem em custos significativos de treinamento e exigem treinamento repetido para lidar com diversas preferências de usuários. Métodos de alinhamento no momento de teste abordam isso usando modelos de recompensa (RMs) para orientar os LLMs congelados sem retrabalho. No entanto, abordagens existentes no momento de teste dependem de RMs em nível de trajetória, que são projetados para avaliar respostas completas, tornando-os inadequados para geração de texto autoregressiva que requer o cálculo de recompensas do próximo token a partir de respostas parciais. Para lidar com isso, apresentamos o GenARM, uma abordagem de alinhamento no momento de teste que aproveita o Modelo de Recompensa Autoregressivo - uma parametrização de recompensa inovadora projetada para prever recompensas do próximo token para geração autoregressiva eficiente e eficaz. Teoricamente, demonstramos que essa parametrização pode guiar de forma comprovada os LLMs congelados em direção a qualquer distribuição alcançável por RMs tradicionais dentro do framework de aprendizado por reforço regularizado por KL. Resultados experimentais mostram que o GenARM supera significativamente baselines anteriores de alinhamento no momento de teste e iguala o desempenho de métodos no momento de treinamento. Além disso, o GenARM permite um direcionamento eficiente de fraco para forte, alinhando LLMs maiores com RMs menores sem os altos custos de treinar modelos maiores. Além disso, o GenARM suporta alinhamento multiobjetivo, permitindo compensações em tempo real entre dimensões de preferência e atendendo a diversas preferências de usuários sem retrabalho.
A síntese de imagens de sonar é crucial para avançar nas aplicações em exploração subaquática, biologia marinha e defesa. Métodos tradicionais frequentemente dependem de coleta extensiva e custosa de dados usando sensores de sonar, comprometendo a qualidade e diversidade dos dados. Para superar essas limitações, este estudo propõe um novo framework de síntese de imagens de sonar, Synth-SONAR, aproveitando modelos de difusão e prompts GPT. As principais inovações do Synth-SONAR são três: Primeiro, integrando técnicas de injeção de estilo baseadas em IA generativa juntamente com dados reais/simulados publicamente disponíveis, produzindo assim um dos maiores corpus de dados de sonar para pesquisa em sonar. Segundo, uma hierarquia de modelo de difusão de sonar de condicionamento de texto duplo sintetiza imagens de sonar grosseiras e detalhadas com qualidade e diversidade aprimoradas. Terceiro, métodos de geração de sonar baseados em texto de alto nível (grosseiro) e baixo nível (detalhado) aproveitam informações semânticas avançadas disponíveis em modelos de linguagem visual (VLMs) e prompts GPT. Durante a inferência, o método gera imagens de sonar diversas e realistas a partir de prompts textuais, preenchendo a lacuna entre descrições textuais e geração de imagens de sonar. Isso marca a aplicação de prompts GPT em imagens de sonar pela primeira vez, até onde sabemos. O Synth-SONAR alcança resultados de ponta na produção de conjuntos de dados de sonar sintéticos de alta qualidade, melhorando significativamente sua diversidade e realismo.