Artigos de pesquisa em IA selecionados diariamente com traduções
Métodos modernos de Fine-Tuning Eficiente em Parâmetros (PEFT), como a adaptação de baixo posto (LoRA), reduzem o custo de personalização de grandes modelos de linguagem (LLMs), mas ainda exigem uma execução de otimização separada para cada conjunto de dados downstream. Apresentamos os LLMs Drag-and-Drop (\textit{DnD}), um gerador de parâmetros condicionado por prompt que elimina o treinamento por tarefa ao mapear um punhado de prompts não rotulados diretamente para atualizações de pesos LoRA. Um codificador de texto leve destila cada lote de prompts em embeddings de condição, que são então transformados por um decodificador hiper-convolucional em cascata no conjunto completo de matrizes LoRA. Uma vez treinado em uma coleção diversificada de pares prompt-checkpoint, o DnD produz parâmetros específicos para tarefas em segundos, resultando em i) uma sobrecarga até 12.000 vezes menor do que o fine-tuning completo, ii) ganhos médios de até 30\% no desempenho em relação aos LoRAs de treinamento mais fortes em benchmarks de raciocínio de senso comum, matemática, codificação e multimodalidade não vistos, e iii) generalização robusta entre domínios, apesar de nunca ter visto os dados ou rótulos de destino. Nossos resultados demonstram que a geração de parâmetros condicionada por prompt é uma alternativa viável à adaptação baseada em gradiente para especializar rapidamente LLMs. Nosso projeto está disponível em https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
Os sistemas de Geração Aumentada por Recuperação (RAG) revolucionaram a recuperação de informações e a resposta a perguntas, mas os métodos tradicionais de segmentação de texto baseados em blocos enfrentam dificuldades com estruturas complexas de documentos, tabelas de várias páginas, figuras incorporadas e dependências contextuais que atravessam os limites das páginas. Apresentamos uma nova abordagem de segmentação multimodal de documentos que utiliza Modelos Multimodais de Grande Escala (LMMs) para processar documentos PDF em lotes, mantendo a coerência semântica e a integridade estrutural. Nosso método processa documentos em lotes de páginas configuráveis com preservação de contexto entre lotes, permitindo o tratamento preciso de tabelas que abrangem várias páginas, elementos visuais incorporados e conteúdo procedural. Avaliamos nossa abordagem em um conjunto de dados curado de documentos PDF com consultas elaboradas manualmente, demonstrando melhorias na qualidade dos segmentos e no desempenho subsequente do RAG. Nossa abordagem guiada por visão alcança maior precisão em comparação com os sistemas RAG tradicionais, com análise qualitativa mostrando uma preservação superior da estrutura do documento e da coerência semântica.
Na geração visual, a complexidade quadrática dos mecanismos de atenção resulta em altos custos de memória e computação, especialmente para sequências de tokens mais longas necessárias na geração de imagens de alta resolução ou vídeos com múltiplos quadros. Para abordar isso, pesquisas anteriores exploraram técnicas como esparsificação e quantização. No entanto, essas técnicas enfrentam desafios significativos sob baixa densidade e largura de bits reduzida. Através de uma análise sistemática, identificamos que a dificuldade central decorre das características dispersas e irregulares dos padrões de atenção visual. Portanto, em vez de introduzir um design especializado de esparsificação e quantização para acomodar tais padrões, propomos uma estratégia alternativa: *reorganizar* o padrão de atenção para aliviar os desafios. Inspirados pela natureza de agregação local da extração de características visuais, projetamos uma nova técnica **Pattern-Aware token ReOrdering (PARO)**, que unifica os diversos padrões de atenção em um padrão em blocos amigável ao hardware. Essa unificação simplifica e aprimora substancialmente tanto a esparsificação quanto a quantização. Avaliamos as compensações entre desempenho e eficiência de várias escolhas de design e finalizamos uma metodologia adaptada ao padrão unificado. Nossa abordagem, **PAROAttention**, alcança a geração de vídeos e imagens com métricas sem perdas e resultados quase idênticos aos baselines de precisão completa (FP), enquanto opera em densidades notavelmente mais baixas (~20%-30%) e largura de bits (**INT8/INT4**), obtendo uma aceleração de latência de ponta a ponta de **1,9x** a **2,7x**.
Avanços recentes na geração de vídeos baseada em difusão e controlável têm possibilitado a síntese de vídeos de alta qualidade e coerência temporal, estabelecendo as bases para experiências imersivas de jogos interativos. No entanto, os métodos atuais enfrentam limitações em dinâmica, generalidade, consistência de longo prazo e eficiência, o que restringe a capacidade de criar diversos vídeos de jogabilidade. Para abordar essas lacunas, introduzimos o Hunyuan-GameCraft, uma nova estrutura para geração de vídeos interativos de alta dinâmica em ambientes de jogos. Para alcançar um controle de ação refinado, unificamos entradas padrão de teclado e mouse em um espaço de representação de câmera compartilhado, facilitando a interpolação suave entre várias operações de câmera e movimento. Em seguida, propomos uma estratégia de treinamento híbrida condicionada ao histórico que estende sequências de vídeo de forma autoregressiva, preservando as informações da cena do jogo. Além disso, para melhorar a eficiência de inferência e a jogabilidade, realizamos a destilação do modelo para reduzir a sobrecarga computacional, mantendo a consistência em longas sequências temporais, tornando-o adequado para implantação em tempo real em ambientes interativos complexos. O modelo é treinado em um conjunto de dados em larga escala composto por mais de um milhão de gravações de jogabilidade em mais de 100 jogos AAA, garantindo ampla cobertura e diversidade, e então ajustado em um conjunto de dados sintéticos cuidadosamente anotados para aprimorar a precisão e o controle. Os dados de cena de jogo curados melhoram significativamente a fidelidade visual, o realismo e a controlabilidade da ação. Experimentos extensivos demonstram que o Hunyuan-GameCraft supera significativamente os modelos existentes, avançando o realismo e a jogabilidade na geração de vídeos interativos de jogos.
Coordenar múltiplos agentes corporificados em ambientes dinâmicos continua sendo um desafio central na inteligência artificial, exigindo tanto raciocínio baseado em percepção quanto estratégias de cooperação escaláveis. Embora trabalhos recentes tenham aproveitado grandes modelos de linguagem (LLMs) para planejamento multiagente, poucos começaram a explorar modelos visão-linguagem (VLMs) para raciocínio visual. No entanto, essas abordagens baseadas em VLMs ainda são limitadas em seu suporte a diversos tipos de corporificação. Neste trabalho, apresentamos o VIKI-Bench, o primeiro benchmark hierárquico projetado para cooperação multiagente corporificada, apresentando três níveis estruturados: ativação de agentes, planejamento de tarefas e percepção de trajetória. O VIKI-Bench inclui diversas corporificações de robôs, observações visuais multiângulo e sinais de supervisão estruturados para avaliar o raciocínio fundamentado em entradas visuais. Para demonstrar a utilidade do VIKI-Bench, propomos o VIKI-R, um framework de dois estágios que ajusta um modelo visão-linguagem (VLM) pré-treinado usando demonstrações anotadas com Chain-of-Thought, seguido por aprendizado por reforço sob sinais de recompensa multi-níveis. Nossos experimentos extensivos mostram que o VIKI-R supera significativamente os métodos de linha de base em todos os níveis de tarefa. Além disso, mostramos que o aprendizado por reforço possibilita o surgimento de padrões de cooperação composicionais entre agentes heterogêneos. Juntos, o VIKI-Bench e o VIKI-R oferecem um ambiente de teste unificado e um método para avançar a cooperação multiagente e visualmente orientada em sistemas de IA corporificada.
Os modelos de visão e linguagem (VLMs) se destacam na compreensão multimodal, mas sua decodificação baseada apenas em texto os força a verbalizar o raciocínio visual, limitando o desempenho em tarefas que exigem imaginação visual. Tentativas recentes treinam VLMs para renderizar imagens explícitas, mas o extenso pré-treinamento em geração de imagens frequentemente prejudica a capacidade de raciocínio. Inspirados pela forma como os humanos raciocinam com imagens mentais — a construção e manipulação interna de pistas visuais — investigamos se os VLMs podem raciocinar por meio de trajetórias multimodais intercaladas sem produzir imagens explícitas. Para isso, apresentamos um framework de Imaginação Mental de Máquina, denominado Mirage, que amplia a decodificação de VLMs com tokens visuais latentes ao lado do texto comum. Concretamente, sempre que o modelo opta por "pensar visualmente", ele reformula seus estados ocultos como próximos tokens, continuando assim uma trajetória multimodal sem gerar imagens em nível de pixel. Começamos supervisionando os tokens latentes por meio de destilação de embeddings de imagens verdadeiras, depois mudamos para supervisão apenas textual para alinhar a trajetória latente ao objetivo da tarefa. Uma etapa subsequente de aprendizado por reforço aprimora ainda mais a capacidade de raciocínio multimodal. Experimentos em diversos benchmarks demonstram que o Mirage desbloqueia um raciocínio multimodal mais robusto sem a geração explícita de imagens.
Os sistemas state-of-the-art de conversão de texto em fala (TTS) alcançam alta naturalidade em ambientes monolíngues, mas a síntese de fala com sotaques multilíngues corretos (especialmente para línguas indianas) e emoções contextualmente relevantes ainda apresenta dificuldades devido às discrepâncias de nuances culturais nos frameworks atuais. Este artigo introduz uma nova arquitetura TTS que integra sotaque, preserva a transliteração e modela emoções em múltiplas escalas, especialmente ajustada para o hindi e o sotaque do inglês indiano. Nossa abordagem estende o modelo Parler-TTS ao integrar uma arquitetura híbrida de codificador-decodificador com alinhamento de fonemas específicos da língua, camadas de incorporação de emoções sensíveis à cultura treinadas em corpora de falantes nativos, além de incorporar uma troca dinâmica de sotaque com quantização vetorial residual. Testes quantitativos demonstram uma melhoria de 23,7% na precisão do sotaque (redução da Taxa de Erro de Palavras de 15,4% para 11,8%) e uma precisão de 85,3% no reconhecimento de emoções por ouvintes nativos, superando as baselines METTS e VECL-TTS. A novidade do sistema é sua capacidade de misturar códigos em tempo real - gerando declarações como "Namaste, vamos falar sobre <frase em hindi>" com mudanças de sotaque ininterruptas, mantendo a consistência emocional. A avaliação subjetiva com 200 usuários relatou uma pontuação média de opinião (MOS) de 4,2/5 para correção cultural, muito superior aos sistemas multilíngues existentes (p<0,01). Esta pesquisa torna a síntese translinguística mais viável ao demonstrar a separação escalável de sotaque e emoção, com aplicação direta em EdTech do Sul da Ásia e software de acessibilidade.
Neste relatório, apresentamos o Hunyuan3D 2.5, um conjunto robusto de modelos de difusão 3D projetados para gerar ativos 3D texturizados de alta fidelidade e detalhados. O Hunyuan3D 2.5 segue o pipeline de duas etapas de sua versão anterior, o Hunyuan3D 2.0, enquanto demonstra avanços substanciais tanto na geração de formas quanto de texturas. Em termos de geração de formas, introduzimos um novo modelo de base para formas — o LATTICE, que é treinado com conjuntos de dados de alta qualidade escalonados, tamanho de modelo e capacidade computacional. Nosso maior modelo atinge 10 bilhões de parâmetros e gera formas 3D nítidas e detalhadas com um acompanhamento preciso entre imagem e 3D, mantendo a superfície da malha limpa e suave, reduzindo significativamente a lacuna entre formas 3D geradas e artesanais. Em termos de geração de texturas, ele é aprimorado com renderização baseada em física (PBR) por meio de uma nova arquitetura de múltiplas visões estendida a partir do modelo Paint do Hunyuan3D 2.0. Nossa avaliação extensiva mostra que o Hunyuan3D 2.5 supera significativamente os métodos anteriores tanto na geração de formas quanto na geração de texturas de ponta a ponta.
A síntese de panoramas 3D é uma tarefa promissora, porém desafiadora, que exige uma aparência visual de alta qualidade e diversificada, além de uma geometria precisa do conteúdo omnidirecional gerado. Métodos existentes aproveitam priors ricos de imagens de modelos de base pré-treinados em 2D para contornar a escassez de dados panorâmicos 3D, mas a incompatibilidade entre panoramas 3D e visões únicas 2D limita sua eficácia. Neste trabalho, demonstramos que, ao aplicar a sincronização de múltiplos planos aos operadores de modelos de base 2D, suas capacidades podem ser estendidas de forma contínua ao domínio omnidirecional. Com base nesse design, introduzimos o DreamCube, um modelo de difusão RGB-D de múltiplos planos para geração de panoramas 3D, que maximiza a reutilização dos priors de modelos de base 2D para alcançar aparências diversas e geometria precisa, mantendo a consistência de múltiplas visões. Experimentos extensivos demonstram a eficácia de nossa abordagem na geração de imagens panorâmicas, estimativa de profundidade panorâmica e geração de cenas 3D.
Os modernos modelos de linguagem multimodal de grande escala (MLLMs) são capazes de raciocinar sobre vídeos de longa duração, mas o cache de chave-valor (KV) cresce linearmente com o tempo—rapidamente excedendo a memória fixa de smartphones, óculos de realidade aumentada e robôs de borda. Esquemas de compressão anteriores assumem que o vídeo inteiro e a consulta do usuário estão disponíveis offline ou precisam primeiro construir o cache completo, de modo que a memória ainda escala com o comprimento do fluxo. O InfiniPot-V é o primeiro framework livre de treinamento e agnóstico à consulta que impõe um limite rígido e independente do comprimento da memória para o entendimento de vídeos em streaming. Durante a codificação do vídeo, ele monitora o cache e, uma vez que um limite definido pelo usuário é atingido, executa uma passagem de compressão leve que (i) remove tokens temporalmente redundantes por meio da métrica de Redundância no Eixo Temporal (TaR) e (ii) mantém tokens semanticamente significativos por meio da classificação de Norma de Valor (VaN). Em quatro MLLMs de código aberto e quatro benchmarks de vídeos longos e dois de vídeos em streaming, o InfiniPot-V reduz a memória de pico da GPU em até 94%, mantém a geração em tempo real e iguala ou supera a precisão do cache completo—mesmo em diálogos de múltiplas interações. Ao eliminar o gargalo do cache KV sem retreinamento ou conhecimento da consulta, o InfiniPot-V fecha a lacuna para assistentes de vídeo em streaming em dispositivos locais.
O conteúdo 3D gerado por IA (AIGC) é um campo apaixonante que acelerou significativamente a criação de modelos 3D em jogos, filmes e design. Apesar do desenvolvimento de vários modelos inovadores que revolucionaram a geração 3D, o campo permanece amplamente acessível apenas a pesquisadores, desenvolvedores e designers devido às complexidades envolvidas na coleta, processamento e treinamento de modelos 3D. Para enfrentar esses desafios, apresentamos o Hunyuan3D 2.1 como um estudo de caso neste tutorial. Este tutorial oferece um guia abrangente e passo a passo sobre o processamento de dados 3D, o treinamento de um modelo generativo 3D e a avaliação de seu desempenho usando o Hunyuan3D 2.1, um sistema avançado para produzir ativos 3D de alta resolução e texturizados. O sistema é composto por dois componentes principais: o Hunyuan3D-DiT para geração de formas e o Hunyuan3D-Paint para síntese de texturas. Exploraremos todo o fluxo de trabalho, incluindo preparação de dados, arquitetura do modelo, estratégias de treinamento, métricas de avaliação e implantação. Ao final deste tutorial, você terá o conhecimento necessário para ajustar ou desenvolver um modelo generativo 3D robusto, adequado para aplicações em jogos, realidade virtual e design industrial.
A compreensão e geração unificada de imagens emergiu como um paradigma promissor na inteligência artificial multimodal. Apesar dos recentes avanços, o design arquitetônico ideal para tais modelos unificados permanece um desafio em aberto. Neste trabalho, começamos analisando os comportamentos de alinhamento de modalidades de modelos especializados em tarefas específicas para compreensão e geração, bem como modelos unificados atuais. Nossa análise revela uma observação crucial: tarefas de compreensão se beneficiam de um alinhamento de modalidades progressivamente crescente ao longo da profundidade da rede, o que ajuda a construir informações semânticas para uma melhor compreensão; em contraste, tarefas de geração seguem uma tendência diferente: o alinhamento de modalidades aumenta nas camadas iniciais, mas diminui nas camadas profundas para recuperar detalhes espaciais. Esses padrões divergentes de alinhamento criam um conflito fundamental em backbones de Transformers totalmente compartilhados, onde um fluxo representacional uniforme frequentemente leva a comprometimentos de desempenho entre as duas tarefas. Motivados por essa descoberta, introduzimos o UniFork, uma arquitetura em forma de Y que compartilha as camadas superficiais para aprendizado de representação cruzada, enquanto emprega ramificações específicas para cada tarefa nas camadas mais profundas para evitar interferências entre tarefas. Esse design equilibra efetivamente o aprendizado compartilhado e a especialização por tarefa. Por meio de extensos experimentos de ablação, demonstramos que o UniFork supera consistentemente as arquiteturas convencionais de Transformers totalmente compartilhados e alcança desempenho igual ou superior aos modelos específicos para cada tarefa.
Uma promessa que os modelos Visão-Linguagem-Ação (VLA) oferecem em relação ao aprendizado por imitação tradicional para robótica é a capacidade de aproveitar as amplas habilidades de generalização dos grandes modelos de Visão-Linguagem (VLMs) para produzir políticas robóticas versáteis e "generalistas". No entanto, as avaliações atuais dos VLAs permanecem insuficientes. Os benchmarks tradicionais de aprendizado por imitação são inadequados devido à falta de instruções linguísticas. Os benchmarks emergentes para VLAs que incorporam linguagem frequentemente vêm com tarefas de avaliação limitadas e não têm a intenção de investigar quanto o pré-treinamento de VLMs realmente contribui para as capacidades de generalização da política robótica subsequente. Enquanto isso, grande parte da pesquisa depende de configurações de robôs no mundo real projetadas isoladamente por diferentes instituições, o que cria uma barreira para a reprodutibilidade e acessibilidade. Para abordar essa lacuna, introduzimos um conjunto unificado de 50 tarefas baseadas em simulação, abrangendo 10 subcategorias que incluem instruções linguísticas, visão e objetos. Avaliamos sistematicamente várias arquiteturas de VLA state-of-the-art nesse conjunto para entender sua capacidade de generalização. Nossos resultados mostram que, embora os backbones de VLMs dotem os VLAs com uma compreensão perceptual robusta e planejamento de alto nível, que chamamos de boas intenções, isso não se traduz de forma confiável em execução motora precisa: quando confrontadas com observações fora da distribuição, as políticas frequentemente exibem intenções coerentes, mas falham na execução das ações. Além disso, o ajuste fino em dados de ação pode corroer as habilidades de raciocínio generalista do VLM original. Disponibilizamos nosso conjunto de tarefas e código de avaliação para servir como um benchmark padronizado para futuros VLAs e para impulsionar pesquisas sobre o fechamento da lacuna entre percepção e ação. Mais informações, incluindo o código-fonte, podem ser encontradas em https://ai4ce.github.io/INT-ACT/.
Um simulador de tráfego ideal replica a viagem realista de longo prazo de ponto a ponto que um sistema de direção autônoma experimenta durante a implantação. Modelos e benchmarks anteriores focam na simulação de movimento em loop fechado para agentes iniciais em uma cena. Isso é problemático para simulações de longo prazo, pois os agentes entram e saem da cena à medida que o veículo ego adentra novas regiões. Propomos o InfGen, um modelo unificado de previsão do próximo token que realiza simulação de movimento em loop fechado e geração de cena de forma intercalada. O InfGen alterna automaticamente entre os modos de simulação de movimento em loop fechado e geração de cena, permitindo simulações estáveis de longo prazo. O InfGen apresenta desempenho de ponta em simulações de tráfego de curto prazo (9s) e supera significativamente todos os outros métodos em simulações de longo prazo (30s). O código e o modelo do InfGen serão disponibilizados em https://orangesodahub.github.io/InfGen.
A combinação de modelos especializados pré-treinados oferece um potencial significativo para o raciocínio multimodal escalável, mas a construção de um framework unificado permanece desafiadora devido à crescente diversidade de modalidades de entrada e à complexidade das tarefas. Por exemplo, o diagnóstico médico requer raciocínio preciso sobre tabelas clínicas estruturadas, enquanto a previsão financeira depende da interpretação de dados baseados em gráficos para fazer previsões informadas. Para enfrentar esse desafio, apresentamos o MEXA, um framework que dispensa treinamento e realiza a agregação de múltiplos modelos especializados com consciência de modalidade e tarefa, permitindo um raciocínio multimodal eficaz em diversos e distintos domínios. O MEXA seleciona dinamicamente modelos especializados com base na modalidade de entrada e nas demandas de raciocínio específicas da tarefa (ou seja, habilidades). Cada modelo especializado, focado em um par de modalidade e tarefa, gera saídas de raciocínio textual interpretáveis. O MEXA então agrega e raciocina sobre essas saídas usando um Grande Modelo de Raciocínio (LRM, na sigla em inglês) para produzir a resposta final. Esse design modular permite um raciocínio multimodal flexível e transparente em diversos domínios sem a necessidade de sobrecarga adicional de treinamento. Avaliamos extensivamente nossa abordagem em diversos benchmarks multimodais, incluindo Raciocínio em Vídeo, Raciocínio em Áudio, Compreensão 3D e QA Médico. O MEXA consistentemente apresenta melhorias de desempenho em relação a fortes baselines multimodais, destacando a eficácia e a ampla aplicabilidade de nossa seleção e agregação orientada por especialistas em diversas tarefas de raciocínio multimodal.
A geração de resumos imparciais em cenários do mundo real, como a sumarização de perspectivas políticas, continua sendo uma aplicação crucial dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês). No entanto, os frameworks de avaliação existentes dependem de métricas tradicionais para medir atributos-chave, como cobertura e fidelidade, sem verificar sua aplicabilidade, e os esforços para desenvolver sumarizadores aprimorados ainda estão em estágio inicial. Nós abordamos essas lacunas (1) identificando métricas confiáveis para medir a qualidade de resumos de perspectivas e (2) investigando a eficácia de métodos baseados em LLMs além da inferência zero-shot. Especificamente, construímos um conjunto de testes para avaliar a confiabilidade das métricas usando anotações humanas e mostramos que as métricas tradicionais têm desempenho inferior em comparação com métricas baseadas em modelos de linguagem, que se mostram avaliadores robustos. Utilizando essas métricas, demonstramos que métodos baseados em reranking produzem resultados sólidos, e o ajuste de preferências com dados gerados sinteticamente e rotulados por reranking melhora ainda mais o desempenho. Nossas descobertas visam contribuir para a avaliação confiável e o desenvolvimento de métodos de sumarização de perspectivas.
A marcação d'água (watermarking) das saídas de modelos generativos surgiu como uma abordagem promissora para rastrear sua proveniência. Apesar do interesse significativo em modelos de geração de imagens autoregressivos e seu potencial para uso indevido, nenhum trabalho anterior tentou marcar suas saídas no nível de tokens. Neste trabalho, apresentamos a primeira abordagem desse tipo, adaptando técnicas de marcação d'água de modelos de linguagem para esse cenário. Identificamos um desafio crucial: a falta de consistência de ciclo reverso (reverse cycle-consistency - RCC), na qual a retokenização de tokens de imagem gerados altera significativamente a sequência de tokens, efetivamente apagando a marca d'água. Para resolver isso e tornar nosso método robusto a transformações comuns de imagens, compressão neural e ataques de remoção, introduzimos (i) um procedimento personalizado de ajuste fino de tokenizador-detokenizador que melhora a RCC, e (ii) uma camada complementar de sincronização de marca d'água. Como nossos experimentos demonstram, nossa abordagem permite a detecção confiável e robusta de marcas d'água com valores-p teoricamente fundamentados.
A inversão de modelos de linguagem busca recuperar prompts ocultos utilizando apenas as saídas do modelo de linguagem. Essa capacidade tem implicações para segurança e responsabilidade em implantações de modelos de linguagem, como o vazamento de informações privadas a partir da mensagem do sistema de um modelo de linguagem protegido por API. Propomos um novo método -- inversão de prompt a partir de sequências de logprob (PILS) -- que recupera prompts ocultos ao extrair pistas das probabilidades de próximo token do modelo ao longo de múltiplas etapas de geração. Nosso método é possibilitado por uma percepção fundamental: as saídas vetoriais de um modelo de linguagem ocupam um subespaço de baixa dimensionalidade. Isso nos permite comprimir sem perdas a distribuição completa de probabilidades de próximo token ao longo de múltiplas etapas de geração usando um mapeamento linear, permitindo que mais informações da saída sejam utilizadas para a inversão. Nossa abordagem proporciona ganhos significativos em relação aos métodos state-of-the-art anteriores para recuperação de prompts ocultos, alcançando taxas de recuperação exata 2 a 3,5 vezes maiores em conjuntos de teste, em um caso aumentando a taxa de recuperação de 17% para 60%. Nosso método também exibe um comportamento de generalização surpreendentemente bom; por exemplo, um inversor treinado em 16 etapas de geração obtém de 5 a 27 pontos a mais na recuperação de prompts quando aumentamos o número de etapas para 32 durante o teste. Além disso, demonstramos um forte desempenho do nosso método na tarefa mais desafiadora de recuperar mensagens do sistema ocultas. Também analisamos o papel da repetição textual na recuperação de prompts e propomos um novo método para transferência de modelos entre famílias para inversores baseados em logits. Nossos achados mostram que as probabilidades de próximo token são uma superfície de ataque consideravelmente mais vulnerável para ataques de inversão do que se sabia anteriormente.