Artigos de pesquisa em IA selecionados diariamente com traduções
Os sistemas de Inteligência Artificial Generativa (GenAI) estão sendo cada vez mais implantados em todos os setores da indústria e em ambientes de pesquisa. Desenvolvedores e usuários finais interagem com esses sistemas por meio do uso de prompts ou engenharia de prompts. Embora o conceito de prompting seja amplamente difundido e altamente pesquisado, existe uma terminologia conflitante e um entendimento ontológico precário do que constitui um prompt, devido à juventude dessa área. Este artigo estabelece um entendimento estruturado de prompts, reunindo uma taxonomia de técnicas de prompting e analisando seu uso. Apresentamos um vocabulário abrangente de 33 termos, uma taxonomia de 58 técnicas de prompting exclusivamente textuais e 40 técnicas para outras modalidades. Além disso, realizamos uma meta-análise de toda a literatura sobre prefix-prompting em linguagem natural.
Os avanços recentes em modelos generativos destacaram o papel crucial da tokenização de imagens na síntese eficiente de imagens de alta resolução. A tokenização, que transforma imagens em representações latentes, reduz as demandas computacionais em comparação com o processamento direto de pixels e aumenta a eficácia e eficiência do processo de geração. Métodos anteriores, como o VQGAN, geralmente utilizam grades latentes 2D com fatores de redução fixos. No entanto, essas tokenizações 2D enfrentam desafios ao gerenciar as redundâncias inerentes presentes nas imagens, onde regiões adjacentes frequentemente exibem similaridades. Para superar esse problema, introduzimos o Transformer-based 1-Dimensional Tokenizer (TiTok), uma abordagem inovadora que tokeniza imagens em sequências latentes 1D. O TiTok fornece uma representação latente mais compacta, resultando em representações substancialmente mais eficientes e eficazes do que as técnicas convencionais. Por exemplo, uma imagem de 256 x 256 x 3 pode ser reduzida para apenas 32 tokens discretos, uma redução significativa em relação aos 256 ou 1024 tokens obtidos por métodos anteriores. Apesar de sua natureza compacta, o TiTok alcança desempenho competitivo em relação às abordagens mais avançadas. Especificamente, utilizando a mesma estrutura de gerador, o TiTok atinge 1,97 gFID, superando significativamente a linha de base do MaskGIT em 4,21 no benchmark ImageNet 256 x 256. As vantagens do TiTok tornam-se ainda mais significativas quando se trata de resoluções mais altas. No benchmark ImageNet 512 x 512, o TiTok não apenas supera o modelo de difusão mais avançado DiT-XL/2 (gFID 2,74 vs. 3,04), mas também reduz os tokens de imagem em 64x, resultando em um processo de geração 410x mais rápido. Nossa variante de melhor desempenho pode superar significativamente o DiT-XL/2 (gFID 2,13 vs. 3,04) enquanto ainda gera amostras de alta qualidade 74x mais rápido.
Modelos de linguagem de grande escala (LLMs) para código demonstraram avanços notáveis em tarefas de compreensão, conclusão e geração de código. Benchmarks de programação, compostos por uma seleção de desafios de código e casos de teste correspondentes, servem como padrão para avaliar a capacidade de diferentes LLMs nessas tarefas. No entanto, a maioria dos benchmarks existentes concentra-se principalmente em Python e ainda é limitada a um número restrito de linguagens, onde outras linguagens são traduzidas a partir de amostras de Python (por exemplo, MultiPL-E), o que reduz a diversidade dos dados. Para promover ainda mais a pesquisa em LLMs de código, propomos um benchmark de código massivamente multilíngue, abrangendo 40 linguagens de programação (McEval) com 16 mil amostras de teste, que amplia substancialmente os limites dos LLMs de código em cenários multilíngues. O benchmark inclui tarefas desafiadoras de conclusão, compreensão e geração de código, com um corpus de instruções massivamente multilíngue cuidadosamente curado, o McEval-Instruct. Além disso, introduzimos um codificador multilíngue eficiente, o mCoder, treinado no McEval-Instruct, para apoiar a geração de linguagens de programação multilíngues. Resultados experimentais extensivos no McEval mostram que ainda há um caminho difícil entre modelos de código aberto e LLMs de código fechado (por exemplo, modelos da série GPT) em várias linguagens. O corpus de instruções, o benchmark de avaliação e o quadro de líderes estão disponíveis em https://mceval.github.io/.
A edição de imagens representa uma tarefa prática, porém desafiadora, considerando as diversas demandas dos usuários, onde uma das partes mais difíceis é descrever com precisão como a imagem editada deve parecer. Neste trabalho, apresentamos uma nova forma de edição, denominada edição imitativa, para ajudar os usuários a exercer sua criatividade de maneira mais conveniente. Concretamente, para editar uma região de interesse em uma imagem, os usuários podem se inspirar diretamente em referências encontradas no mundo real (por exemplo, algumas imagens relativas encontradas online), sem precisar se preocupar com a adequação entre a referência e a fonte. Tal design exige que o sistema descubra automaticamente o que esperar da referência para realizar a edição. Para esse fim, propomos um framework de treinamento generativo, chamado MimicBrush, que seleciona aleatoriamente dois quadros de um clipe de vídeo, mascara algumas regiões de um quadro e aprende a recuperar as regiões mascaradas usando as informações do outro quadro. Dessa forma, nosso modelo, desenvolvido a partir de um prior de difusão, é capaz de capturar a correspondência semântica entre imagens separadas de maneira auto supervisionada. Demonstramos experimentalmente a eficácia do nosso método em diversos casos de teste, bem como sua superioridade em relação às alternativas existentes. Também construímos um benchmark para facilitar pesquisas futuras.
A IA está passando por uma mudança de paradigma, com avanços alcançados por sistemas que orquestram múltiplos modelos de linguagem de grande escala (LLMs) e outros componentes complexos. Como resultado, o desenvolvimento de métodos de otimização automatizados e fundamentados para sistemas de IA compostos é um dos desafios mais importantes atualmente. As redes neurais enfrentaram um desafio semelhante em seus primórdios, até que a retropropagação e a diferenciação automática transformaram o campo, tornando a otimização algo direto. Inspirados por isso, introduzimos o TextGrad, um framework poderoso que realiza "diferenciação" automática por meio de texto. O TextGrad retropropaga feedback textual fornecido por LLMs para melhorar componentes individuais de um sistema de IA composto. Em nosso framework, os LLMs fornecem sugestões ricas, gerais e em linguagem natural para otimizar variáveis em grafos de computação, variando desde trechos de código até estruturas moleculares. O TextGrad segue a sintaxe e abstração do PyTorch, sendo flexível e fácil de usar. Ele funciona de forma imediata para uma variedade de tarefas, onde os usuários apenas fornecem a função objetivo sem a necessidade de ajustar componentes ou prompts do framework. Demonstramos a eficácia e generalidade do TextGrad em uma ampla gama de aplicações, desde respostas a perguntas e otimização de moléculas até planejamento de tratamentos de radioterapia. Sem modificar o framework, o TextGrad melhora a precisão zero-shot do GPT-4o em Respostas a Perguntas à Prova do Google de 51% para 55%, proporciona um ganho de desempenho relativo de 20% na otimização de soluções para problemas difíceis do LeetCode, melhora prompts para raciocínio, projeta novas moléculas pequenas semelhantes a medicamentos com ligações in silico desejáveis e projeta planos de tratamento de oncologia radioterápica com alta especificidade. O TextGrad estabelece uma base para acelerar o desenvolvimento da próxima geração de sistemas de IA.
Este artigo apresenta o algoritmo MCT Self-Refine (MCTSr), uma integração inovadora de Modelos de Linguagem de Grande Escala (LLMs) com a Busca em Árvore de Monte Carlo (MCTS), projetado para aprimorar o desempenho em tarefas complexas de raciocínio matemático. Abordando os desafios de precisão e confiabilidade em LLMs, particularmente no raciocínio estratégico e matemático, o MCTSr aproveita mecanismos de exploração sistemática e auto-refinamento heurístico para melhorar estruturas de tomada de decisão dentro de LLMs. O algoritmo constrói uma árvore de busca de Monte Carlo por meio de processos iterativos de Seleção, auto-refinamento, autoavaliação e Retropropagação, utilizando uma fórmula aprimorada do Limite Superior de Confiança (UCB) para otimizar o equilíbrio entre exploração e exploração. Experimentos extensivos demonstram a eficácia do MCTSr na resolução de problemas matemáticos de nível olímpico, melhorando significativamente as taxas de sucesso em vários conjuntos de dados, incluindo GSM8K, GSM Hard, MATH e benchmarks de nível olímpico, como Math Odyssey, AIME e OlympiadBench. O estudo avança a aplicação de LLMs em tarefas complexas de raciocínio e estabelece uma base para futuras integrações de IA, aprimorando a precisão e a confiabilidade na tomada de decisão em aplicações impulsionadas por LLMs.
Tarefas complexas de raciocínio em múltiplos passos, como resolver problemas matemáticos ou gerar código, continuam sendo um desafio significativo mesmo para os modelos de linguagem de grande escala (LLMs) mais avançados. Verificar as saídas dos LLMs com um Modelo de Recompensa de Resultado (ORM) é uma técnica padrão no momento da inferência que visa melhorar o desempenho de raciocínio dos LLMs. No entanto, isso ainda se mostra insuficiente para tarefas de raciocínio com uma cadeia de raciocínio longa ou de múltiplos saltos, onde os resultados intermediários não são adequadamente recompensados ou penalizados. A supervisão de processo aborda essa limitação ao atribuir recompensas intermediárias durante o processo de raciocínio. Até o momento, os métodos usados para coletar dados de supervisão de processo dependiam de anotação humana ou de estimativa de Monte Carlo por etapa, ambos proibitivamente caros para escalar, dificultando assim a ampla aplicação dessa técnica. Em resposta a esse desafio, propomos um novo algoritmo de Busca em Árvore de Monte Carlo (MCTS) no estilo dividir para conquistar, chamado OmegaPRM, para a coleta eficiente de dados de supervisão de processo de alta qualidade. Esse algoritmo identifica rapidamente o primeiro erro na Cadeia de Pensamento (CoT) com busca binária e equilibra os exemplos positivos e negativos, garantindo assim eficiência e qualidade. Como resultado, conseguimos coletar mais de 1,5 milhão de anotações de supervisão de processo para treinar um Modelo de Recompensa de Processo (PRM). Utilizando essa supervisão de processo totalmente automatizada junto com o algoritmo de autoconsistência ponderada, aprimoramos o desempenho de raciocínio matemático do modelo Gemini Pro ajustado por instrução, alcançando uma taxa de sucesso de 69,4% no benchmark MATH, uma melhoria relativa de 36% em relação ao desempenho de 51% do modelo base. Além disso, todo o processo opera sem qualquer intervenção humana, tornando nosso método financeiramente e computacionalmente mais eficiente em comparação com os métodos existentes.
Neste relatório técnico, apresentamos as metodologias de treinamento implementadas no desenvolvimento do Skywork-MoE, um modelo de linguagem de grande escala (LLM) de mistura de especialistas (MoE) de alto desempenho, com 146 bilhões de parâmetros e 16 especialistas. Ele é inicializado a partir dos checkpoints densos pré-existentes do nosso modelo Skywork-13B. Exploramos a eficácia comparativa entre a reciclagem de modelos existentes e o treinamento a partir de inicializações do zero. Nossas descobertas sugerem que a escolha entre essas duas abordagens deve considerar tanto o desempenho dos checkpoints densos existentes quanto o orçamento de treinamento do MoE. Destacamos duas técnicas inovadoras: a normalização dos logits de gateamento, que melhora a diversificação dos especialistas, e os coeficientes de perda auxiliar adaptativos, que permitem ajustes específicos por camada dos coeficientes de perda auxiliar. Nossos resultados experimentais validam a eficácia desses métodos. Aproveitando essas técnicas e insights, treinamos nosso Skywork-MoE reciclado em um subconjunto condensado do nosso corpus SkyPile. Os resultados de avaliação demonstram que nosso modelo oferece um desempenho robusto em uma ampla gama de benchmarks.
A geração de experiências sensoriais combinadas visuais e auditivas é crucial para o consumo de conteúdo imersivo. Avanços recentes em modelos generativos neurais permitiram a criação de conteúdo de alta resolução em múltiplas modalidades, como imagens, texto, fala e vídeos. Apesar desses sucessos, ainda existe uma lacuna significativa na geração de áudio espacial de alta qualidade que complemente o conteúdo visual gerado. Além disso, os modelos atuais de geração de áudio se destacam na criação de áudio natural, fala ou música, mas falham em integrar pistas de áudio espacial necessárias para experiências imersivas. Neste trabalho, apresentamos o SEE-2-SOUND, uma abordagem zero-shot que decompõe a tarefa em (1) identificar regiões visuais de interesse; (2) localizar esses elementos no espaço 3D; (3) gerar áudio mono para cada um; e (4) integrá-los em áudio espacial. Utilizando nosso framework, demonstramos resultados convincentes na geração de áudio espacial para vídeos de alta qualidade, imagens e imagens dinâmicas da internet, bem como mídias geradas por abordagens baseadas em aprendizado.
Os métodos existentes de geração dinâmica de cenas dependem principalmente da destilação de conhecimento de modelos generativos 3D pré-treinados, que são tipicamente ajustados em conjuntos de dados sintéticos de objetos. Como resultado, as cenas geradas são frequentemente centradas em objetos e carecem de fotorrealismo. Para abordar essas limitações, introduzimos um novo pipeline projetado para a geração fotorrealista de cenas texto-para-4D, descartando a dependência de modelos generativos multivista e, em vez disso, utilizando totalmente modelos generativos de vídeo treinados em diversos conjuntos de dados do mundo real. Nosso método começa gerando um vídeo de referência usando o modelo de geração de vídeo. Em seguida, aprendemos a representação 3D canônica do vídeo usando um vídeo de tempo congelado, gerado delicadamente a partir do vídeo de referência. Para lidar com inconsistências no vídeo de tempo congelado, aprendemos conjuntamente uma deformação por quadro para modelar essas imperfeições. Depois, aprendemos a deformação temporal com base na representação canônica para capturar interações dinâmicas no vídeo de referência. O pipeline facilita a geração de cenas dinâmicas com fotorrealismo e integridade estrutural aprimorados, visualizáveis a partir de múltiplas perspectivas, estabelecendo assim um novo padrão na geração de cenas 4D.
Embora os modelos de difusão se destaquem na geração de imagens de alta qualidade, trabalhos anteriores relatam uma lacuna significativa de desempenho entre métodos de difusão e autoregressivos (AR) na modelagem de linguagem. Neste trabalho, mostramos que a difusão discreta mascarada simples é mais eficiente do que se pensava anteriormente. Aplicamos uma receita de treinamento eficaz que melhora o desempenho dos modelos de difusão mascarada e derivamos um objetivo simplificado e Rao-Blackwellizado que resulta em melhorias adicionais. Nosso objetivo tem uma forma simples — é uma mistura de perdas clássicas de modelagem de linguagem mascarada — e pode ser usado para treinar modelos de linguagem apenas com codificadores que admitem amostradores eficientes, incluindo aqueles que podem gerar textos de comprimento arbitrário de forma semi-autoregressiva, como um modelo de linguagem tradicional. Em benchmarks de modelagem de linguagem, uma variedade de modelos de difusão mascarada treinados com práticas modernas de engenharia alcança um novo estado da arte entre os modelos de difusão e se aproxima da perplexidade AR. Disponibilizamos nosso código em: https://github.com/kuleshov-group/mdlm
Os modelos de difusão têm despertado grande interesse da comunidade devido à sua notável capacidade gerativa em diversas aplicações. No entanto, sua natureza típica de desruído sequencial em múltiplos passos resulta em uma alta latência cumulativa, impedindo a possibilidade de computação paralela. Para resolver esse problema, apresentamos o AsyncDiff, um esquema de aceleração universal e plug-and-play que permite o paralelismo de modelos em múltiplos dispositivos. Nossa abordagem divide o complexo modelo de predição de ruído em vários componentes, atribuindo cada um a um dispositivo diferente. Para quebrar a cadeia de dependência entre esses componentes, o método transforma o desruído sequencial convencional em um processo assíncrono, explorando a alta similaridade entre os estados ocultos em passos consecutivos de difusão. Consequentemente, cada componente é capaz de computar em paralelo em dispositivos separados. A estratégia proposta reduz significativamente a latência de inferência, com impacto mínimo na qualidade gerativa. Especificamente, para o Stable Diffusion v2.1, o AsyncDiff alcança um aumento de velocidade de 2,7x com degradação insignificante e um aumento de 4,0x com apenas uma leve redução de 0,38 no CLIP Score, utilizando quatro GPUs NVIDIA A5000. Nossos experimentos também demonstram que o AsyncDiff pode ser facilmente aplicado a modelos de difusão de vídeo, com desempenhos promissores. O código está disponível em https://github.com/czg1225/AsyncDiff.
Modelos de linguagem de grande escala (LLM, do inglês *Large Language Models*) têm alcançado desempenho impressionante em benchmarks de resposta a perguntas médicas. No entanto, alta precisão em benchmarks não implica que o desempenho se generalize para cenários clínicos do mundo real. Benchmarks de resposta a perguntas médicas dependem de suposições consistentes com a quantificação do desempenho de LLMs, mas que podem não se sustentar no ambiente aberto da clínica. Ainda assim, LLMs aprendem conhecimentos amplos que podem ajudar o modelo a generalizar para condições práticas, independentemente de suposições irrealistas em benchmarks consagrados. Buscamos quantificar o quão bem o desempenho de LLMs em benchmarks de resposta a perguntas médicas se generaliza quando as suposições do benchmark são violadas. Especificamente, apresentamos um método adversarial que chamamos de MedFuzz (do inglês *medical fuzzing*). O MedFuzz tenta modificar as perguntas do benchmark de maneiras que visam confundir o LLM. Demonstramos a abordagem direcionando suposições fortes sobre características do paciente apresentadas no benchmark MedQA. "Ataques" bem-sucedidos modificam um item do benchmark de formas que dificilmente enganariam um especialista médico, mas que, ainda assim, "enganam" o LLM, fazendo-o mudar de uma resposta correta para uma incorreta. Além disso, apresentamos uma técnica de teste de permutação que pode garantir que um ataque bem-sucedido seja estatisticamente significativo. Mostramos como usar o desempenho em um benchmark "MedFuzzado", bem como ataques individuais bem-sucedidos. Os métodos mostram potencial para fornecer insights sobre a capacidade de um LLM de operar de forma robusta em cenários mais realistas.
Apresentamos o DenseAV, uma nova arquitetura de codificação dupla que aprende recursos de alta resolução, semanticamente significativos e alinhados audiovisualmente apenas através da observação de vídeos. Demonstramos que o DenseAV pode descobrir o "significado" das palavras e a "localização" dos sons sem supervisão explícita de localização. Além disso, ele automaticamente descobre e distingue entre esses dois tipos de associações sem supervisão. Mostramos que as habilidades de localização do DenseAV surgem de um novo operador de agregação de recursos multi-head que compara diretamente representações densas de imagem e áudio para aprendizado contrastivo. Em contraste, muitos outros sistemas que aprendem representações "globais" de áudio e vídeo não conseguem localizar palavras e sons. Por fim, contribuímos com dois novos conjuntos de dados para melhorar a avaliação de representações audiovisuais por meio de segmentação semântica induzida por fala e som. Nesses e em outros conjuntos de dados, mostramos que o DenseAV supera significativamente o estado da arte anterior em segmentação semântica induzida por fala e som. O DenseAV supera o estado da arte anterior, o ImageBind, em recuperação cruzada de modalidades usando menos da metade dos parâmetros. Página do Projeto: https://aka.ms/denseav{https://aka.ms/denseav}
A reluminação de imagem única é uma tarefa desafiadora que envolve o raciocínio sobre a complexa interação entre geometria, materiais e iluminação. Muitos métodos anteriores suportam apenas categorias específicas de imagens, como retratos, ou exigem condições de captura especiais, como o uso de uma lanterna. Alternativamente, alguns métodos decompõem explicitamente uma cena em componentes intrínsecos, como normais e BRDFs, que podem ser imprecisos ou pouco expressivos. Neste trabalho, propomos um novo modelo de difusão 2D de reluminação de ponta a ponta, chamado Neural Gaffer, que recebe uma única imagem de qualquer objeto e pode sintetizar uma imagem reluminada precisa e de alta qualidade sob qualquer nova condição de iluminação ambiental, simplesmente condicionando um gerador de imagens em um mapa de ambiente alvo, sem uma decomposição explícita da cena. Nosso método se baseia em um modelo de difusão pré-treinado e o ajusta em um conjunto de dados sintético de reluminação, revelando e aproveitando o entendimento inerente de iluminação presente no modelo de difusão. Avaliamos nosso modelo tanto em imagens sintéticas quanto em imagens da Internet capturadas em cenários reais, demonstrando suas vantagens em termos de generalização e precisão. Além disso, ao combinar com outros métodos generativos, nosso modelo possibilita muitas tarefas 2D subsequentes, como reluminação baseada em texto e inserção de objetos. Nosso modelo também pode funcionar como um forte prior de reluminação para tarefas 3D, como a reluminação de um campo de radiação.
A robustez dos modelos de linguagem de grande escala (LLMs) contra manipulações adversárias, como ataques de jailbreak, continua sendo um desafio significativo. Neste trabalho, propomos uma abordagem que aprimora a capacidade de autocrítica do LLM e o ajusta ainda mais sobre dados sintéticos sanitizados. Isso é feito com a adição de um modelo crítico externo que pode ser integrado ao original, fortalecendo assim as capacidades de autocrítica e melhorando a robustez da resposta do LLM a prompts adversários. Nossos resultados demonstram que a combinação de integração e autocrítica pode reduzir significativamente a taxa de sucesso de ataques adversários, oferecendo, portanto, um mecanismo de defesa promissor contra ataques de jailbreak. Código, dados e modelos estão disponíveis em https://github.com/vicgalle/merging-self-critique-jailbreaks.