Artigos de pesquisa em IA selecionados diariamente com traduções
Embora modelos texto-imagem como DALLE-3 e Stable Diffusion estejam se proliferando rapidamente, frequentemente enfrentam desafios como alucinação, viés e a produção de saídas inseguras e de baixa qualidade. Para abordar efetivamente essas questões, é crucial alinhar esses modelos com comportamentos desejados com base no feedback de um juiz multimodal. Apesar de sua importância, os juízes multimodais atuais frequentemente passam por uma avaliação inadequada de suas capacidades e limitações, potencialmente resultando em desalinhamento e resultados inseguros de ajuste fino. Para resolver esse problema, apresentamos o MJ-Bench, um novo benchmark que incorpora um conjunto de dados abrangente de preferências para avaliar juízes multimodais na prestação de feedback para modelos de geração de imagens em quatro perspectivas-chave: alinhamento, segurança, qualidade da imagem e viés. Especificamente, avaliamos uma grande variedade de juízes multimodais, incluindo modelos de pontuação baseados em CLIP de tamanho menor, VLMs de código aberto (por exemplo, família LLaVA) e VLMs de código fechado (por exemplo, GPT-4o, Claude 3) em cada subcategoria decomposta de nosso conjunto de dados de preferências. Experimentos revelam que VLMs de código fechado geralmente fornecem um feedback melhor, com o GPT-4o superando outros juízes em média. Comparados com VLMs de código aberto, modelos de pontuação de tamanho menor podem fornecer um feedback melhor em relação ao alinhamento texto-imagem e à qualidade da imagem, enquanto os VLMs fornecem um feedback mais preciso em relação à segurança e ao viés de geração devido às suas capacidades de raciocínio mais fortes. Estudos adicionais na escala de feedback revelam que juízes VLM geralmente podem fornecer um feedback mais preciso e estável em linguagem natural (escala Likert) do que escalas numéricas. Notavelmente, avaliações humanas em modelos ajustados de ponta a ponta usando feedback separado desses juízes multimodais fornecem conclusões semelhantes, confirmando ainda mais a eficácia do MJ-Bench. Todos os dados, código e modelos estão disponíveis em https://huggingface.co/MJ-Bench.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram notáveis capacidades de tradução em tarefas linguísticas de alto recurso, no entanto, seu desempenho em idiomas de baixo recurso é prejudicado pela falta de dados multilíngues suficientes durante o pré-treinamento. Para lidar com isso, dedicamos 35.000 horas de GPU A100-SXM4-80GB para realizar um extenso pré-treinamento contínuo multilíngue nos modelos da série LLaMA, possibilitando suporte à tradução em mais de 100 idiomas. Através de uma análise abrangente de estratégias de treinamento, como expansão de vocabulário e aumento de dados, desenvolvemos o LLaMAX. Notavelmente, sem sacrificar sua capacidade de generalização, o LLaMAX alcança um desempenho de tradução significativamente superior em comparação com LLMs de código aberto existentes (em mais de 10 pontos spBLEU) e se equipara ao modelo de tradução especializado M2M-100-12B no benchmark Flores-101. Experimentos extensivos indicam que o LLaMAX pode servir como um modelo de base multilíngue robusto. O código \url{https://github.com/CONE-MT/LLaMAX/.} e os modelos \url{https://huggingface.co/LLaMAX/.} estão disponíveis publicamente.
Este artigo aborda o desafio de criar uma arquitetura neural para sequências muito longas que requer tempo constante para processar novas informações a cada passo de tempo. Nossa abordagem, Transformador de Memória Recorrente Associativa (ARMT), é baseada em autoatenção do transformer para contexto local e recorrência em nível de segmento para armazenamento de informações específicas da tarefa distribuídas ao longo de um contexto longo. Demonstramos que o ARMT supera as alternativas existentes em tarefas de recuperação associativa e estabelece um novo recorde de desempenho no recente benchmark multi-tarefa de longo contexto BABILong, respondendo a perguntas de único fato sobre mais de 50 milhões de tokens com uma precisão de 79,9%. O código-fonte para treinamento e avaliação está disponível no github.
Um modelo de edição de imagens deve ser capaz de realizar edições diversas, que vão desde a substituição de objetos, mudança de atributos ou estilo, até a realização de ações ou movimentos, que exigem várias formas de raciocínio. Os atuais modelos de edição guiados por instruções gerais apresentam deficiências significativas com edições centradas em ação e raciocínio. Mudanças de objeto, atributo ou estilo podem ser aprendidas a partir de conjuntos de dados visualmente estáticos. Por outro lado, dados de alta qualidade para edições centradas em ação e raciocínio são escassos e precisam vir de fontes completamente diferentes que abranjam, por exemplo, dinâmica física, temporalidade e raciocínio espacial. Para isso, curamos meticulosamente o Conjunto de Dados AURORA (Ação-Raciocínio-Objeto-Atributo), uma coleção de dados de treinamento de alta qualidade, anotados por humanos e selecionados de vídeos e motores de simulação. Nosso foco está em um aspecto-chave de dados de treinamento de qualidade: triplas (imagem de origem, instrução, imagem de destino) contêm uma única mudança visual significativa descrita pela instrução, ou seja, mudanças verdadeiramente mínimas entre as imagens de origem e destino. Para demonstrar o valor de nosso conjunto de dados, avaliamos um modelo ajustado com AURORA em um novo benchmark curado por especialistas (AURORA-Bench) que abrange 8 tarefas de edição diversas. Nosso modelo supera significativamente os modelos de edição anteriores, conforme avaliado por avaliadores humanos. Para avaliações automáticas, encontramos falhas importantes em métricas anteriores e alertamos sobre seu uso para tarefas de edição semanticamente complexas. Em vez disso, propomos uma nova métrica automática que se concentra em compreensão discriminativa. Esperamos que nossos esforços: (1) curar um conjunto de dados de treinamento de qualidade e um benchmark de avaliação, (2) desenvolver avaliações críticas e (3) disponibilizar um modelo de ponta, impulsionem ainda mais o progresso na edição geral de imagens.
Modelos grandes multimodais de código aberto anteriores (LMMs) enfrentaram várias limitações: (1) frequentemente carecem de integração nativa, exigindo adaptadores para alinhar representações visuais com modelos de linguagem grandes pré-treinados (LLMs); (2) muitos estão restritos à geração unimodal; (3) enquanto alguns suportam a geração multimodal, dependem de modelos de difusão separados para modelagem visual e geração. Para mitigar essas limitações, apresentamos Anole, um modelo multimodal grande nativo, aberto e autoregressivo para geração de imagem-texto entrelaçada. Construímos Anole a partir do Chameleon da Meta AI, adotando uma estratégia inovadora de ajuste fino que é eficiente em dados e em parâmetros. Anole demonstra capacidades de geração multimodal de alta qualidade e coerentes. Disponibilizamos nosso modelo, estrutura de treinamento e dados de ajuste de instrução de forma aberta.
Grandes modelos de linguagem são amplamente utilizados em aplicações do mundo real, frequentemente encarregados de raciocinar sobre grandes volumes de documentos. Um desenvolvimento empolgante nesse espaço são modelos que ostentam capacidades de contexto estendido, com alguns acomodando mais de 2 milhões de tokens. As capacidades desses modelos de contexto longo permanecem incertas em sistemas de produção, motivando a necessidade de avaliar seu desempenho em casos de uso do mundo real. Abordamos esse desafio propondo SWiM, um framework de avaliação que aborda as limitações dos testes padrão. Ao testar o framework em oito modelos de contexto longo, descobrimos que até mesmo modelos fortes como GPT-4 e Claude 3 Opus têm seu desempenho degradado quando a informação está presente no meio da janela de contexto (efeito de perda no meio). Em seguida, além de nosso benchmark, propomos a votação de medoides, uma abordagem simples, mas eficaz, sem necessidade de treinamento, que ajuda a aliviar esse efeito, gerando respostas algumas vezes, cada vez permutando aleatoriamente os documentos no contexto e selecionando a resposta medoide. Avaliamos a votação de medoides em tarefas de perguntas e respostas em um único documento, alcançando até 24% de aumento na precisão.
Este artigo apresenta o UltraEdit, um conjunto de dados gerado automaticamente em larga escala (aproximadamente 4 milhões de amostras de edição) para edição de imagens baseada em instruções. Nossa ideia principal é abordar as desvantagens nos conjuntos de dados de edição de imagem existentes, como InstructPix2Pix e MagicBrush, e fornecer uma abordagem sistemática para produzir amostras de edição de imagem em massa e de alta qualidade. O UltraEdit oferece várias vantagens distintas: 1) Ele apresenta uma gama mais ampla de instruções de edição, aproveitando a criatividade de grandes modelos de linguagem (LLMs) juntamente com exemplos de edição no contexto de avaliadores humanos; 2) Suas fontes de dados são baseadas em imagens reais, incluindo fotografias e obras de arte, o que proporciona maior diversidade e redução de viés em comparação com conjuntos de dados gerados exclusivamente por modelos de texto para imagem; 3) Ele também suporta edição baseada em região, aprimorada por anotações de região de alta qualidade produzidas automaticamente. Nossos experimentos mostram que os baselines de edição baseados em difusão canônica treinados no conjunto de dados UltraEdit estabelecem novos recordes nos benchmarks MagicBrush e Emu-Edit. Nossa análise confirma ainda o papel crucial de âncoras de imagem reais e dados de edição baseados em região. O conjunto de dados, código e modelos podem ser encontrados em https://ultra-editing.github.io.
Os avanços recentes em AIGC 3D têm mostrado promessa na criação direta de objetos 3D a partir de texto e imagens, oferecendo economias significativas em animação e design de produtos. No entanto, a edição detalhada e personalização de ativos 3D permanecem um desafio de longa data. Especificamente, os métodos de Geração 3D carecem da capacidade de seguir instruções detalhadas de forma tão precisa quanto seus equivalentes de criação de imagens 2D. Imagine poder obter um brinquedo por meio de AIGC 3D, mas com acessórios e roupas indesejados. Para enfrentar esse desafio, propomos um novo pipeline chamado Tailor3D, que cria rapidamente ativos 3D personalizados a partir de imagens editáveis de ambos os lados. Nosso objetivo é emular a capacidade de um alfaiate de alterar localmente objetos ou realizar transferência de estilo geral. Ao contrário da criação de ativos 3D a partir de múltiplas vistas, o uso de imagens de ambos os lados elimina conflitos em áreas sobrepostas que ocorrem ao editar vistas individuais. Especificamente, começa editando a vista frontal e, em seguida, gera a vista traseira do objeto por meio de difusão de várias vistas. Em seguida, procede para editar as vistas traseiras. Por fim, propomos um LRM de ambos os lados para unir perfeitamente as características 3D da frente e de trás, semelhante a um alfaiate costurando a frente e as costas de uma peça de vestuário. O LRM de ambos os lados corrige inconsistências imperfeitas entre as vistas da frente e de trás, aprimorando as capacidades de edição e reduzindo as cargas de memória enquanto as integra perfeitamente em uma representação 3D unificada com o Transformador Triplanar LoRA. Resultados experimentais demonstram a eficácia do Tailor3D em várias tarefas de geração e edição 3D, incluindo preenchimento generativo 3D e transferência de estilo. Ele fornece uma solução amigável e eficiente para a edição de ativos 3D, com cada etapa de edição levando apenas segundos para ser concluída.
Os avanços recentes em modelos de linguagem de código aberto de grande escala (LLMs) têm demonstrado habilidades de codificação notáveis ao ajustar fino nos dados gerados a partir de poderosos LLMs de código fechado, como GPT-3.5 e GPT-4 para ajuste de instruções. Este artigo explora como melhorar ainda mais um LLM de código ajustado por instrução gerando dados a partir dele mesmo, em vez de consultar LLMs de código fechado. Nossa observação chave é o desalinhamento entre a tradução de linguagens formais e informais: traduzir linguagem formal (ou seja, código) para linguagem informal (ou seja, linguagem natural) é mais direto do que o contrário. Com base nessa observação, propomos o INVERSE-INSTRUCT, que resume instruções a partir de trechos de código em vez do contrário. Especificamente, dado um corpus de ajuste de instruções para código e o LLM de código ajustado resultante, solicitamos ao LLM de código que gere instruções adicionais de alta qualidade para o corpus original por meio de sumarização de código e autoavaliação. Em seguida, ajustamos fino o LLM base na combinação do corpus original e do auto-gerado, o que resulta em um LLM de código ajustado por instrução mais robusto. Apresentamos uma série de LLMs de código chamados InverseCoder, que superam o desempenho dos LLMs de código originais em uma ampla gama de benchmarks, incluindo geração de código de texto para Python, codificação multilíngue e geração de código de ciência de dados.
Modelos de difusão de Texto-para-Vídeo (T2V) em larga escala demonstraram recentemente uma capacidade sem precedentes de transformar descrições em linguagem natural em vídeos impressionantes e fotorrealistas. Apesar dos resultados promissores, um desafio significativo permanece: esses modelos têm dificuldade em compreender completamente as interações composicionais complexas entre múltiplos conceitos e ações. Esse problema surge quando algumas palavras influenciam dominantemente o vídeo final, ofuscando outros conceitos. Para enfrentar esse problema, introduzimos o Vico, um framework genérico para geração de vídeo composicional que garante explicitamente que todos os conceitos sejam representados adequadamente. No cerne do Vico, analisa-se como os tokens de entrada influenciam o vídeo gerado e ajusta-se o modelo para evitar que um único conceito domine. Especificamente, o Vico extrai pesos de atenção de todas as camadas para construir um grafo de atenção espacial-temporal e, em seguida, estima a influência como o fluxo máximo do token de texto de origem para o token de vídeo alvo. Embora o cálculo direto do fluxo de atenção em modelos de difusão seja tipicamente inviável, desenvolvemos uma aproximação eficiente com base em fluxos de subgrafo e utilizamos uma implementação rápida e vetorizada, tornando assim o cálculo de fluxo gerenciável e diferenciável. Ao atualizar o latente ruidoso para equilibrar esses fluxos, o Vico captura interações complexas e, consequentemente, produz vídeos que seguem de perto as descrições textuais. Aplicamos nosso método a múltiplos modelos de vídeo baseados em difusão para T2V composicional e edição de vídeo. Resultados empíricos demonstram que nosso framework melhora significativamente a riqueza composicional e a precisão dos vídeos gerados. Visite nosso website em https://adamdad.github.io/vico/.
Grandes modelos de linguagem de visão (LVLMs) frequentemente sofrem de alucinação de objetos, produzindo objetos não presentes nas imagens fornecidas. Enquanto os benchmarks atuais para alucinação de objetos concentram-se principalmente na presença de uma única classe de objetos em vez de entidades individuais, este trabalho investiga sistematicamente a alucinação de múltiplos objetos, examinando como os modelos interpretam erroneamente (por exemplo, inventam objetos inexistentes ou se distraem) ao lidar com múltiplos objetos simultaneamente. Apresentamos a Avaliação de Sondagem de Objetos com Base em Reconhecimento (ROPE), um protocolo de avaliação automatizado que considera a distribuição de classes de objetos dentro de uma única imagem durante os testes e utiliza prompts visuais para eliminar ambiguidades. Com estudos empíricos abrangentes e análise de fatores potenciais que levam à alucinação de múltiplos objetos, descobrimos que (1) LVLMs sofrem mais alucinações ao focar em múltiplos objetos em comparação com um único objeto. (2) A distribuição de classes de objetos testada afeta os comportamentos de alucinação, indicando que os LVLMs podem seguir atalhos e correlações espúrias. (3) Comportamentos alucinatórios são influenciados por fatores específicos dos dados, saliência e frequência, e comportamentos intrínsecos do modelo. Esperamos capacitar os LVLMs a reconhecer e raciocinar sobre múltiplos objetos que frequentemente ocorrem em cenas visuais realistas, fornecer insights e quantificar nosso progresso em mitigar os problemas.
Nos últimos anos, o surgimento de Modelos de Linguagem Grandes (LLMs) tem impulsionado uma crescente demanda por sistemas de IA plug-and-play. Entre as várias técnicas de IA, a engenharia de prompts se destaca como particularmente significativa. No entanto, os usuários frequentemente enfrentam desafios ao escrever prompts devido à curva de aprendizado acentuada e ao significativo investimento de tempo, e os modelos existentes de engenharia automática de prompts (APE) podem ser difíceis de usar. Para abordar essa questão, propomos PAS, um sistema de APE plug-and-play baseado em LLM. PAS utiliza LLMs treinados em conjuntos de dados complementares de prompts de alta qualidade, gerados automaticamente, resultando em desempenho excepcional. Em benchmarks abrangentes, PAS alcança resultados de estado-da-arte (SoTA) em comparação com modelos anteriores de APE, com uma melhoria média de 6,09 pontos. Além disso, PAS é altamente eficiente, alcançando desempenho de SoTA com apenas 9000 pontos de dados. Adicionalmente, PAS pode gerar autonomamente dados de aumento de prompts sem exigir trabalho humano adicional. Sua flexibilidade também permite ser compatível com todos os LLMs existentes e aplicável a uma ampla gama de tarefas. PAS se destaca em avaliações humanas, destacando sua adequação como um plug-in para usuários. Essa combinação de alto desempenho, eficiência e flexibilidade torna PAS um sistema valioso para aprimorar a usabilidade e eficácia de LLMs por meio de uma engenharia de prompts aprimorada.
Uma das maneiras mais confiáveis de criar modelos implantáveis para tarefas especializadas é obter uma quantidade adequada de dados específicos da tarefa de alta qualidade. No entanto, para tarefas especializadas, frequentemente tais conjuntos de dados não existem. Métodos existentes lidam com isso criando tais dados a partir de grandes modelos de linguagem (LLMs) e então destilando esse conhecimento em modelos menores. No entanto, esses métodos são limitados pela qualidade da saída dos LLMs e tendem a gerar dados repetitivos ou incorretos. Neste trabalho, apresentamos a Distilação Baseada em Recuperação (ReBase), um método que primeiro recupera dados de fontes online ricas e então os transforma em dados específicos do domínio. Este método melhora significativamente a diversidade dos dados. Além disso, o ReBase gera raciocínio em Cadeia de Pensamento e destila a capacidade de raciocínio dos LLMs. Testamos nosso método em 4 benchmarks e os resultados mostram que nosso método melhora significativamente o desempenho em até 7,8% no SQuAD, 1,37% no MNLI e 1,94% no BigBench-Hard.
Estudos recentes sugerem que o viés indutivo dos modelos de aprendizado profundo em favor de características mais simples pode ser uma das fontes de aprendizado de atalhos. No entanto, houve um foco limitado em compreender a complexidade das inúmeras características que os modelos aprendem. Neste trabalho, introduzimos uma nova métrica para quantificar a complexidade das características, com base na V-informação, capturando se uma característica requer transformações computacionais complexas para ser extraída. Usando essa métrica de V-informação, analisamos as complexidades de 10.000 características, representadas como direções na camada penúltima, que foram extraídas de um modelo de visão padrão treinado no ImageNet. Nosso estudo aborda quatro questões-chave: Primeiramente, questionamos como as características se parecem em função da complexidade e encontramos um espectro de características simples a complexas presentes no modelo. Em segundo lugar, investigamos quando as características são aprendidas durante o treinamento. Descobrimos que características mais simples dominam no início do treinamento, e características mais complexas surgem gradualmente. Em terceiro lugar, investigamos onde, dentro da rede, as características simples e complexas fluem, e descobrimos que as características mais simples tendem a contornar a hierarquia visual por meio de conexões residuais. Por fim, exploramos a conexão entre a complexidade das características e sua importância na tomada de decisão da rede. Descobrimos que características complexas tendem a ser menos importantes. Surpreendentemente, características importantes se tornam acessíveis em camadas mais iniciais durante o treinamento, como um processo de sedimentação, permitindo que o modelo construa sobre esses elementos fundamentais encontrados.
Este artigo impulsiona o controle criativo em IA visual generativa ao permitir que os usuários "selecionem". Partindo de métodos tradicionais baseados em texto ou esboços, permitimos pela primeira vez que os usuários escolham conceitos visuais por partes para seus empreendimentos criativos. O resultado é uma geração detalhada que captura precisamente os conceitos visuais selecionados, garantindo um resultado fiel e plausível de forma holística. Para alcançar isso, primeiro dividimos objetos em partes por meio de agrupamento de características não supervisionado. Em seguida, codificamos as partes em tokens de texto e introduzimos uma perda de atenção normalizada baseada em entropia que opera sobre elas. Este design de perda permite que nosso modelo aprenda conhecimento genérico de topologia prévia sobre a composição das partes do objeto e generalize para composições de partes novas para garantir que a geração pareça holisticamente fiel. Por fim, empregamos um codificador de gargalo para projetar os tokens das partes. Isso não apenas aprimora a fidelidade, mas também acelera o aprendizado, aproveitando o conhecimento compartilhado e facilitando a troca de informações entre as instâncias. Os resultados visuais no artigo e no material suplementar mostram o poder convincente do PartCraft na criação de criações altamente personalizadas e inovadoras, exemplificadas pelos pássaros "encantadores" e criativos. O código está disponível em https://github.com/kamwoh/partcraft.
Os modelos de Vinculação de Entidades (EL) são bem treinados para mapear menções às suas entidades correspondentes de acordo com um contexto dado. No entanto, os modelos de EL têm dificuldade em desambiguar entidades de cauda longa devido à sua limitada quantidade de dados de treinamento. Enquanto isso, os grandes modelos de linguagem (LLMs) são mais robustos na interpretação de menções incomuns. No entanto, devido à falta de treinamento especializado, os LLMs sofrem para gerar IDs de entidades corretas. Além disso, o treinamento de um LLM para realizar EL é custoso. Com base nessas percepções, apresentamos o Vinculação de Entidades Aumentada por LLM (LLMAEL), uma abordagem plug-and-play para aprimorar a vinculação de entidades por meio da ampliação de dados de LLM. Nós aproveitamos os LLMs como ampliadores de contexto conhecedores, gerando descrições centradas na menção como entrada adicional, enquanto preservamos os modelos de EL tradicionais para processamento específico da tarefa. Experimentos em 6 conjuntos de dados padrão mostram que o LLMAEL comum supera os modelos de EL de referência na maioria dos casos, enquanto o LLMAEL ajustado estabelece os novos resultados de ponta em todos os 6 benchmarks.
Grandes modelos de linguagem (LLMs) apresentam alucinações em tarefas de perguntas e respostas de longo formato em diversos domínios e amplas aplicações. Conjuntos de dados atuais para detecção e mitigação de alucinações são limitados em domínios e tamanhos, o que dificulta a escalabilidade devido aos custos proibitivos de mão de obra e à confiabilidade insuficiente dos anotadores de alucinação existentes. Para facilitar a supervisão escalável de alucinações em LLMs, este artigo apresenta um framework iterativo de autoaprendizagem que escala simultaneamente o conjunto de dados de anotação de alucinação e melhora progressivamente a precisão do anotador de alucinação. Com base no algoritmo Expectation Maximization (EM), em cada iteração, o framework primeiro aplica um pipeline de anotação de alucinação para anotar um conjunto de dados escalado e depois treina um anotador de alucinação mais preciso com base nesse conjunto de dados. Esse novo anotador de alucinação é adotado no pipeline de anotação de alucinação usado na próxima iteração. Resultados experimentais extensivos demonstram que o anotador de alucinação final obtido, com apenas 7B de parâmetros, supera o desempenho do GPT-4 e alcança novos resultados de detecção de alucinação de última geração em HaluEval e HalluQA por inferência de zero-shot. Esse anotador não só pode avaliar os níveis de alucinação de vários LLMs em um conjunto de dados em grande escala, mas também pode ajudar a mitigar a alucinação das gerações de LLMs, com a métrica de Inferência de Linguagem Natural (NLI) aumentando de 25% para 37% em HaluEval.