Artigos de pesquisa em IA selecionados diariamente com traduções
Adicionar objetos em imagens com base em instruções de texto é uma tarefa desafiadora na edição semântica de imagens, exigindo um equilíbrio entre preservar a cena original e integrar o novo objeto de forma harmoniosa em um local apropriado. Apesar dos esforços extensivos, os modelos existentes frequentemente enfrentam dificuldades nesse equilíbrio, especialmente ao encontrar um local natural para adicionar um objeto em cenas complexas. Apresentamos o Add-it, uma abordagem sem treinamento que estende os mecanismos de atenção dos modelos de difusão para incorporar informações de três fontes-chave: a imagem da cena, a instrução de texto e a própria imagem gerada. Nosso mecanismo de atenção estendida ponderado mantém a consistência estrutural e os detalhes finos, garantindo ao mesmo tempo uma colocação natural do objeto. Sem ajustes finos específicos da tarefa, o Add-it alcança resultados de ponta em benchmarks de inserção de imagem reais e geradas, incluindo nosso novo "Benchmarks de Adição de Recursos" para avaliar a plausibilidade da colocação do objeto, superando métodos supervisionados. Avaliações humanas mostram que o Add-it é preferido em mais de 80% dos casos, e também demonstra melhorias em várias métricas automatizadas.
Métodos de edição de imagens guiados por instruções têm demonstrado um potencial significativo ao treinar modelos de difusão em pares de edição de imagem sintetizados automaticamente ou anotados manualmente. No entanto, esses métodos ainda estão longe de aplicações práticas na vida real. Identificamos três desafios principais que contribuem para essa lacuna. Em primeiro lugar, os modelos existentes têm habilidades de edição limitadas devido ao processo de síntese enviesado. Em segundo lugar, esses métodos são treinados com conjuntos de dados com um alto volume de ruído e artefatos, devido à aplicação de métodos de filtragem simples como o CLIP-score. Em terceiro lugar, todos esses conjuntos de dados são restritos a uma única baixa resolução e proporção de aspecto fixa, limitando a versatilidade para lidar com casos de uso do mundo real. Neste artigo, apresentamos o \omniedit, que é um editor onipotente para lidar com sete tarefas diferentes de edição de imagem com qualquer proporção de aspecto de forma contínua. Nossa contribuição se desdobra em quatro partes: (1) \omniedit é treinado utilizando a supervisão de sete modelos especialistas diferentes para garantir a cobertura de tarefas. (2) Utilizamos amostragem por importância com base nas pontuações fornecidas por grandes modelos multimodais (como o GPT-4o) em vez do CLIP-score para melhorar a qualidade dos dados. (3) Propomos uma nova arquitetura de edição chamada EditNet para aumentar significativamente a taxa de sucesso na edição. (4) Fornecemos imagens com diferentes proporções de aspecto para garantir que nosso modelo possa lidar com qualquer imagem na natureza. Criamos um conjunto de testes contendo imagens de diferentes proporções de aspecto, acompanhadas de instruções diversas para cobrir diferentes tarefas. Tanto a avaliação automática quanto as avaliações humanas demonstram que o \omniedit pode superar significativamente todos os modelos existentes. Nosso código, conjunto de dados e modelo estarão disponíveis em https://tiger-ai-lab.github.io/OmniEdit/
A capacidade de compreender e responder a perguntas sobre documentos pode ser útil em muitas aplicações comerciais e práticas. No entanto, os documentos frequentemente contêm conteúdos multimodais extensos e diversos, como textos, figuras e tabelas, que são muito demorados para os humanos lerem minuciosamente. Portanto, há uma necessidade urgente de desenvolver métodos eficazes e automatizados para auxiliar os humanos nessa tarefa. Neste trabalho, apresentamos o M-LongDoc, um benchmark de 851 amostras, e um framework automatizado para avaliar o desempenho de modelos multimodais grandes. Além disso, propomos uma abordagem de ajuste consciente da recuperação para leitura eficiente e eficaz de documentos multimodais. Em comparação com trabalhos existentes, nosso benchmark é composto por documentos mais recentes e extensos, com centenas de páginas, exigindo soluções abertas e não apenas respostas extrativas. Até onde sabemos, nosso framework de treinamento é o primeiro a abordar diretamente o cenário de recuperação para documentos multimodais longos. Para permitir o ajuste de modelos de código aberto, construímos um corpus de treinamento de forma totalmente automática para a tarefa de questionamento e resposta sobre tais documentos. Experimentos mostram que nossa abordagem de ajuste alcança uma melhoria relativa de 4,6% na correção das respostas do modelo, em comparação com os modelos de código aberto de referência. Nossos dados, código e modelos estão disponíveis em https://multimodal-documents.github.io.
Novos padrões de avaliação de LLM são importantes para se alinhar com o rápido desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs). Neste trabalho, apresentamos o Chinese SimpleQA, o primeiro benchmark chinês abrangente para avaliar a capacidade de factualidade de modelos de linguagem para responder a perguntas curtas, e o Chinese SimpleQA possui principalmente cinco propriedades (ou seja, Chinês, Diversificado, de Alta Qualidade, Estático, Fácil de Avaliar). Especificamente, primeiro, focamos na língua chinesa em mais de 6 tópicos principais com 99 sub-tópicos diversos. Segundo, realizamos um processo abrangente de controle de qualidade para obter perguntas e respostas de alta qualidade, onde as respostas de referência são estáticas e não podem ser alteradas ao longo do tempo. Terceiro, seguindo o SimpleQA, as perguntas e respostas são muito curtas, e o processo de avaliação é fácil de ser realizado com base na API da OpenAI. Com base no Chinese SimpleQA, realizamos uma avaliação abrangente das habilidades de factualidade dos LLMs existentes. Por fim, esperamos que o Chinese SimpleQA possa orientar os desenvolvedores a compreender melhor as habilidades de factualidade chinesas de seus modelos e facilitar o crescimento dos modelos fundamentais.
Apresentamos o Edify Image, uma família de modelos de difusão capazes de gerar conteúdo de imagem fotorrealista com precisão de pixel perfeita. O Edify Image utiliza modelos de difusão em cascata no espaço de pixel, treinados usando um processo de difusão laplaciano inovador, no qual os sinais de imagem em diferentes bandas de frequência são atenuados em taxas variadas. O Edify Image suporta uma ampla gama de aplicações, incluindo síntese de texto para imagem, ampliação para 4K, ControlNets, geração de panorama HDR 360 e ajuste fino para personalização de imagem.
Os métodos de marca d'água em imagens não são adaptados para lidar com áreas pequenas marcadas. Isso limita as aplicações em cenários do mundo real onde partes da imagem podem vir de diferentes fontes ou terem sido editadas. Apresentamos um modelo de aprendizado profundo para marcação de imagens localizadas, apelidado de Modelo Watermark Anything (WAM). O incorporador WAM modifica imperceptivelmente a imagem de entrada, enquanto o extrator segmenta a imagem recebida em áreas marcadas e não marcadas e recupera uma ou várias mensagens ocultas das áreas identificadas como marcadas. Os modelos são treinados em conjunto em baixa resolução e sem restrições perceptuais, e depois são pós-treinados para imperceptibilidade e múltiplas marcas d'água. Experimentos mostram que o WAM é competitivo com métodos de ponta em termos de imperceptibilidade e robustez, especialmente contra inpainting e splicing, mesmo em imagens de alta resolução. Além disso, ele oferece novas capacidades: o WAM pode localizar áreas marcadas em imagens spliced e extrair mensagens distintas de 32 bits com menos de 1 bit de erro de múltiplas regiões pequenas - não maiores do que 10% da superfície da imagem - mesmo para imagens pequenas de 256 vezes 256.
A rápida evolução das bibliotecas de software apresenta um desafio significativo para os modelos de geração de código, os quais precisam se adaptar a atualizações frequentes de versões, ao mesmo tempo que mantêm a compatibilidade com versões anteriores. As referências existentes de conclusão de código frequentemente negligenciam esse aspecto dinâmico, e aquela que considera isso baseia-se em tarefas estáticas de previsão de código sem avaliação baseada em execução, oferecendo uma perspectiva limitada sobre a usabilidade prática de um modelo. Para abordar essa lacuna, introduzimos o \GitChameleon{}, um conjunto de dados inovador e manualmente elaborado, composto por 116 problemas de conclusão de código em Python, cada um condicionado a versões específicas de bibliotecas e acompanhado por testes de unidade executáveis. O \GitChameleon{} foi projetado para avaliar rigorosamente a capacidade dos modernos modelos de linguagem de grande escala (LLMs) de gerar código específico de versão que não apenas seja sintaticamente correto, mas também funcionalmente preciso após a execução. Nossas avaliações abrangentes revelam que os LLMs de ponta enfrentam dificuldades nessa tarefa; por exemplo, o GPT-4o alcança um pass@10 de apenas 39,9\% (43,7\% quando fornecido com feedback de erro), destacando a complexidade do problema e as limitações dos modelos atuais. Ao fornecer um referencial baseado em execução que enfatiza a natureza dinâmica das bibliotecas de código, o \GitChameleon{} serve como uma ferramenta crítica para avançar no desenvolvimento de modelos de geração de código mais adaptáveis e confiáveis. Para facilitar a exploração adicional da geração de código condicionada à versão, disponibilizamos nosso repositório de código publicamente em https://github.com/NizarIslah/GitChameleon.
No âmbito dos grandes modelos de linguagem (LLMs), a capacidade dos modelos de seguir com precisão as instruções é fundamental, à medida que mais agentes e aplicações aproveitam os LLMs para a construção, onde a complexidade das instruções está aumentando rapidamente. No entanto, por um lado, há apenas uma certa quantidade de dados de avaliação de instruções complexas; por outro lado, não existem algoritmos dedicados para melhorar a capacidade de seguir instruções complexas. Para esse fim, este artigo apresenta TRACE, um benchmark para melhorar e avaliar a capacidade de seguir instruções complexas, que consiste em 120 mil dados de treinamento e 1 mil dados de avaliação. Além disso, propomos o método de alinhamento IOPO (Otimização de Preferência de Entrada-Saída) que leva em consideração pares de preferência de entrada e saída, onde os LLMs não apenas se alinham rapidamente com as preferências de resposta, mas também exploram meticulosamente as preferências de instrução. Experimentos extensivos em conjuntos de dados tanto dentro do domínio quanto fora do domínio confirmam a eficácia do IOPO, mostrando melhorias de 8,15% e 2,18% nos dados dentro do domínio e 6,29% e 3,13% nos dados fora do domínio em comparação com SFT e DPO, respectivamente.
A modelagem autoregressiva tem sido um grande sucesso no campo do processamento de linguagem natural (NLP). Recentemente, os modelos autoregressivos surgiram como uma área significativa de foco em visão computacional, onde se destacam na produção de conteúdo visual de alta qualidade. Os modelos autoregressivos em NLP normalmente operam em tokens de subpalavras. No entanto, a estratégia de representação em visão computacional pode variar em diferentes níveis, ou seja, nível de pixel, nível de token ou nível de escala, refletindo a natureza diversa e hierárquica dos dados visuais em comparação com a estrutura sequencial da linguagem. Esta pesquisa examina abrangente a literatura sobre modelos autoregressivos aplicados à visão. Para melhorar a legibilidade para pesquisadores de diversos backgrounds de pesquisa, começamos com a representação preliminar de sequências e modelagem em visão. Em seguida, dividimos os frameworks fundamentais dos modelos autoregressivos visuais em três subcategorias gerais, incluindo modelos baseados em pixel, baseados em token e baseados em escala, com base na estratégia de representação. Em seguida, exploramos as interconexões entre modelos autoregressivos e outros modelos generativos. Além disso, apresentamos uma categorização multifacetada de modelos autoregressivos em visão, incluindo geração de imagens, geração de vídeos, geração 3D e geração multimodal. Também detalhamos suas aplicações em diversos domínios, incluindo domínios emergentes como IA incorporada e IA médica 3D, com cerca de 250 referências relacionadas. Por fim, destacamos os desafios atuais dos modelos autoregressivos em visão com sugestões sobre possíveis direções de pesquisa. Também criamos um repositório no Github para organizar os artigos incluídos nesta pesquisa em: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
Este artigo investiga a racionalidade de grandes modelos de linguagem (LLMs) em contextos de tomada de decisão estratégica, especificamente dentro do framework da teoria dos jogos. Avaliamos diversos LLMs de ponta em uma gama de jogos de informação completa e incompleta. Nossas descobertas revelam que os LLMs frequentemente se desviam de estratégias racionais, especialmente à medida que a complexidade do jogo aumenta com matrizes de recompensa maiores ou árvores sequenciais mais profundas. Para lidar com essas limitações, projetamos múltiplos fluxos de trabalho de teoria dos jogos que orientam os processos de raciocínio e tomada de decisão dos LLMs. Esses fluxos de trabalho visam aprimorar a capacidade dos modelos de calcular Equilíbrios de Nash e fazer escolhas racionais, mesmo sob condições de incerteza e informação incompleta. Resultados experimentais demonstram que a adoção desses fluxos de trabalho melhora significativamente a racionalidade e robustez dos LLMs em tarefas de teoria dos jogos. Especificamente, com o fluxo de trabalho, os LLMs apresentam melhorias significativas na identificação de estratégias ótimas, alcançando alocações quase ótimas em cenários de negociação e reduzindo a suscetibilidade à exploração durante negociações. Além disso, exploramos as considerações metaestratégicas sobre se é racional para agentes adotarem tais fluxos de trabalho, reconhecendo que a decisão de usar ou renunciar ao fluxo de trabalho constitui uma questão de teoria dos jogos em si. Nossa pesquisa contribui para uma compreensão mais profunda das capacidades de tomada de decisão dos LLMs em contextos estratégicos e fornece insights para aprimorar sua racionalidade por meio de fluxos de trabalho estruturados. As descobertas têm implicações para o desenvolvimento de agentes de IA mais robustos e estrategicamente sólidos capazes de navegar em ambientes interativos complexos. O código e os dados que apoiam este estudo estão disponíveis em https://github.com/Wenyueh/game_theory.
Compreender e manipular os mecanismos de geração causal em modelos de linguagem é essencial para controlar seu comportamento. Trabalhos anteriores têm se baseado principalmente em técnicas como cirurgia de representação - por exemplo, ablações de modelo ou manipulação de subespaços lineares ligados a conceitos específicos - para intervir nesses modelos. Para compreender precisamente o impacto das intervenções, é útil examinar contrafactuais - por exemplo, como uma determinada frase teria aparecido se tivesse sido gerada pelo modelo seguindo uma intervenção específica. Destacamos que o raciocínio contrafactual é conceitualmente distinto das intervenções, conforme articulado na hierarquia causal de Pearl. Com base nessa observação, propomos um framework para gerar verdadeiros contrafactuais de string reformulando modelos de linguagem como Modelos de Equações Estruturais Generalizadas usando o truque Gumbel-max. Isso nos permite modelar a distribuição conjunta sobre strings originais e seus contrafactuais resultantes da mesma instanciação do ruído de amostragem. Desenvolvemos um algoritmo baseado em amostragem Gumbel retrospectiva que nos permite inferir as variáveis de ruído latentes e gerar contrafactuais de strings observadas. Nossos experimentos demonstram que a abordagem produz contrafactuais significativos, ao mesmo tempo em que mostram que as técnicas de intervenção comumente usadas têm efeitos colaterais indesejados consideráveis.
A geração de movimento humano é uma área de pesquisa de ponta em visão computacional generativa, com aplicações promissoras na criação de vídeos, desenvolvimento de jogos e manipulação robótica. A recente arquitetura Mamba apresenta resultados promissores na modelagem eficiente de sequências longas e complexas, no entanto, dois desafios significativos permanecem: em primeiro lugar, a aplicação direta do Mamba para a geração de movimento estendido é ineficaz, devido à capacidade limitada da memória implícita que leva à deterioração da memória. Em segundo lugar, o Mamba enfrenta dificuldades com a fusão multimodal em comparação com os Transformers, e a falta de alinhamento com consultas textuais, frequentemente confundindo direções (esquerda ou direita) ou omitindo partes de consultas de texto mais longas. Para enfrentar esses desafios, nosso artigo apresenta três contribuições-chave: em primeiro lugar, introduzimos o KMM, uma arquitetura inovadora apresentando Modelagem de Máscara de Quadro-Chave, projetada para aprimorar o foco do Mamba em ações-chave em segmentos de movimento. Esta abordagem aborda o problema da deterioração da memória e representa um método pioneiro na personalização de máscaras estratégicas ao nível do quadro em SSMs. Além disso, projetamos um paradigma de aprendizado contrastivo para abordar o problema de fusão multimodal no Mamba e melhorar o alinhamento entre movimento e texto. Por fim, realizamos experimentos extensivos no conjunto de dados de referência, BABEL, alcançando desempenho de ponta com uma redução de mais de 57% no FID e 70% de parâmetros em comparação com métodos anteriores de ponta. Consulte o site do projeto: https://steve-zeyu-zhang.github.io/KMM
Algoritmos de ajuste fino de segurança são comumente usados para ajustar modelos de linguagem a fim de reduzir as saídas prejudiciais, mas os mecanismos internos exatos de como esses modelos alcançam isso permanecem obscuros. Ao estudar a otimização de preferência direta (OPD) para redução de toxicidade, explicações atuais afirmam que a OPD funciona ao amortecer os neurônios MLP mais tóxicos para aprender um deslocamento a fim de evitar regiões tóxicas no fluxo residual. No entanto, ao abater os neurônios mais tóxicos e aplicar correção de ativação, descobrimos que essa explicação é incompleta. Ao projetar mudanças na ativação dos neurônios em uma sonda de toxicidade, descobrimos que apenas 31,8\% da redução de toxicidade vem dos neurônios tóxicos amortecidos. Em vez disso, a OPD reduz a toxicidade acumulando efeitos em vários grupos de neurônios, tanto reduzindo a escrita na direção tóxica quanto promovendo a anti-toxicidade no fluxo residual. Além disso, a OPD fornece ajustes ruidosos nas ativações dos neurônios, com muitos neurônios aumentando efetivamente a toxicidade. Isso indica que a OPD é um processo de equilíbrio entre efeitos opostos dos neurônios para alcançar a redução de toxicidade.
Os grandes modelos de linguagem (LLMs) têm demonstrado um sucesso significativo em tarefas de processamento de linguagem natural (NLP) e têm mostrado resultados promissores em outros domínios, como a geração de sequências de proteínas. No entanto, existem diferenças marcantes entre os LLMs usados para NLP, que lidam efetivamente com múltiplas tarefas e estão disponíveis em tamanhos pequenos, e os modelos de linguagem de proteínas que muitas vezes são especializados para tarefas específicas e existem apenas em tamanhos maiores. Neste trabalho, apresentamos dois pequenos modelos de linguagem de proteínas, baseados em Llama-3-8B e Phi-3-mini, que são capazes de gerar proteínas tanto de forma incontrolável quanto controlável. Para a tarefa de geração incontrolável, nosso melhor modelo alcança uma pontuação média de pLDDT de 69,75, demonstrando um desempenho robusto na geração de estruturas de proteínas viáveis. Para a tarefa de geração controlável, na qual o modelo gera proteínas de acordo com propriedades especificadas no estímulo, alcançamos uma notável pontuação média de TM-Score de 0,84, indicando alta similaridade estrutural com proteínas-alvo. Escolhemos 10 propriedades, incluindo seis classes de enzimas, para ampliar as capacidades dos modelos de linguagem de proteínas anteriores. Nossa abordagem utiliza a técnica de Adaptador de Baixo Rank (LoRA), reduzindo os parâmetros treináveis para apenas 4% do tamanho original do modelo, reduzindo os requisitos computacionais. Ao usar um subconjunto do conjunto de dados UniRef50 e modelos pequenos, reduzimos o tempo total de treinamento em 70% sem comprometer o desempenho. Notavelmente, o Phi-3-mini reduziu os parâmetros treináveis em 60%, diminuindo o custo de treinamento em 30% em comparação com o Llama 3. Consequentemente, o Phi-3 alcançou um TM-Score comparável de 0,81, demonstrando que modelos menores podem igualar o desempenho dos maiores, como o Llama 3. Também demonstramos a implantação de nossos modelos no chip de baixo consumo de energia ET-SoC-1, melhorando significativamente o TPS/W em um fator de 3.
A construção de um corretor de erros pós-reconhecimento de propósito geral coloca uma questão crucial: como podemos treinar de forma mais eficaz um modelo em uma grande mistura de conjuntos de dados de domínio? A resposta estaria em aprender características específicas de conjuntos de dados e assimilar seu conhecimento em um único modelo. Métodos anteriores alcançam isso ao ter modelos de linguagem de correção separados, resultando em um aumento significativo de parâmetros. Neste trabalho, apresentamos a Mistura de Especialistas como uma solução, destacando que as MoEs são muito mais do que uma ferramenta de escalabilidade. Propomos uma MoE de Correção Multi-Tarefa, onde treinamos os especialistas para se tornarem um "especialista" em conjuntos de dados de fala-para-texto, linguagem-para-texto e visão-para-texto, aprendendo a rotear os tokens de cada conjunto de dados para seu especialista mapeado. Experimentos no Open ASR Leaderboard mostram que exploramos um novo estado-da-arte ao alcançar uma redução média relativa de 5,0% no WER e melhorias substanciais nos escores BLEU para tarefas de fala e tradução. Na avaliação de zero-shot, NeKo supera o GPT-3.5 e o Claude-Opus com uma redução relativa de WER de 15,5% a 27,6% no benchmark Hyporadise. NeKo tem um desempenho competitivo na correção gramatical e pós-OCR como um modelo multi-tarefa.
À medida que os grandes modelos de linguagem se tornam cada vez mais prevalentes no setor financeiro, há uma necessidade premente de um método padronizado para avaliar abrangente seu desempenho. No entanto, os benchmarks financeiros existentes frequentemente sofrem com cobertura limitada de idiomas e tarefas, bem como desafios como conjuntos de dados de baixa qualidade e adaptabilidade inadequada para avaliação de LLMs. Para lidar com essas limitações, propomos o "Golden Touchstone", o primeiro benchmark bilíngue abrangente para LLMs financeiros, que incorpora conjuntos de dados representativos tanto em chinês quanto em inglês em oito tarefas principais de PNL financeira. Desenvolvido a partir de extensa coleta de dados de código aberto e demandas específicas da indústria, este benchmark inclui uma variedade de tarefas financeiras com o objetivo de avaliar minuciosamente as capacidades de compreensão e geração de linguagem dos modelos. Através da análise comparativa de grandes modelos no benchmark, como GPT-4o Llama3, FinGPT e FinMA, revelamos suas forças e limitações no processamento de informações financeiras complexas. Além disso, disponibilizamos o Touchstone-GPT de código aberto, um LLM financeiro treinado por pré-treinamento contínuo e ajuste de instruções financeiras, que demonstra um desempenho sólido no benchmark bilíngue, mas ainda apresenta limitações em tarefas específicas. Esta pesquisa não apenas fornece aos grandes modelos de linguagem financeira uma ferramenta de avaliação prática, mas também orienta o desenvolvimento e otimização de pesquisas futuras. O código-fonte do Golden Touchstone e os pesos do modelo do Touchstone-GPT foram disponibilizados publicamente em https://github.com/IDEA-FinAI/Golden-Touchstone, contribuindo para a evolução contínua dos FinLLMs e fomentando pesquisas adicionais nesta área crítica.