Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar dos recentes avanços nos modelos generativos de grande escala para texto-imagem, a manipulação de imagens reais com esses modelos continua a ser um problema desafiador. As principais limitações dos métodos de edição existentes são que eles ou falham em executar com qualidade consistente em uma ampla gama de edições de imagem ou requerem um ajuste demorado de hiperparâmetros ou um ajuste fino (*fine-tuning*) do modelo de difusão para preservar a aparência específica da imagem de entrada. Propomos uma nova abordagem construída sobre um processo de amostragem de difusão modificado por meio do mecanismo de orientação (*guidance*). Neste trabalho, exploramos a técnica de autoorientação (*self-guidance*) para preservar a estrutura geral da imagem de entrada e a aparência de suas regiões locais que não devem ser editadas. Em particular, introduzimos explicitamente funções de energia de preservação de layout (*layout-preserving*) que visam salvar as estruturas locais e globais da imagem de origem. Adicionalmente, propomos um mecanismo de reescalonamento de ruído (*noise rescaling*) que permite preservar a distribuição de ruído ao equilibrar as normas da orientação livre de classificador (*classifier-free guidance*) e dos nossos orientadores propostos durante a geração. Tal abordagem de orientação não requer o ajuste fino do modelo de difusão nem um processo de inversão exato. Como resultado, o método proposto fornece um mecanismo de edição rápido e de alta qualidade. Em nossos experimentos, mostramos por meio de avaliação humana e análise quantitativa que o método proposto permite produzir a edição desejada, que é mais preferida pelos humanos, e também alcança um melhor equilíbrio entre a qualidade da edição e a preservação da imagem original. Nosso código está disponível em https://github.com/FusionBrainLab/Guide-and-Rescale.
Desde o advento do ChatGPT, os Modelos de Linguagem de Grande Porte (LLMs) têm se destacado em diversas tarefas, mas permanecem amplamente como sistemas de caixa preta. Consequentemente, seu desenvolvimento depende fortemente de abordagens orientadas por dados, limitando a melhoria de desempenho por meio de alterações na arquitetura interna e nos caminhos de raciocínio. Como resultado, muitos pesquisadores começaram a explorar os potenciais mecanismos internos dos LLMs, visando identificar a essência de seus gargalos de raciocínio, com a maioria dos estudos focando nas cabeças de atenção. Nossa pesquisa visa elucidar os processos internos de raciocínio dos LLMs, concentrando-se na interpretabilidade e nos mecanismos subjacentes das cabeças de atenção. Primeiro, destilamos o processo de pensamento humano em uma estrutura de quatro estágios: Recuperação de Conhecimento, Identificação em Contexto, Raciocínio Latente e Preparação para Expressão. Utilizando essa estrutura, revisamos sistematicamente pesquisas existentes para identificar e categorizar as funções de cabeças de atenção específicas. Além disso, resumimos as metodologias experimentais utilizadas para descobrir essas cabeças especiais, dividindo-as em duas categorias: métodos Livres de Modelagem e métodos que Requerem Modelagem. Também delineamos métodos de avaliação e benchmarks relevantes. Por fim, discutimos as limitações da pesquisa atual e propomos várias direções futuras potenciais. Nossa lista de referências está disponível em código aberto em https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.
O Fuzzing é uma importante técnica de análise dinâmica de programas projetada para encontrar vulnerabilidades em softwares complexos. O Fuzzing envolve a apresentação de entradas maliciosas elaboradas a um programa alvo para causar falhas, estouros de buffer, erros de memória e exceções. A elaboração eficiente de entradas maliciosas é um problema aberto e difícil, e as melhores abordagens frequentemente aplicam mutações aleatórias uniformes a entradas válidas pré-existentes. Neste trabalho, propomos a adoção de grandes modelos de linguagem afinados (FuzzCoder) para aprender padrões nos arquivos de entrada a partir de ataques bem-sucedidos, com o objetivo de orientar futuras explorações de fuzzing. Especificamente, desenvolvemos uma estrutura para alavancar os LLMs de código a fim de orientar o processo de mutação de entradas no fuzzing. O processo de mutação é formulado como uma modelagem sequência a sequência, onde o LLM recebe uma sequência de bytes e, em seguida, gera a sequência de bytes mutada. O FuzzCoder é afinado no conjunto de dados de instruções criado (Fuzz-Instruct), onde o histórico de fuzzing bem-sucedido é coletado a partir de uma ferramenta de fuzzing heurística. O FuzzCoder pode prever locais de mutação e estratégias em arquivos de entrada para desencadear comportamentos anormais do programa. Resultados experimentais mostram que o FuzzCoder, baseado no AFL (American Fuzzy Lop), obtém melhorias significativas em termos de proporção efetiva de mutação (EPM) e número de falhas (NC) para vários formatos de entrada, incluindo ELF, JPG, MP3 e XML.
Desde os primeiros exemplos de educação online, em que cursos eram carregados para plataformas online acessíveis e compartilhadas, esta forma de dimensionar a disseminação do conhecimento humano para alcançar um público mais amplo tem gerado discussões extensas e adoção generalizada. Reconhecendo que a aprendizagem personalizada ainda possui um potencial significativo de melhoria, novas tecnologias de IA têm sido integradas continuamente a este formato de aprendizagem, resultando numa variedade de aplicações educacionais de IA, como a recomendação educacional e o ensino inteligente. O surgimento da inteligência em modelos de linguagem de grande escala (LLMs) permitiu que esses aprimoramentos educacionais fossem construídos sobre um modelo fundamental unificado, possibilitando uma integração mais profunda. Neste contexto, propomos o MAIC (Massive AI-empowered Course), uma nova forma de educação online que aproveita sistemas multiagente dirigidos por LLMs para construir uma sala de aula aumentada por IA, equilibrando escalabilidade com adaptabilidade. Além de explorar a estrutura conceptual e as inovações técnicas, realizamos experiências preliminares na Universidade de Tsinghua, uma das principais universidades da China. Com base em mais de 100.000 registos de aprendizagem de mais de 500 estudantes, obtivemos uma série de observações valiosas e análises iniciais. Este projeto continuará a evoluir, visando, em última análise, estabelecer uma plataforma aberta e abrangente que apoie e unifique a investigação, a tecnologia e as aplicações na exploração das possibilidades da educação online na era da IA de grandes modelos. Prevemos que esta plataforma seja um centro colaborativo, reunindo educadores, investigadores e inovadores para explorar coletivamente o futuro da educação online orientada por IA.
A geração de objetos 3D de alta qualidade a partir de descrições textuais continua a ser um problema desafiador devido ao custo computacional, à escassez de dados 3D e às representações 3D complexas. Apresentamos o GIMDiffusion (Geometry Image Diffusion), um novo modelo Texto-para-3D que utiliza imagens geométricas para representar formas 3D de forma eficiente usando imagens 2D, evitando assim a necessidade de arquiteturas complexas com consciência 3D. Ao integrar um mecanismo de Controle Colaborativo, exploramos os ricos *priors* 2D de modelos existentes de Texto-para-Imagem, como o Stable Diffusion. Isso permite uma forte generalização mesmo com dados de treinamento 3D limitados (permitindo-nos usar apenas dados de treinamento de alta qualidade), bem como a manutenção da compatibilidade com técnicas de orientação, como o IPAdapter. Em suma, o GIMDiffusion permite a geração de ativos 3D em velocidades comparáveis aos atuais modelos Texto-para-Imagem. Os objetos gerados consistem em partes separadas semanticamente significativas e incluem estruturas internas, aumentando tanto a usabilidade quanto a versatilidade.
Os Modelos de Linguagem Multimodais de Grande Porte (MLLMs) alcançaram desempenho promissor em Compreensão de Documentos sem OCR ao aumentar a resolução suportada de imagens documentais. No entanto, isso ocorre ao custo de gerar milhares de tokens visuais para uma única imagem de documento, resultando em consumo excessivo de memória de GPU e tempos de inferência mais lentos, particularmente na compreensão de documentos multipágina. Neste trabalho, para enfrentar esses desafios, propomos um módulo High-resolution DocCompressor para comprimir cada imagem de documento de alta resolução em 324 tokens, orientado por características visuais globais de baixa resolução. Com este módulo de compressão, para fortalecer a capacidade de compreensão de documentos multipágina e equilibrar eficiência de tokens e desempenho em questionamento-resposta, desenvolvemos o DocOwl2 sob uma estrutura de treinamento em três estágios: Pré-treinamento com Imagem Única, Pré-treinamento Contínuo com Múltiplas Imagens e Ajuste Fino Multitarefa. O DocOwl2 estabelece um novo estado da arte em benchmarks de compreensão de documentos multipágina e reduz a latência do primeiro token em mais de 50%, demonstrando capacidades avançadas em questionamento-resposta multipágina, explicação com páginas de evidência e compreensão de estrutura cross-page. Adicionalmente, comparado com MLLMs de imagem única treinados em dados similares, nosso DocOwl2 alcança desempenho comparável em compreensão de página única com menos de 20% dos tokens visuais. Nossos códigos, modelos e dados estão publicamente disponíveis em https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
O reconhecimento de fórmulas apresenta desafios significativos devido à estrutura complexa e notação variada das expressões matemáticas. Apesar dos avanços contínuos nos modelos de reconhecimento de fórmulas, as métricas de avaliação empregadas por esses modelos, como BLEU e Edit Distance, ainda exibem limitações notáveis. Elas ignoram o fato de que a mesma fórmula possui representações diversas e é altamente sensível à distribuição dos dados de treinamento, causando assim injustiça na avaliação do reconhecimento de fórmulas. Para tanto, propomos uma métrica de Correspondência por Detecção de Caracteres (CDM), garantindo a objetividade da avaliação através do cálculo de uma pontuação métrica a nível de imagem em vez de a nível de LaTeX. Especificamente, o CDM converte tanto o LaTeX previsto pelo modelo quanto as fórmulas LaTeX de referência em fórmulas no formato de imagem, empregando em seguida técnicas de extração de características visuais e localização para uma correspondência precisa a nível de caractere, incorporando informações de posição espacial. Este método espacialmente consciente e baseado em correspondência de caracteres oferece uma avaliação mais precisa e equitativa em comparação com as métricas anteriores BLEU e Edit Distance, que dependem apenas da correspondência de caracteres baseada em texto. Experimentalmente, avaliamos vários modelos de reconhecimento de fórmulas usando CDM, BLEU e métricas ExpRate. Os resultados demonstram que o CDM se alinha mais estreitamente com os padrões de avaliação humana e fornece uma comparação mais justa entre diferentes modelos, eliminando discrepâncias causadas por representações diversas de fórmulas.
A crescente disponibilidade de dados de conversas do mundo real oferece oportunidades empolgantes para os pesquisadores estudarem as interações entre utilizadores e chatbots. No entanto, o volume massivo destes dados torna a análise manual de conversas individuais impraticável. Para superar este desafio, apresentamos o WildVis, uma ferramenta interativa que permite uma análise de conversas rápida, versátil e em larga escala. O WildVis oferece capacidades de pesquisa e visualização nos espaços de texto e de incorporação (embeddings) com base numa lista de critérios. Para gerir conjuntos de dados à escala de milhões, implementámos otimizações que incluem a construção de índices de pesquisa, pré-cálculo e compressão de incorporações, e cache, de modo a garantir interações do utilizador responsivas em questão de segundos. Demonstramos a utilidade do WildVis através de três estudos de caso: facilitar a investigação sobre o uso indevido de chatbots, visualizar e comparar distribuições de tópicos entre conjuntos de dados e caracterizar padrões de conversa específicos do utilizador. O WildVis é de código aberto e foi concebido para ser extensível, suportando conjuntos de dados adicionais e funcionalidades personalizadas de pesquisa e visualização.
Estudos recentes demonstraram que as capacidades de resolução de problemas matemáticos de modelos de linguagem grandes (LLMs) podem ser aprimoradas através da integração de ferramentas externas, como interpretadores de código, e da utilização de raciocínio em cadeia de pensamento (CoT) multi-turn. Embora os métodos atuais se concentrem na geração de dados sintéticos e no Ajuste Fino Supervisionado (SFT), este artigo estuda a abordagem complementar de aprendizagem por preferência direta para melhorar ainda mais o desempenho do modelo. No entanto, os algoritmos existentes de aprendizagem por preferência direta foram originalmente concebidos para a tarefa de chat single-turn e não abordam totalmente as complexidades do raciocínio multi-turn e da integração de ferramentas externas necessárias para tarefas de raciocínio matemático com integração de ferramentas. Para preencher esta lacuna, introduzimos uma estrutura de aprendizagem por preferência direta multi-turn, adaptada a este contexto, que aproveita o *feedback* de interpretadores de código e otimiza preferências a nível de trajetória. Esta estrutura inclui o DPO multi-turn e o KTO multi-turn como implementações específicas. A eficácia da nossa estrutura é validada através do treino de vários modelos de linguagem utilizando um conjunto de *prompts* aumentado dos conjuntos de dados GSM8K e MATH. Os nossos resultados demonstram melhorias substanciais: o desempenho de um modelo Gemma-1.1-it-7B com ajuste fino supervisionado aumentou de 77,5% para 83,9% no GSM8K e de 46,1% para 51,2% no MATH. De forma semelhante, um modelo Gemma-2-it-9B melhorou de 84,1% para 86,3% no GSM8K e de 51,0% para 54,5% no MATH.
O rápido desenvolvimento e a natureza dinâmica dos grandes modelos de linguagem (LLMs) tornam difícil para os benchmarks quantitativos convencionais avaliarem com precisão as suas capacidades. Propomos relatórios descritivos, que são resumos em linguagem natural e interpretáveis por humanos do comportamento do modelo para habilidades ou tópicos específicos. Desenvolvemos um framework para avaliar relatórios descritivos com base em três critérios: especificidade (capacidade de distinguir entre modelos), fidedignidade (representação precisa das capacidades do modelo) e interpretabilidade (clareza e relevância para humanos). Também propomos um algoritmo iterativo para gerar relatórios descritivos sem supervisão humana e exploramos a sua eficácia através da ablação de várias opções de design. Através de experimentação com LLMs populares, demonstramos que os relatórios descritivos fornecem insights além dos benchmarks tradicionais e podem ajudar a atender à necessidade de uma avaliação mais interpretável e holística dos LLMs.
A segmentação de vocabulário aberto apresenta desafios significativos, uma vez que requer a segmentação e reconhecimento de objetos em um conjunto aberto de categorias em ambientes não restritos. Baseando-se no sucesso de modelos de base (foundation models) poderosos de visão e linguagem (ViL), como o CLIP, esforços recentes buscaram aproveitar suas capacidades de generalização zero-shot para reconhecer categorias não vistas. Apesar de melhorias notáveis de desempenho, esses modelos ainda enfrentam o problema crítico de gerar propostas de máscaras precisas para categorias e cenários não vistos, resultando em desempenho de segmentação inferior no final. Para enfrentar esse desafio, introduzimos uma nova abordagem, a FrozenSeg, projetada para integrar o conhecimento espacial de um modelo de base de localização (por exemplo, SAM) e o conhecimento semântico extraído de um modelo ViL (por exemplo, CLIP), em uma estrutura sinérgica. Tomando o codificador visual do modelo ViL como *backbone* de características, injetamos a característica consciente do espaço nas consultas aprendíveis e nas características CLIP dentro do decodificador *transformer*. Além disso, concebemos uma estratégia de conjunto de propostas de máscara para melhorar ainda mais a taxa de *recall* e a qualidade da máscara. Para explorar totalmente o conhecimento pré-treinado, minimizando a sobrecarga de treinamento, congelamos ambos os modelos de base, focando os esforços de otimização unicamente em um decodificador *transformer* leve para a geração de propostas de máscara – o gargalo de desempenho. Experimentos extensivos demonstram que a FrozenSeg avança os resultados de *state-of-the-art* em vários benchmarks de segmentação, treinada exclusivamente em dados panópticos do COCO e testada de maneira zero-shot. O código está disponível em https://github.com/chenxi52/FrozenSeg.
Os grandes modelos de linguagem (LLMs) remodelaram o panorama da síntese de programas. No entanto, os sistemas contemporâneos de conclusão de código baseados em LLM frequentemente alucinam código incorreto porque carecem de contexto apropriado, particularmente ao trabalhar com definições que não estão nos dados de treinamento nem próximas do cursor. Este artigo demonstra que uma integração estreita com a estrutura de tipos e vinculação de uma linguagem, tal como exposta pelo seu servidor de linguagem, pode resolver este problema de contextualização de forma eficiente em termos de *tokens*. Em suma, defendemos que as IAs também precisam de IDEs! Em particular, integramos a geração de código por LLM no ambiente de esboço de programas ao vivo Hazel. O Hazel Language Server identifica o tipo e o contexto de tipagem do espaço (*hole*) que está sendo preenchido, mesmo na presença de erros, garantindo que um esboço de programa significativo esteja sempre disponível. Isso permite o *prompting* com informações contextuais de todo o código-fonte que não são lexicalmente locais ao cursor, nem necessariamente no mesmo arquivo, mas que provavelmente são semanticamente locais ao objetivo do desenvolvedor. As conclusões sintetizadas pelo LLM são então refinadas iterativamente por meio de um diálogo adicional com o servidor de linguagem. Para avaliar essas técnicas, introduzimos o MVUBench, um *dataset* de aplicações web *model-view-update* (MVU). Essas aplicações servem como problemas desafiadores devido à sua dependência de estruturas de dados específicas da aplicação. Concluímos que a contextualização com definições de tipos é particularmente impactante. Após introduzir nossas ideias no contexto do Hazel, duplicamos nossas técnicas e portamos o MVUBench para TypeScript a fim de validar a aplicabilidade desses métodos a linguagens com mais recursos. Por fim, esboçamos o ChatLSP, uma extensão conservadora ao *Language Server Protocol* (LSP) que os servidores de linguagem podem implementar para expor capacidades que os sistemas de conclusão de código por IA de vários designs podem usar para incorporar contexto estático ao gerar *prompts* para um LLM.