Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo aborda um problema importante de adição de objetos para imagens apenas com orientação de texto. É desafiador porque o novo objeto deve ser integrado de forma perfeita na imagem com contexto visual consistente, como iluminação, textura e localização espacial. Enquanto os métodos existentes de preenchimento de imagem guiados por texto podem adicionar objetos, eles falham em preservar a consistência do plano de fundo ou envolvem uma intervenção humana complicada na especificação de caixas delimitadoras ou máscaras desenhadas pelo usuário. Para enfrentar esse desafio, apresentamos o Diffree, um modelo Texto-para-Imagem (T2I) que facilita a adição de objetos guiada por texto com apenas controle de texto. Para isso, criamos o OABench, um conjunto de dados sintético requintado removendo objetos com técnicas avançadas de preenchimento de imagem. O OABench é composto por 74 mil tuplas do mundo real de uma imagem original, uma imagem preenchida com o objeto removido, uma máscara de objeto e descrições de objetos. Treinado no OABench usando o modelo de Difusão Estável com um módulo adicional de previsão de máscara, o Diffree prevê de forma única a posição do novo objeto e realiza a adição do objeto com orientação apenas de texto. Experimentos extensivos demonstram que o Diffree se destaca na adição de novos objetos com uma alta taxa de sucesso, mantendo a consistência do plano de fundo, a adequação espacial e a relevância e qualidade do objeto.
Apresentamos o "LAMBDA", um novo sistema de análise de dados multiagente de código aberto e sem código que aproveita o poder de grandes modelos. O LAMBDA é projetado para enfrentar desafios de análise de dados em aplicações complexas orientadas por dados por meio do uso de agentes de dados inovadoramente projetados que operam de forma iterativa e generativa usando linguagem natural. No cerne do LAMBDA estão dois papéis-chave de agentes: o programador e o inspetor, que são projetados para trabalhar juntos de forma contínua. Especificamente, o programador gera código com base nas instruções do usuário e no conhecimento específico do domínio, aprimorado por modelos avançados. Enquanto isso, o inspetor depura o código quando necessário. Para garantir robustez e lidar com cenários adversos, o LAMBDA apresenta uma interface de usuário que permite intervenção direta do usuário no loop operacional. Além disso, o LAMBDA pode integrar de forma flexível modelos e algoritmos externos por meio de nosso mecanismo de integração de conhecimento, atendendo às necessidades de análise de dados personalizada. O LAMBDA demonstrou forte desempenho em vários conjuntos de dados de aprendizado de máquina. Ele tem o potencial de aprimorar a prática de ciência de dados e o paradigma de análise integrando de forma contínua inteligência humana e artificial, tornando-o mais acessível, eficaz e eficiente para indivíduos de diversos backgrounds. O forte desempenho do LAMBDA na resolução de problemas de ciência de dados é demonstrado em diversos estudos de caso, que estão disponíveis em https://www.polyu.edu.hk/ama/cmfai/lambda.html.
Os avanços recentes em modelos de linguagem grandes (LLMs) abriram novas possibilidades para a aplicação de sistemas multiagentes em simulações em larga escala. No entanto, ainda existem vários desafios ao conduzir simulações multiagentes com as plataformas existentes, como escalabilidade limitada e baixa eficiência, diversidade insatisfatória de agentes e processos de gerenciamento intensivos. Para enfrentar esses desafios, desenvolvemos várias novas funcionalidades e componentes para o AgentScope, uma plataforma multiagente amigável ao usuário, aprimorando sua conveniência e flexibilidade para suportar simulações multiagentes em larga escala. Especificamente, propomos um mecanismo distribuído baseado em atores como a infraestrutura tecnológica subjacente para grande escalabilidade e alta eficiência, e fornecemos suporte de ambiente flexível para simular vários cenários do mundo real, o que permite a execução paralela de múltiplos agentes, orquestração centralizada do fluxo de trabalho e interações entre agentes e entre agentes e o ambiente. Além disso, integramos uma ferramenta configurável fácil de usar e um pipeline de geração de plano de fundo automático no AgentScope, simplificando o processo de criação de agentes com configurações de plano de fundo diversificadas e detalhadas. Por fim, fornecemos uma interface baseada na web para monitorar e gerenciar convenientemente um grande número de agentes que podem ser implantados em vários dispositivos. Realizamos uma simulação abrangente para demonstrar a eficácia das melhorias propostas no AgentScope e fornecemos observações e discussões detalhadas para destacar o grande potencial da aplicação de sistemas multiagentes em simulações em larga escala. O código-fonte está disponível no GitHub em https://github.com/modelscope/agentscope para inspirar pesquisas e desenvolvimentos adicionais em simulações multiagentes em larga escala.
Ao treinar em conjuntos de dados em larga escala, os métodos de estimativa de profundidade monocular sem uso de rótulos (MDE) demonstram um desempenho robusto em ambientes naturais, mas frequentemente sofrem com detalhes insuficientemente precisos. Embora abordagens recentes de MDE baseadas em difusão exibam uma capacidade atrativa de extração de detalhes, ainda enfrentam dificuldades em cenas geometricamente desafiadoras devido à complexidade de obter informações geométricas robustas a partir de conjuntos de dados diversos. Para aproveitar os méritos complementares de ambos os mundos, propomos o BetterDepth para alcançar de forma eficiente um desempenho de MDE geometricamente correto e invariante a afinidades, capturando detalhes refinados. Especificamente, o BetterDepth é um refinador baseado em difusão condicional que utiliza a previsão de modelos de MDE pré-treinados como condicionamento de profundidade, no qual o contexto global de profundidade é bem capturado, refinando detalhes de forma iterativa com base na imagem de entrada. Para o treinamento desse refinador, propomos métodos de pré-alinhamento global e mascaramento de patches locais para garantir a fidelidade do BetterDepth ao condicionamento de profundidade, ao mesmo tempo em que aprende a capturar detalhes refinados da cena. Por meio de um treinamento eficiente em conjuntos de dados sintéticos em pequena escala, o BetterDepth alcança um desempenho de MDE sem uso de rótulos de ponta em diversos conjuntos de dados públicos e em cenas naturais. Além disso, o BetterDepth pode melhorar o desempenho de outros modelos de MDE de forma plug-and-play, sem necessidade de re-treinamento adicional.
Agentes de IA têm atraído crescente atenção principalmente por sua capacidade de perceber ambientes, entender tarefas e alcançar objetivos autonomamente. Para avançar na pesquisa sobre agentes de IA em cenários móveis, apresentamos o Android Multi-annotation EXpo (AMEX), um conjunto de dados abrangente em grande escala projetado para agentes de controle de GUI móvel generalistas. Suas capacidades de completar tarefas complexas interagindo diretamente com a interface gráfica do usuário (GUI) em dispositivos móveis são treinadas e avaliadas com o conjunto de dados proposto. AMEX é composto por mais de 104 mil capturas de tela de alta resolução de 110 aplicativos móveis populares, que são anotados em vários níveis. Ao contrário de conjuntos de dados existentes de controle de dispositivos móveis, como MoTIF, AitW, etc., AMEX inclui três níveis de anotações: fundamentação de elementos interativos da GUI, descrições de tela e elementos da GUI e instruções complexas em linguagem natural, cada uma com uma média de 13 etapas com cadeias de ações da GUI passo a passo. Desenvolvemos este conjunto de dados a partir de uma perspectiva mais instrutiva e detalhada, complementando as configurações gerais de conjuntos de dados existentes. Além disso, desenvolvemos um modelo de referência, o Agente SPHINX, e comparamos seu desempenho com agentes de última geração treinados em outros conjuntos de dados. Para facilitar pesquisas futuras, disponibilizamos nosso conjunto de dados, modelos e ferramentas de avaliação relevantes em código aberto. O projeto está disponível em https://yuxiangchai.github.io/AMEX/
O risco de conteúdo prejudicial gerado por grandes modelos de linguagem (LLMs) torna-se uma preocupação crítica. Este artigo apresenta um estudo sistemático sobre a avaliação e melhoria da capacidade dos LLMs de realizar a tarefa de correção de curso, ou seja, o modelo pode se afastar da geração de conteúdo prejudicial autonomamente. Para começar, introduzimos o benchmark C^2-Eval para avaliação quantitativa e analisamos 10 LLMs populares, revelando proficiências variadas dos atuais LLMs ajustados para segurança na correção de curso. Para melhorar, propomos ajustar finamente os LLMs com aprendizado de preferência, enfatizando a preferência pela correção de curso oportuna. Usando um pipeline automatizado, criamos o C^2-Syn, um conjunto de dados sintéticos com 750 mil preferências em pares, para ensinar aos modelos o conceito de correção de curso oportuna por meio de aprendizado de preferência orientado por dados. Experimentos com 2 LLMs, Llama2-Chat 7B e Qwen2 7B, mostram que nosso método aprimora efetivamente as habilidades de correção de curso sem afetar o desempenho geral. Além disso, melhora efetivamente a segurança dos LLMs, especialmente na resistência a ataques de jailbreak.
Os dados de pré-treinamento dos modelos de linguagem mais avançados de hoje são opacos. Em particular, pouco se sabe sobre as proporções de vários domínios ou idiomas representados. Neste trabalho, abordamos uma tarefa que chamamos de inferência de mistura de dados, que tem como objetivo descobrir a composição distribucional dos dados de treinamento. Introduzimos um ataque inovador baseado em uma fonte de informação anteriormente negligenciada - os tokenizadores de codificação de pares de bytes (BPE), usados pela grande maioria dos modelos de linguagem modernos. Nossa principal percepção é que a lista ordenada de regras de mesclagem aprendidas por um tokenizador BPE revela naturalmente informações sobre as frequências de tokens em seus dados de treinamento: a primeira mesclagem é o par de bytes mais comum, a segunda é o par mais comum após mesclar o primeiro token, e assim por diante. Dado a lista de mesclagens de um tokenizador juntamente com amostras de dados para cada categoria de interesse, formulamos um programa linear que resolve a proporção de cada categoria no conjunto de treinamento do tokenizador. Importante ressaltar que, na medida em que os dados de treinamento do tokenizador são representativos dos dados de pré-treinamento, aprendemos indiretamente sobre os dados de pré-treinamento. Em experimentos controlados, mostramos que nosso ataque recupera proporções de mistura com alta precisão para tokenizadores treinados em misturas conhecidas de idiomas naturais, linguagens de programação e fontes de dados. Em seguida, aplicamos nossa abordagem a tokenizadores prontos para uso lançados com LMs recentes. Confirmamos muitas informações publicamente divulgadas sobre esses modelos e também fazemos várias novas inferências: o tokenizador do GPT-4o é muito mais multilíngue do que seus predecessores, treinando com 39% de dados não ingleses; o Llama3 estende o tokenizador do GPT-3.5 principalmente para uso multilíngue (48%); os tokenizadores do GPT-3.5 e do Claude são treinados predominantemente em código (~60%). Esperamos que nosso trabalho esclareça as práticas de design atuais para dados de pré-treinamento e inspire pesquisas contínuas sobre a inferência de mistura de dados para LMs.
No campo de modelos grandes de visão-linguagem (LVLMs) que seguem instruções, a implantação eficiente desses modelos enfrenta desafios, principalmente devido às altas demandas de memória de seus caches chave-valor (KV). Estratégias convencionais de gerenciamento de cache para LLMs se concentram na evasão de cache, o que frequentemente não aborda as necessidades específicas de modelos multimodais que seguem instruções. Reconhecendo essa lacuna, neste artigo, introduzimos o Elastic Cache, uma abordagem inovadora que se beneficia da aplicação de métodos de aceleração distintos para as etapas de codificação de instruções e geração de saída. Investigamos as métricas de importância em diferentes etapas e propomos uma estratégia de fusão de cache orientada pela importância para podar caches redundantes. Em vez de descartar caches menos importantes, nossa estratégia identifica vetores chave/valor importantes como pontos de âncora. Caches menos importantes ao redor são então fundidos com esses âncoras, aprimorando a preservação de informações contextuais nos caches KV, ao mesmo tempo que proporciona uma taxa de aceleração arbitrária. Para codificação de instruções, utilizamos a frequência para avaliar a importância dos caches. Em relação à geração de saída, priorizamos tokens com base em sua distância com um deslocamento, nos quais tanto os tokens iniciais quanto os mais recentes são retidos. Resultados em uma variedade de LVLMs demonstram que o Elastic Cache não apenas aumenta a eficiência, mas também supera significativamente os métodos de poda existentes na geração de linguagem em diversas tarefas. O código está disponível em https://github.com/liuzuyan/ElasticCache
Avanços recentes têm aprimorado significativamente as capacidades dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) na geração e compreensão de conteúdo de imagem para texto. Apesar desses sucessos, o progresso é predominantemente limitado ao inglês devido à escassez de recursos multimodais de alta qualidade em outros idiomas. Essa limitação dificulta o desenvolvimento de modelos competitivos em idiomas como o árabe. Para amenizar essa situação, apresentamos um assistente árabe multimodal eficiente, chamado Dallah, que utiliza um modelo de linguagem avançado baseado no LLaMA-2 para facilitar interações multimodais. Dallah demonstra um desempenho de ponta em MLLMs árabes. Através do ajuste fino de seis dialetos árabes, Dallah mostra sua capacidade de lidar com interações dialetais complexas incorporando elementos textuais e visuais. O modelo se destaca em dois testes de referência: um avaliando seu desempenho no Árabe Padrão Moderno (MSA) e outro especificamente projetado para avaliar respostas dialetais. Além de seu desempenho robusto em tarefas de interação multimodal, Dallah tem o potencial de abrir caminho para o desenvolvimento adicional de MLLMs árabes conscientes de dialetos.
A segmentação dos núcleos celulares em imagens de tecido coradas com o corante sanguíneo hematoxilina e eosina (H&E) é essencial para várias aplicações clínicas e análises. Devido às características complexas da morfologia celular, um grande campo receptivo é considerado crucial para gerar uma segmentação de alta qualidade. No entanto, métodos anteriores enfrentam desafios para alcançar um equilíbrio entre o campo receptivo e a carga computacional. Para lidar com essa questão, propomos o LKCell, um método de segmentação celular de alta precisão e eficiência. Sua ideia central reside em liberar o potencial de grandes núcleos de convolução para alcançar campos receptivos grandes de forma computacional eficiente. Especificamente, (1) Transferimos modelos pré-treinados de grandes núcleos de convolução para o domínio médico pela primeira vez, demonstrando sua eficácia na segmentação celular. (2) Analisamos a redundância de métodos anteriores e projetamos um novo decodificador de segmentação com base em grandes núcleos de convolução. Ele alcança melhor desempenho enquanto reduz significativamente o número de parâmetros. Avaliamos nosso método no benchmark mais desafiador e alcançamos resultados de ponta (0,5080 mPQ) na segmentação de instâncias de núcleos celulares, com apenas 21,6% de FLOPs em comparação com o método líder anterior. Nosso código-fonte e modelos estão disponíveis em https://github.com/hustvl/LKCell.
Apresentamos uma visão geral da tarefa compartilhada FIGNEWS, organizada como parte da conferência ArabicNLP 2024, realizada em conjunto com a ACL 2024. A tarefa compartilhada aborda a anotação de viés e propaganda em postagens de notícias multilíngues. Nos concentramos nos primeiros dias da Guerra de Israel em Gaza como estudo de caso. O objetivo da tarefa é promover a colaboração no desenvolvimento de diretrizes de anotação para tarefas subjetivas, criando estruturas para analisar narrativas diversas que destacam possíveis viés e propaganda. Com o intuito de promover e incentivar a diversidade, abordamos o problema sob uma perspectiva multilíngue, especificamente em cinco idiomas: inglês, francês, árabe, hebraico e hindi. Um total de 17 equipes participaram de duas sub-tarefas de anotação: viés (16 equipes) e propaganda (6 equipes). As equipes competiram em quatro categorias de avaliação: desenvolvimento de diretrizes, qualidade de anotação, quantidade de anotação e consistência. Coletivamente, as equipes produziram 129.800 pontos de dados. São discutidas descobertas-chave e implicações para o campo.
Identificar referências significativas dentro das complexas inter-relações de um grafo de conhecimento de citações é desafiador, o que engloba conexões por meio de citações, autoria, palavras-chave e outros atributos relacionais. A tarefa de Rastreamento da Fonte do Artigo (PST) busca automatizar a identificação de referências cruciais para artigos acadêmicos específicos utilizando técnicas avançadas de mineração de dados. Na KDD CUP 2024, nós projetamos um framework baseado em recomendações adaptado para a tarefa PST. Este framework emprega o modelo de Filtragem Colaborativa Neural (NCF) para gerar previsões finais. Para processar os atributos textuais dos artigos e extrair características de entrada para o modelo, utilizamos o SciBERT, um modelo de linguagem pré-treinado. De acordo com os resultados experimentais, nosso método alcançou uma pontuação de 0.37814 na métrica de Precisão Média do Rank (MAP), superando os modelos de referência e classificando-se em 11º lugar entre todas as equipes participantes. O código-fonte está publicamente disponível em https://github.com/MyLove-XAB/KDDCupFinal.