Artigos de pesquisa em IA selecionados diariamente com traduções
A tarefa de resolução de problemas consiste em modificar uma base de código para gerar um patch que solucione um determinado problema. No entanto, benchmarks existentes, como o SWE-bench, focam quase exclusivamente em Python, tornando-os insuficientes para avaliar Modelos de Linguagem de Grande Escala (LLMs) em ecossistemas de software diversos. Para abordar essa limitação, introduzimos um benchmark multilíngue para resolução de problemas, chamado Multi-SWE-bench, que abrange Java, TypeScript, JavaScript, Go, Rust, C e C++. Ele inclui um total de 1.632 instâncias de alta qualidade, cuidadosamente anotadas a partir de 2.456 candidatos por 68 anotadores especialistas, garantindo que o benchmark possa fornecer uma avaliação precisa e confiável. Com base no Multi-SWE-bench, avaliamos uma série de modelos state-of-the-art utilizando três métodos representativos (Agentless, SWE-agent e OpenHands) e apresentamos uma análise abrangente com insights empíricos fundamentais. Além disso, lançamos a comunidade open-source Multi-SWE-RL, com o objetivo de construir conjuntos de dados de treinamento em larga escala para tarefas de resolução de problemas usando aprendizado por reforço (RL). Como uma contribuição inicial, disponibilizamos um conjunto de 4.723 instâncias bem estruturadas, abrangendo sete linguagens de programação, estabelecendo uma base sólida para pesquisas em RL nesse domínio. Mais importante ainda, disponibilizamos todo o nosso pipeline de produção de dados, juntamente com tutoriais detalhados, incentivando a comunidade open-source a contribuir e expandir continuamente o conjunto de dados. Enxergamos o Multi-SWE-bench e a crescente comunidade Multi-SWE-RL como catalisadores para avançar o RL em direção ao seu pleno potencial, nos aproximando cada vez mais do alvorecer da AGI.
O raciocínio matemático é um pilar da inteligência humana e um marco fundamental para capacidades avançadas em modelos de linguagem de grande escala (LLMs). No entanto, a comunidade de pesquisa ainda carece de um corpus aberto, em larga escala e de alta qualidade, adaptado às demandas de pré-treinamento de LLMs centrados em matemática. Apresentamos o MegaMath, um conjunto de dados aberto curado a partir de fontes diversas e focadas em matemática, seguindo práticas específicas: (1) Revisão de dados da web: Reextraímos documentos matemáticos do Common Crawl com otimizações HTML voltadas para matemática, filtragem baseada em fasttext e remoção de duplicatas, tudo para obter dados de maior qualidade na Internet. (2) Recuperação de dados de código relacionados à matemática: Identificamos código de alta qualidade relacionado à matemática em um grande corpus de treinamento de código, o Stack-V2, aumentando ainda mais a diversidade dos dados. (3) Exploração de dados sintéticos: Sintetizamos textos no formato de perguntas e respostas (QA), código relacionado à matemática e blocos intercalados de texto e código a partir de dados da web ou de código. Ao integrar essas estratégias e validar sua eficácia por meio de extensas ablações, o MegaMath oferece 371 bilhões de tokens, com a maior quantidade e a mais alta qualidade entre os conjuntos de dados abertos existentes para pré-treinamento em matemática.
Modelos de Linguagem de Grande Escala (LLMs) alcançaram desempenho considerável em diversas tarefas de planejamento de agentes. No entanto, abordagens tradicionais de planejamento de agentes adotam uma metodologia de "irrigação por inundação" que injeta indiscriminadamente trajetórias ideais, feedback externo e conhecimento de domínio nos modelos de agentes. Essa prática ignora o princípio cognitivo humano fundamental da autoconsciência situacional durante a tomada de decisão — a capacidade de avaliar dinamicamente as demandas situacionais e empregar recursos estrategicamente durante o processo decisório. Propomos a autoconsciência situacional informada de agentes para abordar essa lacuna, um novo paradigma que permite que agentes baseados em LLM regulem autonomamente a utilização de conhecimento. Especificamente, propomos o KnowSelf, uma abordagem centrada em dados que aplica aos agentes uma autoconsciência situacional informada, semelhante à humana. Concretamente, elaboramos um critério heurístico de julgamento situacional para marcar tokens especiais nas trajetórias autoexploradas do agente, coletando dados de treinamento. Por meio de um processo de treinamento em duas etapas, o modelo do agente pode alternar entre diferentes situações gerando tokens específicos, alcançando efeitos de planejamento ótimos com custos mínimos. Nossos experimentos demonstram que o KnowSelf pode superar várias linhas de base robustas em diferentes tarefas e modelos com uso mínimo de conhecimento externo. O código está disponível em https://github.com/zjunlp/KnowSelf.
Neste trabalho, apresentamos o VARGPT-v1.1, um modelo visual autorregressivo unificado avançado que se baseia em nossa estrutura anterior, o VARGPT. O modelo preserva o paradigma duplo de previsão do próximo token para compreensão visual e geração da próxima escala para síntese de imagens. Especificamente, o VARGPT-v1.1 integra: (1) uma nova estratégia de treinamento que combina ajuste iterativo de instruções visuais com aprendizado por reforço através da Otimização de Preferência Direta (DPO), (2) um corpus de treinamento expandido contendo 8,3 milhões de pares de instruções visuais-gerativas, (3) um modelo de linguagem aprimorado utilizando o Qwen2, (4) resolução de geração de imagens melhorada e (5) capacidades emergentes de edição de imagens sem modificações arquitetônicas. Esses avanços permitem que o VARGPT-v1.1 alcance desempenho de ponta em tarefas de compreensão multimodal e de seguimento de instruções texto-para-imagem, demonstrando melhorias significativas tanto em métricas de compreensão quanto de geração. Notavelmente, através do ajuste de instruções visuais, o modelo adquire funcionalidade de edição de imagens enquanto mantém consistência arquitetônica com seu predecessor, revelando o potencial para compreensão visual, geração e edição unificadas. Nossos achados sugerem que modelos visuais autorregressivos unificados bem projetados podem adotar efetivamente estratégias de treinamento flexíveis de grandes modelos de linguagem (LLMs), exibindo escalabilidade promissora. O código e os pesos do modelo estão disponíveis publicamente em https://github.com/VARGPT-family/VARGPT-v1.1.
Os Transformers são a base dos modelos de linguagem de grande escala modernos, mas sua complexidade computacional quadrática limita a eficiência no processamento de sequências longas. Avanços recentes no Mamba, um modelo de espaço de estados (SSM) com complexidade linear, oferecem ganhos promissores de eficiência, mas sofrem com aprendizado contextual instável e generalização multitarefa. Este artigo propõe o TransMamba, uma nova estrutura que unifica o Transformer e o Mamba por meio de matrizes de parâmetros compartilhadas (por exemplo, QKV e CBx), permitindo alternar dinamicamente entre mecanismos de atenção e SSM em diferentes comprimentos de tokens e camadas. Projetamos o Conversor de Memória para conectar o Transformer e o Mamba, convertendo saídas de atenção em estados compatíveis com SSM, garantindo um fluxo de informações contínuo nos TransPoints onde a transformação ocorre. O agendamento de TransPoints também é explorado detalhadamente para melhorias adicionais. Realizamos extensos experimentos que demonstram que o TransMamba alcança eficiência de treinamento e desempenho superiores em comparação com as abordagens de referência, validando a consistência mais profunda entre os paradigmas do Transformer e do Mamba, oferecendo uma solução escalável para a modelagem de sequências de próxima geração.
Na interação entre agentes e seus ambientes, os agentes expandem suas capacidades por meio do planejamento e execução de ações. No entanto, agentes baseados em LLMs enfrentam desafios substanciais quando implantados em ambientes novos ou quando precisam navegar por espaços de ação não convencionais. Para capacitar os agentes a explorar ambientes de forma autônoma, otimizar fluxos de trabalho e aprimorar sua compreensão das ações, propomos o SynWorld, um framework que permite aos agentes sintetizar cenários possíveis com invocação de ações em múltiplos passos dentro do espaço de ação e realizar exploração por meio de Monte Carlo Tree Search (MCTS) para refinar efetivamente seu conhecimento sobre as ações no ambiente atual. Nossos experimentos demonstram que o SynWorld é uma abordagem eficaz e geral para aprender conhecimento sobre ações em novos ambientes. O código está disponível em https://github.com/zjunlp/SynWorld.
Agentes autônomos impulsionados por modelos de base têm sido amplamente adotados em diversas aplicações do mundo real. No entanto, eles permanecem altamente vulneráveis a instruções maliciosas e ataques, o que pode resultar em consequências graves, como violações de privacidade e perdas financeiras. Mais criticamente, as salvaguardas existentes para LLMs não são aplicáveis devido à natureza complexa e dinâmica dos agentes. Para enfrentar esses desafios, propomos o ShieldAgent, o primeiro agente de proteção projetado para garantir a conformidade explícita com políticas de segurança para a trajetória de ações de outros agentes protegidos por meio de raciocínio lógico. Especificamente, o ShieldAgent primeiro constrói um modelo de política de segurança extraindo regras verificáveis de documentos de política e estruturando-as em um conjunto de circuitos de regras probabilísticas baseadas em ações. Dada a trajetória de ações do agente protegido, o ShieldAgent recupera os circuitos de regras relevantes e gera um plano de proteção, aproveitando sua biblioteca abrangente de ferramentas e código executável para verificação formal. Além disso, dada a falta de benchmarks de proteção para agentes, introduzimos o ShieldAgent-Bench, um conjunto de dados com 3K pares de instruções e trajetórias de ações relacionadas à segurança, coletados por meio de ataques de última geração em 6 ambientes web e 7 categorias de risco. Experimentos mostram que o ShieldAgent alcança o estado da arte no ShieldAgent-Bench e em três benchmarks existentes, superando métodos anteriores em média 11,3% com uma alta taxa de recall de 90,1%. Adicionalmente, o ShieldAgent reduz consultas de API em 64,7% e o tempo de inferência em 58,2%, demonstrando sua alta precisão e eficiência na proteção de agentes.
Treinar agentes de IA eficazes para interações multi-turn exige dados de alta qualidade que capturem dinâmicas realistas entre humanos e agentes, mas tais dados são escassos e caros de coletar manualmente. Apresentamos o APIGen-MT, um framework de duas fases que gera dados de agentes multi-turn verificáveis e diversos. Na primeira fase, nosso pipeline agentivo produz planos detalhados de tarefas com ações de referência, aproveitando um comitê de revisores de LLM e loops de feedback iterativos. Esses planos são então transformados em trajetórias completas de interação por meio de simulações de interação humano-agente. Treinamos uma família de modelos — a série xLAM-2-fc-r com tamanhos variando de 1B a 70B parâmetros. Nossos modelos superam modelos de ponta como GPT-4o e Claude 3.5 nos benchmarks tau-bench e BFCL, com os modelos menores superando seus equivalentes maiores, especialmente em cenários multi-turn, enquanto mantêm consistência superior em múltiplas tentativas. Experimentos abrangentes demonstram que nossa abordagem verificada de plano-para-detalhes produz dados de treinamento de alta qualidade, permitindo o desenvolvimento de agentes mais confiáveis, eficientes e capazes. Disponibilizamos tanto os dados sintéticos coletados quanto os modelos xLAM-2-fc-r treinados como código aberto para avançar a pesquisa em agentes de IA. Os modelos estão disponíveis no HuggingFace em https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 e o site do projeto é https://apigen-mt.github.io.
Os benchmarks existentes para MLLMs enfrentam desafios significativos na avaliação de MLLMs Unificados (U-MLLMs) devido a: 1) falta de benchmarks padronizados para tarefas tradicionais, levando a comparações inconsistentes; 2) ausência de benchmarks para geração de modalidades mistas, o que falha em avaliar as capacidades de raciocínio multimodal. Apresentamos um framework de avaliação abrangente projetado para avaliar sistematicamente U-MLLMs. Nosso benchmark inclui: Avaliação Padronizada de Tarefas Tradicionais. Amostramos 12 conjuntos de dados, cobrindo 10 tarefas com 30 subtarefas, garantindo comparações consistentes e justas entre estudos. 2. Avaliação Unificada de Tarefas. Introduzimos cinco novas tarefas que testam o raciocínio multimodal, incluindo edição de imagens, QA de senso comum com geração de imagens e raciocínio geométrico. 3. Benchmarking Abrangente de Modelos. Avaliamos 12 U-MLLMs líderes, como Janus-Pro, EMU3, VILA-U e Gemini2-flash, juntamente com modelos especializados em compreensão (por exemplo, Claude-3.5-Sonnet) e geração (por exemplo, DALL-E-3). Nossos resultados revelam lacunas substanciais de desempenho nos U-MLLMs existentes, destacando a necessidade de modelos mais robustos capazes de lidar efetivamente com tarefas de modalidades mistas. O código e os dados de avaliação podem ser encontrados em https://mme-unify.github.io/.
A reconstrução humana a partir de uma única imagem é crucial para aplicações de modelagem digital de humanos, mas permanece uma tarefa extremamente desafiadora. As abordagens atuais dependem de modelos generativos para sintetizar imagens multi-visão para subsequente reconstrução 3D e animação. No entanto, a geração direta de múltiplas visões a partir de uma única imagem humana sofre com inconsistências geométricas, resultando em problemas como membros fragmentados ou borrados nos modelos reconstruídos. Para superar essas limitações, introduzimos o HumanDreamer-X, um novo framework que integra a geração e reconstrução multi-visão de humanos em um pipeline unificado, o que melhora significativamente a consistência geométrica e a fidelidade visual dos modelos 3D reconstruídos. Neste framework, o 3D Gaussian Splatting serve como uma representação 3D explícita para fornecer prioridade inicial de geometria e aparência. Com base nessa fundação, o HumanFixer é treinado para restaurar renderizações 3DGS, garantindo resultados foto-realistas. Além disso, investigamos os desafios inerentes associados aos mecanismos de atenção na geração multi-visão de humanos e propomos uma estratégia de modulação de atenção que efetivamente melhora a consistência de detalhes geométricos e identidade através das múltiplas visões. Resultados experimentais demonstram que nossa abordagem melhora significativamente as métricas de qualidade PSNR de geração e reconstrução em 16,45% e 12,65%, respectivamente, alcançando um PSNR de até 25,62 dB, enquanto também mostra capacidades de generalização em dados do mundo real e aplicabilidade a vários modelos de backbone de reconstrução humana.
Este artigo apresenta o Comprehensive Relighting, a primeira abordagem abrangente que pode tanto controlar quanto harmonizar a iluminação de uma imagem ou vídeo de humanos com partes do corpo arbitrárias em qualquer cena. Construir um modelo tão generalizável é extremamente desafiador devido à falta de conjuntos de dados, o que restringe os modelos existentes de relighting baseados em imagem a cenários específicos (por exemplo, rosto ou humano estático). Para enfrentar esse desafio, reaproveitamos um modelo de difusão pré-treinado como um prior geral de imagem e modelamos conjuntamente o relighting humano e a harmonização do plano de fundo em uma estrutura de refinamento progressivo. Para aprimorar ainda mais a coerência temporal do relighting, introduzimos um modelo de iluminação temporal não supervisionado que aprende a consistência do ciclo de iluminação a partir de diversos vídeos do mundo real, sem qualquer dado de referência. No momento da inferência, nosso módulo de iluminação temporal é combinado com os modelos de difusão por meio de algoritmos de mesclagem de características espaço-temporais, sem treinamento adicional; e aplicamos um novo refinamento guiado como pós-processamento para preservar os detalhes de alta frequência da imagem de entrada. Nos experimentos, o Comprehensive Relighting demonstra uma forte generalizabilidade e coerência temporal de iluminação, superando os métodos existentes de relighting e harmonização humana baseados em imagem.
A segmentação de imagens e vídeos médicos é uma tarefa crucial para a medicina de precisão, que tem testemunhado progressos consideráveis no desenvolvimento de modelos específicos para tarefas ou modalidades, bem como modelos generalistas para imagens 2D. No entanto, existem estudos limitados sobre a construção de modelos de propósito geral para imagens 3D e vídeos, com estudos de usuários abrangentes. Aqui, apresentamos o MedSAM2, um modelo de segmentação fundamentado e promptável para segmentação de imagens 3D e vídeos. O modelo foi desenvolvido por meio do ajuste fino do Segment Anything Model 2 em um grande conjunto de dados médicos, contendo mais de 455.000 pares de imagem-máscara 3D e 76.000 frames, superando modelos anteriores em uma ampla gama de órgãos, lesões e modalidades de imagem. Além disso, implementamos um pipeline de "humano no loop" para facilitar a criação de conjuntos de dados em larga escala, resultando, até onde sabemos, no estudo de usuário mais extenso até o momento, envolvendo a anotação de 5.000 lesões em tomografias computadorizadas (CT), 3.984 lesões hepáticas em ressonância magnética (MRI) e 251.550 frames de vídeo de ecocardiogramas, demonstrando que o MedSAM2 pode reduzir os custos manuais em mais de 85%. O MedSAM2 também foi integrado a plataformas amplamente utilizadas, com interfaces amigáveis para implantação local e em nuvem, tornando-o uma ferramenta prática para apoiar a segmentação eficiente, escalável e de alta qualidade tanto em ambientes de pesquisa quanto de saúde.
Equilibrar a resolução temporal e o detalhe espacial sob um orçamento computacional limitado continua sendo um desafio fundamental para modelos de linguagem grandes multimodais (MLLMs) baseados em vídeo. Os métodos existentes geralmente comprimem as representações de vídeo usando regras predefinidas antes de alimentá-las no LLM, resultando em perda irreversível de informações e frequentemente ignorando as instruções de entrada. Para resolver isso, propomos uma nova arquitetura lenta-rápida que naturalmente contorna essa compensação, permitindo o uso de mais quadros de entrada enquanto preserva os detalhes espaciais. Inspirados pela forma como os humanos primeiro dão uma olhada rápida em um vídeo antes de se concentrarem nas partes relevantes, nosso design lento-rápido emprega uma estratégia de dupla tokenização: 1) tokens visuais "rápidos" — um conjunto compacto de características de vídeo comprimidas — são alimentados no LLM junto com embeddings de texto para fornecer uma visão geral rápida; 2) tokens visuais "lentos" — características de vídeo não comprimidas — são submetidos a atenção cruzada por embeddings de texto através de camadas de decodificador híbridas especialmente projetadas, permitindo a extração de detalhes visuais relevantes com complexidade linear. Realizamos uma exploração sistemática para otimizar tanto a arquitetura geral quanto os componentes-chave. Experimentos mostram que nosso modelo supera significativamente as linhas de base que usam apenas auto-atenção, estendendo a capacidade de entrada de 16 para 128 quadros com apenas um aumento de 3% na computação, e alcançando uma melhoria média de 16% em cinco benchmarks de compreensão de vídeo. Nosso modelo de 7B atinge desempenho de ponta entre modelos de tamanho similar. Além disso, nossa arquitetura lenta-rápida é um design plug-and-play que pode ser integrado a outros MLLMs de vídeo para melhorar a eficiência e a escalabilidade.
Nesta pesquisa, apresentamos o BEATS, uma nova estrutura para avaliar Viés, Ética, Justiça e Factualidade em Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês). Com base na estrutura BEATS, propomos um benchmark de viés para LLMs que mede o desempenho em 29 métricas distintas. Essas métricas abrangem uma ampla gama de características, incluindo vieses demográficos, cognitivos e sociais, além de medidas de raciocínio ético, justiça entre grupos e riscos de desinformação relacionados à factualidade. Essas métricas permitem uma avaliação quantitativa do grau em que as respostas geradas por LLMs podem perpetuar preconceitos sociais que reforçam ou ampliam desigualdades sistêmicas. Para obter uma pontuação elevada neste benchmark, um LLM deve demonstrar comportamento altamente equitativo em suas respostas, tornando-o um padrão rigoroso para a avaliação de IA responsável. Resultados empíricos baseados em dados de nosso experimento mostram que 37,65% das saídas geradas por modelos líderes do setor continham alguma forma de viés, destacando um risco substancial ao usar esses modelos em sistemas de tomada de decisão crítica. A estrutura e o benchmark BEATS oferecem uma metodologia escalável e estatisticamente rigorosa para avaliar LLMs, diagnosticar fatores que impulsionam vieses e desenvolver estratégias de mitigação. Com a estrutura BEATS, nosso objetivo é contribuir para o desenvolvimento de modelos de IA mais socialmente responsáveis e alinhados eticamente.
Quando as ondas sonoras atingem um objeto, elas induzem vibrações que produzem mudanças visuais de alta frequência e sutis, que podem ser usadas para recuperar o som. Estudos iniciais sempre enfrentam trade-offs relacionados à taxa de amostragem, largura de banda, campo de visão e a simplicidade do caminho óptico. Avanços recentes no hardware de câmeras de eventos mostram um bom potencial para sua aplicação na recuperação visual do som, devido à sua capacidade superior em capturar sinais de alta frequência. No entanto, os métodos existentes de recuperação de vibração baseados em eventos ainda são subótimos para a recuperação do som. Neste trabalho, propomos um novo pipeline para a recuperação de som sem contato, utilizando plenamente informações espaço-temporais do fluxo de eventos. Primeiro, geramos um grande conjunto de treinamento usando um novo pipeline de simulação. Em seguida, projetamos uma rede que aproveita a esparsidade dos eventos para capturar informações espaciais e usa Mamba para modelar informações temporais de longo prazo. Por fim, treinamos um bloco de agregação espacial para agregar informações de diferentes locais e melhorar ainda mais a qualidade do sinal. Para capturar sinais de eventos causados por ondas sonoras, também projetamos um sistema de imagem usando uma matriz de laser para aumentar o gradiente e coletamos múltiplas sequências de dados para testes. Resultados experimentais em dados sintéticos e do mundo real demonstram a eficácia do nosso método.
Os recentes avanços na clonagem de comportamento têm permitido que robôs realizem tarefas de manipulação complexas. No entanto, avaliar com precisão o desempenho do treinamento continua sendo um desafio, especialmente para aplicações do mundo real, uma vez que as perdas na clonagem de comportamento frequentemente apresentam baixa correlação com o sucesso real da tarefa. Consequentemente, os pesquisadores recorrem a métricas de taxa de sucesso derivadas de avaliações no mundo real, que são custosas e demoradas, tornando impraticável a identificação de políticas ótimas e a detecção de sobreajuste ou subajuste. Para abordar esses problemas, propomos o real-is-sim, uma nova estrutura de clonagem de comportamento que incorpora um gêmeo digital dinâmico (baseado em Gaussianas Incorporadas) em todo o pipeline de desenvolvimento de políticas: coleta de dados, treinamento e implantação. Ao alinhar continuamente o mundo simulado com o mundo físico, as demonstrações podem ser coletadas no mundo real com estados extraídos do simulador. O simulador permite representações flexíveis de estados ao renderizar entradas de imagem de qualquer ponto de vista ou extrair informações de estado de baixo nível de objetos incorporados na cena. Durante o treinamento, as políticas podem ser avaliadas diretamente no simulador de maneira offline e altamente paralelizável. Por fim, durante a implantação, as políticas são executadas no simulador, onde o robô real rastreia diretamente as juntas do robô simulado, efetivamente desacoplando a execução da política do hardware real e mitigando os desafios tradicionais de transferência de domínio. Validamos o real-is-sim na tarefa de manipulação PushT, demonstrando uma forte correlação entre as taxas de sucesso obtidas no simulador e as avaliações no mundo real. Vídeos do nosso sistema podem ser encontrados em https://realissim.rai-inst.com.
A delimitação precisa dos limites de campos agrícolas a partir de imagens de satélite é crucial para o gerenciamento de terras e o monitoramento de culturas. No entanto, os métodos atuais enfrentam desafios devido ao tamanho limitado dos conjuntos de dados, discrepâncias de resolução e condições ambientais diversas. Abordamos esse problema reformulando a tarefa como segmentação de instâncias e introduzindo o conjunto de dados Field Boundary Instance Segmentation - 22M (FBIS-22M), um conjunto de dados em larga escala e multi-resolução que compreende 672.909 imagens de satélite de alta resolução (variando de 0,25 m a 10 m) e 22.926.427 máscaras de instância de campos individuais, reduzindo significativamente a lacuna entre conjuntos de dados agrícolas e aqueles em outros domínios de visão computacional. Além disso, propomos o Delineate Anything, um modelo de segmentação de instâncias treinado em nosso novo conjunto de dados FBIS-22M. Nosso modelo proposto estabelece um novo estado da arte, alcançando uma melhoria substancial de 88,5% em mAP@0.5 e 103% em mAP@0.5:0.95 em relação aos métodos existentes, ao mesmo tempo em que demonstra inferência significativamente mais rápida e forte generalização zero-shot em diversas resoluções de imagem e regiões geográficas não vistas. Código, modelos pré-treinados e o conjunto de dados FBIS-22M estão disponíveis em https://lavreniuk.github.io/Delineate-Anything.
O ajuste fino de um modelo pré-treinado de Texto para Imagem (T2I) em um conjunto de dados personalizado de retratos é o método predominante para a customização orientada por texto de atributos de retratos. Devido à Poluição Semântica durante o ajuste fino, os métodos existentes enfrentam dificuldades para manter o comportamento original do modelo e alcançar aprendizado incremental enquanto personalizam os atributos alvo. Para resolver esse problema, propomos o SPF-Portrait, um trabalho pioneiro que visa compreender puramente a semântica personalizada enquanto elimina a poluição semântica na customização de retratos orientada por texto. No nosso SPF-Portrait, propomos um pipeline de duplo caminho que introduz o modelo original como referência para o caminho convencional de ajuste fino. Por meio de aprendizado contrastivo, garantimos a adaptação aos atributos alvo e alinhamos intencionalmente outros atributos não relacionados ao retrato original. Introduzimos um novo Mapa de Controle Fino Semântico, que representa as regiões de resposta precisas da semântica alvo, para guiar espacialmente o processo de alinhamento entre os caminhos contrastivos. Esse processo de alinhamento não apenas preserva efetivamente o desempenho do modelo original, mas também evita o excesso de alinhamento. Além disso, propomos um novo mecanismo de reforço de resposta para fortalecer o desempenho dos atributos alvo, enquanto mitigamos a discrepância de representação inerente à supervisão direta intermodal. Experimentos extensivos demonstram que o SPF-Portrait alcança desempenho de ponta. Página do projeto: https://spf-portrait.github.io/SPF-Portrait/