Artigos de pesquisa em IA selecionados diariamente com traduções
A linguagem natural frequentemente enfrenta dificuldades para associar com precisão informações de posição e atributo com múltiplas instâncias, o que limita os modelos de geração visual baseados em texto atuais a composições mais simples, apresentando apenas algumas instâncias dominantes. Para lidar com essa limitação, este trabalho aprimora os modelos de difusão ao introduzir o controle de instância regional, onde cada instância é regida por uma caixa delimitadora combinada com uma legenda de forma livre. Métodos anteriores nessa área geralmente dependem de codificação de posição implícita ou máscaras de atenção explícitas para separar regiões de interesse (ROIs), resultando em injeção de coordenadas imprecisas ou grande sobrecarga computacional. Inspirados pelo ROI-Align na detecção de objetos, introduzimos uma operação complementar chamada ROI-Unpool. Juntas, ROI-Align e ROI-Unpool permitem manipulação explícita, eficiente e precisa de ROIs em mapas de características de alta resolução para geração visual. Baseando-se no ROI-Unpool, propomos o ROICtrl, um adaptador para modelos de difusão pré-treinados que possibilita um controle preciso de instâncias regionais. O ROICtrl é compatível com modelos de difusão ajustados pela comunidade, bem como com complementos baseados em espaço existentes (por exemplo, ControlNet, T2I-Adapter) e complementos baseados em incorporação (por exemplo, IP-Adapter, ED-LoRA), ampliando suas aplicações para geração multi-instances. Experimentos mostram que o ROICtrl alcança desempenho superior no controle de instância regional, ao mesmo tempo em que reduz significativamente os custos computacionais.
Muitas consultas de usuários do mundo real (por exemplo, "Como fazer arroz frito com ovo?") poderiam se beneficiar de sistemas capazes de gerar respostas com etapas textuais acompanhadas de imagens, semelhante a um livro de receitas. Modelos projetados para gerar texto e imagens entrelaçados enfrentam desafios em garantir consistência dentro e entre essas modalidades. Para lidar com esses desafios, apresentamos ISG, um framework abrangente de avaliação para geração de texto e imagem entrelaçados. ISG utiliza uma estrutura de grafo de cena para capturar as relações entre blocos de texto e imagem, avaliando as respostas em quatro níveis de granularidade: holístico, estrutural, nível de bloco e específico de imagem. Essa avaliação em vários níveis permite uma avaliação sutil de consistência, coerência e precisão, e fornece feedback de pergunta-resposta interpretável. Em conjunto com ISG, introduzimos um benchmark, ISG-Bench, abrangendo 1.150 amostras em 8 categorias e 21 subcategorias. Este conjunto de dados de benchmark inclui dependências complexas entre linguagem e visão e respostas ideais para avaliar modelos de forma eficaz em tarefas centradas em visão, como transferência de estilo, uma área desafiadora para os modelos atuais. Usando ISG-Bench, demonstramos que os modelos recentes unificados de visão e linguagem têm baixo desempenho na geração de conteúdo entrelaçado. Enquanto abordagens compostas que combinam modelos separados de linguagem e imagem mostram uma melhoria de 111% sobre os modelos unificados no nível holístico, seu desempenho permanece subótimo nos níveis de bloco e imagem. Para facilitar trabalhos futuros, desenvolvemos ISG-Agent, um agente de linha de base que emprega um pipeline "planejar-executar-aperfeiçoar" para invocar ferramentas, alcançando uma melhoria de desempenho de 122%.
A geração de texto para vídeo preservando identidade (IPT2V) tem como objetivo criar vídeos de alta fidelidade com identidade humana consistente. Trata-se de uma tarefa importante na geração de vídeos, porém ainda é um problema em aberto para modelos generativos. Este artigo avança na fronteira técnica do IPT2V em duas direções que não foram resolvidas na literatura: (1) Um pipeline sem ajustes tediosos caso a caso, e (2) Um esquema de controle baseado em DiT consciente da frequência e heurístico para preservação de identidade. Propomos o ConsisID, um modelo IPT2V controlável baseado em DiT sem ajustes, para manter a identidade humana consistente nos vídeos gerados. Inspirado em descobertas anteriores na análise de frequência de transformadores de difusão, ele emprega sinais de controle de identidade no domínio da frequência, onde características faciais podem ser decompostas em características globais de baixa frequência e características intrínsecas de alta frequência. Primeiramente, sob uma perspectiva de baixa frequência, introduzimos um extrator facial global, que codifica imagens de referência e pontos-chave faciais em um espaço latente, gerando características enriquecidas com informações de baixa frequência. Essas características são então integradas em camadas rasas da rede para mitigar desafios de treinamento associados ao DiT. Em segundo lugar, sob uma perspectiva de alta frequência, projetamos um extrator facial local para capturar detalhes de alta frequência e injetá-los em blocos transformadores, aprimorando a capacidade do modelo de preservar características detalhadas. Propomos uma estratégia de treinamento hierárquica para aproveitar informações de frequência para preservação de identidade, transformando um modelo de geração de vídeo pré-treinado em um modelo IPT2V. Experimentos extensivos demonstram que nosso esquema heurístico consciente da frequência fornece uma solução de controle ideal para modelos baseados em DiT. Graças a este esquema, nosso ConsisID gera vídeos de alta qualidade preservando identidade, avançando em direção a um IPT2V mais eficaz.
A geração de conteúdo 3D de alta fidelidade a partir de instruções de texto continua sendo um desafio significativo em visão computacional devido ao tamanho limitado, diversidade e profundidade de anotação dos conjuntos de dados existentes. Para lidar com isso, apresentamos o MARVEL-40M+, um extenso conjunto de dados com 40 milhões de anotações de texto para mais de 8,9 milhões de ativos 3D agregados de sete grandes conjuntos de dados 3D. Nossa contribuição é um novo pipeline de anotação em múltiplos estágios que integra VLMs e LLMs pré-treinados de várias visualizações de código aberto para produzir automaticamente descrições em vários níveis, que vão de detalhadas (150-200 palavras) a tags semânticas concisas (10-20 palavras). Essa estrutura suporta tanto a reconstrução 3D detalhada quanto a prototipagem rápida. Além disso, incorporamos metadados humanos dos conjuntos de dados de origem em nosso pipeline de anotação para adicionar informações específicas de domínio em nossas anotações e reduzir alucinações de VLM. Adicionalmente, desenvolvemos o MARVEL-FX3D, um pipeline de texto para 3D em dois estágios. Ajustamos o Stable Diffusion com nossas anotações e utilizamos uma rede pré-treinada de imagem para 3D para gerar malhas 3D texturizadas em 15 segundos. Avaliações extensivas mostram que o MARVEL-40M+ supera significativamente os conjuntos de dados existentes em qualidade de anotação e diversidade linguística, alcançando taxas de acerto de 72,41% por GPT-4 e 73,40% por avaliadores humanos.
Apresentamos o CAT4D, um método para criar cenas 4D (3D dinâmico) a partir de vídeos monoculares. O CAT4D aproveita um modelo de difusão de vídeo de várias visualizações treinado em uma combinação diversificada de conjuntos de dados para possibilitar a síntese de novas visualizações em quaisquer poses de câmera e timestamps especificados. Combinado com uma abordagem de amostragem inovadora, esse modelo pode transformar um único vídeo monocular em um vídeo de várias visualizações, permitindo uma reconstrução 4D robusta por meio da otimização de uma representação gaussiana 3D deformável. Demonstramos um desempenho competitivo em benchmarks de síntese de novas visualizações e reconstrução de cenas dinâmicas, e destacamos as capacidades criativas para geração de cenas 4D a partir de vídeos reais ou gerados. Consulte nossa página do projeto para ver os resultados e demonstrações interativas: cat-4d.github.io.
As interfaces gráficas de usuário (GUIs) sempre foram centrais para a interação humano-computador, fornecendo uma maneira intuitiva e visual de acessar e interagir com sistemas digitais. O surgimento dos LLMs, especialmente modelos multimodais, trouxe consigo uma nova era de automação de GUI. Eles demonstraram capacidades excepcionais em compreensão de linguagem natural, geração de código e processamento visual. Isso abriu caminho para uma nova geração de agentes de GUI com LLM capazes de interpretar elementos de GUI complexos e executar ações autonomamente com base em instruções em linguagem natural. Esses agentes representam uma mudança de paradigma, permitindo que os usuários realizem tarefas complexas e multi-etapas por meio de comandos de conversação simples. Suas aplicações abrangem a navegação na web, interações com aplicativos móveis e automação de desktop, oferecendo uma experiência de usuário transformadora que revoluciona a forma como os indivíduos interagem com o software. Este campo emergente está avançando rapidamente, com progressos significativos tanto na pesquisa quanto na indústria. Para fornecer uma compreensão estruturada dessa tendência, este artigo apresenta uma pesquisa abrangente sobre agentes de GUI com LLM, explorando sua evolução histórica, componentes principais e técnicas avançadas. Abordamos questões de pesquisa como frameworks de agentes de GUI existentes, a coleta e utilização de dados para treinar agentes de GUI especializados, o desenvolvimento de grandes modelos de ação adaptados para tarefas de GUI e as métricas de avaliação e benchmarks necessários para avaliar sua eficácia. Além disso, examinamos as aplicações emergentes alimentadas por esses agentes. Por meio de uma análise detalhada, esta pesquisa identifica lacunas importantes na pesquisa e esboça um roteiro para futuros avanços no campo. Ao consolidar o conhecimento fundamental e os desenvolvimentos de ponta, este trabalho tem como objetivo orientar tanto pesquisadores quanto profissionais na superação de desafios e no desbloqueio do potencial total dos agentes de GUI com LLM.
Os modelos de difusão texto-imagem produzem resultados impressionantes, mas são ferramentas frustrantes para artistas que desejam um controle detalhado. Por exemplo, um caso comum de uso é criar imagens de uma instância específica em contextos novos, ou seja, "geração preservando identidade". Esse cenário, juntamente com muitas outras tarefas (por exemplo, relighting), é adequado naturalmente para modelos generativos condicionais de imagem+texto. No entanto, há uma falta de dados emparelhados de alta qualidade para treinar tal modelo diretamente. Propomos a Auto-Destilação por Difusão, um método para usar um modelo pré-treinado texto-imagem para gerar seu próprio conjunto de dados para tarefas de imagem para imagem condicionadas por texto. Primeiramente, aproveitamos a capacidade de geração no contexto de um modelo de difusão texto-imagem para criar grades de imagens e curar um grande conjunto de dados emparelhados com a ajuda de um Modelo Visual-Linguagem. Em seguida, ajustamos finamente o modelo texto-imagem para um modelo texto+imagem para imagem usando o conjunto de dados emparelhados curados. Demonstramos que a Auto-Destilação por Difusão supera os métodos zero-shot existentes e é competitiva com técnicas de ajuste por instância em uma ampla gama de tarefas de geração de preservação de identidade, sem exigir otimização no momento do teste.
Avanços recentes na reconstrução de campos de radiância, como o Splatting Gaussiano 3D (3DGS), têm alcançado síntese de novas visualizações de alta qualidade e renderização rápida ao representar cenas com composições de primitivas Gaussianas. No entanto, os Gaussianos 3D apresentam várias limitações para a reconstrução de cenas. Capturar com precisão bordas rígidas é desafiador sem aumentar significativamente o número de Gaussians, o que cria uma grande pegada de memória. Além disso, eles têm dificuldade em representar superfícies planas, pois são difundidos no espaço. Sem regularizadores feitos à mão, eles tendem a se dispersar irregularmente ao redor da superfície real. Para contornar esses problemas, introduzimos um novo método, chamado Splatting Convexo 3D (3DCS), que utiliza convexos suaves 3D como primitivas para modelar campos de radiância geometricamente significativos a partir de imagens de múltiplas visualizações. Formas convexas suaves oferecem maior flexibilidade do que os Gaussians, permitindo uma melhor representação de cenas 3D com bordas rígidas e volumes densos usando menos primitivas. Impulsionado pelo nosso rasterizador eficiente baseado em CUDA, o 3DCS alcança desempenho superior ao 3DGS em benchmarks como Mip-NeRF360, Tanks and Temples e Deep Blending. Especificamente, nosso método alcança uma melhoria de até 0,81 em PSNR e 0,026 em LPIPS em comparação com o 3DGS, mantendo altas velocidades de renderização e reduzindo o número de primitivas necessárias. Nossos resultados destacam o potencial do Splatting Convexo 3D para se tornar o novo padrão para reconstrução de cenas de alta qualidade e síntese de novas visualizações. Página do projeto: convexsplatting.github.io.
Recentemente, o modelo de difusão emergiu como uma técnica generativa poderosa para o aprendizado de políticas robóticas, capaz de modelar distribuições de ação multi-modal. Aproveitar sua capacidade para direção autônoma de ponta a ponta é uma direção promissora. No entanto, os inúmeros passos de remoção de ruído na política de difusão robótica e a natureza mais dinâmica e aberta das cenas de tráfego apresentam desafios substanciais para gerar ações de direção diversas em tempo real. Para enfrentar esses desafios, propomos uma nova política de difusão truncada que incorpora âncoras multi-modais prévias e trunca o cronograma de difusão, permitindo que o modelo aprenda a remoção de ruído da distribuição de ação de direção multi-modal ancorada da distribuição gaussiana. Além disso, projetamos um decodificador de difusão em cascata eficiente para uma interação aprimorada com o contexto da cena condicional. O modelo proposto, DiffusionDrive, demonstra uma redução de 10 vezes nos passos de remoção de ruído em comparação com a política de difusão convencional, proporcionando diversidade e qualidade superiores em apenas 2 passos. No conjunto de dados NAVSIM orientado para planejamento, com a espinha dorsal ResNet-34 alinhada, o DiffusionDrive alcança 88,1 PDMS sem enfeites, estabelecendo um novo recorde, enquanto opera em tempo real a 45 FPS em um NVIDIA 4090. Resultados qualitativos em cenários desafiadores confirmam ainda mais que o DiffusionDrive pode gerar robustamente diversas ações de direção plausíveis. O código e o modelo estarão disponíveis em https://github.com/hustvl/DiffusionDrive.
Personagens 3D são essenciais para as indústrias criativas modernas, mas torná-los animáveis frequentemente demanda extenso trabalho manual em tarefas como rigging e skinning. As ferramentas automáticas de rigging existentes enfrentam várias limitações, incluindo a necessidade de anotações manuais, topologias rígidas de esqueleto e limitada generalização entre formas e poses diversas. Uma abordagem alternativa é gerar avatares animáveis pré-vinculados a um modelo de malha rigada. No entanto, este método frequentemente carece de flexibilidade e é tipicamente limitado a formas humanas realistas. Para abordar essas questões, apresentamos o Make-It-Animatable, um método inovador baseado em dados para preparar qualquer modelo humanoide 3D para animação de personagens em menos de um segundo, independentemente de suas formas e poses. Nosso framework unificado gera pesos de mistura, ossos e transformações de pose de alta qualidade. Ao incorporar um autoencoder de forma baseado em partículas, nossa abordagem suporta várias representações 3D, incluindo malhas e manchas gaussianas 3D. Além disso, empregamos uma representação de grossa a fina e uma estratégia de modelagem consciente da estrutura para garantir tanto a precisão quanto a robustez, mesmo para personagens com estruturas de esqueleto não convencionais. Realizamos experimentos extensivos para validar a eficácia de nosso framework. Comparado aos métodos existentes, nossa abordagem demonstra melhorias significativas tanto em qualidade quanto em velocidade.
A pose humana desempenha um papel crucial na era digital. Embora trabalhos recentes tenham alcançado progressos impressionantes na compreensão e geração de poses humanas, muitas vezes suportam apenas uma única modalidade de sinais de controle e operam de forma isolada, limitando sua aplicação em cenários do mundo real. Este artigo apresenta UniPose, um framework que emprega Modelos de Linguagem Grandes (LLMs) para compreender, gerar e editar poses humanas em várias modalidades, incluindo imagens, texto e poses 3D SMPL. Especificamente, aplicamos um tokenizador de pose para converter poses 3D em tokens de pose discretos, possibilitando integração perfeita no LLM dentro de um vocabulário unificado. Para aprimorar ainda mais as capacidades de percepção de pose detalhada, facilitamos o UniPose com uma mistura de codificadores visuais, incluindo um codificador visual específico para poses. Beneficiando-se de uma estratégia de aprendizado unificada, o UniPose transfere efetivamente conhecimento entre diferentes tarefas relevantes para poses, se adapta a tarefas não vistas e demonstra capacidades estendidas. Este trabalho representa a primeira tentativa de construir um framework de propósito geral para compreensão, geração e edição de poses. Experimentos extensivos destacam o desempenho competitivo e até superior do UniPose em várias tarefas relevantes para poses.
No campo em rápida evolução da geração de imagens, a modelagem Visual Auto-Regressive (VAR) tem recebido considerável atenção por sua abordagem inovadora de previsão em larga escala. Esse paradigma oferece melhorias substanciais em eficiência, escalabilidade e generalização sem treinamento. No entanto, a natureza inerentemente de grosseiro a fino do VAR introduz uma sequência prolongada de tokens, resultando em um consumo de memória proibitivo e redundâncias computacionais. Para lidar com esses gargalos, propomos o Decodificador Colaborativo (CoDe), uma estratégia de decodificação eficiente e inovadora adaptada para o framework VAR. O CoDe se baseia em duas observações críticas: a redução substancial das demandas de parâmetros em escalas maiores e os padrões exclusivos de geração em diferentes escalas. Com base nesses insights, dividimos o processo de inferência em múltiplas escalas em uma colaboração contínua entre um modelo grande e um modelo pequeno. O modelo grande atua como o 'elaborador', especializando-se na geração de conteúdo de baixa frequência em escalas menores, enquanto o modelo menor atua como o 'refinador', focando exclusivamente na previsão de detalhes de alta frequência em escalas maiores. Essa colaboração resulta em eficiência notável com impacto mínimo na qualidade: o CoDe alcança uma aceleração de 1,7 vezes, reduz o uso de memória em cerca de 50% e preserva a qualidade da imagem com apenas um aumento FID negligenciável de 1,95 para 1,98. Quando os passos de elaboração são ainda mais reduzidos, o CoDe pode alcançar uma impressionante taxa de aceleração de 2,9 vezes, atingindo 41 imagens/s em resolução de 256x256 em uma única GPU NVIDIA 4090, mantendo um FID louvável de 2,27. O código está disponível em https://github.com/czg1225/CoDe
A geração de imagens personalizadas requer modelos generativos de texto para imagem que capturem os principais recursos de um sujeito de referência para permitir a geração controlada em diferentes contextos. Os métodos existentes enfrentam desafios devido a requisitos de treinamento complexos, altos custos de inferência, flexibilidade limitada, ou uma combinação desses problemas. Neste artigo, apresentamos o DreamCache, uma abordagem escalável para geração eficiente e de alta qualidade de imagens personalizadas. Ao armazenar um pequeno número de recursos de imagem de referência de um subconjunto de camadas e um único passo de tempo do denoiser de difusão pré-treinado, o DreamCache permite a modulação dinâmica dos recursos de imagem gerados por meio de adaptadores de condicionamento leves e treinados. O DreamCache alcança alinhamento de imagem e texto de ponta, utilizando uma ordem de grandeza menor de parâmetros extras, e é tanto mais eficaz computacionalmente quanto mais versátil do que os modelos existentes.
Percepção e compreensão são dois pilares da visão computacional. Enquanto os modelos de linguagem multimodais de grande porte (MLLM) têm demonstrado notáveis capacidades de compreensão visual, eles possivelmente carecem de habilidades de percepção precisas, por exemplo, o modelo de ponta Qwen2-VL alcança apenas uma taxa de recall de 43,9 no conjunto de dados COCO, limitando muitas tarefas que requerem a combinação de percepção e compreensão. Neste trabalho, temos como objetivo preencher essa lacuna de percepção tanto do ponto de vista do design do modelo quanto do desenvolvimento de dados. Primeiramente, introduzimos o ChatRex, um MLLM com um design de percepção desacoplado. Em vez de fazer com que o MLLM preveja diretamente as coordenadas da caixa, alimentamos as caixas de saída de uma rede de propostas universal no MLLM, permitindo que ele produza os índices de caixa correspondentes para representar seus resultados de detecção, transformando a tarefa de regressão em uma tarefa baseada em recuperação que o MLLM manipula de forma mais proficiente. Do ponto de vista dos dados, construímos um mecanismo de dados totalmente automatizado e criamos o conjunto de dados Rexverse-2M, que possui múltiplas granularidades para apoiar o treinamento conjunto de percepção e compreensão. Após o treinamento padrão em duas etapas, o ChatRex demonstra fortes capacidades de percepção, preservando ao mesmo tempo o desempenho de compreensão multimodal. A combinação dessas duas capacidades desbloqueia simultaneamente muitas aplicações atraentes, demonstrando os papéis complementares da percepção e compreensão nos MLLM. O código está disponível em https://github.com/IDEA-Research/ChatRex.
Gerar efeitos sonoros para vídeos frequentemente requer a criação de efeitos sonoros artísticos que se distanciam significativamente de fontes da vida real e controle flexível no design sonoro. Para abordar esse problema, apresentamos o MultiFoley, um modelo projetado para geração de som guiada por vídeo que suporta condicionamento multimodal por meio de texto, áudio e vídeo. Dado um vídeo silencioso e uma instrução de texto, o MultiFoley permite aos usuários criar sons limpos (por exemplo, rodas de skate girando sem ruído de vento) ou sons mais fantasiosos (por exemplo, fazer o rugido de um leão soar como o miado de um gato). O MultiFoley também permite aos usuários escolher áudio de referência de bibliotecas de efeitos sonoros (SFX) ou vídeos parciais para condicionamento. Uma novidade chave do nosso modelo reside em seu treinamento conjunto em conjuntos de dados de vídeos da internet com áudio de baixa qualidade e gravações profissionais de SFX, possibilitando a geração de áudio de alta qualidade e largura de banda total (48kHz). Por meio de avaliações automatizadas e estudos humanos, demonstramos que o MultiFoley gera com sucesso sons de alta qualidade sincronizados em entradas condicionais variadas e supera os métodos existentes. Consulte nossa página do projeto para ver os resultados em vídeo: https://ificl.github.io/MultiFoley/
Neste trabalho, introduzimos um único parâmetro ômega, para controlar efetivamente a granularidade na síntese baseada em difusão. Este parâmetro é incorporado durante as etapas de remoção de ruído do processo reverso do modelo de difusão. Nossa abordagem não requer o retreinamento do modelo, modificações arquiteturais ou sobrecarga computacional adicional durante a inferência, mas permite um controle preciso sobre o nível de detalhes nas saídas geradas. Além disso, máscaras espaciais ou programações de remoção de ruído com diferentes valores de ômega podem ser aplicadas para alcançar um controle de granularidade específico da região ou do timestep. O conhecimento prévio da composição da imagem a partir de sinais de controle ou imagens de referência facilita ainda mais a criação de máscaras ômega precisas para o controle de granularidade em objetos específicos. Para destacar o papel do parâmetro no controle de variações sutis de detalhes, a técnica é denominada Omegance, combinando "omega" e "nuance". Nosso método demonstra um desempenho impressionante em várias tarefas de síntese de imagens e vídeos e é adaptável a modelos de difusão avançados. O código está disponível em https://github.com/itsmag11/Omegance.
A Decodificação Especulativa (SD) tornou-se uma técnica importante para acelerar a velocidade de inferência de grandes modelos de linguagem. Os métodos SD convencionais empregam um comprimento de rascunho fixo, que ignora a dificuldade de geração de tokens entre tarefas. Portanto, neste artigo, abordamos essa questão e introduzimos o SVIP - uma política de comprimento de rascunho dinâmico sensível à dificuldade para sistemas de decodificação especulativa. Com base em um limite teórico inferior da taxa de aceitação de tokens de rascunho e sua aproximação no tempo de inferência, o SVIP determina adaptativamente os comprimentos das sequências de rascunho com base na entropia de cada distribuição de tokens de rascunho. Resultados experimentais em benchmarks e estruturas SD convencionais demonstram o desempenho superior do SVIP, alcançando até 20% de aceleração no tempo de parede no SpecBench em comparação com os métodos SD básicos e 60% de aceleração no MT-Bench para geração de longos textos de até 8K tokens. Além disso, o SVIP é totalmente independente de treinamento e compatível com quaisquer métodos SD existentes que geram tokens de rascunho de forma autoregressiva. Os resultados experimentais também mostram que o SVIP proporciona uma melhoria consistente no tempo de parede em relação ao GliDe & CaPE e EAGLE-2.
As pesquisas recentes sobre grandes modelos de linguagem de vídeo (VideoLLM) predominantemente focam em arquiteturas de modelo e conjuntos de dados de treinamento, deixando o formato de interação entre o usuário e o modelo pouco explorado. Nos trabalhos existentes, os usuários frequentemente interagem com os VideoLLMs usando o vídeo completo e uma consulta como entrada, após o que o modelo gera uma resposta. Esse formato de interação limita a aplicação dos VideoLLMs em cenários como compreensão de transmissão ao vivo, onde os vídeos não têm fim e as respostas são necessárias em tempo real, e também resulta em desempenho insatisfatório em tarefas sensíveis ao tempo que exigem a localização de segmentos de vídeo. Neste artigo, focamos em um formato de interação vídeo-texto em dueto. Esse formato de interação é caracterizado pela reprodução contínua do vídeo, e tanto o usuário quanto o modelo podem inserir suas mensagens de texto em qualquer posição durante a reprodução do vídeo. Quando uma mensagem de texto termina, o vídeo continua a ser reproduzido, assemelhando-se à alternativa de dois artistas em um dueto. Construímos o MMDuetIT, um conjunto de dados de treinamento vídeo-texto projetado para adaptar os VideoLLMs ao formato de interação vídeo-texto em dueto. Também introduzimos a tarefa de Question Answering de Vídeo Ancorado em Múltiplas Respostas (MAGQA) para avaliar a capacidade de resposta em tempo real dos VideoLLMs. Treinado no MMDuetIT, o MMDuet demonstra que a adoção do formato de interação vídeo-texto em dueto permite que o modelo alcance melhorias significativas em várias tarefas sensíveis ao tempo (76% CIDEr na legenda densa de vídeo YouCook2, 90% mAP na detecção de destaques QVHighlights e 25% R@0.5 no ancoramento temporal de vídeo Charades-STA) com esforços mínimos de treinamento, e também permite que os VideoLLMs respondam em tempo real enquanto o vídeo é reproduzido. Código, dados e demonstração estão disponíveis em: https://github.com/yellow-binary-tree/MMDuet.
A identificação de características patológicas chave em ressonâncias magnéticas cerebrais é crucial para a sobrevivência a longo prazo de pacientes com glioma. No entanto, a segmentação manual é demorada, requer intervenção de especialistas e é suscetível a erros humanos. Portanto, significativa pesquisa tem sido dedicada ao desenvolvimento de métodos de aprendizado de máquina que possam segmentar com precisão tumores em ressonâncias magnéticas cerebrais 3D multimodais. Apesar do progresso, os modelos de ponta frequentemente são limitados pelos dados nos quais são treinados, levantando preocupações sobre sua confiabilidade quando aplicados a populações diversas que podem introduzir mudanças na distribuição. Tais mudanças podem surgir de tecnologia de ressonância magnética de menor qualidade (por exemplo, na África subsaariana) ou variações nas características demográficas dos pacientes (por exemplo, crianças). O desafio BraTS-2024 fornece uma plataforma para abordar essas questões. Este estudo apresenta nossa metodologia para segmentar tumores nas tarefas BraTS-2024 SSA e Tumores Pediátricos usando MedNeXt, ensemble abrangente de modelos e pós-processamento detalhado. Nossa abordagem demonstrou um desempenho sólido no conjunto de validação não visto, alcançando um Coeficiente de Similaridade de Dice (DSC) médio de 0,896 no conjunto de dados BraTS-2024 SSA e um DSC médio de 0,830 no conjunto de dados BraTS de Tumores Pediátricos. Além disso, nosso método alcançou uma Distância de Hausdorff (HD95) média de 14,682 no conjunto de dados BraTS-2024 SSA e uma HD95 média de 37,508 no conjunto de dados BraTS de Tumores Pediátricos. Nosso repositório no GitHub pode ser acessado aqui: Repositório do Projeto: https://github.com/python-arch/BioMbz-Optimizando-Segmentação-de-Tumores-Cerebrais-com-MedNeXt-BraTS-2024-SSA-e-Pediatria
Os modelos cegos de restauração de imagem all-in-one visam recuperar uma imagem de alta qualidade a partir de uma entrada degradada com distorções desconhecidas. No entanto, esses modelos requerem que todos os tipos de degradação possíveis sejam definidos durante a fase de treinamento, mostrando uma generalização limitada para degradações não vistas, o que limita sua aplicação prática em casos complexos. Neste artigo, propomos um modelo simples, porém eficaz, de restauração all-in-one cega adaptativa (ABAIR), que pode lidar com múltiplas degradações, generaliza bem para degradações não vistas e incorpora eficientemente novas degradações treinando uma pequena fração de parâmetros. Primeiramente, treinamos nosso modelo de referência em um grande conjunto de dados de imagens naturais com múltiplas degradações sintéticas, aumentadas com uma cabeça de segmentação para estimar os tipos de degradação por pixel, resultando em uma espinha dorsal poderosa capaz de generalizar para uma ampla gama de degradações. Em segundo lugar, adaptamos nosso modelo de referência para tarefas variadas de restauração de imagem usando adaptadores independentes de baixa classificação. Em terceiro lugar, aprendemos a combinar adaptadores de forma adaptativa para imagens versáteis por meio de um estimador de degradação flexível e leve. Nosso modelo é poderoso para lidar com distorções específicas e flexível para se adaptar a tarefas complexas, superando significativamente o estado da arte em configurações de IR de cinco e três tarefas, além de mostrar uma generalização aprimorada para degradações não vistas e também distorções compostas.
O rápido avanço dos grandes modelos de linguagem (LLMs) como GPT-3, PaLM e Llama transformou significativamente o processamento de linguagem natural, demonstrando capacidades notáveis na compreensão e geração de linguagem. No entanto, esses modelos frequentemente enfrentam dificuldades em tarefas que exigem raciocínio complexo, especialmente na resolução de problemas matemáticos, devido em parte à escassez de conjuntos de dados específicos de domínio em larga escala e de alta qualidade necessários para treinar habilidades de raciocínio sofisticadas. Para lidar com essa limitação, apresentamos a Geração de Dados Baseada em Modelos de Template (TDG), uma abordagem inovadora que aproveita LLMs (GPT-4) para gerar automaticamente meta-modelos parametrizados, que são então utilizados para sintetizar uma vasta gama de problemas e soluções de alta qualidade. Aproveitando a TDG, criamos o TemplateMath Parte I: TemplateGSM, um conjunto de dados composto por mais de 7 milhões de problemas matemáticos de escola primária gerados sinteticamente - cada um acompanhado de soluções em linguagem natural e baseada em código - com potencial para gerar um número efetivamente ilimitado deles. Este conjunto de dados alivia a escassez de conjuntos de dados matemáticos em larga escala e serve como um recurso valioso para pré-treinamento, ajuste fino e avaliação de LLMs em raciocínio matemático. Nosso método não apenas possibilita a geração de dados virtualmente infinitos, mas também eleva a ampliação de dados a um novo nível ao utilizar o GPT-4 para geração de meta-modelos, garantindo estruturas de problemas diversas e de alta qualidade. O conjunto de dados TemplateMath Parte I: TemplateGSM está disponível publicamente em https://huggingface.co/datasets/math-ai/TemplateGSM. O código está disponível em https://github.com/iiis-ai/TemplateMath.
Avanços recentes em modelos de difusão tornaram a edição generativa de imagens mais acessível, possibilitando edições criativas, porém levantando preocupações éticas, especialmente em relação a edições maliciosas em retratos humanos que ameaçam a privacidade e a segurança da identidade. Métodos de proteção existentes geralmente dependem de perturbações adversariais para anular edições, mas frequentemente falham diante de solicitações de edição diversas. Propomos o FaceLock, uma abordagem inovadora para proteção de retratos que otimiza perturbações adversariais para destruir ou alterar significativamente informações biométricas, tornando as saídas editadas biometricamente irreconhecíveis. O FaceLock integra reconhecimento facial e percepção visual na otimização de perturbações para fornecer proteção robusta contra várias tentativas de edição. Também destacamos falhas em métricas de avaliação comumente utilizadas e revelamos como podem ser manipuladas, enfatizando a necessidade de avaliações confiáveis de proteção. Experimentos mostram que o FaceLock supera as bases na defesa contra edições maliciosas e é robusto contra técnicas de purificação. Estudos de ablação confirmam sua estabilidade e ampla aplicabilidade em algoritmos de edição baseados em difusão. Nosso trabalho avança na defesa biométrica e estabelece a base para práticas de preservação de privacidade na edição de imagens. O código está disponível em: https://github.com/taco-group/FaceLock.