Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelos de linguagem multimodal de grande escala (MLLMs) têm sido notáveis, no entanto, esses MLLMs de domínio geral frequentemente falham em sua capacidade de compreender e interagir efetivamente com telas de interface do usuário (UI). Neste artigo, apresentamos o Ferret-UI, um novo MLLM projetado para aprimorar a compreensão de telas de UI móveis, equipado com capacidades de referência, ancoragem e raciocínio. Dado que as telas de UI geralmente exibem uma proporção de aspecto mais alongada e contêm objetos de interesse menores (por exemplo, ícones, textos) em comparação com imagens naturais, incorporamos a funcionalidade de "qualquer resolução" ao Ferret para ampliar detalhes e aproveitar recursos visuais aprimorados. Especificamente, cada tela é dividida em 2 subimagens com base na proporção de aspecto original (ou seja, divisão horizontal para telas em retrato e divisão vertical para telas em paisagem). Ambas as subimagens são codificadas separadamente antes de serem enviadas aos LLMs. Coletamos meticulosamente amostras de treinamento de uma ampla gama de tarefas elementares de UI, como reconhecimento de ícones, localização de texto e listagem de widgets. Essas amostras são formatadas para seguir instruções com anotações de região para facilitar a referência e ancoragem precisas. Para aumentar a capacidade de raciocínio do modelo, compilamos ainda um conjunto de dados para tarefas avançadas, incluindo descrição detalhada, conversas de percepção/interação e inferência de função. Após o treinamento nos conjuntos de dados curados, o Ferret-UI exibe uma compreensão excepcional de telas de UI e a capacidade de executar instruções abertas. Para avaliação do modelo, estabelecemos um benchmark abrangente que engloba todas as tarefas mencionadas. O Ferret-UI se destaca não apenas além da maioria dos MLLMs de UI de código aberto, mas também supera o GPT-4V em todas as tarefas elementares de UI.
Os avanços recentes na geração de Texto para Vídeo (T2V) alcançaram sucesso notável na síntese de vídeos gerais de alta qualidade a partir de descrições textuais. Um problema amplamente negligenciado no T2V é que os modelos existentes não codificaram adequadamente o conhecimento físico do mundo real, resultando em vídeos gerados com movimento limitado e pouca variação. Neste artigo, propomos o MagicTime, um modelo de geração de vídeos time-lapse metamórficos, que aprende conhecimento físico do mundo real a partir de vídeos time-lapse e implementa a geração metamórfica. Primeiro, projetamos um esquema MagicAdapter para desacoplar o treinamento espacial e temporal, codificar mais conhecimento físico a partir de vídeos metamórficos e transformar modelos T2V pré-treinados para gerar vídeos metamórficos. Segundo, introduzimos uma estratégia de Extração Dinâmica de Quadros para se adaptar a vídeos time-lapse metamórficos, que possuem uma faixa de variação mais ampla e cobrem processos metamórficos dramáticos de objetos, incorporando assim mais conhecimento físico do que vídeos gerais. Por fim, introduzimos um Magic Text-Encoder para melhorar a compreensão de prompts de vídeos metamórficos. Além disso, criamos um conjunto de dados vídeo-texto chamado ChronoMagic, especificamente curado para desbloquear a capacidade de geração de vídeos metamórficos. Experimentos extensivos demonstram a superioridade e eficácia do MagicTime na geração de vídeos metamórficos de alta qualidade e dinâmicos, sugerindo que a geração de vídeos time-lapse é um caminho promissor para a construção de simuladores metamórficos do mundo físico.
A edição eficaz de conteúdo pessoal desempenha um papel fundamental ao permitir que os indivíduos expressem sua criatividade, tecendo narrativas cativantes em suas histórias visuais e elevando a qualidade e o impacto geral de seu conteúdo visual. Portanto, neste trabalho, apresentamos o SwapAnything, uma nova estrutura que pode substituir qualquer objeto em uma imagem por conceitos personalizados fornecidos por referência, mantendo o contexto inalterado. Em comparação com os métodos existentes para substituição personalizada de objetos, o SwapAnything possui três vantagens únicas: (1) controle preciso de objetos e partes arbitrários, em vez do objeto principal, (2) preservação mais fiel dos pixels de contexto, (3) melhor adaptação do conceito personalizado à imagem. Primeiro, propomos a substituição variável direcionada para aplicar controle de região sobre mapas de características latentes e substituir variáveis mascaradas para preservação fiel do contexto e substituição inicial do conceito semântico. Em seguida, introduzimos a adaptação de aparência, para integrar perfeitamente o conceito semântico na imagem original em termos de localização, forma, estilo e conteúdo do alvo durante o processo de geração de imagem. Resultados extensivos em avaliações humanas e automáticas demonstram melhorias significativas de nossa abordagem em relação aos métodos de base na substituição personalizada. Além disso, o SwapAnything mostra suas habilidades precisas e fiéis de substituição em tarefas de substituição de objeto único, múltiplos objetos, objeto parcial e substituição entre domínios. O SwapAnything também alcança um ótimo desempenho em substituição baseada em texto e tarefas além da substituição, como inserção de objetos.
Os recentes avanços na edição generativa de imagens baseada em difusão desencadearam uma profunda revolução, redefinindo o cenário das tarefas de outpaint e inpaint de imagens. Apesar desses progressos, o campo enfrenta desafios inerentes, incluindo: i) qualidade inferior; ii) baixa consistência; iii) adesão insuficiente às instruções; iv) eficiência de geração subótima. Para superar esses obstáculos, apresentamos o ByteEdit, uma estrutura inovadora de aprendizado por feedback meticulosamente projetada para Impulsionar, Conformar e Acelerar tarefas de edição generativa de imagens. O ByteEdit integra de forma harmoniosa modelos de recompensa de imagem dedicados a aprimorar a estética e o alinhamento imagem-texto, além de introduzir um modelo de recompensa denso e em nível de pixel, especialmente desenvolvido para promover a coerência na saída. Além disso, propomos uma estratégia pioneira de aprendizado por feedback adversário e progressivo para acelerar a velocidade de inferência do modelo. Por meio de extensas avaliações em larga escala com usuários, demonstramos que o ByteEdit supera os principais produtos de edição generativa de imagens, incluindo Adobe, Canva e MeiTu, tanto em qualidade quanto em consistência de geração. O ByteEdit-Outpainting exibe um aprimoramento notável de 388% e 135% em qualidade e consistência, respectivamente, quando comparado ao modelo de referência. Experimentos também confirmaram que nossos modelos de aceleração mantêm excelentes resultados de desempenho em termos de qualidade e consistência.
Os modelos de difusão revolucionaram o campo de geração de imagens, levando à proliferação de modelos de alta qualidade e diversas aplicações subsequentes. No entanto, apesar desses avanços significativos, as soluções competitivas atuais ainda sofrem com várias limitações, incluindo qualidade visual inferior, falta de apelo estético e inferência ineficiente, sem uma solução abrangente à vista. Para enfrentar esses desafios, apresentamos o UniFL, um framework unificado que aproveita o aprendizado por feedback para aprimorar os modelos de difusão de forma abrangente. O UniFL se destaca como uma solução universal, eficaz e generalizável, aplicável a diversos modelos de difusão, como SD1.5 e SDXL. Notavelmente, o UniFL incorpora três componentes principais: aprendizado por feedback perceptual, que melhora a qualidade visual; aprendizado por feedback desacoplado, que aprimora o apelo estético; e aprendizado por feedback adversarial, que otimiza a velocidade de inferência. Experimentos detalhados e extensos estudos com usuários validam o desempenho superior do nosso método proposto, tanto na melhoria da qualidade dos modelos gerados quanto na sua aceleração. Por exemplo, o UniFL supera o ImageReward em 17% na preferência do usuário em termos de qualidade de geração e supera o LCM e o SDXL Turbo em 57% e 20%, respectivamente, na inferência em 4 passos. Além disso, verificamos a eficácia da nossa abordagem em tarefas subsequentes, incluindo Lora, ControlNet e AnimateDiff.
Recuperar o movimento denso e de longo alcance de pixels em vídeos é um problema desafiador. Parte da dificuldade surge do processo de projeção 3D para 2D, levando a oclusões e descontinuidades no domínio do movimento 2D. Embora o movimento 2D possa ser complexo, postulamos que o movimento 3D subjacente pode frequentemente ser simples e de baixa dimensionalidade. Neste trabalho, propomos estimar trajetórias de pontos no espaço 3D para mitigar os problemas causados pela projeção de imagem. Nosso método, denominado SpatialTracker, eleva pixels 2D para 3D usando estimadores de profundidade monocular, representa o conteúdo 3D de cada quadro de forma eficiente usando uma representação triplanar e realiza atualizações iterativas usando um transformador para estimar trajetórias 3D. O rastreamento em 3D nos permite aproveitar restrições "as-rigid-as-possible" (ARAP) enquanto simultaneamente aprendemos uma incorporação de rigidez que agrupa pixels em diferentes partes rígidas. Uma avaliação extensa mostra que nossa abordagem alcança desempenho de rastreamento de última geração tanto qualitativa quanto quantitativamente, particularmente em cenários desafiadores, como rotação fora do plano.
Gerar cenas centradas em humanos com maior resolução, detalhes e controles continua sendo um desafio para os modelos de difusão de texto para imagem existentes. Esse desafio decorre do tamanho limitado das imagens de treinamento, da capacidade do codificador de texto (tokens limitados) e da dificuldade inerente de gerar cenas complexas envolvendo múltiplos humanos. Embora os métodos atuais tenham tentado abordar apenas o limite de tamanho do treinamento, eles frequentemente resultaram em cenas centradas em humanos com artefatos graves. Propomos o BeyondScene, uma estrutura inovadora que supera as limitações anteriores, gerando cenas centradas em humanos com resolução superior (acima de 8K) e uma correspondência excepcional entre texto e imagem, além de naturalidade, utilizando modelos de difusão pré-treinados existentes. O BeyondScene emprega uma abordagem estagiada e hierárquica para inicialmente gerar uma imagem base detalhada, focando em elementos cruciais na criação de instâncias para múltiplos humanos e descrições detalhadas além do limite de tokens do modelo de difusão, e então converter de forma contínua a imagem base em uma saída de maior resolução, excedendo o tamanho das imagens de treinamento e incorporando detalhes cientes do texto e das instâncias por meio do nosso novo processo de ampliação hierárquica consciente de instâncias, que consiste na nossa proposta de difusão direta com injeção de alta frequência e difusão conjunta adaptativa. O BeyondScene supera os métodos existentes em termos de correspondência com descrições textuais detalhadas e naturalidade, abrindo caminho para aplicações avançadas na criação de cenas centradas em humanos com maior resolução, além da capacidade dos modelos de difusão pré-treinados, sem a necessidade de um retreinamento custoso. Página do projeto: https://janeyeon.github.io/beyond-scene.
Com o sucesso dos grandes modelos de linguagem (LLMs), a integração de modelos de visão em LLMs para construir modelos fundamentais de visão e linguagem tem ganhado muito interesse recentemente. No entanto, os modelos multimodais baseados em LLM existentes (por exemplo, Video-LLaMA, VideoChat) só conseguem processar um número limitado de quadros para a compreensão de vídeos curtos. Neste estudo, focamos principalmente no design de um modelo eficiente e eficaz para a compreensão de vídeos de longo prazo. Em vez de tentar processar mais quadros simultaneamente, como a maioria dos trabalhos existentes, propomos processar vídeos de maneira online e armazenar informações passadas do vídeo em um banco de memória. Isso permite que nosso modelo consulte o conteúdo histórico do vídeo para análise de longo prazo sem exceder as restrições de comprimento de contexto dos LLMs ou os limites de memória da GPU. Nosso banco de memória pode ser integrado de forma direta aos LLMs multimodais atuais. Realizamos experimentos extensos em várias tarefas de compreensão de vídeo, como compreensão de vídeos longos, questionamento e resposta sobre vídeos e legendagem de vídeos, e nosso modelo pode alcançar desempenhos de ponta em múltiplos conjuntos de dados. O código está disponível em https://boheumd.github.io/MA-LMM/.
A modelagem e renderização de avatares fotorrealistas é de extrema importância em muitas aplicações. No entanto, os métodos existentes que constroem um avatar 3D a partir de observações visuais enfrentam dificuldades para reconstruir humanos vestidos. Apresentamos o PhysAvatar, uma estrutura inovadora que combina renderização inversa com física inversa para estimar automaticamente a forma e a aparência de um humano a partir de dados de vídeo multiview, juntamente com os parâmetros físicos do tecido de suas roupas. Para isso, adotamos uma técnica de Gaussiana 4D alinhada à malha para rastreamento espaço-temporal da malha, bem como um renderizador inverso baseado em física para estimar as propriedades intrínsecas dos materiais. O PhysAvatar integra um simulador físico para estimar os parâmetros físicos das roupas usando otimização baseada em gradientes de maneira fundamentada. Essas novas capacidades permitem que o PhysAvatar crie renderizações de alta qualidade de novas perspectivas de avatares vestindo roupas folgadas sob movimentos e condições de iluminação não vistos nos dados de treinamento. Isso representa um avanço significativo em direção à modelagem de humanos digitais fotorrealistas usando renderização inversa baseada em física com a física em loop. O site do nosso projeto está em: https://qingqing-zhao.github.io/PhysAvatar
No campo em rápida evolução dos modelos generativos, o desenvolvimento de sistemas eficientes e de alta fidelidade para geração de imagens a partir de texto representa uma fronteira significativa. Este estudo apresenta o YaART, um novo modelo de difusão em cascata de texto para imagem de nível de produção, alinhado às preferências humanas por meio de Aprendizado por Reforço com Feedback Humano (RLHF). Durante o desenvolvimento do YaART, focamos especialmente nas escolhas do tamanho do modelo e do conjunto de dados de treinamento, aspectos que não haviam sido sistematicamente investigados em modelos de difusão em cascata de texto para imagem. Em particular, analisamos de forma abrangente como essas escolhas afetam tanto a eficiência do processo de treinamento quanto a qualidade das imagens geradas, fatores de extrema importância na prática. Além disso, demonstramos que modelos treinados em conjuntos de dados menores, porém de maior qualidade, podem competir com sucesso com aqueles treinados em conjuntos de dados maiores, estabelecendo um cenário mais eficiente para o treinamento de modelos de difusão. Do ponto de vista da qualidade, o YaART é consistentemente preferido pelos usuários em comparação com muitos modelos state-of-the-art existentes.
Neste artigo, apresentamos o MoMA: um modelo de imagem personalizado de vocabulário aberto e sem necessidade de treinamento, que oferece capacidades flexíveis de zero-shot. À medida que os modelos fundamentais de texto para imagem evoluem rapidamente, a demanda por traduções robustas de imagem para imagem cresce. Atendendo a essa necessidade, o MoMA se especializa na geração de imagens personalizadas orientadas por sujeitos. Utilizando um Modelo de Linguagem Multimodal de Grande Escala (MLLM) de código aberto, treinamos o MoMA para desempenhar um papel duplo como extrator de características e gerador. Essa abordagem sinergiza efetivamente informações de imagem de referência e prompt de texto para produzir características de imagem valiosas, facilitando um modelo de difusão de imagem. Para melhor aproveitar as características geradas, introduzimos ainda um novo método de atalho de autoatenção que transfere eficientemente as características de imagem para um modelo de difusão de imagem, melhorando a semelhança do objeto alvo nas imagens geradas. Notavelmente, como um módulo plug-and-play sem ajustes, nosso modelo requer apenas uma única imagem de referência e supera métodos existentes na geração de imagens com alta fidelidade de detalhes, preservação de identidade aprimorada e fidelidade ao prompt. Nosso trabalho é de código aberto, proporcionando assim acesso universal a esses avanços.
Apresentamos o Diffusion-KTO, uma abordagem inovadora para alinhar modelos de difusão de texto para imagem, formulando o objetivo de alinhamento como a maximização da utilidade humana esperada. Como esse objetivo se aplica a cada geração de forma independente, o Diffusion-KTO não requer a coleta de dados de preferência pareada, que são custosos, nem o treinamento de um modelo de recompensa complexo. Em vez disso, nosso objetivo requer sinais binários simples por imagem, como "curtidas" ou "não curtidas", que estão amplamente disponíveis. Após o ajuste fino usando o Diffusion-KTO, os modelos de difusão de texto para imagem exibem desempenho superior em comparação com técnicas existentes, incluindo ajuste fino supervisionado e Diffusion-DPO, tanto em termos de julgamento humano quanto de métricas de avaliação automática, como PickScore e ImageReward. No geral, o Diffusion-KTO desbloqueia o potencial de aproveitar sinais binários por imagem prontamente disponíveis e amplia a aplicabilidade do alinhamento de modelos de difusão de texto para imagem com as preferências humanas.
Os Transformers catalisaram avanços nas áreas de visão computacional e processamento de linguagem natural (PLN). No entanto, a complexidade computacional substancial impõe limitações para sua aplicação em tarefas de contexto longo, como a geração de imagens de alta resolução. Este artigo introduz uma série de arquiteturas adaptadas do modelo RWKV utilizado em PLN, com as modificações necessárias ajustadas para modelos de difusão aplicados a tarefas de geração de imagens, denominadas Diffusion-RWKV. Semelhante à difusão com Transformers, nosso modelo foi projetado para lidar eficientemente com entradas segmentadas em sequência com condições adicionais, além de escalar de forma eficaz, acomodando tanto parâmetros em grande escala quanto conjuntos de dados extensos. Sua vantagem distintiva se manifesta na complexidade reduzida de agregação espacial, tornando-o excepcionalmente hábil no processamento de imagens de alta resolução, eliminando assim a necessidade de operações de janelamento ou cache em grupo. Resultados experimentais em tarefas de geração de imagens condicionais e não condicionais demonstram que o Diffusion-RWKV alcança desempenho equivalente ou superior aos modelos de difusão baseados em CNN ou Transformers nas métricas FID e IS, enquanto reduz significativamente o uso total de FLOPs computacionais.
Avanços recentes em modelos de difusão demonstraram uma notável proficiência na edição de imagens 2D com base em prompts de texto. No entanto, estender essas técnicas para editar cenas em Campos de Radiação Neural (NeRF) é complexo, pois a edição de quadros 2D individuais pode resultar em inconsistências entre múltiplas visualizações. Nossa percepção crucial é que a geometria de uma cena NeRF pode servir como uma ponte para integrar essas edições 2D. Utilizando essa geometria, empregamos um ControlNet condicionado por profundidade para aprimorar a coerência de cada modificação de imagem 2D. Além disso, introduzimos uma abordagem de inpainting que aproveita as informações de profundidade das cenas NeRF para distribuir edições 2D entre diferentes imagens, garantindo robustez contra erros e desafios de reamostragem. Nossos resultados revelam que essa metodologia alcança edições mais consistentes, realistas e detalhadas do que os principais métodos existentes para edição de cenas NeRF orientadas por texto.
A resposta a perguntas em vídeos longos é uma tarefa desafiadora que envolve o reconhecimento de atividades de curto prazo e o raciocínio sobre suas relações detalhadas. Os modelos de linguagem de grande escala para vídeos (vLLMs) de última geração mostram-se promissores como uma solução viável devido às suas capacidades emergentes demonstradas em novas tarefas. No entanto, apesar de serem treinados em milhões de vídeos curtos de alguns segundos, os vLLMs não conseguem compreender vídeos de vários minutos e responder com precisão a perguntas sobre eles. Para superar essa limitação, propomos uma abordagem leve e auto-supervisionada, chamada Key frame-conditioned long video-LLM (Koala), que introduz consultas espaço-temporais aprendíveis para adaptar vLLMs pré-treinados à generalização para vídeos mais longos. Nossa abordagem introduz dois novos tokenizadores que se baseiam em tokens visuais calculados a partir de quadros-chave esparsos do vídeo para compreender momentos curtos e longos do vídeo. Treinamos nossa proposta no conjunto de dados HowTo100M e demonstramos sua eficácia em benchmarks de compreensão de vídeos longos em zero-shot, onde ela supera os modelos grandes de última geração em 3 a 6% em precisão absoluta em todas as tarefas. Surpreendentemente, também mostramos empiricamente que nossa abordagem não apenas ajuda um vLLM pré-treinado a entender vídeos longos, mas também melhora sua precisão no reconhecimento de ações de curto prazo.