Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de difusão em larga escala recentes geram imagens de alta qualidade, porém têm dificuldade em aprender novos estilos artísticos personalizados, o que limita a criação de modelos de estilo únicos. O ajuste fino com imagens de referência é a abordagem mais promissora, mas frequentemente utiliza de forma cega objetivos e distribuições de nível de ruído usadas para pré-treinamento, resultando em alinhamento de estilo subótimo. Propomos o amostrador Style-friendly SNR, que desloca agressivamente a distribuição de relação sinal-ruído (SNR) para níveis de ruído mais altos durante o ajuste fino para focar nos níveis de ruído onde características estilísticas emergem. Isso permite que os modelos capturem melhor estilos únicos e gerem imagens com maior alinhamento de estilo. Nosso método permite que os modelos de difusão aprendam e compartilhem novos "modelos de estilo", aprimorando a criação de conteúdo personalizado. Demonstramos a capacidade de gerar estilos como pinturas pessoais em aquarela, desenhos minimalistas, renderizações 3D, imagens de vários painéis e memes com texto, ampliando assim o escopo da geração orientada por estilo.
A pós-treinamento do modelo de linguagem é aplicada para refinar comportamentos e desbloquear novas habilidades em uma ampla gama de modelos de linguagem recentes, mas as receitas abertas para aplicar essas técnicas estão atrasadas em relação às proprietárias. Os dados de treinamento subjacentes e as receitas para pós-treinamento são simultaneamente as peças mais importantes do quebra-cabeça e a parte com menos transparência. Para preencher essa lacuna, apresentamos o T\"ULU 3, uma família de modelos pós-treinados de última geração totalmente abertos, juntamente com seus dados, código e receitas de treinamento, servindo como um guia abrangente para técnicas modernas de pós-treinamento. O T\"ULU 3, que se baseia nos modelos base do Llama 3.1, alcança resultados superiores às versões instrutórias do Llama 3.1, Qwen 2.5, Mistral, e até mesmo modelos fechados como GPT-4o-mini e Claude 3.5-Haiku. Os algoritmos de treinamento para nossos modelos incluem ajuste fino supervisionado (SFT), Otimização Direta de Preferência (DPO), e um novo método que chamamos de Aprendizado por Reforço com Recompensas Verificáveis (RLVR). Com o T\"ULU 3, introduzimos um esquema de avaliação multi-tarefa para receitas de pós-treinamento com avaliações de desenvolvimento e não vistas, implementações de benchmark padrão, e descontaminação substancial de conjuntos de dados abertos existentes nos referidos benchmarks. Concluímos com análise e discussão de métodos de treinamento que não melhoraram confiavelmente o desempenho. Além dos pesos e demonstração do modelo T\"ULU 3, liberamos a receita completa - incluindo conjuntos de dados para diversas habilidades principais, um kit robusto para curadoria e avaliação de dados, o código de treinamento e infraestrutura, e, mais importante, um relatório detalhado para reproduzir e adaptar ainda mais a abordagem T\"ULU 3 para mais domínios.
Neste artigo, apresentamos o OminiControl, um framework altamente versátil e eficiente em termos de parâmetros que integra condições de imagem em modelos pré-treinados de Transformador de Difusão (DiT). No seu núcleo, o OminiControl aproveita um mecanismo de reutilização de parâmetros, permitindo que o DiT codifique condições de imagem usando a si mesmo como uma espinha dorsal poderosa e as processe com seus processadores de atenção multimodais flexíveis. Ao contrário de métodos existentes, que dependem fortemente de módulos de codificador adicionais com arquiteturas complexas, o OminiControl (1) incorpora eficaz e eficientemente condições de imagem injetadas com apenas ~0,1% de parâmetros adicionais, e (2) aborda uma ampla gama de tarefas de condicionamento de imagem de forma unificada, incluindo geração orientada por sujeito e condições alinhadas espacialmente, como bordas, profundidade e mais. Notavelmente, essas capacidades são alcançadas treinando em imagens geradas pelo próprio DiT, o que é particularmente benéfico para a geração orientada por sujeito. Avaliações extensas demonstram que o OminiControl supera os modelos existentes baseados em UNet e adaptados ao DiT tanto na geração condicional orientada por sujeito quanto na alinhada espacialmente. Além disso, disponibilizamos nosso conjunto de dados de treinamento, Subjects200K, uma coleção diversificada de mais de 200.000 imagens consistentes em identidade, juntamente com um pipeline eficiente de síntese de dados para avançar a pesquisa em geração consistente de sujeitos.
O envelhecimento facial é um processo complexo, altamente dependente de múltiplos fatores como gênero, etnia, estilo de vida, etc., tornando extremamente desafiador aprender um envelhecimento global anterior para prever o envelhecimento de qualquer indivíduo com precisão. As técnicas existentes frequentemente produzem resultados de envelhecimento realistas e plausíveis, mas as imagens reenvelhecidas frequentemente não se assemelham à aparência da pessoa na idade-alvo e, portanto, necessitam de personalização. Em muitas aplicações práticas de envelhecimento virtual, por exemplo, VFX em filmes e programas de TV, o acesso a uma coleção de fotos pessoais do usuário retratando o envelhecimento em um pequeno intervalo de tempo (20 a 40 anos) geralmente está disponível. No entanto, tentativas ingênuas de personalizar técnicas de envelhecimento global em coleções de fotos pessoais frequentemente falham. Portanto, propomos MyTimeMachine (MyTM), que combina um envelhecimento global anterior com uma coleção de fotos pessoais (usando tão poucas quanto 50 imagens) para aprender uma transformação de idade personalizada. Introduzimos uma Rede Adaptadora inovadora que combina características de envelhecimento personalizadas com características de envelhecimento global e gera uma imagem reenvelhecida com o StyleGAN2. Também introduzimos três funções de perda para personalizar a Rede Adaptadora com perda de envelhecimento personalizada, regularização de extrapolação e regularização adaptativa de w-norma. Nossa abordagem também pode ser estendida a vídeos, alcançando efeitos de envelhecimento de alta qualidade, preservando a identidade e consistentes temporalmente, que se assemelham às aparências reais nas idades-alvo, demonstrando sua superioridade em relação às abordagens de ponta.
Grandes Modelos de Linguagem são propensos a uso fora do tópico, onde os usuários podem solicitar a esses modelos que realizem tarefas além de seu escopo pretendido. As atuais salvaguardas, que muitas vezes dependem de exemplos curados ou classificadores personalizados, sofrem com altas taxas de falsos positivos, limitada adaptabilidade e a impraticabilidade de exigir dados do mundo real que não estão disponíveis em pré-produção. Neste artigo, apresentamos uma metodologia flexível e sem dados para o desenvolvimento de salvaguardas que aborda esses desafios. Ao definir minuciosamente o espaço do problema qualitativamente e passar isso para um LLM para gerar prompts diversos, construímos um conjunto de dados sintético para avaliar e treinar salvaguardas fora do tópico que superam abordagens heurísticas. Além disso, ao enquadrar a tarefa como classificar se a solicitação do usuário é relevante em relação à solicitação do sistema, nossas salvaguardas generalizam efetivamente para outras categorias de uso indevido, incluindo jailbreak e prompts prejudiciais. Por fim, contribuímos ainda mais para o campo disponibilizando em código aberto tanto o conjunto de dados sintético quanto os modelos de salvaguarda fora do tópico, fornecendo recursos valiosos para o desenvolvimento de salvaguardas em ambientes de pré-produção e apoiando pesquisas futuras e o desenvolvimento da segurança de LLM.
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) têm levado a avanços significativos tanto na academia quanto na indústria. Uma questão que surge é como nós, como humanos, podemos compreender as representações neurais internas desses modelos. Este artigo dá um passo inicial em direção a abordar essa questão ao apresentar um framework versátil para identificar e interpretar a semântica dentro dos LMMs. Especificamente, 1) aplicamos primeiro um Autoencoder Espaço-Eficiente (SAE) para desembaraçar as representações em características compreensíveis pelos humanos. 2) Em seguida, apresentamos um framework de interpretação automática para interpretar as características semânticas abertas aprendidas no SAE pelos próprios LMMs. Empregamos esse framework para analisar o modelo LLaVA-NeXT-8B usando o modelo LLaVA-OV-72B, demonstrando que essas características podem direcionar efetivamente o comportamento do modelo. Nossos resultados contribuem para uma compreensão mais profunda do porquê os LMMs se destacam em tarefas específicas, incluindo testes de EQ, e iluminam a natureza de seus erros, juntamente com estratégias potenciais para sua retificação. Essas descobertas oferecem novos insights sobre os mecanismos internos dos LMMs e sugerem paralelos com os processos cognitivos do cérebro humano.
Os Modelos de Linguagem de Grande Escala (LLMs) e os Modelos de Linguagem de Visão (VLMs) possuem um vasto conhecimento e exibem habilidades promissoras de raciocínio; no entanto, ainda enfrentam dificuldades para se sair bem em ambientes complexos e dinâmicos. Tarefas do mundo real exigem lidar com interações intricadas, raciocínio espacial avançado, planejamento de longo prazo e exploração contínua de novas estratégias - áreas nas quais faltam metodologias eficazes para avaliar abrangentemente essas capacidades. Para abordar essa lacuna, apresentamos o BALROG, um novo benchmark projetado para avaliar as capacidades agentes dos LLMs e VLMs por meio de um conjunto diversificado de jogos desafiadores. Nosso benchmark incorpora uma variedade de ambientes de aprendizado por reforço existentes com diferentes níveis de dificuldade, incluindo tarefas que são resolúveis por humanos não especialistas em segundos até aquelas extremamente desafiadoras que podem levar anos para dominar (por exemplo, o Ambiente de Aprendizado NetHack). Criamos métricas detalhadas para medir o desempenho e realizamos uma avaliação extensiva de vários LLMs e VLMs populares de código aberto e proprietários. Nossas descobertas indicam que, embora os modelos atuais tenham sucesso parcial nos jogos mais fáceis, eles enfrentam dificuldades significativas com tarefas mais desafiadoras. Notavelmente, observamos deficiências graves na tomada de decisões baseada em visão, pois os modelos têm um desempenho pior quando são fornecidas representações visuais dos ambientes. Lançamos o BALROG como um benchmark aberto e amigável ao usuário para facilitar pesquisas e desenvolvimentos futuros na comunidade agente.
O avanço dos Modelos de Linguagem de Visão Ampliada (LVLMs) melhorou significativamente a compreensão multimodal, no entanto, desafios persistem em tarefas de raciocínio de vídeo devido à escassez de conjuntos de dados em grande escala e de alta qualidade. Conjuntos de dados existentes de perguntas e respostas em vídeo (VideoQA) frequentemente dependem de anotações manuais custosas com granularidade insuficiente ou de métodos de construção automática com análise redundante quadro a quadro, limitando sua escalabilidade e eficácia para raciocínios complexos. Para enfrentar esses desafios, apresentamos o VideoEspresso, um novo conjunto de dados que apresenta pares de VideoQA preservando detalhes espaciais essenciais e coerência temporal, juntamente com anotações multimodais de etapas de raciocínio intermediárias. Nosso pipeline de construção emprega um método consciente de semântica para reduzir a redundância, seguido pela geração de pares de perguntas e respostas usando o GPT-4o. Desenvolvemos ainda anotações de Cadeia de Pensamento em vídeo (CoT) para enriquecer os processos de raciocínio, orientando o GPT-4o na extração de relações lógicas dos pares de perguntas e respostas e do conteúdo em vídeo. Para explorar o potencial de pares de VideoQA de alta qualidade, propomos um framework de Colaboração de LVLMs Híbridos, apresentando um Seletor de Quadros e um LVLM de raciocínio ajustado por instrução em duas etapas. Este framework seleciona de forma adaptativa quadros principais e realiza raciocínio CoT usando evidências multimodais. Avaliado em nosso benchmark proposto com 14 tarefas em comparação com 9 LVLMs populares, nosso método supera as baselines existentes na maioria das tarefas, demonstrando capacidades superiores de raciocínio em vídeo. Nosso código e conjunto de dados serão disponibilizados em: https://github.com/hshjerry/VideoEspresso
A tokenização eficiente de vídeos continua sendo um desafio no treinamento de modelos de visão computacional capazes de processar vídeos longos. Uma direção promissora é desenvolver um tokenizador que possa codificar longos trechos de vídeo, pois isso permitiria ao tokenizador aproveitar melhor a coerência temporal dos vídeos para a tokenização. No entanto, treinar tokenizadores existentes em vídeos longos frequentemente incorre em um custo de treinamento enorme, pois são treinados para reconstruir todos os quadros de uma vez. Neste artigo, apresentamos o CoordTok, um tokenizador de vídeo que aprende um mapeamento de representações baseadas em coordenadas para os patches correspondentes de vídeos de entrada, inspirado nos avanços recentes em modelos generativos 3D. Em particular, o CoordTok codifica um vídeo em representações triplanares fatorizadas e reconstrói patches que correspondem a coordenadas (x, y, t) amostradas aleatoriamente. Isso permite treinar modelos de tokenizador grandes diretamente em vídeos longos sem exigir recursos de treinamento excessivos. Nossos experimentos mostram que o CoordTok pode reduzir drasticamente o número de tokens para codificar longos trechos de vídeo. Por exemplo, o CoordTok pode codificar um vídeo de 128 quadros com resolução de 128x128 em 1280 tokens, enquanto as bases precisam de 6144 ou 8192 tokens para alcançar uma qualidade de reconstrução semelhante. Mostramos ainda que essa tokenização eficiente de vídeo permite o treinamento eficiente em memória de um transformador de difusão que pode gerar 128 quadros de uma vez.
O campo da síntese de novos pontos de vista avançou significativamente graças ao desenvolvimento de métodos de campo de radiância. No entanto, a maioria das técnicas de campo de radiância são muito melhores na interpolação de novos pontos de vista do que na extrapolação de novos pontos de vista, onde os pontos de vista sintetizados estão muito além dos pontos de vista de treinamento observados. Nós projetamos o ViewExtrapolator, uma abordagem de síntese de novos pontos de vista que aproveita os precursores generativos da Difusão de Vídeo Estável (SVD) para uma extrapolação realista de novos pontos de vista. Ao redesenhar o processo de redução de ruído do SVD, o ViewExtrapolator aprimora as visualizações propensas a artefatos renderizadas pelos campos de radiância, melhorando significativamente a clareza e o realismo dos novos pontos de vista sintetizados. O ViewExtrapolator é um extrapolidor genérico de novos pontos de vista que pode funcionar com diferentes tipos de renderização 3D, como visualizações renderizadas a partir de nuvens de pontos quando apenas um único ponto de vista ou vídeo monocular está disponível. Além disso, o ViewExtrapolator não requer ajustes finos do SVD, tornando-o eficiente em dados e em computação. Experimentos extensos demonstram a superioridade do ViewExtrapolator na extrapolação de novos pontos de vista. Página do projeto: https://kunhao-liu.github.io/ViewExtrapolator/.
Os modelos recentes de difusão texto-para-vídeo (T2V) têm demonstrado impressionantes capacidades de geração em diversos domínios. No entanto, esses modelos frequentemente geram vídeos com desalinhamentos em relação às instruções de texto, especialmente quando as instruções descrevem cenas complexas com múltiplos objetos e atributos. Para lidar com isso, apresentamos o VideoRepair, um novo framework de refinamento de vídeo, independente de modelo e sem necessidade de treinamento, que identifica automaticamente desalinhamentos detalhados entre texto e vídeo e gera feedback espacial e textual explícito, permitindo que um modelo de difusão T2V realize refinamentos direcionados e localizados. O VideoRepair é composto por quatro etapas: Na (1) avaliação de vídeo, detectamos desalinhamentos gerando perguntas de avaliação detalhadas e respondendo a essas perguntas com MLLM. Na (2) planejamento de refinamento, identificamos objetos gerados com precisão e então criamos instruções localizadas para refinar outras áreas no vídeo. Em seguida, na (3) decomposição de região, segmentamos a área gerada corretamente usando um módulo de ancoragem combinado. Regeneramos o vídeo ajustando as regiões desalinhadas enquanto preservamos as regiões corretas em (4) refinamento localizado. Em dois benchmarks populares de geração de vídeo (EvalCrafter e T2V-CompBench), o VideoRepair supera substancialmente baselines recentes em diversas métricas de alinhamento texto-vídeo. Fornecemos uma análise abrangente dos componentes do VideoRepair e exemplos qualitativos.
A manipulação móvel em ambientes reais, conhecida como "in-the-wild", visa implantar robôs em diversos ambientes do mundo real, o que requer que o robô (1) tenha habilidades que generalizem entre configurações de objetos; (2) seja capaz de executar tarefas de longo prazo em ambientes diversos; e (3) realize manipulações complexas além de pegar e colocar objetos. Robôs quadrúpedes com manipuladores têm o potencial de ampliar o espaço de trabalho e permitir uma locomoção robusta, mas os resultados existentes não investigam essa capacidade. Este artigo propõe o WildLMa com três componentes para abordar essas questões: (1) adaptação de um controlador de baixo nível aprendido para teleoperação de corpo inteiro habilitada para RV e capacidade de travessia; (2) WildLMa-Skill - uma biblioteca de habilidades visuomotoras generalizáveis adquiridas por meio de aprendizado por imitação ou heurísticas e (3) WildLMa-Planner - uma interface de habilidades aprendidas que permitem que planejadores de LLM coordenem habilidades para tarefas de longo prazo. Demonstramos a importância de dados de treinamento de alta qualidade ao alcançar uma taxa de sucesso de agarre mais alta em relação às referências existentes de RL usando apenas algumas demonstrações. O WildLMa explora o CLIP para aprendizado por imitação condicionado por linguagem que generaliza empiricamente para objetos não vistos nas demonstrações de treinamento. Além da extensa avaliação quantitativa, demonstramos qualitativamente aplicações práticas de robôs, como limpeza de lixo em corredores universitários ou terrenos ao ar livre, operação de objetos articulados e rearranjo de itens em uma estante.
A segmentação de nuvens é um desafio crítico na interpretação de imagens de sensoriamento remoto, pois sua precisão impacta diretamente a eficácia do processamento e análise de dados subsequentes. Recentemente, modelos de base visual (VFM) têm demonstrado poderosas capacidades de generalização em várias tarefas visuais. Neste artigo, apresentamos uma abordagem adaptativa eficiente em termos de parâmetros, denominada Cloud-Adapter, projetada para aprimorar a precisão e robustez da segmentação de nuvens. Nosso método aproveita um VFM pré-treinado em dados de domínio geral, que permanece congelado, eliminando a necessidade de treinamento adicional. O Cloud-Adapter incorpora um módulo leve de percepção espacial que inicialmente utiliza uma rede neural convolucional (ConvNet) para extrair representações espaciais densas. Esses recursos de múltiplas escalas são então agregados e servem como entradas contextuais para um módulo adaptativo, que modula as camadas do transformador congeladas dentro do VFM. Resultados experimentais demonstram que a abordagem Cloud-Adapter, utilizando apenas 0,6% dos parâmetros treináveis do espinha dorsal congelada, alcança ganhos de desempenho substanciais. O Cloud-Adapter consistentemente alcança desempenho de última geração (SOTA) em uma ampla variedade de conjuntos de dados de segmentação de nuvens de várias fontes de satélite, séries de sensores, níveis de processamento de dados, cenários de cobertura terrestre e granularidades de anotação. Disponibilizamos o código-fonte e os modelos pré-treinados em https://github.com/XavierJiezou/Cloud-Adapter para apoiar pesquisas futuras.
Nos últimos anos, a pesquisa na área de interação humano-robô tem se concentrado no desenvolvimento de robôs capazes de compreender instruções humanas complexas e realizar tarefas em ambientes dinâmicos e diversos. Esses sistemas possuem uma ampla gama de aplicações, desde assistência pessoal até robótica industrial, enfatizando a importância dos robôs interagirem de forma flexível, natural e segura com os humanos. Este artigo apresenta uma arquitetura avançada para o planejamento de ações robóticas que integra comunicação, percepção e planejamento com Modelos de Linguagem Grandes (LLMs). Nosso sistema é projetado para traduzir comandos expressos em linguagem natural em ações executáveis pelo robô, incorporando informações ambientais e atualizando dinamicamente os planos com base no feedback em tempo real. O Módulo de Planejamento é o núcleo do sistema, onde os LLMs incorporados em um framework ReAct modificado são empregados para interpretar e executar comandos do usuário. Ao aproveitar seu amplo conhecimento pré-treinado, os LLMs podem processar efetivamente as solicitações do usuário sem a necessidade de introduzir novos conhecimentos sobre o ambiente em mudança. O framework ReAct modificado ainda aprimora o espaço de execução fornecendo percepção ambiental em tempo real e os resultados das ações físicas. Ao combinar representações robustas e dinâmicas de mapas semânticos como grafos com componentes de controle e explicações de falhas, esta arquitetura aprimora a adaptabilidade do robô, a execução de tarefas e a colaboração contínua com os usuários humanos em ambientes compartilhados e dinâmicos. Através da integração de loops de feedback contínuos com o ambiente, o sistema pode ajustar dinamicamente o plano para acomodar mudanças inesperadas, otimizando a capacidade do robô de realizar tarefas. Utilizando um conjunto de dados de experiências anteriores, é possível fornecer feedback detalhado sobre a falha. Atualizando o contexto dos LLMs na próxima iteração com sugestões sobre como superar o problema.