Artigos de pesquisa em IA selecionados diariamente com traduções
Scalable Vector Graphics (SVG) é um formato de imagem importante amplamente adotado em design gráfico devido à sua independência de resolução e editabilidade. O estudo da geração de SVG de alta qualidade tem continuamente atraído a atenção de designers e pesquisadores na comunidade de AIGC. No entanto, os métodos existentes ou produzem saídas não estruturadas com um custo computacional elevado ou são limitados à geração de ícones monocromáticos com estruturas excessivamente simplificadas. Para produzir SVG de alta qualidade e complexos, propomos o OmniSVG, um framework unificado que aproveita modelos de visão e linguagem pré-treinados (VLMs) para a geração multimodal de SVG de ponta a ponta. Ao parametrizar comandos e coordenadas SVG em tokens discretos, o OmniSVG desacopla a lógica estrutural da geometria de baixo nível para um treinamento eficiente, mantendo a expressividade de estruturas SVG complexas. Para avançar ainda mais o desenvolvimento da síntese de SVG, introduzimos o MMSVG-2M, um conjunto de dados multimodal com dois milhões de ativos SVG ricamente anotados, juntamente com um protocolo de avaliação padronizado para tarefas de geração condicional de SVG. Experimentos extensivos mostram que o OmniSVG supera os métodos existentes e demonstra seu potencial para integração em fluxos de trabalho profissionais de design SVG.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado a capacidade de lidar com tarefas cada vez mais complexas por meio de raciocínio avançado, geração de conteúdo extenso e uso de ferramentas. A resolução dessas tarefas frequentemente envolve longos cálculos durante a inferência. Na resolução de problemas humanos, uma estratégia comum para agilizar o trabalho é a colaboração: dividindo o problema em sub-tarefas, explorando diferentes estratégias simultaneamente, etc. Pesquisas recentes mostraram que LLMs também podem operar em paralelo implementando frameworks explícitos de cooperação, como mecanismos de votação ou a criação explícita de sub-tarefas independentes que podem ser executadas em paralelo. No entanto, cada um desses frameworks pode não ser adequado para todos os tipos de tarefas, o que pode limitar sua aplicabilidade. Neste trabalho, propomos uma abordagem de design diferente: executamos "trabalhadores" LLM em paralelo, permitindo que eles se sincronizem por meio de um cache de atenção atualizado simultaneamente e solicitamos que esses trabalhadores decidam como colaborar da melhor forma. Nossa abordagem permite que as instâncias criem sua própria estratégia de colaboração para o problema em questão, enquanto "veem" o progresso parcial umas das outras no cache concorrente. Implementamos essa abordagem por meio do Hogwild! Inference: um mecanismo de inferência paralela de LLM onde múltiplas instâncias do mesmo LLM são executadas em paralelo com o mesmo cache de atenção, com acesso "instantâneo" aos tokens gerados umas pelas outras. O Hogwild! Inference aproveita os Rotary Position Embeddings (RoPE) para evitar recomputação enquanto melhora a utilização de hardware paralelo. Descobrimos que LLMs modernos com capacidade de raciocínio podem realizar inferência com cache compartilhado de Chave-Valor prontamente, sem necessidade de ajustes adicionais.
Apresentamos o Skywork R1V, um modelo de raciocínio multimodal que estende os modelos de linguagem de grande escala (LLM) da série R1 para modalidades visuais por meio de um método eficiente de transferência multimodal. Utilizando um projetor visual leve, o Skywork R1V facilita uma adaptação multimodal contínua sem a necessidade de retreinar o modelo de linguagem base ou o codificador de visão. Para fortalecer o alinhamento visual-textual, propomos uma estratégia de otimização híbrida que combina o Ajuste Fino Supervisionado Iterativo (SFT) com a Otimização de Política Relativa em Grupo (GRPO), aprimorando significativamente a eficiência da integração multimodal. Além disso, introduzimos uma abordagem de destilação de Cadeia de Pensamento (Chain-of-Thought) de comprimento adaptativo para a geração de dados de raciocínio. Essa abordagem otimiza dinamicamente o comprimento das cadeias de raciocínio, aumentando a eficiência de inferência e evitando o excesso de reflexão. Avaliações empíricas demonstram que o Skywork R1V, com apenas 38 bilhões de parâmetros, oferece desempenho competitivo, alcançando uma pontuação de 69,0 no benchmark MMMU e 67,5 no MathVista. Ao mesmo tempo, mantém um robusto desempenho em raciocínio textual, evidenciado por pontuações impressionantes de 72,0 no AIME e 94,0 no MATH500. Os pesos do modelo Skywork R1V foram disponibilizados publicamente para promover abertura e reprodutibilidade.
O cenário da geração de imagens evoluiu rapidamente, desde as primeiras abordagens baseadas em GANs até os modelos de difusão e, mais recentemente, para arquiteturas generativas unificadas que buscam integrar tarefas de compreensão e geração. Avanços recentes, especialmente o GPT-4o, demonstraram a viabilidade da geração multimodal de alta fidelidade, embora seu design arquitetônico permaneça misterioso e não publicado. Isso levanta a questão de se a geração de imagens e textos já foi integrada com sucesso em um framework unificado para esses métodos. Neste trabalho, realizamos um estudo empírico sobre as capacidades de geração de imagens do GPT-4o, comparando-o com modelos líderes de código aberto e comerciais. Nossa avaliação abrange quatro categorias principais, incluindo geração de texto para imagem, imagem para imagem, imagem para 3D e imagem para X, com mais de 20 tarefas. Nossa análise destaca os pontos fortes e as limitações do GPT-4o em várias configurações, posicionando-o dentro da evolução mais ampla da modelagem generativa. Por meio desta investigação, identificamos direções promissoras para futuros modelos generativos unificados, enfatizando o papel do design arquitetônico e da escala de dados.
O alinhamento de grandes modelos de linguagem (LLMs) com as preferências humanas tem alcançado sucesso notável. No entanto, os conjuntos de dados de preferências chineses existentes são limitados por sua pequena escala, cobertura restrita de domínios e falta de validação rigorosa dos dados. Além disso, a dependência de anotadores humanos para a rotulagem de instruções e respostas restringe significativamente a escalabilidade dos conjuntos de dados de preferências humanas. Para enfrentar esses desafios, projetamos um pipeline de anotação de conjuntos de dados de preferências chinesas baseado em LLMs, sem intervenção humana. Especificamente, rastreamos e filtramos cuidadosamente 92 mil consultas chinesas de alta qualidade e empregamos 15 LLMs principais para gerar e pontuar pares de respostas escolhidas-rejeitadas. Com base nisso, introduzimos o COIG-P (Chinese Open Instruction Generalist - Preference), um conjunto de dados de preferências chinesas de alta qualidade e grande escala, composto por 1.009 mil pares de preferências chinesas abrangendo 6 domínios diversos: Chat, Código, Matemática, Lógica, Romance e Papel. Com base no COIG-P, para reduzir o custo de usar LLMs para pontuação, treinamos um Modelo de Recompensa Chinês (CRM) de 8 bilhões de parâmetros e construímos meticulosamente um Benchmark de Recompensa Chinês (CRBench). Os resultados de avaliação baseados no AlignBench liu2024alignbenchbenchmarkingchinesealignment mostram que o COIG-P supera significativamente outros conjuntos de dados de preferências chinesas e traz melhorias de desempenho significativas, variando de 2% a 12% para as séries de modelos Qwen2/2.5 e Infinity-Instruct-3M-0625, respectivamente. Os resultados no CRBench demonstram que nosso CRM possui uma capacidade de pontuação forte e robusta. Aplicamos esse modelo para filtrar pares de respostas escolhidas-rejeitadas em uma divisão de teste do COIG-P, e nossos experimentos mostram que ele é comparável ao GPT-4o na identificação de amostras de baixa qualidade, mantendo eficiência e custo-benefício. Nossos códigos e dados estão disponíveis em https://github.com/multimodal-art-projection/COIG-P.
Embora a geração orientada por objetos tenha sido amplamente explorada na geração de imagens devido às suas diversas aplicações, ainda enfrenta desafios em escalabilidade de dados e expansibilidade de objetos. Para o primeiro desafio, a transição da curadoria de conjuntos de dados de um único objeto para múltiplos objetos e sua escalabilidade é particularmente difícil. Para o segundo, a maioria dos métodos recentes concentra-se na geração de um único objeto, tornando difícil sua aplicação em cenários com múltiplos objetos. Neste estudo, propomos um pipeline de síntese de dados altamente consistente para enfrentar esse desafio. Esse pipeline aproveita as capacidades intrínsecas de geração em contexto dos transformadores de difusão e gera dados pareados de múltiplos objetos com alta consistência. Além disso, introduzimos o UNO, que consiste em alinhamento progressivo entre modalidades e incorporação universal de posição rotativa. Trata-se de um modelo de objeto-para-imagem condicionado por múltiplas imagens, treinado iterativamente a partir de um modelo de texto-para-imagem. Experimentos extensivos mostram que nosso método pode alcançar alta consistência enquanto garante controlabilidade tanto na geração orientada por um único objeto quanto por múltiplos objetos.
A arquitetura Mixture of Experts (MoE) demonstrou vantagens significativas, pois permite aumentar a capacidade do modelo sem um aumento proporcional na computação. No entanto, o grande tamanho dos modelos MoE ainda introduz demandas substanciais de memória, o que geralmente requer o descarregamento de especialistas em plataformas com recursos limitados e incorre em sobrecarga significativa. A inferência híbrida CPU-GPU foi proposta para aproveitar a computação da CPU e reduzir a sobrecarga de carregamento de especialistas, mas enfrenta grandes desafios: por um lado, os padrões de ativação de especialistas dos modelos MoE são altamente instáveis, tornando as estratégias de mapeamento fixo em trabalhos existentes ineficientes; por outro lado, o agendamento híbrido CPU-GPU para MoE é inerentemente complexo devido aos diversos tamanhos de especialistas, estruturas, distribuição desigual de carga de trabalho, etc. Para enfrentar esses desafios, neste artigo, propomos o HybriMoE, um framework de inferência híbrida CPU-GPU que melhora a utilização de recursos por meio de um novo sistema de agendamento e gerenciamento de cache CPU-GPU. O HybriMoE introduz (i) uma estratégia de agendamento dinâmico intra-camada para equilibrar as cargas de trabalho entre CPU e GPU, (ii) um algoritmo de pré-busca inter-camada orientado por impacto, e (iii) um algoritmo de cache baseado em pontuação para mitigar a instabilidade na ativação de especialistas. Implementamos o HybriMoE sobre o framework kTransformers e o avaliamos em três LLMs baseados em MoE amplamente utilizados. Os resultados experimentais demonstram que o HybriMoE alcança um ganho de velocidade médio de 1,33 vezes na etapa de preenchimento e 1,70 vezes na etapa de decodificação em comparação com o framework de inferência híbrida MoE estado da arte. Nosso código está disponível em: https://github.com/PKU-SEC-Lab/HybriMoE.
Com modelos de linguagem de grande escala (LLMs) poderosos demonstrando capacidades de raciocínio sobre-humanas, surge uma questão crítica: os LLMs realmente raciocinam, ou eles simplesmente recuperam respostas de seus extensos conjuntos de dados de treinamento extraídos da web? Benchmarks lançados publicamente inevitavelmente se tornam contaminados uma vez incorporados em conjuntos de treinamento subsequentes de LLMs, comprometendo sua confiabilidade como avaliações fiéis. Para abordar isso, introduzimos o KUMO, uma estrutura de avaliação generativa projetada especificamente para avaliar o raciocínio em LLMs. O KUMO combina sinergicamente LLMs com motores simbólicos para produzir dinamicamente tarefas de raciocínio diversas e de múltiplas etapas que são parcialmente observáveis e ajustáveis em dificuldade. Por meio de um pipeline automatizado, o KUMO gera continuamente tarefas novas em domínios abertos, compelindo os modelos a demonstrar generalização genuína em vez de memorização. Avaliamos 23 LLMs de última geração em 5.000 tarefas em 100 domínios criados pelo KUMO, comparando suas habilidades de raciocínio com as de estudantes universitários. Nossos resultados revelam que muitos LLMs superaram o desempenho de nível universitário em tarefas de raciocínio fáceis, e LLMs escalados para raciocínio atingem desempenho de nível universitário em desafios de raciocínio complexos. Além disso, o desempenho dos LLMs em tarefas do KUMO correlaciona-se fortemente com os resultados em benchmarks de raciocínio do mundo real recém-lançados, destacando o valor do KUMO como uma ferramenta de avaliação robusta e duradoura para capacidades genuínas de raciocínio de LLMs.
Modelos de difusão/fluxo texto-para-imagem (T2I) têm atraído considerável atenção recentemente devido à sua notável capacidade de entregar criações visuais flexíveis. No entanto, a síntese de imagens de alta resolução apresenta desafios formidáveis devido à escassez e complexidade do conteúdo de alta resolução. Para isso, apresentamos o HiFlow, uma estrutura livre de treinamento e agnóstica a modelos, que desbloqueia o potencial de resolução de modelos de fluxo pré-treinados. Especificamente, o HiFlow estabelece um fluxo de referência virtual no espaço de alta resolução que efetivamente captura as características das informações de fluxo de baixa resolução, oferecendo orientação para a geração de alta resolução por meio de três aspectos principais: alinhamento de inicialização para consistência de baixa frequência, alinhamento de direção para preservação de estrutura e alinhamento de aceleração para fidelidade de detalhes. Ao aproveitar essa orientação alinhada ao fluxo, o HiFlow eleva substancialmente a qualidade da síntese de imagens de alta resolução dos modelos T2I e demonstra versatilidade em suas variantes personalizadas. Experimentos extensivos validam a superioridade do HiFlow em alcançar qualidade de imagem de alta resolução superior aos métodos atuais de ponta.
Os recentes avanços em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) levaram a melhorias significativas em vários benchmarks multimodais. No entanto, à medida que as avaliações passam de conjuntos de dados estáticos para ambientes dinâmicos e de mundo aberto, os benchmarks baseados em jogos atuais permanecem inadequados, pois carecem de tarefas centradas em aspectos visuais e não avaliam as diversas habilidades de raciocínio necessárias para a tomada de decisões no mundo real. Para abordar isso, introduzimos o Visual-centric Multiple Abilities Game Evaluation (V-MAGE), um framework de avaliação baseado em jogos projetado para avaliar as capacidades de raciocínio visual dos MLLMs. O V-MAGE apresenta cinco jogos diversos com mais de 30 níveis cuidadosamente elaborados, testando os modelos em habilidades visuais fundamentais, como posicionamento, rastreamento de trajetória, temporização e memória visual, juntamente com raciocínio de nível superior, como planejamento de longo prazo e deliberação. Utilizamos o V-MAGE para avaliar os principais MLLMs, revelando desafios significativos em sua percepção e raciocínio visual. Em todos os ambientes de jogo, os MLLMs de melhor desempenho, determinados por comparações de pontuação Elo, exibem uma lacuna substancial de desempenho em relação aos humanos. Nossas descobertas destacam limitações críticas, incluindo vários tipos de erros perceptivos cometidos pelos modelos, e sugerem possíveis caminhos para melhorias a partir de uma perspectiva centrada no agente, como o refinamento de estratégias do agente e a correção de imprecisões perceptivas. O código está disponível em https://github.com/CSU-JPG/V-MAGE.
Para sobreviver e prosperar em ambientes complexos, os seres humanos desenvolveram mecanismos sofisticados de autodesenvolvimento por meio da exploração do ambiente, abstração hierárquica de experiências em habilidades reutilizáveis e construção colaborativa de um repertório de habilidades em constante crescimento. Apesar dos avanços recentes, os agentes autônomos na web ainda carecem de capacidades cruciais de autodesenvolvimento, enfrentando dificuldades com a abstração de conhecimento procedural, refinamento de habilidades e composição de habilidades. Neste trabalho, apresentamos o SkillWeaver, uma estrutura centrada em habilidades que permite que os agentes se autodesenvolvam sintetizando autonomamente habilidades reutilizáveis como APIs. Diante de um novo site, o agente descobre habilidades de forma autônoma, as executa para praticar e destila as experiências de prática em APIs robustas. A exploração iterativa expande continuamente uma biblioteca de APIs leves e plug-and-play, aprimorando significativamente as capacidades do agente. Experimentos no WebArena e em sites do mundo real demonstram a eficácia do SkillWeaver, alcançando melhorias relativas nas taxas de sucesso de 31,8% e 39,8%, respectivamente. Além disso, APIs sintetizadas por agentes fortes aprimoram substancialmente agentes mais fracos por meio de habilidades transferíveis, resultando em melhorias de até 54,3% no WebArena. Esses resultados demonstram a eficácia de aprimorar diversas interações com sites em APIs, que podem ser compartilhadas de forma contínua entre vários agentes da web.
Avanços recentes em modelos de raciocínio demonstraram melhorias significativas na precisão, particularmente para tarefas complexas como raciocínio matemático, ao empregar processos de raciocínio detalhados e abrangentes. No entanto, gerar essas sequências longas de raciocínio é computacionalmente caro e demorado. Para abordar essa ineficiência, aproveitamos a paralelização inerente de certas tarefas para acelerar o processo de raciocínio. Especificamente, quando existem múltiplos ramos de raciocínio paralelos, decodificamos vários tokens por etapa usando uma máscara de atenção especializada, processando-os dentro de uma única sequência, evitando o uso adicional de memória. Resultados experimentais mostram que nosso método alcança uma aceleração de mais de 100% no tempo de decodificação, mantendo a qualidade das respostas.
Equilibrar fidelidade e editabilidade é essencial na edição de imagens baseada em texto (TIE), onde falhas geralmente resultam em problemas de edição excessiva ou insuficiente. Os métodos existentes normalmente dependem de injeções de atenção para preservação da estrutura e aproveitam as capacidades inerentes de alinhamento de texto de modelos pré-treinados de texto para imagem (T2I) para editabilidade, mas carecem de mecanismos explícitos e unificados para equilibrar adequadamente esses dois objetivos. Neste trabalho, apresentamos o UnifyEdit, um método sem ajuste que realiza otimização de latente de difusão para permitir uma integração equilibrada de fidelidade e editabilidade em um framework unificado. Diferente das injeções diretas de atenção, desenvolvemos duas restrições baseadas em atenção: uma restrição de preservação de auto-atenção (SA) para fidelidade estrutural e uma restrição de alinhamento de atenção cruzada (CA) para melhorar o alinhamento de texto e aumentar a editabilidade. No entanto, aplicar ambas as restrições simultaneamente pode levar a conflitos de gradiente, onde o domínio de uma restrição resulta em edição excessiva ou insuficiente. Para enfrentar esse desafio, introduzimos um agendador adaptativo de passos de tempo que ajusta dinamicamente a influência dessas restrições, guiando o latente de difusão em direção a um equilíbrio ótimo. Experimentos quantitativos e qualitativos extensivos validam a eficácia da nossa abordagem, demonstrando sua superioridade em alcançar um equilíbrio robusto entre preservação de estrutura e alinhamento de texto em diversas tarefas de edição, superando outros métodos state-of-the-art. O código-fonte estará disponível em https://github.com/CUC-MIPG/UnifyEdit.
O ajuste fino por reforço (RFT) tem demonstrado grande potencial para aprimorar as capacidades de raciocínio matemático de modelos de linguagem de grande escala (LLMs), mas frequentemente é ineficiente em termos de amostras e computação, exigindo treinamento extensivo. Neste trabalho, introduzimos o AdaRFT (Ajuste Fino por Reforço com Currículo Adaptativo), um método que melhora significativamente tanto a eficiência quanto a precisão final do RFT por meio de aprendizado de currículo adaptativo. O AdaRFT ajusta dinamicamente a dificuldade dos problemas de treinamento com base nos sinais de recompensa recentes do modelo, garantindo que o modelo treine consistentemente em tarefas que são desafiadoras, mas solucionáveis. Essa estratégia de amostragem adaptativa acelera o aprendizado ao manter uma faixa de dificuldade ótima, evitando o desperdício de computação em problemas que são muito fáceis ou muito difíceis. O AdaRFT requer apenas uma extensão leve aos algoritmos padrão de RFT, como o Proximal Policy Optimization (PPO), sem modificar a função de recompensa ou a arquitetura do modelo. Experimentos em conjuntos de dados matemáticos de nível competitivo — incluindo problemas no estilo AMC, AIME e IMO — demonstram que o AdaRFT melhora significativamente tanto a eficiência do treinamento quanto o desempenho de raciocínio. Avaliamos o AdaRFT em várias distribuições de dados e tamanhos de modelos, mostrando que ele reduz o número de etapas de treinamento em até 2x e melhora a precisão consideravelmente, oferecendo uma estrutura de RFT mais escalável e eficaz.
Os frameworks existentes de avaliação de raciocínio para Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Linguagem-Visão de Grande Escala (LVLMs) avaliam predominantemente o raciocínio baseado em texto ou as capacidades de compreensão de linguagem-visão, com uma interação dinâmica limitada entre restrições textuais e visuais. Para abordar essa limitação, introduzimos o CrossWordBench, um benchmark projetado para avaliar as capacidades de raciocínio de LLMs e LVLMs por meio de quebra-cabeças de palavras cruzadas—uma tarefa que exige aderência multimodal a restrições semânticas de pistas baseadas em texto e restrições interseccionais de estruturas de grade visual. O CrossWordBench utiliza um framework controlável de geração de quebra-cabeças que produz puzzles em múltiplos formatos (texto e imagem) e oferece diferentes estratégias de avaliação, desde a resolução direta de puzzles até modos interativos. Nossa extensa avaliação de mais de 20 modelos revela que LLMs de raciocínio superam substancialmente modelos sem raciocínio ao aproveitar efetivamente as restrições de letras cruzadas. Demonstramos ainda que LVLMs têm dificuldades com a tarefa, mostrando uma forte correlação entre seu desempenho na resolução de puzzles e a precisão na análise de grades. Nossas descobertas oferecem insights sobre as limitações das capacidades de raciocínio dos LLMs e LVLMs atuais e fornecem uma abordagem eficaz para a criação de tarefas multimodais com restrições para avaliações futuras.
Os avanços recentes na prova automática de teoremas (ATP) por meio de LLMs destacaram o potencial do raciocínio formal com códigos Lean 4. No entanto, a ATP ainda não foi revolucionada pelo recente escalonamento pós-treinamento, como demonstrado pelos modelos Open AI O1/O3 e Deepseek R1. Neste trabalho, investigamos todo o processo de pós-treinamento da ATP, visando alinhá-lo com os avanços nos modelos de raciocínio em linguagens naturais. Para começar, realizamos o treinamento contínuo dos modelos atuais de ATP com um conjunto de dados híbrido, que consiste em diversos pares de enunciado-prova, além de dados adicionais destinados a incorporar comportamentos cognitivos que emulam o raciocínio humano e o refinamento de hipóteses. Em seguida, exploramos o aprendizado por reforço utilizando recompensas de resultado retornadas pelo compilador Lean 4. Por meio de nossos processos projetados de treinamento contínuo e aprendizado por reforço, conseguimos aprimorar os provadores formais existentes, incluindo tanto o DeepSeek-Prover-v1.5 quanto o Goedel-Prover, alcançando desempenho de ponta no campo de geração de provas completas. Por exemplo, obtivemos uma taxa de aprovação de 59,8% (pass@32) no MiniF2F. Este é um projeto em andamento, e atualizaremos progressivamente nossas descobertas, liberando nossos dados e detalhes de treinamento.
O aprendizado por imitação surgiu como uma abordagem promissora para a construção de robôs generalistas. No entanto, escalar o aprendizado por imitação para grandes modelos de base robóticos continua desafiador devido à sua dependência de demonstrações de alta qualidade feitas por especialistas. Enquanto isso, grandes quantidades de dados de vídeo que retratam uma ampla gama de ambientes e comportamentos diversos estão prontamente disponíveis. Esses dados fornecem uma rica fonte de informações sobre a dinâmica do mundo real e as interações entre agentes e ambientes. No entanto, aproveitar diretamente esses dados para o aprendizado por imitação tem se mostrado difícil devido à falta de anotações de ações necessárias para a maioria dos métodos contemporâneos. Neste trabalho, apresentamos os Modelos de Mundo Unificados (UWM, na sigla em inglês), uma estrutura que permite aproveitar tanto dados de vídeo quanto de ações para o aprendizado de políticas. Especificamente, um UWM integra um processo de difusão de ações e um processo de difusão de vídeo dentro de uma arquitetura de transformador unificada, onde etapas de difusão independentes governam cada modalidade. Mostramos que, ao simplesmente controlar cada etapa de difusão, o UWM pode representar de forma flexível uma política, uma dinâmica direta, uma dinâmica inversa e um gerador de vídeo. Por meio de experimentos simulados e no mundo real, demonstramos que: (1) o UWM permite um pré-treinamento eficaz em grandes conjuntos de dados multitarefa de robôs com previsões de dinâmica e ações, resultando em políticas mais generalizáveis e robustas do que o aprendizado por imitação, (2) o UWM facilita naturalmente o aprendizado a partir de dados de vídeo sem ações por meio do controle independente de etapas de difusão específicas para cada modalidade, melhorando ainda mais o desempenho das políticas ajustadas. Nossos resultados sugerem que o UWM oferece um passo promissor para aproveitar grandes conjuntos de dados heterogêneos para o aprendizado escalável de robôs e fornece uma unificação simples entre os paradigmas frequentemente distintos de aprendizado por imitação e modelagem de mundo. Vídeos e código estão disponíveis em https://weirdlabuw.github.io/uwm/.
A descoberta generalizada de categorias (GCD) é um problema pragmático, mas pouco explorado, que exige que os modelos agrupem e descubram automaticamente novas categorias, aproveitando amostras rotuladas de classes antigas. O desafio reside no fato de que os dados não rotulados contêm tanto classes antigas quanto novas. Trabalhos iniciais que utilizam pseudo-rotulação com classificadores paramétricos tratam as classes antigas e novas separadamente, o que resulta em uma precisão desequilibrada entre elas. Métodos recentes que empregam aprendizado contrastivo negligenciam potenciais positivos e estão desacoplados do objetivo de agrupamento, levando a representações tendenciosas e resultados subótimos. Para abordar essas questões, introduzimos uma estrutura unificada e imparcial de aprendizado de protótipos, denominada ProtoGCD, na quais as classes antigas e novas são modeladas com protótipos conjuntos e objetivos de aprendizado unificados, {permitindo a modelagem unificada entre classes antigas e novas}. Especificamente, propomos um mecanismo de pseudo-rotulação adaptativa de duplo nível para mitigar o viés de confirmação, juntamente com dois termos de regularização para ajudar coletivamente a aprender representações mais adequadas para a GCD. Além disso, por considerações práticas, elaboramos um critério para estimar o número de novas classes. Adicionalmente, estendemos o ProtoGCD para detectar outliers não vistos, alcançando a unificação em nível de tarefa. Experimentos abrangentes mostram que o ProtoGCD atinge desempenho de ponta tanto em conjuntos de dados genéricos quanto em dados de granularidade fina. O código está disponível em https://github.com/mashijie1028/ProtoGCD.