Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar do rápido crescimento da pesquisa em aprendizado de máquina, as implementações de código correspondentes frequentemente não estão disponíveis, tornando lento e trabalhoso para os pesquisadores reproduzir resultados e construir sobre trabalhos anteriores. Enquanto isso, os recentes Modelos de Linguagem de Grande Escala (LLMs) se destacam na compreensão de documentos científicos e na geração de código de alta qualidade. Inspirados por isso, introduzimos o PaperCoder, um framework multiagente baseado em LLMs que transforma artigos de aprendizado de máquina em repositórios de código funcionais. O PaperCoder opera em três estágios: planejamento, onde constrói um roteiro de alto nível, projeta a arquitetura do sistema com diagramas, identifica dependências de arquivos e gera arquivos de configuração; análise, que se concentra na interpretação de detalhes específicos da implementação; e geração, onde é produzido código modular e consciente das dependências. Além disso, cada fase é instanciada por meio de um conjunto de agentes especializados projetados para colaborar de forma eficaz ao longo do pipeline. Avaliamos o PaperCoder na geração de implementações de código a partir de artigos de aprendizado de máquina com base em avaliações tanto de modelos quanto humanas, especificamente dos autores originais dos artigos, utilizando repositórios liberados pelos autores como verdade fundamental, quando disponíveis. Nossos resultados demonstram a eficácia do PaperCoder na criação de implementações de alta qualidade e fiéis. Além disso, ele consistentemente mostra pontos fortes no benchmark PaperBench, recentemente lançado, superando baselines robustas por margens substanciais.
Nos últimos anos, os modelos de edição de imagem têm testemunhado um desenvolvimento notável e rápido. O recente lançamento de modelos multimodais de ponta, como o GPT-4o e o Gemini2 Flash, introduziu capacidades de edição de imagem altamente promissoras. Esses modelos demonstram uma aptidão impressionante para atender à grande maioria das necessidades de edição orientadas pelo usuário, marcando um avanço significativo no campo da manipulação de imagens. No entanto, ainda existe uma grande lacuna entre os algoritmos de código aberto e esses modelos proprietários. Assim, neste artigo, nosso objetivo é lançar um modelo de edição de imagem de última geração, chamado Step1X-Edit, que pode oferecer desempenho comparável aos modelos proprietários como o GPT-4o e o Gemini2 Flash. Mais especificamente, adotamos o Multimodal LLM para processar a imagem de referência e a instrução de edição do usuário. Um embedding latente foi extraído e integrado a um decodificador de imagem baseado em difusão para obter a imagem desejada. Para treinar o modelo, construímos um pipeline de geração de dados para produzir um conjunto de dados de alta qualidade. Para avaliação, desenvolvemos o GEdit-Bench, um novo benchmark baseado em instruções reais de usuários. Os resultados experimentais no GEdit-Bench demonstram que o Step1X-Edit supera as bases de código aberto existentes por uma margem substancial e se aproxima do desempenho dos principais modelos proprietários, contribuindo significativamente para o campo da edição de imagem.
A geração de imagens a partir de texto (T2I) orientada por sujeito tem como objetivo produzir imagens que se alinhem a uma descrição textual fornecida, ao mesmo tempo em que preservam a identidade visual de uma imagem de referência. Apesar de sua ampla aplicabilidade em tarefas subsequentes — que vão desde a personalização aprimorada na geração de imagens até a representação consistente de personagens na renderização de vídeos —, o progresso nessa área é limitado pela falta de avaliação automática confiável. Os métodos existentes avaliam apenas um aspecto da tarefa (ou seja, o alinhamento textual ou a preservação do sujeito), não se alinham com os julgamentos humanos ou dependem de avaliações baseadas em APIs custosas. Para resolver isso, introduzimos o RefVNLI, uma métrica econômica que avalia tanto o alinhamento textual quanto a preservação do sujeito em uma única previsão. Treinado em um conjunto de dados em grande escala derivado de benchmarks de raciocínio em vídeo e perturbações de imagem, o RefVNLI supera ou iguala as linhas de base existentes em múltiplos benchmarks e categorias de sujeitos (por exemplo, Animal, Objeto), alcançando ganhos de até 6,4 pontos no alinhamento textual e 8,5 pontos na consistência do sujeito. Ele também se destaca com conceitos menos conhecidos, alinhando-se às preferências humanas com mais de 87% de precisão.
O framework Contrastive Language-Image Pre-training (CLIP) tornou-se uma abordagem amplamente utilizada para o aprendizado de representações multimodais, particularmente em tarefas de recuperação e agrupamento de imagens e textos. No entanto, sua eficácia é limitada por três principais restrições: (1) truncamento de tokens de texto, (2) codificação isolada de imagem-texto e (3) composicionalidade deficiente devido ao comportamento de "bag-of-words". Embora os recentes Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham demonstrado avanços significativos na compreensão generalizada de visão e linguagem, seu potencial para aprender representações multimodais transferíveis ainda é pouco explorado. Neste trabalho, apresentamos o UniME (Universal Multimodal Embedding), um novo framework de duas etapas que aproveita os MLLMs para aprender representações discriminativas para diversas tarefas subsequentes. Na primeira etapa, realizamos a destilação de conhecimento discriminativo textual a partir de um modelo professor baseado em LLM poderoso, para aprimorar a capacidade de incorporação do componente de linguagem do MLLM. Na segunda etapa, introduzimos o ajuste de instrução com reforço de negativos difíceis para avançar ainda mais o aprendizado de representações discriminativas. Especificamente, inicialmente mitigamos a contaminação por falsos negativos e, em seguida, amostramos múltiplos negativos difíceis por instância dentro de cada lote, forçando o modelo a focar em amostras desafiadoras. Essa abordagem não apenas melhora o poder discriminativo, mas também aprimora a capacidade de seguir instruções em tarefas subsequentes. Realizamos experimentos extensivos no benchmark MMEB e em múltiplas tarefas de recuperação, incluindo recuperação de legendas curtas e longas e recuperação composicional. Os resultados demonstram que o UniME alcança melhorias consistentes de desempenho em todas as tarefas, exibindo capacidades discriminativas e composicionais superiores.
Apresentamos um framework para raciocínio consciente da perspectiva em modelos de visão e linguagem (VLMs) por meio da simulação de imagens mentais. A tomada de perspectiva, a capacidade de perceber um ambiente ou situação a partir de um ponto de vista alternativo, é um marco essencial para o entendimento visual em nível humano, crucial para a interação com o ambiente e colaboração com agentes autônomos. Apesar dos avanços no raciocínio espacial em VLMs, pesquisas recentes mostraram que os VLMs modernos carecem significativamente de capacidades de raciocínio consciente da perspectiva e exibem um forte viés em direção a interpretações egocêntricas. Para reduzir a lacuna entre VLMs e a percepção humana, focamos no papel das imagens mentais, em que os humanos percebem o mundo por meio de representações abstratas que facilitam mudanças de perspectiva. Motivados por isso, propomos um framework para raciocínio consciente da perspectiva, denominado Mudança de Perspectiva Abstrata (APC), que aproveita efetivamente modelos de base de visão, como detecção de objetos, segmentação e estimativa de orientação, para construir abstrações de cena e permitir transformações de perspectiva. Nossos experimentos em benchmarks de imagens sintéticas e reais, comparados com vários VLMs, demonstram melhorias significativas no raciocínio consciente da perspectiva com nosso framework, superando ainda modelos de raciocínio espacial ajustados e abordagens baseadas em síntese de novas visões.
Com o advento de grandes conjuntos de dados 3D, modelos generativos 3D de propagação direta, como o Large Reconstruction Model (LRM), ganharam atenção significativa e alcançaram sucesso notável. No entanto, observamos que imagens RGB frequentemente levam a objetivos de treinamento conflitantes e carecem da clareza necessária para a reconstrução geométrica. Neste artigo, revisitamos os vieses indutivos associados à reconstrução de malhas e introduzimos o DiMeR, um novo modelo de propagação direta de fluxo duplo desacoplado para reconstrução de malhas com visão esparsa. A ideia central é desacoplar tanto a entrada quanto a estrutura em partes de geometria e textura, reduzindo assim a dificuldade de treinamento para cada parte de acordo com o Princípio da Navalha de Occam. Dado que mapas normais são estritamente consistentes com a geometria e capturam com precisão as variações da superfície, utilizamos mapas normais como entrada exclusiva para o ramo de geometria, a fim de reduzir a complexidade entre a entrada e a saída da rede. Além disso, aprimoramos o algoritmo de extração de malhas para introduzir supervisão de verdade terrestre 3D. Quanto ao ramo de textura, utilizamos imagens RGB como entrada para obter a malha texturizada. No geral, o DiMeR demonstra capacidades robustas em diversas tarefas, incluindo reconstrução com visão esparsa, conversão de imagem única para 3D e texto para 3D. Numerosos experimentos mostram que o DiMeR supera significativamente métodos anteriores, alcançando uma melhoria de mais de 30% na Distância de Chamfer nos conjuntos de dados GSO e OmniObject3D.
Modelos autoregressivos (AR), há muito dominantes na geração de linguagem, estão sendo cada vez mais aplicados à síntese de imagens, mas frequentemente são considerados menos competitivos do que os modelos baseados em difusão. Uma limitação primária é o número substancial de tokens de imagem exigidos pelos modelos AR, o que restringe tanto a eficiência de treinamento quanto de inferência, além da resolução da imagem. Para abordar isso, apresentamos o Token-Shuffle, um método novo e simples que reduz o número de tokens de imagem no Transformer. Nossa principal percepção é a redundância dimensional dos vocabulários visuais em Modelos de Linguagem Multimodal de Grande Escala (MLLMs), onde códigos visuais de baixa dimensão do codificador visual são mapeados diretamente para vocabulários de linguagem de alta dimensão. Aproveitando isso, consideramos duas operações-chave: o token-shuffle, que combina tokens locais espacialmente ao longo da dimensão do canal para diminuir o número de tokens de entrada, e o token-unshuffle, que desembaraça os tokens inferidos após os blocos do Transformer para restaurar o arranjo espacial na saída. Treinado conjuntamente com prompts textuais, nossa estratégia não requer um codificador de texto pré-treinado adicional e permite que os MLLMs suportem a síntese de imagens de resolução extremamente alta de maneira unificada na previsão do próximo token, mantendo o treinamento e a inferência eficientes. Pela primeira vez, expandimos o limite da geração de imagens a partir de texto AR para uma resolução de 2048x2048 com desempenho de geração satisfatório. No benchmark GenAI, nosso modelo de 2,7B alcança uma pontuação geral de 0,77 em prompts difíceis, superando os modelos AR LlamaGen por 0,18 e os modelos de difusão LDM por 0,15. Avaliações humanas em grande escala também demonstram nossa capacidade proeminente de geração de imagens em termos de alinhamento de texto, falhas visuais e aparência visual. Esperamos que o Token-Shuffle possa servir como um design fundamental para a geração eficiente de imagens de alta resolução dentro dos MLLMs.
Qualidade e diversidade são duas métricas críticas para os dados de treinamento de modelos de linguagem de grande escala (LLMs), impactando positivamente o desempenho. Estudos existentes frequentemente otimizam essas métricas separadamente, geralmente aplicando primeiro filtros de qualidade e depois ajustando as proporções dos dados. No entanto, essas abordagens ignoram a relação intrínseca de trade-off entre qualidade e diversidade, exigindo sua consideração conjunta. Dada uma cota fixa de treinamento, é essencial avaliar tanto a qualidade de cada ponto de dados quanto seu efeito complementar no conjunto de dados geral. Neste artigo, introduzimos um framework unificado de seleção de dados chamado QuaDMix, que otimiza automaticamente a distribuição de dados para o pré-treinamento de LLMs, equilibrando qualidade e diversidade. Especificamente, propomos primeiro múltiplos critérios para medir a qualidade dos dados e empregamos classificação de domínio para distinguir os pontos de dados, medindo assim a diversidade geral. O QuaDMix então utiliza uma função de amostragem de dados parametrizada e unificada que determina a probabilidade de amostragem de cada ponto de dados com base nessas etiquetas relacionadas à qualidade e diversidade. Para acelerar a busca pelos parâmetros ótimos envolvidos no framework QuaDMix, realizamos experimentos simulados em modelos menores e usamos o LightGBM para a busca de parâmetros, inspirados no método RegMix. Nossos experimentos em diversos modelos e conjuntos de dados demonstram que o QuaDMix alcança uma melhoria média de desempenho de 7,2% em múltiplos benchmarks. Esses resultados superam as estratégias independentes para qualidade e diversidade, destacando a necessidade e a capacidade de equilibrar qualidade e diversidade dos dados.
Verificadores passo a passo -- também conhecidos como modelos de recompensa de processo (PRMs) -- são um ingrediente fundamental para a escalabilidade durante o teste. PRMs exigem supervisão em nível de etapa, tornando-os caros para treinar. Este trabalho visa construir PRMs eficientes em termos de dados como modelos de recompensa verbalizados passo a passo que verificam cada etapa da solução gerando uma cadeia de pensamento (CoT) de verificação. Propomos o ThinkPRM, um verificador de CoT longo ajustado com uma ordem de magnitude menor de rótulos de processo em comparação com os exigidos por PRMs discriminativos. Nossa abordagem aproveita as habilidades inerentes de raciocínio dos modelos de CoT longo e supera o LLM-as-a-Judge e verificadores discriminativos -- usando apenas 1% dos rótulos de processo do PRM800K -- em vários benchmarks desafiadores. Especificamente, o ThinkPRM supera as baselines no ProcessBench, MATH-500 e AIME '24 sob seleção best-of-N e busca guiada por recompensa. Em uma avaliação fora do domínio em um subconjunto do GPQA-Diamond e LiveCodeBench, nosso PRM supera verificadores discriminativos treinados com o PRM800K completo em 8% e 4,5%, respectivamente. Por fim, sob o mesmo orçamento de tokens, o ThinkPRM escala o cálculo de verificação de forma mais eficaz em comparação com o LLM-as-a-Judge, superando-o em 7,2% em um subconjunto do ProcessBench. Nosso trabalho destaca o valor dos PRMs generativos de CoT longo que podem escalar o cálculo de verificação durante o teste enquanto exigem supervisão mínima para o treinamento. Nosso código, dados e modelos serão liberados em https://github.com/mukhal/thinkprm.
O try-on de vídeo substitui as roupas em vídeos por peças de vestuário alvo. Os métodos existentes enfrentam dificuldades para gerar resultados de alta qualidade e temporalmente consistentes ao lidar com padrões complexos de roupas e poses corporais diversas. Apresentamos o 3DV-TON, uma nova estrutura baseada em difusão para gerar resultados de try-on de vídeo de alta fidelidade e temporalmente consistentes. Nossa abordagem utiliza malhas 3D texturizadas e animáveis geradas como orientação explícita em nível de quadro, mitigando o problema de modelos que se concentram excessivamente na fidelidade de aparência em detrimento da coerência de movimento. Isso é alcançado ao permitir a referência direta a movimentos consistentes da textura da roupa ao longo das sequências de vídeo. O método proposto apresenta um pipeline adaptativo para gerar orientação 3D dinâmica: (1) seleciona um quadro-chave para o try-on inicial de imagem 2D, seguido por (2) reconstrução e animação de uma malha 3D texturizada sincronizada com as poses originais do vídeo. Além disso, introduzimos uma estratégia robusta de mascaramento retangular que mitiga com sucesso a propagação de artefatos causada pela vazamento de informações de roupas durante movimentos dinâmicos de humanos e vestuário. Para avançar a pesquisa em try-on de vídeo, apresentamos o HR-VVT, um conjunto de dados de referência de alta resolução contendo 130 vídeos com diversos tipos de roupas e cenários. Resultados quantitativos e qualitativos demonstram nosso desempenho superior em relação aos métodos existentes. A página do projeto está disponível no link https://2y7c3.github.io/3DV-TON/
Os modelos de difusão latente (LDMs) dominam a geração de imagens de alta qualidade, mas a integração do aprendizado de representação com a modelagem generativa continua sendo um desafio. Apresentamos uma nova estrutura de modelagem generativa de imagens que preenche essa lacuna de forma harmoniosa, utilizando um modelo de difusão para modelar conjuntamente latentes de imagem de baixo nível (de um autoencoder variacional) e características semânticas de alto nível (de um codificador auto-supervisionado pré-treinado, como o DINO). Nossa abordagem de difusão latente-semântica aprende a gerar pares coerentes de imagem-característica a partir de ruído puro, melhorando significativamente tanto a qualidade generativa quanto a eficiência do treinamento, tudo isso com apenas modificações mínimas nas arquiteturas padrão de Transformadores de Difusão. Ao eliminar a necessidade de objetivos complexos de destilação, nosso design unificado simplifica o treinamento e desbloqueia uma nova e poderosa estratégia de inferência: a Orientação por Representação, que aproveita a semântica aprendida para direcionar e refinar a geração de imagens. Avaliado em cenários condicionais e incondicionais, nosso método oferece melhorias substanciais na qualidade das imagens e na velocidade de convergência do treinamento, estabelecendo uma nova direção para a modelagem generativa consciente da representação.
Apresentamos o DyMU, um framework eficiente e livre de treinamento que reduz dinamicamente a carga computacional de modelos visão-linguagem (VLMs) enquanto mantém um alto desempenho em tarefas. Nossa abordagem compreende dois componentes principais. Primeiro, o Dynamic Token Merging (DToMe) reduz o número de embeddings de tokens visuais ao mesclar tokens semelhantes com base na complexidade da imagem, abordando a ineficiência inerente de saídas de comprimento fixo em transformadores de visão. Segundo, o Virtual Token Unmerging (VTU) simula a sequência esperada de tokens para grandes modelos de linguagem (LLMs) ao reconstruir eficientemente a dinâmica de atenção de uma sequência completa, preservando assim o desempenho downstream sem a necessidade de ajustes adicionais. Diferente de abordagens anteriores, nosso método adapta dinamicamente a compressão de tokens ao conteúdo da imagem e opera completamente sem treinamento, tornando-o prontamente aplicável à maioria das arquiteturas VLM state-of-the-art. Experimentos extensivos em tarefas de compreensão de imagens e vídeos demonstram que o DyMU pode reduzir a contagem média de tokens visuais em 32%-85% enquanto alcança desempenho comparável a modelos de comprimento total em diversas arquiteturas VLM, incluindo os recentemente popularizados codificadores visuais baseados em AnyRes. Além disso, por meio de análises qualitativas, demonstramos que o DToMe adapta efetivamente a redução de tokens com base na complexidade da imagem e, ao contrário de sistemas existentes, oferece aos usuários maior controle sobre os custos computacionais. Página do projeto: https://mikewangwzhl.github.io/dymu/.
O rápido crescimento das plataformas de vídeo online, particularmente os serviços de transmissão ao vivo, criou uma necessidade urgente por sistemas de compreensão de vídeo em tempo real. Esses sistemas devem processar fluxos contínuos de vídeo e responder às consultas dos usuários instantaneamente, apresentando desafios únicos para os atuais Modelos de Linguagem de Grande Escala para Vídeo (VideoLLMs). Embora os VideoLLMs existentes se destaquem no processamento de vídeos completos, eles enfrentam limitações significativas em cenários de streaming devido à sua incapacidade de lidar eficientemente com quadros densos e redundantes. Apresentamos o TimeChat-Online, um novo VideoLLM online que revoluciona a interação em tempo real com vídeos. Em seu núcleo está nosso inovador módulo de Descarte Diferencial de Tokens (DTD), que aborda o desafio fundamental da redundância visual em vídeos de streaming. Inspirado pelo fenômeno da Cegueira à Mudança na percepção visual humana, o DTD preserva mudanças temporais significativas enquanto filtra conteúdo estático e redundante entre os quadros. Notavelmente, nossos experimentos demonstram que o DTD alcança uma redução de 82,8% nos tokens de vídeo enquanto mantém 98% de desempenho no StreamingBench, revelando que mais de 80% do conteúdo visual em vídeos de streaming é naturalmente redundante sem a necessidade de orientação linguística. Para permitir uma interação em tempo real perfeita, apresentamos o TimeChat-Online-139K, um conjunto abrangente de dados de vídeo de streaming que apresenta diversos padrões de interação, incluindo cenários de rastreamento para trás, percepção atual e resposta ao futuro. A capacidade única de Resposta Proativa do TimeChat-Online, naturalmente alcançada através do monitoramento contínuo das transições de cena de vídeo via DTD, o diferencia das abordagens convencionais. Nossa extensa avaliação demonstra o desempenho superior do TimeChat-Online em benchmarks de streaming (StreamingBench e OvOBench) e a manutenção de resultados competitivos em tarefas de vídeo de longa duração, como Video-MME e MLVU.
Modelos de Linguagem de Grande Escala (LLMs) permanecem difíceis de avaliar de forma abrangente, especialmente para idiomas que não o inglês, onde dados de alta qualidade são frequentemente limitados. Os benchmarks e rankings existentes são predominantemente centrados no inglês, com apenas alguns abordando outros idiomas. Esses benchmarks apresentam deficiências em várias áreas-chave: eles negligenciam a diversidade de variedades linguísticas, priorizam capacidades fundamentais de Processamento de Linguagem Natural (NLP) em detrimento de tarefas de relevância industrial e são estáticos. Com esses aspectos em mente, apresentamos o IberBench, um benchmark abrangente e extensível projetado para avaliar o desempenho de LLMs tanto em tarefas fundamentais quanto em tarefas de NLP relevantes para a indústria, em idiomas falados na Península Ibérica e na Ibero-América. O IberBench integra 101 conjuntos de dados de campanhas de avaliação e benchmarks recentes, cobrindo 22 categorias de tarefas, como análise de sentimento e emoção, detecção de toxicidade e sumarização. O benchmark aborda limitações-chave nas práticas atuais de avaliação, como a falta de diversidade linguística e configurações de avaliação estáticas, permitindo atualizações contínuas e submissões de modelos e conjuntos de dados impulsionadas pela comunidade, moderadas por um comitê de especialistas. Avaliamos 23 LLMs variando de 100 milhões a 14 bilhões de parâmetros e fornecemos insights empíricos sobre seus pontos fortes e limitações. Nossas descobertas indicam que (i) os LLMs têm desempenho pior em tarefas relevantes para a indústria do que em tarefas fundamentais, (ii) o desempenho é, em média, menor para o galego e o basco, (iii) algumas tarefas apresentam resultados próximos ao acaso, e (iv) em outras tarefas, os LLMs têm desempenho acima do acaso, mas abaixo dos sistemas de tarefas compartilhadas. O IberBench oferece implementações de código aberto para todo o pipeline de avaliação, incluindo normalização e hospedagem de conjuntos de dados, avaliação incremental de LLMs e um ranking publicamente acessível.
Apresentamos o ViSMap: Resumo de Vídeo Não Supervisionado por Meta Prompting, um sistema para resumir vídeos de longa duração sem supervisão. A maioria dos modelos existentes de compreensão de vídeo funciona bem em vídeos curtos de eventos pré-segmentados, mas eles têm dificuldade em resumir vídeos mais longos, onde os eventos relevantes estão esparsamente distribuídos e não são pré-segmentados. Além disso, a compreensão de vídeos de longa duração frequentemente depende de treinamento hierárquico supervisionado que requer anotações extensas, que são custosas, lentas e propensas a inconsistências. Com o ViSMaP, preenchemos a lacuna entre vídeos curtos (onde os dados anotados são abundantes) e vídeos longos (onde não são). Utilizamos LLMs (Modelos de Linguagem de Grande Escala) para criar pseudo-resumos otimizados de vídeos longos usando descrições de segmentos de vídeos curtos. Esses pseudo-resumos são usados como dados de treinamento para um modelo que gera resumos de vídeos de longa duração, eliminando a necessidade de anotações caras para vídeos longos. Especificamente, adotamos uma estratégia de meta-prompting para gerar e refinar iterativamente pseudo-resumos de vídeos longos. A estratégia aproveita descrições de clipes curtos obtidas de um modelo supervisionado de vídeo curto para guiar o resumo. Cada iteração utiliza três LLMs trabalhando em sequência: um para gerar o pseudo-resumo a partir das descrições dos clipes, outro para avaliá-lo e um terceiro para otimizar o prompt do gerador. Essa iteração é necessária porque a qualidade dos pseudo-resumos é altamente dependente do prompt do gerador e varia amplamente entre os vídeos. Avaliamos nossos resumos extensivamente em múltiplos conjuntos de dados; nossos resultados mostram que o ViSMaP alcança desempenho comparável aos modelos state-of-the-art totalmente supervisionados, enquanto generaliza entre domínios sem sacrificar o desempenho. O código será liberado após a publicação.
A geração de imagens baseada em patches autoregressivos tem mostrado recentemente resultados competitivos em termos de qualidade de imagem e escalabilidade. Ela também pode ser facilmente integrada e dimensionada em modelos de Visão-Linguagem. No entanto, os modelos autoregressivos exigem uma ordem definida para a geração de patches. Embora uma ordem natural baseada na ditadura das palavras faça sentido para a geração de texto, não existe uma ordem inerente de geração para a geração de imagens. Tradicionalmente, uma ordem de varredura raster (do canto superior esquerdo para o canto inferior direito) guia os modelos de geração de imagens autoregressivos. Neste artigo, argumentamos que essa ordem é subótima, pois falha em respeitar a causalidade do conteúdo da imagem: por exemplo, ao ser condicionado por uma descrição visual de um pôr do sol, um modelo autoregressivo pode gerar nuvens antes do sol, mesmo que a cor das nuvens deva depender da cor do sol e não o contrário. Neste trabalho, mostramos que, primeiro, ao treinar um modelo para gerar patches em qualquer ordem dada, podemos inferir tanto o conteúdo quanto a localização (ordem) de cada patch durante a geração. Em segundo lugar, usamos essas ordens extraídas para ajustar o modelo de qualquer-ordem-dada para produzir imagens de melhor qualidade. Por meio de nossos experimentos, mostramos em dois conjuntos de dados que esse novo método de geração produz imagens melhores do que a abordagem tradicional de varredura raster, com custos de treinamento semelhantes e sem anotações extras.
Anotar poses de câmera em vídeos dinâmicos da Internet em escala é crucial para o avanço de áreas como geração realista de vídeos e simulação. No entanto, coletar um conjunto de dados desse tipo é desafiador, pois a maioria dos vídeos da Internet não é adequada para estimativa de pose. Além disso, anotar vídeos dinâmicos da Internet apresenta desafios significativos mesmo para os métodos mais avançados. Neste artigo, apresentamos o DynPose-100K, um conjunto de dados em larga escala de vídeos dinâmicos da Internet anotados com poses de câmera. Nossa pipeline de coleta aborda a filtragem utilizando um conjunto cuidadosamente combinado de modelos específicos para a tarefa e generalistas. Para a estimativa de pose, combinamos as técnicas mais recentes de rastreamento de pontos, mascaramento dinâmico e estrutura a partir de movimento, alcançando melhorias em relação às abordagens mais avançadas. Nossa análise e experimentos demonstram que o DynPose-100K é tanto de grande escala quanto diverso em vários atributos-chave, abrindo caminhos para avanços em diversas aplicações subsequentes.
Técnicas de redução de dimensionalidade são fundamentais para analisar e visualizar dados de alta dimensionalidade. Métodos estabelecidos como t-SNE e PCA apresentam uma troca entre poder de representação e interpretabilidade. Este artigo introduz uma abordagem inovadora que preenche essa lacuna ao combinar a interpretabilidade de métodos lineares com a expressividade de transformações não lineares. O algoritmo proposto constrói um mapeamento não linear entre espaços de alta e baixa dimensionalidade por meio de uma combinação de transformações lineares, cada uma ponderada por funções gaussianas. Essa arquitetura permite transformações não lineares complexas enquanto preserva as vantagens de interpretabilidade dos métodos lineares, já que cada transformação pode ser analisada independentemente. O modelo resultante oferece tanto uma poderosa redução de dimensionalidade quanto insights transparentes sobre o espaço transformado. Técnicas para interpretar as transformações aprendidas são apresentadas, incluindo métodos para identificar dimensões suprimidas e como o espaço é expandido e contraído. Essas ferramentas permitem que os profissionais entendam como o algoritmo preserva e modifica relações geométricas durante a redução de dimensionalidade. Para garantir a utilidade prática desse algoritmo, a criação de pacotes de software amigáveis é enfatizada, facilitando sua adoção tanto na academia quanto na indústria.