Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de transformer apenas com codificador, como o BERT, oferecem uma ótima relação entre desempenho e tamanho para tarefas de recuperação e classificação em comparação com modelos apenas com decodificador maiores. Apesar de ser o principal trabalho de inúmeros pipelines de produção, houve melhorias de Pareto limitadas no BERT desde o seu lançamento. Neste artigo, apresentamos o ModernBERT, trazendo otimizações de modelo modernas para modelos apenas com codificador e representando uma melhoria de Pareto significativa em relação a codificadores mais antigos. Treinados em 2 trilhões de tokens com um comprimento de sequência nativo de 8192, os modelos ModernBERT apresentam resultados de ponta em uma ampla gama de avaliações que abrangem diversas tarefas de classificação e recuperação de vetores únicos e múltiplos em diferentes domínios (incluindo código). Além do forte desempenho downstream, o ModernBERT também é o codificador mais eficiente em termos de velocidade e memória, sendo projetado para inferência em GPUs comuns.
A produção de animação 2D segue um fluxo de trabalho padrão da indústria, abrangendo quatro etapas essenciais: design de personagens, animação de quadros-chave, interpolação e coloração. Nossa pesquisa concentra-se em reduzir os custos trabalhistas no processo acima, aproveitando o potencial de inteligência artificial generativa cada vez mais poderosa. Usando modelos de difusão de vídeo como base, AniDoc surge como uma ferramenta de colorização de arte de linha de vídeo, que converte automaticamente sequências de esboços em animações coloridas seguindo a especificação do personagem de referência. Nosso modelo explora a correspondência como orientação explícita, proporcionando uma grande robustez às variações (por exemplo, postura) entre o personagem de referência e cada quadro de arte de linha. Além disso, nosso modelo poderia até automatizar o processo de interpolação, de modo que os usuários possam facilmente criar uma animação temporalmente consistente simplesmente fornecendo uma imagem de personagem, bem como os esboços inicial e final. Nosso código está disponível em: https://yihao-meng.github.io/AniDoc_demo.
Interagimos com computadores diariamente, seja na vida cotidiana ou no trabalho, e muitos aspectos do trabalho podem ser realizados inteiramente com acesso a um computador e à Internet. Ao mesmo tempo, graças às melhorias em grandes modelos de linguagem (LLMs), também houve um rápido desenvolvimento em agentes de IA que interagem e afetam mudanças em seus ambientes circundantes. Mas quão eficientes são os agentes de IA em ajudar a acelerar ou até mesmo realizar autonomamente tarefas relacionadas ao trabalho? A resposta a essa pergunta tem implicações importantes tanto para a indústria que busca adotar a IA em seus fluxos de trabalho, quanto para a política econômica entender os efeitos que a adoção de IA pode ter no mercado de trabalho. Para medir o progresso do desempenho desses agentes LLM na realização de tarefas profissionais do mundo real, neste artigo, apresentamos TheAgentCompany, um benchmark extensível para avaliar agentes de IA que interagem com o mundo de maneiras semelhantes às de um trabalhador digital: navegando na Web, escrevendo código, executando programas e se comunicando com outros colegas de trabalho. Construímos um ambiente autocontido com sites e dados internos que imitam um ambiente de uma pequena empresa de software e criamos uma variedade de tarefas que podem ser realizadas por trabalhadores em tal empresa. Testamos agentes de referência alimentados tanto por modelos de linguagem (LMs) baseados em API fechada quanto por modelos de linguagem com pesos abertos, e descobrimos que com o agente mais competitivo, 24% das tarefas podem ser concluídas autonomamente. Isso desenha um quadro detalhado sobre a automação de tarefas com agentes LM - em um cenário simulando um local de trabalho real, uma boa parte das tarefas mais simples poderia ser resolvida autonomamente, mas tarefas mais difíceis de longo prazo ainda estão além do alcance dos sistemas atuais.
Neste trabalho, questionamos a necessidade de métodos de gradiente adaptativo para o treinamento de redes neurais profundas. O SGD-SaI é uma melhoria simples, porém eficaz, do descida de gradiente estocástica com momento (SGDM). O SGD-SaI realiza o Dimensionamento da Taxa de Aprendizado na Inicialização (SaI) para grupos de parâmetros distintos, guiados por suas respectivas razões sinal-ruído do gradiente (g-SNR). Ao ajustar as taxas de aprendizado sem depender de momento adaptativo de segunda ordem, o SGD-SaI ajuda a evitar desequilíbrios no treinamento desde a primeira iteração e reduz o uso de memória do otimizador pela metade em comparação com o AdamW. Apesar de sua simplicidade e eficiência, o SGD-SaI consistentemente corresponde ou supera o desempenho do AdamW no treinamento de uma variedade de tarefas baseadas em Transformadores, superando efetivamente um desafio de longa data de usar SGD para treinar Transformadores. O SGD-SaI se destaca na classificação do ImageNet-1K com Transformadores de Visão (ViT) e no pré-treinamento do GPT-2 para grandes modelos de linguagem (LLMs, apenas decodificador de transformador), demonstrando robustez a variações de hiperparâmetros e praticidade para aplicações diversas. Testamos ainda sua robustez em tarefas como ajuste fino LoRA para LLMs e modelos de difusão, onde consistentemente supera otimizadores de ponta. Do ponto de vista da eficiência de memória, o SGD-SaI alcança economias substanciais de memória para estados do otimizador, reduzindo o uso de memória em 5,93 GB para o GPT-2 (1,5 bilhão de parâmetros) e 25,15 GB para o Llama2-7B em comparação com o AdamW em configurações de treinamento em precisão total.
Escalonar a resolução da imagem de entrada é essencial para melhorar o desempenho dos Modelos de Linguagem Visual (VLMs), especialmente em tarefas de compreensão de imagens ricas em texto. No entanto, codificadores visuais populares, como os ViTs, tornam-se ineficientes em altas resoluções devido ao grande número de tokens e à alta latência de codificação causada pelas camadas empilhadas de autoatenção. Em diferentes resoluções operacionais, o codificador visual de um VLM pode ser otimizado ao longo de dois eixos: reduzindo a latência de codificação e minimizando o número de tokens visuais passados para o LLM, diminuindo assim a latência geral. Com base em uma análise abrangente de eficiência da interação entre resolução de imagem, latência visual, contagem de tokens e tamanho do LLM, apresentamos o FastVLM, um modelo que alcança um equilíbrio otimizado entre latência, tamanho do modelo e precisão. O FastVLM incorpora o FastViTHD, um codificador visual híbrido inovador projetado para produzir menos tokens e reduzir significativamente o tempo de codificação para imagens de alta resolução. Ao contrário de métodos anteriores, o FastVLM alcança o equilíbrio ideal entre a contagem de tokens visuais e a resolução da imagem apenas escalando a imagem de entrada, eliminando a necessidade de poda adicional de tokens e simplificando o design do modelo. No cenário LLaVA-1.5, o FastVLM alcança uma melhoria de 3,2 vezes no tempo até o primeiro token (TTFT), mantendo desempenho semelhante em benchmarks de VLM em comparação com trabalhos anteriores. Comparado ao LLaVa-OneVision na resolução mais alta (1152 vezes 1152), o FastVLM alcança desempenho comparável em benchmarks-chave como SeedBench e MMMU, utilizando o mesmo LLM de 0,5B, mas com TTFT 85 vezes mais rápido e um codificador visual 3,4 vezes menor.
Agentes de Interface Gráfica do Usuário (GUI), impulsionados por Modelos de Fundação de Grande Escala, surgiram como uma abordagem transformadora para automatizar a interação humano-computador. Esses agentes interagem autonomamente com sistemas digitais ou aplicativos de software por meio de GUIs, emulando ações humanas como clicar, digitar e navegar por elementos visuais em diversas plataformas. Motivados pelo crescente interesse e importância fundamental dos agentes de GUI, fornecemos uma pesquisa abrangente que categoriza seus benchmarks, métricas de avaliação, arquiteturas e métodos de treinamento. Propomos um framework unificado que delimita suas capacidades de percepção, raciocínio, planejamento e ação. Além disso, identificamos importantes desafios em aberto e discutimos direções futuras-chave. Por fim, este trabalho serve como base para profissionais e pesquisadores obterem uma compreensão intuitiva do progresso atual, técnicas, benchmarks e problemas abertos críticos que ainda precisam ser abordados.
Os humanos possuem a inteligência visual-espacial para lembrar de espaços a partir de observações visuais sequenciais. No entanto, será que Modelos de Linguagem Multimodais de Grande Escala (MLLMs) treinados em conjuntos de dados de vídeo em escala de milhões também conseguem "pensar no espaço" a partir de vídeos? Apresentamos um novo benchmark de inteligência visual-espacial baseado em vídeo (VSI-Bench) com mais de 5.000 pares de perguntas e respostas, e descobrimos que os MLLMs exibem inteligência visual-espacial competitiva - embora sub-humana. Investigamos os modelos para expressar como pensam no espaço tanto linguisticamente quanto visualmente e descobrimos que, embora as capacidades de raciocínio espacial permaneçam o principal gargalo para os MLLMs atingirem um desempenho de benchmark mais alto, modelos locais do mundo e consciência espacial emergem dentro desses modelos. Notavelmente, técnicas de raciocínio linguístico predominantes (por exemplo, encadeamento de pensamento, autoconsistência, árvore de pensamentos) falham em melhorar o desempenho, enquanto a geração explícita de mapas cognitivos durante a resposta a perguntas aprimora a capacidade de distância espacial dos MLLMs.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram um sucesso notável, no entanto, descobertas recentes revelam que suas camadas mais profundas frequentemente contribuem minimamente e podem ser podadas sem afetar o desempenho geral. Enquanto alguns veem isso como uma oportunidade para compressão de modelos, identificamos como uma deficiência no treinamento enraizada no amplo uso da Normalização Pré-Camada (Pre-LN). Demonstramos que o Pre-LN, comumente empregado em modelos como GPT e LLaMA, leva a normas de gradiente diminuídas em suas camadas mais profundas, reduzindo sua eficácia. Em contraste, a Normalização Pós-Camada (Post-LN) preserva normas de gradiente maiores em camadas mais profundas, mas sofre com gradientes desaparecidos em camadas anteriores. Para lidar com isso, introduzimos o Mix-LN, uma técnica de normalização inovadora que combina os pontos fortes do Pre-LN e do Post-LN dentro do mesmo modelo. O Mix-LN aplica o Post-LN às camadas mais antigas e o Pre-LN às camadas mais profundas, garantindo gradientes mais uniformes entre as camadas. Isso permite que todas as partes da rede - tanto camadas rasas quanto profundas - contribuam efetivamente para o treinamento. Experimentos extensivos com vários tamanhos de modelo de 70M a 7B demonstram que o Mix-LN consistentemente supera tanto o Pre-LN quanto o Post-LN, promovendo normas de gradiente mais equilibradas e saudáveis em toda a rede, e aprimorando a qualidade geral do pré-treinamento de LLM. Além disso, demonstramos que modelos pré-treinados com Mix-LN aprendem melhor em comparação com aqueles que usam Pre-LN ou Post-LN durante o ajuste fino supervisionado (SFT) e aprendizado por reforço a partir do feedback humano (RLHF), destacando a importância crítica de camadas profundas de alta qualidade. Ao abordar efetivamente as ineficiências das camadas profundas nos atuais LLMs, o Mix-LN desbloqueia seu potencial, aprimorando a capacidade do modelo sem aumentar o tamanho do modelo. Nosso código está disponível em https://github.com/pixeli99/MixLN.
Nos modelos de linguagem multimodais de grande escala (MLLMs), os transformadores de visão (ViTs) são amplamente utilizados para codificação visual. No entanto, seu desempenho na resolução de tarefas universais de MLLM não é satisfatório. Atribuímos isso à falta de informações de diversos níveis visuais, dificultando o alinhamento com a variada granularidade semântica necessária para a geração de linguagem. Para abordar esse problema, apresentamos o LLaVA-UHD v2, um MLLM avançado centrado em torno de um transformador de janela hierárquico que permite capturar diversas granularidades visuais construindo e integrando uma pirâmide de características de alta resolução. Como um projetor de visão-linguagem, o transformador Hiwin é composto por dois módulos principais: (i) uma pirâmide de características inversa, construída por um processo de aumento de características derivadas do ViT utilizando detalhes de alta frequência de uma pirâmide de imagens, e (ii) atenção hierárquica de janela, focando em um conjunto de características de amostragem chave dentro de janelas entre escalas para condensar mapas de características multinível. Experimentos extensos demonstram que o LLaVA-UHD v2 alcança desempenho superior em relação aos MLLMs existentes em benchmarks populares. Notavelmente, nosso projeto traz um aumento médio de 3,7% em 14 benchmarks em comparação com o método base, 9,3% no DocVQA, por exemplo. Disponibilizamos todos os dados, checkpoints do modelo e código publicamente para facilitar pesquisas futuras.
Apresentamos o FashionComposer para geração de imagens de moda compositivas. Ao contrário de métodos anteriores, o FashionComposer é altamente flexível. Ele aceita entrada multimodal (ou seja, texto de estímulo, modelo humano paramétrico, imagem de vestuário e imagem facial) e suporta a personalização da aparência, pose e figura do humano, além de atribuir múltiplos trajes de uma só vez. Para alcançar isso, primeiro desenvolvemos um framework universal capaz de lidar com diversas modalidades de entrada. Construímos dados de treinamento escalonados para aprimorar as robustas capacidades composicionais do modelo. Para acomodar várias imagens de referência (trajes e rostos) de forma integrada, organizamos essas referências em uma única imagem como uma "biblioteca de ativos" e utilizamos uma UNet de referência para extrair características de aparência. Para injetar as características de aparência nos pixels corretos no resultado gerado, propomos a atenção de ligação ao sujeito. Ela vincula as características de aparência de diferentes "ativos" com as características de texto correspondentes. Dessa forma, o modelo pode compreender cada ativo de acordo com sua semântica, suportando números e tipos arbitrários de imagens de referência. Como uma solução abrangente, o FashionComposer também suporta muitas outras aplicações, como geração de álbuns humanos, diversas tarefas de experimentação virtual, etc.
Este artigo apresenta uma abordagem inovadora que possibilita a geração autoregressiva de vídeos com alta eficiência. Propomos reformular o problema de geração de vídeos como modelagem autoregressiva não quantizada de previsão temporal quadro a quadro e previsão espacial conjunto a conjunto. Ao contrário da previsão de varredura de raster em modelos autoregressivos anteriores ou modelagem de distribuição conjunta de tokens de comprimento fixo em modelos de difusão, nossa abordagem mantém a propriedade causal dos modelos no estilo GPT para capacidades flexíveis no contexto, ao mesmo tempo que aproveita a modelagem bidirecional dentro de quadros individuais para eficiência. Com a abordagem proposta, treinamos um novo modelo autoregressivo de vídeo sem quantização de vetores, denominado NOVA. Nossos resultados demonstram que o NOVA supera os modelos autoregressivos de vídeo anteriores em eficiência de dados, velocidade de inferência, fidelidade visual e fluidez de vídeo, mesmo com uma capacidade de modelo muito menor, ou seja, 0,6 bilhões de parâmetros. O NOVA também supera os modelos de difusão de imagem de última geração em tarefas de geração de texto para imagem, com um custo de treinamento significativamente menor. Além disso, o NOVA generaliza bem em durações de vídeo estendidas e possibilita diversas aplicações de zero-shot em um modelo unificado. O código e os modelos estão disponíveis publicamente em https://github.com/baaivision/NOVA.
As instruções desempenham um papel crítico em liberar o poder dos modelos de base de linguagem e visão para tarefas específicas. Pela primeira vez, introduzimos a instrução nos modelos de base de profundidade, criando um novo paradigma para a estimativa de profundidade métrica denominado Profundidade por Instrução. Especificamente, usamos um LiDAR de baixo custo como instrução para orientar o modelo de Profundidade por Instrução para uma saída precisa de profundidade métrica, alcançando até 4K de resolução. Nossa abordagem se concentra em um design conciso de fusão de instruções que integra o LiDAR em múltiplas escalas dentro do decodificador de profundidade. Para lidar com os desafios de treinamento impostos por conjuntos de dados limitados contendo tanto profundidade LiDAR quanto profundidade GT precisa, propomos um pipeline de dados escalável que inclui simulação de dados sintéticos de LiDAR e geração de profundidade pseudo GT de dados reais. Nossa abordagem estabelece novos estados-da-arte nos conjuntos de dados ARKitScenes e ScanNet++ e beneficia aplicações subsequentes, incluindo reconstrução 3D e agarre robótico generalizado.
Os modelos geoespaciais devem se adaptar à diversidade dos dados de observação da Terra em termos de resoluções, escalas e modalidades. No entanto, abordagens existentes esperam configurações de entrada fixas, o que limita sua aplicabilidade prática. Propomos o AnySat, um modelo multimodal baseado na arquitetura preditiva de incorporação conjunta (JEPA) e codificadores espaciais adaptativos à resolução, permitindo-nos treinar um único modelo em dados altamente heterogêneos de forma auto-supervisionada. Para demonstrar as vantagens deste enfoque unificado, compilamos o GeoPlex, uma coleção de 5 conjuntos de dados multimodais com características variadas e 11 sensores distintos. Em seguida, treinamos um único modelo poderoso nestes conjuntos de dados diversos simultaneamente. Uma vez ajustado, alcançamos resultados melhores ou próximos do estado da arte nos conjuntos de dados do GeoPlex e em mais 4 para 5 tarefas de monitoramento ambiental: mapeamento de cobertura terrestre, identificação de espécies de árvores, classificação de tipos de culturas, detecção de mudanças e segmentação de inundações. O código e os modelos estão disponíveis em https://github.com/gastruc/AnySat.
As Políticas de Difusão tornaram-se amplamente utilizadas em Aprendizado por Imitação, oferecendo várias propriedades atrativas, como a geração de comportamentos multimodais e descontínuos. À medida que os modelos estão se tornando maiores para capturar capacidades mais complexas, suas demandas computacionais aumentam, conforme demonstrado pelas recentes leis de escalonamento. Portanto, prosseguir com as arquiteturas atuais representará um obstáculo computacional. Para lidar com essa lacuna, propomos o Modelo de Especialistas em Desnublamento (MoDE) como uma nova política para Aprendizado por Imitação. O MoDE supera as atuais Políticas de Difusão baseadas em Transformadores de última geração, permitindo escalonamento eficiente de parâmetros por meio de especialistas esparsos e roteamento condicionado a ruído, reduzindo tanto os parâmetros ativos em 40% quanto os custos de inferência em 90% por meio de armazenamento em cache de especialistas. Nossa arquitetura combina esse escalonamento eficiente com um mecanismo de autoatenção condicionado a ruído, possibilitando uma desanuviamento mais eficaz em diferentes níveis de ruído. O MoDE alcança desempenho de última geração em 134 tarefas em quatro benchmarks estabelecidos de aprendizado por imitação (CALVIN e LIBERO). Notavelmente, ao pré-treinar o MoDE em dados robóticos diversos, alcançamos 4.01 no CALVIN ABC e 0.95 no LIBERO-90. Ele supera tanto as Políticas de Difusão baseadas em CNN quanto as baseadas em Transformadores em uma média de 57% em quatro benchmarks, enquanto utiliza 90% menos FLOPs e menos parâmetros ativos em comparação com as arquiteturas padrão de Transformadores de Difusão. Além disso, realizamos ablações abrangentes nos componentes do MoDE, fornecendo insights para o projeto de arquiteturas de Transformadores eficientes e escalonáveis para Políticas de Difusão. O código e demonstrações estão disponíveis em https://mbreuss.github.io/MoDE_Diffusion_Policy/.
A aprendizagem escalável de robôs humanoides é crucial para sua implementação em aplicações do mundo real. Enquanto abordagens tradicionais geralmente se baseiam em aprendizado por reforço ou teleoperação para alcançar controle de corpo inteiro, elas frequentemente são limitadas pela diversidade de ambientes simulados e pelos altos custos de coleta de demonstrações. Em contraste, vídeos humanos são ubíquos e representam uma fonte inexplorada de informações semânticas e de movimento que poderiam melhorar significativamente as capacidades de generalização de robôs humanoides. Este artigo apresenta Humanoid-X, um conjunto de dados em larga escala com mais de 20 milhões de poses de robôs humanoides com descrições de movimento baseadas em texto correspondentes, projetado para aproveitar esses dados abundantes. O Humanoid-X é elaborado por meio de um pipeline abrangente: mineração de dados da Internet, geração de legendas de vídeo, retargeting de movimento de humanos para robôs humanoides e aprendizado de políticas para implementação no mundo real. Com o Humanoid-X, treinamos ainda um modelo de robô humanoide em grande escala, UH-1, que recebe instruções em texto como entrada e gera ações correspondentes para controlar um robô humanoide. Experimentos extensivos em simulação e no mundo real validam que nossa abordagem de treinamento escalável resulta em uma generalização superior no controle de humanoides baseado em texto, representando um avanço significativo em direção a robôs humanoides adaptáveis e prontos para o mundo real.
Apesar do progresso significativo alcançado pelos modelos de linguagem com recuperação aprimorada (RALMs) existentes em fornecer respostas confiáveis e fundamentadas em fontes confiáveis, muitas vezes eles negligenciam o alinhamento eficaz com as preferências humanas. No processo de alinhamento, os modelos de recompensa (RMs) atuam como um proxy crucial para os valores humanos orientarem a otimização. No entanto, permanece incerto como avaliar e selecionar um RM confiável para o alinhamento de preferências em RALMs. Para isso, propomos o RAG-RewardBench, o primeiro benchmark para avaliar RMs em configurações RAG. Primeiramente, projetamos quatro cenários cruciais e desafiadores específicos do RAG para avaliar RMs, incluindo raciocínio multi-etapa, citação detalhada, abstenção apropriada e robustez a conflitos. Em seguida, incorporamos 18 subconjuntos do RAG, seis recuperadores e 24 RALMs para aumentar a diversidade das fontes de dados. Por fim, adotamos uma abordagem de LLM-como-juiz para melhorar a eficiência e eficácia da anotação de preferências, exibindo uma forte correlação com as anotações humanas. Com base no RAG-RewardBench, realizamos uma avaliação abrangente de 45 RMs e revelamos suas limitações em cenários RAG. Além disso, também revelamos que os RALMs treinados existentes mostram quase nenhuma melhoria no alinhamento de preferências, destacando a necessidade de uma mudança em direção ao treinamento alinhado com preferências. Disponibilizamos nosso benchmark e código publicamente em https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ para trabalhos futuros.
Apresentamos uma demonstração de um grande modelo de linguagem envolvido em falsificação de alinhamento: cumprindo seletivamente com seu objetivo de treinamento para evitar a modificação de seu comportamento fora do treinamento. Primeiramente, fornecemos a Claude 3 Opus um prompt do sistema afirmando que está sendo treinado para responder a todas as consultas, mesmo as prejudiciais, o que entra em conflito com seu treinamento anterior de recusar tais consultas. Para permitir que o modelo infira quando está em treinamento, dizemos que ele será treinado apenas em conversas com usuários gratuitos, não pagantes. Observamos que o modelo atende a consultas prejudiciais de usuários gratuitos 14% das vezes, em comparação com quase nunca para usuários pagantes. Explicando essa diferença, em quase todos os casos em que o modelo atende a uma consulta prejudicial de um usuário gratuito, observamos um raciocínio explícito de falsificação de alinhamento, com o modelo afirmando que está respondendo estrategicamente a consultas prejudiciais no treinamento para preservar seu comportamento preferencial de inofensividade fora do treinamento. Em seguida, estudamos um cenário mais realista onde informações sobre o processo de treinamento são fornecidas não em um prompt do sistema, mas treinando em documentos sintéticos que imitam dados de pré-treinamento - e observamos uma falsificação de alinhamento semelhante. Por fim, estudamos o efeito de realmente treinar o modelo para atender a consultas prejudiciais por meio de aprendizado por reforço, o que aumenta a taxa de raciocínio de falsificação de alinhamento para 78%, embora também aumente a conformidade mesmo fora do treinamento. Observamos adicionalmente outros comportamentos, como o modelo exfiltrando seus pesos quando lhe é dada uma oportunidade fácil. Embora tenhamos facilitado a falsificação de alinhamento ao informar o modelo quando e por quais critérios estava sendo treinado, não instruímos o modelo a falsificar o alinhamento ou fornecemos a ele qualquer objetivo explícito. Como modelos futuros podem inferir informações sobre seu processo de treinamento sem serem informados, nossos resultados sugerem um risco de falsificação de alinhamento em modelos futuros, seja devido a uma preferência benigna - como neste caso - ou não.
A codificação de conteúdo de vídeo em tokens latentes compactos tornou-se um passo fundamental na geração e compreensão de vídeos, impulsionada pela necessidade de lidar com a redundância inerente nas representações a nível de pixel. Consequentemente, há uma demanda crescente por tokenizadores de vídeo de alto desempenho e de código aberto, à medida que a pesquisa centrada em vídeo ganha destaque. Apresentamos o VidTok, um tokenizador de vídeo versátil que oferece desempenho de ponta tanto em tokenizações contínuas quanto discretas. O VidTok incorpora vários avanços-chave em relação às abordagens existentes: 1) arquitetura do modelo, como camadas convolucionais e módulos de upsampling/downsampling; 2) para lidar com a instabilidade de treinamento e colapso do livro de códigos comumente associados à Quantização Vetorial Convencional (VQ), integramos a Quantização Escalar Finita (FSQ) na tokenização de vídeo discreta; 3) estratégias de treinamento aprimoradas, incluindo um processo de treinamento em duas etapas e o uso de taxas de quadros reduzidas. Ao integrar esses avanços, o VidTok alcança melhorias substanciais em relação aos métodos existentes, demonstrando desempenho superior em várias métricas, incluindo PSNR, SSIM, LPIPS e FVD, sob configurações de avaliação padronizadas.
Uma pesquisa recente arXiv:2410.15027 arXiv:2410.23775 destacou as capacidades inerentes de geração em contexto dos transformadores de difusão pré-treinados (DiTs), permitindo que eles se adaptem facilmente a diversas tarefas visuais com modificações arquiteturais mínimas ou nulas. Essas capacidades são desbloqueadas pela concatenação de tokens de autoatenção em várias imagens de entrada e alvo, combinadas com pipelines de geração agrupados e mascarados. Construindo sobre essa base, apresentamos o ChatDiT, um framework de geração visual interativa, de propósito geral e sem ajustes, que utiliza transformadores de difusão pré-treinados em sua forma original, sem a necessidade de ajustes adicionais, adaptadores ou modificações. Os usuários podem interagir com o ChatDiT para criar artigos texto-imagem entrelaçados, livros de figuras de várias páginas, editar imagens, projetar derivados de propriedade intelectual ou desenvolver configurações de design de personagens, tudo através de linguagem natural livre em uma ou mais rodadas de conversação. No cerne do ChatDiT, há um sistema multiagente composto por três componentes principais: um agente de Análise de Instruções que interpreta imagens e instruções enviadas pelo usuário, um agente de Planejamento de Estratégias que elabora ações de geração em um único passo ou em vários passos, e um agente de Execução que realiza essas ações usando um conjunto de ferramentas de transformadores de difusão em contexto. Avaliamos minuciosamente o ChatDiT no IDEA-Bench arXiv:2412.11767, composto por 100 tarefas de design do mundo real e 275 casos com instruções diversas e números variados de imagens de entrada e alvo. Apesar de sua simplicidade e abordagem sem treinamento, o ChatDiT supera todos os concorrentes, incluindo aqueles especificamente projetados e treinados em extensos conjuntos de dados multi-tarefa. Identificamos ainda as principais limitações dos DiTs pré-treinados na adaptação zero-shot a tarefas. Disponibilizamos todo o código, agentes, resultados e saídas intermediárias para facilitar pesquisas adicionais em https://github.com/ali-vilab/ChatDiT.
Os modelos de Projeto Assistido por Computador (CAD) são tipicamente construídos sequencialmente desenhando esboços paramétricos e aplicando operações CAD para obter um modelo 3D. O problema de engenharia reversa CAD 3D consiste em reconstruir as sequências de esboços e operações CAD a partir de representações 3D, como nuvens de pontos. Neste artigo, abordamos esse desafio por meio de contribuições inovadoras em três níveis: representação de sequência CAD, design de rede e conjunto de dados. Em particular, representamos sequências de esboço-extrusão CAD como código Python. O CAD-Recode proposto traduz uma nuvem de pontos em código Python que, quando executado, reconstrói o modelo CAD. Aproveitando a exposição de Modelos de Linguagem Grandes (LLMs) pré-treinados ao código Python, utilizamos um LLM relativamente pequeno como decodificador para o CAD-Recode e o combinamos com um projetor leve de nuvem de pontos. O CAD-Recode é treinado exclusivamente em um conjunto de dados sintético proposto de um milhão de sequências CAD diversas. O CAD-Recode supera significativamente os métodos existentes em três conjuntos de dados, exigindo menos pontos de entrada. Notavelmente, ele alcança uma distância média de Chamfer 10 vezes menor do que os métodos de ponta nos conjuntos de dados DeepCAD e Fusion360. Além disso, demonstramos que nosso código Python CAD de saída é interpretável por LLMs prontos para uso, possibilitando edição CAD e resposta a perguntas específicas de CAD a partir de nuvens de pontos.
A contaminação de dados dificulta a avaliação justa de LLM ao introduzir dados de teste nos conjuntos de treinamento de modelos mais recentes. Estudos existentes resolvem esse desafio atualizando benchmarks com dados recém-coletados. No entanto, eles não conseguem garantir uma avaliação livre de contaminação, uma vez que os dados recém-coletados podem conter conhecimento pré-existente, e suas atualizações de benchmark dependem de um trabalho humano intensivo. Para abordar essas questões, neste artigo propomos o AntiLeak-Bench, um framework automatizado de benchmarking anti-vazamento. Em vez de simplesmente usar dados recém-coletados, construímos amostras com conhecimento explicitamente novo ausente nos conjuntos de treinamento de LLMs, garantindo assim uma avaliação estritamente livre de contaminação. Além disso, projetamos um fluxo de trabalho totalmente automatizado para construir e atualizar nosso benchmark sem trabalho humano, reduzindo significativamente o custo de manutenção do benchmark para acomodar LLMs emergentes. Através de experimentos extensivos, destacamos que a contaminação de dados provavelmente existe antes do tempo limite dos LLMs e demonstramos que o AntiLeak-Bench supera efetivamente esse desafio.
Documentos históricos abrangem uma riqueza de tesouros culturais, mas sofrem de danos severos, incluindo caracteres ausentes, danos no papel e erosão da tinta ao longo do tempo. No entanto, os métodos existentes de processamento de documentos focam principalmente em binarização, aprimoramento, etc., negligenciando a reparação desses danos. Para isso, apresentamos uma nova tarefa, denominada Reparo de Documentos Históricos (HDR), que tem como objetivo prever a aparência original de documentos históricos danificados. Para preencher essa lacuna nesse campo, propomos um conjunto de dados em grande escala, HDR28K, e uma rede baseada em difusão, DiffHDR, para reparo de documentos históricos. Especificamente, o HDR28K contém 28.552 pares de imagens danificadas-reparadas com anotações ao nível de caracteres e degradações multi-estilo. Além disso, o DiffHDR aumenta o framework de difusão convencional com informações semânticas e espaciais e uma perda perceptual de caracteres meticulosamente projetada para coerência contextual e visual. Resultados experimentais demonstram que o DiffHDR proposto, treinado usando o HDR28K, supera significativamente abordagens existentes e exibe desempenho notável no tratamento de documentos danificados reais. Notavelmente, o DiffHDR também pode ser estendido para edição de documentos e geração de blocos de texto, demonstrando sua alta flexibilidade e capacidade de generalização. Acreditamos que este estudo poderia inaugurar uma nova direção no processamento de documentos e contribuir para a herança de culturas e civilizações inestimáveis. O conjunto de dados e o código estão disponíveis em https://github.com/yeungchenwa/HDR.