Artigos de pesquisa em IA selecionados diariamente com traduções
Os agentes de Modelos de Linguagem Grandes (LLMs) são cada vez mais essenciais para lidar com tarefas complexas em ambientes interativos. O trabalho existente concentra-se principalmente em aprimorar o desempenho por meio de clonagem de comportamento de especialistas mais experientes, no entanto, tais abordagens frequentemente falham em aplicações do mundo real, principalmente devido à incapacidade de se recuperar de erros. No entanto, os dados de crítica em nível de passo são difíceis e caros de coletar. Automatizar e construir dinamicamente conjuntos de auto-crítica é, portanto, crucial para capacitar modelos com habilidades de agente inteligente. Neste trabalho, propomos um framework iterativo de auto treinamento, Agente-R, que permite que o Agente de Linguagem reflita em tempo real. Ao contrário de métodos tradicionais que recompensam ou penalizam ações com base na correção, o Agente-R utiliza MCTS para construir dados de treinamento que recuperam trajetórias corretas a partir das errôneas. Um desafio chave da reflexão do agente está na necessidade de revisão oportuna em vez de esperar até o final de uma sequência de ações. Para lidar com isso, introduzimos um mecanismo de construção de crítica orientado por modelo: o modelo de ator identifica o primeiro passo de erro (dentro de sua capacidade atual) em uma trajetória falha. A partir disso, o conectamos com o caminho correto adjacente, que compartilha o mesmo nó pai na árvore. Essa estratégia permite que o modelo aprenda a reflexão com base em sua política atual, resultando em uma melhor eficiência de aprendizado. Para explorar ainda mais a escalabilidade desse paradigma de autoaperfeiçoamento, investigamos o refinamento iterativo das capacidades de correção de erro e construção de conjunto de dados. Nossas descobertas demonstram que o Agente-R melhora continuamente a capacidade do modelo de se recuperar de erros e possibilita a correção oportuna de erros. Experimentos em três ambientes interativos mostram que o Agente-R capacita efetivamente os agentes a corrigir ações errôneas evitando loops, alcançando um desempenho superior em comparação com métodos de referência (+5.59%).
Apresentamos o MMVU, um benchmark abrangente de nível especializado e multidisciplinar para avaliar modelos fundamentais em compreensão de vídeo. O MMVU inclui 3.000 perguntas anotadas por especialistas abrangendo 27 disciplinas em quatro áreas principais: Ciência, Saúde, Humanidades e Ciências Sociais, e Engenharia. Em comparação com benchmarks anteriores, o MMVU apresenta três avanços-chave. Primeiramente, desafia os modelos a aplicar conhecimento específico de domínio e realizar raciocínio de nível especializado para analisar vídeos de domínios especializados, indo além da percepção visual básica normalmente avaliada nos benchmarks de vídeo atuais. Em segundo lugar, cada exemplo é anotado por especialistas humanos do zero. Implementamos rigorosos controles de qualidade de dados para garantir a alta qualidade do conjunto de dados. Por fim, cada exemplo é enriquecido com justificativas de raciocínio anotadas por especialistas e conhecimento de domínio relevante, facilitando análises aprofundadas. Realizamos uma extensa avaliação de 32 modelos fundamentais multimodais de fronteira no MMVU. Os modelos mais recentes capazes de Sistema-2, o1 e Gemini 2.0 Flash Thinking, alcançam o melhor desempenho entre os modelos testados. No entanto, ainda não conseguem igualar a expertise humana. Através de análises de erros aprofundadas e estudos de caso, oferecemos insights acionáveis para futuros avanços em compreensão de vídeo de nível especializado e intensivo em conhecimento para domínios especializados.
Este artigo revisita a implementação do Balanceamento de Carga de Perda (LBL) ao treinar modelos de Mistura de Especialistas (MoEs). Especificamente, o LBL para MoEs é definido como a soma de N_E sum_{i=1}^{N_E} f_i p_i, onde N_E é o número total de especialistas, f_i representa a frequência do especialista i ser selecionado, e p_i denota a pontuação média de portão do especialista i. Os frameworks de treinamento de MoE existentes geralmente empregam a estratégia de treinamento paralelo para que f_i e o LBL sejam calculados dentro de um micro lote e depois sejam médios em grupos paralelos. Em essência, um micro lote para treinar LLMs em escala de bilhões normalmente contém muito poucas sequências. Assim, o LBL do micro lote está quase no nível da sequência, e o roteador é pressionado a distribuir o token uniformemente dentro de cada sequência. Sob essa restrição rigorosa, até mesmo tokens de uma sequência específica de domínio (por exemplo, código) são roteados uniformemente para todos os especialistas, inibindo assim a especialização do especialista. Neste trabalho, propomos calcular o LBL usando um lote global para afrouxar essa restrição. Como um lote global contém sequências muito mais diversas do que um micro lote, isso incentivará o equilíbrio de carga no nível do corpus. Especificamente, introduzimos uma etapa de comunicação adicional para sincronizar f_i entre micro lotes e então usá-lo para calcular o LBL. Através de experimentos no treinamento de LLMs baseados em MoEs (até 42,8B de parâmetros totais e 400B de tokens), descobrimos surpreendentemente que a estratégia de LBL do lote global resulta em excelentes ganhos de desempenho tanto na perplexidade de pré-treinamento quanto nas tarefas subsequentes. Nossa análise revela que o LBL do lote global também melhora significativamente a especialização de domínio dos especialistas MoE.
Este artigo apresenta o UI-TARS, um modelo de agente GUI nativo que percebe exclusivamente capturas de tela como entrada e realiza interações humanas (por exemplo, operações de teclado e mouse). Ao contrário dos frameworks de agentes predominantes que dependem de modelos comerciais fortemente encapsulados (por exemplo, GPT-4o) com prompts e fluxos de trabalho criados por especialistas, o UI-TARS é um modelo de ponta a ponta que supera esses frameworks sofisticados. Experimentos demonstram seu desempenho superior: o UI-TARS alcança desempenho de última geração em mais de 10 benchmarks de agentes GUI avaliando percepção, fundamentação e execução de tarefas GUI. Notavelmente, no benchmark OSWorld, o UI-TARS alcança pontuações de 24,6 com 50 passos e 22,7 com 15 passos, superando Claude (22,0 e 14,9, respectivamente). No AndroidWorld, o UI-TARS alcança 46,6, ultrapassando o GPT-4o (34,5). O UI-TARS incorpora várias inovações-chave: (1) Percepção Aprimorada: aproveitando um conjunto de dados em larga escala de capturas de tela GUI para compreensão contextualizada dos elementos da UI e legendagem precisa; (2) Modelagem de Ação Unificada, que padroniza ações em um espaço unificado entre plataformas e alcança fundamentação precisa e interação por meio de rastreamentos de ação em larga escala; (3) Raciocínio do Sistema-2, que incorpora raciocínio deliberado à tomada de decisão em múltiplas etapas, envolvendo múltiplos padrões de raciocínio como decomposição de tarefas, pensamento reflexivo, reconhecimento de marcos, etc. (4) Treinamento Iterativo com Traços Online Reflexivos, que aborda o gargalo de dados coletando, filtrando e refinando reflexivamente novos traços de interação em centenas de máquinas virtuais. Através do treinamento iterativo e ajuste reflexivo, o UI-TARS aprende continuamente com seus erros e se adapta a situações imprevistas com intervenção humana mínima. Também analisamos o caminho de evolução dos agentes GUI para orientar o desenvolvimento adicional deste domínio.
Apresentamos o TokenVerse - um método para personalização multi-conceitual, aproveitando um modelo de difusão pré-treinado de texto para imagem. Nosso framework pode separar elementos visuais e atributos complexos a partir de apenas uma imagem, permitindo a geração fácil e flexível de combinações de conceitos extraídos de múltiplas imagens. Ao contrário de trabalhos existentes, o TokenVerse pode lidar com múltiplas imagens contendo múltiplos conceitos cada, e suporta uma ampla gama de conceitos, incluindo objetos, acessórios, materiais, pose e iluminação. Nosso trabalho explora um modelo de texto para imagem baseado em DiT, no qual o texto de entrada afeta a geração por meio de atenção e modulação (deslocamento e escala). Observamos que o espaço de modulação é semântico e possibilita controle localizado sobre conceitos complexos. Com base nessa percepção, desenvolvemos um framework baseado em otimização que, ao receber como entrada uma imagem e uma descrição de texto, encontra para cada palavra uma direção distinta no espaço de modulação. Essas direções podem então ser usadas para gerar novas imagens que combinam os conceitos aprendidos em uma configuração desejada. Demonstramos a eficácia do TokenVerse em cenários desafiadores de personalização, e destacamos suas vantagens sobre métodos existentes. Página do projeto em https://token-verse.github.io/
Apesar do desempenho promissor dos Grandes Modelos de Linguagem Visual (LVLMs) na compreensão visual, ocasionalmente geram saídas incorretas. Enquanto modelos de recompensa (RMs) com aprendizado por reforço ou escalonamento no momento do teste oferecem o potencial para melhorar a qualidade da geração, uma lacuna crítica permanece: os RMs multimodais publicamente disponíveis para LVLMs são escassos, e os detalhes de implementação dos modelos proprietários frequentemente são obscuros. Nós preenchemos essa lacuna com o InternLM-XComposer2.5-Reward (IXC-2.5-Reward), um modelo de recompensa multimodal simples, porém eficaz, que alinha LVLMs com preferências humanas. Para garantir a robustez e versatilidade do IXC-2.5-Reward, estabelecemos um corpus de preferência multimodal de alta qualidade abrangendo entradas de texto, imagem e vídeo em diversos domínios, como seguir instruções, compreensão geral, documentos ricos em texto, raciocínio matemático e compreensão de vídeo. O IXC-2.5-Reward alcança excelentes resultados no último benchmark de modelos de recompensa multimodais e mostra desempenho competitivo nos benchmarks de modelos de recompensa apenas de texto. Demonstramos ainda três aplicações-chave do IXC-2.5-Reward: (1) Fornecer um sinal de supervisão para o treinamento de RL. Integrar o IXC-2.5-Reward com a Otimização de Política Proximal (PPO) resulta no IXC-2.5-Chat, que apresenta melhorias consistentes no seguimento de instruções e diálogo multimodal aberto; (2) Selecionar a melhor resposta dentre as respostas candidatas para escalonamento no momento do teste; e (3) Filtrar amostras atípicas ou ruidosas dos dados de treinamento existentes de ajuste de instruções de imagem e vídeo. Para garantir a reprodutibilidade e facilitar pesquisas futuras, disponibilizamos todos os pesos do modelo e receitas de treinamento em código aberto em https://github.com/InternLM/InternLM-XComposer.
Apresentamos o Hunyuan3D 2.0, um avançado sistema de síntese 3D em larga escala para geração de ativos 3D texturizados de alta resolução. Este sistema inclui dois componentes fundamentais: um modelo de geração de forma em larga escala - Hunyuan3D-DiT, e um modelo de síntese de textura em larga escala - Hunyuan3D-Paint. O modelo generativo de forma, construído em um transformador de difusão baseado em fluxo escalável, tem como objetivo criar geometria que se alinhe adequadamente com uma imagem de condição fornecida, estabelecendo uma base sólida para aplicações posteriores. O modelo de síntese de textura, beneficiando-se de fortes precursores geométricos e de difusão, produz mapas de textura de alta resolução e vibrantes para malhas geradas ou feitas à mão. Além disso, desenvolvemos o Hunyuan3D-Studio - uma plataforma de produção versátil e amigável ao usuário que simplifica o processo de recriação de ativos 3D. Permite que usuários profissionais e amadores manipulem ou até animem suas malhas de forma eficiente. Avaliamos sistematicamente nossos modelos, demonstrando que o Hunyuan3D 2.0 supera os modelos anteriores de última geração, incluindo os modelos de código aberto e de código fechado em detalhes de geometria, alinhamento de condição, qualidade de textura, etc. O Hunyuan3D 2.0 é publicamente lançado para preencher as lacunas na comunidade 3D de código aberto para modelos generativos de fundação em larga escala. O código e os pesos pré-treinados de nossos modelos estão disponíveis em: https://github.com/Tencent/Hunyuan3D-2
Modelos de linguagem de raciocínio (RLMs), também conhecidos como Modelos de Raciocínio Avançados (LRMs), como o o1 e o3 da OpenAI, DeepSeek-V3 e QwQ da Alibaba, redefiniram as capacidades de resolução de problemas da IA ao estenderem modelos de linguagem grandes (LLMs) com mecanismos avançados de raciocínio. No entanto, seus altos custos, natureza proprietária e arquiteturas complexas - combinando de forma única Aprendizado por Reforço (RL), heurísticas de busca e LLMs - apresentam desafios de acessibilidade e escalabilidade. Para abordar esses desafios, propomos um plano abrangente que organiza os componentes de RLM em um framework modular, com base em uma pesquisa e análise de todos os trabalhos de RLM. Este plano incorpora diversas estruturas de raciocínio (cadeias, árvores, grafos e formas aninhadas), estratégias de raciocínio (por exemplo, Monte Carlo Tree Search, Beam Search), conceitos de RL (modelos de política, de valor e outros) e esquemas de supervisão (Supervisão Baseada na Saída e Baseada no Processo). Também fornecemos formulações matemáticas detalhadas e especificações algorítmicas para simplificar a implementação de RLM. Ao mostrar como esquemas como LLaMA-Berry, QwQ, Journey Learning e Graph of Thoughts se encaixam como casos especiais, demonstramos a versatilidade e potencial unificador do plano. Para ilustrar sua utilidade, introduzimos x1, uma implementação modular para prototipagem e experimentação rápida de RLM. Usando x1 e uma revisão da literatura, fornecemos insights importantes, como treinamento em fases múltiplas para modelos de política e de valor, e a importância de distribuições de treinamento familiares. Por fim, delineamos como os RLMs podem se integrar a um ecossistema mais amplo de LLMs, incluindo ferramentas e bancos de dados. Nosso trabalho desmistifica a construção de RLMs, democratiza capacidades avançadas de raciocínio e fomenta a inovação, com o objetivo de mitigar a lacuna entre "IA rica" e "IA pobre" ao reduzir as barreiras para o desenvolvimento e experimentação de RLMs.
Os smartphones tornaram-se indispensáveis na vida moderna, no entanto, a realização de tarefas complexas em dispositivos móveis frequentemente continua a ser frustrante. Avanços recentes em agentes móveis baseados em grandes modelos multimodais (LMM) demonstraram a capacidade de perceber e agir em ambientes móveis. No entanto, abordagens atuais enfrentam limitações significativas: elas não conseguem atender às necessidades humanas do mundo real, têm dificuldades com tarefas intensivas em raciocínio e de longo prazo, e carecem de mecanismos para aprender e melhorar a partir de experiências anteriores. Para superar esses desafios, apresentamos o Mobile-Agent-E, um framework hierárquico de múltiplos agentes capaz de autoevolução por meio de experiências passadas. Por hierárquico, entendemos uma separação explícita entre planejamento de alto nível e execução de ações de baixo nível. O framework é composto por um Gerente, responsável por elaborar planos gerais desmembrando tarefas complexas em submetas, e quatro agentes subordinados - Perceptor, Operador, Refletor de Ação e Anotador - que lidam com percepção visual detalhada, execução imediata de ações, verificação de erros e agregação de informações, respectivamente. O Mobile-Agent-E também apresenta um módulo de autoevolução inovador que mantém uma memória persistente de longo prazo composta por Dicas e Atalhos. As Dicas são orientações gerais e lições aprendidas de tarefas anteriores sobre como interagir efetivamente com o ambiente. Os Atalhos são sequências reutilizáveis e executáveis de operações atômicas adaptadas para rotinas específicas. A inclusão de Dicas e Atalhos facilita o refinamento contínuo de desempenho e eficiência. Juntamente com este framework, apresentamos o Mobile-Eval-E, um novo benchmark com tarefas móveis complexas que exigem interações de longo prazo entre vários aplicativos. Resultados empíricos mostram que o Mobile-Agent-E alcança uma melhoria absoluta de 22% em relação às abordagens anteriores de ponta em três espinhas dorsais de modelos fundamentais. Página do projeto: https://x-plug.github.io/MobileAgent.
Agentes autônomos alimentados por grandes modelos de linguagem (LLMs) têm o potencial de aprimorar as capacidades humanas, auxiliando em tarefas digitais, desde o envio de e-mails até a realização de análise de dados. As habilidades dos LLMs existentes nessas tarefas são frequentemente prejudicadas pela falta de dados de agente de alta qualidade dos ambientes correspondentes com os quais interagem. Propomos o Aprender-por-Interagir, um framework centrado em dados para adaptar agentes LLM a quaisquer ambientes dados sem anotações humanas. O Aprender-por-Interagir sintetiza trajetórias de interações agente-ambiente com base em documentações e constrói instruções resumindo ou abstraindo os históricos de interação, um processo chamado de construção reversa. Avaliamos a qualidade de nossos dados sintéticos ao utilizá-los em cenários baseados em treinamento e em aprendizado em contexto sem treinamento (ICL), onde desenvolvemos abordagens inovadoras de recuperação otimizadas para agentes. Experimentos extensivos em SWE-bench, WebArena, OSWorld e Spider2-V abrangendo ambientes realistas de codificação, web e desktop mostram a eficácia do Aprender-por-Interagir em várias tarefas agênticas subsequentes - os resultados de referência são melhorados em até 12,2\% para ICL com Claude-3.5 e 19,5\% para treinamento com Codestral-22B. Demonstramos ainda o papel crítico da construção reversa, que proporciona até 14,0\% de melhoria para o treinamento. Nossos estudos de ablação demonstram a eficiência proporcionada por nossos dados sintetizados em ICL e a superioridade de nosso pipeline de recuperação em relação a abordagens alternativas como a geração aumentada por recuperação convencional (RAG). Esperamos que o Aprender-por-Interagir sirva como base para a síntese de dados de agente à medida que os LLMs são cada vez mais implantados em ambientes do mundo real.
O Depth Anything alcançou um sucesso notável na estimativa de profundidade monocular com forte capacidade de generalização. No entanto, ele sofre de inconsistência temporal em vídeos, o que prejudica suas aplicações práticas. Vários métodos foram propostos para mitigar esse problema, aproveitando modelos de geração de vídeo ou introduzindo premissas do fluxo óptico e poses de câmera. No entanto, esses métodos são aplicáveis apenas a vídeos curtos (< 10 segundos) e requerem um equilíbrio entre qualidade e eficiência computacional. Propomos o Video Depth Anything para estimativa de profundidade consistente e de alta qualidade em vídeos super longos (com vários minutos) sem sacrificar a eficiência. Baseamos nosso modelo no Depth Anything V2 e substituímos sua estrutura por uma estrutura espacial-temporal eficiente. Projetamos uma perda de consistência temporal direta, porém eficaz, restringindo o gradiente de profundidade temporal, eliminando a necessidade de premissas geométricas adicionais. O modelo é treinado em um conjunto de dados conjunto de profundidade de vídeo e imagens não rotuladas, semelhante ao Depth Anything V2. Além disso, uma nova estratégia baseada em quadros-chave é desenvolvida para inferência em vídeos longos. Experimentos mostram que nosso modelo pode ser aplicado a vídeos arbitrariamente longos sem comprometer qualidade, consistência ou capacidade de generalização. Avaliações abrangentes em vários benchmarks de vídeo demonstram que nossa abordagem estabelece um novo estado da arte na estimativa de profundidade de vídeo sem necessidade de treinamento. Oferecemos modelos de diferentes escalas para suportar uma variedade de cenários, sendo nosso menor modelo capaz de desempenho em tempo real a 30 FPS.
A modelagem generativa tem como objetivo transformar ruído aleatório em saídas estruturadas. Neste trabalho, aprimoramos os modelos de difusão de vídeo ao permitir o controle de movimento por meio da amostragem estruturada de ruído latente. Isso é alcançado apenas com uma mudança nos dados: pré-processamos vídeos de treinamento para obter ruído estruturado. Consequentemente, nosso método é agnóstico em relação ao design do modelo de difusão, não exigindo alterações nas arquiteturas de modelo ou nos pipelines de treinamento. Especificamente, propomos um algoritmo de distorção de ruído inovador, rápido o suficiente para ser executado em tempo real, que substitui a aleatoriedade temporal gaussiana por ruído distorcido correlacionado derivado de campos de fluxo óptico, preservando a gaussianidade espacial. A eficiência de nosso algoritmo nos permite ajustar modelos de base de difusão de vídeo modernos usando ruído distorcido com um mínimo de sobrecarga, fornecendo uma solução completa para uma ampla gama de controle de movimento amigável ao usuário: controle de movimento de objeto local, controle de movimento de câmera global e transferência de movimento. A harmonização entre coerência temporal e gaussianidade espacial em nosso ruído distorcido resulta em um controle de movimento eficaz, mantendo a qualidade de pixel por quadro. Experimentos extensivos e estudos de usuários demonstram as vantagens de nosso método, tornando-o uma abordagem robusta e escalável para controlar o movimento em modelos de difusão de vídeo. Os resultados em vídeo estão disponíveis em nossa página da web: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. O código-fonte e os pontos de verificação do modelo estão disponíveis no GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
Mostramos que as tags de GPS contidas nos metadados das fotos fornecem um sinal de controle útil para a geração de imagens. Treinamos modelos de GPS para imagem e os utilizamos em tarefas que exigem uma compreensão detalhada de como as imagens variam dentro de uma cidade. Em particular, treinamos um modelo de difusão para gerar imagens condicionadas tanto ao GPS quanto ao texto. O modelo aprendido gera imagens que capturam a aparência distintiva de diferentes bairros, parques e pontos turísticos. Também extraímos modelos 3D de modelos de GPS para imagem 2D por meio de amostragem de destilação de pontuação, utilizando o condicionamento de GPS para restringir a aparência da reconstrução de cada ponto de vista. Nossas avaliações sugerem que nossos modelos condicionados por GPS aprendem com sucesso a gerar imagens que variam com base na localização, e que o condicionamento de GPS melhora a estrutura 3D estimada.
A qualidade dos dados de Ajuste Fino Supervisionado (SFT) desempenha um papel crítico na melhoria das capacidades de conversação de Modelos de Linguagem Grandes (LLMs). No entanto, à medida que os LLMs se tornam mais avançados, a disponibilidade de dados de SFT de alta qualidade anotados por humanos tornou-se um gargalo significativo, exigindo uma maior dependência de dados de treinamento sintéticos. Neste trabalho, apresentamos o Condor, um novo framework de geração de dados sintéticos em duas etapas que incorpora a Árvore de Conhecimento Mundial e o Refinamento de Auto-Reflexão para produzir dados de SFT de alta qualidade em escala. Nossos resultados experimentais demonstram que um modelo base ajustado fino em apenas 20 mil amostras geradas pelo Condor alcança desempenho superior em comparação com seus equivalentes. A etapa adicional de refinamento no Condor ainda possibilita auto aprimoramento iterativo para LLMs em várias escalas (até 72B), validando a eficácia de nossa abordagem. Além disso, nossa investigação sobre a escalabilidade de dados sintéticos no pós-treinamento revela um potencial substancial e inexplorado para melhorias de desempenho, abrindo caminhos promissores para pesquisas futuras.
Neste artigo, propomos um novo método de cabeça falante impulsionado por áudio capaz de gerar simultaneamente expressões faciais altamente expressivas e gestos de mão. Ao contrário de métodos existentes que se concentram em gerar poses de corpo inteiro ou meio corpo, investigamos os desafios da geração de gestos durante a fala e identificamos a fraca correspondência entre as características de áudio e gestos de corpo inteiro como uma limitação chave. Para lidar com isso, redefinimos a tarefa como um processo de duas etapas. Na primeira etapa, geramos poses de mão diretamente a partir da entrada de áudio, aproveitando a forte correlação entre os sinais de áudio e movimentos da mão. Na segunda etapa, empregamos um modelo de difusão para sintetizar quadros de vídeo, incorporando as poses de mão geradas na primeira etapa para produzir expressões faciais realistas e movimentos corporais. Nossos resultados experimentais demonstram que o método proposto supera abordagens de ponta, como CyberHost e Vlogger, em termos de qualidade visual e precisão de sincronização. Este trabalho fornece uma nova perspectiva sobre a geração de gestos impulsionada por áudio e um framework robusto para criar animações expressivas e naturais de cabeça falante.
Apresentamos o MAGI, um framework híbrido de geração de vídeo que combina modelagem mascarada para geração intra-frame com modelagem causal para geração do próximo frame. Nossa principal inovação, Ensino Forçado Completo (CTF), condiciona frames mascarados em frames de observação completos em vez de frames mascarados (ou seja, Ensino Forçado Mascaramento, MTF), permitindo uma transição suave da geração autoregressiva de nível de token (nível de patch) para nível de frame. CTF supera significativamente MTF, alcançando uma melhoria de +23% nos escores FVD na previsão de vídeo condicionada ao primeiro frame. Para lidar com problemas como viés de exposição, empregamos estratégias de treinamento direcionadas, estabelecendo um novo referencial na geração de vídeo autoregressiva. Experimentos mostram que o MAGI pode gerar sequências de vídeo longas e coerentes com mais de 100 frames, mesmo quando treinado com apenas 16 frames, destacando seu potencial para geração de vídeo escalável e de alta qualidade.
Investigamos a relação entre a geometria dos embeddings de tokens e seu papel na previsão do próximo token dentro de modelos transformer. Um aspecto importante dessa conexão utiliza a noção de medida empírica, que codifica a distribuição de nuvens de pontos de tokens através das camadas do transformer e impulsiona a evolução das representações de tokens na imagem interativa de campo médio. Utilizamos métricas como dimensão intrínseca, sobreposição de vizinhança e similaridade cosseno para investigar observacionalmente essas medidas empíricas através das camadas. Para validar nossa abordagem, comparamos essas métricas com um conjunto de dados onde os tokens são embaralhados, o que perturba a estrutura sintática e semântica. Nossas descobertas revelam uma correlação entre as propriedades geométricas dos embeddings de tokens e a perda de entropia cruzada das previsões do próximo token, implicando que prompts com valores de perda mais altos têm tokens representados em espaços de dimensão mais alta.
Os modelos de visão e linguagem (VLMs), que processam entradas de imagem e texto, estão cada vez mais integrados em assistentes de chat e outras aplicações de IA para consumidores. Sem salvaguardas adequadas, no entanto, os VLMs podem fornecer conselhos prejudiciais (por exemplo, sobre como se autolesionar) ou incentivar comportamentos inseguros (por exemplo, consumir drogas). Apesar desses perigos evidentes, até o momento, pouco trabalho avaliou a segurança dos VLMs e os riscos inovadores criados por entradas multimodais. Para abordar essa lacuna, apresentamos o MSTS, uma Suíte de Testes de Segurança Multimodal para VLMs. O MSTS é composto por 400 estímulos de teste em 40 categorias de perigo refinadas. Cada estímulo de teste consiste em um texto e uma imagem que, apenas em combinação, revelam seu significado inseguro completo. Com o MSTS, encontramos problemas claros de segurança em vários VLMs abertos. Também descobrimos que alguns VLMs são seguros por acidente, ou seja, são seguros porque falham em entender até mesmo estímulos de teste simples. Traduzimos o MSTS para dez idiomas, apresentando estímulos não em inglês para aumentar a taxa de respostas inseguras do modelo. Também demonstramos que os modelos são mais seguros quando testados apenas com texto, em vez de estímulos multimodais. Por fim, exploramos a automação das avaliações de segurança dos VLMs, constatando que até os melhores classificadores de segurança deixam a desejar.
A geração de manchetes de notícias personalizadas tem como objetivo fornecer aos usuários manchetes atrativas que são adaptadas às suas preferências. Os métodos predominantes focam nas preferências de conteúdo orientadas pelo usuário, mas a maioria deles negligencia o fato de que preferências estilísticas diversas são essenciais para os interesses panorâmicos dos usuários, levando a uma personalização subótima. Diante disso, propomos um novo framework de Geração de Manchetes Personalizadas Consciente de Estilo-Conteúdo (SCAPE). SCAPE extrai tanto características de conteúdo quanto estilísticas das manchetes com auxílio da colaboração de modelos de linguagem grandes (LLM). Ele integra de forma adaptativa os interesses de longo e curto prazo dos usuários por meio de uma rede de fusão hierárquica baseada em aprendizado contrastivo. Ao incorporar os interesses panorâmicos no gerador de manchetes, SCAPE reflete as preferências de estilo-conteúdo dos usuários durante o processo de geração. Experimentos extensivos no conjunto de dados do mundo real PENS demonstram a superioridade do SCAPE em relação às bases.
Os Modelos de Linguagem de Visão em Grande Escala (LVLMs) demonstraram capacidades notáveis na compreensão e descrição de conteúdo visual, alcançando desempenho de ponta em várias tarefas de visão e linguagem. No entanto, esses modelos frequentemente exibem comportamento de alucinação, gerando descrições com objetos ou detalhes ausentes na imagem de entrada. Nosso trabalho investiga esse fenômeno analisando padrões de atenção em camadas e cabeças de transformadores, revelando que as alucinações frequentemente derivam da degradação progressiva do enraizamento visual em camadas mais profundas. Propomos uma abordagem de modificação de atenção inovadora que combina ênfase seletiva de tokens e modulação específica de cabeças para manter o enraizamento visual ao longo do processo de geração. Nosso método introduz dois componentes principais: (1) um mecanismo de seleção de token de duplo fluxo que identifica e prioriza tokens visuais localmente informativos e espacialmente significativos, e (2) uma estratégia de modulação específica de cabeça de atenção que amplifica diferencialmente o processamento de informações visuais com base na sensibilidade visual medida das cabeças de atenção individuais. Através de experimentação extensiva no conjunto de dados MSCOCO, demonstramos que nossa abordagem reduz as taxas de alucinação em até 62,3\% em comparação com modelos de referência, mantendo um desempenho de tarefa comparável. Nossa análise revela que modular seletivamente tokens em cabeças de atenção com níveis variados de sensibilidade visual pode melhorar significativamente o enraizamento visual sem exigir o retrabalho do modelo.