Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Native Parallel Reasoner (NPR), uma estrutura *teacher-free* que permite aos Grandes Modelos de Linguagem (LLMs) auto-evoluir capacidades genuínas de raciocínio paralelo. O NPR transforma o modelo de uma emulação sequencial para uma cognição paralela nativa através de três inovações principais: 1) um paradigma de treinamento progressivo auto-destilado que transita de uma descoberta de formato "cold-start" para restrições topológicas rigorosas sem supervisão externa; 2) um novo algoritmo de Otimização de Política com Consciência Paralela (PAPO) que otimiza políticas de ramificação diretamente dentro do grafo de execução, permitindo que o modelo aprenda decomposição adaptativa através de tentativa e erro; e 3) um Motor NPR robusto que refatora o gerenciamento de memória e o controle de fluxo do SGLang para permitir um treinamento de RL paralelo estável e em larga escala. Em oito benchmarks de raciocínio, o NPR treinado no Qwen3-4B alcança ganhos de desempenho de até 24,5% e acelerações de inferência de até 4,6x. Diferente de linhas de base anteriores que frequentemente recaem na decodagem autoregressiva, o NPR demonstra 100% de execução paralela genuína, estabelecendo um novo padrão para o raciocínio agentivo auto-evolutivo, eficiente e escalável.
As Rotacionais de Posição por Embeddings (RoPE) tornaram-se um padrão para codificar a ordem sequencial em Modelos de Linguagem de Grande Porte (LLMs) através da aplicação de rotações aos vetores de consulta e chave no plano complexo. As implementações padrão, no entanto, utilizam apenas o componente real do produto escalar de valor complexo para o cálculo da pontuação de atenção. Esta simplificação descarta o componente imaginário, que contém valiosas informações de fase, levando a uma potencial perda de detalhes relacionais cruciais para modelar dependências de contexto longo. Neste artigo, propomos uma extensão que reincorpora este componente imaginário descartado. O nosso método aproveita a representação complexa completa para criar uma pontuação de atenção de componente duplo. Demonstramos teórica e empiricamente que esta abordagem melhora a modelagem de dependências de contexto longo através da preservação de mais informações posicionais. Adicionalmente, avaliações numa série de benchmarks de modelagem de linguagem de contexto longo mostram que o nosso método melhora consistentemente o desempenho em relação ao RoPE padrão, com os benefícios a tornarem-se mais significativos à medida que o comprimento do contexto aumenta. O código está disponível em https://github.com/OpenMOSS/rope_pp.
Os métodos existentes de edição de vídeo enfrentam um dilema crítico: modelos especializados oferecem precisão, mas dependem de pré-requisitos específicos de tarefa, como máscaras, dificultando a unificação; por outro lado, modelos unificados de aprendizado temporal in-context são livres de máscaras, mas carecem de pistas espaciais explícitas, resultando em um mapeamento fraco entre instrução e região e em uma localização imprecisa. Para resolver este conflito, propomos o VideoCoF, uma nova abordagem Chain-of-Frames (Cadeia de Quadros) inspirada no raciocínio Chain-of-Thought (Cadeia de Pensamento). O VideoCoF impõe um procedimento "ver, raciocinar, depois editar" ao compelir o modelo de difusão de vídeo a primeiro prever tokens de raciocínio (latentes da região de edição) antes de gerar os tokens de vídeo alvo. Esta etapa de raciocínio explícito elimina a necessidade de máscaras fornecidas pelo usuário, ao mesmo tempo que alcança um alinhamento preciso entre instrução e região e uma edição de vídeo refinada. Além disso, introduzimos uma estratégia de alinhamento RoPE que aproveita esses tokens de raciocínio para garantir o alinhamento de movimento e permitir a extrapolação de duração além do período de treinamento. Demonstramos que, com um custo de dados mínimo de apenas 50 mil pares de vídeo, o VideoCoF alcança um desempenho state-of-the-art no VideoCoF-Bench, validando a eficiência e a eficácia da nossa abordagem. Nosso código, pesos e dados estão disponíveis em https://github.com/knightyxp/VideoCoF.
A arte voxel é uma estilização distintamente amplamente utilizada em jogos e mídias digitais, mas a geração automatizada a partir de malhas 3D permanece desafiadora devido a requisitos conflitantes de abstração geométrica, preservação semântica e coerência de cores discretas. Os métodos existentes ou simplificam excessivamente a geometria ou falham em alcançar a estética pixel-perfeita e restrita a paletas da arte voxel. Apresentamos o Voxify3D, uma estrutura diferenciável de dois estágios que conecta a otimização de malha 3D com a supervisão de arte pixel 2D. Nossa principal inovação reside na integração sinérgica de três componentes: (1) supervisão de arte pixel ortográfica que elimina a distorção de perspectiva para um alinhamento voxel-pixel preciso; (2) alinhamento baseado em *patches* com CLIP que preserva a semântica através de níveis de discretização; (3) quantização Gumbel-Softmax restrita a paletas, permitindo otimização diferenciável sobre espaços de cor discretos com estratégias de paleta controláveis. Esta integração aborda desafios fundamentais: preservação semântica sob discretização extrema, estética de arte pixel através de renderização volumétrica e otimização discreta de ponta a ponta. Experimentos mostram desempenho superior (37.12 CLIP-IQA, 77.90\% de preferência do utilizador) em diversos personagens e com abstração controlável (2-8 cores, resoluções 20x-50x). Página do projeto: https://yichuanh.github.io/Voxify-3D/
Nós estudamos a edição de vídeos egocêntricos guiada por instruções para aplicações de RA interativas. Embora os editores de vídeo de IA recentes apresentem bom desempenho em filmagens de terceira pessoa, as vistas egocêntricas apresentam desafios únicos - incluindo movimento próprio rápido e interações frequentes mão-objeto - que criam uma lacuna de domínio significativa. Além disso, os pipelines de edição offline existentes sofrem com alta latência, limitando a interação em tempo real. Para resolver essas questões, apresentamos um ecossistema completo para edição de vídeo egocêntrico. Primeiro, construímos o EgoEditData, um conjunto de dados cuidadosamente projetado e curado manualmente, especificamente desenhado para cenários de edição egocêntrica, apresentando ricas interações mão-objeto, enquanto preserva explicitamente as mãos. Segundo, desenvolvemos o EgoEdit, um editor de vídeo egocêntrico que segue instruções e suporta inferência em streaming em tempo real em uma única GPU. Finalmente, introduzimos o EgoEditBench, um conjunto de avaliação focado na fidelidade à instrução, preservação das mãos e interações, e estabilidade temporal sob movimento próprio. Tanto em tarefas de edição egocêntricas quanto gerais, o EgoEdit produz resultados temporalmente estáveis e fiéis às instruções com latência interativa. Ele alcança ganhos claros em benchmarks de edição egocêntrica - onde os métodos existentes têm dificuldades - enquanto mantém um desempenho comparável aos baselines mais fortes em tarefas de edição gerais. O EgoEditData e o EgoEditBench serão disponibilizados publicamente para a comunidade de pesquisa. Veja nosso website em https://snap-research.github.io/EgoEdit.
A geração de referência-para-vídeo (R2V) visa sintetizar vídeos que se alinhem com um prompt de texto, preservando simultaneamente a identidade do sujeito a partir de imagens de referência. No entanto, os métodos atuais de R2V são limitados pela dependência de trincas explícitas de imagem-vídeo-texto de referência, cuja construção é extremamente dispendiosa e difícil de dimensionar. Contornamos este gargalo introduzindo o Saber, uma estrutura escalável de *zero-shot* que não requer dados R2V explícitos. Treinado exclusivamente em pares vídeo-texto, o Saber emprega uma estratégia de treinamento mascarado e um design de modelo personalizado baseado em atenção para aprender representações consistentes com a identidade e conscientes da referência. Técnicas de aumento de máscara são ainda integradas para mitigar artefatos de copiar-colar comuns na geração de referência-para-vídeo. Além disso, o Saber demonstra capacidades de generalização notáveis para um número variável de referências e alcança desempenho superior no benchmark OpenS2V-Eval em comparação com métodos treinados com dados R2V.
A maioria dos modelos generativos visuais comprime imagens em um espaço latente antes de aplicar modelagem difusiva ou autoregressiva. No entanto, abordagens existentes, como VAEs e codificadores alinhados a modelos de base, restringem implicitamente o espaço latente sem moldar explicitamente sua distribuição, tornando incerto quais tipos de distribuições são ótimas para a modelagem. Apresentamos o VAE de Correspondência de Distribuição (DMVAE), que alinha explicitamente a distribuição latente do codificador com uma distribuição de referência arbitrária por meio de uma restrição de correspondência de distribuição. Isso generaliza além do prior Gaussiano dos VAEs convencionais, permitindo o alinhamento com distribuições derivadas de características auto-supervisionadas, ruído de difusão ou outras distribuições prévias. Com o DMVAE, podemos investigar sistematicamente quais distribuições latentes são mais propícias para a modelagem, e descobrimos que as distribuições derivadas de SSL fornecem um excelente equilíbrio entre fidelidade de reconstrução e eficiência de modelagem, atingindo gFID igual a 3.2 no ImageNet com apenas 64 épocas de treinamento. Nossos resultados sugerem que escolher uma estrutura de distribuição latente adequada (conseguida via alinhamento a nível de distribuição), em vez de depender de priores fixos, é a chave para preencher a lacuna entre latentes fáceis de modelar e a síntese de imagens de alta fidelidade. O código está disponível em https://github.com/sen-ye/dmvae.
Os sistemas multiagente baseados em modelos de linguagem de grande escala (LLM) são difíceis de depurar porque as falhas geralmente surgem de traços de interação longos e ramificados. A prática predominante é alavancar LLMs para localização de falhas baseada em logs, atribuindo erros a um agente e etapa específicos. No entanto, este paradigma tem duas limitações principais: (i) a depuração baseada apenas em logs carece de validação, produzindo hipóteses não testadas, e (ii) a atribuição de uma única etapa ou único agente é frequentemente mal formulada, uma vez que descobrimos que múltiplas intervenções distintas podem reparar independentemente a tarefa com falha. Para abordar a primeira limitação, introduzimos o DoVer, uma estrutura de depuração orientada a intervenções, que aumenta a geração de hipóteses com verificação ativa por meio de intervenções direcionadas (por exemplo, editar mensagens, alterar planos). Para a segunda limitação, em vez de avaliar a precisão da atribuição, focamos em medir se o sistema resolve a falha ou faz progresso quantificável em direção ao sucesso da tarefa, refletindo uma visão mais orientada a resultados da depuração. Dentro da estrutura de agentes Magnetic-One, nos conjuntos de dados derivados do GAIA e do AssistantBench, o DoVer converte 18-28% dos testes com falha em sucessos, alcança até 16% de progresso em marcos e valida ou refuta 30-60% das hipóteses de falha. O DoVer também tem um desempenho eficaz em um conjunto de dados diferente (GSMPlus) e estrutura de agentes (AG2), onde recupera 49% dos testes com falha. Estes resultados destacam a intervenção como um mecanismo prático para melhorar a confiabilidade em sistemas de agentes e abrem oportunidades para métodos de depuração mais robustos e escaláveis para sistemas multiagente baseados em LLM. O site do projeto e o código estarão disponíveis em https://aka.ms/DoVer.
Os seres humanos não veem apenas semelhanças de atributos — também percebem semelhanças relacionais. Uma maçã é semelhante a um pêssego porque ambas são frutas avermelhadas, mas a Terra também se assemelha a um pêssego: sua crosta, manto e núcleo correspondem à pele, polpa e caroço do pêssego. Esta capacidade de perceber e reconhecer semelhanças relacionais é considerada por cientistas cognitivos como o que distingue os humanos de outras espécies. No entanto, todas as métricas de similaridade visual amplamente utilizadas atualmente (por exemplo, LPIPS, CLIP, DINO) concentram-se apenas na similaridade de atributos perceptuais e não conseguem capturar as ricas e frequentemente surpreendentes semelhanças relacionais que os humanos percebem. Como podemos ir além do conteúdo visível de uma imagem para capturar suas propriedades relacionais? Como podemos aproximar, no espaço de representação, imagens com a mesma lógica relacional? Para responder a estas questões, primeiro formulamos a similaridade relacional de imagens como um problema mensurável: duas imagens são relationalmente semelhantes quando suas relações internas ou funções entre os elementos visuais correspondem, mesmo que seus atributos visuais difiram. Em seguida, reunimos um conjunto de dados de 114 mil imagens com legendas anonimizadas — descrevendo a lógica relacional subjacente da cena em vez de seu conteúdo superficial. Usando este conjunto de dados, afinamos um modelo de Visão e Linguagem para medir a similaridade relacional entre imagens. Este modelo serve como um primeiro passo para conectar imagens pela sua estrutura relacional subjacente, e não pela sua aparência visível. Nosso estudo mostra que, embora a similaridade relacional tenha muitas aplicações no mundo real, os modelos existentes de similaridade de imagem não a capturam — revelando uma lacuna crítica na computação visual.
Apresentamos o LongCat-Image, um modelo de base pioneiro, de código aberto e bilíngue (chinês-inglês) para geração de imagens, concebido para enfrentar os principais desafios na renderização de texto multilíngue, no fotorrealismo, na eficiência de implantação e na acessibilidade para programadores, que são predominantes nos modelos líderes atuais. 1) Conseguimos isso através de estratégias rigorosas de curadoria de dados nas fases de pré-treinamento, meio-treinamento e SFT (Fine-Tuning Supervisionado), complementadas pelo uso coordenado de modelos de recompensa curados durante a fase de RL (Aprendizagem por Reforço). Esta estratégia estabelece o modelo como um novo estado da arte (SOTA), oferecendo capacidades superiores de renderização de texto e um fotorrealismo notável, além de melhorar significativamente a qualidade estética. 2) Notavelmente, ele estabelece um novo padrão da indústria para a renderização de caracteres chineses. Ao suportar até mesmo caracteres complexos e raros, supera tanto as principais soluções de código aberto quanto as comerciais em cobertura, ao mesmo tempo que alcança uma precisão superior. 3) O modelo atinge uma eficiência notável através do seu design compacto. Com um modelo de difusão central de apenas 6B de parâmetros, é significativamente menor do que as arquiteturas de Mistura de Especialistas (MoE) de cerca de 20B ou mais, comuns na área. Isso garante um uso mínimo de VRAM e uma inferência rápida, reduzindo significativamente os custos de implantação. Para além da geração, o LongCat-Image também se destaca na edição de imagens, alcançando resultados SOTA em benchmarks padrão com uma consistência de edição superior em comparação com outros trabalhos de código aberto. 4) Para capacitar plenamente a comunidade, estabelecemos o ecossistema de código aberto mais abrangente até à data. Estamos a disponibilizar não apenas várias versões do modelo para texto-para-imagem e edição de imagens, incluindo *checkpoints* após as fases de meio-treinamento e pós-treinamento, mas também toda a cadeia de ferramentas do procedimento de treino. Acreditamos que a abertura do LongCat-Image fornecerá um suporte robusto para programadores e investigadores, impulsionando as fronteiras da criação de conteúdo visual.
Os modelos generativos visuais (por exemplo, modelos de difusão) geralmente operam em espaços latentes comprimidos para equilibrar a eficiência do treinamento e a qualidade da amostra. Paralelamente, tem havido um interesse crescente em aproveitar representações visuais pré-treinadas de alta qualidade, seja alinhando-as dentro de VAEs ou diretamente no modelo generativo. No entanto, adaptar tais representações permanece um desafio devido a incompatibilidades fundamentais entre características orientadas para a compreensão e espaços latentes adequados para geração. Os codificadores de representação beneficiam-se de latentes de alta dimensionalidade que capturam hipóteses diversificadas para regiões mascaradas, enquanto os modelos generativos favorecem latentes de baixa dimensionalidade que devem preservar fielmente o ruído injetado. Esta discrepância levou trabalhos anteriores a depender de objetivos e arquiteturas complexas. Neste trabalho, propomos o FAE (Feature Auto-Encoder), uma estrutura simples mas eficaz que adapta representações visuais pré-treinadas em latentes de baixa dimensionalidade adequados para geração usando apenas uma única camada de atenção, mantendo informações suficientes para reconstrução e compreensão. A chave é acoplar dois decodificadores profundos separados: um treinado para reconstruir o espaço de características original, e um segundo que toma as características reconstruídas como entrada para geração de imagens. O FAE é genérico; pode ser instanciado com vários codificadores auto-supervisionados (por exemplo, DINO, SigLIP) e conectado a duas famílias generativas distintas: modelos de difusão e fluxos normalizadores. Em benchmarks de classe condicional e texto-para-imagem, o FAE alcança um desempenho sólido. Por exemplo, no ImageNet 256x256, nosso modelo de difusão com CFG atinge um FID próximo ao estado da arte de 1.29 (800 épocas) e 1.70 (80 épocas). Sem CFG, o FAE atinge o estado da arte em FID de 1.48 (800 épocas) e 2.08 (80 épocas), demonstrando alta qualidade e aprendizado rápido.
Propomos o MVP (Multi-view Pyramid Transformer), uma arquitetura escalável de transformador multivista que reconstrói diretamente grandes cenas 3D a partir de dezenas ou centenas de imagens em uma única passada. Baseando-se na ideia de "olhar mais amplo para ver o todo, olhar mais fino para ver os detalhes", o MVP é construído sobre dois princípios de projeto centrais: 1) uma hierarquia inter-visão local-para-global que amplia gradualmente a perspectiva do modelo de vistas locais para grupos e, finalmente, para a cena completa, e 2) uma hierarquia intra-visão fino-para-grosso que começa com representações espaciais detalhadas e as agrega progressivamente em *tokens* compactos e densos em informação. Essa hierarquia dupla alcança tanto eficiência computacional quanto riqueza representacional, permitindo a reconstrução rápida de cenas grandes e complexas. Validamos o MVP em diversos conjuntos de dados e demonstramos que, quando acoplado ao 3D Gaussian Splatting como representação 3D subjacente, ele alcança qualidade de reconstrução generalizável de última geração, mantendo alta eficiência e escalabilidade em uma ampla variedade de configurações de vista.
Técnicas recentes de aprendizagem por reforço (RL) têm produzido melhorias impressionantes na capacidade de raciocínio de modelos de linguagem, mas ainda não está claro se o pós-treinamento realmente estende a capacidade de raciocínio de um modelo para além do que ele adquire durante o pré-treinamento. Um desafio central é a falta de controle nos pipelines de treinamento modernos: os corpora de pré-treinamento em larga escala são opacos, o meio do treinamento é frequentemente pouco examinado, e os objetivos de RL interagem com conhecimentos prévios desconhecidos de maneiras complexas. Para resolver esta ambiguidade, desenvolvemos uma estrutura experimental totalmente controlada que isola as contribuições causais do pré-treinamento, do meio do treinamento e do pós-treinamento baseado em RL. Nossa abordagem emprega tarefas de raciocínio sintéticas com operações atômicas explícitas, traços de raciocínio passo a passo analisáveis e manipulação sistemática das distribuições de treinamento. Avaliamos os modelos ao longo de dois eixos: generalização extrapolativa para composições mais complexas e generalização contextual através de contextos superficiais. Usando esta estrutura, reconciliamos visões concorrentes sobre a eficácia da RL. Mostramos que: 1) A RL produz ganhos reais de capacidade (pass@128) apenas quando o pré-treinamento deixa margem suficiente e quando os dados de RL visam a "borda de competência" do modelo – tarefas no limite que são difíceis, mas ainda não estão fora de alcance. 2) A generalização contextual requer exposição mínima, porém suficiente, no pré-treinamento, após a qual a RL pode transferir de forma confiável. 3) O meio do treinamento melhora significativamente o desempenho com computação fixa em comparação com apenas a RL, demonstrando seu papel central, mas pouco explorado, nos pipelines de treinamento. 4) Recompensas em nível de processo reduzem a "hackeamento de recompensa" e melhoram a fidelidade do raciocínio. Juntos, estes resultados esclarecem a interação entre pré-treinamento, meio do treinamento e RL, oferecendo uma base para compreender e melhorar as estratégias de treinamento de modelos de linguagem para raciocínio.
Os recentes avanços nos modelos de linguagem grandes multimodais (MLLMs) permitiram capacidades unificadas de percepção-raciocínio, no entanto, esses sistemas permanecem altamente vulneráveis a ataques de "jailbreak" que contornam o alinhamento de segurança e induzem comportamentos prejudiciais. Benchmarks existentes, como JailBreakV-28K, MM-SafetyBench e HADES, fornecem insights valiosos sobre vulnerabilidades multimodais, mas normalmente focam em cenários de ataque limitados, carecem de avaliação padronizada de defesa e não oferecem uma caixa de ferramentas unificada e reproduzível. Para sanar essas lacunas, introduzimos o OmniSafeBench-MM, uma caixa de ferramentas abrangente para avaliação de ataque-defesa de "jailbreak" multimodal. O OmniSafeBench-MM integra 13 métodos de ataque representativos, 15 estratégias de defesa e um conjunto de dados diversificado abrangendo 9 domínios de risco principais e 50 categorias detalhadas, estruturadas em tipos de consulta consultivos, imperativos e declarativos para refletir intenções realistas do usuário. Além da cobertura de dados, ele estabelece um protocolo de avaliação tridimensional medindo (1) o grau de prejudicialidade, distinguido por uma escala granular e multinível que varia desde danos individuais de baixo impacto até ameaças societais catastróficas, (2) o alinhamento de intenção entre respostas e consultas, e (3) o nível de detalhe da resposta, permitindo uma análise matizada de segurança-utilidade. Realizamos experimentos extensos em 10 MLLMs de código aberto e 8 de código fechado para revelar sua vulnerabilidade ao "jailbreak" multimodal. Ao unificar dados, metodologia e avaliação em uma plataforma reproduzível e de código aberto, o OmniSafeBench-MM fornece uma base padronizada para pesquisas futuras. O código está disponível em https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
Apesar dos avanços promissores na geração de imagens orientada a sujeitos, os modelos atuais frequentemente se desviam das identidades de referência e apresentam dificuldades em cenas complexas com múltiplos sujeitos. Para enfrentar este desafio, apresentamos o OpenSubject, um corpus em larga escala derivado de vídeos com 2,5 milhões de amostras e 4,35 milhões de imagens para geração e manipulação orientada a sujeitos. O conjunto de dados é construído com um pipeline de quatro estágios que explora prévias de identidade entre quadros. (i) Curadoria de Vídeo. Aplicamos filtros de resolução e estética para obter clipes de alta qualidade. (ii) Mineração e Emparelhamento de Sujeitos entre Quadros. Utilizamos consenso de categoria baseado em modelo de visão e linguagem (VLM), ancoragem local e emparelhamento com consciência de diversidade para selecionar pares de imagens. (iii) Síntese de Imagem de Referência com Preservação de Identidade. Introduzimos a expansão guiada por mapa de segmentação para sintetizar as imagens de entrada para geração orientada a sujeitos e a restauração guiada por caixa delimitadora para gerar imagens de entrada para manipulação orientada a sujeitos, juntamente com aumentações com consciência geométrica e erosão de borda irregular. (iv) Verificação e Legendagem. Utilizamos um VLM para validar amostras sintetizadas, ressintetizar amostras com falha com base no estágio (iii) e, em seguida, construir legendas curtas e longas. Adicionalmente, introduzimos um benchmark abrangendo geração e manipulação orientada a sujeitos, e então avaliamos fidelidade de identidade, aderência ao prompt, consistência de manipulação e consistência de fundo com um juiz VLM. Experimentos extensivos mostram que o treinamento com OpenSubject melhora o desempenho de geração e manipulação, particularmente em cenas complexas.
Os recentes modelos de geração de vídeo demonstram capacidades de síntese impressionantes, mas permanecem limitados pelo condicionamento de modalidade única, restringindo sua compreensão holística do mundo. Isto decorre da interação multimodal insuficiente e da diversidade modal limitada para uma representação abrangente do conhecimento mundial. Para superar estas limitações, introduzimos o UnityVideo, uma estrutura unificada para geração de vídeo consciente do mundo que aprende conjuntamente em múltiplas modalidades (máscaras de segmentação, esqueletos humanos, DensePose, fluxo óptico e mapas de profundidade) e paradigmas de treinamento. Nossa abordagem apresenta dois componentes principais: (1) *dynamic noising* para unificar paradigmas de treinamento heterogêneos, e (2) um comutador de modalidade com um aprendiz contextual que permite o processamento unificado por meio de parâmetros modulares e aprendizagem contextual. Contribuímos com um conjunto de dados unificado em larga escala contendo 1,3 milhão de amostras. Através da otimização conjunta, o UnityVideo acelera a convergência e melhora significativamente a generalização *zero-shot* para dados não vistos. Demonstramos que o UnityVideo alcança qualidade e consistência de vídeo superiores, com melhor alinhamento às restrições do mundo físico. O código e os dados podem ser encontrados em: https://github.com/dvlab-research/UnityVideo
Os modelos de recompensa de processo (PRMs) que oferecem *feedback* denso ao nível da etapa têm mostrado potencial para a aprendizagem por reforço, mas a sua adoção permanece limitada pela necessidade de anotações detalhadas por etapa ou de referências de verdade absoluta (*ground truth*), ambas dispendiosas. Propomos o SPARK: uma estrutura de três fases em que, na primeira fase, um modelo gerador produz soluções diversas e um modelo verificador as avalia usando escalonamento paralelo (autoconsistência) e escalonamento sequencial (metacrítica). Na segunda fase, usamos essas saídas de verificação como dados de treino sintéticos para afinar modelos generativos de recompensa de processo, que subsequentemente servem como sinais de recompensa durante o treino. Mostramos que agregar múltiplas verificações independentes ao nível da etapa produz dados de treino para modelos de recompensa de processo que superam a supervisão baseada em resultados de verdade absoluta, atingindo 67,5 de F1 no ProcessBench (um benchmark para identificar etapas errôneas no raciocínio matemático), em comparação com 66,4 para o treino guiado por referência e 61,9 para o GPT-4o. Na fase final, aplicamos o nosso PRM generativo com verificação de cadeia de pensamento (PRM-CoT) como modelo de recompensa em experiências de aprendizagem por reforço sobre raciocínio matemático, e introduzimos restrições de formato para prevenir a exploração indevida da recompensa (*reward hacking*). Usando o Qwen2.5-Math-7B, alcançamos uma precisão média de 47,4% em seis benchmarks de raciocínio matemático, superando o método RLVR baseado em verdade absoluta (43,9%). O nosso trabalho permite um treino de aprendizagem por reforço sem referências que excede os métodos baseados em verdade absoluta, abrindo novas possibilidades para domínios que carecem de respostas verificáveis ou de verdade absoluta acessível.
Os Grandes Modelos de Visão e Linguagem (VLMs) superam eficazmente a lacuna de modalidade através de um pré-treinamento extensivo, adquirindo representações visuais sofisticadas alinhadas com a linguagem. No entanto, permanece pouco explorado se estas representações, otimizadas para tarefas de compreensão multimodal, possuem um potencial inerente para geração visual. Neste artigo, propomos o VGT, Sintonização para Geração Visual, um novo paradigma concebido para estimular as capacidades subjacentes de geração visual em qualquer modelo de visão e linguagem. Ao realizar uma sintonização eficiente para geração visual em VLMs bem pré-treinados, mitigamos significativamente os custos de alinhamento e aceleramos a convergência da modelagem autoregressiva no espaço contínuo (aceleração de 20x). Especificamente, dispensamos os VAEs (Autoencoders Variacionais) de nível de pixel entrelaçados, concebidos para transformers de difusão, e formulamos o VGT-AE através do alinhamento dos codificadores semânticos de VLMs pré-treinados com as representações latentes dos descodificadores de pixel. Em tarefas de reconstrução de imagem, alcançamos 26.67 PSNR e 0.50 rFID a uma taxa de compressão de 28x, superando VAEs especializados; em tarefas de geração visual, alcançamos resultados de última geração entre os modelos autoregressivos, 0.77 no GenEval e 78.73 no DPG-Bench. Adicionalmente, o nosso VGT proposto demonstra um potencial significativo de escalabilidade e é versátil para dotar qualquer VLM treinado para compreensão multimodal com capacidades de geração visual, o que abre um novo caminho para explorar modelos de fundação multimodais unificados de próxima geração. Modelos e código estão disponíveis em https://github.com/hustvl/VGT.
Propomos o ReCamDriving, uma estrutura de geração de vídeos de nova trajetória controlada por câmera e baseada puramente em visão. Enquanto os métodos baseados em reparo falham em restaurar artefatos complexos e as abordagens baseadas em LiDAR dependem de pistas esparsas e incompletas, o ReCamDriving aproveita renderizações 3DGS densas e completas da cena para fornecer orientação geométrica explícita, alcançando uma geração precisa e controlável pela câmera. Para mitigar o sobreajuste a comportamentos de restauração quando condicionado por renderizações 3DGS, o ReCamDriving adota um paradigma de treinamento em dois estágios: o primeiro estágio utiliza poses da câmera para um controle grosseiro, enquanto o segundo estágio incorpora renderizações 3DGS para uma orientação refinada de perspectiva e geometria. Adicionalmente, apresentamos uma estratégia de curadoria de dados de trajetória cruzada baseada em 3DGS para eliminar a discrepância entre treino e teste nos padrões de transformação da câmera, permitindo supervisão escalável de múltiplas trajetórias a partir de vídeos monoculares. Com base nesta estratégia, construímos o conjunto de dados ParaDrive, contendo mais de 110 mil pares de vídeos de trajetória paralela. Experimentos extensivos demonstram que o ReCamDriving alcança a melhor capacidade de controle de câmera e consistência estrutural do estado da arte.
O raciocínio visual integrado a ferramentas (TiVR) demonstrou grande potencial para aprimorar a resolução multimodal de problemas. No entanto, os paradigmas existentes de TiVR concentram-se principalmente na integração de várias ferramentas visuais por meio de aprendizado por reforço, negligenciando a criação de mecanismos de resposta eficazes para lidar com saídas de ferramentas não confiáveis ou errôneas. Essa limitação é particularmente pronunciada em tarefas de referência e fundamentação, onde previsões imprecisas de ferramentas de detecção frequentemente induzem os modelos TiVR a gerar raciocínios alucinados. Para resolver essa questão, propomos o VG-Refiner, o primeiro framework voltado para o raciocínio fundamentado em referência refinado por ferramentas. Tecnicamente, introduzimos um mecanismo de pensar-repensar em dois estágios que permite ao modelo analisar e responder explicitamente ao feedback da ferramenta, juntamente com uma recompensa de refinamento que incentiva a correção eficaz diante de resultados inadequados das ferramentas. Além disso, propomos duas novas métricas e estabelecemos protocolos de avaliação justos para medir sistematicamente a capacidade de refinamento dos modelos atuais. Adotamos uma pequena quantidade de dados específicos da tarefa para aprimorar a capacidade de refinamento do VG-Refiner, alcançando uma melhoria significativa na precisão e capacidade de correção em benchmarks de fundamentação de referência e raciocínio, preservando as capacidades gerais do modelo pré-treinado.
A regressão baseada em decodificação, que reformula a regressão como uma tarefa de geração de sequências, emergiu como um paradigma promissor para a aplicação de grandes modelos de linguagem na previsão numérica. No entanto, seu progresso é dificultado pelo desalinhamento entre objetivos discretos a nível de token (por exemplo, entropia cruzada) e valores numéricos contínuos. As abordagens existentes que dependem de restrições a nível de token frequentemente falham em capturar a magnitude global do valor alvo, limitando sua precisão e generalização. Neste artigo, propomos desbloquear o potencial da regressão baseada em decodificação por meio de Aprendizado por Reforço (RL). Formulamos o processo de geração como um Processo de Decisão de Markov, utilizando recompensas a nível de sequência para impor coerência numérica global. Extensos experimentos em regressão tabular e regressão de métricas de código demonstram que nosso método (especificamente com ReMax e GRPO) supera consistentemente tanto as linhas de base state-of-the-art a nível de token quanto os cabeçalhos de regressão tradicionais, mostrando a superioridade da introdução de sinais a nível de sequência. Nossa análise revela ainda que o RL melhora significativamente a eficiência de amostragem e a precisão preditiva, estabelecendo a regressão baseada em decodificação como um paradigma robusto e preciso para previsão numérica de propósito geral.
Os recentes avanços em modelos generativos autorregressivos (AR) têm produzido sistemas cada vez mais poderosos para síntese de mídia. Entre eles, a previsão em escala progressiva emergiu como um paradigma popular, onde os modelos geram imagens de maneira grossa-para-fina. No entanto, os modelos AR por escala sofrem com o *exposure bias* (viés de exposição), o que prejudica a qualidade da geração. Identificamos duas causas primárias para este problema: (1) o descompasso treino-teste, onde o modelo deve confiar em suas próprias previsões imperfeitas durante a inferência, e (2) o desequilíbrio na dificuldade de aprendizado por escala, onde certas escalas exibem complexidade de otimização desproporcionalmente maior. Através de uma análise abrangente da dinâmica de treinamento, propomos o Refinamento Auto-Autorregressivo (SAR) para abordar estas limitações. O SAR introduz um mecanismo de *Stagger-Scale Rollout* (SSR) que executa rollouts autorregressivos leves para expor o modelo às suas próprias previsões intermediárias, alinhando assim os padrões de treino e teste, e uma *Contrastive Student-Forcing Loss* (CSFL) complementar que fornece supervisão adequada para contextos autogerados, garantindo um treinamento estável. Resultados experimentais mostram que a aplicação do SAR a modelos AR pré-treinados melhora consistentemente a qualidade da geração com sobrecarga computacional mínima. Por exemplo, o SAR proporciona uma redução de 5.2% no FID no FlexVAR-d16 treinado no ImageNet 256 em apenas 10 épocas (5 horas em 32 GPUs A100). Dada sua eficiência, escalabilidade e eficácia, esperamos que o SAR sirva como um método confiável de pós-treinamento para geração visual autorregressiva.
Apresentamos o GRAPE (Group RepresentAtional Position Encoding), uma estrutura unificada para codificação posicional baseada em ações de grupo. O GRAPE reúne duas famílias de mecanismos: (i) rotações multiplicativas (GRAPE Multiplicativo) em SO(d) e (ii) vieses *logit* aditivos (GRAPE Aditivo) decorrentes de ações unipotentes no grupo linear geral GL. No GRAPE Multiplicativo, uma posição n em Z (ou t em R) atua como G(n)=exp(n,ω,L) com um gerador simétrico de posto 2, L em R^{d x d}, produzindo um mapa relacional, composicional e de norma preservada com uma exponencial matricial de forma fechada. O RoPE é recuperado exatamente quando os d/2 planos são os pares de coordenadas canônicas com espectro log-uniforme. Subespaços comutativos aprendidos e misturas compactas não comutativas estendem estritamente esta geometria para capturar o acoplamento de características entre subespaços a um custo de O(d) e O(r d) por cabeça, respectivamente. No GRAPE Aditivo, os *logits* aditivos surgem como ações unipotentes de posto 1 (ou de posto baixo), recuperando o ALiBi e o Forgetting Transformer (FoX) como casos especiais exatos, preservando ao mesmo tempo uma lei relacional exata e a capacidade de *caching* em *streaming*. No geral, o GRAPE fornece um espaço de projeto fundamentado para a geometria posicional em modelos de contexto longo, englobando o RoPE e o ALiBi como casos especiais. Página do Projeto: https://github.com/model-architectures/GRAPE.
Os modelos visuo-linguísticos (VLMs) recentes alcançam raciocínio notável através de aprendizagem por reforço (RL), o que fornece uma solução viável para realizar grandes modelos visuo-linguísticos (LVLMs) de auto-evolução contínua na era da experiência. No entanto, a RL para VLMs requer dados multimodais abundantes e de alta qualidade, especialmente desafiador em domínios especializados como química, ciências da terra e matemática multimodal. Estratégias existentes, como dados sintéticos e mecanismos de auto-recompensa, sofrem com distribuições limitadas e dificuldades de alinhamento, causando, por fim, *reward hacking*: os modelos exploram padrões de alta recompensa, colapsando a entropia da política e desestabilizando o treinamento. Propomos o DoGe (Decouple to Generalize), uma estrutura de dupla desacoplamento que orienta os modelos a aprender primeiro com o contexto, em vez de resolver problemas, redirecionando o foco para os cenários contextuais do problema negligenciados pelos métodos de dados sintéticos. Ao desacoplar o processo de aprendizagem em dois componentes (Pensador e Solucionador), quantificamos racionalmente os sinais de recompensa desse processo e propomos uma abordagem de pós-treinamento por RL em dois estágios, desde a exploração livre do contexto até a resolução prática de tarefas. Em segundo lugar, para aumentar a diversidade dos dados de treino, o DoGe constrói um *pipeline* evolutivo de aprendizagem por currículo: um corpus expandido de conhecimento do domínio nativo e um conjunto de problemas-semente em evolução iterativa. Experiências mostram que o nosso método supera consistentemente a linha de base em vários *benchmarks*, fornecendo um caminho escalável para realizar LVLMs auto-evolutivos.
À medida que os robôs adentram os espaços de trabalho humanos, surge uma necessidade crucial de que compreendam instruções humanas corporificadas, permitindo uma interação homem-robô (HRI) intuitiva e fluida. No entanto, a compreensão precisa é desafiadora devido à escassez de conjuntos de dados em larga escala que capturem interações corporificadas naturais em diversos cenários de HRI. Os conjuntos de dados existentes padecem de viés de perspectiva, coleta de visão única, cobertura inadequada de gestos não verbais e um foco predominante em ambientes internos. Para enfrentar essas questões, apresentamos o conjunto de dados Refer360, um conjunto de dados em larga escala de interações verbais e não verbais corporificadas, coletadas a partir de diversos pontos de vista em ambientes internos e externos. Adicionalmente, introduzimos o MuRes, um módulo residual guiado multimodal projetado para melhorar a compreensão de expressões de referência corporificadas. O MuRes atua como um gargalo de informação, extraindo sinais salientes específicos de cada modalidade e reforçando-os nas representações pré-treinadas para formar características complementares para tarefas subsequentes. Realizamos experimentos extensos em quatro conjuntos de dados de HRI, incluindo o Refer360, e demonstramos que os modelos multimodais atuais falham em capturar interações corporificadas de forma abrangente; contudo, aumentá-los com o MuRes melhora consistentemente o desempenho. Esses achados estabelecem o Refer360 como uma referência valiosa e evidenciam o potencial da aprendizagem residual guiada para avançar a compreensão de expressões de referência corporificadas em robôs que operam em ambientes humanos.
As garantias clássicas de convergência para aprendizado baseado em gradiente em jogos exigem que o pseudo-gradiente seja (fortemente) monótono na geometria euclidiana, conforme demonstrado por Rosen (1965), uma condição que frequentemente falha mesmo em jogos simples com acoplamentos fortes entre jogadores. Introduzimos o Small-Gain Nash (SGN), uma condição de pequeno ganho em bloco numa geometria personalizada com pesos por bloco. O SGN converte limites locais de curvatura e de acoplamento Lipschitz entre jogadores em um certificado tratável de contração. Ele constrói uma métrica de bloco ponderada na qual o pseudo-gradiente se torna fortemente monótono em qualquer região onde esses limites se mantêm, mesmo quando é não monótono no sentido euclidiano. O fluxo contínuo é exponencialmente contráctil nesta geometria projetada, e as discretizações de Euler projetado e RK4 convergem sob limites explícitos de tamanho de passo derivados da margem SGN e de uma constante Lipschitz local. Nossa análise revela uma "faixa de escala de tempo" certificada, um certificado não assintótico baseado em métrica que desempenha um papel semelhante ao TTUR: em vez de forçar uma separação assintótica de escalas de tempo via tamanhos de passo desiguais e decrescentes, o SGN identifica uma faixa finita de pesos métricos relativos para a qual uma dinâmica com tamanho de passo único é comprovadamente contráctil. Validamos o framework em jogos quadráticos onde a análise de monotonicidade euclidiana falha em prever a convergência, mas o SGN a certifica com sucesso, e estendemos a construção para geometrias *mirror*/Fisher para gradiente de política com entropia regularizada em jogos de Markov. O resultado é um *pipeline* de certificação offline que estima parâmetros de curvatura, acoplamento e Lipschitz em regiões compactas, otimiza pesos de bloco para ampliar a margem SGN e retorna um certificado de convergência estruturante e computável consistindo de uma métrica, taxa de contração e tamanhos de passo seguros para jogos não monótonos.
A generalização na manipulação robótica é essencial para a implantação de robôs em ambientes de mundo aberto e para o avanço em direção à inteligência artificial geral. Embora os modelos recentes de Visão-Linguagem-Ação (VLA) aproveitem grandes modelos de compreensão pré-treinados para percepção e seguimento de instruções, sua capacidade de generalizar para novas tarefas, objetos e configurações permanece limitada. Neste trabalho, apresentamos o VideoVLA, uma abordagem simples que explora o potencial de transformar grandes modelos de geração de vídeo em manipuladores robóticos VLA. Dada uma instrução de linguagem e uma imagem, o VideoVLA prevê uma sequência de ações, bem como os resultados visuais futuros. Construído sobre um Transformer de Difusão multimodal, o VideoVLA modela conjuntamente as modalidades de vídeo, linguagem e ação, utilizando modelos generativos de vídeo pré-treinados para previsão visual e de ação conjunta. Nossos experimentos mostram que futuros imaginados de alta qualidade correlacionam-se com previsões de ação confiáveis e sucesso na tarefa, destacando a importância da imaginação visual na manipulação. O VideoVLA demonstra uma forte generalização, incluindo a imitação de habilidades de outras embodiments e a manipulação de objetos novos. Esta estratégia de dupla previsão - prever tanto as ações quanto suas consequências visuais - explora uma mudança de paradigma no aprendizado de robôs e desbloqueia capacidades de generalização em sistemas de manipulação.
Apresentamos uma estrututa auto supervisionada de dois estágios que combina a Arquitetura Preditiva de Incorporação Conjunta (JEPA) com um Mecanismo de Atenção de Adaptação de Densidade (DAAM) para aprender representações robustas de fala. O Estágio~1 utiliza JEPA com DAAM para aprender características semânticas de áudio por meio de predição mascarada no espaço latente, totalmente dissociada da reconstrução de forma de onda. O Estágio~2 aproveita essas representações para uma tokenização eficiente usando Quantização Escalar Finita (FSQ) e um esquema de empacotamento de base mista, seguido por uma reconstrução de forma de onda de alta fidelidade com um decodificador HiFi-GAN. Ao integrar uma portada de adaptação de densidade baseada em mistura gaussiana no codificador JEPA, o modelo realiza seleção adaptativa de características temporais e descobre uma estrutura hierárquica da fala a uma baixa taxa de quadros de 2,5~Hz. Os *tokens* resultantes (47,5 *tokens*/seg) fornecem uma representação reversível, altamente compactada e compatível com modelos de linguagem, que é competitiva e frequentemente mais eficiente do que os codecs neurais de áudio existentes.
Os trabalhos recentes sobre tradução de texto estruturado permanecem limitados ao nível da frase, uma vez que lutam para lidar eficazmente com as complexas estruturas XML ou HTML a nível de documento. Para resolver isto, propomos o Format Reinforcement Learning (FormatRL), que emprega a Otimização de Política Relativa de Grupo sobre um modelo de afinação supervisionada para otimizar diretamente novas recompensas conscientes da estrutura: 1) TreeSim, que mede a similaridade estrutural entre as árvores XML previstas e de referência, e 2) Node-chrF, que mede a qualidade da tradução ao nível dos nós XML. Adicionalmente, aplicamos o StrucAUC, uma métrica de granularidade fina que distingue entre erros menores e falhas estruturais maiores. Experiências no benchmark de documentação de software SAP demonstram melhorias em seis métricas, e uma análise mostra ainda como diferentes funções de recompensa contribuem para melhorias na qualidade estrutural e de tradução.
Os sistemas de diálogo de contexto longo sofrem de **Inércia de Estado**, onde restrições estáticas impedem que os modelos resolvam conflitos entre as intenções do utilizador em evolução e o contexto histórico estabelecido. Para resolver isto, propomos o **DZ-TDPO**, uma estrutura de alinhamento não destrutiva que sinergiza restrições dinâmicas de KL conscientes de conflitos com um viés de atenção temporal calibrado. Experiências no conjunto de dados Multi-Session Chat (MSC) demonstram que o DZ-TDPO atinge taxas de vitória de última geração (55,4% no Phi-3.5) mantendo uma generalização robusta *zero-shot*. A nossa análise de escalabilidade revela um **"Compromisso Capacidade-Estabilidade"**: enquanto modelos mais pequenos incorrem num **"imposto de alinhamento"** (aumento de perplexidade) para superar a inércia histórica, o modelo maior Qwen2.5-7B atinge uma taxa de vitória de 50,8% com uma sobrecarga de perplexidade negligenciável. Isto confirma que a Inércia de Estado pode ser aliviada através de uma regulação precisa da atenção, em vez de atualizações destrutivas de pesos, preservando capacidades gerais (MMLU) em várias escalas de modelos. Código e dados disponíveis: https://github.com/lyj20071013/DZ-TDPO
O autoencoder variacional quantizado vetorial (VQ-VAE) é um autoencoder discreto que comprime imagens em tokens discretos. É difícil de treinar devido à discretização. Neste artigo, propomos uma técnica simples mas eficaz, denominada Gaussian Quant (GQ), que converte um Gaussian VAE com uma determinada restrição num VQ-VAE sem necessidade de treino. A GQ gera ruído gaussiano aleatório como um livro de códigos e encontra o ruído mais próximo da média posterior. Teoricamente, provamos que quando o logaritmo do tamanho do livro de códigos excede a taxa de codificação *bits-back* do Gaussian VAE, um pequeno erro de quantização é garantido. Na prática, propomos uma heurística para treinar o Gaussian VAE para uma GQ eficaz, denominada *target divergence constraint* (TDC). Empiricamente, mostramos que a GQ supera VQ-VAEs anteriores, como VQGAN, FSQ, LFQ e BSQ, tanto em arquiteturas UNet como ViT. Além disso, a TDC também melhora os métodos anteriores de discretização de Gaussian VAE, como o TokenBridge. O código fonte é fornecido em https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
Este artigo investiga a discontinuidade fundamental entre os dois mais recentes Segment Anything Models: SAM2 e SAM3. Explicamos por que a experiência em segmentação baseada em *prompts* do SAM2 não se transfere para o paradigma multimodal orientado a conceitos do SAM3. O SAM2 opera através de *prompts* espaciais (pontos, caixas delimitadoras e máscaras), produzindo uma segmentação puramente geométrica e temporal. Em contraste, o SAM3 introduz uma arquitetura unificada de visão e linguagem capaz de raciocínio de vocabulário aberto, fundamentação semântica, alinhamento contrastivo e compreensão de conceitos baseada em exemplares. Estruturamos esta análise em cinco componentes centrais: (1) uma Rutura Conceptual entre Segmentação Baseada em *Prompts* e Baseada em Conceitos, contrastando a semântica de *prompts* espaciais do SAM2 com a fusão multimodal e a geração de máscaras condicionada por texto do SAM3; (2) Divergência Arquitetural, detalhando o design de visão pura e temporal do SAM2 versus a integração no SAM3 de codificadores de visão-linguagem, codificadores geométricos e de exemplares, módulos de fusão, decodificadores no estilo DETR, *object queries* e tratamento de ambiguidades via *Mixture-of-Experts*; (3) Diferenças em Conjuntos de Dados e Anotações, contrastando as máscaras de vídeo do SA-1B com os corpora anotados com conceitos multimodais do SAM3; (4) Distinções no Treinamento e Hiperparâmetros, mostrando por que o conhecimento de otimização do SAM2 não se aplica ao SAM3; e (5) Avaliação, Métricas e Modos de Falha, delineando a transição das métricas geométricas de IoU para a avaliação semântica e de vocabulário aberto. Em conjunto, estas análises estabelecem o SAM3 como uma nova classe de modelo de base para segmentação e traçam direções futuras para a emergente era da segmentação orientada a conceitos.