Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de fundação de vídeo geram conteúdo visualmente realista e temporalmente coerente, mas sua confiabilidade como simuladores do mundo depende de sua capacidade de capturar restrições físicas, lógicas e espaciais. Métricas existentes, como a Distância de Fréchet em Vídeo (FVD), enfatizam a qualidade perceptual e negligenciam falhas de raciocínio, incluindo violações de causalidade, física e consistência global. Apresentamos o MMGR (Avaliação e Benchmark de Raciocínio Generativo Multimodal), uma estrutura de avaliação fundamentada em cinco habilidades de raciocínio: Físico, Lógico, Espacial 3D, Espacial 2D e Temporal. O MMGR avalia o raciocínio generativo em três domínios: Raciocínio Abstrato (ARC-AGI, Sudoku), Navegação Corporificada (navegação e localização 3D do mundo real) e Senso Comum Físico (esportes e interações composicionais). O MMGR aplica métricas de granularidade fina que exigem correção holística tanto na geração de vídeo quanto de imagem. Avaliamos modelos de vídeo líderes (Veo-3, Sora-2, Wan-2.2) e modelos de imagem (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revelando fortes lacunas de desempenho entre os domínios. Os modelos mostram sucesso moderado em tarefas de Senso Comum Físico, mas desempenham mal em Raciocínio Abstrato (abaixo de 10% de precisão no ARC-AGI) e lutam com o planejamento espacial de longo horizonte em ambientes corporificados. Nossa análise destaca limitações-chave nos modelos atuais, incluindo excesso de confiança em dados perceptivos, fraca consistência do estado global e objetivos que recompensam a plausibilidade visual em detrimento da correção causal. O MMGR oferece um benchmark de diagnóstico unificado e um caminho para modelos generativos de mundo conscientes do raciocínio.
Este artigo apresenta o WorldPlay, um modelo de difusão de vídeo em streaming que permite a modelagem de mundo interativa em tempo real com consistência geométrica de longo prazo, resolvendo o compromisso entre velocidade e memória que limita os métodos atuais. O WorldPlay obtém seu poder de três inovações principais. 1) Utilizamos uma Representação de Ação Dupla para permitir um controle de ação robusto em resposta às entradas do teclado e mouse do usuário. 2) Para impor a consistência de longo prazo, nossa Memória de Contexto Reconstituída reconstrói dinamicamente o contexto a partir de quadros passados e usa um reenquadramento temporal para manter acessíveis quadros geometricamente importantes, mas há muito tempo passados, aliviando efetivamente a atenuação da memória. 3) Também propomos o Context Forcing, um novo método de destilação projetado para modelos conscientes da memória. Alinhar o contexto de memória entre o professor e o aluno preserva a capacidade do aluno de usar informações de longo alcance, permitindo velocidades em tempo real enquanto previne a deriva de erro. Em conjunto, o WorldPlay gera vídeo em streaming 720p de longo horizonte a 24 FPS com consistência superior, comparando-se favoravelmente com as técnicas existentes e mostrando forte generalização em diversas cenas. A página do projeto e a demonstração online podem ser encontradas em: https://3d-models.hunyuan.tencent.com/world/ e https://3d.hunyuan.tencent.com/sceneTo3D.
Os recentes avanços na geração de vídeo têm produzido conteúdos vívidos que frequentemente são indistinguíveis de vídeos reais, tornando a deteção de vídeos gerados por IA um desafio societário emergente. Os benchmarks anteriores de deteção de AIGC avaliam maioritariamente vídeo sem áudio, visam domínios narrativos amplos e focam-se apenas na classificação. No entanto, permanece pouco claro se os modelos de geração de vídeo state-of-the-art podem produzir vídeos imersivos com áudio que enganem de forma fiável humanos e VLMs (Modelos de Linguagem Visual). Para tal, introduzimos o Video Reality Test, um conjunto de benchmarks de vídeo com origem em ASMR para testar o realismo perceptual sob um forte acoplamento áudio-visual, caracterizado pelas seguintes dimensões: (i) Fontes de vídeo-áudio ASMR imersivas. Construído com base em vídeos ASMR reais cuidadosamente curados, o benchmark visa interações ação-objeto de granularidade fina com diversidade em objetos, ações e fundos. (ii) Avaliação por Pares (Peer-Review). Um protocolo criador-revisor adversarial onde os modelos de geração de vídeo atuam como criadores com o objetivo de enganar os revisores, enquanto os VLMs servem como revisores que procuram identificar falsificações. As nossas descobertas experimentais mostram: O melhor criador, Veo3.1-Fast, chega a enganar a maioria dos VLMs: o revisor mais forte (Gemini 2.5-Pro) atinge apenas 56% de precisão (aleatório 50%), muito abaixo da dos especialistas humanos (81,25%). Adicionar áudio melhora a discriminação real-falso, contudo, pistas superficiais como marcas de água ainda podem enganar significativamente os modelos. Estas descobertas delineiam a fronteira atual do realismo na geração de vídeo e expõem as limitações dos VLMs na fidelidade perceptual e na consistência áudio-visual. O nosso código está disponível em https://github.com/video-reality-test/video-reality-test.
A rápida evolução dos Grandes Modelos de Linguagem (LLMs) está condicionada à qualidade e diversidade dos conjuntos de dados de pós-treinamento. No entanto, persiste uma dicotomia crítica: enquanto os modelos são rigorosamente avaliados com benchmarks, os dados que os alimentam permanecem uma caixa preta – caracterizada por composição opaca, proveniência incerta e falta de avaliação sistemática. Esta opacidade dificulta a reprodutibilidade e obscurece a relação causal entre as características dos dados e os comportamentos do modelo. Para colmatar esta lacuna, introduzimos a OpenDataArena (ODA), uma plataforma holística e aberta concebida para avaliar o valor intrínseco dos dados de pós-treinamento. A ODA estabelece um ecossistema abrangente composto por quatro pilares principais: (i) um *pipeline* unificado de treino-avaliação que garante comparações justas e abertas entre diversos modelos (por exemplo, Llama, Qwen) e domínios; (ii) uma estrutura de pontuação multidimensional que perfila a qualidade dos dados ao longo de dezenas de eixos distintos; (iii) um explorador interativo de linhagem de dados para visualizar a genealogia dos conjuntos de dados e dissecar as fontes componentes; e (iv) um conjunto de ferramentas totalmente de código aberto para treino, avaliação e pontuação, para fomentar a investigação em dados. Experiências extensivas na ODA – abrangendo mais de 120 conjuntos de dados de treino em múltiplos domínios, em 22 *benchmarks*, validadas por mais de 600 execuções de treino e 40 milhões de pontos de dados processados – revelam conclusões não triviais. A nossa análise descobre os compromissos inerentes entre a complexidade dos dados e o desempenho da tarefa, identifica redundâncias em *benchmarks* populares através do rastreio de linhagem e mapeia as relações genealógicas entre conjuntos de dados. Disponibilizamos todos os resultados, ferramentas e configurações para democratizar o acesso à avaliação de dados de alta qualidade. Em vez de meramente expandir um quadro de líderes, a ODA vislumbra uma mudança da curadoria de dados por tentativa e erro para uma ciência fundamentada de *Data-Centric AI*, pavimentando o caminho para estudos rigorosos sobre as leis de mistura de dados e a composição estratégica de modelos de base.
A geração de imagens orientada por objetos evoluiu da composição de objeto único para múltiplos objetos, mas negligenciou a distinção – a capacidade de identificar e gerar o objeto correto quando as entradas contêm múltiplos candidatos. Esta limitação restringe a eficácia em ambientes visuais complexos e realistas. Propomos o Scone, um método unificado de compreensão-geração que integra composição e distinção. O Scone permite que o especialista em compreensão atue como uma ponte semântica, transmitindo informações semânticas e orientando o especialista em geração a preservar a identidade do objeto enquanto minimiza interferências. Um esquema de treinamento em duas fases primeiro aprende a composição, depois aprimora a distinção através de alinhamento semântico e mascaramento baseado em atenção. Também introduzimos o SconeEval, um benchmark para avaliar composição e distinção em diversos cenários. Experimentos demonstram que o Scone supera os modelos de código aberto existentes em tarefas de composição e distinção em dois benchmarks. Nosso modelo, benchmark e dados de treinamento estão disponíveis em: https://github.com/Ryann-Ran/Scone.
O rastreamento espacial, enquanto capacidade fundamental de interação corporificada para robôs, é inerentemente desafiador, pois requer raciocínio métrico fundamentado em múltiplos passos, combinado com referência espacial complexa e medição métrica do mundo real. No entanto, os métodos existentes têm dificuldades com esta tarefa composicional. Para tal, propomos o RoboTracer, um Modelo de Linguagem de Visão (VLM) com consciência 3D que alcança, pela primeira vez, tanto a referência quanto a medição espacial 3D através de um codificador espacial universal e de um descodificador supervisionado por regressão para melhorar a consciência de escala durante o ajuste fino supervisionado (SFT). Além disso, o RoboTracer avança o raciocínio métrico fundamentado em múltiplos passos através do ajuste fino por reforço (RFT) com recompensas de processo métrico-sensíveis, supervisionando pistas perceptivas intermediárias-chave para gerar traços espaciais com precisão. Para suportar o treino SFT e RFT, introduzimos o TraceSpatial, um conjunto de dados em larga escala com 30 milhões de pares de perguntas e respostas, abrangendo cenários exteriores/interiores/de mesa e suportando processos de raciocínio complexos (até 9 passos). Apresentamos ainda o TraceSpatial-Bench, um benchmark desafiador que preenche a lacuna para avaliar o rastreamento espacial. Os resultados experimentais mostram que o RoboTracer supera as linhas de base em compreensão espacial, medição e referência, com uma taxa de sucesso média de 79,1%, e também alcança desempenho de estado da arte (SOTA) no TraceSpatial-Bench por uma larga margem, excedendo o Gemini-2.5-Pro em 36% de precisão. Notablemente, o RoboTracer pode ser integrado com várias políticas de controlo para executar tarefas dinâmicas de longo horizonte em diversos robôs (UR5, humanoide G1) em cenas do mundo real com desordem.
A construção de modelos de raciocínio de propósito geral com aprendizagem por reforço (RL) envolve uma heterogeneidade substancial entre domínios, incluindo grande variação nos comprimentos das respostas no momento da inferência e na latência de verificação. Essa variabilidade complica a infraestrutura de RL, retarda o treinamento e torna desafiador o currículo de treinamento (por exemplo, a extensão do comprimento da resposta) e a seleção de hiperparâmetros. Neste trabalho, propomos a aprendizagem por reforço em cascata por domínio (Cascade RL) para desenvolver modelos de raciocínio de propósito geral, o Nemotron-Cascade, capaz de operar tanto em modos de instrução quanto de pensamento profundo. Afastando-se das abordagens convencionais que misturam *prompts* heterogéneos de diferentes domínios, o Cascade RL orquestra um RL sequencial e por domínio, reduzindo a complexidade de engenharia e fornecendo desempenho de última geração numa ampla gama de *benchmarks*. Notavelmente, o RLHF para alinhamento, quando usado como uma etapa preliminar, aumenta a capacidade de raciocínio do modelo muito além da mera otimização de preferências, e as etapas subsequentes de RLVR por domínio raramente degradam o desempenho nos *benchmarks* obtido em domínios anteriores, podendo até mesmo melhorá-lo (veja uma ilustração na Figura 1). O nosso modelo de 14B, após o RL, supera o seu professor de SFT, o DeepSeek-R1-0528, no LiveCodeBench v5/v6/Pro e alcança um desempenho de medalha de prata na Olimpíada Internacional de Informática (IOI) de 2025. Partilhamos transparentemente as nossas receitas de treinamento e dados.
Os Gráficos Vetoriais Escaláveis (SVG) são centrais para o design web moderno, e a demanda para animá-los continua a crescer à medida que os ambientes web se tornam cada vez mais dinâmicos. No entanto, automatizar a animação de gráficos vetoriais permanece um desafio para os modelos de visão e linguagem (VLMs), apesar dos progressos recentes na geração de código e no planejamento de movimento. Os VLMs frequentemente manipulam mal os SVGs, uma vez que partes visualmente coerentes são frequentemente fragmentadas em formas de baixo nível que oferecem pouca orientação sobre quais elementos devem se mover em conjunto. Neste artigo, introduzimos uma estrutura que recupera a estrutura semântica necessária para uma animação SVG confiável e revela a camada ausente que os sistemas atuais de VLM ignoram. Isso é alcançado através de uma agregação estatística de múltiplas previsões fracas de partes, permitindo que o sistema infira semanticamente de forma estável a partir de previsões ruidosas. Ao reorganizar os SVGs em grupos semânticos, nossa abordagem permite que os VLMs produzam animações com muito maior coerência. Nossos experimentos demonstram ganhos substanciais em relação às abordagens existentes, sugerindo que a recuperação semântica é o passo chave que desbloqueia a animação SVG robusta e suporta interações mais interpretáveis entre os VLMs e os gráficos vetoriais.
Apresentamos o Olmo 3, uma família de modelos de linguagem totalmente abertos e de última geração nas escalas de 7B e 32B de parâmetros. A construção do modelo Olmo 3 tem como alvo o raciocínio de contexto longo, chamada de funções, codificação, seguimento de instruções, chat geral e recuperação de conhecimento. Esta versão inclui o fluxo completo do modelo, ou seja, todo o ciclo de vida da família de modelos, incluindo cada etapa, *checkpoint*, ponto de dados e dependência utilizados para sua construção. Nosso modelo principal, o Olmo 3 Think 32B, é o modelo de pensamento totalmente aberto mais potente já lançado até hoje.
A pesquisa por similaridade de vetores (VSS) em espaços de alta dimensão está a emergir rapidamente como uma funcionalidade central nos sistemas de base de dados de próxima geração para inúmeros serviços intensivos em dados – desde consultas de *embeddings* em modelos de linguagem de grande escala (LLMs), até à recuperação de informação semântica e motores de recomendação. No entanto, os *benchmarks* atuais avaliam a VSS principalmente na relação de compromisso entre recuperação (*recall*) e latência, face a uma verdade fundamental definida apenas por métricas de distância, negligenciando a forma como a qualidade da recuperação impacta, em última análise, as tarefas subsequentes. Esta desconexão pode induzir em erro tanto a investigação académica como a prática industrial. Apresentamos o Iceberg, um conjunto de *benchmarks* holístico para a avaliação de ponta a ponta de métodos de VSS em contextos de aplicação realistas. A partir de uma visão centrada na tarefa, o Iceberg revela o Funil de Perda de Informação, que identifica três fontes principais de degradação de desempenho de ponta a ponta: (1) Perda de *Embedding* durante a extração de características; (2) Uso Indevido de Métricas, onde as distâncias refletem pobremente a relevância para a tarefa; (3) Sensibilidade à Distribuição de Dados, destacando a robustez dos índices face a assimetrias e múltiplas modalidades. Para uma avaliação mais abrangente, o Iceberg abrange oito conjuntos de dados diversos em domínios-chave como classificação de imagens, reconhecimento facial, recuperação de texto e sistemas de recomendação. Cada conjunto de dados, variando entre 1M e 100M de vetores, inclui etiquetas e métricas de avaliação ricas e específicas da tarefa, permitindo avaliar os algoritmos de recuperação dentro do *pipeline* completo da aplicação, e não de forma isolada. O Iceberg avalia o desempenho de 13 métodos de VSS state-of-the-art e reclassifica-os com base em métricas de nível de aplicação, revelando desvios substanciais em relação às classificações tradicionais derivadas apenas de avaliações de recuperação-latência. Com base nestas perceções, definimos um conjunto de meta-características centradas na tarefa e derivamos uma árvore de decisão interpretável para orientar os profissionais na seleção e afinação de métodos de VSS para as suas cargas de trabalho específicas.
O principal desafio da geração de vídeo em streaming é manter a consistência do conteúdo em contextos longos, o que impõe altos requisitos para o design de memória. A maioria das soluções existentes mantém a memória comprimindo quadros históricos com estratégias predefinidas. No entanto, diferentes segmentos de vídeo a serem gerados devem referenciar diferentes pistas históricas, o que é difícil de satisfazer com estratégias fixas. Neste trabalho, propomos o MemFlow para abordar esse problema. Especificamente, antes de gerar o próximo segmento, atualizamos dinamicamente o banco de memória recuperando os quadros históricos mais relevantes usando o prompt de texto desse segmento. Esse design permite coerência narrativa mesmo que novos eventos ocorram ou haja mudanças de cenário em quadros futuros. Além disso, durante a geração, ativamos apenas os tokens mais relevantes no banco de memória para cada consulta nas camadas de atenção, o que garante efetivamente a eficiência da geração. Dessa forma, o MemFlow alcança uma consistência excepcional em contextos longos com carga computacional insignificante (redução de velocidade de 7,9% em comparação com a baseline sem memória) e mantém compatibilidade com qualquer modelo de geração de vídeo em streaming com cache KV.
O projeto de funções de recompensa eficazes representa um desafio central e frequentemente árduo na aprendizagem por reforço (RL), particularmente no desenvolvimento de agentes autónomos para tarefas de raciocínio complexo. Embora existam abordagens automatizadas de otimização de recompensa, estas geralmente dependem de heurísticas evolutivas sem derivadas que tratam a função de recompensa como uma caixa negra, falhando em capturar a relação causal entre a estrutura da recompensa e o desempenho da tarefa. Para colmatar esta lacuna, propomos a Aprendizagem por Reforço Evolutiva Diferenciável (DERL), uma estrutura bilevel que permite a descoberta autónoma de sinais de recompensa ótimos. Na DERL, um Meta-Otimizador evolui uma função de recompensa (ou seja, Meta-Recompensa) através da composição de primitivas atómicas estruturadas, orientando o treino de uma política de ciclo interno. Crucialmente, ao contrário de evoluções anteriores, a DERL é diferenciável na sua metaotimização: trata o desempenho de validação do ciclo interno como um sinal para atualizar o Meta-Otimizador via aprendizagem por reforço. Isto permite que a DERL aproxime o "metagradiente" do sucesso da tarefa, aprendendo progressivamente a gerar feedback mais denso e acionável. Validamos a DERL em três domínios distintos: agente robótico (ALFWorld), simulação científica (ScienceWorld) e raciocínio matemático (GSM8k, MATH). Os resultados experimentais mostram que a DERL atinge um desempenho state-of-the-art no ALFWorld e ScienceWorld, superando significativamente os métodos que dependem de recompensas heurísticas, especialmente em cenários fora da distribuição. A análise da trajetória evolutiva demonstra que a DERL captura com sucesso a estrutura intrínseca das tarefas, permitindo o alinhamento autónomo de agentes com autoaprimoramento sem intervenção humana.
Este artigo não introduz um método novo, mas sim estabelece uma linha de base direta, incremental e, no entanto, essencial para a fundamentação temporal em vídeo (FTV), uma capacidade central na compreensão de vídeo. Embora os modelos de linguagem grandes multimodais (MLLMs) se destaquem em várias tarefas de compreensão de vídeo, as receitas para otimizá-los para FTV permanecem pouco exploradas. Neste artigo, apresentamos o TimeLens, uma investigação sistemática sobre a construção de MLLMs com forte capacidade de FTV, ao longo de duas dimensões principais: qualidade dos dados e design algorítmico. Primeiro, expomos problemas críticos de qualidade nos benchmarks de FTV existentes e introduzimos o TimeLens-Bench, que compreende versões meticulosamente reanotadas de três benchmarks populares com critérios de qualidade rigorosos. Nossa análise revela reclassificações dramáticas de modelos em comparação com os benchmarks legados, confirmando a falta de confiabilidade dos padrões de avaliação anteriores. Também abordamos dados de treinamento ruidosos por meio de um pipeline de reanotação automatizada, resultando no TimeLens-100K, um conjunto de dados de treinamento em larga escala e alta qualidade. Com base em nossa fundação de dados, conduzimos explorações aprofundadas dos princípios de design algorítmico, resultando em uma série de insights significativos e práticas eficazes, porém eficientes. Estas incluem codificação textual intercalada para representação temporal, uma abordagem de reforço de aprendizagem sem pensamento com recompensas verificáveis (RLVR) como paradigma de treinamento e receitas cuidadosamente projetadas para o treinamento RLVR. Esses esforços culminam nos modelos TimeLens, uma família de MLLMs com desempenho de FTV state-of-the-art entre os modelos de código aberto, chegando a superar modelos proprietários como o GPT-5 e o Gemini-2.5-Flash. Todos os códigos, dados e modelos serão disponibilizados para facilitar pesquisas futuras.
Os grandes modelos de linguagem (LLMs) demonstraram potencial notável para transformar os sistemas de recomendação, evoluindo da correspondência implícita de padrões comportamentais para o raciocínio explícito de intenções. Embora o RecGPT-V1 tenha sido pioneiro nesse paradigma ao integrar o raciocínio baseado em LLM na mineração de interesses do usuário e na previsão de tags de itens, ele sofre de quatro limitações fundamentais: (1) ineficiência computacional e redundância cognitiva em múltiplas rotas de raciocínio; (2) diversidade insuficiente de explicações na geração com modelos fixos; (3) generalização limitada sob paradigmas de aprendizado supervisionado; e (4) avaliação simplista focada em resultados que não atende aos padrões humanos. Para enfrentar esses desafios, apresentamos o RecGPT-V2 com quatro inovações principais. Primeiro, um Sistema Hierárquico de Múltiplos Agentes reestrutura o raciocínio de intenções por meio de colaboração coordenada, eliminando a duplicação cognitiva enquanto permite uma cobertura diversificada de intenções. Combinado com a Inferência de Representação Híbrida, que comprime contextos de comportamento do usuário, nosso framework reduz o consumo de GPU em 60% e melhora o *recall* exclusivo de 9,39% para 10,99%. Segundo, um framework de *Meta-Prompting* gera dinamicamente instruções contextualmente adaptativas, melhorando a diversidade de explicações em +7,3%. Terceiro, o aprendizado por reforço com restrições mitiga conflitos de múltiplas recompensas, alcanando +24,1% de melhoria na previsão de tags e +13,0% na aceitação de explicações. Quarto, um framework *Agent-as-a-Judge* decompõe a avaliação em raciocínio multi-etapas, melhorando o alinhamento com as preferências humanas. Testes A/B online no Taobao demonstram melhorias significativas: +2,98% CTR, +3,71% IPV, +2,19% TV e +11,46% NER. O RecGPT-V2 estabelece tanto a viabilidade técnica quanto a comercial de implantar o raciocínio de intenções baseado em LLM em escala, preenchendo a lacuna entre a exploração cognitiva e a utilidade industrial.
Embora os modelos de geração existentes e os modelos unificados se destaquem na geração geral de imagens, eles lutam com tarefas que exigem raciocínio profundo, planejamento e habilidades precisas de mapeamento de dados para visualização além de cenários gerais. Para superar as limitações existentes, introduzimos uma nova e desafiadora tarefa: visualização criativa de tabelas, que requer que o modelo gere um infográfico que visualize os dados de uma determinada tabela de forma fiel e esteticamente agradável. Para enfrentar esse desafio, propomos o ShowTable, um *pipeline* que sinergiza MLLMs com modelos de difusão por meio de um processo progressivo de autocorreção. O MLLM atua como orquestrador central para raciocinar o plano visual e julgar erros visuais, fornecendo instruções refinadas, enquanto o modelo de difusão executa os comandos do MLLM, alcançando resultados de alta fidelidade. Para apoiar esta tarefa e nosso *pipeline*, introduzimos três *pipelines* automatizados de construção de dados para treinar diferentes módulos. Além disso, introduzimos o TableVisBench, um novo *benchmark* com 800 instâncias desafiadoras abrangendo 5 dimensões de avaliação, para medir o desempenho nesta tarefa. Experimentos demonstram que nosso *pipeline*, instanciado com diferentes modelos, supera significativamente as *baselines*, destacando suas eficazes capacidades de raciocínio multimodal, geração e correção de erros.
Os modelos de linguagem de difusão (dLMs) emergiram como um paradigma promissor que permite geração paralela e não autorregressiva, mas sua eficiência de aprendizagem fica atrás da dos modelos de linguagem autorregressivos (AR) quando treinados do zero. Para tanto, estudamos a conversão AR-para-dLM para transformar modelos AR pré-treinados em dLMs eficientes que se destacam em velocidade enquanto preservam a precisão das tarefas dos modelos AR. Alcançamos isso identificando limitações nos padrões de atenção e objetivos dos métodos existentes de conversão AR-para-dLM e, em seguida, propondo princípios e metodologias para uma conversão mais eficaz. Especificamente, primeiro comparamos sistematicamente diferentes padrões de atenção e descobrimos que manter as distribuições de pesos AR pré-treinadas é crítico para uma conversão eficaz. Como tal, introduzimos um esquema de pré-treinamento contínuo com um padrão de atenção em blocos, que permanece causal entre blocos, permitindo modelagem bidirecional dentro de cada bloco. Descobrimos que esta abordagem preserva melhor as distribuições de peso dos modelos AR pré-treinados do que a modelagem totalmente bidirecional, além do seu benefício conhecido de permitir cache KV, e leva a um cenário de ganho mútuo em precisão e eficiência. Em segundo lugar, para mitigar a diferença entre treino e teste nas distribuições de tokens mascarados (uniforme vs. altamente left-to-right), propomos uma estratégia de mascaramento de tokens dependente da posição que atribui probabilidades de mascaramento mais altas a tokens posteriores durante o treino para melhor simular o comportamento no teste. Aproveitando este framework, conduzimos estudos extensivos sobre padrões de atenção, dinâmicas de treino e outras escolhas de design dos dLMs, fornecendo insights acionáveis para conversão AR-para-dLM escalável. Estes estudos levam à família Efficient-DLM, que supera os modelos AR e dLMs state-of-the-art, por exemplo, nosso Efficient-DLM 8B alcança +5.4%/+2.7% maior precisão com 4.5x/2.7x maior throughput em comparação com Dream 7B e Qwen3 4B, respectivamente.
A rápida escalagem de Large Language Models (LLMs) tem alcançado desempenho notável, mas também leva a custos de memória proibitivos. As abordagens existentes de eficiência de parâmetros, como poda e quantização, comprimem principalmente modelos pré-treinados sem aumentar a capacidade arquitetônica, atingindo assim o limite representacional do modelo base. Neste trabalho, propomos o VersatileFFN, uma nova rede feed-forward (FFN) que permite a reutilização flexível de parâmetros nas dimensões de largura e profundidade dentro de um orçamento fixo de parâmetros. Inspirado pela teoria de processo duplo da cognição, o VersatileFFN compreende dois caminhos adaptativos: um caminho versátil em largura que gera uma mistura de subespecialistas a partir de uma única FFN compartilhada, mimetizando o roteamento esparso de especialistas sem aumentar parâmetros, e um caminho versátil em profundidade que aplica recursivamente a mesma FFN para emular processamento mais profundo para tokens complexos. Um mecanismo de gateamento consciente da dificuldade equilibra dinamicamente os dois caminhos, direcionando tokens "fáceis" pela rota eficiente em largura e alocando refinamento iterativo mais profundo para tokens "difíceis". Crucialmente, ambos os caminhos reutilizam os mesmos parâmetros, portanto toda capacidade adicional vem da computação, não da memória. Experimentos em diversos benchmarks e escalas de modelo demonstram a eficácia do método. O código estará disponível em https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
Apresentamos o SS4D, um modelo generativo nativo 4D que sintetiza objetos 3D dinâmicos diretamente a partir de vídeo monocular. Diferente de abordagens anteriores que constroem representações 4D otimizando modelos generativos 3D ou de vídeo, treinamos um gerador diretamente em dados 4D, alcançando alta fidelidade, coerência temporal e consistência estrutural. O cerne de nosso método é um conjunto comprimido de latentes estruturados no espaço-tempo. Especificamente, (1) Para contornar a escassez de dados de treinamento 4D, partimos de um modelo pré-treinado de imagem única para 3D, preservando uma forte consistência espacial. (2) A coerência temporal é imposta pela introdução de camadas temporais dedicadas que realizam inferência entre quadros. (3) Para viabilizar treinamento e inferência eficientes em sequências de vídeo longas, comprimimos a sequência latente ao longo do eixo temporal usando convoluções 4D fatoradas e blocos de redução de amostragem temporal. Adicionalmente, empregamos uma estratégia de treinamento cuidadosamente projetada para aumentar a robustez contra oclusão.
Os recentes avanços na conversão de imagem-para-3D abriram possibilidades imensas para design, RA/RV e robótica. No entanto, para utilizar recursos 3D gerados por IA em aplicações reais, uma exigência crítica é a capacidade de editá-los facilmente. Apresentamos um método de propagação direta, o Steer3D, para adicionar capacidade de direcionamento por texto a modelos de imagem-para-3D, o que permite editar recursos 3D gerados com linguagem. Nossa abordagem é inspirada no ControlNet, que adaptamos para a geração imagem-para-3D, permitindo o direcionamento por texto diretamente em um passe direto. Construímos um mecanismo de dados escalável para geração automática de dados e desenvolvemos uma receita de treinamento em dois estágios baseada no treinamento por correspondência de fluxo (flow-matching) e na Otimização Direta de Preferência (DPO). Em comparação com métodos concorrentes, o Steer3D segue as instruções de linguagem com maior fidelidade e mantém melhor consistência com o recurso 3D original, sendo 2,4x a 28,5x mais rápido. O Steer3D demonstra que é possível adicionar uma nova modalidade (texto) para direcionar a geração de modelos generativos de imagem-para-3D pré-treinados com 100 mil dados. Site do projeto: https://glab-caltech.github.io/steer3d/
A aprendizagem contextual é fundamental para os modernos Modelos de Linguagem de Grande Porte (LLMs); no entanto, as arquiteturas predominantes impõem uma estrutura contextual rígida e fixa ao atribuir índices posicionais lineares ou constantes. Com base na Teoria da Carga Cognitiva (CLT), argumentamos que esta estrutura não informativa aumenta a carga cognitiva extrínseca, consumindo a capacidade finita de memória de trabalho que deveria ser alocada para o raciocínio profundo e a distribuição da atenção. Para resolver isso, propomos o RePo, um novo mecanismo que reduz a carga extrínseca através do reposicionamento do contexto. Diferente das abordagens padrão, o RePo utiliza um módulo diferenciável, f_φ, para atribuir posições aos tokens que capturam dependências contextuais, em vez de depender de um intervalo pré-definido de números inteiros. Ao realizar pré-treinamento contínuo na base OLMo-2 1B, demonstramos que o RePo melhora significativamente o desempenho em tarefas que envolvem contextos ruidosos, dados estruturados e contextos mais longos, mantendo um desempenho competitivo em tarefas gerais de contexto curto. Uma análise detalhada revela que o RePo aloca com sucesso maior atenção a informações distantes mas relevantes, atribui posições em um espaço denso e não linear, e captura a estrutura intrínseca do contexto de entrada. Nosso código está disponível em https://github.com/SakanaAI/repo.
A previsão de affordance, que identifica regiões de interação em objetos com base em instruções linguísticas, é fundamental para a IA incorporada. Os modelos end-to-end predominantes acoplam o raciocínio de alto nível e a fundamentação de baixo nível em um pipeline monolítico único e dependem de treinamento em conjuntos de dados anotados, o que resulta em má generalização para objetos novos e ambientes não vistos. Neste artigo, vamos além desse paradigma propondo o A4-Agent, um framework agentivo sem necessidade de treinamento que desacopla a previsão de affordance em um pipeline de três estágios. Nosso framework coordena modelos de base especializados em tempo de teste: (1) um "Sonhador" que emprega modelos generativos para visualizar como uma interação se pareceria; (2) um "Pensador" que utiliza grandes modelos de visão e linguagem para decidir qual parte do objeto interagir; e (3) um "Localizador" que orquestra modelos de base de visão para localizar precisamente onde está a área de interação. Ao aproveitar os pontos fortes complementares de modelos pré-treinados sem qualquer ajuste fino específico da tarefa, nosso framework de aprendizado zero-shot supera significativamente os métodos supervisionados state-of-the-art em múltiplos benchmarks e demonstra generalização robusta para configurações do mundo real.
Os Modelos de Difusão Discreta Mascarada (MDMs) têm alcançado um desempenho robusto em uma ampla gama de tarefas multimodais, incluindo compreensão, geração e edição de imagens. No entanto, a sua velocidade de inferência permanece subótima devido à necessidade de processar repetidamente *tokens* mascarados redundantes em cada etapa de amostragem. Neste trabalho, propomos o Sparse-LaViDa, uma nova estrutura de modelagem que trunca dinamicamente *tokens* mascarados desnecessários em cada etapa de inferência para acelerar a amostragem do MDM. Para preservar a qualidade da geração, introduzimos *tokens* de registo especializados que funcionam como representações compactas para os *tokens* truncados. Adicionalmente, para garantir a consistência entre o treino e a inferência, concebemos uma máscara de atenção especializada que corresponde fielmente ao procedimento de amostragem truncada durante o treino. Desenvolvido com base no estado da arte do MDM unificado LaViDa-O, o Sparse-LaViDa alcança uma aceleração de até 2x em diversas tarefas, incluindo geração de texto para imagem, edição de imagem e raciocínio matemático, mantendo a qualidade da geração.
A obtenção de uma inteligência corporal verdadeiramente adaptativa requer agentes que aprendam não apenas pela imitação de demonstrações estáticas, mas pela melhoria contínua por meio da interação com o ambiente, de forma análoga à maneira como os humanos dominam habilidades através da prática. Os modelos Visão-Linguagem-Ação (VLA) avançaram a manipulação robótica ao aproveitar grandes modelos de linguagem, mas permanecem fundamentalmente limitados pelo Ajuste Fino Supervisionado (SFT): exigem centenas de demonstrações por tarefa, memorizam trajetórias de forma rígida e falham em se adaptar quando as condições de implantação se desviam do treinamento. Apresentamos o EVOLVE-VLA, uma estrutura de treinamento em tempo de teste que permite aos VLAs adaptarem-se continuamente através da interação com o ambiente, com demonstrações mínimas ou mesmo zero específicas da tarefa. O principal desafio técnico é substituir os sinais de recompensa oráculo (indisponíveis no tempo de teste) por feedback autônomo. Resolvemos isso por meio de um estimador de progresso aprendido que fornece feedback denso e, criticamente, projetamos nossa estrutura para "domar" esse sinal inerentemente ruidoso por meio de dois mecanismos: (1) um mecanismo de estimativa de progresso acumulativo que suaviza as estimativas pontuais ruidosas, e (2) uma estratégia de extensão progressiva do horizonte que permite uma evolução gradual da política. O EVOLVE-VLA alcança ganhos substanciais: +8,6% em tarefas de longo horizonte, +22,0% em aprendizado single-shot (1-shot) e permite a generalização entre tarefas – alcançando 20,8% de sucesso em tarefas não vistas durante o treinamento e sem demonstrações específicas da tarefa (contra 0% para o SFT puro). A análise qualitativa revela capacidades emergentes ausentes nas demonstrações, incluindo recuperação de erros e estratégias novas. Este trabalho representa um passo crítico em direção a VLAs que verdadeiramente aprendem e se adaptam, transcendendo a imitação estática em direção a melhorias contínuas e autônomas.
A Resposta a Perguntas com Base Temporal em Vídeos (GVQA) visa localizar segmentos temporais relevantes em vídeos e gerar respostas precisas para uma determinada pergunta; no entanto, os grandes modelos de vídeo e linguagem (LVLMs) exibem consciência temporal limitada. Embora as abordagens existentes baseadas na Política de Otimização Relativa de Grupo (GRPO) tentem melhorar a ancoragem temporal, elas ainda lutam para fundamentar fielmente suas respostas nas evidências videográficas relevantes, levando a má localização temporal e alucinações. Neste trabalho, apresentamos o Zoom-Zero, uma estrutura de granularidade crescente que primeiro localiza segmentos relevantes para a consulta e depois aplica um zoom temporal nos quadros mais salientes para uma verificação visual de granularidade mais fina. Nosso método aborda as limitações do GRPO para a tarefa GVQA com duas inovações principais: (i) uma recompensa de precisão do zoom que valida a fidelidade da previsão de ancoragem temporal e facilita a verificação visual de granularidade fina nos quadros ancorados; (ii) a atribuição seletiva de crédito por token, que atribui recompensas aos tokens responsáveis pela localização temporal ou geração de respostas, mitigando o problema do GRPO no tratamento de sinais de recompensa multifacetados. Nosso método proposto avança a resposta a perguntas com base temporal em vídeos, melhorando a ancoragem temporal em 5,2% no NExT-GQA e 4,6% no ReXTime, enquanto também aumenta a precisão média das respostas em 2,4%. Adicionalmente, o zoom de granularidade crescente durante a inferência beneficia ainda mais a compreensão de vídeos de longa duração, preservando detalhes visuais críticos sem comprometer o contexto global, resultando numa melhoria média de 6,4% em benchmarks de vídeos longos.
A quantização não paramétrica tem recebido muita atenção devido à sua eficiência em parâmetros e escalabilidade para um codebook grande. Neste artigo, apresentamos uma formulação unificada de diferentes métodos de quantização não paramétrica através da lente da codificação de reticulados. A geometria dos códigos de reticulado explica a necessidade de termos de perda auxiliares ao treinar auto-codificadores com certas variantes de quantização sem consulta existentes, como a BSQ. Como um passo à frente, exploramos alguns possíveis candidatos, incluindo reticulados aleatórios, reticulados generalizados de Fibonacci e reticulados de empacotamento de esferas mais denso. Entre todos, descobrimos que o método de quantização baseado no reticulado de Leech, denominado Quantização Esférica de Leech (Λ_{24}-SQ), resulta tanto em uma receita de treinamento simplificada quanto em um melhor compromisso reconstrução-compressão, graças à sua alta simetria e distribuição uniforme na hiperesfera. Em tarefas de tokenização e compressão de imagens, esta abordagem de quantização alcança melhor qualidade de reconstrução em todas as métricas do que a BSQ, o melhor estado da arte anterior, enquanto consome ligeiramente menos bits. A melhoria também se estende a frameworks de geração de imagens auto-regressivos de última geração.
Apresentamos o CRISP, um método que recupera movimento humano simulável e geometria da cena a partir de vídeo monocular. Trabalhos anteriores sobre reconstrução conjunta humano-cena baseiam-se em prévios orientados por dados e otimização conjunta sem física integrada, ou recuperam geometria ruidosa com artefatos que fazem com que políticas de rastreamento de movimento com interações de cena falhem. Em contraste, nossa ideia fundamental é recuperar uma geometria convexa, limpa e pronta para simulação, ajustando primitivos planares a uma reconstrução de nuvem de pontos da cena, por meio de um pipeline simples de agrupamento (clustering) sobre profundidade, normais e fluxo óptico. Para reconstruir a geometria da cena que pode estar ocluída durante as interações, utilizamos modelagem de contato humano-cena (por exemplo, usamos a postura humana para reconstruir o assento ocluído de uma cadeira). Por fim, garantimos que as reconstruções humana e da cena sejam fisicamente plausíveis, utilizando-as para orientar um controlador de humanoide via aprendizado por reforço. Nossa abordagem reduz as taxas de falha no rastreamento de movimento de 55,2% para 6,9% em benchmarks de vídeo centrados no humano (EMDB, PROX), ao mesmo tempo que oferece um throughput de simulação de RL 43% mais rápido. Validamos ainda mais o método em vídeos do mundo real, incluindo vídeos capturados casualmente, vídeos da Internet e até mesmo vídeos gerados pelo Sora. Isso demonstra a capacidade do CRISP de gerar movimento humano e ambientes de interação fisicamente válidos em escala, avançando significativamente as aplicações de real-para-sim para robótica e AR/VR.
A inferência de modelos Large Mixture-of-Experts (MoE) é desafiadora devido às elevadas exigências de recursos e cargas de trabalho dinâmicas. As soluções existentes frequentemente implementam o modelo inteiro como uma única unidade monolítica, aplicando uma configuração de recursos unificada tanto para os módulos de atenção quanto para os módulos especialistas, apesar das suas diferentes exigências, o que resulta em escalabilidade limitada e ineficiência de recursos. Neste artigo, propomos Janus, um sistema de inferência MoE escalável que dissocia a atenção e os especialistas em sub-clusters de GPU separados, permitindo que cada módulo seja gerido e dimensionado de forma independente. O Janus incorpora três conceitos-chave para uma inferência MoE eficiente e dissociada. Primeiro, propõe um esquema de comunicação adaptativo de duas fases que explora as hierarquias de largura de banda intra-nó e inter-nós para uma troca de dados de baixa latência. Segundo, motivado pela natureza limitada pela memória dos módulos MoE, o Janus introduz um agendador leve e implementa-o como um kernel de GPU para equilibrar o número de especialistas ativados entre as GPUs com sobrecarga mínima, reduzindo assim a latência de inferência. Terceiro, o Janus realiza uma gestão de recursos de granularidade fina para ajustar dinamicamente o posicionamento dos especialistas e dimensionar independentemente os recursos de atenção e MoE para melhorar a eficiência geral. A avaliação mostra que o Janus alcança um throughput por GPU até 3,9 vezes superior ao dos sistemas state-of-the-art, cumprindo simultaneamente os requisitos de latência por token.
A restauração de imagens médicas (MedIR) visa recuperar imagens médicas de alta qualidade a partir das suas contrapartes de baixa qualidade. Avanços recentes em MedIR têm-se concentrado em modelos All-in-One (Tudo-em-Um) capazes de abordar simultaneamente múltiplas tarefas de MedIR diferentes. No entanto, devido a diferenças significativas tanto na modalidade quanto nos tipos de degradação, a utilização de um modelo partilhado para estas diversas tarefas requer uma consideração cuidadosa de duas relações intertarefas críticas: a interferência entre tarefas, que ocorre quando surgem direções de atualização de gradiente conflituosas entre tarefas no mesmo parâmetro, e o desequilíbrio entre tarefas, que se refere a uma otimização desigual causada pelas diferentes dificuldades de aprendizagem inerentes a cada tarefa. Para enfrentar estes desafios, propomos um Transformer adaptativo a tarefas (TAT), uma nova estrutura que se adapta dinamicamente a diferentes tarefas através de duas inovações-chave. Primeiro, é introduzida uma estratégia de geração de pesos adaptativa à tarefa para mitigar a interferência entre tarefas, gerando parâmetros de peso específicos para cada tarefa, eliminando assim potenciais conflitos de gradiente nos parâmetros de peso partilhados. Segundo, é introduzida uma estratégia de equilíbrio de perdas adaptativa à tarefa para ajustar dinamicamente os pesos da função de perda com base nas dificuldades de aprendizagem específicas de cada tarefa, impedindo a dominação de uma tarefa ou o seu subtreino. Experiências extensivas demonstram que o nosso TAT proposto atinge um desempenho state-of-the-art em três tarefas de MedIR – síntese de PET, redução de ruído em TC e super-resolução em RM – tanto em configurações específicas por tarefa como em configurações All-in-One. O código está disponível em https://github.com/Yaziwel/TAT.
O aprendizado por reforço com recompensas verificáveis (RLVR) tem se mostrado eficaz no treinamento de grandes modelos de raciocínio (LRMs) ao aproveitar sinais verificáveis de respostas para orientar a otimização de políticas. No entanto, essa abordagem sofre com altos custos de anotação. Para mitigar esse problema, trabalhos recentes exploraram métodos não supervisionados de RLVR que derivam recompensas apenas da consistência interna do modelo, como por meio de entropia e votação majoritária. Embora aparentemente promissores, esses métodos frequentemente sofrem com colapso do modelo nas fases posteriores do treinamento, possivelmente devido ao reforço de padrões de raciocínio incorretos na ausência de supervisão externa. Neste trabalho, investigamos um novo paradigma de RLVR semissupervisionado que utiliza um pequeno conjunto rotulado para guiar o treinamento de RLVR em amostras não rotuladas. Nossa principal percepção é que recompensas supervisionadas são essenciais para estabilizar o treinamento baseado em consistência em amostras não rotuladas, garantindo que apenas padrões de raciocínio verificados em instâncias rotuladas sejam incorporados ao treinamento de RL. Tecnicamente, propomos um algoritmo eficaz de otimização de políticas, o TraPO, que identifica amostras não rotuladas confiáveis pela similaridade da trajetória de aprendizagem com amostras rotuladas. Com base nisso, o TraPO alcança notável eficiência de dados e forte generalização em seis benchmarks amplamente utilizados de raciocínio matemático (AIME24/25, AMC, MATH-500, Minerva e Olimpíada) e três tarefas fora da distribuição (ARC-c, GPQA-diamond e MMLU-pro). Com apenas 1K amostras rotuladas e 3K não rotuladas, o TraPO atinge 42,6% de precisão média, superando o melhor método não supervisionado treinado com 45K amostras não rotuladas (38,3%). Notavelmente, ao usar 4K amostras rotuladas e 12K não rotuladas, o TraPO supera até mesmo o modelo totalmente supervisionado treinado com todas as 45K amostras rotuladas em todos os benchmarks, utilizando apenas 10% dos dados rotulados. O código está disponível em https://github.com/ShenzhiYang2000/TRAPO.
Os modelos de mundo têm demonstrado grande utilidade na melhoria do desempenho de tarefas de agentes corporificados. Embora trabalhos anteriores se concentrem principalmente em modelos de mundo no espaço de pixels, essas abordagens enfrentam limitações práticas em ambientes de interface gráfica do utilizador (GUI), onde a previsão de elementos visuais complexos em estados futuros é frequentemente difícil. Neste trabalho, exploramos uma formulação alternativa de modelagem de mundo para agentes de GUI, em que as transições de estado são descritas em linguagem natural em vez de prever pixels brutos. Primeiro, introduzimos o MobileWorldBench, um *benchmark* que avalia a capacidade dos modelos de visão e linguagem (VLMs) para funcionarem como modelos de mundo para agentes móveis de GUI. Segundo, disponibilizamos o MobileWorld, um conjunto de dados em larga escala composto por 1,4 milhão de amostras, que melhora significativamente as capacidades de modelagem de mundo dos VLMs. Finalmente, propomos uma nova estrutura que integra modelos de mundo baseados em VLMs no *framework* de planeamento de agentes móveis, demonstrando que os modelos de mundo semânticos podem beneficiar diretamente os agentes móveis ao melhorar as taxas de sucesso de tarefas. O código e o conjunto de dados estão disponíveis em https://github.com/jacklishufan/MobileWorld.
Os mecanismos de alinhamento de segurança em modelos de linguagem de grande porte previnem respostas a consultas prejudiciais por meio de um comportamento de recusa aprendido; no entanto, esses mesmos mecanismos impedem aplicações legítimas de pesquisa, incluindo modelagem cognitiva, testes adversariais e análise de segurança. Embora as técnicas de abliteração permitam a remoção cirúrgica das representações de recusa por meio de ortogonalização direcional, a eficácia relativa das implementações disponíveis permanece não caracterizada. Este estudo avalia quatro ferramentas de abliteração (Heretic, DECCP, ErisForge, FailSpy) em dezesseis modelos ajustados por instrução (7B-14B parâmetros), relatando a compatibilidade das ferramentas em todos os 16 modelos e métricas quantitativas em subconjuntos ditados pelo suporte da ferramenta. Os métodos de passagem única demonstraram preservação de capacidade superior no subconjunto benchmark (variação média no GSM8K em três modelos: ErisForge -0,28 pp; DECCP -0,13 pp), enquanto a abliteração otimizada por Bayes produziu deslocamento de distribuição variável (divergência KL: 0,043-1,646) com impacto de capacidade dependente do modelo. Essas descobertas fornecem aos pesquisadores critérios de seleção baseados em evidências para a implantação de ferramentas de abliteração em diversas arquiteturas de modelos. A principal descoberta indica que as capacidades de raciocínio matemático exibem a maior sensibilidade às intervenções de abliteração, com variação no GSM8K variando de +1,51 pp a -18,81 pp (-26,5% relativo) dependendo da seleção da ferramenta e da arquitetura do modelo.
A extração de edifícios a partir de imagens de sensoriamento remoto é uma tarefa desafiadora devido às complexas variações estruturais das construções. Os métodos existentes empregam blocos de convolução ou autoatenção para capturar características multiescala em modelos de segmentação, enquanto a lacuna inerente das pirâmides de características e a integração insuficiente de características globais-locais resultam em extrações imprecisas e ambíguas. Para resolver este problema, apresentamos neste artigo uma Rede de Fusão Global-Local com Agregação de Incerteza (UAGLNet), capaz de explorar semânticas visuais globais-locais de alta qualidade sob a orientação da modelagem de incerteza. Especificamente, propomos um codificador cooperativo inovador, que adota camadas híbridas de CNN e transformer em diferentes estágios para capturar, respectivamente, as semânticas visuais locais e globais. Um bloco de interação cooperativa intermediária (CIB) é projetado para reduzir a lacuna entre as características locais e globais à medida que a rede se aprofunda. Posteriormente, propomos um módulo de Fusão Global-Local (GLF) para fundir de forma complementar as representações globais e locais. Além disso, para mitigar a ambiguidade de segmentação em regiões incertas, propomos um Decodificador com Agregação de Incerteza (UAD) para estimar explicitamente a incerteza pixel a pixel para melhorar a precisão da segmentação. Experimentos extensivos demonstram que nosso método alcança desempenho superior aos demais métodos state-of-the-art. Nosso código está disponível em https://github.com/Dstate/UAGLNet.
Este artigo apresenta o JMMMU-Pro, um benchmark japonês de compreensão multimodal baseado em imagem para múltiplas disciplinas, e o Vibe Benchmark Construction, um método de construção escalável. Seguindo a evolução do MMMU para o MMMU-Pro, o JMMMU-Pro estende o JMMMU ao compor a imagem da pergunta e o texto da pergunta em uma única imagem, criando assim um benchmark que exige compreensão visual-textual integrada por meio de percepção visual. Para construir o JMMMU-Pro, propomos o Vibe Benchmark Construction, uma metodologia na qual um modelo generativo de imagem (por exemplo, Nano Banana Pro) produz questões visuais candidatas, e humanos verificam as saídas e, quando necessário, as regeneram com instruções ajustadas para garantir a qualidade. Ao aproveitar as capacidades de geração de imagens altamente realistas do Nano Banana Pro e sua capacidade de incorporar texto japonês limpo, construímos um benchmark de alta qualidade a um baixo custo, abrangendo uma ampla gama de planos de fundo e designs de layout. Os resultados experimentais mostram que todos os LMMs de código aberto têm dificuldades significativas com o JMMMU-Pro, destacando-o como um benchmark importante para orientar os esforços futuros na comunidade de código aberto. Acreditamos que o JMMMU-Pro fornece uma ferramenta de avaliação mais rigorosa para avaliar as capacidades em japonês dos LMMs e que nosso Vibe Benchmark Construction também oferece uma diretriz eficiente para o desenvolvimento futuro de benchmarks de VQA baseados em imagem.
O sucesso do aprendizado de máquina moderno depende do acesso a dados de treinamento de alta qualidade. Em muitos cenários do mundo real, como a aquisição de dados de repositórios públicos ou o compartilhamento entre instituições, os dados são naturalmente organizados em conjuntos discretos que variam em relevância, qualidade e utilidade. Selecionar quais repositórios ou instituições pesquisar para encontrar conjuntos de dados úteis e quais conjuntos de dados incorporar ao treinamento do modelo são, portanto, decisões críticas. No entanto, a maioria dos métodos existentes seleciona amostras individuais e trata todos os dados como igualmente relevantes, ignorando as diferenças entre conjuntos de dados e suas fontes. Neste trabalho, formalizamos a tarefa de seleção de conjuntos de dados: selecionar conjuntos de dados inteiros de um grande pool heterogêneo para melhorar o desempenho subsequente sob restrições de recursos. Propomos a Seleção de Conjuntos de dados via Hierarquias (DaSH), um método de seleção que modela a utilidade tanto no nível do conjunto de dados quanto no nível do grupo (por exemplo, coleções, instituições), permitindo uma generalização eficiente a partir de observações limitadas. Em dois benchmarks públicos (Digit-Five e DomainNet), o DaSH supera os métodos de seleção de dados state-of-the-art em até 26,2% em precisão, exigindo significativamente menos etapas de exploração. Ablações mostram que o DaSH é robusto em configurações de baixos recursos e na ausência de conjuntos de dados relevantes, tornando-o adequado para seleção de conjuntos de dados escalável e adaptável em fluxos de trabalho práticos de aprendizado de múltiplas fontes.
Os Modelos de Língua Visual (VLMs) de grande escala exibem capacidades impressionantes de raciocínio complexo, mas permanecem largamente inexplorados no planeamento sequencial visual, ou seja, na execução de ações multi-etapa para atingir um objetivo. Adicionalmente, o planeamento sequencial prático envolve frequentemente etapas não ótimas (erróneas), desafiando os VLMs a detetar e corrigir tais passos. Propomos o *Corrective Sequential Planning Benchmark* (CoSPlan) para avaliar VLMs em tarefas de planeamento sequencial baseadas em visão e propensas a erros, abrangendo 4 domínios: navegação em labirinto, rearranjo de blocos, reconstrução de imagem e reorganização de objetos. O CoSPlan avalia duas capacidades-chave: **Deteção de Erros** (identificar uma ação não ótima) e **Conclusão de Etapas** (corrigir e completar sequências de ações para atingir o objetivo). Apesar de utilizarem técnicas de raciocínio state-of-the-art, como *Chain-of-Thought* e Grafos de Cena, os VLMs (por exemplo, Intern-VLM e Qwen2) revelam dificuldades no CoSPlan, falhando em aproveitar pistas contextuais para alcançar os objetivos. Para resolver esta limitação, propomos um novo método livre de treino, **Atualizações Incrementais do Grafo de Cena (SGI)**, que introduz etapas de raciocínio intermédias entre o estado inicial e o estado objetivo. O SGI auxilia os VLMs a raciocinar sobre sequências, resultando num ganho médio de desempenho de 5,2%. Para além de melhorar a fiabilidade no planeamento sequencial corretivo, o SGI generaliza-se para tarefas de planeamento tradicionais, como o Plan-Bench e VQA.
Nos últimos anos, o estado da arte em segmentação de instâncias em vídeo não supervisionada tem dependido fortemente de dados de vídeo sintéticos, gerados a partir de conjuntos de dados de imagens centrados em objetos, como o ImageNet. No entanto, a síntese de vídeos através do deslocamento e escalonamento artificial de máscaras de instâncias de imagem não consegue modelar com precisão o movimento realista nos vídeos, como mudanças de perspectiva, movimento de partes de uma ou várias instâncias, ou movimento da câmera. Para resolver esta questão, propomos um modelo de segmentação de instâncias em vídeo não supervisionado treinado exclusivamente com dados de vídeo reais. Partimos de máscaras de segmentação de instâncias não supervisionadas em quadros de vídeo individuais. Contudo, estas segmentações de quadro único exibem ruído temporal e a sua qualidade varia ao longo do vídeo. Por conseguinte, estabelecemos coerência temporal identificando *keymasks* (máscaras-chave) de alta qualidade no vídeo, aproveitando *priors* de movimento profundos. As pseudoanotações esparsas das *keymasks* são então utilizadas para treinar um modelo de segmentação para propagação implícita de máscaras, para o qual propomos uma Abordagem de Distilação Esparsa-Para-Densa auxiliada por uma *Temporal DropLoss*. Após o treinamento do modelo final no conjunto de rótulos densos resultante, a nossa abordagem supera o estado da arte atual em vários *benchmarks*.
Este artigo propõe um conjunto de dados multimodais em larga escala para segmentação de vídeo por expressão de movimento referencial, com foco na segmentação e rastreamento de objetos-alvo em vídeos com base na descrição linguística dos movimentos dos objetos. Os conjuntos de dados existentes para segmentação de vídeo referencial frequentemente concentram-se em objetos salientes e utilizam expressões linguísticas ricas em atributos estáticos, permitindo potencialmente que o objeto-alvo seja identificado num único fotograma. Tais conjuntos de dados subvalorizam o papel do movimento tanto nos vídeos quanto nas linguagens. Para explorar a viabilidade de utilizar expressões de movimento e pistas de raciocínio sobre movimento para a compreensão de vídeo a nível de pixel, introduzimos o MeViS, um conjunto de dados que contém 33.072 expressões de movimento anotadas manualmente, em formato textual e áudio, abrangendo 8.171 objetos em 2.006 vídeos de cenários complexos. Avaliamos 15 métodos existentes em 4 tarefas suportadas pelo MeViS, incluindo 6 métodos de segmentação de objetos em vídeo referencial (RVOS), 3 métodos de segmentação de objetos em vídeo guiada por áudio (AVOS), 2 métodos de rastreamento multi-objeto referencial (RMOT) e 4 métodos de legendagem de vídeo para a nova tarefa de geração de expressão de movimento referencial (RMEG). Os resultados demonstram fraquezas e limitações dos métodos existentes na abordagem da compreensão de vídeo guiada por expressões de movimento. Analisamos ainda os desafios e propomos uma abordagem, LMPM++, para RVOS/AVOS/RMOT que atinge novos resultados state-of-the-art. O nosso conjunto de dados fornece uma plataforma que facilita o desenvolvimento de algoritmos de compreensão de vídeo guiada por expressões de movimento em cenas de vídeo complexas. O conjunto de dados MeViS proposto e o código-fonte do método estão publicamente disponíveis em https://henghuiding.com/MeViS/.
A geração de texto para vídeo (T2V) avançou rapidamente, mas a manutenção de identidades de personagens consistentes entre cenas continua a ser um grande desafio. Os métodos de personalização existentes frequentemente focam na identidade facial, mas falham em preservar pistas contextuais mais amplas, como penteado, vestuário e tipo de corpo, que são críticas para a coerência visual. Propomos o ContextAnyone, um framework de difusão consciente do contexto que alcança a geração de vídeo com consistência de personagem a partir de texto e de uma única imagem de referência. O nosso método reconstrói conjuntamente a imagem de referência e gera novos fotogramas de vídeo, permitindo que o modelo perceba e utilize totalmente a informação de referência. A informação de referência é integrada de forma eficaz num backbone de difusão baseado em DiT através de um novo módulo Emphasize-Attention que reforça seletivamente as características conscientes da referência e previne a deriva de identidade entre os fotogramas. Uma perda de dupla-orientação combina objetivos de difusão e de reconstrução de referência para melhorar a fidelidade da aparência, enquanto a incorporação posicional Gap-RoPE proposta separa os tokens de referência e de vídeo para estabilizar a modelação temporal. Experiências demonstram que o ContextAnyone supera os métodos existentes de referência-para-vídeo em consistência de identidade e qualidade visual, gerando vídeos de personagens coerentes e que preservam o contexto através de diversos movimentos e cenas. Página do projeto: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
A rápida integração da inteligência artificial generativa na educação tem impulsionado a transformação digital no ensino eletrônico, mas as perceções dos utilizadores sobre as aplicações educativas de IA permanecem pouco exploradas. Este estudo realiza uma avaliação orientada pelo sentimento de análises de utilizadores das principais aplicações educativas de IA na Google Play Store para avaliar a eficácia, os desafios e as implicações pedagógicas. O nosso processo envolveu a recolha de dados e análises das aplicações, a utilização do RoBERTa para classificação binária de sentimentos, o GPT-4o para extração de pontos-chave e o GPT-5 para sintetizar os principais temas positivos/negativos. As aplicações foram categorizadas em sete tipos (ex.: assistentes de trabalhos de casa, solucionadores de matemática, ferramentas linguísticas), com sobreposições a refletir designs multifuncionais. Os resultados indicam sentimentos predominantemente positivos, com aplicações de trabalhos de casa como a Edu AI (95,9% positivos) e a Answer.AI (92,7%) a liderarem em precisão, velocidade e personalização, enquanto aplicações linguísticas/SGA (ex.: Teacher AI com 21,8% positivos) ficam para trás devido a instabilidade e funcionalidades limitadas. Os aspetos positivos enfatizam a eficiência no *brainstorming*, resolução de problemas e envolvimento; os negativos centram-se em paywalls, imprecisões, anúncios e falhas. As tendências mostram que os assistentes de trabalhos de casa superam ferramentas especializadas, destacando o potencial democratizador da IA face aos riscos de dependência e desigualdade. A discussão propõe futuros ecossistemas com modelos híbridos de IA-humano, RV/RA para aprendizagem imersiva, e um roteiro para programadores (personalização adaptativa) e decisores políticos (regulação da monetização para inclusividade). Isto sublinha o papel da IA generativa no avanço do ensino eletrónico ao permitir aperfeiçoamentos éticos que fomentam ambientes equitativos e inovadores. O conjunto de dados completo está disponível aqui (https://github.com/erfan-nourbakhsh/GenAI-EdSent).