Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços em modelos de linguagem grandes multimodais desbloqueiam oportunidades sem precedentes para a automação de interfaces gráficas do utilizador (GUI). No entanto, um desafio fundamental permanece: como adquirir eficientemente dados de treino de alta qualidade, mantendo a confiabilidade da anotação? Introduzimos um pipeline de treino auto-evolutivo alimentado pelo Sistema de Recompensa de Passo Calibrado, que converte trajetórias geradas pelo modelo em sinais de treino confiáveis através de calibração a nível de trajetória, alcançando uma precisão de anotação >90% com um custo 10 a 100 vezes menor. Aproveitando este pipeline, introduzimos o Step-GUI, uma família de modelos (4B/8B) que atinge um desempenho de GUI de última geração (8B: 80,2% AndroidWorld, 48,5% OSWorld, 62,6% ScreenShot-Pro) mantendo capacidades gerais robustas. À medida que as capacidades dos agentes de GUI melhoram, a implantação prática exige interfaces padronizadas em dispositivos heterogéneos, protegendo simultaneamente a privacidade do utilizador. Para esse fim, propomos o GUI-MCP, o primeiro Model Context Protocol para automação de GUI com uma arquitetura hierárquica que combina operações atómicas de baixo nível e delegação de tarefas de alto nível para modelos especialistas locais, permitindo uma execução de alta privacidade onde os dados sensíveis permanecem no dispositivo. Finalmente, para avaliar se os agentes conseguem lidar com o uso quotidiano autêntico, introduzimos o AndroidDaily, um benchmark baseado em padrões de uso real de dispositivos móveis, com 3146 ações estáticas e 235 tarefas de ponta a ponta em cenários diários de alta frequência (8B: estático 89,91%, ponta a ponta 52,50%). O nosso trabalho avança o desenvolvimento de agentes de GUI práticos e demonstra um forte potencial para implantação realista nas interações digitais quotidianas.
Os modelos visuais generativos recentes frequentemente enfrentam dificuldades de consistência durante a edição de imagens devido à natureza entrelaçada das imagens raster, onde todo o conteúdo visual é fundido em uma única tela. Em contraste, as ferramentas de design profissional empregam representações em camadas, permitindo edições isoladas enquanto preservam a consistência. Motivados por isso, propomos o Qwen-Image-Layered, um modelo de difusão de ponta a ponta que decompõe uma única imagem RGB em múltiplas camadas RGBA semanticamente desacopladas, permitindo uma editabilidade inerente, onde cada camada RGBA pode ser manipulada independentemente sem afetar outro conteúdo. Para suportar a decomposição de comprimento variável, introduzimos três componentes principais: (1) um RGBA-VAE para unificar as representações latentes de imagens RGB e RGBA; (2) uma arquitetura VLD-MMDiT (Variable Layers Decomposition MMDiT) capaz de decompor um número variável de camadas de imagem; e (3) uma estratégia de Treinamento Multiestágio para adaptar um modelo pré-treinado de geração de imagens em um decompositor de imagens multicamadas. Adicionalmente, para enfrentar a escassez de imagens multicamadas de alta qualidade para treinamento, construímos um *pipeline* para extrair e anotar imagens multicamadas a partir de documentos do Photoshop (PSD). Experimentos demonstram que nosso método supera significativamente as abordagens existentes em qualidade de decomposição e estabelece um novo paradigma para edição consistente de imagens. Nosso código e modelos estão disponíveis em https://github.com/QwenLM/Qwen-Image-Layered.
A eficiência, como um desafio prático crítico para sistemas de agentes e raciocínio baseados em LLMs, vê-se cada vez mais limitada pela latência inerente da descodificação autoregressiva (AR). A descodificação especulativa mitiga este custo através de um esquema de rascunho-verificação, contudo, as abordagens existentes dependem de modelos de rascunho AR (também designados por *drafters*), que introduzem duas questões fundamentais: (1) a acumulação passo a passo de incerteza leva a um colapso progressivo da confiança entre o modelo-alvo e o *drafter*, e (2) a descodificação inerentemente sequencial dos *drafters* AR. Em conjunto, estes fatores causam acelerações limitadas. Neste artigo, demonstramos que *drafters* baseados em modelos de linguagem de grande escala de difusão (dLLM) podem superar naturalmente estas questões através da sua modelação probabilística fundamentalmente diferente e da sua estratégia eficiente de descodificação paralela. Com base nesta perceção, introduzimos o DEER, um quadro eficiente de descodificação especulativa que gera rascunhos com difusão e verifica com modelos AR. Para permitir a geração de rascunhos de alta qualidade, o DEER emprega um *pipeline* de treino em duas fases para alinhar os *drafters* baseados em dLLM com o modelo AR alvo, e adota ainda a descodificação em passo único para gerar segmentos de rascunho longos. Experiências mostram que o DEER atinge comprimentos de aceitação de rascunho de até 32 *tokens*, superando largamente os 10 *tokens* alcançados pelo EAGLE-3. Adicionalmente, no HumanEval com o Qwen3-30B-A3B, o DEER atinge uma aceleração de 5.54x, enquanto o EAGLE-3 alcança apenas 2.41x. Código, modelo, demonstração, etc., estarão disponíveis em https://czc726.github.io/DEER/.
Os transformadores universais (UTs) têm sido amplamente utilizados para tarefas complexas de raciocínio, como ARC-AGI e Sudoku, mas as fontes específicas de seus ganhos de desempenho permanecem pouco exploradas. Neste trabalho, analisamos sistematicamente variantes de UTs e demonstramos que as melhorias no ARC-AGI surgem principalmente do viés indutivo recorrente e dos fortes componentes não lineares do Transformer, em vez de projetos arquiteturais elaborados. Motivados por essa descoberta, propomos o Modelo Universal de Raciocínio (URM), que aprimora o UT com convolução curta e retropropagação truncada. Nossa abordagem melhora substancialmente o desempenho do raciocínio, atingindo o estado da arte de 53,8% pass@1 no ARC-AGI 1 e 16,0% pass@1 no ARC-AGI 2. Nosso código está disponível em https://github.com/zitian-gao/URM.
Os modelos multimodais de grande porte atuais possuem fortes capacidades de percepção e raciocínio, porém seus altos requisitos computacionais e de memória dificultam a implantação direta em ambientes de dispositivo. Embora modelos com pequeno número de parâmetros estejam progressivamente adquirindo capacidades gerais robustas, os codificadores padrão Vision Transformer (ViT) permanecem um gargalo crítico, sofrendo com latência excessiva e alto consumo de memória ao processar entradas de alta resolução. Para enfrentar esses desafios, introduzimos o HyperVL, um modelo multimodal de grande porte eficiente, projetado para inferência em dispositivo. O HyperVL adota uma estratégia de divisão de imagens para limitar o uso máximo de memória e incorpora duas técnicas inovadoras: (1) um Compressor de Resolução Visual (VRC) que prevê adaptivamente as resoluções de codificação ideais para eliminar computação redundante, e (2) Aprendizado de Dupla Consistência (DCL), que alinha codificadores ViT multiescala em uma estrutura unificada, permitindo comutação dinâmica entre ramificações visuais sob um mesmo LLM compartilhado. Experimentos extensivos demonstram que o HyperVL alcança desempenho state-of-the-art entre modelos de tamanho comparável em múltiplos benchmarks. Além disso, reduz significativamente a latência e o consumo de energia em dispositivos móveis reais, comprovando sua praticidade para inferência multimodal em dispositivo.
A geração multi-token emergiu como um paradigma promissor para acelerar a inferência de grandes modelos baseados em transformers. Esforços recentes exploram principalmente Modelos de Linguagem Grandes por difusão (dLLMs) para descodificação paralela, a fim de reduzir a latência de inferência. Para alcançar qualidade de geração equivalente a Modelos Autoregressivos (AR), muitas técnicas adaptam modelos AR em dLLMs para permitir a descodificação paralela. No entanto, estes sofrem de uma aceleração limitada em comparação com modelos AR devido a um desalinhamento entre pré-treinamento e pós-treinamento. Especificamente, a distribuição de dados mascarados no pós-treinamento desvia-se significativamente da distribuição de dados do mundo real observada durante o pré-treinamento, e os dLLMs dependem de atenção bidirecional, o que conflita com o conhecimento causal aprendido durante o pré-treinamento e dificulta a integração da reutilização exata da cache KV. Para resolver isto, introduzimos o Jacobi Forcing, um paradigma de destilação progressiva onde os modelos são treinados nas suas próprias trajetórias de descodificação paralela geradas, transformando suavemente modelos AR em descodificadores paralelos eficientes, preservando a sua propriedade de inferência causal pré-treinada. Os modelos treinados sob este paradigma, o Modelo de Jacobi Forcing, alcançam uma aceleração de tempo real de 3.8x em benchmarks de codificação e matemática com perda mínima de desempenho. Com base nas características da trajetória dos Modelos de Jacobi Forcing, introduzimos a descodificação multi-bloco com rejeição e reciclagem, que permite até 4.5x mais tokens aceites por iteração e uma aceleração de tempo real de quase 4.0x, trocando eficazmente computação adicional por menor latência de inferência. O nosso código está disponível em https://github.com/hao-ai-lab/JacobiForcing.
Abordagens recentes de aprendizado por reforço (RL), como o GRPO supervisionado por resultados, avançaram o raciocínio de cadeia de pensamento em Modelos de Linguagem Visual (VLMs), mas problemas-chave persistem: (i) dependência de anotações manualmente curadas, custosas e ruidosas, ou de verificadores externos; (ii) esquemas de recompensa planos e esparsos no GRPO; e (iii) inconsistência lógica entre o raciocínio de uma cadeia e sua resposta final. Apresentamos o Puzzle Curriculum GRPO (PC-GRPO), uma receita livre de supervisão para RL com Recompensas Verificáveis (RLVR) que fortalece o raciocínio visual em VLMs sem anotações ou verificadores externos. O PC-GRPO substitui os rótulos por três ambientes de quebra-cabeça auto-supervisionados: PatchFit, Rotação (com recompensas binárias) e Quebra-Cabeça (com crédito parcial graduado que mitiga a esparsidade da recompensa). Para combater recompensas planas e vantagens grupais-relativas que desaparecem, introduzimos um currículo consciente da dificuldade que pondera dinamicamente as amostras e atinge o pico em dificuldade média. Monitoramos ainda a Consistência Raciocínio-Resposta (RAC) durante o pós-treinamento: espelhando relatórios do GRPO padrão em LLMs, a RAC tipicamente sobe no início e depois se degrada; nosso currículo atrasa esse declínio, e esquemas de recompensa que impõem consistência aumentam ainda mais a RAC. A RAC correlaciona-se com a precisão em tarefas downstream. Em diversos benchmarks e com arquiteturas base Qwen-7B e Qwen-3B, o PC-GRPO melhora a qualidade do raciocínio, a estabilidade do treinamento e a precisão na tarefa final, oferecendo um caminho prático para o pós-treinamento por RL escalável, verificável e interpretável para VLMs.
A compreensão espacial sobre entrada visual contínua é crucial para que os MLLMs evoluam para assistentes de propósito geral em ambientes físicos. No entanto, ainda não existe um benchmark abrangente que avalie holisticamente o progresso em direção a esse objetivo. Neste trabalho, introduzimos o MMSI-Video-Bench, um benchmark totalmente anotado por humanos para avaliação da inteligência espacial baseada em vídeo em MLLMs. Ele opera por meio de uma estrutura de quatro níveis - Percepção, Planeamento, Previsão e Raciocínio Transvídeo - através de 1.106 questões fundamentadas em 1.278 clipes de 25 conjuntos de dados e vídeos internos. Cada item é cuidadosamente concebido e revisto por especialistas em visão 3D com racionais explicativos para garantir um enquadramento preciso e inequívoco. Aproveitando as suas diversas fontes de dados e cobertura holística de tarefas, o MMSI-Video-Bench também suporta três sub-benchmarks orientados por domínio (Bench de Percepção de Cenas Interiores, Bench Robótico e Bench de Aterragem) para avaliação direcionada de capacidades. Avaliámos 25 MLLMs de código aberto e proprietários robustos, revelando uma lacuna notável entre humanos e IA: muitos modelos apresentam desempenho próximo ao acaso, e o melhor modelo de raciocínio fica cerca de 60% atrás dos humanos. Descobrimos ainda que modelos com ajuste fino espacial ainda falham em generalizar eficazmente no nosso benchmark. A análise granular de erros expõe falhas sistemáticas no raciocínio geométrico, na aterragem de movimento, na previsão de longo horizonte e na correspondência transvídeo. Também mostramos que as estratégias típicas de amostragem de frames transferem-se mal para o nosso benchmark intensivo em raciocínio, e que nem os indícios espaciais 3D nem a prompting de cadeia de pensamento produzem ganhos significativos. Esperamos que o nosso benchmark estabeleça uma base sólida de teste para o avanço da inteligência espacial baseada em vídeo.
O aprendizado por reforço tornou-se essencial para fortalecer as capacidades de raciocínio de grandes modelos de linguagem, porém os mecanismos atuais de exploração permanecem fundamentalmente desalinhados com a forma como esses modelos realmente aprendem. Bônus de entropia e comparadores semânticos externos incentivam variação superficial, mas não oferecem garantia de que as trajetórias amostradas difiram nas direções de atualização que moldam a otimização. Propomos o G2RL, uma estrutura de aprendizado por reforço guiada por gradiente na qual a exploração é dirigida não por heurísticas externas, mas pela geometria de atualização de primeira ordem do próprio modelo. Para cada resposta, o G2RL constrói uma característica a nível de sequência a partir da sensibilidade da camada final do modelo, obtida a um custo insignificante a partir de uma passagem direta padrão, e mede como cada trajetória remodelaria a política comparando essas características dentro de um grupo amostrado. Trajetórias que introduzem direções de gradiente novas recebem um escalonador de recompensa multiplicativo limitado, enquanto atualizações redundantes ou fora da variedade são desenfatizadas, produzindo um sinal de exploração autorreferencial que está naturalmente alinhado com a estabilidade estilo PPO e o controle KL. Em benchmarks de matemática e raciocínio geral (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) nos modelos base Qwen3 1.7B e 4B, o G2RL melhora consistentemente pass@1, maj@16 e pass@k em relação ao GRPO baseado em entropia e a métodos de incorporação externa. Analisando a geometria induzida, descobrimos que o G2RL expande a exploração para direções de gradiente substancialmente mais ortogonais e frequentemente opostas, mantendo a coerência semântica, revelando que o próprio espaço de atualização de uma política fornece uma base muito mais fiel e eficaz para guiar a exploração no aprendizado por reforço de grandes modelos de linguagem.
Propomos o IC-Effect, uma estrutura baseada em DiT e guiada por instruções para edição de VFX em vídeo com poucos exemplos, que sintetiza efeitos complexos (por exemplo, chamas, partículas e personagens de desenhos animados) preservando estritamente a consistência espacial e temporal. A edição de VFX em vídeo é altamente desafiadora porque os efeitos injetados devem integrar-se perfeitamente ao fundo, o fundo deve permanecer completamente inalterado e os padrões dos efeitos devem ser aprendidos de forma eficiente a partir de dados pareados limitados. No entanto, os modelos existentes de edição de vídeo não conseguem satisfazer esses requisitos. O IC-Effect aproveita o vídeo de origem como condição contextual limpa, explorando a capacidade de aprendizagem contextual dos modelos DiT para alcançar uma preservação precisa do fundo e uma injeção natural de efeitos. Uma estratégia de treinamento em duas etapas, consistindo em adaptação geral de edição seguida por aprendizagem específica de efeitos via Effect-LoRA, garante um forte seguimento de instruções e uma modelagem robusta de efeitos. Para melhorar ainda mais a eficiência, introduzimos a tokenização esparsa espaço-temporal, permitindo alta fidelidade com uma computação substancialmente reduzida. Também disponibilizamos um conjunto de dados pareados para edição de VFX abrangendo 15 estilos visuais de alta qualidade. Experimentos extensivos mostram que o IC-Effect oferece uma edição de VFX de alta qualidade, controlável e temporalmente consistente, abrindo novas possibilidades para a criação de vídeos.
O uso indevido de tecnologias de geração de vídeo baseadas em IA tem levantado sérias preocupações sociais, destacando a necessidade urgente de detectores confiáveis de vídeos gerados por IA. No entanto, a maioria dos métodos existentes limita-se à classificação binária e carece das explicações necessárias para a interpretação humana. Neste artigo, apresentamos Skyra, um modelo de linguagem grande multimodal (MLLM) especializado que identifica artefatos visuais perceptíveis ao ser humano em vídeos gerados por IA e os utiliza como evidência fundamentada para detecção e explicação. Para apoiar este objetivo, construímos o ViF-CoT-4K para Fine-Tuning Supervisionado (SFT), que representa o primeiro conjunto de dados em larga escala de artefatos de vídeos gerados por IA com anotações humanas refinadas. Desenvolvemos, então, uma estratégia de treinamento em duas etapas que aprimora sistematicamente a percepção espaço-temporal de artefatos, a capacidade de explicação e a precisão de detecção do nosso modelo. Para avaliar abrangentemente o Skyra, introduzimos o ViF-Bench, um benchmark composto por 3 mil amostras de alta qualidade geradas por mais de dez geradores de vídeo state-of-the-art. Experimentos extensivos demonstram que o Skyra supera os métodos existentes em múltiplos benchmarks, enquanto nossa avaliação fornece insights valiosos para o avanço da detecção explicável de vídeos gerados por IA.
Os modelos generativos podem sintetizar conteúdo altamente realista, os chamados deepfakes, que já estão a ser utilizados em larga escala para minar a autenticidade dos media digitais. Os métodos atuais de deteção de deepfakes não são fiáveis por duas razões: (i) distinguir conteúdo não autêntico a posteriori é frequentemente impossível (por exemplo, com amostras memorizadas), levando a uma taxa de falsos positivos (TFP) ilimitada; e (ii) a deteção carece de robustez, pois os adversários podem adaptar-se a detetores conhecidos com uma precisão quase perfeita usando recursos computacionais mínimos. Para superar estas limitações, propomos uma estrutura de ressíntese para determinar se uma amostra é autêntica ou se a sua autenticidade pode ser plausivelmente negada. Apresentamos duas contribuições principais, focando-nos no cenário de alta precisão e baixa taxa de deteção contra adversários eficientes (ou seja, com recursos computacionais limitados). Primeiro, demonstramos que o nosso método de ressíntese calibrada é a abordagem mais fiável para verificar amostras autênticas, mantendo TFPs baixas e controláveis. Segundo, mostramos que o nosso método alcança robustez adversarial contra adversários eficientes, enquanto os métodos anteriores são facilmente contornados com orçamentos computacionais idênticos. A nossa abordagem suporta múltiplas modalidades e aproveita técnicas de inversão de última geração.
Os seres humanos são naturalmente raciocinadores de horizonte variável, ou seja, conseguimos decidir se devemos iterativamente folhear vídeos longos ou assistir a vídeos curtos na íntegra quando necessário para uma determinada tarefa. Tendo isso em mente, seria de esperar que os modelos de raciocínio em vídeo raciocinassem de forma flexível ao longo de diferentes durações. No entanto, os modelos de estado da arte (SOTA) ainda são treinados para prever respostas em uma única etapa, processando um grande número de quadros, semelhante a assistir a um vídeo longo inteiro, o que requer recursos significativos. Isto levanta a questão: Será possível desenvolver sistemas de raciocínio em vídeo de horizonte variável com alto desempenho? Inspirados pelo comportamento humano, propomos primeiro o SAGE, um sistema de agente que realiza raciocínio multi-etapa em vídeos longos, enquanto lida com problemas mais simples em uma única etapa. Em segundo lugar, introduzimos um *pipeline* simples de geração de dados sintéticos usando o Gemini-2.5-Flash para treinar o orquestrador, o SAGE-MM, que está no cerne do SAGE. Propomos ainda uma receita eficaz de pós-treinamento por RL (Aprendizagem por Reforço), essencial para incutir a capacidade de raciocínio de horizonte variável no SAGE-MM. Em terceiro lugar, criámos o SAGE-Bench, com uma duração média superior a 700 segundos, para avaliar a capacidade de raciocínio em vídeo em casos de uso reais de entretenimento. Por último, validamos empiricamente a eficácia do nosso sistema, dados e receita de RL, observando melhorias notáveis de até 6,1% em tarefas de raciocínio em vídeo de resposta aberta, bem como uma impressionante melhoria de 8,2% em vídeos com mais de 10 minutos.
Os grandes modelos de linguagem (LLMs) estão a ser cada vez mais utilizados para gerar conjuntos de dados sintéticos para a avaliação e treino de modelos subsequentes. No entanto, trabalhos anteriores notaram que estes dados gerados carecem de diversidade. Neste artigo, propomos o Voyager, uma nova abordagem fundamentada para gerar conjuntos de dados diversos. A nossa abordagem é iterativa e otimiza diretamente uma quantidade matemática que maximiza a diversidade do conjunto de dados, utilizando a estrutura dos processos pontuais determinantis. Adicionalmente, a nossa abordagem não requer treino, é aplicável a modelos de código fechado e escalável. Para além de fornecer uma justificação teórica para o funcionamento do nosso método, demonstramos também através de experiências abrangentes que o Voyager supera significativamente as abordagens de base populares, proporcionando um aumento de 1,5 a 3 vezes na diversidade.
Em pesquisas multimodais recentes, o paradigma de difusão emergiu como uma alternativa promissora ao paradigma autoregressivo (AR), devido às suas vantagens únicas de decodificação. No entanto, devido às limitações de capacidade do modelo de linguagem de difusão base, o desempenho do modelo de linguagem visual por difusão (dVLM) ainda permanece significativamente atrás dos modelos predominantes. Isso levanta uma questão simples, porém fundamental: Será possível construir dVLMs com base em modelos AR poderosos existentes? Em resposta, propomos o DiffusionVL, uma família de dVLMs que pode ser traduzida a partir de qualquer modelo AR potente. Por meio de um simples ajuste fino, adaptamos com sucesso modelos pré-treinados AR para o paradigma de difusão. Esta abordagem produz duas observações-chave: (1) A transição de paradigma de modelos multimodais baseados em AR para difusão é notavelmente eficaz. (2) A conversão direta de um modelo de linguagem AR para um dVLM também é viável, alcançando desempenho competitivo com o ajuste visual-instrucional estilo LLaVA. Adicionalmente, introduzimos um design de decodificação por blocos em dVLMs que suporta geração de comprimento arbitrário e reutilização de cache KV, alcançando uma aceleração significativa na inferência. Realizamos um grande número de experimentos. Apesar de treinar com menos de 5% dos dados exigidos por métodos anteriores, o DiffusionVL alcança uma melhoria abrangente de desempenho - um ganho de 34,4% no benchmark MMMU-Pro (visão) e 37,5% no benchmark MME (Cog.) - juntamente com uma aceleração de inferência de 2x. O modelo e o código estão disponíveis em https://github.com/hustvl/DiffusionVL.
Os modelos de difusão de vídeo autoregressivos são promissores para simulação de mundos, mas são vulneráveis ao viés de exposição decorrente do descompasso entre treino e teste. Embora trabalhos recentes abordem isso via pós-treinamento, eles geralmente dependem de um modelo professor bidirecional ou discriminador online. Para alcançar uma solução de ponta a ponta, introduzimos o Forçamento por Reamostragem, uma estrutura livre de professor que permite treinar modelos de vídeo autoregressivos do zero e em escala. Central à nossa abordagem é um esquema de auto-reamostragem que simula erros do modelo no momento da inferência em quadros históricos durante o treinamento. Condicionado nessas histórias degradadas, uma máscara causal esparsa impõe causalidade temporal enquanto permite treinamento paralelo com perda de difusão a nível de quadro. Para facilitar a geração eficiente de longo horizonte, introduzimos ainda o roteamento de histórico, um mecanismo sem parâmetros que recupera dinamicamente os k quadros históricos mais relevantes para cada consulta. Experimentos demonstram que nossa abordagem alcança desempenho comparável às linhas de base baseadas em destilação, enquanto exibe consistência temporal superior em vídeos mais longos devido ao treinamento em comprimento nativo.
A condução autónoma tem dependido historicamente de pipelines modulares do tipo "Perceção-Decisão-Ação", onde interfaces manuais e componentes baseados em regras frequentemente falham em cenários complexos ou de cauda longa. O seu design em cascata propaga ainda mais os erros de perceção, degradando o planeamento e controlo subsequentes. Os modelos Visão-Ação (VA) abordam algumas limitações ao aprender mapeamentos diretos de entradas visuais para ações, mas permanecem opacos, sensíveis a mudanças de distribuição e carecem de capacidades de raciocínio estruturado ou de seguimento de instruções. Os recentes progressos em Modelos de Linguagem de Grande Escala (LLMs) e aprendizagem multimodal motivaram o surgimento de arquiteturas Visão-Linguagem-Ação (VLA), que integram a perceção com a tomada de decisão fundamentada em linguagem. Ao unificar a compreensão visual, o raciocínio linguístico e as saídas acionáveis, as VLAs oferecem um caminho para políticas de condução mais interpretáveis, generalizáveis e alinhadas com o ser humano. Este trabalho fornece uma caracterização estruturada do panorama emergente das VLAs para a condução autónoma. Traçamos a evolução desde as primeiras abordagens VA até às arquiteturas VLA modernas e organizamos os métodos existentes em dois paradigmas principais: VLA de Ponto-a-Ponto, que integra perceção, raciocínio e planeamento num único modelo, e VLA de Sistema Duplo, que separa a deliberação lenta (via VLMs) da execução rápida e crítica para a segurança (via planeadores). Dentro destes paradigmas, distinguimos ainda subclasses, como geradores de ação textuais versus numéricos e mecanismos de orientação explícitos versus implícitos. Também resumimos conjuntos de dados e benchmarks representativos para avaliar sistemas de condução baseados em VLA e destacamos desafios-chave e direções em aberto, incluindo robustez, interpretabilidade e fidelidade às instruções. Globalmente, este trabalho visa estabelecer uma base coerente para o avanço de sistemas de condução autónoma compatíveis com o ser humano.
Trabalhos recentes em reconhecimento de entidades mencionadas (NER) multilingue demonstraram que os grandes modelos de linguagem (LLMs) podem fornecer supervisão sintética eficaz, no entanto, esses conjuntos de dados têm surgido maioritariamente como subprodutos de experiências mais amplas, em vez de recursos sistemáticos e reutilizáveis. Apresentamos o FiNERweb, um *pipeline* de criação de conjuntos de dados que dimensiona o paradigma professor-aluno para 91 idiomas e 25 sistemas de escrita. Com base no FineWeb-Edu, a nossa abordagem treina modelos de regressão para identificar passagens relevantes para NER e anota-as com LLMs multilingues, resultando em cerca de 225 mil passagens com 235 mil etiquetas de entidades distintas. As nossas experiências mostram que o modelo de regressão atinge mais de 84 de F1, e que os modelos treinados no FiNERweb obtêm desempenho comparável ou melhorado em cenários de transferência *zero-shot* para inglês, tailandês e suaíli, apesar de serem treinados com 19 vezes menos dados do que as *baselines* fortes. Além disso, avaliamos a qualidade da anotação usando LLM-como-juiz e observamos pontuações consistentemente altas tanto para fidelidade (3,99 em 5) quanto para completude (4,05 em 5), indicando anotações confiáveis e informativas. Adicionalmente, disponibilizamos o conjunto de dados com etiquetas em inglês e conjuntos de etiquetas traduzidas nos respetivos idiomas-alvo, porque observámos que o desempenho dos modelos state-of-the-art atuais diminui entre 0,02 e 0,09 de F1 quando avaliados usando etiquetas no idioma-alvo em vez de etiquetas em inglês. Disponibilizamos o FiNERweb, juntamente com todos os artefactos associados, para a comunidade de investigação, a fim de facilitar um treino professor-aluno mais eficaz para o reconhecimento de entidades mencionadas multilingue.
No nível mais básico, os pixels são a fonte da informação visual através da qual percebemos o mundo. Os pixels contêm informações em todos os níveis, desde atributos de baixo nível até conceitos de alto nível. Os autoencoders representam um paradigma clássico e consolidado para aprender representações a partir de pixels ou outras entradas brutas. Neste trabalho, demonstramos que o aprendizado auto-supervisionado baseado em autoencoders permanece competitivo atualmente e pode produzir representações robustas para tarefas secundárias (downstream tasks), mantendo-se simples, estável e eficiente. Nosso modelo, codinome "Pixio", é um autoencoder mascarado (MAE) aprimorado com tarefas de pré-treinamento mais desafiadoras e arquiteturas mais capazes. O modelo é treinado em 2 bilhões de imagens obtidas da web através de crawlers, utilizando uma estratégia de autocurrição com curadoria humana mínima. O Pixio apresenta desempenho competitivo em uma ampla gama de tarefas secundárias em ambientes reais, incluindo estimativa de profundidade monocul
A rápida evolução dos modelos de geração de texto para imagem revolucionou a criação de conteúdo visual. Embora produtos comerciais como o Nano Banana Pro tenham atraído atenção significativa, seu potencial como solucionadores generalistas para desafios tradicionais de visão computacional de baixo nível permanece amplamente inexplorado. Neste estudo, investigamos a questão crítica: O Nano Banana Pro é um "faz-tudo" da visão de baixo nível? Realizamos uma avaliação abrangente de "zero-shot" em 14 tarefas distintas de baixo nível, abrangendo 40 conjuntos de dados diversos. Utilizando prompts textuais simples sem ajuste fino, comparamos o Nano Banana Pro com modelos especializados de última geração. Nossa análise extensiva revela uma dicotomia de desempenho distinta: embora o Nano Banana Pro demonstre qualidade visual subjetiva superior, frequentemente alucinando detalhes plausíveis de alta frequência que superam os modelos especializados, ele fica atrás nas métricas quantitativas tradicionais baseadas em referência. Atribuímos essa discrepância à estocasticidade inerente dos modelos generativos, que lutam para manter a consistência rigorosa a nível de pixel exigida pelas métricas convencionais. Este relatório identifica o Nano Banana Pro como um competidor capaz de "zero-shot" para tarefas de visão de baixo nível, ao mesmo tempo que destaca que alcançar a alta fidelidade dos especialistas de domínio permanece um obstáculo significativo.
Os modelos Mixture of Experts (MoE) emergiram como a arquitetura padrão para escalar modelos de linguagem sem aumentar significativamente o custo computacional. Modelos MoE recentes demonstram uma tendência clara para alta granularidade de especialistas (dimensão intermediária do especialista menor) e maior esparsidade (número constante de especialistas ativados com maior número total de especialistas), o que melhora a qualidade do modelo por FLOP. No entanto, MoEs de granularidade fina sofrem com maior consumo de memória de ativação e eficiência de hardware reduzida devido a maiores custos de E/S, enquanto MoEs mais esparsos sofrem com computações desperdiçadas devido ao preenchimento (padding) nos kernels Grouped GEMM. Em resposta, propomos um algoritmo eficiente em memória para calcular as passagens forward e backward de MoEs com cache de ativação mínimo para a passagem backward. Também projetamos kernels de GPU que sobrepõem E/S de memória com computação, beneficiando todas as arquiteturas MoE. Finalmente, propomos um novo método de "arredondamento de tokens" (token rounding) que minimiza o cálculo desperdiçado devido ao preenchimento nos kernels Grouped GEMM. Como resultado, nosso método SonicMoE reduz a memória de ativação em 45% e alcança uma melhoria de throughput de computação de 1.86x em GPUs Hopper em comparação com o kernel MoE BF16 do ScatterMoE para um MoE de granularidade fina de 7B. Concretamente, o SonicMoE em 64 H100s alcança um throughput de treinamento de 213 bilhões de tokens por dia, comparável aos 225 bilhões de tokens por dia do ScatterMoE em 96 H100s para o treinamento de um modelo MoE de 7B com FSDP-2 usando a codebase lm-engine. Sob configurações de alta esparsidade MoE, nosso algoritmo de arredondamento de tokens com consciência de tile (tile-aware) proporciona um speedup adicional de 1.16x no tempo de execução do kernel em comparação com o roteamento top-K padrão, mantendo desempenho downstream similar. Disponibilizamos todos os nossos kernels em código aberto para permitir um treinamento mais rápido de modelos MoE.
Os recentes avanços na geração de vídeo têm sido notáveis, permitindo que modelos produzam vídeos visualmente atraentes com áudio sincronizado. Embora os benchmarks existentes para geração de vídeo ofereçam métricas abrangentes para qualidade visual, eles carecem de avaliações convincentes para geração áudio-vídeo, especialmente para modelos que visam gerar saídas sincronizadas de áudio e vídeo. Para preencher essa lacuna, introduzimos o VABench, uma estrutura de benchmark abrangente e multidimensional projetada para avaliar sistematicamente as capacidades de geração síncrona de áudio-vídeo. O VABench abrange três tipos principais de tarefas: texto-para-áudio-vídeo (T2AV), imagem-para-áudio-vídeo (I2AV) e geração de áudio-vídeo estéreo. Ele ainda estabelece dois módulos principais de avaliação cobrindo 15 dimensões. Essas dimensões avaliam especificamente similaridades pareadas (texto-vídeo, texto-áudio, vídeo-áudio), sincronização áudio-vídeo, consistência lábio-fala e pares cuidadosamente selecionados de perguntas e respostas (QA) de áudio e vídeo, entre outros. Adicionalmente, o VABench abrange sete categorias principais de conteúdo: animais, sons humanos, música, sons ambientais, sons físicos síncronos, cenas complexas e mundos virtuais. Fornecemos uma análise sistemática e visualização dos resultados da avaliação, com o objetivo de estabelecer um novo padrão para avaliar modelos de geração de vídeo com capacidades de áudio síncrono e promover o avanço abrangente da área.
O Sistema de Identificação Automática (AIS) permite a vigilância marítima baseada em dados, mas sofre de problemas de confiabilidade e intervalos irregulares. Abordamos a estimativa de destino de embarcações usando dados AIS de escopo global, propondo uma abordagem diferenciada que reformula trajetórias longas de porto a porto como uma estrutura de sequência aninhada. Utilizando grades espaciais, este método mitiga o viés espaço-temporal, preservando a resolução detalhada. Introduzimos uma nova arquitetura de aprendizagem profunda, WAY, projetada para processar essas trajetórias reformuladas para estimativa de destino de longo prazo, com dias ou semanas de antecedência. A WAY compreende uma camada de representação de trajetória e blocos de Processamento Sequencial Agregativo por Canal (CASP). A camada de representação gera sequências vetoriais multicanal a partir de características cinemáticas e não cinemáticas. Os blocos CASP utilizam atenção multicanal e auto-atenção para agregação e processamento sequencial de informações. Adicionalmente, propomos uma técnica especializada de *Gradient Dropout* (GD) para permitir o treinamento muitos-para-muitos com rótulos únicos, prevenindo picos de *feedback* tendenciosos ao bloquear estocasticamente o fluxo de gradiente com base no comprimento da amostra. Experimentos com dados AIS de 5 anos demonstram a superioridade da WAY sobre abordagens convencionais baseadas em grade espacial, independentemente do progresso da trajetória. Os resultados confirmam ainda que a adoção do GD leva a ganhos de desempenho. Por fim, exploramos o potencial da WAY para aplicação no mundo real por meio de aprendizagem multitarefa para estimativa de Hora Estimada de Chegada (ETA).
Os custos computacionais e de memória associados à expansão da janela de contexto de LLMs limitam severamente sua escalabilidade. Uma solução notável é a compressão texto-visual (VTC), exemplificada por frameworks como DeepSeek-OCR e Glyph, que convertem textos longos em representações visuais 2D densas, alcançando assim taxas de compressão de tokens de 3x a 20x. No entanto, o impacto dessa alta densidade de informação nas capacidades centrais de contexto longo dos modelos de linguagem visual (VLMs) permanece pouco investigado. Para preencher essa lacuna, introduzimos o primeiro benchmark para VTC e avaliamos sistematicamente o desempenho de VLMs em três configurações de compreensão de contexto longo: VTC-Retrieval, que avalia a capacidade do modelo de recuperar e agregar informações; VTC-Reasoning, que requer que os modelos inferem associações latentes para localizar fatos com sobreposição lexical mínima; e VTC-Memory, que mede a resposta abrangente a perguntas dentro da memória de diálogo de longo prazo. Além disso, estabelecemos o VTCBench-Wild para simular cenários de entrada diversos. Avaliamos comprehensiveamente os principais modelos de código aberto e proprietários em nossos benchmarks. Os resultados indicam que, apesar de serem capazes de decodificar informações textuais (por exemplo, OCR) adequadamente, a maioria dos VLMs exibe uma capacidade de compreensão de contexto longo surpreendentemente fraca com informações comprimidas por VTC, falhando em capturar associações ou dependências longas no contexto. Este estudo fornece um entendimento profundo sobre VTC e serve como base para projetar VLMs mais eficientes e escaláveis.
Os agentes de Large Language Model (LLM) estão cada vez mais sendo implantados em ambientes que geram contextos massivos e dinâmicos. No entanto, um gargalo crítico persiste: embora os agentes tenham acesso a esse contexto, seus *prompts* estáticos carecem de mecanismos para gerenciá-lo eficazmente, levando a falhas recorrentes de Correção e Aprimoramento. Para abordar essa lacuna de capacidade, introduzimos o SCOPE (Otimização de Contexto de Autoevolução via Evolução de *Prompt*). O SCOPE enquadra a gestão de contexto como um problema de otimização online, sintetizando diretrizes a partir de traços de execução para evoluir automaticamente o *prompt* do agente. Propomos um mecanismo de Fluxo Duplo que equilibra a especificidade tática (resolver erros imediatos) com a generalidade estratégica (evoluir princípios de longo prazo). Além disso, introduzimos a Exploração Orientada por Perspectiva para maximizar a cobertura de estratégias, aumentando a probabilidade de o agente ter a estratégia correta para qualquer tarefa específica. Experimentos no benchmark HLE mostram que o SCOPE melhora as taxas de sucesso de tarefas de 14,23% para 38,64% sem intervenção humana. Disponibilizamos nosso código publicamente em https://github.com/JarvisPei/SCOPE.
O desempenho de agentes de aprendizagem por reforço (RL) depende criticamente da qualidade das representações de características subjacentes. Os espaços hiperbólicos de características são bem adequados para este propósito, pois capturam naturalmente a estrutura hierárquica e relacional frequentemente presente em ambientes complexos de RL. No entanto, o aproveitamento destes espaços enfrenta comumente desafios de otimização devido à não estacionariedade do RL. Neste trabalho, identificamos os fatores-chave que determinam o sucesso e o fracasso do treino de agentes de RL profundos hiperbólicos. Ao analisar os gradientes das operações centrais nos modelos Bola de Poincaré e Hiperboloide da geometria hiperbólica, mostramos que *embeddings* de norma grande desestabilizam o treino baseado em gradientes, levando a violações da região de confiança na otimização de políticas proximais (PPO). Com base nestas perceções, introduzimos o Hyper++, um novo agente PPO hiperbólico que consiste em três componentes: (i) treino estável do crítico através de uma perda de valor categórica em vez de regressão; (ii) regularização de características que garante normas limitadas, evitando simultaneamente a maldição da dimensionalidade do *clipping*; e (iii) a utilização de uma formulação mais amigável à otimização para as camadas de rede hiperbólicas. Em experiências no ProcGen, mostramos que o Hyper++ garante uma aprendizagem estável, supera os agentes hiperbólicos anteriores e reduz o tempo de relógio em aproximadamente 30%. No Atari-5 com Double DQN, o Hyper++ supera significativamente as linhas de base euclidianas e hiperbólicas. Disponibilizamos o nosso código em https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
Apresentamos o FrontierCS, um benchmark composto por 156 problemas de resposta aberta em diversas áreas da ciência da computação, concebido e revisto por especialistas, incluindo doutorados em Ciência da Computação (CS) e participantes e criadores de problemas de alto nível em programação competitiva. Ao contrário dos benchmarks existentes, que se concentram em tarefas com soluções ótimas conhecidas, o FrontierCS visa problemas onde a solução ótima é desconhecida, mas a qualidade de uma solução pode ser avaliada objetivamente. Os modelos resolvem essas tarefas implementando programas executáveis, em vez de produzir uma resposta direta. O FrontierCS inclui problemas algorítmicos, que são frequentemente variantes NP-difíceis de problemas de programação competitiva com pontuação parcial objetiva, e problemas de pesquisa com a mesma propriedade. Para cada problema, fornecemos uma solução de referência elaborada por especialistas e um avaliador automático. Combinando design de resposta aberta, progresso mensurável e curadoria especializada, o FrontierCS oferece um benchmark na fronteira da dificuldade em ciência da computação. Empiricamente, constatamos que os modelos de raciocínio de fronteira ainda estão muito aquém dos especialistas humanos tanto nas trilhas algorítmicas quanto nas de pesquisa, que o aumento apenas do orçamento de raciocínio não fecha essa lacuna, e que os modelos frequentemente superotimizam a geração de código meramente funcional em vez de descobrir algoritmos e designs de sistema de alta qualidade.
Um LLM personalizado deve lembrar factos do utilizador, aplicá-los corretamente e adaptar-se ao longo do tempo para fornecer respostas que o utilizador prefira. Os benchmarks de personalização de LLM existentes centram-se largamente em dois eixos: recordar com precisão a informação do utilizador e aplicar com precisão a informação memorizada em tarefas subsequentes. Argumentamos que um terceiro eixo, a simpatia (likability), é simultaneamente subjetivo e central para a experiência do utilizador, mas submedido pelos benchmarks atuais. Para medir a simpatia de forma holística, introduzimos o LikeBench, uma estrutura de avaliação dinâmica e multi-sessão que mede a simpatia através de múltiplas dimensões, avaliando o quanto um LLM consegue adaptar-se ao longo do tempo às preferências do utilizador para fornecer respostas mais simpáticas. No LikeBench, os LLMs envolvem-se em conversação com um utilizador simulado e aprendem preferências apenas a partir do diálogo em curso. À medida que a interação decorre, os modelos tentam adaptar-se às respostas, e após cada turno, são avaliados quanto à simpatia em sete dimensões pelo mesmo utilizador simulado. Tanto quanto sabemos, somos os primeiros a decompor a simpatia em múltiplas métricas de diagnóstico: adaptação emocional, correspondência de formalidade, adaptação de conhecimento, compreensão de referências, adequação do comprimento da conversa, adequação do humor e retorno (callback), o que facilita a identificação de onde um modelo falha. Para tornar o utilizador simulado mais realista e discriminativo, o LikeBench utiliza personas descritivas, psicologicamente fundamentadas e de granularidade fina, em vez das personas baseadas em classificações de traços grosseiras (alto/baixo) usadas em trabalhos anteriores. O nosso benchmark mostra que um forte desempenho de memória não garante uma alta simpatia: o DeepSeek R1, com menor precisão de memória (86%, 17 factos por perfil), superou o Qwen3 em 28% na pontuação de simpatia, apesar da maior precisão de memória do Qwen3 (93%, 43 factos por perfil). Até mesmo modelos de última geração (SOTA) como o GPT-5 adaptam-se bem em interações curtas, mas mostram apenas uma robustez limitada em interações mais longas e ruidosas.
A conversa humana envolve trocas contínuas de fala e sinais não verbais, como acenos de cabeça, desvios do olhar e expressões faciais que transmitem atenção e emoção. Modelar essas dinâmicas bidirecionais em 3D é essencial para criar avatares expressivos e robôs interativos. No entanto, as estruturas existentes frequentemente tratam a fala e a escuta como processos independentes ou dependem de modelagem não causal de sequências completas, prejudicando a coerência temporal entre os turnos. Apresentamos o TIMAR (AutoRegressão Mascarada Entrelaçada em Nível de Turno), uma estrutura causal para geração de cabeças conversacionais em 3D que modela o diálogo como contextos audiovisuais entrelaçados. Ele funde informações multimodais dentro de cada turno e aplica atenção causal em nível de turno para acumular o histórico conversacional, enquanto uma cabeça de difusão leve prevê dinâmicas contínuas da cabeça em 3D que capturam tanto a coordenação quanto a variabilidade expressiva. Experimentos no benchmark DualTalk mostram que o TIMAR reduz a Distância de Fréchet e o MSE em 15-30% no conjunto de teste e obtém ganhos similares em dados fora da distribuição. O código-fonte será liberado no repositório GitHub https://github.com/CoderChen01/towards-seamleass-interaction.
Os modelos de linguagem pequenos (SLMs) são amplamente utilizados em tarefas que exigem baixa latência e implantação leve, particularmente em classificação. À medida que a interpretabilidade e a robustez ganham importância crescente, a aprendizagem guiada por explicações emergiu como uma estrutura eficaz, introduzindo supervisão baseada em atribuição durante o treinamento; no entanto, derivar prévios de atribuição gerais e confiáveis permanece um desafio significativo. Através da análise de métodos de atribuição representativos em contextos de classificação, descobrimos que, embora esses métodos possam destacar de forma confiável tokens relevantes para a classe, eles frequentemente se concentram em palavras-chave comuns compartilhadas por classes semanticamente similares. Como essas classes já são difíceis de distinguir sob treinamento padrão, essas atribuições fornecem pistas discriminativas insuficientes, limitando sua capacidade de melhorar a diferenciação do modelo. Para superar essa limitação, propomos o Prévio de Atribuição Consciente da Classe (CAP), uma nova estrutura de extração de prévio de atribuição que orienta os modelos de linguagem a capturar distinções refinadas entre classes e a produzir prévios de atribuição mais salientes e discriminativos. Com base nessa ideia, introduzimos ainda o CAP Híbrido, que combina prévios do CAP com os de técnicas de atribuição existentes para formar um sinal de supervisão mais abrangente e equilibrado. Ao alinhar a autoatribuição de um modelo com esses prévios enriquecidos, nossa abordagem incentiva a aprendizagem de características diversas e relevantes para a decisão. Experimentos extensos em cenários de dados completos, *few-shot* e adversariais demonstram que nosso método melhora consistentemente tanto a interpretabilidade quanto a robustez.
A manipulação robótica requer tanto uma percepção multimodal rica quanto estruturas de aprendizado eficazes para lidar com tarefas complexas do mundo real. Os sensores de "pele transparente" (STS, do inglês *See-Through-Skin*), que combinam percepção tátil e visual, oferecem capacidades de deteção promissoras, enquanto a aprendizagem por imitação moderna fornece ferramentas poderosas para a aquisição de políticas. No entanto, os projetos STS existentes carecem de percepção multimodal simultânea e sofrem com rastreamento tátil não confiável. Além disso, integrar esses sinais multimodais ricos em pipelines de manipulação baseados em aprendizado permanece um desafio em aberto. Apresentamos o TacThru, um sensor STS que permite a percepção visual simultânea e a extração robusta de sinais táteis, e o TacThru-UMI, uma estrutura de aprendizagem por imitação que aproveita esses sinais multimodais para manipulação. Nosso sensor apresenta um elastômero totalmente transparente, iluminação persistente, marcadores de linha-chave inovadores e rastreamento eficiente, enquanto nosso sistema de aprendizado integra esses sinais por meio de uma Política de Difusão baseada em Transformer. Experimentos em cinco tarefas desafiadoras do mundo real mostram que o TacThru-UMI atinge uma taxa média de sucesso de 85,5%, superando significativamente as linhas de base de tátil-visual alternada (66,3%) e apenas visão (55,4%). O sistema se destaca em cenários críticos, incluindo deteção de contato com objetos finos e macios e manipulação de precisão que requer coordenação multimodal. Este trabalho demonstra que combinar a percepção multimodal simultânea com estruturas de aprendizado modernas permite uma manipulação robótica mais precisa e adaptável.