Artigos de pesquisa em IA selecionados diariamente com traduções
Os seres humanos aprendem conceitos abstratos através de sinergia multissensorial e, uma vez formadas, tais representações podem frequentemente ser recuperadas a partir de uma única modalidade. Inspirados por este princípio, introduzimos o Concerto, uma simulação minimalista da aprendizagem de conceitos humanos para cognição espacial, combinando auto-distilação intramodal 3D com incorporação conjunta cross-modal 2D-3D. Apesar da sua simplicidade, o Concerto aprende características espaciais mais coerentes e informativas, conforme demonstrado por visualizações *zero-shot*. Ele supera tanto os modelos autónomos *state-of-the-art* (SOTA) de auto-supervisão 2D como 3D em 14,2% e 4,8%, respetivamente, bem como a sua concatenação de características, na sondagem linear para perceção de cenas 3D. Com *fine-tuning* completo, o Concerto estabelece novos resultados SOTA em múltiplos *benchmarks* de compreensão de cenas (por exemplo, 80,7% mIoU no ScanNet). Apresentamos ainda uma variante do Concerto adaptada para compreensão espacial de nuvens de pontos extraídas de vídeo, e um tradutor que projeta linearmente as representações do Concerto no espaço linguístico do CLIP, permitindo perceção de mundo aberto. Estes resultados destacam que o Concerto produz representações espaciais com consistência geométrica e semântica *fine-grained* superior.
As tarefas do mundo real exigem decisões em diferentes níveis de granularidade, e os seres humanos se destacam nisso por meio de uma representação cognitiva unificada, na qual o planejamento é fundamentalmente compreendido como uma forma de ação de alto nível. No entanto, os agentes atuais baseados em Modelos de Linguagem de Grande Escala (LLMs) carecem dessa capacidade crucial para operar de forma fluida entre diferentes granularidades de decisão. Essa limitação decorre de paradigmas existentes que impõem uma separação rígida entre planejamento de alto nível e ação de baixo nível, o que prejudica a adaptabilidade dinâmica e limita a generalização. Propomos o ReCode (Recursive Code Generation), um novo paradigma que aborda essa limitação ao unificar o planejamento e a ação em uma única representação de código. Nesta representação, o ReCode trata planos de alto nível como funções abstratas de espaço reservado, que o agente então decompõe recursivamente em subfunções mais refinadas até atingir ações primitivas. Essa abordagem recursiva dissolve o limite rígido entre plano e ação, permitindo que o agente controle dinamicamente sua granularidade de decisão. Além disso, a estrutura recursiva gera inerentemente dados de treinamento ricos e multi-granularidade, permitindo que os modelos aprendam processos hierárquicos de tomada de decisão. Experimentos extensivos mostram que o ReCode supera significativamente as linhas de base avançadas em desempenho de inferência e demonstra uma eficiência excepcional de dados no treinamento, validando nossa percepção central de que unificar planejamento e ação por meio da geração recursiva de código é uma abordagem poderosa e eficaz para alcançar o controle universal de granularidade. O código está disponível em https://github.com/FoundationAgents/ReCode.
O rápido avanço dos grandes modelos de linguagem (LLMs) impulsionou o surgimento de agentes de dados – sistemas autónomos concebidos para orquestrar ecossistemas de Dados + IA para lidar com tarefas complexas relacionadas com dados. No entanto, o termo "agente de dados" sofre atualmente de ambiguidade terminológica e adoção inconsistente, confundindo respondentes de consultas simples com arquiteturas autónomas sofisticadas. Esta ambiguidade terminológica fomenta expetativas desencontradas por parte dos utilizadores, desafios de responsabilização e barreiras ao crescimento da indústria. Inspirado pela norma SAE J3016 para automação de condução, este estudo introduz a primeira taxonomia hierárquica sistemática para agentes de dados, compreendendo seis níveis que delimitam e traçam mudanças progressivas na autonomia, desde operações manuais (L0) até uma visão de agentes de dados generativos e totalmente autónomos (L5), esclarecendo assim os limites de capacidade e a alocação de responsabilidades. Através desta lente, oferecemos uma revisão estruturada da investigação existente, organizada por autonomia crescente, abrangendo agentes de dados especializados para gestão, preparação e análise de dados, juntamente com esforços emergentes no sentido de sistemas versáteis e abrangentes com autonomia reforçada. Analisamos ainda saltos evolutivos críticos e lacunas técnicas para o avanço dos agentes de dados, especialmente a transição em curso do L2 para o L3, onde os agentes de dados evoluem da execução procedural para a orquestração autónoma. Por fim, concluímos com um roteiro prospetivo, antevendo o advento de agentes de dados proativos e generativos.
A modelagem direta da verossimilhança explícita da distribuição de dados brutos é um tópico fundamental na área de aprendizagem de máquina, que alcançou os sucessos de escalabilidade em Modelos de Linguagem de Grande Porte por meio da modelagem autoregressiva. No entanto, a modelagem AR contínua sobre dados de pixels visuais sofre com sequências extremamente longas e espaços de alta dimensionalidade. Neste artigo, apresentamos o FARMER, uma nova estrutura generativa de ponta a ponta que unifica Fluxos de Normalização (NF) e modelos Autoregressivos (AR) para estimação de verossimilhança tratável e síntese de imagens de alta qualidade diretamente a partir de pixels brutos. O FARMER emprega um fluxo autoregressivo invertível para transformar imagens em sequências latentes, cuja distribuição é modelada implicitamente por um modelo autoregressivo. Para abordar a redundância e complexidade na modelagem em nível de pixel, propomos um esquema de redução de dimensionalidade auto supervisionado que particiona os canais latentes do NF em grupos informativos e redundantes, permitindo uma modelagem AR mais eficaz e eficiente. Além disso, projetamos um esquema de destilação em uma etapa para acelerar significativamente a velocidade de inferência e introduzimos um algoritmo de orientação livre de classificador baseado em reamostragem para melhorar a qualidade da geração de imagens. Experimentos extensivos demonstram que o FARMER alcança um desempenho competitivo em comparação com modelos generativos baseados em pixel existentes, enquanto fornece verossimilhanças exatas e treinamento escalável.
Os modelos atuais de Visão-Linguagem-Ação (VLA) são frequentemente limitados por um paradigma de interação rígido e estático, que carece da capacidade de ver, ouvir, falar e agir de forma concorrente, bem como de lidar dinamicamente com interrupções do usuário em tempo real. Isso dificulta uma colaboração incorporada perfeita, resultando em uma experiência de usuário inflexível e pouco responsiva. Para superar essas limitações, apresentamos o VITA-E, uma nova estrutura de interação incorporada projetada para concorrência comportamental e interrupção em tempo quase real. O cerne de nossa abordagem é uma arquitetura de modelo duplo na qual duas instâncias VLA paralelas operam como um "Modelo Ativo" e um "Modelo em Espera", permitindo que o agente incorporado observe seu ambiente, ouça a fala do usuário, forneça respostas verbais e execute ações, tudo de forma concorrente e interruptível, mimetizando capacidades humanas de multitarefa. Propomos ainda um paradigma de "modelo-como-controlador", no qual afinamos o Modelo de Linguagem de Visão (VLM) para gerar tokens especiais que funcionam como comandos diretos a nível de sistema, acoplando o raciocínio do modelo ao comportamento do sistema. Experimentos conduzidos em uma plataforma humanóide física demonstram que o VITA-E pode lidar de forma confiável com cenários interativos complexos. Nossa estrutura é compatível com vários modelos VLA de sistema duplo, alcançando uma taxa de sucesso extremamente alta em paradas de emergência e interrupções de fala, além de realizar com sucesso fala e ação concorrentes. Isso representa um passo significativo rumo a assistentes incorporados mais naturais e capazes.
Os modelos de animação humana orientados por áudio frequentemente sofrem com desvio de identidade durante a geração temporal autorregressiva, onde os personagens gradualmente perdem sua identidade ao longo do tempo. Uma solução é gerar quadros-chave como âncoras temporais intermediárias que previnem a degradação, mas isso requer uma etapa adicional de geração de quadros-chave e pode restringir a dinâmica natural do movimento. Para resolver isso, propomos a Ancoragem Prospectiva (Lookahead Anchoring), que utiliza quadros-chave de intervalos de tempo futuros à frente da janela de geração atual, em vez de dentro dela. Isso transforma os quadros-chave de limites fixos em faróis direcionais: o modelo persegue continuamente essas âncoras futuras enquanto responde a pistas de áudio imediatas, mantendo uma identidade consistente por meio de orientação persistente. Isso também permite a auto-geração de quadros-chave, onde a imagem de referência serve como alvo prospectivo, eliminando completamente a necessidade de geração de quadros-chave. Descobrimos que a distância temporal prospectiva controla naturalmente o equilíbrio entre expressividade e consistência: distâncias maiores permitem maior liberdade de movimento, enquanto distâncias menores fortalecem a aderência à identidade. Quando aplicada a três modelos recentes de animação humana, a Ancoragem Prospectiva alcança sincronização labial superior, preservação de identidade e qualidade visual, demonstrando condicionamento temporal aprimorado em várias arquiteturas diferentes. Resultados em vídeo estão disponíveis no seguinte link: https://lookahead-anchoring.github.io.
Os seres humanos percebem naturalmente a estrutura geométrica e o conteúdo semântico de um mundo 3D como dimensões interligadas, permitindo uma compreensão coerente e precisa de cenas complexas. No entanto, a maioria das abordagens anteriores prioriza o treinamento de grandes modelos de geometria para reconstrução 3D de baixo nível e trata a compreensão espacial de alto nível de forma isolada, negligenciando a crucial interação entre estes dois aspectos fundamentais da análise de cenas 3D, limitando assim a generalização e resultando em desempenho insatisfatório em tarefas subsequentes de compreensão 3D. Tentativas recentes mitigaram este problema simplesmente alinhando modelos 3D com modelos de linguagem específicos, restringindo assim a percepção à capacidade do modelo alinhado e limitando a adaptabilidade a tarefas subsequentes. Neste artigo, propomos o *InstanceGrounded Geometry Transformer* (IGGT), um grande transformador unificado de ponta a ponta para unificar o conhecimento tanto para reconstrução espacial quanto para compreensão contextual a nível de instância. Especificamente, projetamos uma estratégia de *Aprendizado Contrastivo 3D-Consistente* que orienta o IGGT a codificar uma representação unificada com estruturas geométricas e agrupamento baseado em instâncias usando apenas entradas visuais 2D. Esta representação suporta a elevação consistente de entradas visuais 2D para uma cena 3D coerente com instâncias de objetos explicitamente distintas. Para facilitar esta tarefa, construímos ainda o InsScene-15K, um conjunto de dados em larga escala com imagens RGB de alta qualidade, poses, mapas de profundidade e anotações de máscaras a nível de instância 3D-consistentes, utilizando um novo *pipeline* de curadoria de dados.
Os modelos de difusão e correspondência de fluxo emergiram como políticas robóticas poderosas, permitindo que os modelos Visão-Linguagem-Ação (VLA) generalizem em diversas cenas e instruções. No entanto, quando treinados via aprendizado por imitação, sua alta capacidade generativa os torna sensíveis a ruídos nas demonstrações humanas: solavancos, pausas e tremores que reduzem a coerência das ações. A redução da coerência das ações causa instabilidade e deriva de trajetória durante a implantação, falhas que são catastróficas na manipulação de alta precisão, onde a exatidão é crucial. Neste artigo, apresentamos a Orientação de Coerência de Ação (ACG) para modelos VLA, um algoritmo de orientação em tempo de teste, sem necessidade de treinamento, que melhora a coerência das ações e, consequentemente, produz ganhos de desempenho. Avaliado nas tarefas RoboCasa, DexMimicGen e SO-101 do mundo real, o ACG melhora consistentemente a coerência das ações e aumenta as taxas de sucesso em diversas tarefas de manipulação. O código e a página do projeto estão disponíveis em https://github.com/DAVIAN-Robotics/ACG e https://DAVIAN-Robotics.github.io/ACG, respectivamente.
Os modelos de incorporação de texto (embedding) servem como um componente fundamental em aplicações de busca do mundo real. Ao mapear consultas e documentos em um espaço de incorporação compartilhado, eles oferecem desempenho de recuperação competitivo com alta eficiência. No entanto, sua fidelidade de classificação permanece limitada em comparação com rerankers dedicados, especialmente os rerankers listwise baseados em LLM recentes, que capturam interações refinadas entre consulta-documento e documento-documento. Neste artigo, propomos uma estrutura unificada simples, mas eficaz, chamada E²Rank (que significa Efficient Embedding-based Ranking e também Embedding-to-Rank), que estende um único modelo de incorporação de texto para realizar tanto recuperação de alta qualidade quanto reranking listwise por meio de treinamento contínuo sob um objetivo de classificação listwise, alcançando assim forte eficácia com notável eficiência. Ao aplicar a similaridade de cosseno entre as incorporações da consulta e do documento como uma função de classificação unificada, o prompt de classificação listwise, construído a partir da consulta original e seus documentos candidatos, serve como uma consulta aprimorada enriquecida com sinais dos documentos top-K, semelhante ao feedback de pseudo-relevância (PRF) em modelos de recuperação tradicionais. Este projeto preserva a eficiência e a qualidade representacional do modelo de incorporação base, enquanto melhora significativamente seu desempenho de reranking. Empiricamente, o E²Rank alcança resultados state-of-the-art no benchmark de reranking BEIR e demonstra desempenho competitivo no benchmark de raciocínio intensivo BRIGHT, com latência de reranking muito baixa. Também mostramos que o processo de treinamento de classificação melhora o desempenho de incorporação no benchmark MTEB. Nossos achados indicam que um único modelo de incorporação pode unificar efetivamente recuperação e reranking, oferecendo tanto eficiência computacional quanto precisão de classificação competitiva.
Os Grandes Modelos Multimodais (LMMs) alcançaram progressos notáveis na geração de imagens fotorrealistas e alinhadas com os prompts, mas frequentemente produzem resultados que contradizem conhecimentos verificáveis, especialmente quando os prompts envolvem atributos de granularidade fina ou eventos sensíveis ao tempo. As abordagens convencionais aumentadas por recuperação tentam resolver este problema através da introdução de informações externas, mas são fundamentalmente incapazes de fundamentar a geração em conhecimentos precisos e em evolução devido à sua dependência de fontes estáticas e integração superficial de evidências. Para preencher esta lacuna, introduzimos o ORIG, uma estrutura agentiva aberta e multimodal aumentada por recuperação para Geração Factual de Imagens (FIG), uma nova tarefa que exige tanto realismo visual quanto fundamentação factual. O ORIG recupera e filtra iterativamente evidências multimodais da web e integra incrementalmente o conhecimento refinado em prompts enriquecidos para orientar a geração. Para apoiar uma avaliação sistemática, construímos o FIG-Eval, um benchmark abrangendo dez categorias através de dimensões perceptivas, composicionais e temporais. Os experimentos demonstram que o ORIG melhora substancialmente a consistência factual e a qualidade geral da imagem em relação a baselines robustas, destacando o potencial da recuperação multimodal aberta para a geração factual de imagens.
A geração de vídeo é um caminho crítico para modelos de mundo, sendo a inferência eficiente de vídeos longos uma capacidade fundamental. Com este objetivo, apresentamos o LongCat-Video, um modelo de geração de vídeo fundamental com 13,6 bilhões de parâmetros, que oferece um desempenho sólido em diversas tarefas de geração de vídeo. Ele se destaca particularmente na geração eficiente e de alta qualidade de vídeos longos, representando nosso primeiro passo em direção a modelos de mundo. As principais características incluem: **Arquitetura unificada para múltiplas tarefas:** Construído sobre a estrutura Diffusion Transformer (DiT), o LongCat-Video suporta as tarefas Texto-para-Vídeo, Imagem-para-Vídeo e Continuação de Vídeo com um único modelo. **Geração de vídeos longos:** O pré-treinamento em tarefas de Continuação de Vídeo permite que o LongCat-Video mantenha alta qualidade e coerência temporal na geração de vídeos com minutos de duração. **Inferência eficiente:** O LongCat-Video gera vídeos em 720p e 30fps em minutos, empregando uma estratégia de geração do grosso para o refinado ao longo dos eixos temporal e espacial. A Atenção Esparsa em Blocos aumenta ainda mais a eficiência, particularmente em altas resoluções. **Desempenho robusto com RLHF de múltiplas recompensas:** O treinamento RLHF com múltiplas recompensas permite que o LongCat-Video atinja um desempenho equivalente aos mais recentes modelos proprietários e aos principais modelos de código aberto. O código e os pesos do modelo estão publicamente disponíveis para acelerar o progresso na área.
A atenção multi-cabeça (MHA) tornou-se a pedra angular dos modelos de linguagem grandes modernos, aumentando a capacidade de representação por meio de cabeças de atenção paralelas. No entanto, o aumento do número de cabeças inerentemente enfraquece a capacidade individual de cada cabeça, e os mecanismos de atenção existentes - seja a MHA padrão ou suas variantes como a atenção por consulta agrupada (GQA) e a atenção agrupada e vinculada (GTA) - simplesmente concatenam as saídas de cabeças isoladas sem uma interação forte. Para superar esta limitação, propomos a atenção de cabeças intercomunicantes (KHA), que permite que as cabeças de atenção "batam" umas nas outras - facilitando interações ao nível de *features* entre cabeças antes da atenção de produto escalonado. Isto é alcançado aplicando uma matriz de projeção compartilhada e inicializada diagonalmente em todas as cabeças. A inicialização diagonal preserva a especialização específica de cada cabeça no início do treinamento, permitindo ao mesmo tempo que o modelo aprenda progressivamente representações integradas entre cabeças. A KHA adiciona apenas parâmetros e FLOPs mínimos e pode ser integrada perfeitamente na MHA, GQA, GTA e outras variantes de atenção. Validamos a KHA treinando um modelo MoE de 6,1B de parâmetros (1,01B ativados) em 1T de *tokens* de alta qualidade. Em comparação com os mecanismos de atenção de base, a KHA proporciona uma dinâmica de treinamento superior e mais estável, alcançando um melhor desempenho em tarefas subsequentes.
Os modelos de recompensa (RMs) desempenham um papel crucial no alinhamento dos comportamentos de IA com as preferências humanas, mas enfrentam dois desafios fundamentais: (1) Desequilíbrio de Modalidades, onde a maioria dos RMs concentra-se principalmente nas modalidades de texto e imagem, oferecendo suporte limitado para vídeo, áudio e outras modalidades; e (2) Rigidez de Preferências, onde o treinamento em pares de preferências binárias fixas falha em capturar a complexidade e diversidade das preferências personalizadas. Para enfrentar esses desafios, propomos o Omni-Reward, um avanço em direção à modelagem de recompensa omni-modal generalista com suporte a preferências de formato livre, consistindo em: (1) Avaliação: Introduzimos o Omni-RewardBench, o primeiro benchmark omni-modal para RMs com preferências livres, abrangendo nove tarefas em cinco modalidades incluindo texto, imagem, vídeo, áudio e 3D; (2) Dados: Construímos o Omni-RewardData, um conjunto de dados de preferências multimodais compreendendo 248 mil pares de preferências gerais e 69 mil pares de ajuste por instrução para treinar RMs omni-modais generalistas; (3) Modelo: Propomos o Omni-RewardModel, que inclui tanto RMs discriminativos quanto generativos, e alcança desempenho sólido no Omni-RewardBench, bem como em outros benchmarks amplamente utilizados para modelagem de recompensa.
Os modelos de linguagem multimodal (MLLMs) demonstraram fortes capacidades de propósito geral na compreensão visual de mundo aberto. No entanto, a maioria dos MLLMs existentes concentra-se principalmente na compreensão holística a nível de cena, frequentemente negligenciando a necessidade de raciocínio fino e centrado em objetos. Neste artigo, apresentamos o PixelRefer, uma estrutura unificada de MLLM a nível de região que permite uma compreensão avançada e refinada sobre regiões especificadas pelo utilizador, tanto em imagens como em vídeos. Motivados pela observação de que a atenção dos LLMs se concentra predominantemente em tokens a nível de objeto, propomos um Tokenizador de Objetos Adaptativo à Escala (SAOT) para gerar representações de objetos compactas e semanticamente ricas a partir de regiões de forma livre. A nossa análise revela que os tokens visuais globais contribuem principalmente nas primeiras camadas do LLM, inspirando o design do PixelRefer-Lite, uma variante eficiente que emprega um módulo de Infusão Centrada em Objetos para pré-fundir o contexto global em tokens de objetos. Isto resulta numa Estrutura Apenas de Objetos leve que reduz substancialmente o custo computacional, mantendo alta fidelidade semântica. Para facilitar a afinação por instruções de granularidade fina, reunimos o PixelRefer-2.2M, um conjunto de dados de instruções centrado em objetos de alta qualidade. Extensas experiências numa variedade de benchmarks validam que o PixelRefer alcança um desempenho líder com menos amostras de treino, enquanto o PixelRefer-Lite oferece precisão competitiva com ganhos notáveis em eficiência.
A aplicação de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR) em domínios matemáticos e de programação demonstrou melhorias significativas nas capacidades de raciocínio e resolução de problemas de Modelos de Linguagem de Grande Porte. Apesar do seu sucesso na resolução de problemas de geração única, o processo de afinação por aprendizagem por reforço pode prejudicar a capacidade de exploração do modelo, conforme refletido na diminuição da diversidade das gerações e numa consequente degradação do desempenho durante a amostragem Melhor-de-N para valores grandes de N. Neste trabalho, focamo-nos na otimização da métrica max@k, uma generalização contínua de pass@k. Derivamos uma estimativa de gradiente não enviesada e on-policy para a otimização direta desta métrica. Adicionalmente, estendemos as nossas derivações para atualizações off-policy, um elemento comum nos algoritmos modernos de RLVR, que permite uma melhor eficiência amostral. Empiricamente, mostramos que o nosso objetivo otimiza eficazmente a métrica max@k em cenários off-policy, alinhando o modelo com a estratégia de inferência Melhor-de-N.
Modelos multimodais unificados têm demonstrado recentemente ganhos notáveis em capacidade e versatilidade, contudo, a maioria dos sistemas líderes ainda é treinada a partir do zero e requer recursos computacionais substanciais. Neste artigo, demonstramos que um desempenho competitivo pode ser obtido de forma muito mais eficiente através da fusão estratégica de modelos publicamente disponíveis, especializados em geração ou compreensão. Nossa principal proposta é manter os blocos originais enquanto adicionalmente intercalamos blocos de autoatenção multimodal por toda a rede. Este mecanismo de dupla fusão (1) permite efetivamente uma rica fusão multimodal enquanto preserva amplamente os pontos fortes originais dos modelos base, e (2) catalisa uma fusão sinérgica de representações semânticas de alto nível do codificador de compreensão com sinais espaciais de baixo nível do codificador de geração. Ao ser treinada com apenas ~35 bilhões de tokens, esta abordagem atinge resultados sólidos em múltiplos benchmarks: 0,91 no GenEval para geração composicional de texto para imagem, 82,16 no DPG-Bench para geração complexa de texto para imagem, 6,06 no GEditBench e 3,77 no ImgEdit-Bench para edição de imagens. Ao liberar integralmente todo o conjunto de código, pesos do modelo e conjuntos de dados, esperamos fomentar pesquisas futuras sobre modelagem multimodal unificada.
O alinhamento visão-linguagem em modelos de linguagem grandes multimodais (MLLMs) normalmente recorre ao ajuste fino supervisionado (SFT) ou à aprendizagem por reforço (RL). O SFT é estável e eficiente, mas requer anotações humanas em larga escala e não consegue capturar preferências subtis, enquanto o RL introduz um sinal de recompensa para o treino, mas sofre com sobrecarga e instabilidade. Estas limitações evidenciam um compromisso entre escalabilidade, robustez e qualidade de alinhamento. Para resolver isto, propomos o MergeMix, um paradigma de aumento de dados durante o treino que une o SFT e o RL. Primeiro, aplica uma mistura de imagens consciente da atenção através da fusão de *tokens* com mais representação de clusters e contexto espacial, e depois apresenta um paradigma de treino orientado por preferências para MLLMs, construindo pares de preferência com imagens misturadas e imagens originais, e otimizando através da perda SimPO. Enquanto aumento de dados do tipo *mixup*, o MergeMix melhora a consistência e eficiência da atenção, superando outros métodos baseados em heurística na classificação. Experiências extensivas demonstram que o MergeMix alcança uma precisão competitiva com eficiência melhorada, fornecendo uma abordagem escalável para o alinhamento de preferências na classificação e em MLLMs.
O Aprendizado por Reforço (RL) demonstrou potencial significativo para aprimorar as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs). No entanto, o sucesso do RL para LLMs depende fortemente de conjuntos de dados curados por humanos e recompensas verificáveis, o que limita sua escalabilidade e generalidade. Métodos recentes de RL de Autojogo (Self-Play), inspirados pelo sucesso desse paradigma em jogos e no Go, visam aprimorar as capacidades de raciocínio dos LLMs sem dados anotados por humanos. Contudo, esses métodos dependem principalmente de um ambiente fundamentado para *feedback* (por exemplo, um interpretador Python ou um mecanismo de jogo); estendê-los para domínios gerais permanece um desafio. Para enfrentar esses desafios, propomos o Multi-Agent Evolve (MAE), uma estrutura que permite aos LLMs evoluir autonomamente na resolução de diversas tarefas, incluindo matemática, raciocínio e perguntas e respostas de conhecimento geral. O projeto central do MAE baseia-se em um trio de agentes interativos (Propositor, Solucionador, Juiz) instanciados a partir de um único LLM, e aplica aprendizado por reforço para otimizar seus comportamentos. O Propositor gera perguntas, o Solucionador tenta soluções e o Juiz avalia ambos, enquanto coevoluem. Experimentos com o Qwen2.5-3B-Instr demonstraram que o MAE alcança uma melhoria média de 4,54% em múltiplos *benchmarks*. Esses resultados destacam o MAE como um método escalável e eficiente em dados para aprimorar as habilidades gerais de raciocínio dos LLMs com dependência mínima de supervisão curada por humanos.
A busca por generalistas robóticos - agentes instrucionais capazes de executar tarefas diversas em ambientes diversos - exige uma avaliação rigorosa e escalável. No entanto, os testes no mundo real de políticas de robôs permanecem fundamentalmente limitados: são intensivos em mão de obra, lentos, inseguros em escala e difíceis de reproduzir. Os benchmarks de simulação existentes são igualmente limitados, pois treinam e testam políticas dentro dos mesmos domínios sintéticos e não conseguem avaliar modelos treinados a partir de demonstrações do mundo real ou de ambientes de simulação alternativos. À medida que as políticas se expandem em escopo e complexidade, essas barreiras apenas se intensificam, uma vez que a definição de "sucesso" na robótica frequentemente depende de julgamentos humanos sutis sobre a qualidade da execução. Neste artigo, introduzimos uma nova estrutura de benchmarking que supera esses desafios ao transferir a avaliação de VLAs (Visão-Linguagem-Ação) para ambientes simulados em larga escala, aprimorados com feedback humano online. Aproveitando os avanços em modelos de visão e linguagem, modelagem generativa 2D-para-3D e renderização diferenciável, nossa abordagem converte automaticamente demonstrações em vídeo de conjuntos de dados de robôs amplamente utilizados em contrapartes simuladas. Dentro desses *digital twins*, avaliamos as políticas de VLA usando tanto uma pontuação automatizada guiada por VLM quanto julgamentos de preferência humana escaláveis coletados de trabalhadores *crowdsourced*, transformando o envolvimento humano da tediosa configuração de cena, reinicialização e supervisão de segurança em comparações leves de preferência. Para medir a robustez, perturbamos sistematicamente os ambientes simulados ao longo de múltiplos eixos, como texturas e posicionamentos de objetos, testando sob estresse a generalização da política sob variação controlada. O resultado é um benchmark em constante evolução, reproduzível e escalável para políticas de manipulação robótica treinadas no mundo real, abordando uma capacidade crítica em falta no cenário atual da robótica.
As abordagens existentes geralmente dependem de ajuste fino em larga escala para adaptar LLMs a tarefas de rerranqueamento de informação, o que é computacionalmente dispendioso. Neste trabalho, demonstramos que os LLMs modernos podem ser eficazmente adaptados usando apenas supervisão mínima e de alta qualidade. Para viabilizar isso, projetamos o LIMRANK-SYNTHESIZER, um *pipeline* reutilizável e de código aberto para gerar exemplos de rerranqueamento diversos, desafiadores e realistas. Utilizando esses dados sintéticos, realizamos o ajuste fino do nosso modelo de rerranqueamento, o LIMRANK. Avaliamos o LIMRANK em dois *benchmarks* desafiadores, nomeadamente o BRIGHT para recuperação intensiva em raciocínio e o FollowIR para recuperação por seguimento de instruções. Nossos experimentos demonstram que o LIMRANK atinge um desempenho competitivo, apesar de ser treinado com menos de 5% dos dados tipicamente utilizados em trabalhos anteriores. Estudos de ablação adicionais demonstram a eficácia do LIMRANK-SYNTHESIZER e as fortes capacidades de generalização do LIMRANK em tarefas subsequentes, incluindo busca de literatura científica e geração aumentada por recuperação para resolução de problemas intensivos em conhecimento.
Os Grandes Modelos de Linguagem (LLMs) tornaram-se assistentes valiosos para desenvolvedores em tarefas relacionadas a código. Embora os LLMs se destaquem em tarefas de programação tradicionais, como geração de código e correção de bugs, eles têm dificuldades com tarefas de codificação visualmente orientadas, frequentemente produzindo estéticas subótimas. Neste artigo, introduzimos um novo *pipeline* para melhorar a qualidade estética do código gerado por LLMs. Primeiro, construímos o AesCode-358K, um conjunto de dados de *fine-tuning* por instrução em larga escala focado na estética do código. Em seguida, propomos o *feedback* de recompensa agentico, um sistema multiagente que avalia a executabilidade, a estética estática e a estética interativa. Com base nisso, desenvolvemos o GRPO-AR, que integra esses sinais no algoritmo GRPO para otimização conjunta da funcionalidade e da estética do código. Finalmente, desenvolvemos o OpenDesign, um *benchmark* para avaliar a estética do código. Resultados experimentais mostram que combinar o *fine-tuning* supervisionado no AesCode-358K com o aprendizado por reforço usando o *feedback* de recompensa agentico melhora significativamente o desempenho no OpenDesign e também aprimora os resultados em *benchmarks* existentes, como o PandasPlotBench. Notavelmente, nosso AesCoder-4B supera o GPT-4o e o GPT-4.1, e alcança desempenho comparável a grandes modelos de código aberto com 480B-685B de parâmetros, ressaltando a eficácia da nossa abordagem.
Os modelos autorregressivos (AR) de imagem emergiram como um paradigma poderoso de modelos generativos visuais. Apesar do seu desempenho promissor, eles sofrem com uma velocidade de geração lenta devido ao grande número de etapas de amostragem necessárias. Embora o *Distilled Decoding 1* (DD1) tenha sido proposto recentemente para permitir amostragem com poucas etapas para modelos AR de imagem, ele ainda incorre em uma degradação significativa de desempenho na configuração de uma única etapa e depende de um mapeamento predefinido que limita sua flexibilidade. Neste trabalho, propomos um novo método, o *Distilled Decoding 2* (DD2), para avançar ainda mais a viabilidade da amostragem em uma única etapa para modelos AR de imagem. Diferente do DD1, o DD2 não depende de um mapeamento predefinido. Nós enxergamos o modelo AR original como um modelo professor que fornece o *score* condicional verdadeiro no espaço latente de incorporação em cada posição do *token*. Com base nisso, propomos uma nova função de perda por destilação de *score* condicional para treinar um gerador de uma etapa. Especificamente, treinamos uma rede separada para prever o *score* condicional da distribuição gerada e aplicamos a destilação de *score* em cada posição de *token* condicionada aos *tokens* anteriores. Resultados experimentais mostram que o DD2 permite a amostragem em uma única etapa para modelos AR de imagem com um aumento mínimo do FID de 3.40 para 5.43 no ImageNet-256. Comparado ao *baseline* mais forte, o DD1, o DD2 reduz a diferença entre a amostragem de uma etapa e o modelo AR original em 67%, com um aceleramento de treinamento de até 12.3 vezes simultaneamente. O DD2 dá um passo significativo em direção ao objetivo da geração AR em uma etapa, abrindo novas possibilidades para a modelagem AR rápida e de alta qualidade. O código está disponível em https://github.com/imagination-research/Distilled-Decoding-2.
A simulação física depende de propriedades mecânicas espacialmente variáveis, frequentemente elaboradas manualmente com grande esforço. VoMP é um método *feed-forward* treinado para prever o módulo de Young (E), o coeficiente de Poisson (nu) e a densidade (rho) em todo o volume de objetos 3D, em qualquer representação que possa ser renderizada e voxelizada. O VoMP agrega características multivoxel de múltiplas vistas e as transmite ao nosso *Geometry Transformer* treinado para prever códigos latentes de material por voxel. Esses códigos latentes residem em uma variedade de materiais fisicamente plausíveis, que aprendemos a partir de um conjunto de dados do mundo real, garantindo a validade dos materiais decodificados por voxel. Para obter dados de treinamento em nível de objeto, propomos um *pipeline* de anotação que combina conhecimento de conjuntos de dados 3D segmentados, bancos de dados de materiais e um modelo de visão e linguagem, juntamente com um novo parâmetro de referência. Experimentos mostram que o VoMP estima propriedades volumétricas precisas, superando amplamente o estado da arte em precisão e velocidade.
Apresentamos o PRISM-Bench, um benchmark de desafios visuais baseados em quebra-cabeças projetado para avaliar não apenas se os modelos conseguem resolver problemas, mas como o seu raciocínio se desenrola. Diferente de avaliações anteriores que mediam apenas a precisão da resposta final, o PRISM-Bench introduz uma tarefa de diagnóstico: dado um quebra-cabeça visual e uma cadeia de pensamento (CoT) passo a passo contendo exatamente um erro, os modelos devem identificar o primeiro passo incorreto. Esta configuração permite uma avaliação refinada da consistência lógica, deteção de erros e raciocínio visual. Os quebra-cabeças no PRISM-Bench requerem raciocínio simbólico, geométrico e analógico de múltiplos passos, resistindo a atalhos baseados em correspondência superficial de padrões. Avaliações de MLLMs (Modelos de Linguagem Multimodal) de última geração revelam uma lacuna persistente entre a geração fluente e o raciocínio fidedigno: modelos que produzem CoTs plausíveis frequentemente falham em localizar falhas lógicas simples. Ao separar a geração de respostas da verificação do raciocínio, o PRISM-Bench oferece uma lente mais nítida sobre a competência de raciocínio multimodal e sublinha a necessidade de protocolos de avaliação de diagnóstico no desenvolvimento de MLLMs confiáveis.
Os métodos atuais de geração 3D/4D são geralmente otimizados para fotorrealismo, eficiência e estética. No entanto, eles frequentemente falham em preservar a identidade semântica do sujeito em diferentes pontos de vista. A adaptação de métodos de geração com uma ou poucas imagens de um sujeito específico (conhecida como Personalização ou Geração Orientada por Sujeito) permite criar conteúdo visual alinhado com a identidade do sujeito. Contudo, a geração 3D/4D personalizada ainda permanece amplamente inexplorada. Neste trabalho, introduzimos o TIRE (Track, Inpaint, REsplat), um método inovador para geração 3D/4D orientada por sujeito. Ele utiliza um recurso 3D inicial produzido por um modelo generativo 3D existente como entrada e emprega rastreamento de vídeo para identificar as regiões que necessitam de modificação. Em seguida, adotamos um modelo de inpaint 2D orientado por sujeito para preencher progressivamente as regiões identificadas. Finalmente, realizamos o resplat das observções 2D multi-view modificadas de volta para 3D, mantendo a consistência. Experimentos extensivos demonstram que nossa abordagem melhora significativamente a preservação de identidade na geração 3D/4D em comparação com métodos state-of-the-art. Nosso site do projeto está disponível em https://zsh2000.github.io/track-inpaint-resplat.github.io/.
A reconstrução fotorealista de corpos humanos completos em 3D a partir de uma única imagem é uma tarefa crítica, mas desafiadora, para aplicações em filmes e videojogos devido a ambiguidades inerentes e severas auto-oclusões. Embora abordagens recentes aproveitem a estimativa SMPL e modelos generativos de imagem condicionados por SMPL para alucinar novas perspetivas, elas sofrem com priors 3D imprecisos estimados a partir de malhas SMPL e têm dificuldade em lidar com poses humanas difíceis e reconstruir detalhes finos. Neste artigo, propomos o SyncHuman, uma nova estrutura que combina, pela primeira vez, um modelo generativo multivista 2D e um modelo generativo nativo 3D, permitindo a reconstrução de alta qualidade de malhas humanas vestidas a partir de imagens de vista única, mesmo sob poses humanas desafiadoras. O modelo generativo multivista destaca-se na captura de detalhes 2D finos, mas luta com a consistência estrutural, enquanto o modelo generativo nativo 3D gera formas 3D grosseiras, mas estruturalmente consistentes. Ao integrar os pontos fortes complementares destas duas abordagens, desenvolvemos uma estrutura de geração mais eficaz. Especificamente, primeiro afinamos conjuntamente o modelo generativo multivista e o modelo generativo nativo 3D com a proposta atenção de sincronização 2D-3D alinhada por píxel para produzir formas 3D geometricamente alinhadas e imagens multivista 2D. Para melhorar ainda mais os detalhes, introduzimos um mecanismo de injeção de características que levanta detalhes finos das imagens multivista 2D para as formas 3D alinhadas, permitindo uma reconstrução precisa e de alta fidelidade. Experimentos extensivos demonstram que o SyncHuman alcança uma reconstrução 3D humana robusta e fotorealista, mesmo para imagens com poses desafiadoras. O nosso método supera os métodos de base em precisão geométrica e fidelidade visual, demonstrando uma direção promissora para futuros modelos de geração 3D.
Os modelos de linguagem de grande escala frequentemente alucinam APIs e deslocalizam edições, enquanto os servidores de linguagem computam factos verificados de nível IDE sobre código real. Apresentamos o Lanser-CLI, uma camada de orquestração prioritária para CLI que fixa e media um servidor do Protocolo de Servidor de Linguagem (LSP) para agentes de codificação e CI, expondo fluxos de trabalho determinísticos e reproduzíveis. A nossa posição é que os servidores de linguagem fornecem não apenas informação estrutural (definições, referências, tipos, diagnósticos), mas também uma recompensa de processo acionável: sinais máquina-verificados e passo a passo que alinham o ciclo de planeamento de um agente com a realidade do programa. Neste trabalho, o Lanser-CLI contribui com: (i) um esquema robusto de endereçamento para além do frágil "ficheiro:linha:coluna" através de uma DSL de Seletores (seletores simbólicos, de caminho-AST e ancorados em conteúdo) com um algoritmo de relocalização fundamentado; (ii) Pacotes de Análise determinísticos que normalizam as respostas do Servidor de Linguagem e capturam metadados de ambiente/capacidade com hashes de conteúdo estáveis; (iii) um envelope de segurança para operações de mutação (renomear, ações de código) com pré-visualização, áreas restritas de workspace e aplicação transacional com consciência do Git; e (iv) um funcional de recompensa de processo derivado de factos do Servidor de Linguagem (deltas de diagnóstico, confiança de desambiguação e verificações de aplicação segura) que é computável online e reproduzível offline. Formalizamos o determinismo sob instantâneos congelados e estabelecemos uma propriedade de monotonicidade para a recompensa de processo, tornando-a adequada para supervisão de processo e análise contrafactual. Página do Projeto: https://github.com/yifanzhang-pro/lanser-cli
Este artigo apresenta um estudo sistemático das leis de escalonamento para a tarefa de detecção de deepfakes. Especificamente, analisamos o desempenho do modelo em relação ao número de domínios de imagens reais, métodos de geração de deepfakes e imagens de treinamento. Como nenhum conjunto de dados existente atende aos requisitos de escala para esta pesquisa, construímos o ScaleDF, o maior conjunto de dados até o momento nesta área, que contém mais de 5,8 milhões de imagens reais de 51 conjuntos de dados (domínios) diferentes e mais de 8,8 milhões de imagens falsas geradas por 102 métodos de deepfake. Utilizando o ScaleDF, observamos uma lei de potência de escalonamento semelhante à demonstrada em modelos de linguagem de grande escala (LLMs). Especificamente, o erro médio de detecção segue um decaimento previsível segundo uma lei de potência à medida que o número de domínios reais ou o número de métodos de deepfake aumenta. Esta observação fundamental não só nos permite prever o número adicional de domínios reais ou métodos de deepfake necessários para atingir um desempenho desejado, mas também nos inspira a combater a tecnologia de deepfake em evolução de uma maneira centrada em dados. Além disso, examinamos o papel do pré-treinamento e das aumentações de dados na detecção de deepfakes sob escalonamento, bem como as limitações do próprio escalonamento.
Os grandes modelos de linguagem (LLMs) destacam-se na inferência *zero-shot*, mas continuam a ter dificuldades com raciocínios complexos e de múltiplos passos. Métodos recentes que aumentam os LLMs com passos de raciocínio intermédios, como a *Chain of Thought* (CoT) e a *Program of Thought* (PoT), melhoram o desempenho, mas frequentemente produzem soluções indesejadas, especialmente em domínios algorítmicos. Apresentamos a Síntese de Programas por Instância (PIPS), um método que gera e refina programas ao nível da instância, utilizando *feedback* estrutural sem depender de orientação específica da tarefa ou de casos de teste explícitos. Para melhorar ainda mais o desempenho, o PIPS incorpora uma métrica de confiança que escolhe dinamicamente entre a inferência direta e a síntese de programas numa base por instância. Experiências realizadas em três LLMs de ponta e 30 *benchmarks*, incluindo todas as tarefas do *Big Bench Extra Hard* (BBEH), tarefas de resposta a questões visuais, tarefas de raciocínio relacional e tarefas de raciocínio matemático, mostram que o PIPS melhora a precisão média harmónica absoluta em até 8,6% e 9,4% em comparação com PoT e CoT, respetivamente, e reduz as gerações de programas indesejáveis em 65,1% nas tarefas algorítmicas em comparação com PoT usando o Gemini-2.0-Flash.
Os recentes avanços na aceleração de modelos de difusão texto-imagem (T2I) permitiram a síntese de imagens de alta fidelidade em até uma única etapa. No entanto, a personalização desses modelos para incorporar novos conceitos permanece um desafio devido à capacidade limitada dos modelos de etapa única para capturar distribuições de novos conceitos de forma eficaz. Propomos uma estrutura de destilação conceitual bidirecional, EchoDistill, para permitir a personalização de difusão em uma etapa (1-SDP). Nossa abordagem envolve um processo de treinamento end-to-end no qual um modelo de difusão multi-etapa (professor) e um modelo de difusão de etapa única (estudante) são treinados simultaneamente. O conceito é primeiro destilado do modelo professor para o estudante e depois ecoado de volta do estudante para o professor. Durante o EchoDistill, compartilhamos o codificador de texto entre os dois modelos para garantir uma compreensão semântica consistente. Após isso, o modelo estudante é otimizado com perdas adversariais para se alinhar com a distribuição de imagens reais e com perdas de alinhamento para manter a consistência com a saída do professor. Além disso, introduzimos a estratégia de refinamento por eco bidirecional, na qual o modelo estudante aproveita sua capacidade de geração mais rápida para fornecer feedback ao modelo professor. Este mecanismo de destilação conceitual bidirecional não apenas aprimora a capacidade do estudante de personalizar novos conceitos, mas também melhora a qualidade generativa do modelo professor. Nossos experimentos demonstram que esta estrutura colaborativa supera significativamente os métodos de personalização existentes na configuração 1-SDP, estabelecendo um novo paradigma para personalização rápida e eficaz em modelos de difusão T2I.
Apresentamos a modelagem de linguagem baseada em memória como uma alternativa eficiente e ecologicamente correta à modelagem de linguagem baseada em redes neurais profundas. Ela oferece desempenho de previsão do próximo token escalável log-linearmente e fortes capacidades de memorização. Implementando aproximações rápidas de classificação por k-vizinhos mais próximos, a modelagem de linguagem baseada em memória deixa uma pegada ecológica relativamente pequena tanto no treinamento quanto no modo de inferência, uma vez que depende totalmente de CPUs e atinge baixas latências por token. Seu funcionamento interno é simples e totalmente transparente. Comparamos nossa implementação de modelagem de linguagem baseada em memória, OLIFANT, com GPT-2 e GPT-Neo em precisão de previsão do próximo token, emissões estimadas e velocidades, e oferecemos algumas análises mais aprofundadas do modelo.
Neste artigo, apresentamos um novo modelo baseado em difusão para detecção de faixas, denominado DiffusionLane, que trata a tarefa de detecção de faixas como um processo de difusão de remoção de ruído no espaço de parâmetros da faixa. Primeiramente, adicionamos ruído Gaussiano aos parâmetros (ponto inicial e ângulo) das faixas de referência (ground truth) para obter âncoras de faixa ruidosas, e o modelo aprende a refinar essas âncoras de forma progressiva para obter as faixas alvo. Em segundo lugar, propomos uma estratégia de decodificação híbrida para abordar a fraca representação de características do codificador, resultante das âncoras de faixa ruidosas. Especificamente, projetamos um decodificador de difusão híbrido para combinar decodificadores de nível global e nível local, visando âncoras de faixa de alta qualidade. Em seguida, para melhorar a representação de características do codificador, empregamos um cabeçalho auxiliar na fase de treinamento para adotar âncoras de faixa aprendíveis, enriquecendo assim a supervisão sobre o codificador. Resultados experimentais em quatro benchmarks, Carlane, Tusimple, CULane e LLAMAS, mostram que o DiffusionLane possui uma forte capacidade de generalização e um desempenho de detecção promissor em comparação com os métodos state-of-the-art anteriores. Por exemplo, o DiffusionLane com ResNet18 supera os métodos existentes em pelo menos 1% de precisão no conjunto de dados de adaptação de domínio Carlane. Além disso, o DiffusionLane com MobileNetV4 obtém 81,32% de pontuação F1 no CULane, 96,89% de precisão no Tusimple com ResNet34 e 97,59% de pontuação F1 no LLAMAS com ResNet101. O código estará disponível em https://github.com/zkyntu/UnLanedet.
Os Diffusion Transformers (DiTs) oferecem desempenho generativo de última geração, mas o seu custo quadrático de treinamento em relação ao comprimento da sequência torna o pré-treinamento em larga escala proibitivamente caro. O descarte de *tokens* pode reduzir o custo de treinamento, mas estratégias ingênuas degradam as representações, e os métodos existentes são ou muito parametrizados ou falham em altas taxas de descarte. Apresentamos o SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, um método simples que permite um descarte agressivo de *tokens* (até 75%) enquanto preserva a qualidade. O SPRINT aproveita os papéis complementares das camadas rasas e profundas: as camadas iniciais processam todos os *tokens* para capturar detalhes locais, as camadas mais profundas operam em um subconjunto esparso para reduzir a computação, e as suas saídas são fundidas através de conexões residuais. O treinamento segue um cronograma de dois estágios: um longo pré-treinamento mascarado para eficiência, seguido por um curto ajuste fino com todos os *tokens* para fechar a lacuna entre treinamento e inferência. No ImageNet-1K 256x256, o SPRINT alcança uma economia de treinamento de 9,8x com FID/FDD comparáveis, e na inferência, sua *Path-Drop Guidance* (PDG) reduz quase pela metade os FLOPS enquanto melhora a qualidade. Estes resultados estabelecem o SPRINT como uma solução simples, eficaz e geral para o treinamento eficiente de DiTs.
O notável sucesso dos modelos de difusão e correspondência de fluxo (flow-matching) desencadeou uma onda de trabalhos que os adaptam em tempo de teste para tarefas de geração controlada. Os exemplos variam desde edição de imagens até restauração, compressão e personalização. No entanto, devido à natureza iterativa do processo de amostragem nesses modelos, é computacionalmente impraticável usar otimização baseada em gradiente para controlar diretamente a imagem gerada ao final do processo. Como resultado, os métodos existentes geralmente recorrem à manipulação de cada passo de tempo separadamente. Aqui, introduzimos o FlowOpt - uma estrutura de otimização de ordem zero (livre de gradiente) que trata todo o processo de fluxo como uma caixa preta, permitindo a otimização ao longo de todo o caminho de amostragem sem retropropagação (backpropagation) através do modelo. Nosso método é altamente eficiente e permite que os usuários monitorem os resultados intermediários da otimização e realizem uma parada antecipada, se desejado. Provamos uma condição suficiente para o tamanho do passo do FlowOpt, sob a qual a convergência para o ótimo global é garantida. Mostramos ainda como estimar empiricamente esse limite superior para escolher um tamanho de passo apropriado. Demonstramos como o FlowOpt pode ser usado para edição de imagens, apresentando duas opções: (i) inversão (determinar o ruído inicial que gera uma determinada imagem) e (ii) direcionar diretamente a imagem editada para ser semelhante à imagem de origem, ao mesmo tempo em que se adequa a um prompt de texto de destino. Em ambos os casos, o FlowOpt alcança resultados de última geração (state-of-the-art) usando aproximadamente o mesmo número de avaliações de função neural (NFEs) que os métodos existentes. O código e os exemplos estão disponíveis na página do projeto.
Os otimizadores pré-condicionados baseados em matrizes, como o Muon, demonstraram recentemente maior eficiência do que os otimizadores baseados em escalares para o treinamento de redes neurais em larga escala, incluindo grandes modelos de linguagem (LLMs). Por outro lado, benchmarks recentes sobre otimizadores para pré-treinamento de LLMs demonstraram que técnicas de redução de variância, como o MARS, podem alcançar acelerações substanciais em relação a otimizadores padrão que não empregam redução de variância. Neste artigo, para obter o melhor dos dois mundos, introduzimos o MARS-M, um novo otimizador que integra a técnica de redução de variância do MARS com o Muon. Sob condições de regularidade padrão, provamos que o Muon-M converge para um ponto estacionário de primeira ordem a uma taxa de \(\mathcal{O}(T^{-1/3})\), o que representa uma melhoria em relação à taxa de \(\mathcal{O}(T^{-1/4})\) atingida pelo Muon. Nossos resultados empíricos em tarefas de modelagem de linguagem e visão computacional demonstram que o MARS-M produz consistentemente perdas menores e desempenho melhorado em vários benchmarks *downstream*. A implementação do MARS-M está disponível em https://github.com/AGI-Arena/MARS/MARS_M.
Os grandes modelos de linguagem (LLMs) têm avançado recentemente o reconhecimento de fala auditivo (ASR), o reconhecimento de fala visual (VSR) e o reconhecimento de fala audiovisual (AVSR). No entanto, a compreensão da sua dinâmica interna durante o *fine-tuning* permanece limitada. No processamento de linguagem natural, trabalhos recentes revelaram *attention sinks* (sumidouros de atenção), tokens que atraem atenção desproporcionalmente alta, e as ativações massivas associadas, nas quais algumas características dos tokens *sink* exibem ativação enorme nos LLMs. Neste trabalho, somos os primeiros a estudar estes fenômenos no reconhecimento de fala multimodal. Através de uma análise detalhada de LLMs audiovisuais, identificamos *attention sinks* e ativações massivas não apenas no token BOS, mas também em tokens intermediários de baixa semântica em ASR, VSR e AVSR. Mostramos que as ativações massivas se originam nas camadas MLP e correspondem a índices de características fixos em todos os tokens *sink*. Mostramos ainda que os tokens *sink* intermediários exibem alta similaridade de cosseno com o token BOS, amplificando assim a atenção e a ativação. Com base nessas percepções, introduzimos uma simples função de perda de descorrelação que reduz a similaridade de cosseno entre o BOS e outros tokens, mitigando efetivamente os *sinks* intermediários e as ativações massivas. Além disso, o nosso método melhora a taxa de erro de palavras (WER) sob alta subamostragem de características audiovisuais, mantendo-se estável em taxas de subamostragem mais baixas.