HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

28 papers found

A Trindade da Consistência como Princípio Definidor para Modelos Gerais do Mundo
The Trinity of Consistency as a Defining Principle for General World Models

Feb 26

ByJingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan

197

A construção de Modelos de Mundo capazes de aprender, simular e raciocinar sobre as leis físicas objetivas constitui um desafio fundamental na busca pela Inteligência Artificial Geral. Os avanços recentes representados por modelos de geração de vídeo, como o Sora, demonstraram o potencial das leis de escalonamento baseadas em dados para aproximar dinâmicas físicas, enquanto o emergente Modelo Multimodal Unificado (UMM) oferece um paradigma arquitetônico promissor para integrar percepção, linguagem e raciocínio. Apesar desses avanços, a área ainda carece de uma estrutura teórica fundamentada que defina as propriedades essenciais necessárias para um Modelo de Mundo Geral. Neste artigo, propomos que um Modelo de Mundo deve estar fundamentado na Trindade da Consistência: a Consistência Modal como interface semântica, a Consistência Espacial como base geométrica e a Consistência Temporal como motor causal. Através desta lente tripartida, revisamos sistematicamente a evolução da aprendizagem multimodal, revelando uma trajetória que vai desde módulos especializados fracamente acoplados até arquiteturas unificadas que permitem a emergência sinérgica de simuladores internos do mundo. Para complementar esta estrutura conceitual, introduzimos o CoW-Bench, um benchmark centrado em cenários de raciocínio e geração multiframe. O CoW-Bench avalia tanto modelos de geração de vídeo quanto UMMs sob um protocolo de avaliação unificado. O nosso trabalho estabelece um caminho fundamentado em direção a modelos de mundo gerais, esclarecendo tanto as limitações dos sistemas atuais quanto os requisitos arquitetónicos para progressos futuros.

De Pontos Cegos a Ganhos: Treinamento Iterativo Orientado por Diagnóstico para Grandes Modelos Multimodais
From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Feb 26

ByHongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye

148

Com o aumento de escala dos Modelos Multimodais de Grande Porte (LMMs) e a maturação dos métodos de aprendizagem por reforço (RL), os LMMs têm registado progressos notáveis no raciocínio complexo e na tomada de decisões. No entanto, o treino ainda depende de dados estáticos e de receitas fixas, dificultando o diagnóstico de pontos cegos de capacidade ou o fornecimento de reforço dinâmico e direcionado. Motivados pela descoberta de que a exposição a erros orientada por testes e a correção baseada em *feedback* superam a prática repetitiva, propomos a Evolução Progressiva Orientada por Diagnóstico (DPE), um ciclo espiral em que o diagnóstico orienta a geração de dados e o reforço, e cada iteração reavalia o modelo atualizado para orientar a próxima ronda de melhoria direcionada. O DPE tem dois componentes-chave. Primeiro, múltiplos agentes anotam e controlam a qualidade de grandes volumes de dados multimodais não rotulados, utilizando ferramentas como pesquisa na Web e edição de imagem para produzir amostras diversificadas e realistas. Segundo, o DPE atribui falhas a fraquezas específicas, ajusta dinamicamente a mistura de dados e orienta os agentes a gerar dados focados nas fraquezas para um reforço direcionado. Experiências realizadas com os modelos Qwen3-VL-8B-Instruct e Qwen2.5-VL-7B-Instruct mostram ganhos estáveis e contínuos em onze *benchmarks*, indicando que o DPE é um paradigma escalável para o treino contínuo de LMMs sob distribuições abertas de tarefas. O nosso código, modelos e dados estão publicamente disponíveis em https://github.com/hongruijia/DPE.

MobilityBench: Um Benchmark para Avaliar Agentes de Planejamento de Rotas em Cenários de Mobilidade do Mundo Real
MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Feb 26

ByZhiheng Song, Jingshuai Zhang, Chuan Qin, Chao Wang, Chao Chen, Longfei Xu, Kaikui Liu, Xiangxiang Chu, Hengshu Zhu

106

Agentes de planejamento de rotas baseados em grandes modelos de linguagem (LLMs) surgiram como um paradigma promissor para apoiar a mobilidade humana cotidiana por meio de interação em linguagem natural e tomada de decisão mediada por ferramentas. No entanto, a avaliação sistemática em contextos de mobilidade do mundo real é dificultada por demandas de roteamento diversificadas, serviços de mapeamento não determinísticos e reprodutibilidade limitada. Neste estudo, apresentamos o MobilityBench, um benchmark escalável para avaliar agentes de planejamento de rotas baseados em LLM em cenários de mobilidade do mundo real. O MobilityBench é construído a partir de consultas anônimas de usuários reais em larga escala, coletadas do Amap, e abrange um amplo espectro de intenções de planejamento de rotas em várias cidades ao redor do mundo. Para permitir uma avaliação reproduzível de ponta a ponta, projetamos um ambiente de simulação (sandbox) de reexecução de API determinístico que elimina a variância ambiental dos serviços ao vivo. Propomos ainda um protocolo de avaliação multidimensional centrado na validade do resultado, complementado por avaliações de compreensão de instruções, planejamento, uso de ferramentas e eficiência. Utilizando o MobilityBench, avaliamos vários agentes de planejamento de rotas baseados em LLM em diversos cenários de mobilidade do mundo real e fornecemos uma análise aprofundada de seus comportamentos e desempenho. Nossos resultados revelam que os modelos atuais têm um desempenho competente em tarefas básicas de Recuperação de Informações e Planejamento de Rotas, mas lutam consideravelmente com o Planejamento de Rotas com Restrições de Preferência, destacando um espaço significativo para melhorias em aplicações de mobilidade personalizada. Disponibilizamos publicamente os dados do benchmark, o kit de ferramentas de avaliação e a documentação em https://github.com/AMAP-ML/MobilityBench.

OmniGAIA: Rumo a Agentes de IA Omnimodais Nativos
OmniGAIA: Towards Native Omni-Modal AI Agents

Feb 26

ByXiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

A inteligência humana integra naturalmente a percepção omnimodal — abrangendo visão, áudio e linguagem — com raciocínio complexo e uso de ferramentas para interagir com o mundo. No entanto, os LLMs multimodais atuais estão principalmente confinados a interações bimodais (por exemplo, visão-linguagem), carecendo das capacidades cognitivas unificadas necessárias para assistentes de IA gerais. Para preencher esta lacuna, introduzimos o OmniGAIA, um benchmark abrangente concebido para avaliar agentes omnimodais em tarefas que exigem raciocínio profundo e execução multi-iterativa de ferramentas através das modalidades de vídeo, áudio e imagem. Construído através de uma nova abordagem de grafo de eventos omnimodal, o OmniGAIA sintetiza consultas complexas e multi-etapa derivadas de dados do mundo real que requerem raciocínio cross-modal e integração de ferramentas externas. Adicionalmente, propomos o OmniAtlas, um agente de base nativamente omnimodal sob um paradigma de raciocínio integrado com ferramentas e percepção omnimodal ativa. Treinado em trajetórias sintetizadas através de uma estratégia de exploração em árvore guiada por hindsight e OmniDPO para correção granular de erros, o OmniAtlas melhora efetivamente as capacidades de uso de ferramentas de modelos open-source existentes. Este trabalho representa um passo em direção a assistentes de IA omnimodais nativos de próxima geração para cenários do mundo real.

A Imaginação Auxilia o Raciocínio Visual, Mas Ainda Não no Espaço Latente
Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Feb 26

ByYou Li, Chi Chen, Yanghao Li, Fanhu Zeng, Kaiyu Huang, Jinan Xu, Maosong Sun

O raciocínio visual latente visa imitar o processo de imaginação humana meditando através dos estados ocultos dos Modelos de Linguagem Multimodais de Grande Escala. Embora reconhecido como um paradigma promissor para o raciocínio visual, os mecanismos subjacentes que impulsionam sua eficácia permanecem obscuros. Motivados a desvendar a verdadeira fonte de sua eficácia, investigamos a validade do raciocínio latente usando Análise de Mediação Causal. Modelamos o processo como uma cadeia causal: a entrada como tratamento, os *tokens* latentes como mediador e a resposta final como resultado. Nossas descobertas revelam duas desconexões críticas: (a) Desconexão Entrada-Latente: perturbações drásticas na entrada resultam em alterações insignificantes nos *tokens* latentes, sugerindo que os *tokens* latentes não atendem efetivamente à sequência de entrada. (b) Desconexão Latente-Resposta: perturbações nos *tokens* latentes têm impacto mínimo na resposta final, indicando o limitado efeito causal que os *tokens* latentes exercem sobre o resultado. Além disso, uma extensa análise de *probing* revela que os *tokens* latentes codificam informações visuais limitadas e exibem alta similaridade. Consequentemente, questionamos a necessidade do raciocínio latente e propomos uma alternativa simples chamada CapImagine, que ensina o modelo a imaginar explicitamente usando texto. Experimentos em *benchmarks* centrados na visão mostram que o CapImagine supera significativamente as complexas linhas de base no espaço latente, destacando o potencial superior do raciocínio visual através da imaginação explícita.

Agente de LLM Aumentado por Memória Exploratória via Otimização Híbrida On- e Off-Policy
Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Feb 26

ByZeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

A exploração continua a ser o principal obstáculo para agentes de modelos de linguagem grandes treinados com aprendizagem por reforço. Embora os métodos anteriores explorem conhecimento pré-treinado, eles falham em ambientes que exigem a descoberta de estados novos. Propomos o EMPO² (Optimização de Políticas On- e Off-Policy com Memória Exploratória), uma estrutura híbrida de aprendizagem por reforço que aproveita a memória para exploração e combina atualizações on- e off-policy para fazer com que os LLMs tenham um bom desempenho com memória, garantindo também robustez sem ela. No ScienceWorld e no WebShop, o EMPO² alcança melhorias de 128,6% e 11,3% em relação ao GRPO, respetivamente. Além disso, em testes de dados fora da distribuição, o EMPO² demonstra uma adaptabilidade superior a novas tarefas, exigindo apenas algumas tentativas com memória e sem atualizações de parâmetros. Estes resultados destacam o EMPO² como uma estrutura promissora para a construção de agentes baseados em LLM mais exploratórios e generalizáveis.

AgentDropoutV2: Otimização do Fluxo de Informação em Sistemas Multiagente via Poda de Retificação ou Rejeição em Tempo de Teste
AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Feb 26

ByYutong Wang, Siyuan Xiong, Xuebo Liu, Wenkang Zhou, Liang Ding, Miao Zhang, Min Zhang

Embora os Sistemas Multiagente (MAS) se destaquem no raciocínio complexo, eles sofrem com o impacto em cascata de informações errôneas geradas por participantes individuais. As soluções atuais frequentemente recorrem a engenharia estrutural rígida ou a ajustes finos dispendiosos, limitando sua implantabilidade e adaptabilidade. Propomos o AgentDropoutV2, uma estrutura de poda de retificação ou rejeição em tempo de teste projetada para otimizar dinamicamente o fluxo de informações do MAS sem retreinamento. Nossa abordagem atua como um firewall ativo, interceptando as saídas dos agentes e empregando um retificador aumentado por recuperação para corrigir erros iterativamente com base em um pool de indicadores orientado por falhas. Este mecanismo permite a identificação precisa de erros potenciais usando padrões de falha destilados como conhecimento prévio. Saídas irreparáveis são subsequentemente podadas para evitar a propagação de erros, enquanto uma estratégia de contingência preserva a integridade do sistema. Resultados empíricos em extensos benchmarks matemáticos mostram que o AgentDropoutV2 aumenta significativamente o desempenho da tarefa do MAS, alcançando um ganho médio de precisão de 6,3 pontos percentuais em benchmarks matemáticos. Além disso, o sistema exibe generalização e adaptabilidade robustas, modulando dinamicamente os esforços de retificação com base na dificuldade da tarefa, enquanto aproveita indicadores conscientes do contexto para resolver um amplo espectro de padrões de erro. Nosso código e conjunto de dados estão disponíveis em https://github.com/TonySY2/AgentDropoutV2.

MediX-R1: Aprendizado por Reforço Médico de Final Aberto
MediX-R1: Open Ended Medical Reinforcement Learning

Feb 26

BySahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal

Apresentamos o MediX-R1, uma estrutura de Aprendizagem por Reforço (RL) de resposta aberta para modelos de linguagem grandes multimodais (MLLMs) médicos, que permite respostas de forma livre e clinicamente fundamentadas, indo além de formatos de múltipla escolha. O MediX-R1 ajusta finamente um modelo base de visão e linguagem com RL Baseado em Grupo e uma recompensa composta personalizada para o raciocínio médico: uma recompensa de precisão baseada em LLM que julga a correção semântica com uma decisão estrita de SIM/NÃO, uma recompensa semântica baseada em *embeddings* médicos para capturar paráfrases e variantes terminológicas, e recompensas leves de formato e modalidade que impõem o raciocínio interpretável e o reconhecimento de modalidade. Este design de múltiplos sinais fornece um *feedback* estável e informativo para saídas de resposta aberta, onde as recompensas tradicionais verificáveis ou baseadas apenas em MCQ são insuficientes. Para medir o progresso, propomos uma estrutura de avaliação unificada para tarefas apenas de texto e de imagem+texto que utiliza um LLM-como-juiz Baseado em Referência em substituição a métricas frágeis de sobreposição de texto, capturando a correção semântica, o raciocínio e o alinhamento contextual. Apesar de usar apenas 51K exemplos de instrução simulados, o MediX-R1 alcança excelentes resultados em *benchmarks* padrão de LLM médico (apenas texto) e VLM (imagem + texto), superando fortes *baselines* de código aberto e proporcionando ganhos particularmente grandes em tarefas clínicas de resposta aberta. Os nossos resultados demonstram que a RL de resposta aberta com sinais de recompensa abrangentes e avaliação baseada em LLM é um caminho prático para um raciocínio médico confiável em modelos multimodais. Os nossos modelos treinados, conjuntos de dados curados e código-fonte estão disponíveis em https://medix.cvmbzuai.com.

Buscar Mais, Pensar Menos: Repensando a Busca Agente de Longo Horizonte para Eficiência e Generalização
Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Feb 26

ByQianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu, Yuchen Eleanor Jiang, Wangchunshu Zhou

Os agentes de pesquisa profunda recentes melhoram principalmente o desempenho através da escalagem da profundidade do raciocínio, mas isso resulta em alto custo de inferência e latência em cenários de busca intensiva. Além disso, a generalização entre ambientes de pesquisa heterogéneos continua a ser um desafio. Neste trabalho, propomos o Search More, Think Less (SMTL), uma estrutura para busca agentiva de longo horizonte que visa simultaneamente eficiência e generalização. O SMTL substitui o raciocínio sequencial pela aquisição paralela de evidências, permitindo uma gestão eficiente do contexto sob orçamentos de contexto restritos. Para suportar a generalização entre tipos de tarefas, introduzimos ainda um pipeline unificado de síntese de dados que constrói tarefas de busca abrangendo tanto cenários de resposta a perguntas determinísticas como cenários de pesquisa abertos, com métricas de avaliação apropriadas para cada tarefa. Treinamos um agente de ponta a ponta usando afinação supervisionada e aprendizagem por reforço, alcançando um desempenho forte e frequentemente estado da arte em várias benchmarks, incluindo BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) e DeepResearch Bench (45,9%). Em comparação com o Mirothinker-v1.0, o SMTL com um máximo de 100 passos de interação reduz o número médio de passos de raciocínio no BrowseComp em 70,7%, enquanto melhora a precisão.

VGG-T^3: Reconstrução 3D Feed-Forward Offline em Escala
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

Feb 26

BySven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep

Apresentamos um modelo de reconstrução 3D escalável que aborda uma limitação crítica dos métodos *feed-forward* offline: seus requisitos computacionais e de memória crescem quadraticamente em relação ao número de imagens de entrada. Nossa abordagem é baseada na intuição fundamental de que esse gargalo decorre da representação do espaço Chave-Valor (KV) de comprimento variável da geometria da cena, que destilamos em uma *Multi-Layer Perceptron* (MLP) de tamanho fixo por meio de treinamento no momento do teste. O VGG-T³ (*Visual Geometry Grounded Test Time Training*) escala linearmente em relação ao número de visualizações de entrada, de forma semelhante aos modelos online, e reconstrói um conjunto de 1.000 imagens em apenas 54 segundos, alcançando uma aceleração de 11,6 vezes em relação às linhas de base que dependem de atenção *softmax*. Uma vez que nosso método mantém a capacidade de agregação global da cena, nosso erro de reconstrução do mapa de pontos supera outros métodos de tempo linear por amplas margens. Por fim, demonstramos as capacidades de localização visual do nosso modelo consultando a representação da cena com imagens não vistas.

Aceleração da Difusão via Paralelismo Híbrido de Pipeline de Dados Baseado no Escalonamento de Orientação Condicional
Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Feb 25

ByEuisoo Jung, Byunghyun Kim, Hyunjin Kim, Seonghye Cho, Jae-Gil Lee

Os modelos de difusão alcançaram progressos notáveis na geração de imagens, vídeos e áudio de alta fidelidade, porém a inferência permanece computacionalmente custosa. No entanto, os métodos atuais de aceleração de difusão baseados em paralelismo distribuído sofrem com artefatos de geração perceptíveis e não conseguem alcançar uma aceleração substancial proporcional ao número de GPUs. Portanto, propomos uma estrutura de paralelismo híbrida que combina uma nova estratégia de paralelismo de dados, o particionamento baseado em condições, com um método ótimo de escalonamento de pipeline, a comutação adaptativa de paralelismo, para reduzir a latência de geração e alcançar alta qualidade de geração em modelos de difusão condicionais. As ideias-chave são (i) aproveitar os caminhos de remoção de ruído condicionais e incondicionais como uma nova perspectiva de particionamento de dados e (ii) ativar de forma adaptativa o paralelismo de pipeline ótimo de acordo com a discrepância de remoção de ruído entre esses dois caminhos. Nossa estrutura alcança reduções de latência de 2,31 vezes e 2,07 vezes em SDXL e SD3, respectivamente, usando duas GPUs NVIDIA RTX~3090, preservando a qualidade da imagem. Este resultado confirma a generalidade da nossa abordagem em modelos de difusão baseados em U-Net e arquiteturas de correspondência de fluxo baseadas em DiT. Nossa abordagem também supera os métodos existentes em aceleração sob configurações de síntese de alta resolução. O código está disponível em https://github.com/kaist-dmlab/Hybridiff.

Avaliação de Agente Geral
General Agent Evaluation

Feb 26

ByElron Bandel, Asaf Yehudai, Lilach Eden, Yehoshua Sagron, Yotam Perlitz, Elad Venezian, Natalia Razinkov, Natan Ergas, Shlomit Shachor Ifergan, Segev Shlomov, Michal Jacovi, Leshem Choshen, Liat Ein-Dor, Yoav Katz, Michal Shmueli-Scheuer

A promessa de agentes de propósito geral - sistemas que executam tarefas em ambientes não familiares sem engenharia específica de domínio - permanece em grande parte não realizada. Os agentes existentes são predominantemente especializados, e embora implementações emergentes como o OpenAI SDK Agent e o Claude Code sugiram capacidades mais amplas, nenhuma avaliação sistemática de seu desempenho geral foi realizada. Os benchmarks atuais para agentes pressupõem integração específica de domínio, codificando informações de tarefas de maneiras que impedem uma avaliação justa de agentes gerais. Este artigo enquadra a avaliação de agentes gerais como um objetivo de pesquisa de primeira classe. Propomos princípios conceituais para tal avaliação, um Protocolo Unificado que permite a integração agente-benchmark, e Exgentic - uma estrutura prática para avaliação de agentes gerais. Avaliamos cinco implementações proeminentes de agentes em seis ambientes como o primeiro Leaderboard Aberto de Agentes Gerais. Nossos experimentos mostram que agentes gerais se generalizam em diversos ambientes, alcançando desempenho comparável ao de agentes específicos de domínio sem qualquer ajuste específico do ambiente. Disponibilizamos nosso protocolo de avaliação, estrutura e leaderboard para estabelecer uma base para pesquisa sistemática sobre agentes de propósito geral.

EmbodMocap: Reconstrução 4D Pessoa-Cena em Ambiente Natural para Agentes Corporificados
EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

Feb 26

ByWenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura

Os comportamentos humanos no mundo real codificam naturalmente informações contextuais ricas e de longo prazo que podem ser aproveitadas para treinar agentes corporificados para percepção, compreensão e ação. No entanto, os sistemas de captura existentes geralmente dependem de configurações de estúdio dispendiosas e dispositivos vestíveis, limitando a coleta em larga escala de dados de movimento humano condicionados à cena em ambientes naturais. Para resolver isso, propomos o EmbodMocap, um pipeline de coleta de dados portátil e acessível que utiliza dois iPhones em movimento. Nossa ideia principal é calibrar conjuntamente sequências duplas de RGB-D para reconstruir tanto humanos quanto cenários dentro de um sistema de coordenadas mundial métrico unificado. O método proposto permite a captura em escala métrica e consistente com a cena em ambientes cotidianos, sem a necessidade de câmeras estáticas ou marcadores, integrando perfeitamente o movimento humano e a geometria da cena. Em comparação com a verdade terrestre de captura óptica, demonstramos que a configuração de visão dupla exibe uma capacidade notável de mitigar a ambiguidade de profundidade, alcançando um alinhamento e desempenho de reconstrução superiores aos modelos de iPhone único ou monoculares. Com base nos dados coletados, capacitamos três tarefas de IA corporificada: reconstrução monocular humano-cenário, na qual afinamos modelos *feedforward* que produzem humanos e cenários alinhados no espaço mundial em escala métrica; animação de personagens baseada em física, onde provamos que nossos dados podem ser usados para escalar habilidades de interação humano-objeto e rastreamento de movimento consciente do cenário; e controle de movimento robótico, onde treinamos um robô humanóide via RL *sim-to-real* para replicar movimentos humanos retratados em vídeos. Os resultados experimentais validam a eficácia do nosso *pipeline* e suas contribuições para o avanço da pesquisa em IA corporificada.

AI Gamestore: Avaliação Escalável e Aberta da Inteligência Geral de Máquinas através de Jogos Humanos
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Feb 19

ByLance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum

A avaliação rigorosa da inteligência das máquinas em comparação com o amplo espectro da inteligência geral humana tornou-se cada vez mais importante e desafiadora nesta era de rápido avanço tecnológico. Os benchmarks convencionais de IA normalmente avaliam apenas capacidades específicas em um leque limitado de atividades humanas. A maioria também é estática, saturando-se rapidamente à medida que os desenvolvedores otimizam para eles, explícita ou implicitamente. Propomos que uma forma mais promissora de avaliar a inteligência geral semelhante à humana em sistemas de IA é através de uma forma particularmente forte de jogo geral: estudar como e quão bem eles jogam e aprendem a jogar todos os jogos humanos concebíveis, em comparação com jogadores humanos com o mesmo nível de experiência, tempo ou outros recursos. Definimos um "jogo humano" como um jogo concebido por humanos para humanos, e argumentamos a favor da adequação avaliativa deste espaço de todos os jogos que as pessoas podem imaginar e desfrutar – o "Multiverso dos Jogos Humanos". Dando um primeiro passo em direção a esta visão, apresentamos o AI GameStore, uma plataforma escalável e de natureza aberta que utiliza LLMs com humanos no ciclo para sintetizar novos jogos humanos representativos, através do fornecimento e adaptação automáticos de variantes padronizadas e containerizadas de ambientes de jogo a partir de plataformas populares de jogos digitais humanos. Como prova de conceito, gerámos 100 desses jogos com base nos rankings principais da Apple App Store e da Steam, e avaliamos sete modelos de visão e linguagem (VLMs) de vanguarda em episódios curtos de jogo. Os melhores modelos alcançaram menos de 10% da pontuação média humana na maioria dos jogos, e lutaram especialmente com jogos que desafiam a aprendizagem de modelos do mundo, a memória e o planeamento. Concluímos com um conjunto de próximos passos para desenvolver o AI GameStore como uma forma prática de medir e impulsionar o progresso em direção a uma inteligência geral semelhante à humana em máquinas.

GeoWorld: Modelos Mundiais Geométricos
GeoWorld: Geometric World Models

Feb 26

ByZeyu Zhang, Danning Li, Ian Reid, Richard Hartley

Os modelos preditivos de mundo baseados em energia oferecem uma abordagem poderosa para planejamento visual multi-etapa ao raciocinar sobre paisagens de energia latentes em vez de gerar pixels. No entanto, as abordagens existentes enfrentam dois grandes desafios: (i) suas representações latentes são tipicamente aprendidas em espaço Euclidiano, negligenciando a estrutura geométrica e hierárquica subjacente entre estados, e (ii) elas lutam com previsão de longo horizonte, o que leva à rápida degradação ao longo de rollouts estendidos. Para enfrentar esses desafios, introduzimos o GeoWorld, um modelo de mundo geométrico que preserva a estrutura geométrica e relações hierárquicas através de um JEPA Hiperbólico, que mapeia representações latentes do espaço Euclidiano para variedades hiperbólicas. Introduzimos ainda o Reforço Geométrico de Aprendizagem para otimização baseada em energia, permitindo planejamento multi-etapa estável no espaço latente hiperbólico. Experimentos extensivos no CrossTask e COIN demonstram uma melhoria de aproximadamente 3% na Taxa de Sucesso (SR) no planejamento de 3 etapas e 2% de melhoria na SR no planejamento de 4 etapas em comparação com o estado da arte V-JEPA 2. Site do projeto: https://steve-zeyu-zhang.github.io/GeoWorld.

Modelos de Difusão de Movimento Causal para Geração Autoregressiva de Movimento
Causal Motion Diffusion Models for Autoregressive Motion Generation

Feb 26

ByQing Yu, Akihisa Watanabe, Kent Fujiwara

Os recentes avanços nos modelos de difusão de movimento melhoraram substancialmente o realismo da síntese de movimento humano. No entanto, as abordagens existentes dependem de modelos de difusão de sequência completa com geração bidirecional, o que limita a causalidade temporal e a aplicabilidade em tempo real, ou de modelos autorregressivos que sofrem com instabilidade e erros cumulativos. Neste trabalho, apresentamos os Modelos de Difusão de Movimento Causal (CMDM), uma estrutura unificada para geração autorregressiva de movimento baseada em um transformador de difusão causal que opera em um espaço latente semanticamente alinhado. O CMDM é construído sobre um Causal VAE Alinhado com Linguagem de Movimento (MAC-VAE), que codifica sequências de movimento em representações latentes temporalmente causais. Sobre esta representação latente, um transformador de difusão autorregressivo é treinado usando forçamento de difusão causal para realizar desruído ordenado temporalmente entre os quadros de movimento. Para alcançar inferência rápida, introduzimos um esquema de amostragem por quadro com incerteza causal, onde cada quadro subsequente é previsto a partir de quadros anteriores parcialmente desruídos. A estrutura resultante suporta geração de texto para movimento de alta qualidade, síntese em fluxo contínuo e geração de movimento de longo horizonte em taxas interativas. Experimentos no HumanML3D e SnapMoGen demonstram que o CMDM supera os modelos de difusão e autorregressivos existentes tanto em fidelidade semântica quanto em suavidade temporal, enquanto reduz substancialmente a latência de inferência.

veScale-FSDP: FSDP Flexível e de Alto Desempenho em Escala
veScale-FSDP: Flexible and High-Performance FSDP at Scale

Feb 25

ByZezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu

O Fully Sharded Data Parallel (FSDP), também conhecido como ZeRO, é amplamente utilizado para treinar modelos de grande escala, destacando-se pela sua flexibilidade e intrusão mínima no código do modelo. No entanto, os sistemas FSDP atuais enfrentam dificuldades com métodos de treinamento com consciência estrutural (por exemplo, treinamento quantizado em blocos) e com otimizadores não elementares (por exemplo, Shampoo e Muon) usados em modelos de ponta (por exemplo, Gemini, Kimi K2). Os formatos de fragmentação fixos, por elemento ou por linha, do FSDP entram em conflito com os cálculos de estrutura em blocos. Além disso, as implementações atuais são insuficientes em termos de eficiência de comunicação e memória, limitando a escalabilidade para dezenas de milhares de GPUs. Apresentamos o veScale-FSDP, um sistema FSDP redesenhado que combina um formato de fragmentação flexível, o RaggedShard, com um algoritmo de planeamento com consciência estrutural para oferecer flexibilidade e desempenho em escala. O veScale-FSDP suporta nativamente o posicionamento eficiente de dados exigido pelo FSDP, permitindo a quantização em blocos e otimizadores não elementares. Como resultado, o veScale-FSDP alcança um throughput 5~66% superior e um uso de memória 16~30% inferior aos sistemas FSDP existentes, escalando eficientemente para dezenas de milhares de GPUs.

Recuperar e Segmentar: Alguns Exemplos São Suficientes para Preencher a Lacuna de Supervisão na Segmentação de Vocabulário Aberto?
Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Feb 26

ByTilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias

A segmentação de vocabulário aberto (SVA) estende as capacidades de reconhecimento zero-shot dos modelos visão-linguagem (MVLs) para a previsão em nível de pixel, permitindo a segmentação de categorias arbitrárias especificadas por prompts de texto. Apesar dos progressos recentes, a SVA fica atrás das abordagens totalmente supervisionadas devido a dois desafios: a supervisão em nível de imagem, de baixo detalhe, usada para treinar os MVLs e a ambiguidade semântica da linguagem natural. Nós abordamos essas limitações introduzindo um cenário de poucas amostras (few-shot) que aumenta os prompts textuais com um conjunto de suporte de imagens anotadas em pixel. Com base nisso, propomos um adaptador de teste aumentado por recuperação (retrieval) que aprende um classificador leve, por imagem, fundindo características de suporte textuais e visuais. Diferente de métodos anteriores que dependem de uma fusão tardia e manualmente elaborada, nossa abordagem realiza uma fusão aprendida e por consulta, alcançando uma sinergia mais forte entre as modalidades. O método suporta conjuntos de suporte em expansão contínua e se aplica a tarefas de granularidade fina, como a segmentação personalizada. Experimentos mostram que reduzimos significativamente a lacuna entre a segmentação zero-shot e a supervisionada, preservando a capacidade de vocabulário aberto.

Erros de Superconfiança Exigem Correção Mais Forte: Penalidades de Confiança Assimétricas para Aprendizagem por Reforço
Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Feb 24

ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se o paradigma dominante para aprimorar o raciocínio em Modelos de Linguagem de Grande Escala (LLMs). No entanto, os algoritmos padrão de RLVR sofrem de uma patologia bem documentada: embora melhorem a precisão Pass@1 por meio de uma amostragem mais aguçada, eles simultaneamente estreitam a fronteira de raciocínio do modelo e reduzem a diversidade das gerações. Identificamos uma causa fundamental que os métodos existentes negligenciam: a penalização uniforme de erros. As abordagens atuais – sejam métodos de filtragem de dados que selecionam *prompts* por dificuldade, ou esquemas de normalização de vantagem – tratam todos os *rollouts* incorretos dentro de um grupo de forma idêntica. Mostramos que essa uniformidade permite que erros superconfiantes (caminhos de raciocínio incorretos que o processo de RL reforçou espuriamente) persistam e monopolizem a massa de probabilidade, suprimindo, em última análise, trajetórias exploratórias válidas. Para resolver isso, propomos a Penalidade de Erro Assimétrica com Consciência de Confiança (ACE). A ACE introduz uma métrica de deslocamento de confiança por *rollout*, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), para modular dinamicamente as vantagens negativas. Teoricamente, demonstramos que o gradiente da ACE pode ser decomposto no gradiente de um regularizador seletivo restrito a erros superconfiantes, mais um residual bem caracterizado que modera parcialmente a força do regularizador. Realizamos extensivos experimentos de *fine-tuning* dos modelos Qwen2.5-Math-7B, Qwen3-8B-Base e Llama-3.1-8B-Instruct no conjunto de dados DAPO-Math-17K usando GRPO e DAPO dentro da estrutura VERL. Avaliados no MATH-500 e no AIME 2025, a ACE compõe-se perfeitamente com métodos existentes e melhora consistentemente todo o espectro Pass@k em todas as três famílias de modelos e *benchmarks*.

O que Define uma Boa Consulta? Medindo o Impacto de Características Linguísticas Confusas para Humanos no Desempenho de LLMs
What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

Feb 23

ByWilliam Watson, Nicole Cho, Sumitra Ganesh, Manuela Veloso

As alucinações em Modelos de Linguagem de Grande Porte (LLMs) são geralmente tratadas como defeitos do modelo ou de sua estratégia de decodificação. Com base na linguística clássica, argumentamos que a forma de uma consulta também pode moldar a resposta de um ouvinte (e do modelo). Operacionalizamos essa percepção construindo um vetor de características de consulta de 22 dimensões, abrangendo complexidade de cláusulas, raridade lexical, e o fundamento de anáfora, negação, capacidade de resposta e intenção, todos conhecidos por afetar a compreensão humana. Utilizando 369.837 consultas do mundo real, perguntamos: existem certos tipos de consultas que tornam a alucinação mais provável? Uma análise em larga escala revela um "panorama de risco" consistente: certas características, como o aninhamento profundo de cláusulas e a subespecificação, estão alinhadas com uma maior propensão à alucinação. Em contraste, um fundamento de intenção claro e a capacidade de resposta estão alinhados com taxas mais baixas de alucinação. Outras, incluindo a especificidade de domínio, mostram efeitos mistos, dependentes do conjunto de dados e do modelo. Assim, esses achados estabelecem uma representação empiricamente observável de características da consulta correlacionada com o risco de alucinação, pavimentando o caminho para a reescrita guiada de consultas e futuros estudos de intervenção.

DLT-Corpus: Uma Coleção de Textos em Larga Escala para o Domínio da Tecnologia de Ledger Distribuído
DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Feb 25

ByWalter Hernandez Cruz, Peter Devine, Nikhil Vadgama, Paolo Tasca, Jiahua Xu

Apresentamos o DLT-Corpus, a maior coleção de textos de domínio específico para pesquisa em Tecnologia de Ledger Distribuído (DLT) até à data: 2,98 mil milhões de tokens provenientes de 22,12 milhões de documentos, abrangendo literatura científica (37.440 publicações), patentes do United States Patent and Trademark Office (USPTO) (49.023 registos) e redes sociais (22 milhões de publicações). Os recursos existentes de Processamento de Linguagem Natural (PLN) para DLT focam-se estreitamente na previsão do preço de criptomoedas e em contratos inteligentes, deixando a linguagem específica do domínio subexplorada, apesar da capitalização de mercado do setor de aproximadamente 3 biliões de dólares e da sua rápida evolução tecnológica. Demonstramos a utilidade do DLT-Corpus através da análise de padrões de emergência tecnológica e correlações entre mercado e inovação. Os resultados revelam que as tecnologias têm origem na literatura científica antes de chegarem às patentes e redes sociais, seguindo os padrões tradicionais de transferência de tecnologia. Enquanto o sentimento nas redes sociais se mantém esmagadoramente optimista, mesmo durante os "invernos" das criptomoedas, a atividade científica e de patentes cresce independentemente das flutuações do mercado, acompanhando a expansão geral do mercado num ciclo virtuoso em que a investigação precede e possibilita o crescimento económico, que por sua vez financia mais inovação. Disponibilizamos publicamente o DLT-Corpus completo; o LedgerBERT, um modelo adaptado ao domínio que alcança uma melhoria de 23% face ao BERT-base numa tarefa de Reconhecimento de Entidades Mencionadas (REM) específica para DLT; e todas as ferramentas e códigos associados.

Não Há Uma Solução Única: QueryBandits para Mitigação de Alucinações
No One Size Fits All: QueryBandits for Hallucination Mitigation

Feb 23

ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

As capacidades avançadas de raciocínio em Modelos de Linguagem de Grande Porte (LLMs) têm levado a alucinações mais frequentes; no entanto, a maior parte do trabalho de mitigação foca-se em modelos de código aberto para deteção pós-hoc e edição de parâmetros. A escassez de estudos que se concentram em alucinações em modelos de código fechado é especialmente preocupante, uma vez que estes constituem a vasta maioria dos modelos em implementações institucionais. Apresentamos os QueryBandits, uma estrutura de bandidos contextuais agnóstica ao modelo que aprende adaptativamente online para selecionar a estratégia ótima de reformulação de consultas, aproveitando uma função de recompensa empiricamente validada e calibrada. Em 16 cenários de Pergunta-Resposta, o nosso melhor QueryBandit (Amostragem de Thompson) alcança uma taxa de sucesso de 87,5% sobre uma linha de base Sem Reformulação e supera políticas estáticas de zero-shot (por exemplo, Parafrasear ou Expandir) em 42,6% e 60,3%, respetivamente. Além disso, todos os bandidos contextuais superam bandidos simples em todos os conjuntos de dados, com uma maior variância de características coincidindo com uma maior variância na seleção de braços. Isto corrobora a nossa descoberta de que não existe uma única política de reformulação ótima para todas as consultas. Também descobrimos que certas políticas estáticas incorrem em um arrependimento cumulativo maior do que Sem Reformulação, indicando que uma política de reformulação de consultas inflexível pode piorar as alucinações. Assim, aprender uma política online sobre características semânticas com os QueryBandits pode alterar o comportamento do modelo apenas através de mecanismos de passagem direta (forward-pass), permitindo o seu uso com modelos de código fechado e contornando a necessidade de re-treino ou adaptação baseada em gradientes.

Controle Preditivo de Modelo de Mundo com Consciência de Risco para Condução Autônoma de Ponta a Ponta Generalizável
Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Feb 26

ByJiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe

Com os avanços na aprendizagem por imitação (IL) e os grandes conjuntos de dados de condução, a condução autónoma de ponta a ponta (E2E-AD) tem registado grandes progressos recentemente. Atualmente, os métodos baseados em IL tornaram-se um paradigma dominante: os modelos baseiam-se em comportamentos de condução padrão fornecidos por especialistas e aprendem a minimizar a discrepância entre as suas ações e as ações do especialista. No entanto, este objetivo de "apenas conduzir como o especialista" sofre de generalização limitada: ao deparar-se com cenários raros ou de cauda longa não observados, fora da distribuição das demonstrações do especialista, os modelos tendem a produzir decisões inseguras na ausência de experiência prévia. Isto levanta uma questão fundamental: Pode um sistema E2E-AD tomar decisões fiáveis sem qualquer supervisão de ações de especialistas? Motivados por isto, propomos um quadro unificado denominado Controlo Preditivo de Modelo do Mundo com Consciência de Risco (RaWMPC) para resolver este dilema de generalização através de controlo robusto, sem depender de demonstrações de especialistas. Na prática, o RaWMPC aproveita um modelo do mundo para prever as consequências de múltiplas ações candidatas e seleciona ações de baixo risco através de uma avaliação explícita de risco. Para dotar o modelo do mundo da capacidade de prever os resultados de comportamentos de condução de risco, concebemos uma estratégia de interação com consciência de risco que expõe sistematicamente o modelo do mundo a comportamentos perigosos, tornando os resultados catastróficos previsíveis e, assim, evitáveis. Além disso, para gerar ações candidatas de baixo risco durante o teste, introduzimos um método de destilação por autoavaliação para destilar capacidades de evitamento de risco do modelo do mundo bem treinado para uma rede generativa de proposta de ações, sem qualquer demonstração de especialista. Experiências extensivas mostram que o RaWMPC supera os métodos mais avançados tanto em cenários dentro como fora da distribuição, ao mesmo tempo que fornece uma interpretabilidade de decisão superior.

MedCLIPSeg: Adaptação Probabilística Visão-Linguagem para Segmentação de Imagens Médicas Eficiente em Dados e Generalizável
MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Feb 23

ByTaha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari, Berardino Barile, Yiming Xiao, Hassan Rivaz

A segmentação de imagens médicas continua a ser um desafio devido à escassez de anotações para treinamento, características anatômicas ambíguas e variações de domínio. Embora modelos de visão e linguagem, como o CLIP, ofereçam representações cruzadas robustas, o seu potencial para a segmentação densa de imagens médicas guiada por texto permanece pouco explorado. Apresentamos o MedCLIPSeg, uma estrutura inovadora que adapta o CLIP para uma segmentação de imagens médica robusta, eficiente em dados e consciente da incerteza. Nossa abordagem aproveita os embeddings do CLIP a nível de *patch* por meio de atenção cruzada probabilística, permitindo uma interação bidirecional entre os *tokens* de imagem e texto e uma modelagem explícita da incerteza preditiva. Juntamente com uma função de perda contrastiva suave a nível de *patch* que incentiva uma aprendizagem semântica mais refinada através de diversos *prompts* textuais, o MedCLIPSeg melhora eficazmente a eficiência de dados e a generalização de domínio. Experimentos extensos em 16 conjuntos de dados, abrangendo cinco modalidades de imagem e seis órgãos, demonstram que o MedCLIPSeg supera métodos anteriores em precisão, eficiência e robustez, fornecendo simultaneamente mapas de incerteza interpretáveis que destacam a confiabilidade local dos resultados de segmentação. Este trabalho demonstra o potencial da modelagem probabilística de visão e linguagem para a segmentação de imagens médicas orientada por texto.

DyaDiT: Um Transformador de Difusão Multimodal para Geração Socialmente Favorável de Gestos Diádicos
DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Feb 26

ByYichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani

A geração de gestos conversacionais realistas é essencial para alcançar interações naturais e socialmente envolventes com humanos digitais. No entanto, os métodos existentes geralmente mapeiam um único fluxo de áudio para o movimento de um único orador, sem considerar o contexto social ou modelar a dinâmica mútua entre duas pessoas envolvidas em uma conversa. Apresentamos o DyaDiT, um transformer de difusão multimodal que gera movimento humano contextualmente apropriado a partir de sinais de áudio diádicos. Treinado no Seamless Interaction Dataset, o DyaDiT utiliza áudio diádico com *tokens* de contexto social opcionais para produzir movimentos contextualmente adequados. Ele funde informações de ambos os oradores para capturar a dinâmica da interação, usa um dicionário de movimento para codificar *priors* de movimento e pode, opcionalmente, utilizar os gestos do parceiro conversacional para produzir movimentos mais responsivos. Avaliamos o DyaDiT em métricas padrão de geração de movimento e realizamos estudos de usuário quantitativos, demonstrando que ele não apenas supera os métodos existentes em métricas objetivas, mas também é fortemente preferido pelos usuários, destacando sua robustez e geração de movimento socialmente favorável. O código e os modelos serão disponibilizados após a aceitação.

Ecos ao Longo do Tempo: Desbloqueando a Generalização de Duração em Modelos de Geração de Vídeo para Áudio
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Feb 24

ByChristian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji

A escalabilidade do alinhamento multimodal entre vídeo e áudio é um desafio, particularmente devido aos dados limitados e ao descompasso entre as descrições textuais e a informação vídeo a nível de *frame*. Neste trabalho, abordamos o desafio de escalabilidade na geração multimodal-para-áudio, investigando se modelos treinados em instâncias curtas podem generalizar para instâncias mais longas durante os testes. Para enfrentar este desafio, apresentamos redes hierárquicas multimodais, denominadas MMHNet, uma extensão aprimorada dos modelos state-of-the-art de vídeo-para-áudio. A nossa abordagem integra um método hierárquico e Mamba não causal para suportar a geração de áudio de longa duração. O nosso método proposto melhora significativamente a geração de áudio longo, até mais de 5 minutos. Também provamos que treinar com dados curtos e testar com dados longos é possível nas tarefas de geração de vídeo-para-áudio sem treinar nas durações mais longas. Mostramos nas nossas experiências que o nosso método proposto pode alcançar resultados notáveis em *benchmarks* de vídeo longo para áudio, superando trabalhos anteriores em tarefas de vídeo-para-áudio. Além disso, demonstramos a capacidade do nosso modelo em gerar mais de 5 minutos, enquanto os métodos anteriores de vídeo-para-áudio se mostram incapazes de gerar áudio com durações longas.

Transferência de Aprendizado entre Dados MEG e Detecção Cruzada de Fala/Silêncio com Dados Limitados
MEG-to-MEG Transfer Learning and Cross-Task Speech/Silence Detection with Limited Data

Feb 20

ByXabier de Zuazo, Vincenzo Verbeni, Eva Navas, Ibon Saratxaga, Mathieu Bourguignon, Nicola Molinaro

A decodificação neural eficiente em dados é um desafio central para as interfaces cérebro-computador de fala. Apresentamos a primeira demonstração de aprendizagem por transferência e decodificação cruzada de tarefas para modelos de fala baseados em MEG, abrangendo perceção e produção. Pré-treinamos um modelo baseado no Conformer com 50 horas de dados de audição de um único sujeito e afinamos com apenas 5 minutos por sujeito em 18 participantes. A aprendizagem por transferência produz melhorias consistentes, com ganhos de precisão intra-tarefa de 1-4% e ganhos cruzados maiores de até 5-6%. Não só o pré-treinamento melhora o desempenho dentro de cada tarefa, como também permite uma decodificação cruzada confiável entre a perceção e a produção. Crucialmente, os modelos treinados na produção de fala decodificam a audição passiva acima do acaso, confirmando que as representações aprendidas refletem processos neurais partilhados e não atividade motora específica da tarefa.

Aprendizagem Contínua Eficiente em Modelos de Linguagem via Colunas Corticais Roteadas pelo Tálamo
Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Feb 25

ByAfshin Khadangi

A aprendizagem contínua é um requisito fundamental para modelos de linguagem em produção, contudo, os fluxos padrão de treinamento e *fine-tuning* permanecem frágeis perante dados não estacionários. Atualizações online frequentemente induzem o esquecimento catastrófico, enquanto métodos que melhoram a estabilidade geralmente aumentam a latência, a pegada de memória ou a computação densa de formas que não são escaláveis para contextos longos. Apresentamos o TRC² (*Thalamically Routed Cortical Columns*), uma arquitetura base *decoder-only* que aborda a aprendizagem contínua a nível arquitetural. O TRC² combina o roteamento talâmico esparso sobre colunas corticais com mecanismos de modulação, predição, memória e *feedback*, juntamente com uma via corretiva rápida que suporta adaptação rápida sem desestabilizar parâmetros mais lentos. O bloco resultante é esparso e paralelizável por *chunks*, permitindo treinamento e inferência eficientes enquanto preserva *ablations* limpas de cada subsistema. Instanciamos uma pilha de treinamento e avaliação reproduzível e um *harness* de aprendizagem contínua que mede o esquecimento por procuração sob mudanças de domínio em fluxo. Em benchmarks de modelagem de linguagem e aprendizagem contínua, o TRC² melhora o equilíbrio estabilidade-plasticidade com custo computacional comparável, permitindo rápida adaptação em fluxo enquanto preserva comportamentos previamente adquiridos.