HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

33 papers found

Raciocínio Eficiente com Pensamento Equilibrado
Efficient Reasoning with Balanced Thinking

Mar 12

ByYulin Li, Tengyao Tu, Li Ding, Junjie Wang, Huiling Zhen, Yixin Chen, Yong Li, Zhuotao Tian

127

Os Grandes Modelos de Raciocínio (LRMs) demonstraram capacidades notáveis de raciocínio, mas frequentemente sofrem com *overthinking* (pensar demais), gastando etapas computacionais redundantes em problemas simples, ou *underthinking* (pensar de menos), falhando em explorar caminhos de raciocínio suficientes apesar de suas capacidades inerentes. Esses problemas levam a ineficiências e possíveis imprecisões, limitando a implantação prática em ambientes com recursos limitados. Os métodos existentes para mitigar o *overthinking*, como suprimir palavras-chave reflexivas ou ajustar o comprimento do raciocínio, podem inadvertidamente induzir *underthinking*, comprometendo a precisão. Portanto, propomos o ReBalance, uma estrutura *training-free* (sem necessidade de treinamento) que alcança um raciocínio eficiente com pensamento equilibrado. O ReBalance aproveita a confiança como um indicador contínuo da dinâmica do raciocínio, identificando o *overthinking* através de alta variância de confiança e o *underthinking* via superconfiança consistente. Ao agregar estados ocultos de um conjunto de dados de pequena escala em protótipos de modo de raciocínio, calculamos um vetor de direcionamento para guiar as trajetórias de raciocínio dos LRMs. Uma função de controle dinâmico modula a força e direção deste vetor com base na confiança em tempo real, podando a redundância durante o *overthinking* e promovendo a exploração durante o *underthinking*. Extensos experimentos conduzidos em quatro modelos variando de 0,5B a 32B, e em nove *benchmarks* de raciocínio matemático, perguntas e respostas gerais e tarefas de codificação demonstram que o ReBalance reduz efetivamente a redundância na saída enquanto melhora a precisão, oferecendo uma estratégia geral, *training-free* e *plug-and-play* para uma implantação eficiente e robusta de LRMs. O código está disponível em https://github.com/yu-lin-li/ReBalance.

MetaClaw: Apenas Fale — Um Agente que Meta-Aprende e Evolui em Ambiente Real
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Mar 17

ByPeng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao

110

Os agentes de modelos de linguagem de grande porte (LLM) são cada vez mais utilizados para tarefas complexas, mas os agentes implantados frequentemente permanecem estáticos, falhando em se adaptar à medida que as necessidades dos usuários evoluem. Isso cria uma tensão entre a necessidade de serviço contínuo e a necessidade de atualizar capacidades para corresponder às distribuições de tarefas em mudança. Em plataformas como a OpenClaw, que gerencia cargas de trabalho diversificadas em mais de 20 canais, os métodos existentes ou armazenam trajetórias brutas sem destilar conhecimento, mantêm bibliotecas de habilidades estáticas ou exigem tempo de inatividade disruptivo para novo treinamento. Apresentamos o MetaClaw, um framework de meta-aprendizado contínuo que evolui conjuntamente uma política base de LLM e uma biblioteca de habilidades comportamentais reutilizáveis. O MetaClaw emprega dois mecanismos complementares. A adaptação rápida orientada por habilidades analisa trajetórias de falha via um evolucionador de LLM para sintetizar novas habilidades, permitindo melhoria imediata com tempo de inatividade zero. A otimização oportunista de políticas realiza atualizações baseadas em gradiente via ajuste fino LoRA na nuvem e Aprendizado por Reforço com um Modelo de Recompensa de Processo (RL-PRM). Isso é acionado durante janelas de inatividade do usuário pelo Agendador de Meta-Aprendizado Oportunista (OMLS), que monitora a inatividade do sistema e dados de calendário. Estes mecanismos são mutuamente reforçadores: uma política refinada gera melhores trajetórias para síntese de habilidades, enquanto habilidades mais ricas fornecem dados de maior qualidade para otimização de políticas. Para evitar contaminação de dados, um mecanismo de versionamento separa os dados de suporte e consulta. Construído sobre uma arquitetura baseada em proxy, o MetaClaw escala para LLMs de tamanho de produção sem GPUs locais. Experimentos no MetaClaw-Bench e AutoResearchClaw mostram que a adaptação orientada por habilidades melhora a precisão em até 32% em termos relativos. O pipeline completo avança a precisão do Kimi-K2.5 de 21,4% para 40,6% e aumenta a robustez composta em 18,3%. O código está disponível em https://github.com/aiming-lab/MetaClaw.

Video-CoE: Reforçando a Previsão de Eventos em Vídeo por meio da Cadeia de Eventos
Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Mar 16

ByQile Su, Jing Tang, Rui Chen, Lei Sun, Xiangxiang Chu

Apesar dos avanços na aplicação de MLLMs para várias tarefas de vídeo, a previsão de eventos em vídeo (VEP) permanece relativamente pouco explorada. A VEP exige que o modelo realize uma modelagem temporal de granularidade fina dos vídeos e estabeleça relações lógicas entre os vídeos e eventos futuros, tarefas com as quais os MLLMs atuais ainda lutam. Neste trabalho, apresentamos primeiro uma avaliação abrangente dos principais MLLMs atuais na tarefa de VEP, revelando as razões por trás de suas previsões imprecisas, incluindo a falta de capacidade de raciocínio lógico para prever eventos futuros e a utilização insuficiente de informações visuais. Para enfrentar esses desafios, propomos o paradigma Cadeia de Eventos (CoE), que constrói cadeias temporais de eventos para impor implicitamente que o MLLM se concentre no conteúdo visual e nas conexões lógicas entre vídeos e eventos futuros, incentivando a capacidade de raciocínio do modelo com múltiplos protocolos de treinamento. Resultados experimentais em benchmarks públicos demonstram que nosso método supera tanto os MLLMs de código aberto líderes quanto os comerciais, estabelecendo um novo estado da arte na tarefa de VEP. Códigos e modelos serão divulgados em breve.

MosaicMem: Memória Espacial Híbrida para Modelos de Mundo em Vídeo Controláveis
MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Mar 17

ByWei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg

Os modelos de difusão de vídeo estão evoluindo de clipes curtos e plausíveis para simuladores de mundo que devem manter a consistência sob movimento de câmera, revisitas e intervenção. No entanto, a memória espacial permanece um gargalo fundamental: estruturas 3D explícitas podem melhorar a consistência baseada em reprojeção, mas têm dificuldade em representar objetos em movimento, enquanto a memória implícita frequentemente produz movimento de câmera impreciso, mesmo com poses corretas. Propomos Mosaic Memory (MosaicMem), uma memória espacial híbrida que eleva *patches* para o 3D para localização confiável e recuperação direcionada, enquanto explora o condicionamento nativo do modelo para preservar a geração que segue o *prompt*. O MosaicMem compõe *patches* espacialmente alinhados na vista consultada por meio de uma interface de *patch-and-compose*, preservando o que deve persistir enquanto permite que o modelo preencha o que deve evoluir. Com o condicionamento de câmera PRoPE e dois novos métodos de alinhamento de memória, os experimentos mostram uma melhor aderência à pose em comparação com a memória implícita e uma modelagem dinâmica mais forte do que as *baselines* explícitas. O MosaicMem ainda possibilita navegação em nível de minutos, edição de cena baseada em memória e *rollout* autorregressivo.

O Alinhamento Torna os Modelos de Linguagem Normativos, Não Descritivos
Alignment Makes Language Models Normative, Not Descriptive

Mar 17

ByEilam Shapira, Moshe Tennenholtz, Roi Reichart

O alinhamento pós-treinamento otimiza modelos de linguagem para corresponder a sinais de preferência humana, mas este objetivo não é equivalente a modelar o comportamento humano observado. Comparamos 120 pares de modelos base-alinhados em mais de 10.000 decisões reais de humanos em jogos estratégicos multi-turnos – barganha, persuasão, negociação e jogos de matriz repetidos. Nestes contextos, os modelos base superam suas contrapartes alinhadas na previsão de escolhas humanas por uma margem de quase 10:1, robustamente entre famílias de modelos, formulações de *prompts* e configurações de jogo. Este padrão inverte-se, no entanto, em contextos onde o comportamento humano tem maior probabilidade de seguir previsões normativas: os modelos alinhados dominam em jogos de livro-texto de turno único em todos os 12 tipos testados e em escolhas de loteria não-estratégicas – e mesmo dentro dos próprios jogos multi-turnos, no primeiro turno, antes que o histórico de interação se desenvolva. Este padrão de condição-limite sugere que o alinhamento induz um viés normativo: ele melhora a previsão quando o comportamento humano é relativamente bem capturado por soluções normativas, mas prejudica a previsão em contextos estratégicos multi-turnos, onde o comportamento é moldado por dinâmicas descritivas como reciprocidade, retaliação e adaptação dependente do histórico. Estes resultados revelam um *trade-off* fundamental entre otimizar modelos para uso humano e usá-los como *proxies* para o comportamento humano.

Aprendizagem por Reforço Complementar
Complementary Reinforcement Learning

Mar 18

ByDilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng

O Aprendizado por Reforço (RL) emergiu como um paradigma poderoso para treinar agentes baseados em LLM, mas permanece limitado pela baixa eficiência amostral, decorrente não apenas do feedback esparso de resultados, mas também da incapacidade do agente de aproveitar experiências prévias entre episódios. Embora o aumento de agentes com experiência histórica ofereça um remédio promissor, as abordagens existentes sofrem de uma fraqueza crítica: a experiência destilada da história é armazenada estaticamente ou não consegue coevoluir com o ator em melhoria, causando um desalinhamento progressivo entre a experiência e a capacidade evolutiva do ator que diminui sua utilidade ao longo do treinamento. Inspirados pelos sistemas de aprendizagem complementares na neurociência, apresentamos o RL Complementar para alcançar uma coevolução harmoniosa de um extrator de experiência e um ator de política dentro do loop de otimização de RL. Especificamente, o ator é otimizado por meio de recompensas esparsas baseadas em resultados, enquanto o extrator de experiência é otimizado de acordo com se suas experiências destiladas contribuem demonstrativamente para o sucesso do ator, evoluindo assim sua estratégia de gestão de experiência em sincronia com as capacidades crescentes do ator. Empiricamente, o RL Complementar supera as linhas de base de RL agentico baseadas em resultados que não aprendem com a experiência, alcançando uma melhoria de desempenho de 10% em cenários de tarefa única e exibindo escalabilidade robusta em configurações multitarefa. Esses resultados estabelecem o RL Complementar como um paradigma para o aprendizado eficiente de agentes orientado pela experiência.

Quando a IA Navega no Nevoeiro da Guerra
When AI Navigates the Fog of War

Mar 17

ByMing Li, Xirui Li, Tianyi Zhou

A Inteligência Artificial pode raciocinar sobre uma guerra antes que sua trajetória se torne historicamente óbvia? Analisar essa capacidade é difícil porque a previsão geopolítica retrospectiva é fortemente confundida pelo vazamento de dados de treinamento. Enfrentamos esse desafio por meio de um estudo de caso temporalmente ancorado dos estágios iniciais do conflito no Oriente Médio de 2026, que se desenrolou após a data de corte do treinamento dos modelos de fronteira atuais. Construímos 11 nós temporais críticos, 42 perguntas verificáveis específicas para cada nó e 5 perguntas exploratórias gerais, exigindo que os modelos raciocinem apenas a partir de informações que estariam publicamente disponíveis em cada momento. Esse projeto mitiga substancialmente as preocupações com vazamento de dados de treinamento, criando um cenário bem adequado para estudar como os modelos analisam uma crise em desenvolvimento sob o nevoeiro da guerra e fornece, até onde sabemos, a primeira análise temporalmente ancorada do raciocínio de LLMs em um conflito geopolítico em andamento. Nossa análise revela três descobertas principais. Primeiro, os modelos de linguagem grande (LLMs) state-of-the-art atuais frequentemente exibem um grau impressionante de realismo estratégico, raciocinando além da retórica superficial em direção a incentivos estruturais mais profundos. Segundo, essa capacidade é desigual entre os domínios: os modelos são mais confiáveis em ambientes estruturados economicamente e logisticamente do que em ambientes politicamente ambíguos com múltiplos atores. Finalmente, as narrativas dos modelos evoluem ao longo do tempo, mudando das primeiras expectativas de contenção rápida para relatos mais sistêmicos de entrincheiramento regional e desescalada por desgaste. Uma vez que o conflito ainda está em andamento no momento da redação deste texto, este trabalho pode servir como um instantâneo arquivístico do raciocínio do modelo durante uma crise geopolítica em desenvolvimento, permitindo estudos futuros sem o viés de retrospectiva da análise retrospectiva.

GigaWorld-Policy: Um Modelo Mundo-Ação Eficiente e Centrado na Ação
GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Mar 18

ByAngen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

Os Modelos de Ação-Mundo (WAM) inicializados a partir de backbones de geração de vídeo pré-treinados demonstraram potencial notável para a aprendizagem de políticas robóticas. No entanto, as abordagens existentes enfrentam dois gargalos críticos que prejudicam o desempenho e a implantação. Primeiro, o raciocínio conjunto sobre a dinâmica visual futura e as ações correspondentes incorre em uma sobrecarga substancial de inferência. Segundo, a modelagem conjunta frequentemente entrelaça as representações visual e de movimento, fazendo com que a precisão da previsão de movimento dependa fortemente da qualidade das previsões de vídeo futuras. Para resolver essas questões, introduzimos o GigaWorld-Policy, um WAM centrado na ação que aprende dinâmicas pixel-ação 2D, permitindo uma decodificação de ação eficiente, com geração de vídeo opcional. Especificamente, formulamos o treino da política em dois componentes acoplados: o modelo prevê sequências de ações futuras condicionadas pela observação atual e, simultaneamente, gera vídeos futuros condicionados pelas ações previstas e pela mesma observação. A política é supervisionada tanto pela previsão de ação quanto pela geração de vídeo, fornecendo sinais de aprendizagem mais ricos e incentivando ações fisicamente plausíveis através de restrições de dinâmica visual. Com um design causal que impede que *tokens* de vídeo futuro influenciem os *tokens* de ação, a geração explícita de vídeo futuro é opcional no momento da inferência, permitindo uma previsão de ação mais rápida durante a implantação. Para suportar este paradigma, curadamos um conjunto de dados robótico diversificado e em larga escala para pré-treinar um modelo de geração de vídeo centrado na ação, que é então adaptado como *backbone* para a aprendizagem de políticas robóticas. Resultados experimentais em plataformas robóticas do mundo real mostram que o GigaWorld-Policy é executado 9 vezes mais rápido do que a principal baseline de WAM, o Motus, enquanto aumenta as taxas de sucesso de tarefas em 7%. Além disso, em comparação com o pi-0.5, o GigaWorld-Policy melhora o desempenho em 95% no RoboTwin 2.0.

LoST: Nível de Tokenização Semântica para Formas 3D
LoST: Level of Semantics Tokenization for 3D Shapes

Mar 18

ByNiladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen

A tokenização é uma técnica fundamental na modelagem generativa de várias modalidades. Em particular, desempenha um papel crítico em modelos autorregressivos (AR), que surgiram recentemente como uma opção atraente para geração 3D. No entanto, a tokenização ideal de formas 3D permanece uma questão em aberto. Os métodos state-of-the-art (SOTA) dependem principalmente de hierarquias geométricas de nível de detalhe (LoD), originalmente concebidas para renderização e compressão. Essas hierarquias espaciais são frequentemente ineficientes em tokens e carecem de coerência semântica para modelagem AR. Propomos a Tokenização por Nível de Semântica (LoST), que ordena os tokens por saliência semântica, de modo que prefixos iniciais decodifiquem em formas completas e plausíveis que possuem semântica principal, enquanto tokens subsequentes refinam detalhes geométricos e semânticos específicos da instância. Para treinar o LoST, introduzimos o Alinhamento por Distância Inter-Relacional (RIDA), uma nova função de perda de alinhamento semântico 3D que alinha a estrutura relacional do espaço latente da forma 3D com a do espaço de características semânticas DINO. Experimentos mostram que o LoST alcança reconstrução SOTA, superando tokenizadores de formas 3D baseados em LoD anteriores por grandes margens em métricas de reconstrução geométrica e semântica. Além disso, o LoST alcança geração AR 3D eficiente e de alta qualidade e permite tarefas subsequentes como recuperação semântica, utilizando apenas 0,1% a 10% dos tokens necessários para modelos AR anteriores.

Olhe Antes de Agir: Aprimorando Representações de Base Visual para Modelos Visão-Linguagem-Ação
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Mar 16

ByYulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

Os modelos Visão-Linguagem-Ação (VLA) emergiram recentemente como um paradigma promissor para a manipulação robótica, no qual a previsão confiável de ações depende criticamente da interpretação e integração precisas de observações visuais condicionadas por instruções linguísticas. Embora trabalhos recentes tenham buscado aprimorar as capacidades visuais dos modelos VLA, a maioria das abordagens trata o núcleo de LLM como uma caixa preta, fornecendo insights limitados sobre como a informação visual é fundamentada na geração de ações. Portanto, realizamos uma análise sistemática de múltiplos modelos VLA em diferentes paradigmas de geração de ações e observamos que a sensibilidade aos *tokens* visuais diminui progressivamente nas camadas mais profundas durante a geração de ações. Motivados por essa observação, propomos o DeepVision-VLA, construído sobre uma estrutura de Mistura de Transformadores de Visão e Linguagem (VL-MoT). Essa estrutura permite atenção compartilhada entre o modelo de base de visão e o núcleo VLA, injetando características visuais multinível do especialista em visão nas camadas mais profundas do núcleo VLA para aprimorar as representações visuais para manipulação precisa e complexa. Além disso, introduzimos a Poda Visual Guiada por Ação (AGVP), que aproveita a atenção das camadas superficiais para podar *tokens* visuais irrelevantes, preservando os relevantes para a tarefa, reforçando pistas visuais críticas para a manipulação com sobrecarga computacional mínima. O DeepVision-VLA supera os melhores métodos anteriores em 9,0% e 7,5% em tarefas simuladas e do mundo real, respectivamente, fornecendo novos insights para o projeto de modelos VLA visualmente aprimorados.

BenchPreS: Um Benchmark para a Seletividade de Preferências Personalizadas com Consciência Contextual em LLMs de Memória Persistente
BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Mar 17

BySangyeon Yoon, Sunkyoung Kim, Hyesoo Hong, Wonje Jeung, Yongil Kim, Wooseok Seo, Heuiyeen Yeen, Albert No

Os grandes modelos de linguagem (LLMs) armazenam cada vez mais as preferências dos usuários em memória persistente para suportar a personalização entre interações. No entanto, em contextos de comunicação com terceiros regidos por normas sociais e institucionais, algumas preferências do usuário podem ser inadequadas de aplicar. Apresentamos o BenchPreS, que avalia se as preferências do usuário baseadas em memória são aplicadas ou suprimidas adequadamente em diferentes contextos de comunicação. Utilizando duas métricas complementares, a Taxa de Aplicação Inadequada (MR) e a Taxa de Aplicação Adequada (AAR), descobrimos que mesmo os LLMs de ponta têm dificuldade em aplicar preferências de forma sensível ao contexto. Modelos com maior aderência às preferências exibem taxas mais altas de superaplicação, e nem a capacidade de raciocínio nem as defesas baseadas em *prompts* resolvem completamente este problema. Estes resultados sugerem que os LLMs atuais tratam as preferências personalizadas como regras globalmente aplicáveis, em vez de sinais normativos dependentes do contexto.

Ganhos Temporais, Custos Espaciais: Revisitando o Fine-Tuning de Vídeo em Modelos de Linguagem Multimodais de Grande Escala
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Mar 18

ByLinghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu

Os modelos de linguagem multimodal (MLLMs) são tipicamente treinados em múltiplas etapas, com o ajuste fino supervisionado baseado em vídeo (Video-SFT) servindo como um passo-chave para melhorar a compreensão visual. No entanto, o seu efeito na evolução detalhada das capacidades visuais, particularmente o equilíbrio entre a compreensão espacial e temporal, permanece pouco compreendido. Neste artigo, estudamos sistematicamente como o Video-SFT remodela as capacidades visuais nos MLLMs. Através de arquiteturas, escalas de parâmetros e configurações de amostragem de frames, observamos um padrão consistente: o Video-SFT melhora de forma confiável o desempenho em vídeo, mas frequentemente produz ganhos limitados ou mesmo degradação em benchmarks de imagens estáticas. Mostramos ainda que este compromisso está intimamente ligado ao orçamento temporal: aumentar o número de frames amostrados geralmente melhora o desempenho em vídeo, mas não melhora de forma confiável o desempenho em imagens estáticas. Motivados por esta descoberta, estudamos uma estratégia Híbrida de Frames com consciência da instrução que aloca adaptativamente as contagens de frames e mitiga parcialmente o compromisso imagem-vídeo. Os nossos resultados indicam que o Video-SFT não é uma solução gratuita para os MLLMs, e a preservação da compreensão espacial permanece um desafio central no treino conjunto de imagem e vídeo.

ESPIRE: Um Benchmark de Diagnóstico para o Raciocínio Espacial Corporificado de Modelos de Visão e Linguagem
ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Mar 13

ByYanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng

Uma tendência recente em modelos de visão e linguagem (VLMs) tem sido aprimorar sua cognição espacial para domínios corporificados. Apesar dos progressos, as avaliações existentes têm sido limitadas tanto em paradigma quanto em cobertura, dificultando o desenvolvimento rápido e iterativo de modelos. Para superar essas limitações, propomos o ESPIRE, um benchmark de diagnóstico para raciocínio espacial corporificado. O ESPIRE oferece um mundo simulado que fundamenta fisicamente os VLMs e os avalia em tarefas robóticas centradas no raciocínio espacial, estreitando assim a lacuna entre a avaliação e a implantação no mundo real. Para adaptar os VLMs a tarefas robóticas, decompomos cada tarefa em localização e execução, e enquadramos ambas como problemas generativos, em nítido contraste com as avaliações discriminativas predominantes (por exemplo, via questionamento visual) que dependem de distratores e descartam a execução. Esta decomposição permite ainda uma análise granular que vai além do raciocínio espacial passivo em direção ao raciocínio para agir. Projetamos o ESPIRE sistematicamente tanto a nível de instrução quanto a nível de ambiente, garantindo uma ampla cobertura de cenários de raciocínio espacial. Utilizamos o ESPIRE para diagnosticar uma série de VLMs de ponta e fornecer uma análise aprofundada dos seus comportamentos de raciocínio espacial.

V-JEPA 2.1: Desbloqueando Recursos Densos no Aprendizado Autossupervisionado de Vídeo
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Mar 15

ByLorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes

Apresentamos o V-JEPA 2.1, uma família de modelos auto supervisionados que aprendem representações visuais densas e de alta qualidade tanto para imagens quanto para vídeos, mantendo uma forte compreensão global da cena. A abordagem combina quatro componentes-chave. Primeiro, uma função de perda preditiva densa utiliza um objetivo baseado em mascaramento no qual tanto os *tokens* visíveis quanto os mascarados contribuem para o sinal de treinamento, incentivando uma ancoragem espacial e temporal explícita. Segundo, a auto supervisão profunda aplica o objetivo auto supervisionado hierarquicamente em múltiplas camadas intermediárias do codificador para melhorar a qualidade da representação. Terceiro, *tokenizers* multimodais permitem o treinamento unificado para imagens e vídeos. Por fim, o modelo beneficia de uma escala eficaz tanto na capacidade do modelo quanto nos dados de treinamento. Juntas, essas escolhas de projeto produzem representações que são espacialmente estruturadas, semanticamente coerentes e temporalmente consistentes. Empiricamente, o V-JEPA 2.1 atinge um desempenho de última geração em diversos benchmarks desafiadores, incluindo 7.71 mAP no Ego4D para antecipação de interação com objetos de curto prazo e 40.8 Recall@5 no EPIC-KITCHENS para antecipação de ações de alto nível, além de uma melhoria de 20 pontos na taxa de sucesso de agarramento com robôs reais em comparação com o V-JEPA-2 AC. O modelo também demonstra um forte desempenho em navegação robótica (5.687 ATE no TartanDrive), estimativa de profundidade (0.307 RMSE no NYUv2 com uma sonda linear) e reconhecimento global (77.7 no Something-Something-V2). Esses resultados mostram que o V-JEPA 2.1 avança significativamente o estado da arte na compreensão visual densa e na modelagem do mundo.

Modelo de Mundo Estéreo: Geração de Vídeo Estéreo Guiada por Câmera
Stereo World Model: Camera-Guided Stereo Video Generation

Mar 18

ByYang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi

Apresentamos o StereoWorld, um modelo de mundo estéreo condicionado por câmera que aprende conjuntamente a aparência e a geometria binocular para a geração de vídeo estéreo de ponta a ponta. Diferente das abordagens monocromáticas RGB ou RGBD, o StereoWorld opera exclusivamente dentro da modalidade RGB, enquanto ancora a geometria diretamente a partir da disparidade. Para alcançar eficientemente uma geração estéreo consistente, nossa abordagem introduz dois projetos-chave: (1) um RoPE unificado no quadro da câmera que aumenta os tokens latentes com codificação posicional rotativa consciente da câmera, permitindo um condicionamento relativo, consistente em vista e tempo, enquanto preserva prévias de vídeo pré-treinadas por meio de uma inicialização de atenção estável; e (2) uma decomposição de atenção consciente do estéreo que fatora a atenção 4D completa em atenção intra-visão 3D mais atenção horizontal por linha, aproveitando a prévia epipolar para capturar correspondências alinhadas por disparidade com um custo computacional substancialmente menor. Em benchmarks, o StereoWorld melhora a consistência estéreo, a precisão da disparidade e a fidelidade do movimento da câmera em relação a fortes pipelines do tipo "monocular-e-depois-converter", alcançando uma geração mais de 3x mais rápida com um ganho adicional de 5% na consistência do ponto de vista. Além dos benchmarks, o StereoWorld possibilita a renderização binocular de RV de ponta a ponta sem estimativa de profundidade ou preenchimento, aprimora o aprendizado de políticas corporificadas por meio da ancoragem de profundidade em escala métrica, e é compatível com a destilação de vídeos longos para síntese estéreo interativa estendida.

AdaMem: Memória Adaptativa Centrada no Usuário para Agentes de Diálogo de Longo Horizonte
AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Mar 17

ByShannan Yan, Jingchen Ni, Leqi Zheng, Jiajun Zhang, Peixi Wu, Dacheng Yin, Jing Lyu, Chun Yuan, Fengyun Rao

Os agentes de modelos de linguagem de grande porte (LLM) dependem cada vez mais de memória externa para suportar interações de longo horizonte, assistência personalizada e raciocínio de múltiplos passos. No entanto, os sistemas de memória existentes ainda enfrentam três desafios principais: frequentemente dependem excessivamente de similaridade semântica, o que pode ignorar evidências cruciais para a compreensão centrada no usuário; armazenam frequentemente experiências relacionadas como fragmentos isolados, enfraquecendo a coerência temporal e causal; e geralmente utilizam granularidades de memória estáticas que não se adaptam bem aos requisitos de diferentes questões. Propomos o AdaMem, uma estrutura de memória adaptativa e centrada no usuário para agentes de diálogo de longo horizonte. O AdaMem organiza o histórico de diálogo em memórias de trabalho, episódica, de persona e em grafo, permitindo que o sistema preserve o contexto recente, experiências estruturadas de longo prazo, traços estáveis do usuário e conexões conscientes das relações dentro de uma estrutura unificada. No momento da inferência, o AdaMem primeiro resolve o participante alvo, depois constrói uma rota de recuperação condicionada pela questão que combina a recuperação semântica com a expansão de grafo consciente das relações apenas quando necessário, e finalmente produz a resposta através de um pipeline especializado por função para síntese de evidências e geração de respostas. Avaliamos o AdaMem nos benchmarks LoCoMo e PERSONAMEM para modelagem de usuário e raciocínio de longo horizonte. Os resultados experimentais mostram que o AdaMem alcança desempenho de última geração em ambos os benchmarks. O código será liberado após a aceitação.

Aprendizado Conservador de Políticas Robóticas Offline via Reponderação de Transições Posteriores
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Mar 17

ByWanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu

A adaptação pós-treinamento offline ajusta uma política de robô pré-treinada a um conjunto de dados de destino por meio de regressão supervisionada nas ações registradas. Na prática, os conjuntos de dados robóticos são heterogéneos: misturam embodimentos, configurações de câmera e demonstrações de qualidade variável, de modo que muitas trajetórias refletem comportamentos de recuperação, habilidades inconsistentes do operador ou supervisão pouco informativa. O pós-treinamento uniforme concede crédito igual a todas as amostras e pode, portanto, fazer uma média sobre dados conflitantes ou de baixa atribuição. Propomos o Reponderamento de Transição Posterior (PTR), um método de pós-treinamento conservador e livre de recompensa que decide o quanto cada amostra de treino deve influenciar a atualização supervisionada. Para cada amostra, o PTR codifica a consequência pós-ação observada como um destino latente, insere-a num conjunto candidato de destinos incompatíveis e usa um classificador de transições separado para estimar um posterior de identificação softmax sobre os índices dos destinos. A razão posterior-para-uniforme define a pontuação PTR, que é convertida num peso recortado e misto e aplicada ao objetivo de ação original por meio de regressão ponderada auto-normalizada. Esta construção não requer uma verosimilhança de política tratável e é compatível com cabeças de ação baseadas em difusão e *flow-matching*. Em vez de confiar uniformemente em toda a supervisão registada, o PTR realoca o crédito de acordo com o quão atribuível é a consequência pós-ação de cada amostra sob a representação atual, melhorando a adaptação offline conservadora a dados robóticos heterogéneos.

Exploração Eficiente em Larga Escala
Efficient Exploration at Scale

Mar 18

BySeyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy

Desenvolvemos um algoritmo de aprendizagem online que melhora drasticamente a eficiência de dados do aprendizado por reforço com feedback humano (RLHF). Nosso algoritmo atualiza incrementalmente os modelos de recompensa e linguagem à medida que os dados de escolha são recebidos. O modelo de recompensa é ajustado aos dados de escolha, enquanto o modelo de linguagem é atualizado por uma variação do método REINFORCE, com sinais de reforço fornecidos pelo modelo de recompensa. Várias características permitem os ganhos de eficiência: um pequeno impulso afirmativo adicionado a cada sinal de reforço, uma rede neural epistêmica que modela a incerteza da recompensa e uma exploração direcionada por informação. Com modelos de linguagem grandes (LLMs) Gemma, nosso algoritmo iguala o desempenho do RLHF offline treinado com 200 mil rótulos usando menos de 20 mil rótulos, representando um ganho de eficiência de dados superior a 10 vezes. Extrapolando nossos resultados, esperamos que nosso algoritmo treinado com 1 milhão de rótulos iguale o RLHF offline treinado com 1 bilhão de rótulos. Isso representa um ganho de 1.000 vezes. Até onde sabemos, estes são os primeiros resultados a demonstrar que melhorias tão significativas são possíveis.

Pontuação Unificada de Tokens Espaço-Temporais para VLMs de Vídeo Eficientes
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Mar 18

ByJianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee

A poda de tokens é essencial para melhorar a eficiência computacional de modelos visão-linguagem (VLMs), particularmente em tarefas baseadas em vídeo, onde a redundância temporal é prevalente. Abordagens anteriores normalmente podam tokens (1) dentro do transformador de visão (ViT) exclusivamente para tarefas de percepção unimodal, como reconhecimento de ações e segmentação de objetos, sem adaptação para tarefas visão-linguagem a jusante; ou (2) apenas dentro do LLM, deixando a saída do ViT intacta, frequentemente exigindo mecanismos complexos de seleção de tokens condicionados por texto. Neste artigo, introduzimos o Spatio-Temporal Token Scoring (STTS), um módulo simples e leve que poda tokens visuais tanto no ViT quanto no LLM sem condicionamento por texto ou fusão de tokens, sendo totalmente compatível com o treinamento de ponta a ponta. Ao aprender a pontuar temporalmente por meio de uma função de custo auxiliar e espacialmente por meio dos gradientes a jusante do LLM, auxiliado pelo nosso algoritmo eficiente de empacotamento, o STTS poda 50% dos tokens visuais em toda a arquitetura, resultando em uma melhoria de 62% na eficiência durante o treinamento e a inferência, com uma queda de apenas 0,7% no desempenho médio em 13 tarefas de Q&A com vídeos curtos e longos. Os ganhos de eficiência aumentam com mais quadros amostrados por vídeo. A aplicação de escalonamento no tempo de teste para Q&A com vídeos longos produz ainda ganhos de desempenho de 0,5-1% em comparação com a linha de base. No geral, o STTS representa uma técnica nova, simples, porém eficaz, para a poda unificada de tokens visuais em toda a arquitetura.

Roteamento por Limiar de Especialistas para Modelagem de Linguagem Autoregressiva com Alocação Dinâmica de Computação e Balanceamento de Carga
Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Mar 12

ByHanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun

A Mistura de Especialistas por Escolha de Token (TC-MoE) encaminha cada token para um número fixo de especialistas, limitando a alocação dinâmica de computação e exigindo perdas auxiliares para manter o equilíbrio de carga. Propomos o roteamento por Limiar do Especialista (ET), no qual cada especialista mantém um limiar de média móvel exponencial (EMA) estimado a partir da distribuição global de tokens. Tanto no treinamento quanto na inferência, cada token é roteado independentemente para um especialista se a sua pontuação exceder o limiar desse especialista, permitindo uma alocação dinâmica de computação enquanto alcança o equilíbrio de carga sem perdas auxiliares. Este mecanismo totalmente causal elimina a dependência de outros tokens no lote, tornando-o bem adequado para a modelagem de linguagem autoregressiva. Em experimentos de pré-treinamento escalando para 2,4 bilhões de parâmetros no FineWeb-Edu, o ET alcança uma perda de entropia cruzada 0,067 menor do que o TC-MoE, equivalente a atingir o mesmo desempenho com 1,6 vezes menos tokens.

RAMP: Quantização de Precisão Mista Adaptativa por Reforço para Inferência Eficiente de LLM em Dispositivos
RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Mar 18

ByArpit Singh Gautam, Saurabh Jha

A quantização pós-treinamento é essencial para implantar grandes modelos de linguagem (LLMs) em hardware com recursos limitados, porém os métodos state of the art impõem larguras de bits uniformes em todas as camadas, resultando em compensações de precisão e eficiência subótimas. Apresentamos o RAMP (Reinforcement Adaptive Mixed Precision), uma estrutura *Soft Actor-Critic* de política indireta que aprende atribuições de largura de bits por camada para minimizar a perplexidade sob um orçamento global de bits. A política condiciona-se em uma incorporação de 11 dimensões de estatísticas de ativação, propriedades dos pesos e descritores estruturais, permitindo transferência *zero-shot* entre famílias e escalas de modelos. Para permitir uma quantização estável abaixo de 4 bits, introduzimos o *Scale Folding*, uma técnica de pré-condicionamento que migra *outliers* de ativação para os pesos via escalonamento por canal e compensação em camadas de normalização. Uma recompensa priorizada pela qualidade, com penalidades assimétricas e "penhascos" orçamentais, impulsiona uma convergência rápida. No Llama 2 7B, o RAMP atinge uma perplexidade de 5,54 a 3,68 GB (3,65 bits efetivos), superando o AWQ de 4 bits uniforme (5,60 a 3,90 GB) e o GPTQ em 6% no tamanho e 1% a 3% na qualidade. Crucialmente, uma política treinada apenas no Llama 2 7B generaliza-se via *zero-shot* para o Llama 2 13B e Mistral 7B, frequentemente superando o treinamento específico para o alvo, apoiando a hipótese de que a sensibilidade à quantização é primariamente arquitetônica. O *pipeline* HALO exporta as alocações para o formato GGUF para inferência sem *kernels* personalizados em CPUs, GPUs e dispositivos de *edge*, mantendo 99,5% do desempenho de raciocínio de senso comum do FP16.

LaDe: Geração e Decomposição Unificada de Mídias Gráficas em Múltiplas Camadas
LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Mar 18

ByVlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

A geração de camadas de design de mídia permite a criação de documentos de design totalmente editáveis e em camadas, como cartazes, folhetos e logotipos, utilizando apenas instruções em linguagem natural. Os métodos existentes ou restringem as saídas a um número fixo de camadas ou exigem que cada camada contenha apenas regiões espacialmente contínuas, fazendo com que a contagem de camadas escale linearmente com a complexidade do design. Propomos o LaDe (Layered Media Design), uma estrutura de difusão latente que gera um número flexível de camadas semanticamente significativas. O LaDe combina três componentes: um expansor de instruções baseado em LLM que transforma uma intenção curta do usuário em descrições estruturadas por camada que orientam a geração, um Transformer de Difusão Latente com um mecanismo de codificação posicional RoPE 4D que gera conjuntamente o design de mídia completo e suas camadas RGBA constituintes, e um VAE RGBA que decodifica cada camada com suporte completo ao canal alfa. Ao condicionar a amostras de camadas durante o treinamento, nossa estrutura unificada suporta três tarefas: geração de imagem a partir de texto, geração de design de mídia em camadas a partir de texto e decomposição de design de mídia. Comparamos o LaDe com o Qwen-Image-Layered nas tarefas de texto-para-camadas e imagem-para-camadas no conjunto de testes Crello. O LaDe supera o Qwen-Image-Layered na geração texto-para-camadas ao melhorar o alinhamento texto-camada, conforme validado por dois avaliadores do tipo VLM-como-juiz (GPT-4o mini e Qwen3-VL).

Predição Eficiente de Múltiplos Tokens sem Treinamento por meio de Sondagem do Espaço de Embeddings
Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Mar 18

ByRaghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott

Os grandes modelos de linguagem (LLMs) exibem capacidades latentes de previsão multi-token (MTP), apesar de serem treinados apenas para geração do próximo token. Propomos uma abordagem MTP simples e livre de treinamento que investiga um LLM usando tokens de máscara gerados dinamicamente a partir de seu espaço de incorporação, permitindo a previsão paralela de tokens futuros sem modificar os pesos do modelo ou depender de modelos auxiliares de rascunho. Nosso método constrói uma árvore especulativa de tokens através da amostragem dos principais K candidatos dos logits dos tokens de máscara e aplica uma estratégia leve de poda para reter continuações de alta probabilidade. Durante a decodificação, as previsões candidatas são verificadas em paralelo, resultando em geração sem perdas enquanto reduz substancialmente o número de chamadas do modelo e melhora a taxa de transferência de tokens. Em benchmarks, nosso MTP baseado em investigação supera consistentemente as linhas de base livres de treinamento existentes, aumentando o comprimento de aceitação em aproximadamente 12% no LLaMA3 e 8–12% no Qwen3, e alcançando ganhos de taxa de transferência de até 15–19%. Finalmente, fornecemos insights teóricos e evidências empíricas mostrando que as camadas do decodificador alinham naturalmente as representações dos tokens de máscara com os estados do próximo token, permitindo previsão multi-etapa precisa sem retreinamento ou modelos auxiliares.

ACE-LoRA: Aprimoramento de Contexto com Atenção a Grafos para Adaptação Eficiente em Parâmetros de Modelos de Visão e Linguagem Médicos
ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Mar 17

ByM. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur

O sucesso dos modelos visão-linguagem (VLMs) do tipo CLIP em imagens naturais inspirou o desenvolvimento de contrapartidas médicas. No entanto, as abordagens existentes recaem amplamente em dois extremos: modelos especialistas treinados em dados de um único domínio, que capturam detalhes específicos do domínio mas generalizam mal, e VLMs médicos generalistas treinados em dados multi-domínio, que retêm semântica ampla mas diluem pistas diagnósticas de granularidade fina. Superar este compromisso entre especialização e generalização permanece um desafio. Para resolver este problema, propomos o ACE-LoRA, uma estrutura de adaptação com eficiência de parâmetros para VLMs médicos generalistas que mantém uma robusta generalização zero-shot. O ACE-LoRA integra módulos de Adaptação de Baixa Patente (LoRA) em codificadores de imagem-texto congelados e introduz um módulo de Rede Neural de Hipergrafos com Aprimoramento de Contexto Baseado em Atenção (ACE-HGNN). Este módulo captura interações contextuais de ordem superior, indo além da similaridade par a par, para enriquecer as representações globais com pistas diagnósticas localizadas, abordando uma limitação fundamental dos métodos anteriores de Ajuste Fino com Eficiência de Parâmetros (PEFT) que negligenciam detalhes de granularidade fina. Para melhorar ainda mais o alinhamento cross-modal, formulamos uma perda InfoNCE guiada por rótulos para suprimir efetivamente falsos negativos entre pares imagem-texto semanticamente relacionados. Apesar de adicionar apenas 0,95 milhões de parâmetros treináveis, o ACE-LoRA supera consistentemente os VLMs médicos e as linhas de base PEFT mais avançados em benchmarks zero-shot de classificação, segmentação e detecção abrangendo múltiplos domínios. Nosso código está disponível em https://github.com/icon-lab/ACE-LoRA.

De Iniciante a Profissional: Domínio Eficiente de Habilidades via Ajuste Fino RL com Contração de Distribuição
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

Mar 10

ByZhanyi Sun, Shuran Song

Apresentamos o Distribution Contractive Reinforcement Learning (DICE-RL), uma estrutura que utiliza aprendizagem por reforço (RL) como um operador de "contração de distribuição" para refinar políticas generativas pré-treinadas em robótica. O DICE-RL transforma um prior comportamental pré-treinado numa política de "alto desempenho" (pro) ao amplificar comportamentos de alto sucesso com base em *feedback* online. Pré-treinamos uma política baseada em difusão ou fluxo para uma ampla cobertura comportamental e, em seguida, a afinamos com uma estrutura de RL residual *off-policy*, estável e eficiente em termos de amostragem, que combina regularização comportamental seletiva com seleção de ações guiada por valor. Experimentos e análises extensivos demonstram que o DICE-RL melhora a performance de forma confiável, com alta estabilidade e eficiência de amostragem. Ele permite o domínio de habilidades complexas de manipulação de longo horizonte diretamente a partir de entradas de pixels de alta dimensão, tanto em simulação quanto em um robô real. Site do projeto: https://zhanyisun.github.io/dice.rl.2026/.

VideoAtlas: Navegando por Vídeos de Longa Duração com Complexidade Logarítmica
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mar 18

ByMohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan

A extensão de modelos de linguagem para vídeo introduz dois desafios: a representação, onde os métodos existentes dependem de aproximações com perdas, e o contexto longo, onde *pipelines* baseados em legendas ou agentes comprimem o vídeo em texto e perdem fidelidade visual. Para superar isso, apresentamos o VideoAtlas, um ambiente agnóstico à tarefa que representa o vídeo como uma grade hierárquica, simultaneamente sem perdas, navegável, escalável, livre de legendas e pré-processamento. Uma visão geral do vídeo está disponível de imediato, e qualquer região pode ser ampliada recursivamente, com a mesma representação visual usada uniformemente para o vídeo, investigações intermediárias e a memória do agente, eliminando a conversão com perdas para texto de ponta a ponta. Esta estrutura hierárquica garante que a profundidade de acesso cresça apenas logaritmicamente com a duração do vídeo. Para contexto longo, os Modelos de Linguagem Recursivos (RLMs) ofereceram recentemente uma solução poderosa para texto longo, mas estendê-los para o domínio visual requer um ambiente estruturado para recursar, que o VideoAtlas fornece. VideoAtlas como um Processo de Decisão Markoviano desbloqueia o Video-RLM: uma arquitetura paralela Mestre-Trabalhador onde um Mestre coordena a exploração global enquanto os Trabalhadores perfuram concorrentemente nas regiões atribuídas para acumular evidência visual sem perdas. Demonstramos três descobertas principais: (1) crescimento computacional logarítmico com a duração do vídeo, amplificado ainda mais por uma taxa de acerto de *cache* multimodal de 30-60% resultante da reutilização estrutural da grade. (2) orçamentação do ambiente, onde limitar a profundidade máxima de exploração fornece um hiperparâmetro preciso de compensação entre computação e precisão. (3) alocação computacional adaptativa emergente que escala com a granularidade da pergunta. Ao escalar de *benchmarks* de 1 hora para 10 horas, o Video-RLM permanece o método mais robusto à duração com degradação mínima de precisão, demonstrando que a navegação em ambiente estruturado é um paradigma viável e escalável para a compreensão de vídeo.

FINER: MLLMs Alucinam sob Consultas Negativas de Granulação Fina
FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Mar 18

ByRui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

Os modelos de linguagem multimodal de grande escala (MLLMs) enfrentam dificuldades com alucinações, particularmente em consultas de granularidade fina, um desafio sub-representado pelos benchmarks existentes, que se concentram em perguntas grosseiras relacionadas à imagem. Apresentamos as Consultas Negativas de Granularidade Fina (FINER), juntamente com dois benchmarks: FINER-CompreCap e FINER-DOCCI. Utilizando o FINER, analisamos as alucinações em quatro configurações: multi-objeto, multi-atributo, multi-relação e perguntas de "o quê". Nossos benchmarks revelam que os MLLMs alucinam quando discrepâncias de granularidade fina ocorrem simultaneamente com elementos genuinamente presentes na imagem. Para abordar este problema, propomos o FINER-Tuning, que utiliza a Otimização de Preferência Direta (DPO) em dados inspirados pelo FINER. O ajuste fino de quatro MLLMs de ponta com o FINER-Tuning resulta em ganhos de até 24,2% (InternVL3.5-14B) na redução de alucinações em nossos benchmarks, ao mesmo tempo que melhora o desempenho em oito conjuntos de testes de alucinação existentes e aprimora as capacidades multimodais gerais em seis benchmarks. Código, benchmark e modelos estão disponíveis em https://explainableml.github.io/finer-project/.

HeBA: Adaptadores de Gargalo Heterogêneos para Modelos Robustos de Visão e Linguagem
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Mar 17

ByMd Jahidul Islam

A adaptação de modelos de larga escala de Visão e Linguagem (VLMs), como o CLIP, para tarefas específicas (downstream) frequentemente sofre com uma abordagem arquitetônica "tamanho único", na qual os *tokens* visuais e textuais são processados de forma uniforme por adaptadores genéricos e amplos. Argumentamos que essa homogeneidade ignora a natureza estrutural distinta das modalidades – a localidade espacial nas imagens versus a densidade semântica no texto. Para resolver isso, propomos o HeBA (*Heterogeneous Bottleneck Adapter*), uma estrutura arquitetônica unificada que introduz vieses indutivos estruturais específicos por modalidade. O HeBA se afasta dos projetos convencionais por meio de três inovações arquitetônicas principais: (1) **Heterogeneidade**: Processa os *tokens* visuais por meio de convoluções separáveis em profundidade 2D para preservar correlações espaciais, enquanto processa distintamente os *tokens* textuais por meio de projeções lineares densas para capturar relações semânticas; (2) **Regularização por Gargalo (*Bottleneck*)**: Ao contrário dos adaptadores de expansão padrão, o HeBA emprega um gargalo de compressão (D -> D/4) que força explicitamente o modelo a aprender características compactas e robustas e atua como um regularizador estrutural; e (3) **Inicialização Ativa de Gradientes**: Desafiamos o paradigma restritivo de inicialização zero, utilizando uma estratégia de inicialização Kaiming que garante um fluxo de gradiente inicial suficiente para acelerar a convergência sem comprometer o conhecimento pré-treinado do *backbone* congelado. Experimentos extensivos demonstram que o projeto arquitetonicamente especializado do HeBA alcança uma estabilidade e precisão superiores, estabelecendo um novo estado da arte em 11 *benchmarks* de poucos exemplos (*few-shot*). O código está disponível em https://github.com/Jahid12012021/VLM-HeBA.

Cientista de IA via Escalonamento Sintético de Tarefas
AI Scientist via Synthetic Task Scaling

Mar 17

ByZiyang Cai, Harkirat Behl

Com o advento dos agentes de IA, a descoberta científica automática tornou-se um objetivo viável. Muitos trabalhos recentes estruturam sistemas agentes capazes de realizar pesquisas em aprendizado de máquina, mas não oferecem uma forma fundamentada de treinar tais agentes — e os LLMs atuais frequentemente geram ideias com aparência plausível, porém ineficazes. Para avançar no treinamento de agentes que possam aprender fazendo, fornecemos um pipeline inédito de geração de ambientes sintéticos direcionado a agentes de aprendizado de máquina. Nosso pipeline sintetiza automaticamente desafios de aprendizado de máquina compatíveis com a estrutura do SWE-agent, abrangendo amostragem de tópicos, proposta de conjuntos de dados e geração de código. As tarefas sintéticas resultantes são 1) fundamentadas em conjuntos de dados reais de aprendizado de máquina, pois os conjuntos de dados propostos são verificados contra a API do Huggingface, e 2) verificadas para maior qualidade com um loop de autodepuração. Para validar a eficácia de nossas tarefas sintéticas, abordamos o MLGym, um benchmark para tarefas de aprendizado de máquina. A partir das tarefas sintéticas, amostramos trajetórias de um modelo professor (GPT-5) e, em seguida, usamos as trajetórias para treinar um modelo estudante (Qwen3-4B e Qwen3-8B). Os modelos estudantes treinados com nossas tarefas sintéticas alcançam desempenho melhorado no MLGym, elevando a métrica AUP em 9% para o Qwen3-4B e 12% para o Qwen3-8B.

AdapterTune: Adaptadores de Baixo Rank Inicializados com Zeros para Transformers de Visão Congelados
AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Mar 16

BySalim Khazem

A transferência com backbone congelado em Vision Transformers enfrenta dois problemas pouco abordados: instabilidade de otimização quando os adaptadores são inseridos de forma ingênua em um extrator de características fixo, e a ausência de orientação fundamentada para definir a capacidade do adaptador. Introduzimos o AdapterTune, que aumenta cada bloco do transformer com um gargalo residual de baixo posto (low-rank) cuja projeção de aumento (up-projection) é inicializada com zeros, garantindo que a rede adaptada comece exatamente na função pré-treinada e elimine o desvio de representação nas épocas iniciais. Do lado analítico, formalizamos o posto do adaptador como um orçamento de capacidade para aproximar as mudanças da tarefa downstream no espaço de características. A decomposição de risco excessivo resultante prevê ganhos de precisão monotônicos, mas decrescentes, com o aumento do posto, um comportamento de "cotovelo" que confirmamos através de varreduras controladas. Avaliamos em 9 conjuntos de dados e 3 escalas de backbone com relatórios multi-seed em todas as análises. Em um conjunto principal de 5 conjuntos de dados para transferência, o AdapterTune melhora a acurácia top-1 em relação à transferência apenas do cabeçalho (head-only) em +14,9 pontos em média, enquanto treina apenas 0,92% dos parâmetros necessários pelo ajuste fino (fine-tuning) completo, e supera o ajuste fino completo em 10 de 15 pares conjunto de dados-backbone. Em todo o benchmark, o AdapterTune supera a transferência apenas do cabeçalho em todos os pares conjunto de dados-backbone testados. Ablações sobre posto, posicionamento e inicialização isolam cada escolha de projeto. O código está disponível em: https://github.com/salimkhazem/adaptertune

Reconstrução Coerente de Humanos e Cenários a partir de Vídeo Multi-Pessoa e Multi-Visão em uma Única Passada
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Mar 13

BySangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park

Os recentes avanços em modelos de base 3D têm despertado um crescente interesse na reconstrução de humanos e seus ambientes circundantes. No entanto, a maioria das abordagens existentes concentra-se em entradas monoculares, e sua extensão para configurações multi-visão requer módulos adicionais ou dados pré-processados. Para tanto, apresentamos o CHROMM, uma estrutura unificada que estima conjuntamente câmeras, nuvens de pontos da cena e malhas humanas a partir de vídeos multi-visão com múltiplas pessoas, sem depender de módulos externos ou pré-processamento. Integramos fortes prioridades geométricas e humanas do Pi3X e do Multi-HMR em uma única arquitetura de rede neural treinável e introduzimos um módulo de ajuste de escala para resolver a discrepância de escala entre humanos e a cena. Também introduzimos uma estratégia de fusão multi-visão para agregar estimativas por visão em uma única representação durante o teste. Por fim, propomos um método de associação multi-pessoa baseado em geometria, que é mais robusto do que as abordagens baseadas em aparência. Experimentos no EMDB, RICH, EgoHumans e EgoExo4D mostram que o CHROMM alcança desempenho competitivo na estimativa de movimento humano global e de pose multi-visão, enquanto é executado mais de 8 vezes mais rápido do que as abordagens multi-visão baseadas em otimização anteriores. Página do projeto: https://nstar1125.github.io/chromm.

PRISM: Desmistificando a Retenção e a Interação no Meio do Treinamento
PRISM: Demystifying Retention and Interaction in Mid-Training

Mar 17

ByBharat Runwal, Ashish Agrawal, Anurag Roy, Rameswar Panda

Apresentamos o PRISM, um estudo empírico abrangente sobre as escolhas de design durante o treinamento intermediário de grandes modelos de linguagem. Por meio de experimentos controlados com sete modelos base, abrangendo quatro famílias (Granite, LLaMA, Mistral, Nemotron-H), dois tipos de arquitetura (Transformer denso e híbrido attention-Mamba) e escalas de 3B a 24B de parâmetros, demonstramos que o treinamento intermediário com aproximadamente 27B de *tokens* de alta qualidade produz ganhos consistentes de +15 a +40 pontos em matemática, +5 a +12 pontos em código e +6 a +13 pontos em benchmarks de ciências, preservando o desempenho geral. O *pipeline* completo PRISM para RL (Aprendizado por Reforço) melhora a macro-média em seis benchmarks de raciocínio de menos de 12 para 29-42 (uma melhoria de 3-4x), enquanto o RL aplicado diretamente à maioria dos modelos base permanece substancialmente menos eficaz, com pontuações AIME próximas de zero. A composição dos dados é mais importante no treinamento intermediário do que no RL: incluir dados científicos durante o treinamento intermediário desbloqueia ganhos de +17 a +28 pontos no GPQA-Diamond durante o RL, enquanto alterar a mistura de dados no RL produz diferenças inferiores a 2 pontos. Mecanicamente, o treinamento intermediário reestrutura densamente mais de 90% dos pesos do modelo, enquanto o RL faz refinamentos esparsos e frontais em aproximadamente 5% dos parâmetros. A análise de representações (CKA) confirma que o RL preserva consistentemente a geometria representacional do treinamento intermediário (CKA acima de 0,998) entre arquiteturas. Crucialmente, o RL aplica alterações de peso idênticas independentemente do ponto de partida, mas só tem sucesso em modelos com treinamento intermediário, consistente com a ideia de que este coloca o modelo em uma configuração a partir da qual o RL pode melhorar efetivamente o desempenho. Nossos resultados demonstram que o treinamento intermediário com retenção de conhecimento é altamente eficaz para o aprimoramento confiável do raciocínio e fornecem orientações práticas para a concepção de *pipelines* robustos de treinamento intermediário.

Fanar-Sadiq: Uma Arquitetura Multiagente para Perguntas e Respostas Islâmicas Fundamentadas
Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Mar 9

ByUmmar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam

Os grandes modelos de linguagem (LLMs) podem responder fluentemente a perguntas sobre conhecimento religioso, mas frequentemente alucinam e atribuem erroneamente fontes, o que é especialmente problemático em contextos islâmicos, onde os utilizadores esperam fundamentação em textos canónicos (Alcorão e Hadith) e nuance jurisprudencial (fiqh). A geração aumentada por recuperação (RAG) reduz algumas destas limitações ao fundamentar a geração em evidências externas. No entanto, um único pipeline de "recuperar e depois gerar" é limitado para lidar com a diversidade de consultas islâmicas. Os utilizadores podem solicitar escrituras textuais, orientações ao estilo de fatwa com citações ou cálculos com restrições normativas, como o zakat e a herança, que exigem invariantes aritméticas e legais estritas. Neste trabalho, apresentamos um assistente islâmico bilíngue (árabe/inglês) multiagente, denominado Fanar-Sadiq, que é um componente central da plataforma Fanar AI. O Fanar-Sadiq encaminha consultas relacionadas com o Islão para módulos especializados dentro de uma arquitetura agentica e com uso de ferramentas. O sistema suporta encaminhamento consciente da intenção, respostas de fiqh fundamentadas em recuperação com normalização determinística de citações e rastreios de verificação, pesquisa exata de versículos com validação de citação e calculadoras determinísticas para o zakat e herança sunitas com ramificação sensível ao madhhab. Avaliamos o sistema completo de ponta a ponta em benchmarks públicos de QA islâmico e demonstramos eficácia e eficiência. O nosso sistema está atualmente acessível publicamente e gratuitamente através de uma API e de uma aplicação Web, e foi acedido aproximadamente 1,9 milhões de vezes em menos de um ano.