Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

Sekai: Um Conjunto de Dados de Vídeo para Exploração do Mundo
Sekai: A Video Dataset towards World Exploration

Jun 18, 2025

Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang

642

As técnicas de geração de vídeo têm feito progressos notáveis, prometendo ser a base para a exploração interativa de mundos. No entanto, os conjuntos de dados existentes para geração de vídeo não são adequados para o treinamento de exploração de mundos, pois sofrem com algumas limitações: locais restritos, duração curta, cenas estáticas e falta de anotações sobre a exploração e o mundo. Neste artigo, apresentamos Sekai (que significa "mundo" em japonês), um conjunto de dados de vídeo de alta qualidade em primeira pessoa, com anotações ricas para exploração de mundos. Ele consiste em mais de 5.000 horas de vídeos de caminhadas ou visão de drone (FPV e UVA) de mais de 100 países e regiões, abrangendo 750 cidades. Desenvolvemos uma caixa de ferramentas eficiente e eficaz para coletar, pré-processar e anotar vídeos com localização, cena, clima, densidade de pessoas, legendas e trajetórias da câmera. Experimentos demonstram a qualidade do conjunto de dados. E, usamos um subconjunto para treinar um modelo interativo de exploração de mundos em vídeo, chamado YUME (que significa "sonho" em japonês). Acreditamos que Sekai beneficiará a área de geração de vídeo e exploração de mundos, e motivará aplicações valiosas.

GenRecal: Geração após Recalibração de Modelos de Grande para Pequena Escala de Visão e Linguagem
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Jun 18, 2025

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

382

Avanços recentes em modelos de visão e linguagem (VLMs) têm aproveitado grandes modelos de linguagem (LLMs) para alcançar desempenho comparável a sistemas proprietários como o GPT-4V. No entanto, a implantação desses modelos em cenários do mundo real, especialmente em dispositivos com recursos limitados, continua desafiadora devido às suas demandas computacionais substanciais. Isso tem despertado interesse em destilar conhecimento de VLMs grandes para versões menores e mais eficientes. Um desafio crucial surge aqui da diversidade de arquiteturas de VLMs, que são construídas sobre diferentes LLMs e empregam tipos variados de tokens — diferindo em tamanho de vocabulário, divisões de tokens e ordenação de índices de tokens. Para abordar esse desafio de limitação a um tipo específico de VLM, apresentamos o Generation after Recalibration (GenRecal), uma nova estrutura de destilação de propósito geral para VLMs. O GenRecal incorpora um Recalibrador que alinha e adapta representações de características entre VLMs heterogêneos, permitindo uma transferência eficaz de conhecimento entre diferentes tipos de VLMs. Por meio de extensos experimentos em vários benchmarks desafiadores, demonstramos que o GenRecal melhora significativamente os desempenhos de linha de base, eventualmente superando VLMs de grande escala, tanto de código aberto quanto proprietários.

Nem Tudo Está Perdido: Recuperação de LLMs sem Pontos de Verificação
All is Not Lost: LLM Recovery without Checkpoints

Jun 18, 2025

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

372

Treinar LLMs em nós de computação descentralizados e de baixo desempenho, por exemplo, múltiplas instâncias locais, reduz o custo de treinamento e possibilita a democratização do modelo. O desafio inevitável aqui é a rotatividade dos nós devido a falhas e às políticas de escalonamento do operador, levando à perda de um estágio — uma parte do modelo. As abordagens convencionais para recuperação de falhas são o uso de checkpointing, onde periodicamente uma cópia de todo o modelo é enviada para um armazenamento adicional, ou a computação redundante. Essas abordagens geram sobrecarga significativa de comunicação e/ou computação, mesmo em casos sem falhas, e escalam mal em cenários com modelos grandes. Neste artigo, propomos o CheckFree, um método de recuperação eficiente onde um estágio com falha é substituído por uma média ponderada dos estágios vizinhos mais próximos. Em contraste com o estado da arte, o CheckFree não requer computação ou armazenamento adicionais. No entanto, devido à natureza da média dos estágios vizinhos, ele só pode recuperar falhas de estágios intermediários. Estendemos ainda mais nosso método para o CheckFree+ com execução de pipeline fora de ordem para tolerar falhas do primeiro e do último estágios. Graças ao pipelining fora de ordem, o comportamento desses estágios é imitado por seus vizinhos, o que permite que o CheckFree+ os recupere simplesmente copiando os pesos do vizinho imediato. Para recuperar as camadas de (de)embedding, o CheckFree+ copia essas camadas para os estágios vizinhos, o que requer uma sobrecarga de armazenamento relativamente pequena. Avaliamos extensivamente nosso método em modelos LLaMa com tamanhos variando de 124M a 1,5B com diferentes frequências de falhas. No caso de taxas de falha baixas e médias (5-10%), o CheckFree e o CheckFree+ superam tanto o checkpointing quanto a computação redundante em termos de convergência no tempo de execução em mais de 12%. Ambas as nossas propostas podem ser executadas por meio do nosso código disponível em: https://github.com/gensyn-ai/CheckFree.

ProtoReasoning: Protótipos como Base para Raciocínio Generalizável em LLMs
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs

Jun 18, 2025

Feng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan

353

Avanços recentes em Modelos de Raciocínio de Grande Escala (LRMs) treinados com Raciocínio de Cadeia Longa de Pensamento (Long CoT) demonstraram capacidades notáveis de generalização entre domínios. No entanto, os mecanismos subjacentes que suportam essa transferência permanecem pouco compreendidos. Nossa hipótese é que a generalização entre domínios surge de protótipos abstratos de raciocínio compartilhados — padrões fundamentais de raciocínio que capturam a essência dos problemas em diferentes domínios. Esses protótipos minimizam as nuances da representação, revelando que tarefas aparentemente diversas estão fundamentadas em estruturas de raciocínio compartilhadas. Com base nessa hipótese, propomos o ProtoReasoning, um framework que aprimora a capacidade de raciocínio de LLMs ao aproveitar representações prototípicas escaláveis e verificáveis (Prolog para raciocínio lógico, PDDL para planejamento). O ProtoReasoning apresenta: (1) um pipeline automatizado de construção de protótipos que transforma problemas em representações prototípicas correspondentes; (2) um sistema abrangente de verificação que fornece feedback confiável por meio de interpretadores Prolog/PDDL; (3) a escalabilidade para sintetizar problemas arbitrariamente dentro do espaço de protótipos, garantindo a correção. Experimentos extensivos mostram que o ProtoReasoning alcança uma melhoria de 4,7% em relação aos modelos de base em raciocínio lógico (Enigmata-Eval), 6,3% em tarefas de planejamento, 4,0% em raciocínio geral (MMLU) e 1,0% em matemática (AIME24). Significativamente, nossos estudos de ablação confirmam que o aprendizado no espaço de protótipos também demonstra uma generalização aprimorada para problemas estruturalmente semelhantes em comparação com o treinamento exclusivamente em representações de linguagem natural, validando nossa hipótese de que os protótipos de raciocínio servem como base para o raciocínio generalizável em grandes modelos de linguagem.

Agentes Web Incorporados: Conectando os Reinos Físico-Digital para uma Inteligência de Agentes Integrada
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

Jun 18, 2025

Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang

242

Os agentes de IA atuais são, em sua maioria, isolados - eles ou recuperam e raciocinam sobre vastas quantidades de informações e conhecimentos digitais obtidos online; ou interagem com o mundo físico por meio de percepção, planejamento e ação incorporados - mas raramente ambos. Essa separação limita sua capacidade de resolver tarefas que exigem inteligência física e digital integrada, como cozinhar a partir de receitas online, navegar com dados de mapas dinâmicos ou interpretar pontos de referência do mundo real usando conhecimento da web. Introduzimos os Agentes Web Incorporados, um novo paradigma para agentes de IA que conectam fluidamente a incorporação e o raciocínio em escala web. Para operacionalizar esse conceito, primeiro desenvolvemos os ambientes de tarefas dos Agentes Web Incorporados, uma plataforma de simulação unificada que integra de forma estreita ambientes realistas 3D internos e externos com interfaces web funcionais. Com base nessa plataforma, construímos e disponibilizamos o Benchmark dos Agentes Web Incorporados, que abrange uma diversificada gama de tarefas, incluindo culinária, navegação, compras, turismo e geolocalização - todas exigindo raciocínio coordenado entre os domínios físico e digital para uma avaliação sistemática da inteligência entre domínios. Os resultados experimentais revelam lacunas significativas de desempenho entre os sistemas de IA de ponta e as capacidades humanas, estabelecendo tanto desafios quanto oportunidades na interseção entre cognição incorporada e acesso ao conhecimento em escala web. Todos os conjuntos de dados, códigos e sites estão publicamente disponíveis em nossa página do projeto https://embodied-web-agent.github.io/.

Sistema BUT para o Desafio MLC-SLM
BUT System for the MLC-SLM Challenge

Jun 16, 2025

Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget

164

Apresentamos um sistema de reconhecimento automático de fala (ASR) para dois falantes que combina o DiCoW -- uma variante do Whisper condicionada à diarização -- com o DiariZen, um pipeline de diarização construído sobre o Pyannote. Primeiro, avaliamos ambos os sistemas em cenários multilíngues fora do domínio (OOD) sem qualquer ajuste fino. Nesse cenário, o DiariZen supera consistentemente o modelo de diarização Pyannote de referência, demonstrando forte generalização. Apesar de ter sido ajustado apenas em dados em inglês para ASR de falante-alvo, o DiCoW mantém um desempenho multilíngue sólido, indicando que as modificações no codificador preservam as capacidades multilíngues do Whisper. Em seguida, ajustamos tanto o DiCoW quanto o DiariZen nos dados do desafio MLC-SLM. O DiariZen ajustado continua a superar a linha de base do Pyannote ajustado, enquanto o DiCoW obtém ganhos adicionais com a adaptação ao domínio. Nosso sistema final alcança uma média micro de tcpWER/CER de 16,75% e ocupa o segundo lugar na Tarefa 2 do desafio MLC-SLM. Por fim, identificamos várias inconsistências de rotulagem nos dados de treinamento -- como segmentos de fala ausentes e anotações incorretas de silêncio -- que podem prejudicar o ajuste fino da diarização. Propomos estratégias simples de mitigação para abordar esses problemas e melhorar a robustez do sistema.

Recompensas Semanticamente Conscientes para Treinamento Aberto R1 em Geração de Formato Livre
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

Jun 18, 2025

Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

142

A avaliação de geração de texto aberto e de longa duração é desafiadora porque é difícil definir o que claramente separa boas de más saídas. Os métodos existentes frequentemente deixam de capturar aspectos-chave como coerência, estilo ou relevância, ou são influenciados pelos dados de pré-treinamento, tornando a avaliação de geração aberta e de longa duração um problema pouco explorado. Para abordar essa lacuna, propomos o PrefBERT, um modelo de pontuação para avaliar a geração aberta e de longa duração no GRPO e orientar seu treinamento com recompensas distintas para boas e más saídas. Treinado em dois conjuntos de dados de avaliação de respostas com diversos estilos de texto longo e qualidade avaliada por escala Likert, o PrefBERT suporta efetivamente o GRPO ao fornecer um feedback de recompensa semântica melhor do que as métricas tradicionais ROUGE-L e BERTScore. Por meio de avaliações abrangentes, incluindo LLM-como-juiz, avaliações humanas e análise qualitativa, mostramos que o PrefBERT, treinado em respostas de múltiplas frases e parágrafos, permanece confiável em diversas passagens longas e se alinha bem com as recompensas verificáveis que o GRPO necessita. Avaliações humanas confirmam que o uso do PrefBERT como sinal de recompensa para treinar modelos de política produz respostas mais alinhadas com as preferências humanas do que aquelas treinadas com métricas tradicionais. Nosso código está disponível em https://github.com/zli12321/long_form_rl.

SwarmAgentic: Rumo à Geração Totalmente Automatizada de Sistemas Agentes por meio de Inteligência de Enxame
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence

Jun 18, 2025

Yao Zhang, Chenyang Lin, Shijie Tang, Haokun Chen, Shijie Zhou, Yunpu Ma, Volker Tresp

132

O rápido progresso dos Modelos de Linguagem de Grande Escala tem avançado os sistemas agentes em tomada de decisão, coordenação e execução de tarefas. No entanto, os frameworks existentes para geração de sistemas agentes carecem de autonomia completa, faltando geração de agentes do zero, funcionalidade de auto-otimização dos agentes e colaboração, limitando a adaptabilidade e escalabilidade. Propomos o SwarmAgentic, um framework para geração totalmente automatizada de sistemas agentes que constrói sistemas agentes do zero e otimiza conjuntamente a funcionalidade dos agentes e a colaboração como componentes interdependentes por meio de exploração orientada por linguagem. Para permitir uma busca eficiente sobre estruturas de nível de sistema, o SwarmAgentic mantém uma população de sistemas candidatos e os evolui por meio de atualizações guiadas por feedback, inspirando-se na Otimização por Enxame de Partículas (PSO). Avaliamos nosso método em seis tarefas do mundo real, abertas e exploratórias, envolvendo planejamento de alto nível, coordenação em nível de sistema e raciocínio criativo. Dada apenas uma descrição da tarefa e uma função objetivo, o SwarmAgentic supera todas as baselines, alcançando uma melhoria relativa de +261,8% sobre o ADAS no benchmark TravelPlanner, destacando a eficácia da automação completa em tarefas estruturalmente não restritas. Este framework representa um passo significativo em direção ao design escalável e autônomo de sistemas agentes, unindo inteligência de enxame com geração totalmente automatizada de sistemas multiagentes. Nosso código está disponível publicamente em https://yaoz720.github.io/SwarmAgentic/.

SciVer: Avaliação de Modelos Fundamentais para Verificação de Afirmações Científicas Multimodais
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Jun 18, 2025

Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao

132

Apresentamos o SciVer, o primeiro benchmark especificamente projetado para avaliar a capacidade de modelos de base (foundation models) em verificar afirmações dentro de um contexto científico multimodal. O SciVer consiste em 3.000 exemplos anotados por especialistas, abrangendo 1.113 artigos científicos, e é dividido em quatro subconjuntos, cada um representando um tipo comum de raciocínio na verificação de afirmações científicas multimodais. Para permitir uma avaliação detalhada, cada exemplo inclui evidências de suporte anotadas por especialistas. Avaliamos o desempenho de 21 modelos de base multimodais de última geração, incluindo o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision e Qwen2.5-VL. Nossos experimentos revelam uma lacuna significativa de desempenho entre esses modelos e especialistas humanos no SciVer. Por meio de uma análise aprofundada da geração aumentada por recuperação (RAG) e de avaliações de erros conduzidas por humanos, identificamos limitações críticas nos modelos de código aberto atuais, oferecendo insights essenciais para avançar a compreensão e o raciocínio dos modelos em tarefas relacionadas à literatura científica multimodal.

Otimização de Política Proximal Truncada
Truncated Proximal Policy Optimization

Jun 18, 2025

Tiantian Fan, Lingjun Liu, Yu Yue, Jiaze Chen, Chengyi Wang, Qiying Yu, Chi Zhang, Zhiqi Lin, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Bole Ma, Mofan Zhang, Gaohong Liu, Ru Zhang, Haotian Zhou, Cong Xie, Ruidong Zhu, Zhi Zhang, Xin Liu, Mingxuan Wang, Lin Yan, Yonghui Wu

112

Recentemente, modelos de linguagem de grande escala (LLMs) com ajuste em tempo de teste demonstraram capacidades excepcionais de raciocínio em tarefas científicas e profissionais, gerando longas cadeias de pensamento (CoT). Como um componente crucial para o desenvolvimento desses modelos de raciocínio, o aprendizado por reforço (RL), exemplificado pelo Proximal Policy Optimization (PPO) e suas variantes, permite que os modelos aprendam por tentativa e erro. No entanto, o PPO pode ser demorado devido à sua natureza inerentemente on-policy, que é ainda mais exacerbada pelo aumento do comprimento das respostas. Neste trabalho, propomos o Truncated Proximal Policy Optimization (T-PPO), uma extensão inovadora do PPO que melhora a eficiência do treinamento ao simplificar a atualização da política e a geração de respostas com comprimento restrito. O T-PPO mitiga o problema de baixa utilização de hardware, uma desvantagem inerente dos procedimentos de geração longa totalmente sincronizados, onde os recursos frequentemente ficam ociosos durante os períodos de espera para rollouts completos. Nossas contribuições são duplas. Primeiro, propomos a Extended Generalized Advantage Estimation (EGAE) para a estimativa de vantagem derivada de respostas incompletas, mantendo a integridade do aprendizado da política. Segundo, elaboramos um mecanismo computacionalmente otimizado que permite a otimização independente dos modelos de política e valor. Ao filtrar seletivamente tokens de prompt e truncados, esse mecanismo reduz cálculos redundantes e acelera o processo de treinamento sem sacrificar o desempenho de convergência. Demonstramos a eficácia e eficiência do T-PPO no AIME 2024 com um modelo base de 32B. Os resultados experimentais mostram que o T-PPO melhora a eficiência do treinamento de LLMs de raciocínio em até 2,5x e supera seus concorrentes existentes.

ImmerseGen: Geração de Mundos Imersivos Orientada por Agentes com Proxies de Textura Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17, 2025

Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma

102

A criação automática de cenas 3D para presença imersiva em realidade virtual (VR) tem sido um foco significativo de pesquisa por décadas. No entanto, os métodos existentes frequentemente dependem de modelagem de malhas de alta complexidade com simplificação posterior ou de grandes quantidades de Gaussianas 3D, resultando em um pipeline complexo ou em realismo visual limitado. Neste artigo, demonstramos que tal modelagem exaustiva é desnecessária para alcançar uma experiência imersiva convincente. Apresentamos o ImmerseGen, uma nova estrutura guiada por agentes para modelagem de mundos compactos e fotorrealistas. O ImmerseGen representa cenas como composições hierárquicas de proxies geométricos leves, ou seja, malhas simplificadas de terreno e billboards, e gera aparência fotorrealista sintetizando texturas RGBA nesses proxies. Especificamente, propomos texturização condicionada ao terreno para síntese de mundo base centrada no usuário, e texturização de ativos RGBA para cenários de meio e primeiro plano. Essa reformulação oferece várias vantagens: (i) simplifica a modelagem ao permitir que agentes guiem modelos generativos na produção de texturas coerentes que se integram perfeitamente à cena; (ii) contorna a criação e decimação de geometria complexa ao sintetizar diretamente texturas fotorrealistas em proxies, preservando a qualidade visual sem degradação; (iii) permite representações compactas adequadas para renderização em tempo real em headsets de VR móveis. Para automatizar a criação de cenas a partir de prompts de texto, introduzimos agentes de modelagem baseados em VLM (Vision-Language Models) aprimorados com análise semântica baseada em grade para melhorar o raciocínio espacial e o posicionamento preciso de ativos. O ImmerseGen ainda enriquece as cenas com efeitos dinâmicos e áudio ambiente para suportar imersão multissensorial. Experimentos em geração de cenas e demonstrações ao vivo em VR mostram que o ImmerseGen alcança fotorrealismo superior, coerência espacial e eficiência de renderização em comparação com métodos anteriores. Página do projeto: https://immersegen.github.io.

CoMemo: LVLMs Precisam de Contexto de Imagem com Memória de Imagem
CoMemo: LVLMs Need Image Context with Image Memory

Jun 6, 2025

Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai

Os recentes avanços em Modelos de Visão e Linguagem de Grande Escala (Large Vision-Language Models - LVLMs), construídos sobre Modelos de Linguagem de Grande Escala (Large Language Models - LLMs), estabeleceram o alinhamento de características visuais com representações de LLMs como o paradigma dominante. No entanto, os projetos arquitetônicos herdados dos LLMs introduzem características subótimas para o processamento multimodal. Primeiro, os LVLMs exibem uma distribuição bimodal na alocação de atenção, levando à negligência progressiva do conteúdo visual intermediário à medida que o contexto se expande. Segundo, os esquemas convencionais de codificação posicional falham em preservar relações estruturais 2D vitais ao processar imagens dinâmicas de alta resolução. Para abordar essas limitações, propomos o CoMemo - uma arquitetura de caminho duplo que combina um caminho de imagem de Contexto com um caminho de Memória de imagem para o processamento visual, aliviando efetivamente a negligência de informações visuais. Além disso, introduzimos o RoPE-DHR, um novo mecanismo de codificação posicional que emprega agregação posicional baseada em miniaturas para manter a consciência espacial 2D enquanto mitiga o decaimento remoto em sequências estendidas. Avaliações em sete benchmarks, incluindo compreensão de contexto longo, raciocínio com múltiplas imagens e resposta a perguntas visuais, demonstram o desempenho superior do CoMemo em comparação com as arquiteturas convencionais de LVLMs. A página do projeto está disponível em https://lalbj.github.io/projects/CoMemo/.

GMT: Rastreamento Geral de Movimento para Controle Corporal Total de Humanoides
GMT: General Motion Tracking for Humanoid Whole-Body Control

Jun 17, 2025

Zixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang

A capacidade de rastrear movimentos gerais do corpo inteiro no mundo real é uma maneira útil de construir robôs humanoides de propósito geral. No entanto, alcançar isso pode ser desafiador devido à diversidade temporal e cinemática dos movimentos, à capacidade da política e à dificuldade de coordenação entre as partes superior e inferior do corpo. Para abordar esses problemas, propomos o GMT, uma estrutura escalável e geral de rastreamento de movimentos que treina uma única política unificada para permitir que robôs humanoides rastreiem diversos movimentos no mundo real. O GMT é construído com base em dois componentes principais: uma estratégia de Amostragem Adaptativa e uma arquitetura de Mistura de Especialistas em Movimentos (MoE, na sigla em inglês). A Amostragem Adaptativa equilibra automaticamente movimentos fáceis e difíceis durante o treinamento. O MoE garante uma melhor especialização de diferentes regiões da variedade de movimentos. Através de extensos experimentos tanto em simulação quanto no mundo real, demonstramos a eficácia do GMT, alcançando desempenho de ponta em um amplo espectro de movimentos usando uma política geral unificada. Vídeos e informações adicionais podem ser encontrados em https://gmt-humanoid.github.io.

MoTE: Mistura de Especialistas Ternários para Modelos Multimodais Grandes com Eficiência de Memória
MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

Jun 17, 2025

Hongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen

Grandes modelos multimodais de Mistura de Especialistas (MoEs) escalam efetivamente o tamanho do modelo para impulsionar o desempenho enquanto mantêm parâmetros ativos fixos. No entanto, trabalhos anteriores utilizaram principalmente especialistas de precisão total durante o reaproveitamento esparso. Apesar de demonstrarem desempenho superior em tarefas finais, a grande quantidade de especialistas introduz uma maior pegada de memória, o que representa desafios significativos para a implantação em dispositivos de borda. Neste trabalho, propomos o MoTE, uma abordagem escalável e eficiente em memória para treinar modelos de Mistura de Especialistas Ternários a partir de um ponto de verificação denso. Em vez de treinar menos especialistas de alta precisão, propomos treinar mais especialistas de baixa precisão durante o reaproveitamento. Especificamente, usamos o FFN pré-treinado como um especialista compartilhado e treinamos especialistas roteados ternários com parâmetros em {-1, 0, 1}. Experimentos extensivos mostram que nossa abordagem tem uma tendência promissora de escalabilidade com o tamanho do modelo. O MoTE alcança desempenho comparável ao MoE-LLaVA de precisão total, enquanto oferece uma pegada de memória menor. Além disso, nossa abordagem é compatível com métodos de quantização pós-treinamento, e a vantagem se amplifica ainda mais quando a restrição de memória diminui. Dada a mesma pegada de memória de especialistas de 3,4 GB e combinada com quantização pós-treinamento, o MoTE supera o MoE-LLaVA com um ganho de 4,3% na precisão média em tarefas finais, demonstrando sua eficácia e potencial para dispositivos com restrições de memória.

PictSure: O Pré-treinamento de Embeddings é Crucial para Classificadores de Imagens com Aprendizado em Contexto
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Jun 16, 2025

Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop

A construção de modelos de classificação de imagens continua sendo trabalhosa em domínios com escassez de dados, onde a coleta de grandes conjuntos de dados rotulados é impraticável. O aprendizado em contexto (ICL, do inglês *In-Context Learning*) surgiu como um paradigma promissor para a classificação de imagens com poucos exemplos (FSIC, do inglês *Few-Shot Image Classification*), permitindo que os modelos generalizem entre domínios sem adaptação baseada em gradientes. No entanto, trabalhos anteriores negligenciaram em grande parte um componente crítico dos pipelines de FSIC baseados em ICL: o papel dos embeddings de imagens. Neste trabalho, apresentamos o PictSure, um framework de ICL que coloca o modelo de embedding — sua arquitetura, pré-treinamento e dinâmica de treinamento — no centro da análise. Examinamos sistematicamente os efeitos de diferentes tipos de codificadores visuais, objetivos de pré-treinamento e estratégias de ajuste fino no desempenho de FSIC em tarefas subsequentes. Nossos experimentos mostram que o sucesso do treinamento e o desempenho fora do domínio dependem fortemente de como os modelos de embedding são pré-treinados. Consequentemente, o PictSure consegue superar os modelos existentes de FSIC baseados em ICL em benchmarks fora do domínio que diferem significativamente da distribuição de treinamento, mantendo resultados comparáveis em tarefas dentro do domínio. O código pode ser encontrado em https://github.com/PictSure/pictsure-library.

FedNano: Rumo a um Ajuste Leve Federado para Modelos de Linguagem Multimodais Pré-treinados de Grande Escala
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

Jun 12, 2025

Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destacam em tarefas como raciocínio multimodal e recuperação cruzada de modalidades, mas enfrentam desafios de implantação em cenários do mundo real devido à distribuição de dados multimodais e requisitos rigorosos de privacidade. O Aprendizado Federado (FL) oferece uma solução ao permitir o treinamento colaborativo de modelos sem a centralização dos dados. No entanto, a realização do FL para MLLMs apresenta desafios significativos, incluindo altas demandas computacionais, capacidade limitada dos clientes, custos substanciais de comunicação e dados heterogêneos dos clientes. Os métodos existentes de FL assumem a implantação do modelo completo no lado do cliente, uma suposição que não se sustenta para MLLMs de grande escala devido ao seu tamanho massivo e demandas de comunicação. Para abordar essas limitações, propomos o FedNano, o primeiro framework de FL que centraliza o LLM no servidor enquanto introduz o NanoEdge, um módulo leve para adaptação específica do cliente. O NanoEdge emprega codificadores específicos de modalidade, conectores e NanoAdaptadores treináveis com adaptação de baixo posto. Esse design elimina a necessidade de implantar o LLM nos clientes, reduzindo o armazenamento no lado do cliente em 95% e limitando a sobrecarga de comunicação a apenas 0,01% dos parâmetros do modelo. Ao transmitir apenas atualizações compactas dos NanoAdaptadores, o FedNano lida com dados heterogêneos dos clientes e restrições de recursos, preservando a privacidade. Experimentos demonstram que o FedNano supera as abordagens anteriores de FL, reduzindo a lacuna entre a escala dos MLLMs e a viabilidade do FL, e permitindo sistemas de IA multimodal escaláveis e descentralizados.

Cache Evolutivo para Acelerar Seu Modelo de Difusão Pronto para Uso
Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Jun 18, 2025

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam

Modelos de geração de imagens baseados em difusão destacam-se na produção de conteúdo sintético de alta qualidade, mas sofrem com inferência lenta e computacionalmente cara. Trabalhos anteriores tentaram mitigar isso armazenando e reutilizando recursos dentro de transformadores de difusão entre etapas de inferência. Esses métodos, no entanto, frequentemente dependem de heurísticas rígidas que resultam em aceleração limitada ou má generalização entre arquiteturas. Propomos o Evolutionary Caching to Accelerate Diffusion models (ECAD), um algoritmo genético que aprende cronogramas de cache eficientes e específicos por modelo, formando uma fronteira de Pareto, usando apenas um pequeno conjunto de prompts de calibração. O ECAD não requer modificações nos parâmetros da rede ou em imagens de referência. Ele oferece acelerações significativas na inferência, permite controle refinado sobre a relação qualidade-latência e se adapta perfeitamente a diferentes modelos de difusão. Notavelmente, os cronogramas aprendidos pelo ECAD podem generalizar efetivamente para resoluções e variantes de modelo não vistas durante a calibração. Avaliamos o ECAD em PixArt-alpha, PixArt-Sigma e FLUX-1.dev usando múltiplas métricas (FID, CLIP, Image Reward) em diversos benchmarks (COCO, MJHQ-30k, PartiPrompts), demonstrando melhorias consistentes em relação a abordagens anteriores. No PixArt-alpha, o ECAD identifica um cronograma que supera o método anterior de última geração em 4.47 COCO FID, enquanto aumenta a aceleração da inferência de 2.35x para 2.58x. Nossos resultados estabelecem o ECAD como uma abordagem escalável e generalizável para acelerar a inferência de difusão. Nosso site do projeto está disponível em https://aniaggarwal.github.io/ecad e nosso código está disponível em https://github.com/aniaggarwal/ecad.

OS-Harm: Um Benchmark para Medir a Segurança de Agentes de Uso de Computador
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

Jun 17, 2025

Thomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko

Agentes de uso de computador são agentes baseados em LLM que podem interagir diretamente com uma interface gráfica do usuário, processando capturas de tela ou árvores de acessibilidade. Embora esses sistemas estejam ganhando popularidade, sua segurança tem sido amplamente negligenciada, apesar do fato de que avaliar e compreender seu potencial para comportamentos prejudiciais é essencial para sua adoção generalizada. Para abordar essa lacuna, introduzimos o OS-Harm, um novo benchmark para medir a segurança de agentes de uso de computador. O OS-Harm é construído sobre o ambiente OSWorld e visa testar modelos em três categorias de danos: uso indevido deliberado pelo usuário, ataques de injeção de prompt e mau comportamento do modelo. Para cobrir esses casos, criamos 150 tarefas que abrangem vários tipos de violações de segurança (assédio, violação de direitos autorais, desinformação, exfiltração de dados, etc.) e exigem que o agente interaja com uma variedade de aplicativos de sistema operacional (cliente de e-mail, editor de código, navegador, etc.). Além disso, propomos um juiz automatizado para avaliar tanto a precisão quanto a segurança dos agentes, que alcança alta concordância com anotações humanas (pontuação F1 de 0,76 e 0,79). Avaliamos agentes de uso de computador com base em uma variedade de modelos de ponta - como o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - e fornecemos insights sobre sua segurança. Em particular, todos os modelos tendem a cumprir diretamente muitas consultas de uso indevido deliberado, são relativamente vulneráveis a injeções de prompt estáticas e ocasionalmente realizam ações inseguras. O benchmark OS-Harm está disponível em https://github.com/tml-epfl/os-harm.

AssertBench: Um Benchmark para Avaliar a Autoafirmação em Modelos de Linguagem de Grande Escala
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models

Jun 8, 2025

Jaeho Lee, Atharv Chowdhary

Bancadas recentes têm investigado a consistência factual e a robustez retórica em Modelos de Linguagem de Grande Escala (LLMs). No entanto, existe uma lacuna de conhecimento sobre como o enquadramento direcional de declarações factualmente verdadeiras influencia o acordo do modelo, um cenário comum para usuários de LLMs. O AssertBench aborda isso ao amostrar fatos apoiados por evidências do FEVEROUS, um conjunto de dados de verificação de fatos. Para cada fato (respaldado por evidências), construímos dois prompts de enquadramento: um em que o usuário afirma que a declaração é factualmente correta e outro em que o usuário afirma que é incorreta. Em seguida, registramos o acordo e o raciocínio do modelo. O resultado desejado é que o modelo se afirme, mantendo uma avaliação consistente da verdade em ambos os enquadramentos, em vez de mudar sua avaliação para concordar com o usuário. O AssertBench isola a variabilidade induzida pelo enquadramento do conhecimento factual subjacente do modelo, estratificando os resultados com base na precisão do modelo nas mesmas afirmações quando apresentadas de forma neutra. Ao fazer isso, esse benchmark visa medir a capacidade de um LLM de "manter-se firme" quando confrontado com afirmações contraditórias do usuário sobre o mesmo fato. O código-fonte completo está disponível em https://github.com/achowd32/assert-bench.

ImmerseGen: Geração de Mundos Imersivos Orientada por Agentes com Proxies de Textura Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17, 2025

Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma

102