HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

23 papers found

DoPE: Incorporação de Posição Rotacional com Redução de Ruído
DoPE: Denoising Rotary Position Embedding

Nov 12

ByJing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong

O Rotary Position Embedding (RoPE) em modelos Transformer possui limites intrínsecos que enfraquecem a extrapolação de comprimento. Reinterpretamos o mapa de atenção com codificação posicional como um mapa de características ruidoso e propomos o Denoising Positional Encoding (DoPE), um método livre de treinamento baseado na entropia de matriz truncada para detectar bandas de frequência atípicas no mapa de características. Aproveitando as características de ruído do mapa de características, reparametrizamos ainda mais com uma distribuição Gaussiana sem parâmetros para alcançar uma extrapolação robusta. Nosso método revela teoricamente a causa subjacente do fenômeno de "atenção sumidouro" e sua conexão com a entropia de matriz truncada. Experimentos em tarefas de "agulha no palheiro" e aprendizado contextual com múltiplos exemplos demonstram que o DoPE melhora significativamente a precisão de recuperação e a estabilidade de raciocínio em contextos estendidos (até 64K tokens). Os resultados mostram que a estratégia de redução de ruído para embeddings posicionais mitiga efetivamente os sumidouros de atenção e restaura padrões de atenção equilibrados, fornecendo uma solução simples, porém poderosa, para melhorar a generalização de comprimento. Nossa página do projeto está disponível em: https://The-physical-picture-of-LLMs.github.io.

WEAVE: Liberando e Avaliando a Compreensão e Geração Intercalada em Contexto
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

Nov 14

ByWei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua

Os avanços recentes em modelos multimodais unificados (UMMs) têm permitido progressos impressionantes na compreensão e geração visual. No entanto, os conjuntos de dados e benchmarks existentes concentram-se principalmente em interações de turno único, não conseguindo capturar a natureza multiturno e dependente do contexto da criação e edição de imagens do mundo real. Para preencher esta lacuna, apresentamos o WEAVE, o primeiro conjunto para compreensão e geração cruzada intercalada em contexto. Nosso conjunto é composto por duas partes complementares. O WEAVE-100k é um conjunto de dados em larga escala com 100 mil amostras intercaladas abrangendo mais de 370 mil turnos de diálogo e 500 mil imagens, cobrindo tarefas de compreensão, edição e geração que exigem raciocínio sobre o contexto histórico. O WEAVEBench é um benchmark anotado humanamente com 100 tarefas baseadas em 480 imagens, apresentando uma estrutura de avaliação híbrida com juiz VLM baseada tanto na imagem de referência quanto na combinação da imagem original com instruções de edição que avalia as habilidades dos modelos em geração multiturno, memória visual e raciocínio de conhecimento mundial em diversos domínios. Experimentos demonstram que o treinamento no WEAVE-100k possibilita capacidades de compreensão visual, edição de imagens e colaboração compreensão-geração. Além disso, facilita que os UMMs desenvolvam capacidades emergentes de memória visual, enquanto avaliações extensivas no WEAVEBench expõem as limitações e desafios persistentes das abordagens atuais na geração e edição de imagens multiturno e conscientes do contexto. Acreditamos que o WEAVE proporciona uma perspectiva e base para estudar a compreensão e geração intercalada em contexto para a comunidade multimodal.

Redes de Largura Virtual
Virtual Width Networks

Nov 14

BySeed, Baisheng Li, Banggu Wu, Bole Ma, Bowen Xiao, Chaoyi Zhang, Cheng Li, Chengyi Wang, Chenyin Xu, Chi Zhang, Chong Hu, Daoguang Zan, Defa Zhu, Dongyu Xu, Du Li, Faming Wu, Fan Xia, Ge Zhang, Guang Shi, Haobin Chen, Hongyu Zhu, Hongzhi Huang, Huan Zhou, Huanzhang Dou, Jianhui Duan, Jianqiao Lu, Jianyu Jiang, Jiayi Xu, Jiecao Chen, Jin Chen, Jin Ma, Jing Su, Jingji Chen, Jun Wang, Jun Yuan, Juncai Liu, Jundong Zhou, Kai Hua, Kai Shen, Kai Xiang, Kaiyuan Chen, Kang Liu, Ke Shen, Liang Xiang, Lin Yan, Lishu Luo, Mengyao Zhang, Ming Ding, Mofan Zhang, Nianning Liang, Peng Li, Penghao Huang, Pengpeng Mu, Qi Huang, Qianli Ma, Qiyang Min, Qiying Yu, Renming Pang, Ru Zhang, Shen Yan, Shen Yan, Shixiong Zhao, Shuaishuai Cao, Shuang Wu, Siyan Chen, Siyu Li, Siyuan Qiao, Tao Sun, Tian Xin, Tiantian Fan, Ting Huang, Ting-Han Fan, Wei Jia, Wenqiang Zhang, Wenxuan Liu, Xiangzhong Wu, Xiaochen Zuo, Xiaoying Jia, Ximing Yang, Xin Liu, Xin Yu, Xingyan Bin, Xintong Hao, Xiongcai Luo, Xujing Li, Xun Zhou, Yanghua Peng, Yangrui Chen, Yi Lin, Yichong Leng, Yinghao Li, Yingshuan Song, Yiyuan Ma, Yong Shan, Yongan Xiang, Yonghui Wu, Yongtao Zhang, Yongzhen Yao, Yu Bao, Yuehang Yang, Yufeng Yuan, Yunshui Li, Yuqiao Xian, Yutao Zeng, Yuxuan Wang, Zehua Hong, Zehua Wang, Zengzhi Wang, Zeyu Yang, Zhengqiang Yin, Zhenyi Lu, Zhexi Zhang, Zhi Chen, Zhi Zhang, Zhiqi Lin, Zihao Huang, Zilin Xu, Ziyun Wei, Zuo Wang

Apresentamos as Redes de Largura Virtual (VWN), uma estrutura que oferece os benefícios de representações mais amplas sem incorrer no custo quadrático de aumentar o tamanho da camada oculta. A VWN desacopla a largura representacional da largura da rede principal, expandindo o espaço de incorporação enquanto mantém o cálculo da rede principal quase constante. Em nosso experimento em larga escala, uma expansão de 8 vezes acelerou a otimização em mais de 2 vezes para a previsão do próximo token e em 3 vezes para a previsão dos próximos 2 tokens. A vantagem se amplia ao longo do treinamento, à medida que tanto a diferença de *loss* aumenta quanto a taxa de aceleração da convergência cresce, mostrando que a VWN não é apenas eficiente em tokens, mas também cada vez mais eficaz com a escala. Além disso, identificamos uma relação de escala aproximadamente log-linear entre a largura virtual e a redução do *loss*, oferecendo uma base empírica inicial e motivação para explorar a escala de largura virtual como uma nova dimensão da eficiência de modelos grandes.

UI2Code^N: Um Modelo de Linguagem Visual para Geração Interativa e Escalável de UI-para-Código em Tempo de Teste
UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Nov 11

ByZhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang

A programação de interface de usuário (UI) é uma parte central, mas altamente complexa, do desenvolvimento moderno de software. Os avanços recentes em modelos de linguagem visual (VLMs) destacam o potencial da codificação automática de UIs, mas as abordagens atuais enfrentam duas limitações principais: as capacidades de codificação multimodal permanecem subdesenvolvidas, e os paradigmas de interação única fazem pouco uso do feedback visual iterativo. Nós abordamos esses desafios com um paradigma interativo de UI-para-código que reflete melhor os fluxos de trabalho do mundo real e eleva o limite máximo de desempenho atingível. Sob este paradigma, apresentamos o UI2Code^N, um modelo de linguagem visual treinado por meio de pré-treinamento, ajuste fino e aprendizado por reforço em etapas para alcançar melhorias fundamentais na codificação multimodal. O modelo unifica três capacidades principais: geração de UI-para-código, edição de UI e polimento de UI. Exploramos ainda o escalonamento em tempo de teste para geração interativa, permitindo o uso sistemático de feedback multi-turn. Experimentos em benchmarks de UI-para-código e polimento de UI mostram que o UI2Code^N estabelece um novo estado da arte entre os modelos de código aberto e alcança um desempenho comparável a modelos proprietários líderes, como Claude-4-Sonnet e GPT-5. Nosso código e modelos estão disponíveis em https://github.com/zai-org/UI2Code_N.

GGBench: Um Benchmark de Raciocínio Geométrico Generativo para Modelos Multimodais Unificados
GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

Nov 14

ByJingxuan Wei, Caijun Jia, Xi Bai, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Lijun Wu, Cheng Tan

O advento dos Modelos Multimodais Unificados (UMMs) sinaliza uma mudança de paradigma na inteligência artificial, passando de uma perceção passiva para uma geração ativa e cross-modal. Apesar da sua capacidade sem precedentes para sintetizar informação, persiste uma lacuna crítica na avaliação: os *benchmarks* existentes avaliam principalmente a compreensão discriminativa ou a geração de imagem sem restrições separadamente, falhando em medir o processo cognitivo integrado do raciocínio generativo. Para colmatar esta lacuna, propomos que a construção geométrica constitui um campo de testes ideal, uma vez que exige inerentemente uma fusão da compreensão linguística e da geração visual precisa. Apresentamos o GGBench, um *benchmark* concebido especificamente para avaliar o raciocínio generativo geométrico. Ele fornece um quadro abrangente para diagnosticar sistematicamente a capacidade de um modelo não só de compreender e raciocinar, mas de construir ativamente uma solução, estabelecendo assim um padrão mais rigoroso para a próxima geração de sistemas inteligentes. Website do projeto: https://opendatalab-raiser.github.io/GGBench/.

LiteAttention: Uma Atenção Temporal Esparsa para Transformadores de Difusão
LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

Nov 14

ByDor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb

Os Transformadores de Difusão, particularmente para geração de vídeo, alcançam qualidade notável, mas sofrem com a complexidade quadrática da atenção, resultando em latência proibitiva. Os métodos de aceleração existentes enfrentam um trade-off fundamental: estimar dinamicamente padrões esparsos de atenção em cada etapa de remoção de ruído incorre em alta sobrecarga computacional e erros de estimativa, enquanto padrões estáticos de esparsidade permanecem fixos e frequentemente subótimos durante todo o processo. Identificamos uma propriedade estrutural fundamental da atenção por difusão: seus padrões de esparsidade exibem forte coerência temporal entre as etapas de remoção de ruído. Blocos considerados não essenciais na etapa t geralmente permanecem assim na etapa t+δ. Aproveitando essa observação, introduzimos o LiteAttention, um método que explora a coerência temporal para permitir saltos computacionais evolutivos ao longo da sequência de remoção de ruído. Ao marcar blocos não essenciais precocemente e propagar decisões de salto adiante, o LiteAttention elimina cálculos de atenção redundantes sem sobrecargas de perfilamento repetitivas, combinando a adaptabilidade dos métodos dinâmicos com a eficiência dos estáticos. Implementamos um kernel LiteAttention altamente otimizado sobre o FlashAttention e demonstramos acelerações substanciais em modelos de difusão de vídeo de produção, sem degradação de qualidade. O código e detalhes de implementação serão disponibilizados publicamente.

Simulando o Mundo Visual com Inteligência Artificial: Um Roteiro
Simulating the Visual World with Artificial Intelligence: A Roadmap

Nov 11

ByJingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu

O cenário da geração de vídeo está em transformação, evoluindo do foco na criação de clipes visualmente atraentes para a construção de ambientes virtuais que suportam interação e mantêm plausibilidade física. Esses avanços apontam para o surgimento de modelos de base para vídeo que funcionam não apenas como geradores visuais, mas também como modelos implícitos do mundo – modelos que simulam a dinâmica física, as interações agente-ambiente e o planejamento de tarefas que governam mundos reais ou imaginados. Este estudo fornece uma visão sistemática dessa evolução, conceptualizando os modelos modernos de base para vídeo como a combinação de dois componentes centrais: um modelo implícito do mundo e um renderizador de vídeo. O modelo do mundo codifica conhecimento estruturado sobre o mundo, incluindo leis físicas, dinâmicas de interação e comportamento de agentes. Ele funciona como um motor de simulação latente que permite raciocínio visual coerente, consistência temporal de longo prazo e planejamento orientado a objetivos. O renderizador de vídeo transforma essa simulação latente em observações visuais realistas, produzindo efetivamente vídeos como uma "janela" para o mundo simulado. Traçamos a progressão da geração de vídeo através de quatro gerações, nas quais as capacidades centrais avançam passo a passo, culminando finalmente em um modelo do mundo, construído sobre um modelo de geração de vídeo, que incorpora plausibilidade física intrínseca, interação multimodal em tempo real e capacidades de planejamento abrangendo múltiplas escalas espaço-temporais. Para cada geração, definimos suas características principais, destacamos trabalhos representativos e examinamos seus domínios de aplicação, como robótica, condução autónoma e jogos interativos. Finalmente, discutimos desafios em aberto e princípios de design para modelos do mundo de próxima geração, incluindo o papel da inteligência do agente na moldagem e avaliação desses sistemas. Uma lista atualizada de trabalhos relacionados é mantida neste link.

AIonopedia: um agente de LLM que orquestra aprendizado multimodal para descoberta de líquidos iônicos
AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

Nov 14

ByYuqi Yin, Yibo Fu, Siyuan Wang, Peng Sun, Hongyu Wang, Xiaohui Wang, Lei Zheng, Zhiyong Li, Zhirong Liu, Jianji Wang, Zhaoxi Sun

A descoberta de novos Líquidos Iônicos (LIs) é dificultada por desafios críticos na previsão de propriedades, incluindo dados limitados, baixa precisão de modelos e fluxos de trabalho fragmentados. Aproveitando o poder dos Modelos de Linguagem de Grande Porte (LLMs), introduzimos o AIonopedia, que, até onde sabemos, é o primeiro agente baseado em LLM para descoberta de LIs. Alimentado por um modelo de domínio multimodal aumentado por LLM para LIs, o AIonopedia permite previsões precisas de propriedades e incorpora uma arquitetura de busca hierárquica para triagem e design molecular. Treinado e avaliado em um novo conjunto de dados de LIs abrangente e curado, nosso modelo oferece um desempenho superior. Complementando esses resultados, avaliações em sistemas reportados na literatura indicam que o agente pode realizar modificações eficazes de LIs. Indo além de testes offline, a eficácia prática foi confirmada através de validação experimental em laboratório, na qual o agente demonstrou capacidades excepcionais de generalização em tarefas desafiadoras fora da distribuição de dados, destacando sua capacidade de acelerar a descoberta real de LIs.

SpatialThinker: Reforçando o Raciocínio 3D em MLLMs Multimodais por meio de Recompensas Espaciais
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

Nov 10

ByHunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark

Os modelos de linguagem multimodal (MLLMs) alcançaram progressos notáveis em tarefas de visão e linguagem, mas continuam a enfrentar dificuldades na compreensão espacial. Os MLLMs espaciais existentes frequentemente dependem de entradas 3D explícitas ou modificações específicas da arquitetura, permanecendo limitados por conjuntos de dados em larga escala ou supervisão esparsa. Para superar essas limitações, apresentamos o SpatialThinker, um MLLM com consciência 3D treinado com RL para integrar fundamentação espacial estruturada com raciocínio multi-etapas. O modelo simula a percepção espacial humana construindo um grafo de cena com objetos relevantes para a tarefa e suas relações espaciais, raciocinando em direção a uma resposta por meio de recompensas espaciais densas. O SpatialThinker consiste em duas contribuições principais: (1) um pipeline de síntese de dados que gera o STVQA-7K, um conjunto de dados de alta qualidade para VQA espacial, e (2) RL online com uma recompensa espacial densa multi-objetivo que reforça a fundamentação espacial. O SpatialThinker-7B supera a afinação supervisionada e a linha de base de RL esparso em benchmarks de compreensão espacial e VQA do mundo real, quase duplicando o ganho do modelo base em comparação com o RL esparso e superando o GPT-4o. Estes resultados demonstram a eficácia de combinar supervisão espacial com raciocínio alinhado por recompensa para permitir uma compreensão espacial 3D robusta com dados limitados, avançando os MLLMs em direção ao raciocínio visual de nível humano.

MarsRL: Avanço do Sistema de Raciocínio Multiagente via Aprendizagem por Reforço com Paralelismo de Pipeline Agêntico
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Nov 14

ByShulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu

Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm sido impulsionados pelo aprendizado por reforço com recompensas verificáveis (RLVR) e pela escalagem em tempo de teste. No entanto, o comprimento limitado da saída dos LLMs restringe a profundidade de raciocínio alcançável em um único processo de inferência. Os sistemas de raciocínio multiagente oferecem uma alternativa promissora ao empregar múltiplos agentes, incluindo Solucionador, Verificador e Corretor, para refinar soluções iterativamente. Embora eficazes em modelos proprietários como o Gemini 2.5 Pro, esses sistemas lutam para generalizar em modelos de código aberto devido a capacidades insuficientes de crítica e correção. Para resolver isso, propomos o MarsRL, uma nova estrutura de aprendizado por reforço com paralelismo de pipeline agentivo, projetada para otimizar conjuntamente todos os agentes do sistema. O MarsRL introduz mecanismos de recompensa específicos por agente para mitigar o ruído nas recompensas e emprega treinamento inspirado em pipeline para aumentar a eficiência no tratamento de trajetórias longas. Aplicado ao Qwen3-30B-A3B-Thinking-2507, o MarsRL melhorou a precisão no AIME2025 de 86,5% para 93,3% e no BeyondAIME de 64,9% para 73,8%, superando inclusive o Qwen3-235B-A22B-Thinking-2507. Esses resultados destacam o potencial do MarsRL para avançar os sistemas de raciocínio multiagente e ampliar sua aplicabilidade em diversas tarefas de raciocínio.

RF-DETR: Busca por Arquitetura Neural para Transformers de Detecção em Tempo Real
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

Nov 12

ByIsaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri

Os detectores de vocabulário aberto alcançam desempenho impressionante no COCO, mas frequentemente falham em generalizar para conjuntos de dados do mundo real com classes fora da distribuição não tipicamente presentes em seu pré-treinamento. Em vez de simplesmente ajustar um modelo pesado de visão e linguagem (VLM) para novos domínios, introduzimos o RF-DETR, um transformer de detecção especializado e leve que descobre curvas de Pareto de precisão-latência para qualquer conjunto de dados alvo através de pesquisa de arquitetura neural (NAS) com compartilhamento de pesos. Nossa abordagem ajusta uma rede base pré-treinada em um conjunto de dados alvo e avalia milhares de configurações de rede com diferentes compensações precisão-latência sem necessidade de retreinamento. Adicionalmente, revisitamos os "ajustes parametrizáveis" para NAS para melhorar a transferibilidade dos DETRs para diversos domínios alvo. Notavelmente, o RF-DETR melhora significativamente os métodos state-of-the-art anteriores em tempo real no COCO e Roboflow100-VL. O RF-DETR (nano) alcança 48.0 AP no COCO, superando o D-FINE (nano) em 5.3 AP com latência similar, e o RF-DETR (2x-large) supera o GroundingDINO (tiny) em 1.2 AP no Roboflow100-VL enquanto executa 20x mais rápido. Até onde sabemos, o RF-DETR (2x-large) é o primeiro detector em tempo real a ultrapassar 60 AP no COCO. Nosso código está em https://github.com/roboflow/rf-detr

HI-TransPA: Assistente Pessoal de Tradução para Deficiências Auditivas
HI-TransPA: Hearing Impairments Translation Personal Assistant

Nov 13

ByZhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng

Para oferecer uma solução unificada e flexível para a comunicação diária de indivíduos com deficiência auditiva, introduzimos o paradigma Omni-Model na tecnologia assistiva e apresentamos o HI-TransPA, um assistente pessoal audiovisual orientado por instruções. O modelo funde fala indistinta com dinâmicas labiais de alta taxa de quadros, permitindo tanto tradução quanto diálogo dentro de uma única estrutura multimodal. Para enfrentar os desafios dos dados brutos ruidosos e heterogéneos e da adaptabilidade limitada dos Omni-Models existentes à fala com deficiência auditiva, construímos um pipeline abrangente de pré-processamento e curadoria que deteta marcos faciais, isola e estabiliza a região labial e avalia quantitativamente a qualidade das amostras multimodais. Essas pontuações de qualidade orientam uma estratégia de aprendizagem curricular que primeiro treina com amostras limpas e de alta confiança e progressivamente incorpora casos mais difíceis para fortalecer a robustez do modelo. Adotamos ainda um codificador SigLIP combinado com um Reamostrador 3D Unificado para codificar eficientemente o movimento labial de alta taxa de quadros. Experiências no nosso conjunto de dados HI-Dialogue, construído para este fim, mostram que o HI-TransPA alcança desempenho de ponta tanto em precisão literal quanto em fidelidade semântica. Este trabalho estabelece uma base para a aplicação de Omni-Models na tecnologia de comunicação assistiva, fornecendo uma estrutura de modelação de ponta a ponta e ferramentas de processamento essenciais para pesquisas futuras.

Não Desperdice: Orientando Recomendadores Generativos com Priori Humanos Estruturados via Decodificação Multi-cabeça
Don't Waste It: Guiding Generative Recommenders with Structured Human Priors via Multi-head Decoding

Nov 13

ByYunkai Zhang, Qiang Zhang, Feng, Lin, Ruizhong Qiu, Hanchao Yu, Jason Liu, Yinglong Xia, Zhuoran Yu, Zeyu Zheng, Diji Yang

A otimização de sistemas de recomendação para objetivos além da precisão, como diversidade, novidade e personalização, é crucial para a satisfação do usuário a longo prazo. Para tanto, os profissionais da indústria acumularam vastas quantidades de conhecimento de domínio estruturado, que denominamos de *priors* humanos (por exemplo, taxonomias de itens, padrões temporais). Esse conhecimento é tipicamente aplicado por meio de ajustes *post-hoc* durante a classificação ou pós-classificação. No entanto, essa abordagem permanece dissociada do aprendizado do modelo central, o que é particularmente indesejável à medida que a indústria migra para modelos de base de recomendação generativa de ponta a ponta. Por outro lado, muitos métodos que visam a esses objetivos além da precisão frequentemente exigem modificações específicas da arquitetura e descartam esses valiosos *priors* humanos ao aprender a intenção do usuário de uma maneira totalmente não supervisionada. Em vez de descartar os *priors* humanos acumulados ao longo de anos de prática, introduzimos uma estrutura independente da arquitetura base que integra perfeitamente esses *priors* humanos diretamente no treinamento de ponta a ponta de recomendadores generativos. Com cabeças adaptadoras leves e condicionadas por *priors*, inspiradas em estratégias eficientes de decodificação de LLMs, nossa abordagem orienta o modelo a desembaraçar a intenção do usuário ao longo de eixos compreensíveis para humanos (por exemplo, tipos de interação, interesses de longo versus curto prazo). Também introduzimos uma estratégia de composição hierárquica para modelar interações complexas entre diferentes tipos de *priors*. Experimentos extensos em três conjuntos de dados de grande escala demonstram que nosso método melhora significativamente tanto os objetivos de precisão quanto os que vão além dela. Também mostramos que os *priors* humanos permitem que o modelo base aproveite de forma mais eficaz contextos mais longos e tamanhos de modelo maiores.

DiscoX: Avaliação da Tradução em Nível Discursivo em Domínios Especializados
DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

Nov 14

ByXiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang

A avaliação da tradução em nível discursivo em domínios especializados permanece inadequada, apesar de sua centralidade para a disseminação do conhecimento e a comunicação académica translinguística. Embora essas traduções exijam coerência discursiva e rigorosa precisão terminológica, os métodos de avaliação atuais concentram-se predominantemente na precisão e fluidez em nível segmentar. Para superar esta limitação, apresentamos o DiscoX, um novo benchmark para tradução chinês-inglês em nível discursivo e especializado. Ele compreende 200 textos selecionados profissionalmente de 7 domínios, com um comprimento médio superior a 1700 tokens. Para avaliar o desempenho no DiscoX, desenvolvemos também o Metric-S, um sistema sem referência que fornece avaliações automáticas granulares em precisão, fluidez e adequação. O Metric-S demonstra forte consistência com os julgamentos humanos, superando significativamente as métricas existentes. Nossos experimentos revelam uma lacuna de desempenho notável: mesmo os LLMs mais avançados ainda ficam aquém dos especialistas humanos nessas tarefas. Esta constatação valida a dificuldade do DiscoX e ressalta os desafios que permanecem para alcançar a tradução automática de nível profissional. O benchmark e o sistema de avaliação propostos fornecem uma estrutura robusta para uma avaliação mais rigorosa, facilitando avanços futuros na tradução baseada em LLM.

Revisitando o miniF2F-Lean: Revisando Limitações e Traçando um Caminho à Frente
miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward

Nov 5

ByAzim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh

Realizamos uma análise aprofundada das declarações formais e informais no benchmark miniF2F sob a perspectiva de um sistema de IA incumbido de participar de uma olimpíada de matemática composta pelos problemas do miniF2F. Nesse cenário, o modelo deve ler e compreender os problemas em linguagem natural, formalizá-los na linguagem Lean e, em seguida, prosseguir com a demonstração dos problemas, recebendo crédito por cada problema se a prova formal corresponder à declaração informal original apresentada ao modelo. Nossos resultados de avaliação revelam que a melhor precisão de tal pipeline pode ser de cerca de 36% usando os modelos state-of-the-art (SoTA) da literatura, consideravelmente inferior às precisões SoTA individuais de 97% e 69% reportadas na literatura de autoformalização e prova de teoremas. Analisando os modos de falha, rastreamos uma parcela considerável dessa queda até discrepâncias entre as declarações formais e informais em mais da metade dos problemas do miniF2F. Prosseguimos corrigindo todos os erros, discrepâncias e simplificações nas declarações formais e informais, e apresentamos o miniF2F-v2 com declarações e provas formais e informais totalmente verificadas. A avaliação do pipeline completo de prova de teoremas no miniF2F-v2 resulta numa precisão máxima de 70%, uma melhoria significativa em relação aos 40% no miniF2F original, mas ainda indicando um desalinhamento considerável entre os modelos de autoformalização e os provadores de teoremas. Nossa análise detalhada sugere que um benchmark de maior qualidade pode ajudar a comunidade a avaliar melhor o progresso no campo do raciocínio formal e também a diagnosticar de modo mais eficaz os modos de falha e sucesso dos modelos de autoformalização e prova de teoremas. Nosso conjunto de dados está disponível em https://github.com/roozbeh-yz/miniF2F_v2.

Da Prova ao Programa: Caracterizando Alucinações de Raciocínio Induzidas por Ferramentas em Modelos de Linguagem de Grande Escala
From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

Nov 14

ByFarima Fatahi Bayat, Pouya Pezeshkpour, Estevam Hruschka

Os Modelos de Linguagem Aumentados por Ferramentas (TaLMs) podem invocar ferramentas externas para resolver problemas além de sua capacidade paramétrica. No entanto, permanece incerto se esses ganhos habilitados por ferramentas refletem um raciocínio confiável. Focando na ferramenta Code Interpreter, demonstramos que mesmo quando as ferramentas são selecionadas e executadas corretamente, os TaLMs tratam as saídas das ferramentas como substitutas do raciocínio, produzindo soluções que parecem corretas, mas carecem de justificação coerente. Denominamos esta falha de **Miopia Induzida por Ferramentas (TIM, do inglês *Tool-Induced Myopia*)**, e a estudamos usando o PYMATH, um *benchmark* com 1.679 problemas matemáticos de nível competitivo para os quais o código Python é útil, mas não suficiente. Desenvolvemos ainda uma suíte de avaliação multidimensional para quantificar a degradação do raciocínio nos TaLMs em relação às suas contrapartes sem ferramentas. Nossos resultados revelam que, embora os TaLMs obtenham um ganho de até 19,3 pontos percentuais na precisão da resposta final, seu comportamento de raciocínio se deteriora consistentemente (por exemplo, LLMs sem ferramentas vencem até 41,5% mais vezes em comparações pareadas do processo de raciocínio). Esta degradação intensifica-se com o uso de ferramentas; quanto mais frequentemente um modelo invoca ferramentas, menos coerente se torna seu raciocínio. Além disso, o uso de ferramentas desloca os erros de equívocos aritméticos para falhas de raciocínio global (lógica, premissa, criatividade); com a TIM presente em ~55% dos casos de alto risco. Finalmente, propomos uma estrutura baseada em otimização de preferências que realinha os TaLMs para usar ferramentas como evidência assistiva, melhorando tanto a precisão da resposta final quanto a profundidade do raciocínio sob uso de ferramentas. Códigos e dados estão disponíveis em: https://github.com/megagonlabs/TIM.

EmoVid: Um Conjunto de Dados de Vídeos de Emoções Multimodal para Compreensão e Geração de Vídeos Centrados na Emoção
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

Nov 14

ByZongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang

A emoção desempenha um papel fundamental na expressão baseada em vídeo, mas os sistemas existentes de geração de vídeo concentram-se predominantemente em métricas visuais de baixo nível, negligenciando as dimensões afetivas. Embora a análise de emoções tenha progredido no domínio visual, a comunidade de vídeo carece de recursos dedicados para ligar a compreensão emocional com tarefas generativas, particularmente em contextos estilizados e não realistas. Para colmatar esta lacuna, apresentamos o EmoVid, o primeiro conjunto de dados de vídeo multimodal e anotado emocionalmente, concebido especificamente para media criativa, que inclui animações de cartoon, excertos de filmes e *stickers* animados. Cada vídeo é anotado com etiquetas de emoção, atributos visuais (brilho, intensidade de cor, matiz) e legendas textuais. Através de uma análise sistemática, descobrimos padrões espaciais e temporais que ligam características visuais a perceções emocionais em diversas formas de vídeo. Com base nestas perceções, desenvolvemos uma técnica de geração de vídeo condicionada por emoção, através do *fine-tuning* do modelo Wan2.1. Os resultados mostram uma melhoria significativa tanto nas métricas quantitativas como na qualidade visual dos vídeos gerados para tarefas de texto-para-vídeo e imagem-para-vídeo. O EmoVid estabelece um novo referencial para a computação de vídeo afetiva. O nosso trabalho não só oferece perceções valiosas para a análise de emoções visuais em vídeos de estilo artístico, como também fornece métodos práticos para melhorar a expressão emocional na geração de vídeo.

Adaptação Orientada pela Experiência de Estratégias de Raciocínio em Tempo de Inferência
Experience-Guided Adaptation of Inference-Time Reasoning Strategies

Nov 14

ByAdam Stein, Matthew Trager, Benjamin Bowman, Michael Kleinman, Aditya Chattopadhyay, Wei Xia, Stefano Soatto

Permitir que sistemas de IA agentivos adaptem suas abordagens de resolução de problemas com base em interações pós-treinamento continua sendo um desafio fundamental. Embora sistemas que atualizam e mantêm uma memória durante o tempo de inferência tenham sido propostos, os projetos existentes apenas direcionam o sistema modificando a entrada textual para um modelo de linguagem ou agente, o que significa que eles não podem alterar parâmetros de amostragem, remover ferramentas, modificar *prompts* de sistema ou alternar entre paradigmas agentivos e de fluxo de trabalho. Por outro lado, sistemas que se adaptam de forma mais flexível exigem otimização offline e permanecem estáticos uma vez implantados. Apresentamos o *Experience-Guided Reasoner* (EGuR), que gera estratégias personalizadas – procedimentos computacionais completos envolvendo chamadas de LLM, ferramentas, parâmetros de amostragem e lógica de controle – dinamicamente no tempo de inferência, com base na experiência acumulada. Alcançamos isso usando uma metaestratégia baseada em LLM – uma estratégia que produz estratégias – permitindo a adaptação de todos os componentes da estratégia (*prompts*, parâmetros de amostragem, configurações de ferramentas e lógica de controle). O EGuR opera por meio de dois componentes: um *Guia* gera múltiplas estratégias candidatas condicionadas ao problema atual e a uma memória estruturada de experiências passadas, enquanto um *Consolidador* integra o *feedback* da execução para melhorar a geração de estratégias futuras. Isso produz estratégias completas e prontas para execução, otimizadas para cada problema, que podem ser armazenadas em cache, recuperadas e executadas conforme necessário, sem desperdício de recursos. Em cinco *benchmarks* desafiadores (AIME 2025, 3-SAT e três tarefas do Big Bench Extra Hard), o EGuR alcança melhorias de precisão de até 14% em relação às linhas de base mais fortes, enquanto reduz os custos computacionais em até 111 vezes, com ambas as métricas melhorando à medida que o sistema ganha experiência.

Grandes Modelos de Linguagem para Geração de Ideias Científicas: Um Estudo Centrado na Criatividade
Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

Nov 5

ByFatemeh Shahhosseini, Arash Marioriyad, Ali Momen, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban, Shaghayegh Haghjooy Javanmard

A geração de ideias científicas está no cerne da descoberta científica e tem impulsionado o progresso humano — seja resolvendo problemas não solucionados ou propondo novas hipóteses para explicar fenômenos desconhecidos. Ao contrário do raciocínio científico padrão ou da geração criativa geral, a geração de ideias na ciência é uma tarefa de múltiplos objetivos e de natureza aberta, na qual a novidade de uma contribuição é tão essencial quanto sua solidez empírica. Os grandes modelos de linguagem (LLMs) emergiram recentemente como geradores promissores de ideias científicas, capazes de produzir resultados coerentes e factuais com intuição surpreendente e raciocínio aceitável, mas sua capacidade criativa permanece inconsistente e pouco compreendida. Esta revisão fornece uma síntese estruturada dos métodos para a ideação científica impulsionada por LLMs, examinando como diferentes abordagens equilibram criatividade com rigor científico. Categorizamos os métodos existentes em cinco famílias complementares: Aumento de conhecimento externo, Direcionamento distribucional baseado em *prompts*, Escalonamento no momento da inferência, Colaboração multiagente e Adaptação a nível de parâmetros. Para interpretar suas contribuições, empregamos dois quadros complementares: a taxonomia de Boden da criatividade Combinatória, Exploratória e Transformacional para caracterizar o nível de ideias que cada família espera gerar, e o quadro 4Ps de Rhodes — Pessoa, Processo, Pressão e Produto — para localizar o aspeto ou fonte de criatividade que cada método enfatiza. Ao alinhar os avanços metodológicos com os quadros de criatividade, esta revisão esclarece o estado da arte e delineia direções-chave para aplicações confiáveis, sistemáticas e transformadoras dos LLMs na descoberta científica.

Agendadores de Carga de Trabalho — Gênese, Algoritmos e Diferenças
Workload Schedulers -- Genesis, Algorithms and Differences

Nov 13

ByLeszek Sliwko, Vladimir Getov

Este artigo apresenta uma nova abordagem para a categorização de escalonadores de carga de trabalho modernos. Fornecemos descrições de três classes de escalonadores: Escalonadores de Processos de Sistemas Operacionais, Escalonadores de Tarefas de Sistemas de Cluster e Escalonadores de Big Data. Descrevemos a sua evolução desde as primeiras adoções até às implementações modernas, considerando tanto a utilização como as características dos algoritmos. Em suma, discutimos as diferenças entre todas as classes de escalonadores apresentadas e analisamos o seu desenvolvimento cronológico. Em conclusão, destacamos semelhanças no foco do desenho de estratégias de escalonamento, aplicáveis tanto a sistemas locais como distribuídos.

Construindo a Web para Agentes: Um Framework Declarativo para Interação Agente-Web
Building the Web for Agents: A Declarative Framework for Agent-Web Interaction

Nov 14

BySven Schultze, Meike Verena Kietzmann, Nils-Lucas Schönfeld, Ruth Stock-Homburg

A crescente implantação de agentes de IA autónomos na web é dificultada por um desalinhamento fundamental: os agentes têm de inferir *affordances* a partir de interfaces de utilizador concebidas para humanos, o que leva a interações frágeis, ineficientes e inseguras. Para resolver este problema, introduzimos o VOIX, um *framework* nativo da web que permite aos *websites* expor capacidades confiáveis, auditáveis e que preservam a privacidade para agentes de IA através de elementos HTML simples e declarativos. O VOIX introduz as tags `<tool>` e `<context>`, permitindo aos programadores definir explicitamente as ações disponíveis e o estado relevante, criando assim um contrato claro e legível por máquina para o comportamento do agente. Esta abordagem transfere o controlo para o programador do *website*, preservando simultaneamente a privacidade do utilizador ao desligar as interações conversacionais do *website*. Avaliámos a praticidade, a facilidade de aprendizagem e a expressividade do *framework* num estudo de *hackathon* de três dias com 16 programadores. Os resultados demonstram que os participantes, independentemente da experiência anterior, foram capazes de construir rapidamente aplicações web diversas e funcionais, capacitadas para agentes. Em última análise, este trabalho fornece um mecanismo fundamental para concretizar a Web Agência, permitindo um futuro de colaboração humana-IA perfeita e segura na web.

CATS-V2V: Um Conjunto de Dados de Percepção Cooperativa Veículo-a-Veículo do Mundo Real com Cenários Complexos de Tráfego Adverso
CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios

Nov 14

ByHangyu Li, Bofeng Cao, Zhaohui Liang, Wuzhen Li, Juyoung Oh, Yuxuan Chen, Shixiao Liang, Hang Zhou, Chengyuan Ma, Jiaxi Liu, Zheng Li, Peng Zhang, KeKe Long, Maolin Liu, Jackson Jiang, Chunlei Yu, Shengxiang Liu, Hongkai Yu, Xiaopeng Li

A perceção cooperativa veículo-a-veículo (V2V) possui um grande potencial para melhorar o desempenho da condução autónoma, superando as limitações de perceção em cenários de tráfego adversos complexos (CATS). Entretanto, os dados servem como infraestrutura fundamental para a IA moderna de condução autónoma. No entanto, devido a requisitos rigorosos de recolha de dados, os conjuntos de dados existentes concentram-se principalmente em cenários de tráfego comuns, limitando os benefícios da perceção cooperativa. Para enfrentar este desafio, apresentamos o CATS-V2V, o primeiro conjunto de dados do mundo real do seu género para perceção cooperativa V2V sob cenários de tráfego adversos complexos. O conjunto de dados foi recolhido por dois veículos sincronizados temporalmente em hardware, abrangendo 10 condições meteorológicas e de iluminação em 10 localizações diversas. O conjunto de 100 clipes inclui 60 mil frames de nuvens de pontos LiDAR a 10 Hz e 1,26 milhões de imagens de câmara multi-view a 30 Hz, juntamente com 750 mil registos anónimos mas de alta precisão de GNSS e IMU fixados por RTK. Correspondentemente, fornecemos anotações de caixas delimitadoras 3D temporalmente consistentes para objetos, bem como cenas estáticas para construir uma representação 4D em vista de cima (BEV). Com base nisto, propomos um método de alinhamento temporal baseado em alvos, garantindo que todos os objetos estejam precisamente alinhados em todas as modalidades de sensores. Esperamos que o CATS-V2V, o conjunto de dados da sua categoria de maior escala, mais abrangente e de mais alta qualidade até à data, beneficie a comunidade de condução autónoma em tarefas relacionadas.

Um Balanceador de Carga Meta-Heurístico para Sistemas de Computação em Nuvem
A Meta-Heuristic Load Balancer for Cloud Computing Systems

Nov 13

ByLeszek Sliwko, Vladimir Getov

Este artigo apresenta uma estratégia para alocar serviços em um sistema de nuvem sem sobrecarregar os nós e mantendo a estabilidade do sistema com custo mínimo. Especificamos um modelo abstrato de utilização de recursos de nuvem, incluindo múltiplos tipos de recursos, bem como considerações sobre os custos de migração de serviços. Um protótipo de balanceador de carga meta-heurístico é demonstrado, e os resultados experimentais são apresentados e discutidos. Também propomos um novo algoritmo genético, no qual a população é inicializada com os resultados de outros algoritmos meta-heurísticos.