HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

26 papers found

Raciocínio Agente para Modelos de Linguagem de Grande Escala
Agentic Reasoning for Large Language Models

Jan 18

ByTianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He

193

A raciocínio é um processo cognitivo fundamental que sustenta a inferência, a resolução de problemas e a tomada de decisões. Embora os Grandes Modelos de Linguagem (LLMs) demonstrem capacidades de raciocínio robustas em ambientes de mundo fechado, eles lutam em ambientes abertos e dinâmicos. O raciocínio agentivo representa uma mudança de paradigma ao reformular os LLMs como agentes autónomos que planeiam, agem e aprendem através da interação contínua. Nesta revisão, organizamos o raciocínio agentivo ao longo de três dimensões complementares. Primeiro, caracterizamos a dinâmica ambiental através de três camadas: o raciocínio agentivo fundamental, que estabelece capacidades centrais de agente único, incluindo planeamento, uso de ferramentas e busca em ambientes estáveis; o raciocínio agentivo de auto-evolução, que estuda como os agentes refinam essas capacidades através de *feedback*, memória e adaptação; e o raciocínio coletivo multiagente, que estende a inteligência para contextos colaborativos envolvendo coordenação, partilha de conhecimento e objetivos comuns. Através destas camadas, distinguimos o raciocínio em contexto, que dimensiona a interação no momento do teste através de orquestração estruturada, do raciocínio pós-treinamento, que otimiza comportamentos via aprendizagem por reforço e *fine-tuning* supervisionado. Revemos ainda estruturas representativas de raciocínio agentivo em aplicações e *benchmarks* do mundo real, incluindo ciência, robótica, saúde, pesquisa autónoma e matemática. Esta revisão sintetiza os métodos de raciocínio agentivo num roteiro unificado que liga o pensamento à ação, e delineia desafios em aberto e direções futuras, incluindo personalização, interação de longo horizonte, modelação do mundo, treino escalável de multiagentes e governança para implementação no mundo real.

MMDeepResearch-Bench: Um Benchmark para Agentes de Pesquisa Profunda Multimodal
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

Jan 18

ByPeizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

Os Agentes de Pesquisa Profunda (DRAs) geram relatórios ricos em citações por meio de busca e síntese multi-etapas, no entanto, os benchmarks existentes focam principalmente em configurações apenas de texto ou em QA multimodal de formato curto, não abrangendo o uso de evidências multimodais de ponta a ponta. Apresentamos o MMDeepResearch-Bench (MMDR-Bench), um benchmark composto por 140 tarefas elaboradas por especialistas em 21 domínios, onde cada tarefa fornece um pacote de imagem-texto para avaliar a compreensão multimodal e a geração de relatórios ancorada em citações. Em comparação com configurações anteriores, o MMDR-Bench enfatiza a síntese em estilo de relatório com uso explícito de evidências, onde os modelos devem conectar artefatos visuais a afirmações fonteadas e manter a consistência entre narrativa, citações e referências visuais. Propomos ainda um pipeline de avaliação unificado e interpretável: a Avaliação Adaptativa Formula-LLM (FLAE) para a qualidade do relatório, a Avaliação de Citação Alinhada à Recuperação Confiável (TRACE) para o alinhamento das evidências com as citações, e a Verificação de Integridade Alinhada ao Suporte Multimodal (MOSAIC) para a integridade texto-visual, cada um produzindo sinais granulares que suportam o diagnóstico de erros para além de uma única pontuação geral. Experimentos com 25 modelos state-of-the-art revelam trade-offs sistemáticos entre qualidade da geração, disciplina de citação e fundamentação multimodal, destacando que uma prosa de alta qualidade por si só não garante o uso fiel de evidências e que a integridade multimodal permanece um gargalo crítico para os agentes de pesquisa profunda.

Paper2Rebuttal: Uma Estrutura Multiagente para Assistência Transparente na Resposta a Autores
Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance

Jan 20

ByQianli Ma, Chang Guo, Zhiheng Tian, Siyu Wang, Jipeng Xiao, Yuanhao Yue, Zhipeng Zhang

A redação de rebates eficazes é uma tarefa de alta complexidade que exige mais do que fluência linguística, pois requer um alinhamento preciso entre a intenção do revisor e os detalhes do manuscrito. As soluções atuais geralmente tratam isso como um problema de geração direta de texto, sofrendo com alucinações, críticas negligenciadas e falta de fundamentação verificável. Para superar essas limitações, apresentamos o RebuttalAgent, o primeiro *framework* de múltiplos agentes que reformula a geração de rebates como uma tarefa de planejamento centrada em evidências. Nosso sistema decompõe *feedbacks* complexos em preocupações atômicas e constrói dinamicamente contextos híbridos, sintetizando resumos comprimidos com texto de alta fidelidade, enquanto integra um módulo de busca externa autónoma e sob demanda para resolver preocupações que exigem literatura externa. Ao gerar um plano de resposta inspecionável antes da redação, o RebuttalAgent garante que cada argumento esteja explicitamente ancorado em evidências internas ou externas. Validamos nossa abordagem na *RebuttalBench* proposta e demonstramos que nosso *pipeline* supera *baselines* robustos em cobertura, fidelidade e coerência estratégica, oferecendo um assistente transparente e controlável para o processo de revisão por pares. O código será disponibilizado.

Repensando o Modelo de Geração de Vídeo para o Mundo Corporificado
Rethinking Video Generation Model for the Embodied World

Jan 21

ByYufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou

Os modelos de geração de vídeo avançaram significativamente a inteligência incorporada, desbloqueando novas possibilidades para gerar dados robóticos diversos que capturam percepção, raciocínio e ação no mundo físico. No entanto, sintetizar vídeos de alta qualidade que reflitam com precisão as interações robóticas do mundo real continua sendo um desafio, e a falta de um benchmark padronizado limita comparações justas e o progresso. Para preencher esta lacuna, introduzimos um benchmark robótico abrangente, o RBench, projetado para avaliar a geração de vídeos orientada a robôs em cinco domínios de tarefa e quatro embodiamentos distintos. Ele avalia tanto a correção a nível de tarefa quanto a fidelidade visual por meio de submétricas reproduzíveis, incluindo consistência estrutural, plausibilidade física e completude da ação. A avaliação de 25 modelos representativos destaca deficiências significativas na geração de comportamentos robóticos fisicamente realistas. Além disso, o benchmark alcança um coeficiente de correlação de Spearman de 0,96 com avaliações humanas, validando sua eficácia. Embora o RBench forneça a lente necessária para identificar essas deficiências, alcançar o realismo físico exige ir além da avaliação para abordar a escassez crítica de dados de treinamento de alta qualidade. Motivados por essas percepções, introduzimos um pipeline de dados refinado de quatro estágios, resultando no RoVid-X, o maior conjunto de dados robótico de código aberto para geração de vídeo, com 4 milhões de clipes de vídeo anotados, cobrindo milhares de tarefas e enriquecido com anotações abrangentes de propriedades físicas. Coletivamente, este ecossistema sinérgico de avaliação e dados estabelece uma base robusta para a avaliação rigorosa e o treinamento escalável de modelos de vídeo, acelerando a evolução da IA incorporada em direção à inteligência geral.

GutenOCR: Uma Interface de Visão Computacional e Linguagem Fundamentada para Documentos
GutenOCR: A Grounded Vision-Language Front-End for Documents

Jan 20

ByHunter Heidenreich, Ben Elliott, Olivia Dinica, Yosheb Getachew

GutenOCR é uma família de interfaces de OCR fundamentadas obtidas através do ajuste fino dos modelos Qwen2.5-VL-3B e Qwen2.5-VL-7B. Os modelos de visão e linguagem resultantes, de checkpoint único, expõem funcionalidades de leitura, deteção e fundamentação através de uma interface unificada baseada em prompts. Treinados em documentos empresariais, artigos científicos e dados sintéticos de fundamentação, os modelos suportam leitura de página completa e localizada com caixas delimitadoras ao nível de linha e parágrafo, e consultas condicionais do tipo "onde está x?". Introduzimos um protocolo de avaliação de OCR fundamentado e demonstramos que o GutenOCR-7B mais do que duplica a pontuação composta de OCR fundamentado da sua base Qwen2.5-VL-7B em 10,5 mil páginas empresariais e científicas retidas para teste (de 0,40 para 0,82). Nos benchmarks Fox e OmniDocBench v1.5, a nossa abordagem melhora substancialmente o OCR a nível de região e de linha, bem como a recuperação (recall) de deteção de texto, mas revela compromissos (trade-offs) na linearização a nível de página, no OCR guiado por cor e em layouts com densidade de fórmulas.

Fusão de Conhecimento Comportamental em Modelos Agênicos Reforçados
Behavior Knowledge Merge in Reinforced Agentic Models

Jan 20

ByXiangchi Yuan, Dachuan Shi, Chunhui Zhang, Zheyuan Liu, Shenglong Yao, Soroush Vosoughi, Wenke Lee

O aprendizado por reforço (AR) é central para o pós-treinamento, particularmente para modelos agentes que exigem comportamentos de raciocínio especializados. Nesse contexto, a fusão de modelos oferece um mecanismo prático para integrar múltiplos agentes treinados por AR de diferentes tarefas em um único modelo generalista. No entanto, os métodos de fusão existentes são projetados para ajuste fino supervisionado (SFT, do inglês *Supervised Fine-Tuning*) e são subótimos para preservar capacidades específicas da tarefa em modelos agentes treinados por AR. A raiz do problema é um descompasso entre os vetores de tarefa do AR e do SFT: o AR *on-policy* induz vetores de tarefa altamente esparsos e heterogêneos, enquanto a fusão no estilo SFT assume implicitamente vetores de tarefa densos e globalmente comparáveis. Quando a média global padrão é aplicada sob esse descompasso, os vetores de tarefa não sobrepostos do AR, que codificam comportamentos críticos específicos da tarefa, são reduzidos e as atualizações de parâmetros são diluídas. Para resolver essa questão, propomos a Fusão de Agentes Reforçada (RAM, do inglês *Reinforced Agent Merging*), uma estrutura de fusão consciente da distribuição, explicitamente projetada para modelos agentes treinados por AR. A RAM desembaraça as atualizações de parâmetros compartilhadas e as únicas específicas da tarefa, calculando a média dos componentes compartilhados enquanto preserva e redimensiona seletivamente os únicos para neutralizar a diluição das atualizações de parâmetros. Experimentos em múltiplos domínios de agentes e arquiteturas de modelo demonstram que a RAM não apenas supera as baselines de fusão, mas também desbloqueia um potencial sinérgico entre os agentes para alcançar um desempenho superior ao de agentes especializados em seus domínios.

FlashLabs Chroma 1.0: Um Modelo de Diálogo Falado em Tempo Real de Ponta a Ponta com Clonagem de Voz Personalizada
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Jan 16

ByTanyu Chen, Tairan Chen, Kai Shen, Zhenghua Bao, Zhihui Zhang, Man Yuan, Yi Shi

Os recentes sistemas de diálogo falado de ponta a ponta aproveitam tokenizadores de fala e codecs neurais de áudio para permitir que LLMs operem diretamente em representações discretas de fala. No entanto, esses modelos frequentemente exibem preservação limitada da identidade do locutor, dificultando a interação vocal personalizada. Neste trabalho, apresentamos o Chroma 1.0, o primeiro modelo de diálogo falado de ponta a ponta, em tempo real e de código aberto que alcança tanto interação de baixa latência quanto clonagem vocal personalizada de alta fidelidade. O Chroma atinge uma latência de ponta a ponta inferior a um segundo por meio de um esquema intercalado de tokens de texto e áudio (1:2) que suporta geração em fluxo contínuo, mantendo ao mesmo tempo uma síntese de voz personalizada de alta qualidade em conversas de múltiplos turnos. Nossos resultados experimentais demonstram que o Chroma alcança uma melhoria relativa de 10,96% na similaridade do locutor em relação à linha de base humana, com um Fator de Tempo Real (RTF) de 0,43, mantendo fortes capacidades de raciocínio e diálogo. Nosso código e modelos estão publicamente disponíveis em https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma e https://huggingface.co/FlashLabs/Chroma-4B.

Render-of-Thought: Representando Cadeias de Raciocínio Textual como Imagens para Raciocínio Visual Latente
Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Jan 21

ByYifan Wang, Shiyu Li, Peiming Li, Xiaochen Yang, Yang Tang, Zheng Wei

A técnica de Chain-of-Thought (CoT) tem alcançado sucesso notável em desbloquear as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). Embora o prompting CoT aprimore o raciocínio, sua verbosidade impõe uma sobrecarga computacional substancial. Trabalhos recentes frequentemente focam-se exclusivamente no alinhamento do resultado final e carecem de supervisão sobre o processo de raciocínio intermediário. Essas deficiências obscurecem a analisabilidade da cadeia de raciocínio latente. Para enfrentar esses desafios, introduzimos o Render-of-Thought (RoT), o primeiro framework que reifica a cadeia de raciocínio, renderizando passos textuais em imagens, tornando a lógica subjacente explícita e rastreável. Especificamente, aproveitamos os codificadores de visão de Modelos de Linguagem Visual (VLMs) existentes como âncoras semânticas para alinhar os *embeddings* visuais com o espaço textual. Este design garante uma implementação *plug-and-play* sem incorrer em custos adicionais de pré-treinamento. Experimentos extensivos em *benchmarks* de raciocínio matemático e lógico demonstram que nosso método alcança uma compressão de 3 a 4 vezes no número de *tokens* e uma aceleração substancial na inferência em comparação com o CoT explícito. Além disso, mantém um desempenho competitivo em relação a outros métodos, validando a viabilidade deste paradigma. Nosso código está disponível em https://github.com/TencentBAC/RoT.

Typhoon OCR: Modelo de Visão e Linguagem Aberto para Extração de Documentos Tailandeses
Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

Jan 21

BySurapon Nonesung, Natapong Nitarach, Teetouch Jaknamon, Pittawat Taveekitworachai, Kunat Pipatanakul

A extração de documentos é um componente central dos fluxos de trabalho digitais, contudo, os modelos visão-linguagem (VLMs) existentes privilegiam predominantemente idiomas de alta disponibilidade de recursos. A língua tailandesa apresenta desafios adicionais devido à complexidade do seu alfabeto, composto por caracteres não latinos, à ausência de limites explícitos entre palavras e à prevalência de documentos do mundo real altamente não estruturados, limitando a eficácia dos modelos *open-source* atuais. Este artigo apresenta o Typhoon OCR, um VLM aberto para extração de documentos, desenvolvido especificamente para tailandês e inglês. O modelo é refinado a partir de arquiteturas base visão-linguagem utilizando um conjunto de dados de treino focado no tailandês. O conjunto de dados é desenvolvido através de um *pipeline* de construção de dados multiestágio que combina OCR tradicional, reestruturação baseada em VLM e dados sintéticos curados. O Typhoon OCR é uma estrutura unificada capaz de transcrição de texto, reconstrução de layout e consistência estrutural a nível de documento. A última iteração do nosso modelo, o Typhoon OCR V1.5, é um modelo compacto e eficiente em inferência, concebido para reduzir a dependência de metadados e simplificar a implementação. Avaliações abrangentes em diversas categorias de documentos tailandeses, incluindo relatórios financeiros, formulários governamentais, livros, infográficos e documentos manuscritos, mostram que o Typhoon OCR atinge um desempenho comparável ou superior ao de modelos proprietários de ponta e maior dimensão, apesar de um custo computacional substancialmente inferior. Os resultados demonstram que os modelos de OCR visão-linguagem abertos podem alcançar uma extração de texto precisa e uma reconstrução de layout fiável para documentos tailandeses, atingindo um desempenho comparável a sistemas proprietários, mantendo-se, simultaneamente, leves e facilmente implementáveis.

Tufão ASR em Tempo Real: FastConformer-Transducer para Reconhecimento Automático de Fala em Tailandês
Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

Jan 19

ByWarit Sirichotedumrong, Adisai Na-Thalang, Potsawee Manakul, Pittawat Taveekitworachai, Sittipong Sripaisarnmongkol, Kunat Pipatanakul

Modelos de codificador-decodificador de grande porte, como o Whisper, alcançam uma transcrição offline robusta, mas permanecem impraticáveis para aplicações em tempo real devido à alta latência. No entanto, devido à acessibilidade dos checkpoints pré-treinados, o cenário aberto do ASR para tailandês continua dominado por essas arquiteturas offline, deixando uma lacuna crítica em soluções de streaming eficientes. Apresentamos o Typhoon ASR Real-time, um modelo FastConformer-Transducer com 115 milhões de parâmetros para reconhecimento de fala tailandesa de baixa latência. Demonstramos que uma rigorosa normalização de texto pode igualar o impacto do escalonamento do modelo: nosso modelo compacto alcança uma redução de 45x no custo computacional em comparação com o Whisper Large-v3, fornecendo uma precisão comparável. Nossa pipeline de normalização resolve ambiguidades sistêmicas na transcrição tailandesa — incluindo a verbalização de números dependente de contexto e marcadores de repetição (mai yamok) — criando alvos de treinamento consistentes. Introduzimos ainda uma abordagem de aprendizado curricular em dois estágios para a adaptação ao dialeto Isan (nordeste) que preserva o desempenho no tailandês central. Para enfrentar os desafios de reprodutibilidade no ASR tailandês, lançamos o Typhoon ASR Benchmark, um conjunto de dados anotado manualmente considerado padrão-ouro, com transcrições que seguem as convenções linguísticas tailandesas estabelecidas, fornecendo protocolos de avaliação padronizados para a comunidade de pesquisa.

Numina-Lean-Agent: Um Sistema Aberto e Geral de Raciocínio Agente para Matemática Formal
Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

Jan 20

ByJunqi Liu, Zihao Zhou, Zekai Zhu, Marco Dos Santos, Weikun He, Jiawei Liu, Ran Wang, Yunzhou Xie, Junqiao Zhao, Qiufeng Wang, Lihong Zhi, Jia Li, Wenda Li

Os sistemas agentes tornaram-se recentemente o paradigma dominante para a demonstração formal de teoremas, alcançando desempenho notável ao coordenar múltiplos modelos e ferramentas. No entanto, as abordagens existentes frequentemente dependem de pipelines específicas para tarefas e provadores formais treinados, limitando sua flexibilidade e reprodutibilidade. Neste artigo, propomos o paradigma que utiliza diretamente um agente de codificação geral como um raciocinador matemático formal. Este paradigma é motivado por (1) Um agente de codificação geral fornece uma interface natural para diversas tarefas de raciocínio além da demonstração, (2) O desempenho pode ser melhorado simplesmente substituindo o modelo base subjacente, sem necessidade de treinamento, e (3) O MCP permite a extensão flexível e a chamada autônoma de ferramentas especializadas, evitando projetos complexos. Com base neste paradigma, introduzimos o Numina-Lean-Agent, que combina o Claude Code com o Numina-Lean-MCP para permitir interação autônoma com o Lean, recuperação de teoremas relevantes, demonstração informal e ferramentas auxiliares de raciocínio. Utilizando o Claude Opus 4.5 como modelo base, o Numina-Lean-Agent resolve todos os problemas do Putnam 2025 (12 / 12), igualando o melhor sistema de código fechado. Além da avaliação em benchmarks, demonstramos ainda sua generalidade ao interagir com matemáticos para formalizar com sucesso o teorema de Brascamp-Lieb. Disponibilizamos o Numina-Lean-Agent e todas as soluções em https://github.com/project-numina/numina-lean-agent.

Movimento 3-para-4: Reconstrução de Movimento 3D para Síntese 4D
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Jan 20

ByHongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen

Apresentamos o Motion 3-to-4, uma estrutura *feed-forward* para a síntese de objetos dinâmicos 4D de alta qualidade a partir de um único vídeo monocular e de uma malha de referência 3D opcional. Embora avanços recentes tenham melhorado significativamente a geração de conteúdo 2D, em vídeo e 3D, a síntese 4D permanece difícil devido à escassez de dados de treinamento e à ambiguidade inerente à recuperação de geometria e movimento a partir de uma vista monocular. O Motion 3-to-4 aborda esses desafios decompondo a síntese 4D em geração de forma 3D estática e reconstrução de movimento. Utilizando uma malha de referência canônica, nosso modelo aprende uma representação latente de movimento compacta e prevê trajetórias de vértices por quadro para recuperar uma geometria completa e temporalmente coerente. Um transformador escalável baseado em quadros confere ainda robustez a comprimentos de sequência variáveis. Avaliações em *benchmarks* padrão e em um novo conjunto de dados com geometria de verdade terrestre precisa demonstram que o Motion 3-to-4 oferece fidelidade e consistência espacial superiores em comparação com trabalhos anteriores. A página do projeto está disponível em https://motion3-to-4.github.io/.

XR: Agentes Multimodais para Recuperação de Imagens Compostas
XR: Cross-Modal Agents for Composed Image Retrieval

Jan 20

ByZhongyu Yang, Wei Pang, Yingfang Yuan

A recuperação está a ser redefinida pela IA agentiva, exigindo raciocínio multimodal para além dos paradigmas convencionais baseados em similaridade. A Recuperação de Imagem Composta (CIR) exemplifica esta mudança, pois cada consulta combina uma imagem de referência com modificações textuais, exigindo compreensão composicional entre modalidades. Embora os métodos de CIR baseados em incorporação tenham alcançado progresso, mantêm-se limitados na perspetiva, captando pistas multimodais restritas e carecendo de raciocínio semântico. Para superar estas limitações, introduzimos XR, uma estrutura multiagente livre de treino que reformula a recuperação como um processo de raciocínio progressivamente coordenado. Esta orquestra três tipos especializados de agentes: agentes de imaginação sintetizam representações-alvo através de geração multimodal, agentes de similaridade realizam filtragem grosseira via correspondência híbrida, e agentes de questionamento verificam a consistência factual através de raciocínio direcionado para filtragem fina. Através de uma coordenação multiagente progressiva, o XR refina iterativamente a recuperação para satisfazer restrições semânticas e visuais da consulta, alcançando um ganho de até 38% sobre linhas de base fortes, tanto livres de treino como baseadas em treino, nos conjuntos FashionIQ, CIRR e CIRCO, enquanto ablations demonstram que cada agente é essencial. Código disponível: https://01yzzyu.github.io/xr.github.io/.

RoboBrain 2.5: Profundidade à Vista, Tempo em Mente
RoboBrain 2.5: Depth in Sight, Time in Mind

Jan 20

ByHuajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang

Apresentamos o RoboBrain 2.5, um modelo de base de IA incorporada de próxima geração que avança na percepção geral, no raciocínio espacial e na modelagem temporal por meio de um treinamento extensivo com supervisão espaço-temporal de alta qualidade. Com base em seu predecessor, o RoboBrain 2.5 introduz duas grandes atualizações de capacidade. Especificamente, ele desbloqueia o **Raciocínio Espacial 3D Preciso** ao passar de uma ancoragem relativa a pixels 2D para uma compreensão de previsão de coordenadas consciente da profundidade e de restrições métricas absolutas, gerando traços completos de manipulação 3D como sequências ordenadas de pontos-chave sob restrições físicas. Complementando esta precisão espacial, o modelo estabelece a **Estimativa de Valor Temporal Densa**, que fornece uma previsão de progresso densa e consciente da etapa, além da compreensão do estado de execução através de diferentes pontos de vista, produzindo sinais de feedback estáveis para aprendizado downstream. Juntas, essas atualizações estendem a estrutura em direção a uma inteligência incorporada mais fundamentada fisicamente e consciente da execução para manipulações complexas e de granularidade fina. O código e os *checkpoints* estão disponíveis no site do projeto: https://superrobobrain.github.io

FinVault: Avaliação da Segurança de Agentes Financeiros em Ambientes de Execução Fundamentada
FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

Jan 9

ByZhi Yang, Runguo Li, Qiqi Qiang, Jiashun Wang, Fangqi Lou, Mengping Li, Dongpo Cheng, Rui Xu, Heng Lian, Shuo Zhang, Xiaolong Liang, Xiaoming Huang, Zheng Wei, Zhaowei Liu, Xin Guo, Huacan Wang, Ronghao Chen, Liwen Zhang

Os agentes financeiros alimentados por grandes modelos de linguagem (LLMs) estão sendo cada vez mais implantados para análise de investimentos, avaliação de riscos e tomada de decisão automatizada, onde as suas capacidades de planeamento, invocação de ferramentas e manipulação de estado mutável introduzem novos riscos de segurança em ambientes financeiros de alto risco e altamente regulamentados. No entanto, as avaliações de segurança existentes focam-se maioritariamente na conformidade de conteúdo ao nível do modelo de linguagem ou em configurações abstratas de agentes, falhando em capturar riscos de segurança fundamentados na execução, decorrentes de fluxos operacionais reais e de ações que alteram o estado. Para colmatar esta lacuna, propomos o FinVault, o primeiro benchmark de segurança fundamentado na execução para agentes financeiros, compreendendo 31 cenários de sandbox orientados por casos regulatórios com bases de dados graváveis e restrições explícitas de conformidade, juntamente com 107 vulnerabilidades do mundo real e 963 casos de teste que cobrem sistematicamente injeção de prompt (prompt injection), jailbreaking, ataques financeiramente adaptados, bem como entradas benignas para avaliação de falsos positivos. Os resultados experimentais revelam que os mecanismos de defesa existentes permanecem ineficazes em configurações realistas de agentes financeiros, com taxas médias de sucesso de ataque (ASR) a atingirem ainda até 50,0% nos modelos mais avançados e a permanecerem não negligenciáveis mesmo para os sistemas mais robustos (ASR 6,7%), destacando a transferibilidade limitada dos projetos de segurança atuais e a necessidade de defesas mais específicas para o setor financeiro. O nosso código pode ser encontrado em https://github.com/aifinlab/FinVault.

Colapso da Privacidade: Ajuste Fino Benigno Pode Quebrar a Privacidade Contextual em Modelos de Linguagem
Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

Jan 21

ByAnmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri

Identificamos um fenômeno novo em modelos de linguagem: o ajuste fino (fine-tuning) benigno de modelos de ponta pode levar ao colapso da privacidade. Descobrimos que padrões diversos e sutis nos dados de treinamento podem degradar a privacidade contextual, incluindo a otimização para utilidade (helpfulness), a exposição a informações do usuário, diálogos emocionais e subjetivos, e a depuração de código que imprime variáveis internas, entre outros. Os modelos ajustados perdem sua capacidade de raciocinar sobre normas de privacidade contextual, compartilham informações indevidamente com ferramentas e violam limites de memória entre contextos. O colapso da privacidade é uma "falha silenciosa" porque os modelos mantêm alto desempenho em benchmarks padrão de segurança e utilidade, enquanto exibem vulnerabilidades graves de privacidade. Nossos experimentos mostram evidências de colapso de privacidade em seis modelos (de código fechado e aberto), cinco conjuntos de dados de ajuste fino (dados do mundo real e controlados) e duas categorias de tarefas (agênticas e baseadas em memória). Nossa análise mecanicista revela que as representações de privacidade são singularmente frágeis ao ajuste fino, em comparação com características relevantes para a tarefa, que são preservadas. Nossos resultados revelam uma lacuna crítica nas avaliações de segurança atuais, em particular para a implantação de agentes especializados.

A Representação Neural Implícita Facilita a Codificação Visual Universal Unificada
Implicit Neural Representation Facilitates Unified Universal Vision Encoding

Jan 20

ByMatthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang

Os modelos para aprendizagem de representação de imagens são normalmente concebidos para reconhecimento ou geração. Várias formas de aprendizagem contrastiva ajudam os modelos a aprender a converter imagens em *embeddings* úteis para classificação, deteção e segmentação. Por outro lado, os modelos podem ser treinados para reconstruir imagens com perdas *pixel-wise*, percetuais e adversariais, de modo a aprender um espaço latente útil para geração de imagens. Procuramos unificar estas duas direções com um modelo pioneiro que aprende representações simultaneamente úteis para reconhecimento e geração. Treinamos o nosso modelo como uma *hyper-network* para representação neural implícita, que aprende a mapear imagens para pesos do modelo, permitindo uma reconstrução rápida e precisa. Integramos ainda a nossa *hyper-network* de representação neural implícita com destilação de conhecimento para melhorar a sua generalização e desempenho. Para além do design de treino inovador, o modelo também aprende um espaço de *embedding* comprimido sem precedentes, com desempenho excecional em várias tarefas visuais. O modelo completo compete com os resultados de ponta em aprendizagem de representação de imagens, permitindo também capacidades generativas através dos seus *embeddings* compactos de alta qualidade. O código está disponível em https://github.com/tiktok/huvr.

FARE: Exploração Robótica Ágil com Agentes Rápidos e Lentos
FARE: Fast-Slow Agentic Robotic Exploration

Jan 21

ByShuhao Liao, Xuxin Lv, Jeric Lew, Shizhe Zhang, Jingsong Liang, Peizhuo Li, Yuhong Cao, Wenjun Wu, Guillaume Sartoretti

Este trabalho avança a exploração autónoma de robôs através da integração de raciocínio semântico a nível de agente com controlo local rápido. Apresentamos o FARE, uma estrutura hierárquica de exploração autónoma que integra um modelo de linguagem de grande escala (LLM) para raciocínio global com uma política de aprendizagem por reforço (RL) para tomada de decisão local. O FARE segue um paradigma de pensamento rápido-lento. O módulo de pensamento lento (LLM) interpreta uma descrição textual concisa do ambiente desconhecido e sintetiza uma estratégia de exploração a nível de agente, que é depois materializada numa sequência de pontos de passagem globais através de um grafo topológico. Para melhorar ainda mais a eficiência do raciocínio, este módulo emprega um mecanismo de poda baseado em modularidade que reduz estruturas de grafo redundantes. O módulo de pensamento rápido (RL) executa a exploração reagindo a observações locais, sendo simultaneamente guiado pelos pontos de passagem globais gerados pelo LLM. A política de RL é adicionalmente moldada por um termo de recompensa que incentiva a adesão aos pontos de passagem globais, permitindo um comportamento em ciclo fechado coerente e robusto. Esta arquitetura dissocia o raciocínio semântico da decisão geométrica, permitindo que cada módulo opere na sua escala temporal e espacial apropriada. Em ambientes simulados desafiadores, os nossos resultados mostram que o FARE alcança melhorias substanciais na eficiência de exploração em comparação com os métodos state-of-the-art. Implementamos ainda o FARE em hardware e validamo-lo num ambiente complexo e de grande escala (200m x 130m) de um edifício.

Quantificação das Interações entre Regras Fonológicas e Incorporações de Locutor na Síntese de Fala com Sotaque
Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis

Jan 20

ByThanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

Muitas línguas faladas, incluindo o inglês, apresentam grande variação em dialetos e sotaques, tornando o controle de sotaque uma capacidade importante para modelos flexíveis de síntese de fala (TTS). Os sistemas atuais de TTS normalmente geram fala com sotaque condicionando-se em embeddings de falante associados a sotaques específicos. Embora eficaz, essa abordagem oferece limitada interpretabilidade e controlabilidade, uma vez que os embeddings também codificam características como timbre e emoção. Neste estudo, analisamos a interação entre embeddings de falante e regras fonologicamente motivadas na síntese de fala com sotaque. Usando o inglês americano e britânico como estudo de caso, implementamos regras para flapping, rotacismo e correspondências vocálicas. Propomos a taxa de deslocamento de fonemas (PSR), uma nova métrica que quantifica o quanto os embeddings preservam ou substituem transformações baseadas em regras. Experimentos mostram que combinar regras com embeddings produz sotaques mais autênticos, enquanto os embeddings podem atenuar ou sobrescrever regras, revelando um entrelaçamento entre sotaque e identidade do falante. Nossos resultados destacam as regras como uma alavanca para controle de sotaque e uma estrutura para avaliar o desentrelaçamento na geração de fala.

AgentEHR: Avançando na Tomada de Decisão Clínica Autônoma através da Sumarização Retrospectiva
AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

Jan 20

ByYusheng Liao, Chuan Xuan, Yutong Cai, Lina Yang, Zhe Chen, Yanfeng Wang, Yu Wang

Os Grandes Modelos de Linguagem demonstraram profunda utilidade no domínio médico. No entanto, a sua aplicação à navegação autónoma em Registos Eletrónicos de Saúde (EHRs) permanece limitada por uma dependência de *inputs* curados e tarefas de recuperação simplificadas. Para colmatar o fosso entre ambientes experimentais idealizados e ambientes clínicos realistas, apresentamos o AgentEHR. Este *benchmark* desafia os agentes a executar tarefas complexas de tomada de decisão, como diagnóstico e planeamento de tratamento, que exigem raciocínio interativo de longo alcance diretamente dentro de bases de dados brutas e com elevado ruído. Ao abordar estas tarefas, identificámos que os métodos de sumarização existentes sofrem inevitavelmente de perda crítica de informação e de uma continuidade de raciocínio fracturada. Para resolver isto, propomos o RetroSum, uma estrutura nova que unifica um mecanismo de sumarização retrospetiva com uma estratégia de experiência evolutiva. Ao reavaliar dinamicamente o histórico de interações, o mecanismo retrospetivo previne a perda de informação em contextos longos e garante uma coerência lógica ininterrupta. Adicionalmente, a estratégia evolutiva colmata o fosso de domínio, recuperando experiência acumulada de um banco de memória. Avaliações empíricas extensivas demonstram que o RetroSum alcança ganhos de desempenho de até 29,16% sobre linhas de base competitivas, enquanto diminui significativamente os erros totais de interação em até 92,3%.

Perdido na Ordem do Prompt: Revelando as Limitações da Atenção Causal em Modelos de Linguagem
Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Jan 20

ByHyunjong Ok, Jaeho Lee

Os modelos de linguagem de grande escala exibem uma sensibilidade surpreendente à estrutura do *prompt*, mas os mecanismos subjacentes a essa sensibilidade permanecem pouco compreendidos. Neste trabalho, conduzimos uma investigação aprofundada sobre um caso notável: na resposta a perguntas de múltipla escolha, posicionar o contexto antes das perguntas e opções (CPO) supera a ordem inversa (OPC) em mais de 14 pontos percentuais, consistentemente em uma ampla variedade de modelos e conjuntos de dados. Por meio de uma análise arquitetônica sistemática, identificamos a atenção causal como o mecanismo central: nos *prompts* OPC, a máscara causal impede que os *tokens* das opções atendam ao contexto, criando um gargalo de informação onde o contexto se torna invisível para as opções.

Facilitando Orientação Proativa e Reativa para Tomada de Decisão na Web: Uma Sonda de Design com o WebSeek Resumo: A tomada de decisão informada na web frequentemente requer a coleta e síntese de informações de múltiplas fontes, um processo que pode ser cognitivamente sobrecarregador. Este artigo apresenta o WebSeek, uma sonda de design que explora como sistemas web podem fornecer orientação tanto proativa (sugerindo informações relevantes) quanto reativa (respondendo a consultas diretas do usuário) para apoiar este processo. Através de um estudo de usabilidade com 15 participantes, investigamos como os utilizadores interagem com estas duas modalidades de orientação durante tarefas de pesquisa e comparação. Os nossos resultados indicam que a orientação proativa foi considerada mais útil para a descoberta de informações e expansão de perspectivas, enquanto a orientação reativa foi preferida para a verificação de factos específicos e confirmação de entendimentos. No entanto, observámos uma tensão fundamental: a utilidade da orientação proativa depende criticamente da sua relevância e oportunidade, sendo que sugestões mal calibradas podem distrair ou aborrecer o utilizador. Com base nas nossas descobertas, delineamos considerações de design para sistemas futuros que visam integrar de forma harmoniosa ambos os tipos de orientação, equilibrando a autonomia do utilizário com suporte contextual inteligente. O WebSeek serve como um ponto de partida para repensar as ferramentas de apoio à decisão na web, argumentando a favor de abordagens mais adaptáveis e contextualmente conscientes. Palavras-chave: Tomada de Decisão, Suporte à Decisão, Interação Humano-Computador, Design de Sistemas de Informação, Web, Orientação Proativa, Orientação Reativa, Sonda de Design.
Facilitating Proactive and Reactive Guidance for Decision Making on the Web: A Design Probe with WebSeek

Jan 21

ByYanwei Huang, Arpit Narechania

Agentes de IA web, como o ChatGPT Agent e o GenSpark, são cada vez mais utilizados para tarefas rotineiras baseadas na web, mas ainda dependem de comandos de entrada baseados em texto, carecem de deteção proativa da intenção do utilizador e não oferecem suporte para análise de dados interativa e tomada de decisão. Apresentamos o WebSeek, uma extensão de navegador de iniciativa mista que permite aos utilizadores descobrir e extrair informações de páginas web para, em seguida, construir, transformar e refinar de forma flexível artefactos de dados tangíveis – como tabelas, listas e visualizações – tudo dentro de uma tela interativa. Neste ambiente, os utilizadores podem realizar análises – incluindo transformações de dados, como unir tabelas ou criar visualizações – enquanto uma IA integrada oferece proativamente orientação e automação contextualmente conscientes e reage de forma reativa a pedidos explícitos do utilizador. Um estudo de utilizador exploratório (N=15) com o WebSeek como ferramenta de investigação revela as diversas estratégias de análise dos participantes, salientando o seu desejo por transparência e controlo durante a colaboração humano-IA.

O Vácuo de Responsabilidade: Falha Organizacional em Sistemas de Agentes em Escala
The Responsibility Vacuum: Organizational Failure in Scaled Agent Systems

Jan 21

ByOleg Romanchuk, Roman Bondar

Os pipelines modernos de CI/CD que integram código gerado por agentes apresentam uma falha estrutural na atribuição de responsabilidades. As decisões são executadas por meio de processos de aprovação formalmente corretos, mas nenhuma entidade possui tanto a autoridade para aprovar essas decisões quanto a capacidade epistêmica para compreender significativamente sua base. Definimos essa condição como vácuo de responsabilidade: um estado em que as decisões ocorrem, mas a responsabilidade não pode ser atribuída porque a autoridade e a capacidade de verificação não coincidem. Demonstramos que isso não é um desvio de processo ou defeito técnico, mas uma propriedade estrutural de implantações onde a taxa de geração de decisões excede a capacidade limitada de verificação humana. Identificamos um limite de escalonamento sob premissas padrão de implantação, incluindo geração paralela por agentes, validação baseada em CI e portões de aprovação humana individualizados. Além de um limite de taxa de transferência, a verificação deixa de funcionar como critério de decisão e é substituída por uma aprovação ritualizada baseada em sinais substitutos. A responsabilidade personalizada torna-se estruturalmente inatingível nesse regime. Caracterizamos ainda uma dinâmica de ampliação por CI, na qual o aumento da cobertura de validação automatizada eleva a densidade de sinais substitutos sem restaurar a capacidade humana. Sob restrições fixas de tempo e atenção, isso acelera a terceirização cognitiva em sentido amplo e amplia a lacuna entre a aprovação formal e o entendimento epistêmico. Automações adicionais, portanto, amplificam, em vez de mitigar, o vácuo de responsabilidade. Concluímos que, a menos que as organizações redesenhem explicitamente os limites decisórios ou realoquem a responsabilidade das decisões individuais para a propriedade em lote ou em nível de sistema, o vácuo de responsabilidade permanece um modo de falha invisível, porém persistente, em implantações escaladas de agentes.

Mostre-me as evidências: Avaliando o papel das provas e das explicações em linguagem natural na verificação de fatos apoiada por IA
Show me the evidence: Evaluating the role of evidence and natural language explanations in AI-supported fact-checking

Jan 16

ByGreta Warren, Jingyi Sun, Irina Shklovski, Isabelle Augenstein

Embora muitas pesquisas tenham se concentrado em explicações de IA para apoiar decisões em tarefas complexas de busca de informação, como a verificação de fatos, o papel da evidência é surpreendentemente pouco estudado. Em nosso estudo, variamos sistematicamente o tipo de explicação, a certeza da previsão da IA e a correção do conselho do sistema de IA para participantes não especialistas, que avaliaram a veracidade de alegações e previsões do sistema de IA. Os participantes tiveram a opção de inspecionar facilmente as evidências subjacentes. Descobrimos que os participantes confiaram consistentemente nas evidências para validar as alegações da IA em todas as condições experimentais. Quando os participantes receberam explicações em linguagem natural, as evidências foram usadas com menos frequência, embora tenham recorrido a elas quando essas explicações pareciam insuficientes ou falhas. Dados qualitativos sugerem que os participantes tentaram inferir a confiabilidade da fonte das evidências, apesar de as identidades das fontes terem sido deliberadamente omitidas. Nossos resultados demonstram que a evidência é um ingrediente fundamental na forma como as pessoas avaliam a confiabilidade das informações apresentadas por um sistema de IA e, em combinação com explicações em linguagem natural, oferece um valioso suporte para a tomada de decisões. Mais pesquisas são urgentemente necessárias para entender como as evidências devem ser apresentadas e como as pessoas as utilizam na prática.

sangkuriang: Uma biblioteca Python pseudoespectral para simulação de sólitons de Korteweg-de Vries
sangkuriang: A pseudo-spectral Python library for Korteweg-de Vries soliton simulation

Jan 17

BySandy H. S. Herho, Faruq Khadami, Iwan P. Anwar, Dasapta E. Irawan

A equação de Korteweg-de Vries (KdV) serve como modelo fundamental na física de ondas não lineares, descrevendo o equilíbrio entre a dispersão espacial e o efeito de empinamento não linear que dá origem aos sólitons. Este artigo introduz o *sangkuriang*, uma biblioteca Python de código aberto para resolver esta equação usando a discretização espacial pseudo-espectral de Fourier acoplada à integração temporal adaptativa de alta ordem. A implementação aproveita a compilação *just-in-time* (JIT) para eficiência computacional, mantendo a acessibilidade para fins didáticos. A validação abrange cenários progressivamente complexos, incluindo a propagação de um sóliton isolado, configurações simétricas de duas ondas, colisões por ultrapassagem entre ondas de diferentes amplitudes e interações de três corpos. A conservação dos invariantes clássicos é monitorizada ao longo de todas as simulações, com os desvios a permanecerem pequenos em todos os casos de teste. As velocidades dos sólitons medidas estão em conformidade com as previsões teóricas baseadas na relação amplitude-velocidade característica dos sistemas integráveis. Diagnósticos complementares extraídos da teoria da informação e da análise de recorrência confirmam que as soluções calculadas preservam a estrutura regular do espaço de fases esperada para dinâmicas completamente integráveis. O resolvedor produz dados em formatos científicos padrão, compatíveis com ferramentas de análise comuns, e gera visualizações da evolução espaço-temporal da onda. Ao combinar precisão numérica com acessibilidade prática em recursos computacionais modestos, o *sangkuriang* oferece uma plataforma adequada tanto para demonstrações em sala de aula de fenómenos de ondas não lineares quanto para pesquisa exploratória em dinâmica de sólitons.

CURE-Med: Aprendizado por Reforço com Base em Currículo para Raciocínio Médico Multilíngue
CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Jan 19

ByEric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal

Embora os modelos de linguagem de grande escala (LLMs) tenham demonstrado bom desempenho em tarefas de raciocínio matemático e de senso comum monolíngues, eles permanecem pouco confiáveis para aplicações de raciocínio médico multilíngue, dificultando sua implantação em contextos de saúde multilíngues. Abordamos esta lacuna primeiro introduzindo o CUREMED-BENCH, um conjunto de dados de alta qualidade para raciocínio médico multilíngue com consultas abertas de raciocínio que possuem uma única resposta verificável, abrangendo treze idiomas, incluindo línguas sub-representadas como Amárico, Iorubá e Suaíli. Com base neste conjunto de dados, propomos o CURE-MED, uma estrutura de aprendizado por reforço com currículo que integra ajuste fino supervisionado com sensibilidade a alternância de código (*code-switching*) e Otimização de Política Relativa de Grupo (*Group Relative Policy Optimization*) para melhorar conjuntamente a correção lógica e a estabilidade linguística. Em treze idiomas, nossa abordagem supera consistentemente baselines robustas e escala de forma eficaz, atingindo 85,21% de consistência linguística e 54,35% de correção lógica com 7B de parâmetros, e 94,96% de consistência linguística e 70,04% de correção lógica com 32B de parâmetros. Estes resultados apoiam um raciocínio médico multilíngue confiável e equitativo em LLMs. O código e o conjunto de dados estão disponíveis em https://cure-med.github.io/