HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

19 papers found

SemanticGen: Geração de Vídeo no Espaço Semântico
SemanticGen: Video Generation in Semantic Space

Dec 23

ByJianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai

Os modelos generativos de vídeo de última geração normalmente aprendem a distribuição dos latentes de vídeo no espaço VAE e os mapeiam para pixels usando um decodificador VAE. Embora essa abordagem possa gerar vídeos de alta qualidade, ela sofre de convergência lenta e é computacionalmente dispendiosa ao gerar vídeos longos. Neste artigo, introduzimos o SemanticGen, uma solução inovadora para abordar essas limitações através da geração de vídeos no espaço semântico. Nossa principal percepção é que, devido à redundância inerente em vídeos, o processo de geração deve começar em um espaço semântico compacto e de alto nível para planejamento global, seguido pela adição de detalhes de alta frequência, em vez de modelar diretamente um vasto conjunto de tokens de vídeo de baixo nível usando atenção bidirecional. O SemanticGen adota um processo de geração em dois estágios. No primeiro estágio, um modelo de difusão gera características de vídeo semânticas compactas, que definem o layout global do vídeo. No segundo estágio, outro modelo de difusão gera latentes VAE condicionados nessas características semânticas para produzir o resultado final. Observamos que a geração no espaço semântico leva a uma convergência mais rápida em comparação com o espaço latente VAE. Nosso método também é eficaz e computacionalmente eficiente quando estendido para a geração de vídeos longos. Experimentos extensivos demonstram que o SemanticGen produz vídeos de alta qualidade e supera abordagens state-of-the-art e baselines robustas.

Relatório Técnico do Step-DeepResearch
Step-DeepResearch Technical Report

Dec 23

ByChen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu

À medida que os LLMs evoluem para agentes autónomos, a Pesquisa Aprofundada emergiu como uma métrica pivotal. No entanto, benchmarks académicos existentes como o BrowseComp frequentemente não correspondem às exigências do mundo real para investigação de natureza aberta, que requer competências robustas em reconhecimento de intenções, tomada de decisão de longo horizonte e verificação cruzada de fontes. Para colmatar esta lacuna, introduzimos o Step-DeepResearch, um agente de custo-eficaz de ponta a ponta. Propomos uma Estratégia de Síntese de Dados Baseada em Capacidades Atómicas para reforçar o planeamento e a redação de relatórios, combinada com um percurso de treino progressivo que vai desde o mid-training agentético até SFT e RL. Reforçada por um Avaliador em formato de Lista de Verificação, esta abordagem melhora significativamente a robustez. Adicionalmente, para colmatar a lacuna de avaliação no domínio chinês, estabelecemos o ADR-Bench para cenários realistas de pesquisa aprofundada. Resultados experimentais mostram que o Step-DeepResearch (32B) atinge 61.4% na Escala de Avaliação de Investigação da Scale AI. No ADR-Bench, supera significativamente modelos comparáveis e rivaliza com modelos SOTA proprietários como o OpenAI e o Gemini DeepResearch. Estes resultados provam que um treino refinado permite que modelos de dimensão média atinjam capacidades de nível especialista com uma relação custo-eficácia líder da indústria.

Otimização de Políticas de Baixo para Cima: Seu Modelo de Linguagem como Política Contém Secretamente Políticas Internas
Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Dec 22

ByYuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu

As abordagens existentes de aprendizagem por reforço (RL) tratam os grandes modelos de linguagem (LLMs) como uma única política unificada, negligenciando seus mecanismos internos. Compreender como a política evolui através das camadas e módulos é, portanto, crucial para permitir uma otimização mais direcionada e desvendar mecanismos complexos de raciocínio. Neste artigo, decompomos a política do modelo de linguagem aproveitando a divisão intrínseca do fluxo residual do Transformer e a equivalência entre a composição dos estados ocultos com a matriz de "desincorporação" (*unembedding*) e a política amostrável resultante. Esta decomposição revela Políticas Internas de Camada, correspondentes às contribuições de camadas individuais, e Políticas Internas Modulares, que se alinham com os componentes de auto-atenção e rede *feed-forward* (FFN) dentro de cada camada. Ao analisar a entropia da política interna, descobrimos que: (a) As camadas iniciais mantêm alta entropia para exploração, enquanto as camadas superiores convergem para entropia próxima de zero para refinamento, com padrões de convergência variando entre séries de modelos. (b) O espaço de previsão do LLama converge rapidamente na camada final, enquanto os modelos da série Qwen, especialmente o Qwen3, exibem um padrão de raciocínio progressivamente estruturado, mais semelhante ao humano. Motivados por essas descobertas, propomos a Otimização de Política de Baixo para Cima (BuPO), um novo paradigma de RL que otimiza diretamente a política interna de camada durante o treinamento inicial. Ao alinhar o objetivo de treinamento na camada inferior, a BuPO reconstrói capacidades fundamentais de raciocínio e alcança desempenho superior. Experimentos extensos em benchmarks de raciocínio complexo demonstram a eficácia do nosso método. Nosso código está disponível em https://github.com/Trae1ounG/BuPO.

LongVideoAgent: Raciocínio com Múltiplos Agentes em Vídeos Longos
LongVideoAgent: Multi-Agent Reasoning with Long Videos

Dec 23

ByRuntao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen

Os recentes avanços em LLMs multimodais e sistemas que utilizam ferramentas para QA de vídeos longos apontam para o potencial do raciocínio sobre episódios com duração de horas. No entanto, muitos métodos ainda comprimem o conteúdo em resumos com perdas ou dependem de conjuntos de ferramentas limitados, enfraquecendo o enraizamento temporal e perdendo pistas de granularidade fina. Propomos uma estrutura multiagente na qual um LLM mestre coordena um agente de enraizamento para localizar segmentos relevantes para a pergunta e um agente de visão para extrair observações textuais direcionadas. O agente mestre planeia com um limite de etapas e é treinado com aprendizagem por reforço para incentivar uma cooperação multiagente concisa, correta e eficiente. Este projeto ajuda o agente mestre a focar em clipes relevantes através do enraizamento, complementa as legendas com detalhes visuais e produz trajetórias interpretáveis. Nos nossos conjuntos de dados LongTVQA e LongTVQA+, agregados a nível de episódio a partir do TVQA/TVQA+, o nosso sistema multiagente supera significativamente as linhas de base não agentes fortes. As experiências também mostram que a aprendizagem por reforço fortalece ainda mais o raciocínio e o planeamento para o agente treinado. O código e os dados serão partilhados em https://longvideoagent.github.io/.

SpatialTree: Como as Habilidades Espaciais se Ramificam nos MLLMs
SpatialTree: How Spatial Abilities Branch Out in MLLMs

Dec 23

ByYuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang

A ciência cognitiva sugere que a capacidade espacial desenvolve-se progressivamente - da perceção ao raciocínio e interação. No entanto, nos MLLMs (Modelos de Linguagem Multimodais), esta hierarquia permanece pouco compreendida, uma vez que a maioria dos estudos se concentra num conjunto restrito de tarefas. Apresentamos o SpatialTree, uma hierarquia inspirada na ciência cognitiva que organiza as capacidades espaciais em quatro níveis: perceção de baixo nível (L1), mapeamento mental (L2), simulação (L3) e competência agencial (L4). Com base nesta taxonomia, construímos o primeiro benchmark hierárquico centrado em capacidades, avaliando minuciosamente MLLMs mainstream em 27 subcapacidades. Os resultados da avaliação revelam uma estrutura clara: as competências de L1 são largamente ortogonais, enquanto as competências de nível superior estão fortemente correlacionadas, indicando uma interdependência crescente. Através de *fine-tuning* supervisionado direcionado, descobrimos uma dinâmica de transferência surpreendente - transferência negativa dentro do L1, mas uma forte transferência transversal de baixo para alto nível com uma sinergia notável. Por fim, exploramos como melhorar toda a hierarquia. Verificamos que o RL (*Reinforcement Learning*) ingénuo que incentiva um "pensamento" extensivo não é fiável: ajuda o raciocínio complexo, mas prejudica a perceção intuitiva. Propomos uma simples estratégia de *auto-think* que suprime deliberações desnecessárias, permitindo que o RL melhore consistentemente o desempenho em todos os níveis. Ao construir o SpatialTree, fornecemos uma estrutura de prova de conceito para compreender e escalar sistematicamente as capacidades espaciais nos MLLMs.

Aprendizagem por Reforço para Agentes de Autoaprimoramento com Biblioteca de Competências
Reinforcement Learning for Self-Improving Agent with Skill Library

Dec 18

ByJiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

Agentes baseados em Large Language Models (LLMs) demonstraram capacidades notáveis em raciocínio complexo e interações multi-turno, mas lutam para melhorar e adaptar-se continuamente quando implantados em novos ambientes. Uma abordagem promissora é a implementação de bibliotecas de habilidades que permitem aos agentes aprender, validar e aplicar novas competências. No entanto, as abordagens atuais de bibliotecas de habilidades dependem principalmente da eliciação por LLM, tornando desafiadora uma implementação consistente. Para superar esses desafios, propomos uma abordagem baseada em Reinforcement Learning (RL) para aprimorar as capacidades de autossuperação dos agentes com uma biblioteca de habilidades. Especificamente, introduzimos o Skill Augmented GRPO for self-Evolution (SAGE), uma nova estrutura de RL que incorpora sistematicamente habilidades no aprendizado. O componente-chave da estrutura, o Sequential Rollout, implanta iterativamente agentes em uma cadeia de tarefas semelhantes para cada rollout. À medida que os agentes navegam pela cadeia de tarefas, as habilidades geradas a partir de tarefas anteriores acumulam-se na biblioteca e ficam disponíveis para tarefas subsequentes. Adicionalmente, a estrutura aprimora a geração e utilização de habilidades através de uma Recompensa Integrada de Habilidades que complementa as recompensas originais baseadas em resultado. Resultados experimentais no AppWorld demonstram que o SAGE, quando aplicado a um modelo supervisionado com fine-tuning e experiência especializada, atinge uma Taxa de Conclusão de Objetivos de Cenário 8,9% superior, enquanto requer 26% menos etapas de interação e gera 59% menos tokens, superando substancialmente as abordagens existentes tanto em precisão quanto em eficiência.

MemEvolve: Meta-Evolução de Sistemas de Memória de Agentes
MemEvolve: Meta-Evolution of Agent Memory Systems

Dec 21

ByGuibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang, He Zhu, Wangchunshu Zhou, Shuicheng Yan

Os sistemas de memória de auto-evolução estão a remodelar de forma sem precedentes o paradigma evolutivo dos agentes baseados em modelos de linguagem de grande escala (LLM). Trabalhos anteriores basearam-se predominantemente em arquiteturas de memória manualmente concebidas para armazenar trajetórias, destilar experiências e sintetizar ferramentas reutilizáveis, permitindo que os agentes evoluam dinamicamente durante as interações com o ambiente. No entanto, este paradigma está fundamentalmente limitado pela estaticidade do próprio sistema de memória: embora a memória facilite a evolução a nível do agente, a arquitetura de memória subjacente não pode ser meta-adaptada a diversos contextos de tarefas. Para colmatar esta lacuna, propomos o MemEvolve, um quadro meta-evolutivo que evolui conjuntamente o conhecimento experiencial dos agentes e a sua arquitetura de memória, permitindo que os sistemas de agentes não só acumulem experiência, mas também aperfeiçoem progressivamente a forma como aprendem com ela. Para fundamentar o MemEvolve em investigação prévia e fomentar a abertura em futuros sistemas de auto-evolução, introduzimos o EvolveLab, uma base de código unificada de memória auto-evolutiva que destila doze sistemas de memória representativos num espaço de design modular (codificar, armazenar, recuperar, gerir), fornecendo tanto um substrato de implementação padronizado como uma arena experimental justa. Avaliações extensas em quatro benchmarks desafiadores de agentes demonstram que o MemEvolve alcança (I) ganhos substanciais de desempenho, melhorando quadros como o SmolAgent e o Flash-Searcher em até 17,06%; e (II) forte generalização cruzada entre tarefas e LLMs, projetando arquiteturas de memória que transferem eficazmente entre diversos benchmarks e modelos de base.

SAM Áudio: Segmentar Qualquer Coisa em Áudio
SAM Audio: Segment Anything in Audio

Dec 19

ByBowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee

A separação geral de fontes de áudio é uma capacidade fundamental para sistemas de IA multimodal que podem perceber e raciocinar sobre sons. Apesar dos progressos substanciais nos últimos anos, os modelos de separação existentes são específicos de domínio, concebidos para categorias fixas como fala ou música, ou limitados em termos de controlabilidade, suportando apenas uma única modalidade de instrução, como texto. Neste trabalho, apresentamos o SAM Audio, um modelo de base para separação geral de áudio que unifica a instrução por texto, máscaras visuais e intervalos temporais numa única arquitetura. Construído sobre uma arquitetura de transformador de difusão, o SAM Audio é treinado com correspondência de fluxo em dados de áudio em larga escala que abrangem fala, música e sons gerais, e pode separar flexivelmente fontes-alvo descritas por linguagem, máscaras visuais ou intervalos temporais. O modelo atinge um desempenho de ponta num conjunto diversificado de benchmarks, incluindo separação de sons gerais, fala, música e instrumentos musicais, tanto em áudios do mundo real como profissionalmente produzidos, superando substancialmente sistemas anteriores de propósito geral e especializados. Além disso, introduzimos um novo benchmark de separação do mundo real com instruções multimodais rotuladas por humanos e um modelo de avaliação sem referência que se correlaciona fortemente com o julgamento humano.

INTELLECT-3: Relatório Técnico
INTELLECT-3: Technical Report

Dec 18

ByPrime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann

Apresentamos o INTELLECT-3, um modelo Mixture-of-Experts com 106B de parâmetros (12B ativos) treinado com aprendizagem por reforço em larga escala na nossa infraestrutura completa de RL. O INTELLECT-3 atinge um desempenho de ponta para o seu tamanho em benchmarks de matemática, código, ciência e raciocínio, superando muitos modelos de fronteira maiores. Disponibilizamos o modelo em código aberto juntamente com a infraestrutura completa usada para criá-lo, incluindo frameworks de RL, a receita completa e uma ampla coleção de ambientes, construídos com a biblioteca de verificadores, para treino e avaliação a partir da nossa plataforma comunitária Environments Hub. Desenvolvido para este projeto, introduzimos o prime-rl, um framework aberto para aprendizagem por reforço assíncrona em larga escala, que escala perfeitamente de um único nó para milhares de GPUs, e é adaptado para RL agentico com suporte nativo para interações multi-turno e uso de ferramentas. Utilizando esta infraestrutura, executamos treino SFT e RL a partir do modelo base GLM-4.5-Air, escalando o treino de RL até 512 H200s com alta eficiência de treino.

Relatório Técnico C2LLM: Uma Nova Fronteira na Recuperação de Código via Agrupamento por Cross-Atenção Adaptativa
C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling

Dec 24

ByJin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang

Apresentamos o C2LLM - Contrastive Code Large Language Models, uma família de modelos de incorporação de código (code embedding models) nos tamanhos 0,5B e 7B. Com base na arquitetura Qwen-2.5-Coder, o C2LLM adota um módulo de Pooling por Atenção Multihead (PMA) para gerar a incorporação de sequência a partir das incorporações de token, efetivamente 1) utilizando as representações causais do LLM adquiridas durante o pré-treinamento, 2) sendo capaz de agregar informações de todos os tokens na sequência, quebrando o gargalo de informação nas incorporações de sequência baseadas em EOS, e 3) suportando a adaptação flexível da dimensão de incorporação, servindo como uma alternativa ao MRL. Treinados em três milhões de dados publicamente disponíveis, os modelos C2LLM estabelecem novos recordes no MTEB-Code entre modelos de tamanhos similares, com o C2LLM-7B ocupando a 1ª posição no ranking geral.

Leis de Escalabilidade para Código: Cada Linguagem de Programação Importa
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai

Os modelos de linguagem de grande escala para código (Code LLMs) são poderosos, mas dispendiosos para treinar, com leis de escalonamento que preveem o desempenho com base no tamanho do modelo, dados e capacidade computacional. No entanto, diferentes linguagens de programação (LPs) têm impactos variados durante o pré-treinamento que afetam significativamente o desempenho do modelo base, levando a previsões de desempenho imprecisas. Além disso, os trabalhos existentes focam em configurações agnósticas à linguagem, negligenciando a natureza intrinsecamente multilíngue do desenvolvimento de software moderno. Portanto, é primeiro necessário investigar as leis de escalonamento de diferentes LPs e, em seguida, considerar suas influências mútuas para chegar à lei de escalonamento multilíngue final. Neste artigo, apresentamos a primeira exploração sistemática das leis de escalonamento para pré-treinamento de código multilíngue, realizando mais de 1000 experimentos (equivalente a mais de 336.000 horas de H800) em múltiplas LPs, tamanhos de modelo (0,2B a 14B de parâmetros) e tamanhos de conjunto de dados (1T de tokens). Estabelecemos leis de escalonamento abrangentes para Code LLMs em múltiplas LPs, revelando que linguagens interpretadas (por exemplo, Python) beneficiam-se mais do aumento do tamanho do modelo e dos dados do que linguagens compiladas (por exemplo, Rust). O estudo demonstra que o pré-treinamento multilíngue oferece benefícios sinérgicos, particularmente entre LPs sintaticamente semelhantes. Além disso, a estratégia de pré-treinamento de emparelhamento paralelo (concatenar trechos de código com suas traduções) melhora significativamente as habilidades translinguísticas com propriedades de escalonamento favoráveis. Finalmente, propõe-se uma lei de escalonamento multilíngue dependente da proporção para alocar tokens de treinamento de forma ideal, priorizando LPs de alta utilidade (por exemplo, Python), equilibrando pares de alta sinergia (por exemplo, JavaScript-TypeScript) e reduzindo a alocação para linguagens de saturação rápida (Rust), alcançando um desempenho médio superior em todas as LPs em comparação com a distribuição uniforme sob o mesmo orçamento computacional.

QuantiPhy: Um Benchmark Quantitativo para Avaliar as Capacidades de Raciocínio Físico em Modelos de Visão e Linguagem
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

Dec 22

ByLi Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli

Compreender o mundo físico é essencial para agentes de IA generalistas. No entanto, permanece incerto se os modelos de percepção visual mais avançados (por exemplo, grandes VLMs) conseguem raciocinar sobre propriedades físicas de forma quantitativa. As avaliações existentes são predominantemente baseadas em VQA e qualitativas, oferecendo uma visão limitada sobre se esses modelos podem inferir quantidades cinemáticas de objetos em movimento a partir de observações em vídeo. Para resolver isso, apresentamos o QuantiPhy, o primeiro benchmark projetado para medir quantitativamente a capacidade de raciocínio físico de um VLM. Composto por mais de 3,3 mil instâncias vídeo-texto com valores de referência numéricos, o QuantiPhy avalia o desempenho de um VLM na estimativa do tamanho, velocidade e aceleração de um objeto em um determinado momento, usando uma dessas propriedades como informação prévia de entrada. O benchmark padroniza os prompts e a pontuação para avaliar a precisão numérica, permitindo comparações justas entre modelos. Nossos experimentos com VLMs de última geração revelam uma lacuna consistente entre sua plausibilidade qualitativa e a correção numérica real. Aprofundamos ainda a análise de fatores-chave como ruído de fundo, informações prévia contra-factuais e estratégias de prompting, e descobrimos que os VLMs mais avançados dependem fortemente do conhecimento mundial pré-treinado, em vez de usar fielmente as entradas visuais e textuais fornecidas como referências ao raciocinar quantitativamente sobre propriedades cinemáticas. O QuantiPhy oferece o primeiro teste rigoroso e escalável para levar os VLMs além da mera plausibilidade verbal em direção a uma compreensão física numericamente fundamentada.

Inteligência Ativa em Avatares de Vídeo por meio de Modelagem de Mundo em Malha Fechada
Active Intelligence in Video Avatars via Closed-loop World Modeling

Dec 23

ByXuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen

Os métodos atuais de geração de avatares em vídeo destacam-se na preservação de identidade e no alinhamento de movimento, mas carecem de agência genuína, sendo incapazes de perseguir objetivos de longo prazo autonomamente por meio da interação adaptativa com o ambiente. Abordamos esta limitação introduzindo L-IVA (Avatar Visual Interativo de Longo Horizonte), uma tarefa e benchmark para avaliar o planejamento orientado a objetivos em ambientes generativos estocásticos, e ORCA (Arquitetura de Raciocínio e Cognição Online), o primeiro framework que possibilita inteligência ativa em avatares de vídeo. O ORCA incorpora capacidades de Modelo Interno do Mundo (IWM) através de duas inovações principais: (1) um ciclo OTAR em malha fechada (Observar-Pensar-Agir-Refletir) que mantém o rastreamento robusto de estados sob incerteza generativa, verificando continuamente os resultados previstos em relação às gerações reais, e (2) uma arquitetura hierárquica de sistema duplo onde o Sistema 2 realiza raciocínio estratégico com previsão de estados enquanto o Sistema 1 traduz planos abstratos em legendas de ação precisas e específicas do modelo. Ao formular o controle de avatares como um POMDP e implementar atualização contínua de crenças com verificação de resultados, o ORCA possibilita a conclusão autônoma de tarefas multi-etapa em cenários de domínio aberto. Experimentos extensivos demonstram que o ORCA supera significativamente as linhas de base de malha aberta e não reflexivas na taxa de sucesso de tarefas e coerência comportamental, validando nosso projeto inspirado no IWM para avançar a inteligência de avatares em vídeo da animação passiva para comportamentos ativos e orientados a objetivos.

FaithLens: Detecção e Explicação de Alucinações de Fidelidade
FaithLens: Detecting and Explaining Faithfulness Hallucination

Dec 23

ByShuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Reconhecer se as saídas de modelos de linguagem de grande escala (LLMs) contêm alucinações de fidelidade é crucial para aplicações do mundo real, por exemplo, geração aumentada por recuperação e sumarização. Neste artigo, apresentamos o FaithLens, um modelo de detecção de alucinações de fidelidade econômico e eficaz, que pode fornecer conjuntamente previsões binárias e explicações correspondentes para melhorar a confiabilidade. Para alcançar este objetivo, primeiro sintetizamos dados de treinamento com explicações via LLMs avançados e aplicamos uma estratégia de filtragem de dados bem definida para garantir a correção do rótulo, a qualidade da explicação e a diversidade dos dados. Subsequentemente, afinamos o modelo nestes dados de treinamento bem curados como um início frio e otimizamo-lo ainda mais com aprendizagem por reforço baseada em regras, utilizando recompensas tanto para a correção da previsão como para a qualidade da explicação. Os resultados em 12 tarefas diversas mostram que o FaithLens, com 8B de parâmetros, supera modelos avançados como o GPT-4.1 e o o3. Além disso, o FaithLens pode produzir explicações de alta qualidade, oferecendo um equilíbrio distintivo entre confiabilidade, eficiência e eficácia.

Memória-T1: Aprendizado por Reforço para Raciocínio Temporal em Agentes Multissessão
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

Dec 23

ByYiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong

O raciocínio temporal em diálogos longos e multi-sessão é uma capacidade crítica para agentes conversacionais. No entanto, trabalhos existentes e nosso estudo piloto mostraram que, à medida que os históricos de diálogo aumentam em extensão e acumulam ruído, os modelos atuais de contexto longo lutam para identificar informações temporalmente pertinentes com precisão, prejudicando significativamente o desempenho do raciocínio. Para resolver isso, apresentamos o Memory-T1, uma estrutura que aprende uma política de seleção de memória consciente do tempo usando aprendizado por reforço (RL). Ele emprega uma estratégia do geral para o específico, primeiro podando o histórico de diálogo em um conjunto de candidatos usando filtros temporais e de relevância, seguido por um agente de RL que seleciona as sessões de evidência precisas. O treinamento de RL é orientado por uma função de recompensa multinível que otimiza (i) a precisão da resposta, (ii) o embasamento em evidências e (iii) a consistência temporal. Em particular, a recompensa de consistência temporal fornece um sinal denso ao avaliar o alinhamento com o escopo temporal da consulta tanto no nível da sessão (proximidade cronológica) quanto no nível do enunciado (fidelidade cronológica), permitindo que o agente resolva ambiguidades cronológicas sutis. No benchmark Time-Dialog, o Memory-T1 impulsiona um modelo de 7B para uma pontuação geral de 67,0%, estabelecendo um novo estado da arte para modelos de código aberto e superando uma linha de base de 14B em 10,2%. Estudos de ablação mostram que as recompensas de consistência temporal e de embasamento em evidências contribuem conjuntamente para um ganho de desempenho de 15,0%. Além disso, o Memory-T1 mantém robustez até 128 mil tokens, onde os modelos de base colapsam, comprovando a eficácia contra o ruído em históricos de diálogo extensos. O código e os conjuntos de dados estão publicamente disponíveis em https://github.com/Elvin-Yiming-Du/Memory-T1/.

Simulstream: Kit de Ferramentas de Código Aberto para Avaliação e Demonstração de Sistemas de Tradução de Fala para Texto em Tempo Real
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Dec 19

ByMarco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli

A tradução de fala para texto em streaming (StreamST) requer a produção de traduções simultaneamente com o discurso recebido, impondo restrições rigorosas de latência e exigindo modelos que equilibrem a tomada de decisão com informação parcial com uma alta qualidade de tradução. Os esforços de pesquisa sobre o tema até agora dependeram do repositório SimulEval, que não é mais mantido e não suporta sistemas que revisam suas saídas. Além disso, ele foi projetado para simular o processamento de segmentos curtos, em vez de fluxos de áudio de longa duração, e não fornece um método fácil para demonstrar sistemas em uma demonstração. Como solução, apresentamos o simulstream, o primeiro *framework* de código aberto dedicado à avaliação unificada e demonstração de sistemas StreamST. Projetado para o processamento de fala de longa duração, ele suporta não apenas abordagens de decodificação incremental, mas também métodos de retradução, permitindo sua comparação dentro da mesma estrutura, tanto em termos de qualidade quanto de latência. Além disso, também oferece uma interface web interativa para demonstrar qualquer sistema construído dentro da ferramenta.

Análise Temática Multi-LLM com Métricas Duplas de Confiabilidade: Combinando Kappa de Cohen e Similaridade Semântica para Validação em Pesquisa Qualitativa
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Dec 23

ByNilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop

A investigação qualitativa enfrenta um desafio crítico de fiabilidade: os métodos tradicionais de concordância interavaliadores exigem múltiplos codificadores humanos, são demorados e frequentemente produzem consistência moderada. Apresentamos uma estrutura de validação multiperspetiva para análise temática baseada em LLM que combina validação por *ensemble* com métricas duplas de fiabilidade: Kappa de Cohen (κ) para concordância interavaliadores e similaridade de cosseno para consistência semântica. A nossa estrutura permite parâmetros de análise configuráveis (1-6 *seeds*, temperatura 0,0-2,0), suporta estruturas de *prompt* personalizáveis com substituição de variáveis e fornece extração de temas de consenso em qualquer formato JSON. Como prova de conceito, avaliamos três LLMs líderes (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) numa transcrição de entrevista de terapia de arte com psicadélicos, realizando seis execuções independentes por modelo. Os resultados demonstram que o Gemini atinge a maior fiabilidade (κ=0,907, cosseno=95,3%), seguido pelo GPT-4o (κ=0,853, cosseno=92,6%) e pelo Claude (κ=0,842, cosseno=92,1%). Todos os três modelos atingem uma concordância elevada (κ>0,80), validando a abordagem de *ensemble* com múltiplas execuções. A estrutura extrai com sucesso temas de consenso entre as execuções, com o Gemini a identificar 6 temas de consenso (50-83% de consistência), o GPT-4o a identificar 5 temas e o Claude 4 temas. A nossa implementação de código aberto fornece aos investigadores métricas de fiabilidade transparentes, configuração flexível e extração de consenso independente da estrutura, estabelecendo bases metodológicas para uma investigação qualitativa assistida por IA fiável.

Toxicidade à Frente: Previsão de Descarrilamento Conversacional no GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub

Dec 17

ByMia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski

Interações tóxicas em comunidades de Software de Código Aberto (OSS) reduzem o engajamento dos contribuidores e ameaçam a sustentabilidade dos projetos. Prevenir essa toxicidade antes que ela surja requer uma compreensão clara de como as conversas prejudiciais se desenrolam. No entanto, a maioria das estratégias de moderação proativas é manual, exigindo tempo e esforço significativos dos mantenedores da comunidade. Para apoiar abordagens mais escaláveis, organizamos um conjunto de dados com 159 *threads* tóxicas desviadas e 207 *threads* não tóxicas de discussões do GitHub. Nossa análise revela que a toxicidade pode ser prevista por gatilhos de tensão, mudanças de sentimento e padrões conversacionais específicos. Apresentamos uma nova estrutura baseada em Modelos de Linguagem de Grande Porte (LLMs) para prever o desvio conversacional no GitHub usando um *pipeline* de *prompting* em duas etapas. Primeiro, geramos Resumos da Dinâmica da Conversa (RDCs) via *prompting* Do-Menor-para-o-Maior (LtM); em seguida, usamos esses resumos para estimar a probabilidade de desvio. Avaliada nos modelos Qwen e Llama, nossa estratégia LtM atinge pontuações F1 de 0,901 e 0,852, respectivamente, com um limiar de decisão de 0,3, superando *baselines* estabelecidas de PLN em desvio conversacional. A validação externa em um conjunto de dados de 308 *threads* de *issues* do GitHub (65 tóxicas, 243 não tóxicas) resulta em uma pontuação F1 de até 0,797. Nossos achados demonstram a eficácia do *prompting* estruturado de LLMs para a detecção precoce de desvio conversacional em OSS, permitindo uma moderação proativa e explicável.

Aprendendo a Reenquadrar com Modelos de Difusão de Vídeo
Learning to Refocus with Video Diffusion Models

Dec 22

BySaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin

O foco é um pilar fundamental da fotografia, contudo, os sistemas de autofoco frequentemente falham em capturar o sujeito pretendido, e os utilizadores desejam com frequência ajustar o foco após a captura. Apresentamos um método novo para reenfoque realista pós-captura utilizando modelos de difusão de vídeo. A partir de uma única imagem desfocada, a nossa abordagem gera uma pilha focal perceptualmente precisa, representada como uma sequência de vídeo, permitindo reenfoque interativo e desbloqueando uma gama de aplicações subsequentes. Disponibilizamos um conjunto de dados de pilha focal em larga escala, adquirido em diversas condições do mundo real com smartphones, para apoiar este trabalho e investigação futura. O nosso método supera consistentemente as abordagens existentes, tanto em qualidade perceptual como em robustez, em cenários desafiadores, abrindo caminho para capacidades de edição de foco mais avançadas na fotografia do dia a dia. O código e os dados estão disponíveis em www.learn2refocus.github.io.

Leis de Escalabilidade para Código: Cada Linguagem de Programação Importa
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai