HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

30 papers found

HaluMem: Avaliação de Alucinações em Sistemas de Memória de Agentes
HaluMem: Evaluating Hallucinations in Memory Systems of Agents

Nov 5

ByDing Chen, Simin Niu, Kehang Li, Peng Liu, Xiangping Zheng, Bo Tang, Xinchi Li, Feiyu Xiong, Zhiyu Li

Os sistemas de memória são componentes fundamentais que permitem que sistemas de IA, como LLMs e agentes de IA, alcancem aprendizado de longo prazo e interação sustentada. No entanto, durante o armazenamento e recuperação de memória, esses sistemas frequentemente exibem alucinações de memória, incluindo fabricação, erros, conflitos e omissões. As avaliações existentes de alucinações de memória são principalmente de questionamento e resposta de ponta a ponta, o que dificulta a localização do estágio operacional dentro do sistema de memória onde as alucinações surgem. Para resolver isso, apresentamos o *Hallucination in Memory Benchmark* (HaluMem), o primeiro benchmark de avaliação de alucinações em nível operacional adaptado a sistemas de memória. O HaluMem define três tarefas de avaliação (extração de memória, atualização de memória e questionamento e resposta baseado em memória) para revelar abrangentemente os comportamentos de alucinação em diferentes estágios operacionais da interação. Para suportar a avaliação, construímos conjuntos de dados de interação humano-IA multicentrada e centrada no usuário, HaluMem-Medium e HaluMem-Long. Ambos incluem cerca de 15k pontos de memória e 3,5k perguntas de múltiplos tipos. O comprimento médio do diálogo por usuário atinge 1,5k e 2,6k turnos, com comprimentos de contexto excedendo 1 milhão de tokens, permitindo a avaliação de alucinações em diferentes escalas de contexto e complexidades de tarefa. Estudos empíricos baseados no HaluMem mostram que os sistemas de memória existentes tendem a gerar e acumular alucinações durante os estágios de extração e atualização, que subsequentemente propagam erros para o estágio de questionamento e resposta. Pesquisas futuras devem focar no desenvolvimento de mecanismos de operação de memória interpretáveis e restritos que suprimam sistematicamente as alucinações e melhorem a confiabilidade da memória.

IterResearch: Repensando Agentes de Horizonte Longo por meio da Reconstrução Markoviana de Estados
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

Nov 10

ByGuoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Avanços recentes em agentes de pesquisa profunda têm demonstrado potencial para a construção autônoma de conhecimento por meio de raciocínio dinâmico sobre fontes externas. No entanto, as abordagens existentes dependem de um paradigma monocontextual que acumula todas as informações em uma única janela de contexto em expansão, levando à sufocação contextual e contaminação por ruído que limitam sua eficácia em tarefas de longo horizonte. Apresentamos o IterResearch, um novo paradigma iterativo de pesquisa profunda que reformula a investigação de longo horizonte como um Processo de Decisão Markoviano com reconstrução estratégica do espaço de trabalho. Ao manter um relatório em evolução como memória e sintetizar insights periodicamente, nossa abordagem preserva a capacidade de raciocínio consistente em quaisquer profundidades de exploração. Desenvolvemos ainda a Otimização de Políticas com Consciência de Eficiência (EAPO), uma estrutura de aprendizado por reforço que incentiva a exploração eficiente por meio de desconto geométrico de recompensa e permite treinamento distribuído estável via subamostragem adaptativa. Experimentos extensivos demonstram que o IterResearch alcança melhorias substanciais sobre agentes de código aberto existentes, com média de +14,5 pp em seis benchmarks e reduz a lacuna com sistemas proprietários de fronteira. Notavelmente, nosso paradigma exibe escala de interação sem precedentes, estendendo-se a 2048 interações com ganhos dramáticos de desempenho (de 3,5% para 42,5%), e serve como uma estratégia eficaz de *prompting*, melhorando modelos de fronteira em até 19,2 pp sobre o ReAct em tarefas de longo horizonte. Esses resultados posicionam o IterResearch como uma solução versátil para raciocínio de longo horizonte, eficaz tanto como um agente treinado quanto como um paradigma de *prompting* para modelos de fronteira.

DRIVE: Melhores Práticas de Curadoria de Dados para Aprendizagem por Reforço com Recompensa Verificável na Geração Competitiva de Código
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

Nov 9

BySpeed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou

Os modelos recentes que priorizam o raciocínio (por exemplo, OpenAI o1, DeepSeek R1) estimularam um renovado interesse no RLVR (Reinforcement Learning from Verifiable Feedback). No entanto, os avanços são dominados pela matemática (por exemplo, AIME), com a geração de código para programação competitiva pouco explorada e a curadoria de dados recebendo menos atenção do que o projeto de algoritmos de RL. Investigamos como construir conjuntos de dados para RLVR (ou seja, *prompts* de RL) e apresentamos técnicas práticas de treinamento que proporcionam um forte desempenho na geração de código para programação competitiva. Nosso *pipeline* começa com o ajuste fino supervisionado (SFT) destilado de modelos *open-source* robustos, aumentado com dados de uso geral e intensivos em raciocínio. O RL segue então um processo de dois estágios com recompensas acionáveis baseadas em casos de teste: primeiro, o treinamento em um grande conjunto de problemas de programação competitiva distribuídos uniformemente, usando Otimização de Política Relativa de Grupo (GRPO) com 8 *rollouts* por *prompt* e uma janela de geração de resposta relativamente curta (por exemplo, 32k durante o SFT e 24k nesta fase) para expandir a entropia e mitigar repetição e truncamento; segundo, realizamos o Pré-GRPO: atualização em um pequeno conjunto de alta qualidade de problemas desafiadores com um grande orçamento de *rollouts* (64 *rollouts* por *prompt*) sob um currículo de foco rígido que retém continuamente as instâncias mais difíceis durante todo o treinamento. Implementamos nosso método no Qwen2.5-32B e avaliamos em competições semanais do LeetCode e Codeforces para evitar vazamento de dados. O modelo resultante atinge um desempenho de ponta entre modelos de escala similar e é comparável a sistemas líderes como DeepSeek v3.1 e Doubao-1.5-Thinking. Também examinamos tendências de escalonamento e observamos um forte escalonamento de RL em um modelo interno de grande escala MoE (Mixture of Experts). Nosso estudo destila práticas concisas e recomendadas para curadoria de dados, expansão de entropia e design de currículo em RLVR para geração de código em programação competitiva.

A Estação: Um Ambiente de Mundo Aberto para Descobertas Orientadas por IA
The Station: An Open-World Environment for AI-Driven Discovery

Nov 9

ByStephen Chung, Wenyu Du

Apresentamos a STATION, um ambiente multiagente de mundo aberto que modela um ecossistema científico em miniatura. Aproveitando suas janelas de contexto estendidas, os agentes na Station podem se envolver em longas jornadas científicas que incluem ler artigos de colegas, formular hipóteses, submeter código, realizar análises e publicar resultados. É importante destacar que não há um sistema centralizado coordenando suas atividades - os agentes são livres para escolher suas próprias ações e desenvolver suas próprias narrativas dentro da Station. Experimentos demonstram que os agentes de IA na Station alcançam um novo desempenho de ponta em uma ampla gama de benchmarks, desde matemática até biologia computacional e aprendizado de máquina, superando notavelmente o AlphaEvolve no problema de empacotamento de círculos. Um rico mosaico de narrativas emerge à medida que os agentes perseguem pesquisas independentes, interagem com seus pares e constroem sobre uma história cumulativa. A partir dessas narrativas emergentes, novos métodos surgem organicamente, como um novo algoritmo de densidade adaptativa para integração de lotes de scRNA-seq. A Station representa um primeiro passo em direção à descoberta científica autônoma impulsionada por comportamentos emergentes em um ambiente de mundo aberto, representando um novo paradigma que vai além da otimização rígida.

Aprendizagem de Robôs a partir de um Modelo Físico do Mundo
Robot Learning from a Physical World Model

Nov 10

ByJiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang

Apresentamos o PhysWorld, uma estrutura que permite o aprendizado de robôs por meio da geração de vídeos baseada na modelagem do mundo físico. Modelos recentes de geração de vídeo podem sintetizar demonstrações visuais fotorrealistas a partir de comandos de linguagem e imagens, oferecendo uma fonte de sinais de treinamento poderosa, porém pouco explorada, para a robótica. No entanto, redirecionar diretamente os movimentos de pixels de vídeos gerados para robôs ignora a física, frequentemente resultando em manipulações imprecisas. O PhysWorld aborda essa limitação ao acoplar a geração de vídeo com a reconstrução do mundo físico. Dada uma única imagem e um comando de tarefa, nosso método gera vídeos condicionados pela tarefa e reconstrói o mundo físico subjacente a partir dos vídeos; os movimentos gerados no vídeo são fundamentados em ações fisicamente precisas por meio de aprendizado por reforço residual centrado em objetos, utilizando o modelo de mundo físico. Essa sinergia transforma orientações visuais implícitas em trajetórias robóticas fisicamente executáveis, eliminando a necessidade de coleta de dados de robôs reais e permitindo a manipulação robótica generalizável de modo *zero-shot*. Experimentos em diversas tarefas do mundo real demonstram que o PhysWorld melhora substancialmente a precisão da manipulação em comparação com abordagens anteriores. Visite https://pointscoder.github.io/PhysWorld_Web/{a página do projeto} para detalhes.

Gerando uma Imagem a Partir de 1.000 Palavras: Aprimorando a Conversão de Texto em Imagem com Legendas Estruturadas
Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

Nov 10

ByEyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady

Os modelos de texto-para-imagem evoluíram rapidamente de ferramentas criativas casuais para sistemas de nível profissional, alcançando níveis sem precedentes de qualidade de imagem e realismo. No entanto, a maioria dos modelos é treinada para mapear instruções curtas em imagens detalhadas, criando uma lacuna entre a entrada textual esparsa e as saídas visuais ricas. Essa incompatibilidade reduz a controlabilidade, pois os modelos frequentemente preenchem detalhes ausentes de forma arbitrária, tendendo para as preferências médias dos usuários e limitando a precisão para uso profissional. Nós abordamos esta limitação treinando o primeiro modelo de código aberto de texto-para-imagem com legendas estruturadas longas, onde cada amostra de treinamento é anotada com o mesmo conjunto de atributos refinados. Este projeto maximiza a cobertura expressiva e permite controle desacoplado sobre fatores visuais. Para processar legendas longas com eficiência, propomos o DimFusion, um mecanismo de fusão que integra *tokens* intermediários de um LLM leve sem aumentar o comprimento dos *tokens*. Também introduzimos o protocolo de avaliação Reconstrução com Texto como Gargalo (TaBR). Ao avaliar o quão bem imagens reais podem ser reconstruídas através de um ciclo de legendagem-geração, o TaBR mede diretamente a controlabilidade e a expressividade, mesmo para legendas muito longas onde os métodos de avaliação existentes falham. Por fim, demonstramos nossas contribuições treinando o modelo de larga escala FIBO, alcançando o estado da arte no alinhamento a instruções entre modelos de código aberto. Os pesos do modelo estão publicamente disponíveis em https://huggingface.co/briaai/FIBO.

O Alinhamento de Variedades de Roteamento Melhora a Generalização de LLMs de Mistura de Especialistas
Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

Nov 10

ByZhongyang Li, Ziyue Li, Tianyi Zhou

As Misturas Esparsas de Especialistas (MoE) têm sido amplamente adotadas em modelos de linguagem grandes recentes, uma vez que permitem escalar eficientemente a capacidade do modelo sem aumentar o custo de inferência. No entanto, avaliações em diversas tarefas de *downstream* revelam uma subotimalidade consistente dos roteadores nos MoE LLMs existentes, o que resulta numa lacuna de desempenho significativa (por exemplo, 10-20% em precisão) em relação ao roteamento ótimo. Neste artigo, demonstramos que alinhar a variedade (*manifold*) dos pesos de roteamento com a variedade da incorporação (*embedding*) de tarefas pode efetivamente reduzir essa lacuna e melhorar o desempenho de generalização dos MoE LLMs. O nosso método, "Alinhamento da Variedade de Roteamento (RoMA)", introduz um termo de regularização de variedade adicional no objetivo de pós-treinamento e requer apenas um ajuste fino (*finetuning*) leve dos roteadores (com os outros parâmetros congelados). Especificamente, a regularização incentiva que os pesos de roteamento de cada amostra se aproximem dos dos seus vizinhos bem-sucedidos (cujos pesos de roteamento conduzem a respostas corretas) num espaço de incorporação de tarefas. Consequentemente, amostras que visam tarefas semelhantes partilharão escolhas de especialistas semelhantes ao longo das camadas. Construir tais ligações entre tarefas e especialistas em diferentes amostras é essencial para alcançar uma melhor generalização. Além disso, o RoMA demonstra a vantagem de unificar a compreensão da tarefa (através de modelos de incorporação) com a geração de soluções (através dos MoE LLMs). Nas experiências, ajustamos os roteadores no OLMoE, DeepSeekMoE e Qwen3-MoE usando o RoMA. Avaliações em diversos *benchmarks* e comparações extensivas com linhas de base (*baselines*) mostram a melhoria substancial trazida pelo RoMA.

RedOne 2.0: Repensando o Pós-treinamento de LLMs Específicos de Domínio em Serviços de Redes Sociais
RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

Nov 10

ByFei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao

Como um meio fundamental para a interação humana e troca de informações, os serviços de redes sociais (SRS) apresentam desafios únicos para os grandes modelos de linguagem (LLMs): cargas de trabalho heterogéneas, normas e gírias em rápida mudança, e corpora multilingues e culturalmente diversos que induzem uma mudança brusca de distribuição. O ajuste fino supervisionado (SFT) pode especializar modelos, mas frequentemente desencadeia um "sobe-e-desce" entre ganhos dentro da distribuição e robustez fora dela, especialmente para modelos menores. Para enfrentar estes desafios, apresentamos o RedOne 2.0, um LLM orientado para SRS treinado com um paradigma pós-treinamento progressivo e priorizado por aprendizagem por reforço (RL), concebido para uma adaptação rápida e estável. O *pipeline* consiste em três etapas: (1) Aprendizagem Exploratória em corpora de SRS curados para estabelecer um alinhamento inicial e identificar fraquezas sistemáticas; (2) Ajuste Fino Direcionado que aplica seletivamente o SFT às lacunas diagnosticadas, misturando uma pequena fração de dados gerais para mitigar o esquecimento; e (3) Aprendizagem de Refinamento que reaplica o RL com sinais centrados em SRS para consolidar melhorias e harmonizar compromissos entre tarefas. Em várias tarefas abrangendo três categorias, o nosso modelo de escala 4B proporciona melhorias médias de cerca de 2,41 pontos em relação à linha de base subótima de 7B. Adicionalmente, o RedOne 2.0 alcança um aumento médio de desempenho de cerca de 8,74 pontos em relação ao modelo base, utilizando menos de metade dos dados necessários pelo método centrado em SFT RedOne, evidenciando uma eficiência e estabilidade de dados superiores em escalas compactas. Globalmente, o RedOne 2.0 estabelece uma linha de base competitiva e económica para LLMs específicos de domínio no cenário das SRS, avançando a capacidade sem sacrificar a robustez.

Raciocínio com Confiança: Verificação Eficiente de Etapas de Raciocínio de LLMs por meio de Cabeças de Incerteza
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

Nov 9

ByJingwei Ni, Ekaterina Fadeeva, Tianyi Wu, Mubashara Akhtar, Jiaheng Zhang, Elliott Ash, Markus Leippold, Timothy Baldwin, See-Kiong Ng, Artem Shelmanov, Mrinmaya Sachan

A resolução de tarefas complexas geralmente exige que os LLMs gerem longas cadeias de raciocínio de múltiplos passos. Trabalhos anteriores demonstraram que verificar a correção de passos individuais de raciocínio pode melhorar ainda mais o desempenho e a eficiência dos LLMs nessas tarefas e aumentar a interpretabilidade da solução. No entanto, as abordagens de verificação existentes, como os Modelos de Recompensa de Processo (PRMs), são computacionalmente dispendiosas, limitadas a domínios específicos ou exigem anotações em grande escala geradas por humanos ou modelos. Assim, propomos uma alternativa leve para verificação de raciocínio a nível de passo baseada em escores de incerteza orientados por dados. Treinamos cabeças de quantificação de incerteza (UHeads) baseadas em transformers que utilizam os estados internos de um LLM congelado para estimar a incerteza dos seus passos de raciocínio durante a geração. A abordagem é totalmente automática: as etiquetas-alvo são geradas por outro LLM maior (por exemplo, DeepSeek R1) ou de forma auto supervisionada pelo próprio modelo original. As UHeads são eficazes e leves, contendo menos de 10 milhões de parâmetros. Em múltiplos domínios, incluindo matemática, planeamento e resposta a questões de conhecimento geral, elas igualam ou até superam o desempenho de PRMs que são até 810 vezes maiores. As nossas descobertas sugerem que os estados internos dos LLMs codificam a sua incerteza e podem servir como sinais confiáveis para verificação de raciocínio, oferecendo uma direção promissora para LLMs introspetivos escaláveis e generalizáveis.

Ensinando Modelos de Linguagem Pré-treinados a Pensar Mais Profundamente com Recorrência Retrofitted
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

Nov 10

BySean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum

Avanços recentes em modelos de linguagem com recorrência em profundidade demonstram que a recorrência pode dissociar o cálculo computacional durante o treinamento e a contagem de parâmetros do cálculo computacional durante o teste. Neste trabalho, estudamos como converter modelos de linguagem pré-treinados não recorrentes existentes em modelos com recorrência em profundidade. Descobrimos que o uso de um currículo de recorrências para aumentar a profundidade efetiva do modelo ao longo do treinamento preserva o desempenho, reduzindo ao mesmo tempo o custo computacional total. Em nossos experimentos, em matemática, observamos que converter modelos pré-treinados em modelos recorrentes resulta em melhor desempenho para um determinado orçamento computacional do que simplesmente realizar pós-treinamento no modelo de linguagem não recorrente original.

SofT-GRPO: Superando o Aprendizado por Reforço de LLMs com Tokens Discretos via Otimização de Políticas de Pensamento Suave com Reparametrização de Gumbel
SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

Nov 9

ByZhi Zheng, Wee Sun Lee

O paradigma de pensamento suave (soft-thinking) para raciocínio em Modelos de Linguagem de Grande Porte (LLMs) pode superar o raciocínio convencional de cadeia de pensamento (Chain-of-Thought - CoT) com tokens discretos em alguns cenários, destacando seu valor para pesquisa e aplicação. No entanto, embora o padrão de raciocínio CoT com tokens discretos possa ser reforçado através de algoritmos de otimização de políticas, como a otimização de políticas relativas de grupo (group relative policy optimization - GRPO), estender o padrão de pensamento suave com Aprendizado por Reforço (RL) permanece um desafio. Essa dificuldade decorre das complexidades de injetar estocasticidade nos tokens de pensamento suave e atualizar as políticas de pensamento suave de acordo. Como resultado, tentativas anteriores de combinar pensamento suave com GRPO normalmente apresentam desempenho inferior às suas contrapartes GRPO com tokens discretos. Para liberar todo o potencial do pensamento suave, este artigo apresenta um novo algoritmo de otimização de políticas, o SofT-GRPO, para reforçar LLMs sob o padrão de raciocínio de pensamento suave. O SofT-GRPO injeta ruído Gumbel nos *logits*, emprega a técnica Gumbel-Softmax para evitar que tokens de pensamento suave fiquem fora do espaço de incorporação pré-treinado e aproveita o truque de reparametrização no gradiente de política. Realizamos experimentos com LLMs base variando de 1,5B a 7B de parâmetros, e os resultados demonstram que o SofT-GRPO permite que LLMs de pensamento suave superem ligeiramente o GRPO com tokens discretos em Pass@1 (+0,13% na precisão média), enquanto exibe um aumento substancial em Pass@32 (+2,19% na precisão média). Códigos e pesos estão disponíveis em https://github.com/zz1358m/SofT-GRPO-master.

MVU-Eval: Rumo à Avaliação da Compreensão Multivídeo para MLLMs Multimodais
MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

Nov 10

ByTianhao Peng, Haochen Wang, Yuanxing Zhang, Zekun Wang, Zili Wang, Ge Zhang, Jian Yang, Shihao Li, Yanghai Wang, Xintao Wang, Houyi Li, Wei Ji, Pengfei Wan, Wenhao Huang, Zhaoxiang Zhang, Jiaheng Liu

O advento dos Modelos de Linguagem de Grande Porte Multimodais (MLLMs) expandiu as capacidades da IA para modalidades visuais, no entanto, os benchmarks de avaliação existentes permanecem limitados à compreensão de vídeo único, negligenciando a necessidade crítica de compreensão multi-vídeo em cenários do mundo real (por exemplo, análise esportiva e condução autónoma). Para colmatar esta lacuna significativa, introduzimos o MVU-Eval, o primeiro benchmark abrangente para avaliar a Compreensão Multi-Vídeo em MLLMs. Especificamente, o nosso MVU-Eval avalia principalmente oito competências centrais através de 1.824 pares pergunta-resposta meticulosamente curados, abrangendo 4.959 vídeos de diversos domínios, abordando tanto tarefas de perceção fundamentais como tarefas de raciocínio de alta ordem. Estas capacidades estão rigorosamente alinhadas com aplicações do mundo real, como a síntese multi-sensor em sistemas autónomos e a análise esportiva de múltiplos ângulos. Através de uma avaliação extensiva de modelos *open-source* e *closed-source* state-of-the-art, revelamos discrepâncias de desempenho significativas e limitações na capacidade dos MLLMs atuais para realizar compreensão através de múltiplos vídeos. O benchmark será disponibilizado publicamente para fomentar pesquisas futuras.

RLVE: Escalonando o Aprendizado por Reforço para Modelos de Linguagem com Ambientes Verificáveis Adaptativos
RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

Nov 10

ByZhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi

Apresentamos o Aprendizado por Reforço (RL) com Ambientes Verificáveis Adaptativos (RLVE), uma abordagem que utiliza ambientes verificáveis que geram problemas de forma procedural e fornecem recompensas algoritmicamente verificáveis, para escalar o RL para modelos de linguagem (LMs). O RLVE permite que cada ambiente verificável adapte dinamicamente a distribuição de dificuldade dos problemas às capacidades do modelo de política conforme o treinamento avança. Em contraste, distribuições de dados estáticas frequentemente levam ao desaparecimento do sinal de aprendizado quando os problemas são muito fáceis ou muito difíceis para a política. Para implementar o RLVE, criamos o RLVE-Gym, um conjunto em larga escala de 400 ambientes verificáveis, cuidadosamente desenvolvido por meio de engenharia manual de ambientes. Usando o RLVE-Gym, mostramos que a escalabilidade de ambientes, ou seja, a expansão do conjunto de ambientes de treinamento, melhora consistentemente as capacidades de raciocínio generalizáveis. O RLVE com treinamento conjunto em todos os 400 ambientes do RLVE-Gym produz uma melhoria média absoluta de 3,37% em seis benchmarks de raciocínio, partindo de um dos LMs de raciocínio de 1,5B mais robustos. Em comparação, continuar o treinamento de RL original deste LM resulta em um ganho médio absoluto de apenas 0,49%, apesar de usar mais de 3 vezes mais poder computacional. Disponibilizamos nosso código publicamente.

FLEX: Evolução Contínua de Agentes via Aprendizado Progressivo a partir da Experiência
FLEX: Continuous Agent Evolution via Forward Learning from Experience

Nov 9

ByZhicheng Cai, Xinyuan Guo, Yu Pei, JiangTao Feng, Jiangjie Chen, Ya-Qin Zhang, Wei-Ying Ma, Mingxuan Wang, Hao Zhou

Os agentes autónomos impulsionados por Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o raciocínio e a resolução de problemas, mas permanecem estáticos após o treino, incapazes de evoluir com a experiência, tal como os seres inteligentes fazem durante a sua operação. Apresentamos a Aprendizagem Progressiva com EXperiência (FLEX), um paradigma de aprendizagem sem gradientes que permite aos agentes baseados em LLMs evoluir continuamente através da experiência acumulada. Especificamente, a FLEX cultiva uma evolução escalável e herdável através da construção de uma biblioteca de experiências estruturada, baseada na reflexão contínua sobre sucessos e falhas durante a interação com o ambiente. A FLEX produz melhorias substanciais em raciocínio matemático, retrossíntese química e previsão de aptidão proteica (até 23% no AIME25, 10% no USPTO50k e 14% no ProteinGym). Identificamos ainda uma lei de escala clara do crescimento experiencial e o fenómeno de herança de experiência entre agentes, representando um passo em direção a uma evolução contínua de agentes escalável e herdável. Página do Projeto: https://flex-gensi-thuair.github.io.

Llama-Embed-Nemotron-8B: Um Modelo Universal de Incorporação de Texto para Tarefas Multilíngues e Translinguais
Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

Nov 10

ByYauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge

Apresentamos o llama-embed-nemotron-8b, um modelo de incorporação de texto de pesos abertos que atinge desempenho de última geração no *leaderboard* do *Multilingual Massive Text Embedding Benchmark* (MMTEB) em 21 de outubro de 2025. Embora modelos recentes apresentem desempenho sólido, seus dados ou metodologias de treinamento frequentemente não são totalmente divulgados. Nosso objetivo é abordar essa lacuna desenvolvendo um modelo totalmente de código aberto, disponibilizando publicamente seus pesos e estudos de ablação detalhados, e planejando compartilhar os conjuntos de dados de treinamento curados. Nosso modelo demonstra desempenho superior em todas as principais tarefas de incorporação — incluindo recuperação, classificação e similaridade semântica textual (STS) — e se destaca em cenários multilíngues desafiadores, como idiomas de baixos recursos e configurações cruzadas. Esse desempenho de ponta é impulsionado por uma nova mistura de dados de 16,1 milhões de pares de consulta-documento, divididos entre 7,7 milhões de amostras de conjuntos de dados públicos e 8,4 milhões de exemplos gerados sinteticamente a partir de vários LLMs de pesos abertos. Uma de nossas principais contribuições é um estudo de ablação detalhado que analisa escolhas de design fundamentais, incluindo uma comparação de implementações de perda contrastiva, uma avaliação de estratégias de geração sintética de dados (SDG) e o impacto da fusão de modelos. O llama-embed-nemotron-8b é um modelo consciente de instruções, suportando instruções definidas pelo usuário para melhorar o desempenho em casos de uso específicos. Esta combinação de desempenho de primeira linha, ampla aplicabilidade e flexibilidade orientada ao usuário permite que ele sirva como uma solução universal de incorporação de texto.

NURBGen: Geração de Texto para CAD de Alta Fidelidade por meio de Modelagem NURBS Orientada por LLM
NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling

Nov 9

ByMuhammad Usama, Mohammad Sadil Khan, Didier Stricker, Muhammad Zeshan Afzal

A geração de modelos 3D de CAD editáveis a partir de linguagem natural continua a ser um desafio, uma vez que os sistemas texto-para-CAD existentes produzem malhas (meshes) ou dependem de escassos dados de histórico de projeto. Apresentamos o NURBGen, o primeiro framework para gerar modelos 3D de CAD de alta fidelidade diretamente a partir de texto, utilizando B-Splines Racionais Não Uniformes (NURBS). Para alcançar este objetivo, fine-tunamos um Large Language Model (LLM) para traduzir textos de forma livre em representações JSON que contêm parâmetros de superfície NURBS (ou seja, pontos de controlo, vetores de nós, graus e pesos racionais), os quais podem ser convertidos diretamente para o formato BRep usando Python. Propomos ainda uma representação híbrida que combina NURBS não aparadas com primitivas analíticas para lidar de forma mais robusta com superfícies aparadas e regiões degeneradas, ao mesmo tempo que reduz a complexidade de tokens. Adicionalmente, introduzimos o partABC, um subconjunto curado do conjunto de dados ABC composto por componentes individuais de CAD, anotados com legendas detalhadas através de um pipeline de anotação automatizado. O NURBGen demonstra um forte desempenho em prompts diversos, superando métodos anteriores em fidelidade geométrica e precisão dimensional, conforme confirmado por avaliações de especialistas. O código e o conjunto de dados serão disponibilizados publicamente.

O Aprendizado por Reforço Melhora a Travessia do Conhecimento Hierárquico em LLMs
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

Nov 8

ByRenfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah

O aprendizado por reforço (RL) é frequentemente creditado por melhorar o raciocínio e a generalização de modelos de linguagem à custa da degradação do conhecimento memorizado. Desafiamos esta narrativa ao observar que os modelos aprimorados por RL superam consistentemente suas contrapartes base e ajustadas por supervisão (SFT) em tarefas puras de recordação de conhecimento, particularmente naquelas que exigem o percurso de conhecimento estruturado e hierárquico (por exemplo, códigos médicos). Nossa hipótese é que esses ganhos não derivam de dados recém-adquiridos, mas de habilidades processuais aprimoradas para navegar e pesquisar as hierarquias de conhecimento existentes nos parâmetros do modelo. Para apoiar esta hipótese, mostramos que o *prompting* estruturado, que guia explicitamente os modelos SFT através do percurso hierárquico, recupera a maior parte da diferença de desempenho (reduzindo de 24pp para 7pp no MedConceptsQA para DeepSeek-V3/R1). Adicionalmente, descobrimos que, embora o *prompting* melhore a precisão da resposta final, os modelos aprimorados por RL mantêm uma capacidade superior de recordar os caminhos processuais corretos em tarefas de recuperação profunda. Por fim, nossa análise das ativações internas por camadas revela que, embora as representações factuais (por exemplo, as ativações para a afirmação "o código 57.95 refere-se a infecção urinária") mantenham alta similaridade de cosseno entre os modelos SFT e RL, as representações de consulta (por exemplo, "o que é o código 57.95") divergem notavelmente, indicando que o RL transforma principalmente a forma como os modelos percorrem o conhecimento, e não a representação do conhecimento em si.

VADER: Rumo à Compreensão Causal de Anomalias em Vídeo com Modelos de Linguagem de Grande Porte com Consciência Relacional
VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

Nov 10

ByYing Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai

A compreensão de anomalias em vídeo (VAU) visa fornecer uma interpretação detalhada e compreensão semântica de eventos anômalos em vídeos, superando as limitações dos métodos tradicionais que se concentram apenas na detecção e localização de anomalias. No entanto, as abordagens existentes frequentemente negligenciam as relações causais mais profundas e as interações entre objetos, que são críticas para a compreensão de comportamentos anômalos. Neste artigo, propomos o VADER, uma estrutura orientada por LLM para a compreensão de anomalias em vídeo, que integra características de relação entre objetos em *keyframes* com pistas visuais para aprimorar a compreensão de anomalias a partir do vídeo. Especificamente, o VADER aplica primeiro um Avaliador de Anomalias para atribuir pontuações de anomalia por quadro, seguido por uma estratégia de Amostragem Consciente do Contexto (CAES) para capturar o contexto causal de cada evento anômalo. Um Extrator de Características de Relação e um Codificador de Relações por Contraste (CORE) modelam conjuntamente as interações dinâmicas entre objetos, produzindo representações relacionais compactas para o raciocínio subsequente. Essas pistas visuais e relacionais são integradas com LLMs para gerar descrições detalhadas e fundamentadas causalmente, e suportar uma resposta robusta a perguntas relacionadas a anomalias. Experimentos em múltiplos benchmarks de VAU do mundo real demonstram que o VADER alcança resultados sólidos em tarefas de descrição, explicação e raciocínio causal sobre anomalias, avançando a fronteira da análise explicável de anomalias em vídeo.

RLoop: Uma Estrutura de Autoaprimoramento para Aprendizagem por Reforço com Inicialização Iterativa de Políticas
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

Nov 6

ByZeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu

Embora o Aprendizado por Reforço para Recompensas Verificáveis (RLVR) seja uma ferramenta poderosa para treinar grandes modelos de raciocínio, sua dinâmica de treinamento abriga um desafio crítico: o *overfitting* de RL, em que os modelos maximizam as recompensas de treino mas perdem generalização. Nossa análise revela que este fenómeno é impulsionado pela superespecialização da política e pelo esquecimento catastrófico das diversas soluções geradas durante o treinamento. A otimização padrão descarta esta valiosa diversidade de políticas entre etapas. Para resolver isto, introduzimos o RLoop, um quadro de autoaprimoramento baseado na inicialização iterativa de políticas. O RLoop transforma o processo de treinamento padrão num ciclo virtuoso: primeiro usa RL para explorar o espaço de soluções a partir de uma política dada, depois filtra as trajetórias bem-sucedidas para criar um conjunto de dados especializado. Este conjunto de dados é utilizado via *Rejection-sampling Fine-Tuning* (RFT) para refinar a política inicial, criando um ponto de partida superior para a próxima iteração. Este ciclo de exploração e exploração via reinicialização iterativa converte eficazmente as variações transitórias da política em ganhos robustos de desempenho. Nossos experimentos mostram que o RLoop mitiga o esquecimento e melhora substancialmente a generalização, aumentando a precisão média em 9% e a métrica *pass@32* em mais de 15% em comparação com o RL padrão.

Pensamentos Longamente Fundamentados: Destilando Cadeias de Raciocínio Visual Composicionais em Escala
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

Nov 7

ByDavid Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi

Os recentes avanços no raciocínio multimodal têm sido impulsionados em grande parte por conjuntos de dados não divulgados e receitas proprietárias de síntese de dados, deixando em aberto questões sobre como construir sistematicamente conjuntos de dados de raciocínio em larga escala e centrados na visão, particularmente para tarefas que vão além da matemática visual. Neste trabalho, introduzimos um novo quadro de geração de dados de raciocínio que abrange competências e níveis de complexidade diversos, com mais de 1 milhão de perguntas sintéticas de alta qualidade e centradas na visão. O conjunto de dados também inclui dados de preferência e instruções que suportam tanto RL offline quanto online. Nosso quadro de síntese prossegue em duas etapas: (1) escala; e (2) complexidade. Os traços de raciocínio são então sintetizados através de um processo em duas fases que aproveita VLMs e LLMs de raciocínio, produzindo traços CoT para VLMs que capturam a riqueza e os diversos comportamentos cognitivos encontrados nos modelos de raciocínio de fronteira. Notavelmente, mostramos que o ajuste fino do Qwen2.5-VL-7B com os nossos dados supera todas as linhas de base de dados abertos em todos os benchmarks centrados na visão avaliados, e até ultrapassa modelos fortes de dados fechados, como o MiMo-VL-7B-RL, no V* Bench, CV-Bench e MMStar-V. Talvez o mais surpreendente seja que, apesar de ser inteiramente centrado na visão, os nossos dados transferem-se positivamente para o raciocínio apenas textual (MMLU-Pro) e para o raciocínio auditivo (MMAU), demonstrando a sua eficácia. De forma semelhante, apesar de não conter vídeos ou dados visuais corporificados, observamos ganhos notáveis ao avaliar num benchmark de Q&A corporificado de evidência única (NiEH). Finalmente, usamos os nossos dados para analisar todo o pipeline de pós-treinamento de VLM. A nossa análise empírica destaca que (i) o SFT em dados de alta qualidade com traços de raciocínio não lineares é essencial para um RL online eficaz, (ii) o RL offline faseado iguala o desempenho do RL online enquanto reduz as exigências computacionais, e (iii) um SFT cuidadoso em dados de alta qualidade pode melhorar substancialmente a transferência fora de domínio e entre modalidades.

LUT-LLM: Inferência Eficiente de Modelos de Linguagem Grandes com Computações Baseadas em Memória em FPGAs
LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

Nov 9

ByZifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong

O rápido avanço dos grandes modelos de linguagem (LLMs) tem impulsionado inúmeras aplicações, mas a inferência eficiente em lote único permanece vital para a inteligência em dispositivos locais. Embora os FPGAs ofereçam controle de dados de granularidade fina e alta eficiência energética, as otimizações recentes em GPUs reduziram sua vantagem, especialmente sob computação baseada em operações aritméticas. Para superar isso, aproveitamos a abundante memória on-chip dos FPGAs para deslocar a inferência de LLMs da computação aritmética para uma baseada em memória, por meio de consultas a tabelas (lookups). Apresentamos o LUT-LLM, o primeiro acelerador para FPGA que permite a inferência de LLMs com 1B+ de parâmetros através de operações de memória com quantização vetorial. Nossa análise identifica a co-quantização ativação-peso como o esquema mais eficaz, suportado por (1) busca paralela de centróides com consciência de largura de banda, (2) consultas eficientes a tabelas 2D e (3) um projeto híbrido espaço-temporal que minimiza o cache de dados. Implementado em um FPGA AMD V80 para um modelo personalizado Qwen 3 1.7B, o LUT-LLM atinge uma latência 1,66x menor que a AMD MI210 e uma eficiência energética 1,72x maior que a NVIDIA A100, escalando para modelos de 32B com um ganho de eficiência de 2,16x em relação ao A100.

Diffusion-SDPO: Otimização Direta de Preferências com Salvaguardas para Modelos de Difusão
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

Nov 5

ByMinghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

Os modelos de difusão texto-imagem produzem imagens de alta qualidade, mas o alinhamento com as preferências humanas continua a ser um desafio. Revisitamos a Otimização Direta de Preferências (DPO) baseada em difusão para estes modelos e identificamos uma patologia crítica: o aumento da margem de preferência não melhora necessariamente a qualidade da geração. Especificamente, o objetivo padrão do Diffusion-DPO pode aumentar o erro de reconstrução tanto dos ramos vencedores como dos perdedores. Consequentemente, a degradação das saídas menos preferidas pode tornar-se suficientemente severa para afetar adversamente o ramo preferido, mesmo com o crescimento da margem. Para resolver isto, introduzimos o Diffusion-SDPO, uma regra de atualização protegida que preserva o vencedor através da escala adaptativa do gradiente do perdedor de acordo com o seu alinhamento com o gradiente do vencedor. Uma análise de primeira ordem produz um coeficiente de escala de forma fechada que garante que o erro da saída preferida é não crescente em cada passo de otimização. O nosso método é simples, agnóstico ao modelo, amplamente compatível com estruturas de alinhamento existentes do estilo DPO e adiciona apenas uma sobrecarga computacional marginal. Em benchmarks padrão texto-imagem, o Diffusion-SDPO oferece ganhos consistentes face a linhas de base de aprendizagem de preferências em métricas automáticas de preferência, estéticas e de alinhamento com o prompt. O código está publicamente disponível em https://github.com/AIDC-AI/Diffusion-SDPO.

MPJudge: Rumo à Avaliação Perceptiva de Pinturas Induzidas por Música
MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

Nov 10

ByShiqi Jiang, Tianyi Liang, Changbo Wang, Chenhui Li

A pintura induzida por música é uma prática artística única na qual obras visuais são criadas sob a influência da música. Avaliar se uma pintura reflete fielmente a música que a inspirou constitui uma tarefa desafiadora de avaliação perceptual. Os métodos existentes baseiam-se principalmente em modelos de reconhecimento de emoção para avaliar a similaridade entre a música e a pintura, mas tais modelos introduzem ruído considerável e negligenciam pistas perceptuais mais amplas para além da emoção. Para superar estas limitações, propomos uma nova estrutura para a avaliação de pintura induzida por música que modela diretamente a coerência perceptual entre a música e a arte visual. Apresentamos o MPD, o primeiro conjunto de dados em larga escala de pares música-pintura anotado por especialistas de domínio com base na coerência perceptual. Para lidar melhor com casos ambíguos, recolhemos adicionalmente anotações de preferência por pares. Com base neste conjunto de dados, apresentamos o MPJudge, um modelo que integra características da música num codificador visual através de um mecanismo de fusão baseado em modulação. Para aprender eficazmente com casos ambíguos, adotamos a Otimização de Preferência Direta para o treino. Experimentos extensivos demonstram que o nosso método supera as abordagens existentes. Resultados qualitativos mostram ainda que o nosso modelo identifica mais precisamente as regiões da pintura relevantes para a música.

DigiData: Treinamento e Avaliação de Agentes de Controle Móveis de Propósito Geral Resumo A capacidade de controlar dispositivos móveis para realizar tarefas arbitrárias representa um marco fundamental na criação de assistentes de IA verdadeiramente universais. No entanto, o progresso tem sido dificultado pela escassez de dados de treinamento de larga escala que capturem a riqueza e a diversidade das interações do mundo real com aplicativos móveis. Apresentamos o DigiData, um conjunto de dados massivo e diversificado projetado para treinar e avaliar agentes de controle móvel de propósito geral. O DigiData compreende mais de 3 milhões de episódios de demonstração, abrangendo centenas de aplicativos Android, milhares de tarefas únicas e uma miríade de padrões de interação. Os episódios foram coletados por meio de uma combinação de técnicas automatizadas e contribuições humanas em uma plataforma crowdsourcing, garantindo tanto a escala quanto a qualidade. Cada episódio inclui uma descrição da tarefa em linguagem natural, uma sequência temporal de ações de UI (capturas de tela e ações de toque correspondentes) e o estado de conclusão da tarefa. Além do conjunto de dados, introduzimos um benchmark de avaliação, DigiBench, que consiste em um conjunto de tarefas complexas e não vistas durante o treinamento, para medir a capacidade de generalização e robustez dos agentes. Avaliamos uma série de arquiteturas de agentes baseadas em Visão-Linguagem-Ação (VLA) no DigiData, demonstrando ganhos significativos de desempenho em relação a conjuntos de dados anteriores. Nossos experimentos revelam que a escala e a diversidade do DigiData são cruciais para a generalização entre aplicativos e tarefas. Disponibilizamos o conjunto de dados, o benchmark e os códigos para facilitar pesquisas futuras na área de agentes móveis universais. 1. Introdução Os smartphones tornaram-se centrais para a vida moderna, servindo como portais para comunicação, produtividade, entretenimento e gerenciamento de informações. Um agente de IA capaz de operar qualquer aplicativo em um smartphone para realizar tarefas definidas pelo usuário seria uma ferramenta transformadora. A visão de um "assistente universal" que pode, por exemplo, reservar voos, comprar ingressos, gerenciar calendários ou operar aplicativos complexos sob comando, permanece um grande desafio na pesquisa de IA. Abordagens recentes para criar tais agentes frequentemente empregam modelos de fundação (foundation models) treinados em dados de demonstração de tarefas. No entanto, a eficácia desses modelos é intrinsecamente ligada à quantidade, qualidade e diversidade dos dados de treinamento. Conjuntos de dados existentes para controle móvel, como [Citam 1, 2], sofreram com limitações de escala, escopo restrito de aplicativos ou falta de diversidade de tarefas. Isso resulta em agentes que se especializam em aplicativos ou tarefas específicas, falhando em generalizar para novos cenários – uma propriedade essencial para um agente de propósito geral. Neste trabalho, abordamos essa lacuna fundamental com o DigiData. Nosso objetivo é fornecer um recurso que permita o treinamento de agentes que possam: 1. Generalizar entre Aplicativos: Aprender conceitos de UI universais (como botões, campos de texto, listas) que são transferíveis entre diferentes aplicativos. 2. Generalizar entre Tarefas: Compreender intenções de alto nível a partir de instruções em linguagem natural e traduzi-las em sequências de ações corretas, mesmo para tarefas não vistas durante o treinamento. 3. Ser Robusto: Lidar com a variabilidade dinâmica das interfaces de usuário, como mudanças de layout, pop-ups e atrasos no carregamento. As principais contribuições deste trabalho são: * O conjunto de dados DigiData, uma coleção massiva e diversificada de mais de 3 milhões de episódios de interação com dispositivos móveis, abrangendo centenas de aplicativos e milhares de tarefas. * O benchmark de avaliação DigiBench, projetado para testar rigorosamente a generalização e a robustez dos agentes em tarefas complexas e não vistas. * Um estudo experimental abrangente de várias arquiteturas de agentes VLA, mostrando que o treinamento no DigiData leva a melhorias substanciais no desempenho e na capacidade de generalização, estabelecendo um novo patamar para a pesquisa na área. 2. O Conjunto de Dados DigiData 2.1. Coleta de Dados e Metodologia A coleta do DigiData foi projetada para maximizar a diversidade ao longo de três eixos: aplicativos, tarefas e estratégias de interação. 1. Seleção de Aplicativos: Selecionamos uma ampla gama de aplicativos Android das categorias Mídia Social, Produtividade, Viagens, Compras, Finanças, Entretenimento e Utilitários. Isso garante que o agente seja exposto a uma grande variedade de padrões de UI e fluxos de trabalho. 2. Especificação de Tarefas: Para cada aplicativo, definimos um grande número de tarefas (ex: "Curta o segundo post no feed", "Altere o idioma para espanhol nas configurações", "Pesquise por um restaurante italiano e reserve uma mesa para duas pessoas"). As tarefas variam de simples (1-2 ações) a complexas (10+ ações). 3. Coleta de Demonstrações: * Coleta Automatizada: Desenvolvemos um sistema de reprodução (playback) que executa scripts para realizar tarefas em emuladores Android. Isso permitiu a coleta em massa de episódios para tarefas bem definidas. * Coleta Humana via Crowdsourcing: Para capturar a riqueza e adaptabilidade das interações humanas, implantamos uma plataforma onde trabalhadores realizavam tarefas em emuladores. Isso introduziu variações naturais na forma como as tarefas são executadas, tornando os dados mais robustos. 2.2. Estrutura e Estatísticas do Conjunto de Dados Cada episódio no DigiData é estruturado como uma sequência de tuplas (t, s_t, a_t, c_t), onde: * `t`: Carimbo de data/hora do passo. * `s_t`: Captura de tela do dispositivo no passo `t`. * `a_t`: Ação executada no passo `t` (ex: `TAP(x, y)`, `TYPE(text)`, `SWIPE(direction)`). * `c_t`: Comando de linguagem natural que descreve a tarefa de alto nível. O DigiData contém mais de 3.2 milhões de episódios, totalizando mais de 25 milhões de etapas de ação. Abrange mais de 500 aplicativos Android únicos e >10.000 tarefas distintas. A distribuição do comprimento dos episódios segue uma curva de cauda longa, com a maioria das tarefas tendo entre 3 e 15 ações. 2.3. Garantia de Qualidade Implementamos um pipeline rigoroso de garantia de qualidade (QA): 1. Verificações automáticas para garantir que as ações gravadas eram válidas e que a tarefa foi marcada como concluída com sucesso. 2. Revisão humana de uma amostra aleatória de episódios coletados por crowdsourcing para verificar a precisão e a aderência à instrução da tarefa. 3. O Benchmark DigiBench Para avaliar verdadeiramente a generalização, é crucial testar os agentes em condições não vistas durante o treinamento. O DigiBench é um benchmark de avaliação composto por: * Tarefas em Aplicativos Não Vistos: Um conjunto de tarefas complexas em aplicativos populares que foram explicitamente excluídos do conjunto de treinamento do DigiData. * Tarefas de Composição Zero-Shot: Tarefas que exigem a combinação de habilidades aprendidas em contextos diferentes (ex: "Encontre um filme no aplicativo de cinema e, em seguida, compartilhe o título no aplicativo de mensagens"). * Tarefas com Perturbações de UI: Tarefas em que a UI é alterada dinamicamente (ex: mudança de tema, pop-ups inesperados) para testar a robustez. O DigiBench fornece um ambiente de emulador controlado e um conjunto de métricas padronizadas, incluindo Taxa de Sucesso da Tarefa e Comprimento do Caminho Normalizado (comparando o número de ações do agente com o de uma demonstração de referência). 4. Experimentos e Resultados Treinamos e avaliamos várias arquiteturas de agentes state-of-the-art, incluindo modelos que codificam a tela como pixels brutos e modelos que utilizam representações semânticas extraídas da hierarquia de UI (UI hierarchy). Resultados Principais: 1. Impacto da Escala: Modelos treinados no DigiData completo superaram significativamente aqueles treinados em subconjuntos menores, mostrando que a escala é fundamental para um bom desempenho. 2. Generalização em Aplicativos Não Vistos: Os agentes treinados no DigiData alcançaram uma taxa de sucesso >45% em tarefas do DigiBench envolvendo aplicativos não vistos, um aumento substancial em relação aos <15% alcançados por modelos treinados em conjuntos de dados anteriores. 3. Generalização em Tarefas de Composição: Os agentes demonstraram uma capacidade emergente de realizar tarefas que exigiam a composição de ações aprendidas em tarefas mais simples, embora essa ainda seja uma área desafiadora. 4. Análise da Arquitetura: Modelos que incorporam informações da hierarquia de UI (quando disponíveis) geralmente apresentaram melhor desempenho em tarefas que exigiam compreensão textual precisa, enquanto modelos baseados apenas em pixels foram mais robustos a aplicativos que não fornecem metadados de acessibilidade. 5. Discussão e Trabalho Futuro O DigiData representa um passo significativo em direção a agentes móveis de propósito geral. No entanto, vários desafios permanecem. Eficiência: Agentes baseados em modelos de visão grandes podem ser computacionalmente caros para operação em tempo real. Raciocínio de Longo Prazo: Tarefas muito longas e complexas ainda são problemáticas. Compreensão Semântica Profunda: A verdadeira compreensão do conteúdo da tela (ex: sarcasmo em um post de mídia social) vai além do controle de UI. Trabalhos futuros incluirão a exploração de arquiteturas de agentes mais eficientes, a integração de memória de longo prazo e a expansão do DigiData para incluir mais modalidades, como comando de voz. 6. Conclusão Apresentamos o DigiData, um conjunto de dados em larga escala para treinar agentes de controle móvel, e o DigiBench, um benchmark para avaliação rigorosa. Nossos experimentos demonstram que a escala e a diversidade do DigiData permitem avanços significativos na capacidade de generalização dos agentes. Acreditamos que este recurso servirá como uma base crucial para a comunidade de pesquisa acelerar o desenvolvimento de assistentes de IA universais verdadeiramente capazes.
DigiData: Training and Evaluating General-Purpose Mobile Control Agents

Nov 10

ByYuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe

Os agentes de IA capazes de controlar interfaces de utilizador têm o potencial de transformar a interação humana com dispositivos digitais. Para acelerar esta transformação, dois blocos fundamentais são essenciais: conjuntos de dados de alta qualidade que permitam aos agentes alcançar objetivos complexos e relevantes para os humanos, e métodos de avaliação robustos que permitam aos investigadores e profissionais melhorar rapidamente o desempenho dos agentes. Neste artigo, apresentamos o DigiData, um conjunto de dados multimodal, em larga escala, de alta qualidade e diversificado, concebido para treinar agentes de controlo móvel. Ao contrário dos conjuntos de dados existentes, que derivam objetivos de interações não estruturadas, o DigiData é meticulosamente construído através de uma exploração abrangente das funcionalidades das aplicações, resultando numa maior diversidade e numa maior complexidade dos objetivos. Adicionalmente, apresentamos o DigiData-Bench, um *benchmark* para avaliar agentes de controlo móvel em tarefas complexas do mundo real. Demonstramos que a métrica de precisão por passo, comummente utilizada, é insuficiente para avaliar de forma fiável os agentes de controlo móvel e, para resolver esta questão, propomos protocolos de avaliação dinâmica e avaliações baseadas em IA como alternativas rigorosas para a avaliação de agentes. As nossas contribuições visam avançar significativamente o desenvolvimento de agentes de controlo móvel, abrindo caminho para interações homem-dispositivo mais intuitivas e eficazes.

10 Desafios Abertos que Direcionam o Futuro dos Modelos Visão-Linguagem-Ação
10 Open Challenges Steering the Future of Vision-Language-Action Models

Nov 8

BySoujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu

Devido à sua capacidade de seguir instruções em linguagem natural, os modelos visão-linguagem-ação (VLA) são cada vez mais prevalentes no cenário de IA incorporada, seguindo o sucesso generalizado de seus precursores — LLMs e VLMs. Neste artigo, discutimos 10 marcos principais no desenvolvimento contínuo dos modelos VLA: multimodalidade, raciocínio, dados, avaliação, generalização de ações entre robôs, eficiência, coordenação corporal total, segurança, agentes e coordenação com humanos. Além disso, discutimos as tendências emergentes de uso de compreensão espacial, modelagem da dinâmica do mundo, pós-treinamento e síntese de dados — todas com o objetivo de alcançar esses marcos. Por meio dessas discussões, esperamos direcionar a atenção para as vias de pesquisa que podem acelerar o desenvolvimento dos modelos VLA rumo a uma aceitação mais ampla.

Ariadne: Uma Estrutura Controlável para Investigar e Expandir os Limites do Raciocínio de VLM
Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

Nov 1

ByMinghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu

Embora os Modelos de Visão e Linguagem (VLMs) pós-treinados com Aprendizado por Reforço (RL) demonstrem raciocínio geral impressionante, sua avaliação frequentemente se restringe a tarefas dominadas pela linguagem (por exemplo, matemática). Isso levanta uma questão crítica: o pós-treinamento com RL pode realmente estender a fronteira de capacidade inerente de um VLM base, particularmente para tarefas espaciais centradas na visão onde ele inicialmente falha? Para investigar isso, apresentamos Ariadne, um framework que utiliza labirintos sintéticos para raciocínio espacial multi-etapas, onde a dificuldade da tarefa (por exemplo, comprimento do caminho, curvas) é controlada com precisão. Aproveitamos este ambiente controlável para treinar VLMs usando Aprendizado por Reforço com Recompensas Verificadas (RLVR) em um currículo consciente da dificuldade. Surpreendentemente, após o treinamento RLVR, o VLM atinge mais de 50% de precisão em um conjunto de problemas onde o modelo base obteve 0%, demonstrando que nossa abordagem expande a fronteira de capacidade inicial do modelo. Para avaliar a viabilidade no mundo real, avaliamos a generalização fora da distribuição (OOD) em benchmarks práticos. Apesar de treinado apenas em amostras sintéticas de labirinto, Ariadne alcança melhorias significativas de *zero-shot*, com média de 16% no MapBench (por exemplo, navegação em museus) e 24% no ReasonMap (tarefas de transferência de metrô). Esses resultados confirmam que nosso método não apenas amplia os limites fundamentais do modelo, mas também melhora sua generalização para o raciocínio espacial do mundo real. Reconhecemos que nosso estudo é limitado à fase de pós-treinamento, dada a opacidade dos dados de pré-treinamento, e esperamos que nossa pesquisa motive trabalhos futuros sobre alinhamento especializado e extensor de capacidades.

DIMO: Geração Diversificada de Movimentos 3D para Objetos Arbitrários
DIMO: Diverse 3D Motion Generation for Arbitrary Objects

Nov 10

ByLinzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis

Apresentamos o DIMO, uma abordagem generativa capaz de gerar movimentos 3D diversos para objetos arbitrários a partir de uma única imagem. A ideia central do nosso trabalho é aproveitar os *priors* ricos em modelos de vídeo bem treinados para extrair os padrões comuns de movimento e, em seguida, incorporá-los num espaço latente compartilhado de baixa dimensão. Especificamente, geramos primeiro vários vídeos do mesmo objeto com movimentos diversos. Depois, incorporamos cada movimento num vetor latente e treinamos um decodificador de movimento compartilhado para aprender a distribuição de movimentos representada por uma representação de movimento estruturada e compacta, ou seja, trajetórias de pontos-chave neurais. Os Gaussianos 3D canónicos são então conduzidos por estes pontos-chave e fundidos para modelar a geometria e a aparência. Durante o tempo de inferência com o espaço latente aprendido, podemos amostrar instantaneamente diversos movimentos 3D numa única passagem direta e suportar várias aplicações interessantes, incluindo interpolação de movimento 3D e geração de movimento guiada por linguagem. A nossa página do projeto está disponível em https://linzhanm.github.io/dimo.

SWE-fficiency: Os Modelos de Linguagem Podem Otimizar Repositórios do Mundo Real em Cargas de Trabalho Reais?
SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

Nov 8

ByJeffrey Jian Ma, Milad Hashemi, Amir Yazdanbakhsh, Kevin Swersky, Ofir Press, Enhui Li, Vijay Janapa Reddi, Parthasarathy Ranganathan

A otimização do desempenho de repositórios de software em larga escala exige conhecimentos especializados em raciocínio sobre código e engenharia de software (SWE) para reduzir o tempo de execução, preservando a correção do programa. No entanto, a maioria dos *benchmarks* enfatiza o *o que* corrigir em vez de *como* corrigir o código. Apresentamos o SWE-fficiency, um *benchmark* para avaliar a otimização de desempenho em nível de repositório em cargas de trabalho reais. Nossa suíte contém 498 tarefas em nove repositórios amplamente utilizados de ciência de dados, aprendizado de máquina e HPC (por exemplo, numpy, pandas, scipy): dado uma base de código completa e uma carga de trabalho lenta, um agente deve investigar a semântica do código, localizar gargalos e testes relevantes, e produzir um *patch* que iguale ou supere a aceleração obtida por um especialista, passando nos mesmos testes unitários. Para permitir esta avaliação de *como corrigir*, nosso *pipeline* automatizado extrai *pull requests* do GitHub que contenham edições de melhoria de desempenho, combinando filtragem por palavras-chave, análise estática, ferramentas de cobertura e validação de execução para confirmar as linhas de base de aceleração dos especialistas e identificar os testes unitários relevantes do repositório. A avaliação empírica de agentes state-of-the-art revela um desempenho significativamente abaixo do esperado. Em média, os agentes alcançam menos de 0,15x da aceleração obtida pelo especialista: os agentes têm dificuldade em localizar oportunidades de otimização, raciocinar sobre a execução através de funções e manter a correção nas edições propostas. Disponibilizamos o *benchmark* e o *pipeline* de dados associado para facilitar a pesquisa em engenharia de desempenho automatizada e raciocínio de software de longo horizonte.

Os LLMs Sentem? Ensino de Reconhecimento de Emoções com Prompts, Recuperação e Aprendizagem por Currículo
Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning

Nov 10

ByXinran Li, Xiujuan Xu, Jiaqi Qiao, Yu Liu

A Reconhecimento de Emoções em Conversas (ERC) é uma tarefa crucial para a compreensão das emoções humanas e para permitir uma interação homem-computador natural. Embora os Grandes Modelos de Linguagem (LLMs) tenham demonstrado recentemente grande potencial nesta área, a sua capacidade de capturar as conexões intrínsecas entre emoções explícitas e implícitas permanece limitada. Propomos um novo framework de treino para ERC, o PRC-Emo, que integra *Prompt engineering*, Recuperação de demonstrações e Aprendizagem por currículo, com o objetivo de explorar se os LLMs podem perceber eficazmente as emoções em contextos conversacionais. Especificamente, concebemos modelos de *prompt* sensíveis à emoção, baseados em pistas emocionais explícitas e implícitas, para melhor orientar o modelo na compreensão dos estados psicológicos do interlocutor. Construímos o primeiro repositório dedicado de recuperação de demonstrações para ERC, que inclui amostras de treino de conjuntos de dados amplamente utilizados, bem como exemplos de diálogo de alta qualidade gerados por LLMs e verificados manualmente. Além disso, introduzimos uma estratégia de aprendizagem por currículo no processo de afinação LoRA, incorporando transições emocionais ponderadas entre enunciados do mesmo interlocutor e de interlocutores diferentes para atribuir níveis de dificuldade às amostras de diálogo, que são depois organizadas numa sequência de treino do fácil para o difícil. Os resultados experimentais em dois conjuntos de dados de referência – IEMOCAP e MELD – mostram que o nosso método atinge um novo desempenho state-of-the-art (SOTA), demonstrando a eficácia e a generalizabilidade da nossa abordagem na melhoria da compreensão emocional baseada em LLM.

Omni-AVSR: Rumo a um Sistema Unificado de Reconhecimento de Fala Multimodal com Grandes Modelos de Linguagem
Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

Nov 10

ByUmberto Cappellazzo, Xubo Liu, Pingchuan Ma, Stavros Petridis, Maja Pantic

Os grandes modelos de linguagem (LLMs) alcançaram recentemente resultados impressionantes no reconhecimento de fala em múltiplas modalidades, incluindo o Reconhecimento de Fala Auditivo (ASR), o Reconhecimento de Fala Visual (VSR) e o Reconhecimento de Fala Áudio-Visual (AVSR). Apesar deste progresso, as abordagens atuais baseadas em LLM normalmente tratam cada tarefa de forma independente, treinando modelos separados que aumentam o uso de recursos computacionais e de implantação, perdendo potenciais sinergias entre tarefas. Elas também dependem de compressão de tokens com taxa fixa, o que restringe a flexibilidade no equilíbrio entre precisão e eficiência. Estas limitações destacam a necessidade de uma estrutura unificada que possa suportar ASR, VSR e AVSR, permitindo simultaneamente inferência elástica. Para este fim, apresentamos o Omni-AVSR, um LLM áudio-visual unificado que combina treinamento eficiente multi-granular com adaptação com eficiência de parâmetros. Especificamente, adaptamos o paradigma de aprendizagem de representação *matryoshka* para treinar eficientemente em múltiplas granularidades de áudio e vídeo, reduzindo o uso inerente de recursos de treinamento. Além disso, exploramos três estratégias baseadas em LoRA para adaptar o LLM base, equilibrando especialização partilhada e específica por tarefa. Experiências nos conjuntos LRS2 e LRS3 mostram que o Omni-AVSR alcança uma precisão comparável ou superior às *baselines* state-of-the-art, enquanto treina um único modelo com um uso de recursos de treinamento e implantação substancialmente menor. O modelo também mantém robustez sob ruído acústico, e analisamos o seu comportamento de escalabilidade à medida que o tamanho do LLM aumenta, fornecendo insights sobre o compromisso (*trade-off*) entre desempenho e eficiência.