Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

Mind2Web 2: Avaliação da Busca Agente com Agente-como-Juiz
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Jun 26, 2025

Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

481

A busca agentiva, como os sistemas de Deep Research, onde grandes modelos de linguagem navegam autonomamente na web, sintetizam informações e retornam respostas abrangentes e respaldadas por citações, representa uma grande mudança na forma como os usuários interagem com informações em escala web. Embora prometam maior eficiência e descarga cognitiva, a crescente complexidade e abertura da busca agentiva superaram os benchmarks e metodologias de avaliação existentes, que em grande parte assumem horizontes de busca curtos e respostas estáticas. Neste artigo, apresentamos o Mind2Web 2, um benchmark de 130 tarefas realistas, de alta qualidade e de longo horizonte que exigem navegação web em tempo real e extensa síntese de informações, construído com mais de 1.000 horas de trabalho humano. Para enfrentar o desafio de avaliar respostas complexas e variáveis no tempo, propomos uma nova estrutura de Agente-como-Juiz. Nosso método constrói agentes juízes específicos para cada tarefa com base em um design de rubrica estruturada em árvore para avaliar automaticamente tanto a correção da resposta quanto a atribuição de fontes. Realizamos uma avaliação abrangente de nove sistemas de busca agentiva de ponta e do desempenho humano, juntamente com uma análise detalhada de erros para extrair insights para o desenvolvimento futuro. O sistema de melhor desempenho, OpenAI Deep Research, já consegue atingir 50-70% do desempenho humano enquanto gasta metade do tempo, mostrando um grande potencial. No geral, o Mind2Web 2 fornece uma base rigorosa para o desenvolvimento e benchmarking da próxima geração de sistemas de busca agentiva.

FaSTA^: Agente de Trajetória Rápida-Lenta com Mineração de Sub-rotinas para Edição Eficiente de Imagens em Múltiplas Etapas
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

Jun 26, 2025

Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou

402

Desenvolvemos um agente neurosimbólico de baixo custo para lidar com tarefas desafiadoras de edição de imagens em múltiplas etapas, como "Detectar o banco na imagem enquanto o recolore para rosa. Além disso, remover o gato para uma visão mais clara e recolorir a parede para amarelo." Ele combina o planejamento rápido e de alto nível de subtarefas por modelos de linguagem de grande escala (LLMs) com o uso lento, preciso, de ferramentas e busca local A^* por subtarefa para encontrar um caminho de ferramentas de baixo custo — uma sequência de chamadas para ferramentas de IA. Para economizar o custo da busca A^* em subtarefas semelhantes, realizamos raciocínio indutivo sobre caminhos de ferramentas previamente bem-sucedidos por meio de LLMs para extrair/refinar continuamente sub-rotinas frequentemente usadas e reutilizá-las como novas ferramentas para tarefas futuras em um planejamento rápido-lento adaptativo, onde as sub-rotinas de nível superior são exploradas primeiro, e apenas quando falham, a busca A^* de baixo nível é ativada. As sub-rotinas simbólicas reutilizáveis economizam consideravelmente o custo de exploração nos mesmos tipos de subtarefas aplicadas a imagens semelhantes, resultando em um agente de caminho de ferramentas rápido-lento semelhante ao humano, chamado "FaSTA^*": o planejamento rápido de subtarefas seguido pela seleção de sub-rotinas baseadas em regras por subtarefa é tentado primeiro pelos LLMs, o que deve cobrir a maioria das tarefas, enquanto a busca lenta A^* é acionada apenas para subtarefas novas e desafiadoras. Ao comparar com abordagens recentes de edição de imagens, demonstramos que o FaSTA^* é significativamente mais eficiente computacionalmente, mantendo-se competitivo com a linha de base state-of-the-art em termos de taxa de sucesso.

WorldVLA: Rumo a um Modelo de Mundo de Ações Autoregressivo
WorldVLA: Towards Autoregressive Action World Model

Jun 26, 2025

Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

393

Apresentamos o WorldVLA, um modelo de mundo de ação autorregressivo que unifica a compreensão e geração de ações e imagens. Nosso WorldVLA integra o modelo Visão-Linguagem-Ação (VLA) e o modelo de mundo em um único framework. O modelo de mundo prevê imagens futuras ao aproveitar tanto a compreensão de ações quanto de imagens, com o objetivo de aprender a física subjacente do ambiente para melhorar a geração de ações. Enquanto isso, o modelo de ação gera as ações subsequentes com base em observações de imagens, auxiliando na compreensão visual e, por sua vez, ajudando na geração visual do modelo de mundo. Demonstramos que o WorldVLA supera modelos de ação e de mundo independentes, destacando o aprimoramento mútuo entre o modelo de mundo e o modelo de ação. Além disso, observamos que o desempenho do modelo de ação se deteriora ao gerar sequências de ações de maneira autorregressiva. Esse fenômeno pode ser atribuído à capacidade limitada de generalização do modelo para previsão de ações, levando à propagação de erros das ações anteriores para as subsequentes. Para resolver esse problema, propomos uma estratégia de máscara de atenção que seletivamente mascara ações anteriores durante a geração da ação atual, o que mostra uma melhoria significativa no desempenho na tarefa de geração de blocos de ações.

MADrive: Modelagem de Cenários de Condução Aumentada por Memória
MADrive: Memory-Augmented Driving Scene Modeling

Jun 26, 2025

Polina Karpikova, Daniil Selikhanovych, Kirill Struminsky, Ruslan Musaev, Maria Golitsyna, Dmitry Baranchuk

361

Os avanços recentes na reconstrução de cenas têm impulsionado a modelagem altamente realista de ambientes de condução autônoma (AD) usando o splatting de Gaussianas 3D. No entanto, as reconstruções resultantes permanecem fortemente vinculadas às observações originais e têm dificuldade em suportar a síntese fotorrealista de cenários de condução significativamente alterados ou novos. Este trabalho apresenta o MADrive, uma estrutura de reconstrução aumentada por memória projetada para estender as capacidades dos métodos existentes de reconstrução de cenas, substituindo veículos observados por ativos 3D visualmente semelhantes recuperados de um banco de memória externo em grande escala. Especificamente, lançamos o MAD-Cars, um conjunto de dados curado de ~70K vídeos de carros em 360° capturados em ambientes reais, e apresentamos um módulo de recuperação que encontra as instâncias de carros mais semelhantes no banco de memória, reconstrói os ativos 3D correspondentes a partir do vídeo e os integra na cena alvo por meio de alinhamento de orientação e reiluminação. As substituições resultantes fornecem representações completas de veículos na cena em múltiplas visões, permitindo a síntese fotorrealista de configurações substancialmente alteradas, conforme demonstrado em nossos experimentos. Página do projeto: https://yandex-research.github.io/madrive/

Onde encontrar o Grokking no Pré-treinamento de LLM? Monitorando a Transição de Memorização para Generalização sem Testes
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Jun 26, 2025

Ziyue Li, Chenrui Fan, Tianyi Zhou

282

Grokking, ou seja, o desempenho em testes continua melhorando muito tempo após a convergência da perda de treinamento, foi recentemente observado no treinamento de redes neurais, tornando o mecanismo de generalização e outras capacidades emergentes, como o raciocínio, misteriosos. Enquanto estudos anteriores geralmente treinam modelos pequenos em algumas tarefas específicas ou de brinquedo por milhares de épocas, realizamos o primeiro estudo de grokking em checkpoints durante o pré-treinamento de uma única passagem de um modelo de linguagem grande (LLM) de 7B, ou seja, o OLMoE. Calculamos a perda de treinamento e avaliamos a generalização em diversas tarefas de benchmark, incluindo raciocínio matemático, geração de código e tarefas de recuperação de conhecimento de senso comum/específico de domínio. Nosso estudo, pela primeira vez, verifica que o grokking ainda ocorre no pré-treinamento de modelos de base em grande escala, embora diferentes dados possam entrar em estágios de grokking de forma assíncrona. Além disso, desmistificamos a "emergência da generalização" do grokking investigando a dinâmica interna do LLM. Especificamente, descobrimos que os caminhos das amostras de treinamento (ou seja, as escolhas de especialistas entre as camadas) evoluem de aleatórios e específicos para a instância para mais estruturados e compartilháveis entre as amostras durante o grokking. Além disso, a complexidade do caminho de uma amostra diminui apesar da perda convergida. Isso indica uma conversão de memorização para generalização, fornecendo uma explicação mecanicista da generalização tardia. No estudo, desenvolvemos duas novas métricas para quantificar a distância do caminho e a complexidade de um único caminho. Mostramos sua capacidade de prever a melhoria da generalização em diversas tarefas downstream. Elas são eficientes, simples de calcular e dependem exclusivamente dos dados de treinamento. Portanto, têm valor prático para o pré-treinamento, permitindo-nos monitorar o desempenho de generalização sem ajuste fino e teste. Teoricamente, mostramos que caminhos mais estruturados reduzem a complexidade do modelo e melhoram o limite de generalização.

Aprendendo a Pular as Camadas Intermediárias dos Transformers
Learning to Skip the Middle Layers of Transformers

Jun 26, 2025

Tim Lawson, Laurence Aitchison

163

A computação condicional é uma estratégia popular para tornar os Transformers mais eficientes. Os métodos existentes geralmente visam módulos individuais (por exemplo, camadas de mistura de especialistas) ou pulam camadas de forma independente. No entanto, pesquisas em interpretabilidade demonstraram que as camadas intermediárias dos Transformers exibem maior redundância e que as camadas iniciais agregam informações em posições de tokens. Guiados por essas percepções, propomos uma nova arquitetura que dinamicamente pula um número variável de camadas a partir do meio para fora. Em particular, um mecanismo de portão aprendido determina se deve ignorar um intervalo simétrico de blocos centrais com base na entrada, e um mecanismo de atenção com portão impede que tokens subsequentes atendam a posições de tokens puladas. As normas residuais são controladas com um esquema de 'sanduíche' ou 'perilayernorm', e a esparsidade do portão é regulada por uma perda de regularização adaptativa. Nosso objetivo era reduzir os requisitos de computação para tokens 'mais simples' e potencialmente promover uma hierarquia representacional emergente em múltiplos níveis, mas, nas escalas investigadas, nossa abordagem não alcança melhorias na relação entre entropia cruzada de validação e FLOPs estimados em comparação com baselines densas com menos camadas. Disponibilizamos nosso código em https://github.com/tim-lawson/skip-middle.

SAM4D: Segmentar Qualquer Coisa em Fluxos de Câmera e LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

Jun 26, 2025

Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li

151

Apresentamos o SAM4D, um modelo de base multimodal e temporal projetado para segmentação acionável por prompts em fluxos de câmera e LiDAR. Introduzimos o Codificação de Posição Multimodal Unificada (UMPE) para alinhar características de câmera e LiDAR em um espaço 3D compartilhado, permitindo interação e acionamento cruzado de modalidades de forma contínua. Além disso, propomos a Atenção de Memória Cruzada com Consciência de Movimento (MCMA), que aproveita a compensação de ego-movimento para aprimorar a consistência temporal e a recuperação de características de longo horizonte, garantindo segmentação robusta em cenas de direção autônoma dinamicamente alteradas. Para evitar gargalos de anotação, desenvolvemos um mecanismo de dados automatizado multimodal que sinergiza máscaras de vídeo orientadas por VFM, reconstrução espaço-temporal 4D e fusão de máscaras cruzadas. Essa estrutura gera pseudo-labels alinhadas entre câmera e LiDAR a uma velocidade ordens de magnitude maior do que a anotação humana, preservando a fidelidade semântica derivada de VFM em representações de nuvem de pontos. Realizamos extensos experimentos no conjunto Waymo-4DSeg construído, que demonstram a poderosa capacidade de segmentação cruzada e o grande potencial em anotação de dados do SAM4D proposto.

Previsão de Vídeo Egocêntrico Condicionada ao Corpo Inteiro
Whole-Body Conditioned Egocentric Video Prediction

Jun 26, 2025

Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik

111

Nós treinamos modelos para Prever Vídeo Egocêntrico a partir de Ações Humanas (PEVA), considerando o vídeo passado e uma ação representada pela pose corporal 3D relativa. Ao condicionar as trajetórias de pose cinemática, estruturadas pela hierarquia de articulações do corpo, nosso modelo aprende a simular como as ações físicas humanas moldam o ambiente a partir de um ponto de vista em primeira pessoa. Treinamos um transformador de difusão condicional autorregressivo no Nymeria, um conjunto de dados em larga escala de vídeo egocêntrico e captura de pose corporal do mundo real. Além disso, projetamos um protocolo de avaliação hierárquico com tarefas progressivamente mais desafiadoras, permitindo uma análise abrangente das habilidades de previsão e controle incorporadas do modelo. Nosso trabalho representa uma tentativa inicial de abordar os desafios de modelar ambientes complexos do mundo real e comportamentos de agentes incorporados com previsão de vídeo a partir da perspectiva de um ser humano.

PhysRig: Estrutura Diferenciável de Skinning e Rigging Baseada em Física para Modelagem Realista de Objetos Articulados
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Jun 26, 2025

Hao Zhang, Haolan Xu, Chun Feng, Varun Jampani, Narendra Ahuja

112

Skinning e rigging são componentes fundamentais em animação, reconstrução de objetos articulados, transferência de movimento e geração 4D. As abordagens existentes dependem predominantemente do Linear Blend Skinning (LBS), devido à sua simplicidade e diferenciabilidade. No entanto, o LBS introduz artefatos como perda de volume e deformações não naturais, e falha em modelar materiais elásticos como tecidos moles, pelos e apêndices flexíveis (por exemplo, trombas de elefante, orelhas e tecidos adiposos). Neste trabalho, propomos o PhysRig: um framework diferenciável de skinning e rigging baseado em física que supera essas limitações ao incorporar o esqueleto rígido em uma representação volumétrica (por exemplo, uma malha tetraédrica), que é simulada como uma estrutura de corpo mole deformável impulsionada pelo esqueleto animado. Nosso método aproveita a mecânica contínua e discretiza o objeto como partículas incorporadas em uma grade de fundo Euleriana para garantir a diferenciabilidade em relação tanto às propriedades do material quanto ao movimento esquelético. Além disso, introduzimos protótipos de materiais, reduzindo significativamente o espaço de aprendizado enquanto mantemos alta expressividade. Para avaliar nosso framework, construímos um conjunto de dados sintético abrangente usando malhas do Objaverse, The Amazing Animals Zoo e MixaMo, cobrindo diversas categorias de objetos e padrões de movimento. Nosso método supera consistentemente as abordagens tradicionais baseadas em LBS, gerando resultados mais realistas e fisicamente plausíveis. Além disso, demonstramos a aplicabilidade do nosso framework na tarefa de transferência de pose, destacando sua versatilidade para a modelagem de objetos articulados.

Arch-Router: Alinhando o Roteamento de LLMs com as Preferências Humanas
Arch-Router: Aligning LLM Routing with Human Preferences

Jun 19, 2025

Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen

102

Com a rápida proliferação de grandes modelos de linguagem (LLMs) -- cada um otimizado para diferentes pontos fortes, estilos ou perfis de latência/custo -- o roteamento tornou-se uma técnica essencial para operacionalizar o uso de diferentes modelos. No entanto, as abordagens existentes de roteamento de LLMs são limitadas de duas maneiras principais: elas avaliam o desempenho usando benchmarks que frequentemente falham em capturar as preferências humanas guiadas por critérios de avaliação subjetivos, e elas normalmente selecionam a partir de um conjunto limitado de modelos. Neste trabalho, propomos uma estrutura de roteamento alinhada a preferências que orienta a seleção de modelos ao associar consultas a domínios definidos pelo usuário (por exemplo, viagens) ou tipos de ação (por exemplo, edição de imagens) -- oferecendo um mecanismo prático para codificar preferências em decisões de roteamento. Especificamente, introduzimos o Arch-Router, um modelo compacto de 1,5B que aprende a mapear consultas para preferências de domínio-ação para decisões de roteamento de modelos. Nossa abordagem também suporta a adição contínua de novos modelos para roteamento sem a necessidade de retreinamento ou modificações arquitetônicas. Experimentos em conjuntos de dados conversacionais demonstram que nossa abordagem alcança resultados de última geração (SOTA) na correspondência de consultas com preferências humanas, superando os principais modelos proprietários. Nossa abordagem captura critérios de avaliação subjetivos e torna as decisões de roteamento mais transparentes e flexíveis. Nosso modelo está disponível em: https://huggingface.co/katanemo/Arch-Router-1.5B.

FairyGen: Vídeo de Desenho Animado com Narrativa a partir de um Único Personagem Desenhado por Criança
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Jun 26, 2025

Jiayi Zheng, Xiaodong Cun

Propomos o FairyGen, um sistema automático para gerar vídeos de desenhos animados orientados por histórias a partir de um único desenho infantil, preservando fielmente seu estilo artístico único. Diferente de métodos anteriores de narrativa que focam principalmente na consistência de personagens e movimentos básicos, o FairyGen explicitamente separa a modelagem de personagens da geração de cenários estilizados e incorpora o design de cenas cinematográficas para apoiar uma narrativa expressiva e coerente. Dado um único esboço de personagem, empregamos primeiro um MLLM para gerar um storyboard estruturado com descrições em nível de cena que especificam configurações de ambiente, ações do personagem e perspectivas da câmera. Para garantir consistência visual, introduzimos um adaptador de propagação de estilo que captura o estilo visual do personagem e o aplica ao fundo, mantendo fielmente a identidade visual completa do personagem enquanto sintetiza cenas consistentes em estilo. Um módulo de design de cena aprimora ainda mais a diversidade visual e a qualidade cinematográfica através de recortes de quadro e síntese de múltiplas perspectivas baseada no storyboard. Para animar a história, reconstruímos um proxy 3D do personagem para derivar sequências de movimento fisicamente plausíveis, que são então usadas para ajustar um modelo de difusão de imagem para vídeo baseado em MMDiT. Propomos ainda um adaptador de personalização de movimento em dois estágios: o primeiro estágio aprende características de aparência a partir de quadros temporalmente desordenados, separando identidade de movimento; o segundo estágio modela a dinâmica temporal usando uma estratégia de deslocamento de timestep com pesos de identidade congelados. Uma vez treinado, o FairyGen renderiza diretamente cenas de vídeo diversas e coerentes alinhadas com o storyboard. Experimentos extensivos demonstram que nosso sistema produz animações que são estilisticamente fiéis, com movimento natural estruturado narrativamente, destacando seu potencial para animação de histórias personalizadas e envolventes. O código estará disponível em https://github.com/GVCLab/FairyGen.

Um Sistema Agente para Diagnóstico de Doenças Raras com Raciocínio Rastreável
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Jun 25, 2025

Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie

As doenças raras afetam coletivamente mais de 300 milhões de indivíduos em todo o mundo, mas o diagnóstico oportuno e preciso continua sendo um desafio persistente. Isso se deve em grande parte à sua heterogeneidade clínica, à baixa prevalência individual e ao conhecimento limitado que a maioria dos clínicos tem sobre essas condições. Aqui, apresentamos o DeepRare, o primeiro sistema agente de diagnóstico de doenças raras impulsionado por um modelo de linguagem de grande escala (LLM), capaz de processar entradas clínicas heterogêneas. O sistema gera hipóteses diagnósticas classificadas para doenças raras, cada uma acompanhada por uma cadeia de raciocínio transparente que vincula etapas analíticas intermediárias a evidências médicas verificáveis. O DeepRare é composto por três componentes principais: um host central com um módulo de memória de longo prazo; servidores de agentes especializados responsáveis por tarefas analíticas específicas de domínio, integrando mais de 40 ferramentas especializadas e fontes de conhecimento médico em escala da web e atualizadas, garantindo acesso às informações clínicas mais recentes. Esse design modular e escalável permite raciocínio diagnóstico complexo, mantendo rastreabilidade e adaptabilidade. Avaliamos o DeepRare em oito conjuntos de dados. O sistema demonstra desempenho diagnóstico excepcional entre 2.919 doenças, alcançando 100% de precisão para 1.013 doenças. Em avaliações baseadas em HPO, o DeepRare supera significativamente outros 15 métodos, como ferramentas de diagnóstico bioinformático tradicionais, LLMs e outros sistemas agentes, alcançando uma pontuação média Recall@1 de 57,18% e superando o segundo melhor método (Reasoning LLM) por uma margem substancial de 23,79 pontos percentuais. Para cenários de entrada multimodal, o DeepRare alcança 70,60% no Recall@1 em comparação com 53,20% do Exomiser em 109 casos. A verificação manual das cadeias de raciocínio por especialistas clínicos alcança 95,40% de concordância. Além disso, o sistema DeepRare foi implementado como um aplicativo web amigável em http://raredx.cn/doctor.

Mundo de Blocos Generativo: Movendo Coisas ao Redor em Imagens
Generative Blocks World: Moving Things Around in Pictures

Jun 25, 2025

Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad

Descrevemos o Generative Blocks World para interagir com a cena de uma imagem gerada manipulando abstrações geométricas simples. Nosso método representa cenas como montagens de primitivos 3D convexos, e a mesma cena pode ser representada por diferentes números de primitivos, permitindo que um editor mova estruturas inteiras ou pequenos detalhes. Uma vez que a geometria da cena é editada, a imagem é gerada por um método baseado em fluxo que é condicionado à profundidade e a uma dica de textura. Nossa dica de textura leva em consideração os primitivos 3D modificados, superando a consistência de textura fornecida por técnicas existentes de cache de chave-valor. Essas dicas de textura (a) permitem movimentos precisos de objetos e da câmera e (b) preservam amplamente a identidade dos objetos retratados. Experimentos quantitativos e qualitativos demonstram que nossa abordagem supera trabalhos anteriores em fidelidade visual, editabilidade e generalização composicional.

DiLoCoX: Um Framework de Treinamento em Grande Escala com Baixa Comunicação para Clusters Descentralizados
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

Jun 26, 2025

Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

O treinamento distribuído de modelos de base, particularmente grandes modelos de linguagem (LLMs), exige um alto nível de comunicação. Consequentemente, ele é altamente dependente de um cluster centralizado com interconexões rápidas e confiáveis. Podemos realizar o treinamento em redes lentas e, assim, liberar o poder de clusters descentralizados ao lidar com modelos que excedem 100 bilhões de parâmetros? Neste artigo, propomos o DiLoCoX, uma estrutura de treinamento descentralizada em larga escala com baixa comunicação. Ele combina Paralelismo de Pipeline com Política de Duplo Otimizador, Sobreposição de Comunicação e Treinamento Local com Atraso de Um Passo, e um Esquema de Compressão Adaptativa de Gradientes. Essa combinação melhora significativamente a escala de parâmetros e a velocidade de pré-treinamento do modelo. Justificamos os benefícios da sobreposição de comunicação e treinamento local com atraso de um passo, bem como do esquema de compressão adaptativa de gradientes, por meio de uma análise teórica de convergência. Empiricamente, demonstramos que o DiLoCoX é capaz de pré-treinar um modelo de base de 107B em uma rede de 1Gbps. Em comparação com o AllReduce convencional, o DiLoCoX pode alcançar uma aceleração de 357x no treinamento distribuído, mantendo uma degradação insignificante na convergência do modelo. Até onde sabemos, esta é a primeira estrutura de treinamento descentralizada aplicada com sucesso a modelos com mais de 100 bilhões de parâmetros.

MuseControlLite: Geração Musical Multifuncional com Condicionadores Leves
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

Jun 23, 2025

Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang

Propomos o MuseControlLite, um mecanismo leve projetado para ajustar finamente modelos de geração de texto para música, permitindo condicionamento preciso usando diversos atributos musicais variáveis no tempo e sinais de áudio de referência. A descoberta principal é que os embeddings posicionais, raramente utilizados por modelos de geração de texto para música no condicionador para condições de texto, são cruciais quando a condição de interesse é uma função do tempo. Usando o controle de melodia como exemplo, nossos experimentos mostram que simplesmente adicionar embeddings posicionais rotativos às camadas de atenção cruzada desacopladas aumenta a precisão do controle de 56,6% para 61,1%, enquanto requer 6,75 vezes menos parâmetros treináveis do que os mecanismos de ajuste fino state-of-the-art, utilizando o mesmo modelo de Transformer de difusão pré-treinado do Stable Audio Open. Avaliamos várias formas de controle de atributos musicais, preenchimento de áudio e extensão de áudio, demonstrando uma melhoria na controlabilidade em relação ao MusicGen-Large e ao Stable Audio Open ControlNet a um custo de ajuste fino significativamente menor, com apenas 85M parâmetros treináveis. O código-fonte, checkpoints do modelo e exemplos de demonstração estão disponíveis em: https://musecontrollite.github.io/web/.

DuaShepherd: Integrando Correção Passo a Passo e Recompensas Potenciais para Raciocínio Matemático
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

Jun 21, 2025

Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu

Neste artigo, propomos o DuaShepherd, uma nova estrutura de modelagem de recompensa que integra dois sinais de recompensa complementares, correção e potencial, para aprimorar as capacidades de raciocínio matemático de Modelos de Linguagem de Grande Escala (LLMs). Enquanto os sinais baseados em correção enfatizam a identificação de erros passo a passo, os sinais baseados em potencial focam na probabilidade de alcançar a resposta final correta. Desenvolvemos um pipeline automatizado para a construção de um conjunto de dados em larga escala para modelagem de recompensa com ambos os sinais. Uma arquitetura unificada de múltiplas cabeças foi explorada para treinar os dois modelos de recompensa em uma configuração de multitarefa, demonstrando benefícios ao aprender correção e potencial em paralelo. Ao combinar esses dois sinais em uma probabilidade composta, nosso modelo alcança melhorias consistentes de desempenho em vários benchmarks. Avaliações empíricas no MATH500 e no ProcessBench confirmam que essa recompensa combinada supera significativamente os modelos treinados com apenas um tipo de recompensa, alcançando desempenho de ponta sob restrições de recursos comparáveis.

HeurAgenix: Utilizando LLMs para Resolver Desafios Complexos de Otimização Combinatória
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Jun 18, 2025

Xianliang Yang, Ling Zhang, Haolong Qian, Lei Song, Jiang Bian

Algoritmos heurísticos desempenham um papel vital na resolução de problemas de otimização combinatória (CO), mas os projetos tradicionais dependem fortemente de expertise manual e lutam para generalizar em diversas instâncias. Apresentamos o HeurAgenix, um framework de hiper-heurística de dois estágios impulsionado por modelos de linguagem de grande escala (LLMs) que primeiro evolui heurísticas e depois seleciona entre elas automaticamente. Na fase de evolução heurística, o HeurAgenix utiliza um LLM para comparar soluções heurísticas iniciais com soluções de maior qualidade e extrair estratégias de evolução reutilizáveis. Durante a resolução de problemas, ele seleciona dinamicamente a heurística mais promissora para cada estado do problema, guiado pela capacidade de percepção do LLM. Para flexibilidade, esse seletor pode ser um LLM de última geração ou um modelo leve ajustado com menor custo de inferência. Para mitigar a escassez de supervisão confiável causada pela complexidade do CO, ajustamos o seletor heurístico leve com um mecanismo de recompensa dupla que explora conjuntamente sinais de preferências de seleção e percepção de estado, permitindo uma seleção robusta sob anotações ruidosas. Experimentos extensivos em benchmarks canônicos mostram que o HeurAgenix não apenas supera as hiper-heurísticas baseadas em LLM existentes, mas também iguala ou excede solucionadores especializados. O código está disponível em https://github.com/microsoft/HeurAgenix.

Onde encontrar o Grokking no Pré-treinamento de LLM? Monitorando a Transição de Memorização para Generalização sem Testes
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Jun 26, 2025

Ziyue Li, Chenrui Fan, Tianyi Zhou

282

Papers Diários

Mind2Web 2: Avaliação da Busca Agente com Agente-como-Juiz
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Agente de Trajetória Rápida-Lenta com Mineração de Sub-rotinas para Edição Eficiente de Imagens em Múltiplas Etapas
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

WorldVLA: Rumo a um Modelo de Mundo de Ações Autoregressivo
WorldVLA: Towards Autoregressive Action World Model

MADrive: Modelagem de Cenários de Condução Aumentada por Memória
MADrive: Memory-Augmented Driving Scene Modeling

Onde encontrar o Grokking no Pré-treinamento de LLM? Monitorando a Transição de Memorização para Generalização sem Testes
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Aprendendo a Pular as Camadas Intermediárias dos Transformers
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmentar Qualquer Coisa em Fluxos de Câmera e LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

Previsão de Vídeo Egocêntrico Condicionada ao Corpo Inteiro
Whole-Body Conditioned Egocentric Video Prediction

PhysRig: Estrutura Diferenciável de Skinning e Rigging Baseada em Física para Modelagem Realista de Objetos Articulados
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Arch-Router: Alinhando o Roteamento de LLMs com as Preferências Humanas
Arch-Router: Aligning LLM Routing with Human Preferences

FairyGen: Vídeo de Desenho Animado com Narrativa a partir de um Único Personagem Desenhado por Criança
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Um Sistema Agente para Diagnóstico de Doenças Raras com Raciocínio Rastreável
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Mundo de Blocos Generativo: Movendo Coisas ao Redor em Imagens
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Um Framework de Treinamento em Grande Escala com Baixa Comunicação para Clusters Descentralizados
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

MuseControlLite: Geração Musical Multifuncional com Condicionadores Leves
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

DuaShepherd: Integrando Correção Passo a Passo e Recompensas Potenciais para Raciocínio Matemático
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

HeurAgenix: Utilizando LLMs para Resolver Desafios Complexos de Otimização Combinatória
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Support

Support

Papers Diários

Mind2Web 2: Avaliação da Busca Agente com Agente-como-Juiz
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Agente de Trajetória Rápida-Lenta com Mineração de Sub-rotinas para Edição Eficiente de Imagens em Múltiplas Etapas
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

WorldVLA: Rumo a um Modelo de Mundo de Ações Autoregressivo
WorldVLA: Towards Autoregressive Action World Model

MADrive: Modelagem de Cenários de Condução Aumentada por Memória
MADrive: Memory-Augmented Driving Scene Modeling

Onde encontrar o Grokking no Pré-treinamento de LLM? Monitorando a Transição de Memorização para Generalização sem Testes
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Aprendendo a Pular as Camadas Intermediárias dos Transformers
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmentar Qualquer Coisa em Fluxos de Câmera e LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

Previsão de Vídeo Egocêntrico Condicionada ao Corpo Inteiro
Whole-Body Conditioned Egocentric Video Prediction

PhysRig: Estrutura Diferenciável de Skinning e Rigging Baseada em Física para Modelagem Realista de Objetos Articulados
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Arch-Router: Alinhando o Roteamento de LLMs com as Preferências Humanas
Arch-Router: Aligning LLM Routing with Human Preferences

FairyGen: Vídeo de Desenho Animado com Narrativa a partir de um Único Personagem Desenhado por Criança
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Um Sistema Agente para Diagnóstico de Doenças Raras com Raciocínio Rastreável
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Mundo de Blocos Generativo: Movendo Coisas ao Redor em Imagens
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Um Framework de Treinamento em Grande Escala com Baixa Comunicação para Clusters Descentralizados
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

MuseControlLite: Geração Musical Multifuncional com Condicionadores Leves
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

DuaShepherd: Integrando Correção Passo a Passo e Recompensas Potenciais para Raciocínio Matemático
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

HeurAgenix: Utilizando LLMs para Resolver Desafios Complexos de Otimização Combinatória
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges