HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

24 papers found

T-pro 2.0: Um Modelo Russo Híbrido de Raciocínio Eficiente e Ambiente de Testes
T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

Dec 11

ByDmitrii Stoianov, Danil Taranets, Olga Tsymboi, Ramil Latypov, Almaz Dautov, Vladislav Kruglikov, Nikita Surkov, German Abramov, Pavel Gein, Dmitry Abulkhanov, Mikhail Gashkov, Viktor Zelenkovskiy, Artem Batalov, Aleksandr Medvedev, Anatolii Potapov

Apresentamos o T-pro 2.0, um LLM russo de pesos abertos para raciocínio híbrido e inferência eficiente. O modelo suporta resposta direta e geração de traços de raciocínio, utilizando um tokenizador denso em cirílico e um *pipeline* adaptado de decodificação especulativa EAGLE para reduzir a latência. Para possibilitar pesquisas reproduzíveis e extensíveis, disponibilizamos publicamente os pesos do modelo, o corpus de instruções T-Wix 500k, o benchmark de raciocínio T-Math e os pesos do EAGLE no Hugging Face. Esses recursos permitem aos usuários estudar o raciocínio em língua russa e estender ou adaptar tanto o modelo quanto o *pipeline* de inferência. Uma demonstração web pública expõe os modos de raciocínio e não raciocínio e ilustra os ganhos de velocidade alcançados pela nossa *stack* de inferência em diversos domínios. O T-pro 2.0 serve, portanto, como um sistema aberto e acessível para construir e avaliar aplicações práticas e eficientes de LLMs russos.

Agente de Raciocínio de Longo Horizonte para Resolução de Problemas Matemáticos de Nível Olímpico
Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Dec 11

BySongyang Gao, Yuzhe Gu, Zijian Wu, Lingkai Kong, Wenwei Zhang, Zhongrui Cai, Fan Zheng, Tianyou Ma, Junhao Shen, Haiteng Zhao, Duanyang Zhang, Huilun Zhang, Kuikun Liu, Chengqi Lyu, Yanhui Duan, Chiyu Chen, Ningsheng Ma, Jianfei Gao, Han Lyu, Dahua Lin, Kai Chen

Os grandes modelos de linguagem (LLMs) alcançaram progressos significativos na resolução de tarefas complexas de raciocínio através do Reforço de Aprendizagem com Recompensas Verificáveis (RLVR). Este avanço também é inseparável da supervisão automatizada por verificadores confiáveis. No entanto, os verificadores baseados em resultados (OVs) atuais são incapazes de inspecionar as etapas intermediárias não confiáveis nas longas cadeias de raciocínio (CoTs). Entretanto, os verificadores baseados em processo (PVs) atuais têm dificuldades em detectar erros de forma confiável nas longas e complexas CoTs, limitados pela escassez de anotações de alta qualidade devido aos custos proibitivos das anotações humanas. Portanto, propomos o Verificador de Processo Baseado em Resultado (OPV), que verifica o processo racional dos resultados resumidos a partir de longas CoTs para alcançar uma verificação precisa e eficiente e permitir anotações em larga escala. Para capacitar o verificador proposto, adotamos uma estrutura iterativa de aprendizagem ativa com anotações de especialistas para melhorar progressivamente a capacidade de verificação do OPV com menores custos de anotação. Especificamente, em cada iteração, os casos mais incertos do melhor OPV atual são anotados e subsequentemente usados para treinar um novo OPV através da Ajuste Fino por Rejeição (RFT) e RLVR para a próxima rodada. Experimentos extensivos demonstram o desempenho superior e a ampla aplicabilidade do OPV. Ele alcança novos resultados de estado da arte em nosso \thisbench mantido, superando modelos de código aberto muito maiores, como o Qwen3-Max-Preview, com um score F1 de 83,1 em comparação com 76,3. Além disso, o OPV detecta efetivamente falsos positivos dentro do conjunto de dados sintéticos, alinhando-se de perto com a avaliação de especialistas. Ao colaborar com modelos de política, o OPV gera consistentemente ganhos de desempenho, por exemplo, elevando a precisão do DeepSeek-R1-Distill-Qwen-32B de 55,2% para 73,3% na AIME2025 à medida que o orçamento computacional escala.

Estamos Prontos para o RL na Geração de Texto-para-3D? Uma Investigação Progressiva
Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Dec 11

ByYiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao

O aprendizado por reforço (RL), anteriormente comprovado como eficaz em modelos de linguagem de grande escala e multimodais, foi recentemente estendido com sucesso para aprimorar a geração de imagens 2D. No entanto, a aplicação de RL à geração 3D permanece amplamente inexplorada devido à maior complexidade espacial dos objetos 3D, que exigem geometria globalmente consistente e texturas locais de granularidade fina. Isso torna a geração 3D significativamente sensível aos projetos de recompensa e aos algoritmos de RL. Para enfrentar esses desafios, realizamos o primeiro estudo sistemático de RL para geração autoregressiva de texto-para-3D em várias dimensões. (1) Projetos de recompensa: Avaliamos dimensões de recompensa e escolhas de modelo, mostrando que o alinhamento com a preferência humana é crucial e que modelos multimodais gerais fornecem um sinal robusto para atributos 3D. (2) Algoritmos de RL: Estudamos variantes do GRPO, destacando a eficácia da otimização em nível de token, e investigamos ainda mais a escalabilidade de dados de treinamento e iterações. (3) *Benchmarks* Texto-para-3D: Uma vez que os *benchmarks* existentes não conseguem medir as habilidades de raciocínio implícito em modelos de geração 3D, nós introduzimos o MME-3DR. (4) Paradigmas avançados de RL: Motivados pela hierarquia natural da geração 3D, propomos o Hi-GRPO, que otimiza a geração hierárquica global-para-local de 3D por meio de conjuntos de recompensa dedicados. Com base nessas percepções, desenvolvemos o AR3D-R1, o primeiro modelo de texto-para-3D aprimorado por RL, especialista desde a forma grosseira até o refinamento de textura. Esperamos que este estudo forneça insights sobre o raciocínio conduzido por RL para geração 3D. O código é disponibilizado em https://github.com/Ivan-Tang-3D/3DGen-R1.

OPV: Verificador de Processo Baseado em Resultados para Verificação Eficiente de Longas Cadeias de Raciocínio
OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Dec 11

ByZijian Wu, Lingkai Kong, Wenwei Zhang, Songyang Gao, Yuzhe Gu, Zhongrui Cai, Tianyou Ma, Yuhong Liu, Zhi Wang, Runyuan Ma, Guangyu Wang, Wei Li, Conghui He, Dahua Lin, Kai Chen

Os grandes modelos de linguagem (LLMs) alcançaram progressos significativos na resolução de tarefas complexas de raciocínio através do Reforço de Aprendizagem com Recompensas Verificáveis (RLVR). Este avanço também é inseparável da supervisão automatizada por verificadores confiáveis. No entanto, os verificadores baseados em resultado (OVs) atuais são incapazes de inspecionar os passos intermediários não confiáveis nas longas cadeias de raciocínio (CoTs). Entretanto, os verificadores baseados em processo (PVs) atuais têm dificuldades em detectar erros de forma confiável nas longas e complexas CoTs, limitados pela escassez de anotações de alta qualidade devido aos custos proibitivos das anotações humanas. Portanto, propomos o Verificador de Processo Baseado em Resultado (OPV), que verifica o processo racional dos resultados resumidos a partir de longas CoTs para alcançar uma verificação precisa e eficiente e permitir anotação em larga escala. Para capacitar o verificador proposto, adotamos uma estrutura iterativa de aprendizagem ativa com anotações de especialistas para melhorar progressivamente a capacidade de verificação do OPV com menores custos de anotação. Especificamente, em cada iteração, os casos mais incertos do melhor OPV atual são anotados e subsequentemente usados para treinar um novo OPV através da Afinação por Rejeição (RFT) e RLVR para a próxima rodada. Experimentos extensivos demonstram o desempenho superior e a ampla aplicabilidade do OPV. Ele alcança novos resultados de ponta em nossa base OPV-Bench reservada, superando modelos *open-source* muito maiores, como o Qwen3-Max-Preview, com um score F1 de 83,1 contra 76,3. Além disso, o OPV detecta efetivamente falsos positivos dentro de conjuntos de dados sintéticos, alinhando-se de perto com a avaliação de especialistas. Ao colaborar com modelos de política, o OPV gera consistentemente ganhos de desempenho, por exemplo, elevando a precisão do DeepSeek-R1-Distill-Qwen-32B de 55,2% para 73,3% na AIME2025 à medida que o orçamento computacional escala.

Alcançando um Agente de Modelo de Linguagem Grande em Geometria de Nível Olímpico via Aprendizado por Reforço de Aumento de Complexidade
Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Dec 11

ByHaiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen

Os agentes de modelos de linguagem de grande escala (LLM) exibem fortes capacidades de resolução de problemas matemáticos e podem até resolver problemas de nível da Olimpíada Internacional de Matemática (IMO) com a assistência de sistemas de prova formal. No entanto, devido a heurísticas fracas para construções auxiliares, a IA para resolução de problemas de geometria continua a ser dominada por modelos especializados, como o AlphaGeometry 2, que dependem fortemente de síntese de dados em larga escala e busca para treinamento e avaliação. Neste trabalho, fazemos a primeira tentativa de construir um agente LLM de nível medalhista para geometria e apresentamos o InternGeometry. O InternGeometry supera as limitações heurísticas em geometria propondo iterativamente proposições e construções auxiliares, verificando-as com um motor simbólico e refletindo sobre o *feedback* do motor para orientar propostas subsequentes. Um mecanismo de memória dinâmica permite que o InternGeometry realize mais de duzentas interações com o motor simbólico por problema. Para acelerar ainda mais a aprendizagem, introduzimos o Reforço de Aprendizagem com Aumento de Complexidade (CBRL), que aumenta gradualmente a complexidade dos problemas sintetizados ao longo das fases de treinamento. Construído sobre o InternThinker-32B, o InternGeometry resolve 44 dos 50 problemas de geometria da IMO (2000-2024), excedendo a pontuação média do medalhista de ouro (40,9), usando apenas 13 mil exemplos de treinamento, apenas 0,004% dos dados usados pelo AlphaGeometry 2, demonstrando o potencial dos agentes LLM em tarefas de geometria de nível especialista. O InternGeometry também pode propor novas construções auxiliares para problemas da IMO que não aparecem nas soluções humanas. Disponibilizaremos o modelo, os dados e o motor simbólico para apoiar pesquisas futuras.

MoCapAnything: Captura de Movimento 3D Unificada para Esqueletos Arbitrários a Partir de Vídeos Monoculares
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

Dec 11

ByKehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang

A captura de movimento sustenta atualmente a criação de conteúdo muito além dos humanos digitais, mas a maioria dos fluxos de trabalho existentes permanece específica para uma espécie ou modelo. Formalizamos esta lacuna como Captura de Movimento Agnóstica a Categorias (CAMoCap): dado um vídeo monocromático e um recurso 3D articulado arbitrário como prompt, o objetivo é reconstruir uma animação baseada em rotação, como BVH, que acione diretamente o recurso específico. Apresentamos o MoCapAnything, uma estrutura fatorizada e guiada por referência que primeiro prevê trajetórias de articulações 3D e depois recupera rotações específicas do recurso através de cinemática inversa com restrições. O sistema contém três módulos treináveis e um estágio leve de IK: (1) um Codificador de Prompt de Referência que extrai consultas por articulação a partir do esqueleto, malha e imagens renderizadas do recurso; (2) um Extrator de Características de Vídeo que calcula descritores visuais densos e reconstrói uma malha de deformação 4D grosseira para preencher a lacuna entre o espaço do vídeo e o espaço das articulações; e (3) um Decodificador de Movimento Unificado que funde essas pistas para produzir trajetórias temporalmente coerentes. Também criámos o Truebones Zoo com 1038 clipes de movimento, cada um fornecendo uma tríade padronizada de esqueleto-malha-renderização. Experiências em benchmarks de domínio interno e em vídeos do mundo real mostram que o MoCapAnything fornece animações esqueléticas de alta qualidade e exibe uma retargeting significativa entre espécies através de rigs heterogéneos, permitindo uma captura de movimento 3D escalável e orientada por prompts para recursos arbitrários. Página do projeto: https://animotionlab.github.io/MoCapAnything/

BEAVER: Um Verificador Determinístico Eficiente para LLM
BEAVER: An Efficient Deterministic LLM Verifier

Dec 5

ByTarun Suresh, Nalin Wadhwa, Debangshu Banerjee, Gagandeep Singh

À medida que os modelos de linguagem de grande escala (LLMs) transitam de protótipos de pesquisa para sistemas de produção, os profissionais frequentemente necessitam de métodos confiáveis para verificar se as saídas dos modelos satisfazem as restrições exigidas. Embora as estimativas baseadas em amostragem forneçam uma intuição do comportamento do modelo, elas não oferecem garantias sólidas. Apresentamos o BEAVER, o primeiro quadro prático para calcular limites de probabilidade determinísticos e sólidos sobre a satisfação de restrições em LLMs. Dada qualquer restrição semântica com prefixo fechado, o BEAVER explora sistematicamente o espaço de geração utilizando novas estruturas de dados de trie de tokens e fronteira, mantendo limites comprovadamente sólidos a cada iteração. Formalizamos o problema de verificação, provamos a solidez da nossa abordagem e avaliamos o BEAVER em tarefas de verificação de correção, verificação de privacidade e geração de código seguro em vários LLMs de última geração. O BEAVER alcança limites de probabilidade 6 a 8 vezes mais restritos e identifica 3 a 4 vezes mais instâncias de alto risco em comparação com métodos de base sob orçamentos computacionais idênticos, permitindo uma caracterização precisa e uma avaliação de riscos que limites frouxos ou avaliação empírica não podem fornecer.

Do Macro ao Micro: Avaliando a Inteligência Espacial Microscópica em Moléculas por meio de Modelos de Visão e Linguagem
From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

Dec 11

ByZongzhao Li, Xiangzhe Kong, Jiahui Su, Zongyang Ma, Mingze Li, Songyou Li, Yuelin Zhang, Yu Rong, Tingyang Xu, Deli Zhao, Wenbing Huang

Este artigo introduz o conceito de Inteligência Espacial Microscópica (MiSI), a capacidade de perceber e raciocinar sobre as relações espaciais de entidades microscópicas invisíveis, fundamental para a descoberta científica. Para avaliar o potencial dos Modelos de Visão e Linguagem (VLMs) neste domínio, propomos um benchmark sistemático, o MiSI-Bench. Este framework apresenta mais de 163.000 pares de pergunta-resposta e 587.000 imagens derivadas de aproximadamente 4.000 estruturas moleculares, abrangendo nove tarefas complementares que avaliam habilidades que vão desde transformações espaciais elementares até identificações relacionais complexas. Os resultados experimentais revelam que os VLMs state-of-the-art atuais têm um desempenho significativamente inferior ao nível humano neste benchmark. No entanto, um modelo de 7B afinado demonstra potencial substancial, superando até os humanos em tarefas de transformação espacial, enquanto o seu fraco desempenho em tarefas com base científica, como o reconhecimento de ligações de hidrogénio, salienta a necessidade de integrar conhecimento de domínio explícito para progredir em direção a uma AGI científica. Os conjuntos de dados estão disponíveis em https://huggingface.co/datasets/zongzhao/MiSI-bench.

VQRAE: Autoencoders de Quantização de Representação para Compreensão, Geração e Reconstrução Multimodal
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

Nov 28

BySinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan

A unificação da compreensão multimodal, geração e representação de reconstrução em um único tokenizador permanece um desafio fundamental na construção de modelos unificados. Pesquisas anteriores tentam abordar isso predominantemente em um paradigma de codificador duplo, por exemplo, utilizando codificadores separados para compreensão e geração, respectivamente, ou equilibrando representações semânticas e características de baixo nível com perda contrastiva. Neste artigo, propomos o VQRAE, uma versão de Quantização Vetorial dos AutoCodificadores de Representação, que pioneiramente explora a representação unificada para produzir características semânticas contínuas para compreensão de imagem e tokens discretos para geração visual dentro de um tokenizador unificado. Especificamente, construímos nosso modelo sobre modelos de base visuais pré-treinados com um decodificador ViT simétrico e adotamos uma estratégia de treinamento em dois estágios: primeiro, congela-se o codificador e aprende-se um codebook semântico VQ de alta dimensão com objetivo de reconstrução de pixels; depois, otimiza-se conjuntamente o codificador com restrições de auto-distilação. Este projeto permite informação semântica negligenciável para manter a capacidade de compreensão multimodal, tokens discretos que são compatíveis para geração e reconstrução de granularidade fina. Além disso, identificamos a propriedade intrigante na quantização de codificadores semânticos que dependem de um codebook de alta dimensão, em contraste com a prática comum anterior de codebook de baixa dimensão na reconstrução de imagens. O codebook semântico VQ pode alcançar uma taxa de utilização de 100% em uma dimensão de 1536. O VQRAE apresenta desempenho competitivo em diversos benchmarks de compreensão visual, geração e reconstrução, com propriedades promissoras de escalabilidade no paradigma autoregressivo devido aos seus méritos discretos.

Pensando com Imagens por meio de um Agente de Autochamada
Thinking with Images via Self-Calling Agent

Dec 9

ByWenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye

Os paradigmas de pensamento-com-imagens demonstraram capacidades notáveis de raciocínio visual ao integrar informações visuais como elementos dinâmicos na Cadeia de Pensamento (CoT). No entanto, a otimização de CoT multimodal intercalada (iMCoT) através de aprendizagem por reforço permanece desafiadora, uma vez que depende de dados de raciocínio de alta qualidade escassos. Neste estudo, propomos a Cadeia de Pensamento com Autoinvocação (sCoT), um novo paradigma de raciocínio visual que reformula a iMCoT como uma CoT exclusivamente linguística com autoinvocação. Especificamente, um agente principal decompõe a tarefa complexa de raciocínio visual em subtarefas atómicas e invoca as suas réplicas virtuais, ou seja, subagentes com partilha de parâmetros, para as resolver em contexto isolado. A sCoT oferece substancial eficácia e eficiência de treino, uma vez que não requer intercalação explícita entre modalidades. A sCoT emprega otimização de política relativa a grupos para reforçar comportamentos de raciocínio eficazes e melhorar a otimização. Experiências no HR-Bench 4K mostram que a sCoT melhora o desempenho global de raciocínio em até 1,9% com aproximadamente 75% menos horas de GPU em comparação com abordagens baseline robustas. O código está disponível em https://github.com/YWenxi/think-with-images-through-self-calling.

Avaliação de Políticas de Robótica Gemini em um Simulador Mundo Veo
Evaluating Gemini Robotics Policies in a Veo World Simulator

Dec 11

ByGemini Robotics Team, Coline Devin, Yilun Du, Debidatta Dwibedi, Ruiqi Gao, Abhishek Jindal, Thomas Kipf, Sean Kirmani, Fangchen Liu, Anirudha Majumdar, Andrew Marmon, Carolina Parada, Yulia Rubanova, Dhruv Shah, Vikas Sindhwani, Jie Tan, Fei Xia, Ted Xiao, Sherry Yang, Wenhao Yu, Allan Zhou

Os modelos generativos de mundos possuem um potencial significativo para simular interações com políticas visuomotoras em ambientes variados. Modelos de vídeo de fronteira podem permitir a geração de observações realistas e interações ambientais de forma escalável e geral. No entanto, o uso de modelos de vídeo em robótica tem sido limitado principalmente a avaliações dentro da distribuição, ou seja, cenários semelhantes aos utilizados para treinar a política ou para ajustar o modelo de vídeo base. Neste relatório, demonstramos que os modelos de vídeo podem ser utilizados para todo o espectro de casos de uso de avaliação de políticas em robótica: desde a avaliação do desempenho nominal até a generalização fora da distribuição (OOD), e a análise da segurança física e semântica. Introduzimos um sistema de avaliação generativa construído sobre um modelo de fundação de vídeo de fronteira (Veo). O sistema é otimizado para suportar o condicionamento por ações robóticas e a consistência multi-visão, integrando ao mesmo tempo edição generativa de imagens e conclusão multi-visão para sintetizar variações realistas de cenas do mundo real ao longo de múltiplos eixos de generalização. Demonstramos que o sistema preserva as capacidades base do modelo de vídeo, permitindo a simulação precisa de cenas que foram editadas para incluir novos objetos de interação, novos fundos visuais e novos objetos de distração. Essa fidelidade permite prever com precisão o desempenho relativo de diferentes políticas tanto em condições nominais quanto OOD, determinar o impacto relativo de diferentes eixos de generalização no desempenho da política e realizar *red teaming* de políticas para expor comportamentos que violam restrições de segurança física ou semântica. Validamos essas capacidades por meio de mais de 1600 avaliações no mundo real de oito *checkpoints* de políticas da Gemini Robotics e cinco tarefas para um manipulador bimanual.

StereoSpace: Síntese de Geometria Estéreo sem Profundidade via Difusão End-to-End em um Espaço Canônico
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

Dec 11

ByTjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler

Apresentamos o StereoSpace, uma estrutura baseada em difusão para síntese monoculo-estereoscópica que modela a geometria puramente por meio de condicionamento de ponto de vista, sem profundidade explícita ou warping. Um espaço canônico retificado e o condicionamento orientam o gerador a inferir correspondências e preencher desoclusões de forma end-to-end. Para garantir uma avaliação justa e livre de vazamentos, introduzimos um protocolo end-to-end que exclui qualquer ground truth ou estimativas de geometria proxy durante o teste. O protocolo enfatiza métricas que refletem a relevância para aplicações: iSQoE para conforto perceptual e MEt3R para consistência geométrica. O StereoSpace supera outros métodos das categorias warp & inpaint, latent-warping e warped-conditioning, alcançando paralaxe nítida e forte robustez em cenas estratificadas e não-Lambertianas. Isso estabelece a difusão condicionada por ponto de vista como uma solução escalável e livre de profundidade para geração estereoscópica.

Transformadores Mais Fortes sem Normalização
Stronger Normalization-Free Transformers

Dec 11

ByMingzhi Chen, Taiming Lu, Jiachen Zhu, Mingjie Sun, Zhuang Liu

Embora as camadas de normalização tenham sido vistas por muito tempo como componentes indispensáveis das arquiteturas de aprendizado profundo, a recente introdução da Dynamic Tanh (DyT) demonstrou que alternativas são possíveis. A função pontual DyT restringe valores extremos para convergência estável e atinge desempenho de nível de normalização; este trabalho busca avançar ainda mais em projetos de função que possam superá-la. Primeiro, estudamos como as propriedades intrínsecas das funções pontuais influenciam o treinamento e o desempenho. Com base nessas descobertas, realizamos uma busca em larga escala por um projeto de função mais eficaz. Por meio dessa exploração, introduzimos Derf(x) = erf(αx + s), onde erf(x) é a função de distribuição acumulada gaussiana redimensionada, e a identificamos como o projeto de maior desempenho. Derf supera LayerNorm, RMSNorm e DyT em uma ampla gama de domínios, incluindo visão (reconhecimento e geração de imagens), representação de fala e modelagem de sequências de DNA. Nossas descobertas sugerem que os ganhos de desempenho do Derf decorrem em grande parte de sua generalização aprimorada, e não de uma capacidade de ajuste mais forte. Sua simplicidade e desempenho superior tornam o Derf uma escolha prática para arquiteturas Transformer livres de normalização.

Raciocínio Espaço-Temporal Aumentado por Ferramentas para Simplificar a Tarefa de Resposta a Perguntas em Vídeo
Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

Dec 11

BySunqi Fan, Jiashuo Cui, Meng-Hao Guo, Shuojin Yang

A tarefa de Resposta a Perguntas em Vídeo (VideoQA) serve como um campo de prova crítico para avaliar se os modelos de base conseguem perceber, compreender e raciocinar eficazmente sobre cenários dinâmicos do mundo real. No entanto, os atuais Modelos de Linguagem Multimodais de Grande Escala (MLLMs) debatem-se com a modelação simultânea de relações espaciais dentro dos fotogramas de vídeo e a compreensão da dinâmica causal da evolução temporal em tarefas de VideoQA complexas e intensivas em raciocínio. Neste trabalho, equipamos os MLLMs com um Kit de Ferramentas de Vídeo abrangente e extensível, para melhorar as suas capacidades de raciocínio espaço-temporal e garantir a harmonia entre a quantidade e a diversidade de ferramentas. Para controlar melhor a sequência de invocação de ferramentas e evitar problemas de atalhos na cadeia de ferramentas, propomos uma Estrutura de Raciocínio Espaço-Temporal (STAR) que agenda estrategicamente ferramentas temporais e espaciais, localizando progressivamente a área-chave no vídeo. A nossa estrutura STAR melhora o GPT-4o utilizando ferramentas leves, alcançando um ganho de 8,2% no VideoMME e 4,6% no LongVideoBench. Acreditamos que o Kit de Ferramentas de Vídeo proposto e a estrutura STAR representam um passo importante na construção de assistentes de análise de vídeo autónomos e inteligentes. O código está publicamente disponível em https://github.com/fansunqi/VideoTool.

H2R-Grounder: Um Paradigma sem Dados Emparelhados para Traduzir Vídeos de Interação Humana em Vídeos de Robôs Fisicamente Fundamentados
H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

Dec 10

ByHai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou

Robôs que aprendem habilidades de manipulação a partir de vídeos humanos cotidianos poderiam adquirir capacidades amplas sem a tediosa coleta de dados robóticos. Propomos uma estrutura de tradução de vídeo para vídeo que converte vídeos comuns de interação humano-objeto em vídeos de manipulação robótica com movimento consistente e interações realistas e fisicamente fundamentadas. Nossa abordagem não requer quaisquer vídeos pareados humano-robô para treinamento, apenas um conjunto de vídeos robóticos não pareados, tornando o sistema fácil de escalar. Introduzimos uma representação transferível que preenche a lacuna de corporificação: ao reconstituir o braço do robô nos vídeos de treinamento para obter um plano de fundo limpo e sobrepor uma pista visual simples (um marcador e uma seta indicando a posição e orientação da garra), podemos condicionar um modelo generativo para reinserir o braço do robô na cena. No momento do teste, aplicamos o mesmo processo aos vídeos humanos (reconstituindo a pessoa e sobrepondo pistas de pose humana) e geramos vídeos robóticos de alta qualidade que imitam as ações humanas. Ajustamos um modelo de difusão de vídeo estado da arte (Wan 2.2) de maneira contextual para garantir coerência temporal e aproveitar seu rico conhecimento prévio. Resultados empíricos demonstram que nossa abordagem alcança movimentos robóticos significativamente mais realistas e fundamentados em comparação com as linhas de base, apontando para uma direção promissora para ampliar o aprendizado de robôs a partir de vídeos humanos não rotulados. Página do projeto: https://showlab.github.io/H2R-Grounder/

O Líder FACTS: Um Benchmark Abrangente para a Veracidade de Modelos de Linguagem de Grande Porte
The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

Dec 11

ByAileen Cheng, Alon Jacovi, Amir Globerson, Ben Golan, Charles Kwong, Chris Alberti, Connie Tao, Eyal Ben-David, Gaurav Singh Tomar, Lukas Haas, Yonatan Bitton, Adam Bloniarz, Aijun Bai, Andrew Wang, Anfal Siddiqui, Arturo Bajuelos Castillo, Aviel Atias, Chang Liu, Corey Fry, Daniel Balle, Deepanway Ghosal, Doron Kukliansky, Dror Marcus, Elena Gribovskaya, Eran Ofek, Honglei Zhuang, Itay Laish, Jan Ackermann, Lily Wang, Meg Risdal, Megan Barnes, Michael Fink, Mohamed Amin, Moran Ambar, Natan Potikha, Nikita Gupta, Nitzan Katz, Noam Velan, Ofir Roval, Ori Ram, Polina Zablotskaia, Prathamesh Bang, Priyanka Agrawal, Rakesh Ghiya, Sanjay Ganapathy, Simon Baumgartner, Sofia Erell, Sushant Prakash, Thibault Sellam, Vikram Rao, Xuanhui Wang, Yaroslav Akulov, Yulong Yang, Zhen Yang, Zhixin Lai, Zhongru Wu, Anca Dragan, Avinatan Hassidim, Fernando Pereira, Slav Petrov, Srinivasan Venkatachary, Tulsee Doshi, Yossi Matias, Sasha Goldshtein, Dipanjan Das

Apresentamos o The FACTS Leaderboard, um conjunto de *leaderboards* online e um conjunto associado de *benchmarks* que avalia de forma abrangente a capacidade dos modelos de linguagem de gerar texto factualmente preciso em diversos cenários. O conjunto fornece uma medida holística da factualidade agregando o desempenho dos modelos em quatro sub-*leaderboards* distintos: (1) FACTS Multimodal, que mede a factualidade das respostas a perguntas baseadas em imagens; (2) FACTS Parametric, que avalia o conhecimento mundial dos modelos por meio da resposta a perguntas factuais de livro fechado a partir dos seus parâmetros internos; (3) FACTS Search, que avalia a factualidade em cenários de busca de informação, onde o modelo deve usar uma API de pesquisa; e (4) FACTS Grounding (v2), que avalia se respostas em formato longo estão fundamentadas em documentos fornecidos, apresentando modelos de avaliação significativamente aprimorados. Cada sub-*leaderboard* emprega modelos de avaliação automatizados para pontuar as respostas dos modelos, e a pontuação final do conjunto é uma média dos quatro componentes, projetada para fornecer uma avaliação robusta e equilibrada da factualidade geral de um modelo. O FACTS Leaderboard Suite será mantido ativamente, contendo divisões públicas e privadas para permitir a participação externa, protegendo ao mesmo tempo a sua integridade. Pode ser encontrado em https://www.kaggle.com/benchmarks/google/facts.

MoRel: Modelagem de Movimento 4D de Longo Alcance sem Cintilações via Mistura Bidirecional Baseada em Retransmissão de Âncoras com Densificação Hierárquica
MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification

Dec 10

BySangwoon Kwak, Weeyoung Kwon, Jun Young Jeong, Geonho Kim, Won-Sik Cheong, Jihyong Oh

Os recentes avanços no 4D Gaussian Splatting (4DGS) estenderam a capacidade de renderização de alta velocidade do 3D Gaussian Splatting (3DGS) para o domínio temporal, permitindo a renderização em tempo real de cenas dinâmicas. No entanto, um dos principais desafios remanescentes reside na modelagem de vídeos dinâmicos de longo alcance que contêm movimento, onde uma extensão ingênua dos métodos existentes leva a uma severa explosão de memória, flickering temporal e falha em lidar com oclusões que aparecem ou desaparecem ao longo do tempo. Para enfrentar esses desafios, propomos uma nova estrutura 4DGS caracterizada por um mecanismo de Mistura Bidirecional baseada em Relé de Âncoras (ARBB), denominada MoRel, que permite a modelagem temporalmente consistente e eficiente em memória de cenas dinâmicas de longo alcance. Nosso método constrói progressivamente espaços âncora canônicos locais no índice de tempo dos quadros-chave e modela as deformações entre quadros no nível da âncora, melhorando a coerência temporal. Ao aprender deformações bidirecionais entre as Âncoras de Quadro-chave (KfA) e misturá-las adaptativamente por meio de um controle de opacidade aprendível, nossa abordagem mitiga descontinuidades temporais e artefatos de flickering. Introduzimos ainda um esquema de Densificação Hierárquica Guiada por Variância de Características (FHD) que efetivamente densifica as KfA mantendo a qualidade de renderização, com base num nível atribuído de variância de características. Para avaliar eficazmente a capacidade do nosso modelo de lidar com movimento 4D de longo alcance do mundo real, compilamos um novo conjunto de dados contendo movimento 4D de longo alcance, denominado SelfCap_{LR}. Este conjunto possui uma magnitude média de movimento dinâmico maior, capturado em espaços espacialmente mais amplos, em comparação com conjuntos de dados de vídeo dinâmicos anteriores. No geral, nosso MoRel alcança uma reconstrução 4D de longo alcance temporalmente coerente e livre de flickering, mantendo um uso de memória limitado, demonstrando tanto escalabilidade quanto eficiência em representações dinâmicas baseadas em Gaussianas.

ReViSE: Rumo à Edição de Vídeo Informada pelo Raciocínio em Modelos Unificados com Aprendizado Autorreflexivo
ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

Dec 10

ByXinyu Liu, Hangjie Yuan, Yujie Wei, Jiazheng Xing, Yujin Han, Jiahao Pan, Yanbiao Ma, Chi-Min Chan, Kang Zhao, Shiwei Zhang, Wenhan Luo, Yike Guo

Os modelos unificados de vídeo demonstram fortes capacidades de compreensão e geração, mas enfrentam dificuldades na edição visual baseada em raciocínio, mesmo quando equipados com poderosos modelos internos de visão e linguagem (VLMs). Atribuímos essa lacuna a dois fatores: 1) os conjuntos de dados existentes são inadequados para treinar e avaliar a edição de vídeo com consciência do raciocínio, e 2) uma desconexão inerente entre as capacidades de raciocínio e edição dos modelos, o que impede que a compreensão rica instrua efetivamente o processo de edição. Preencher essa lacuna requer uma estrutura integrada que conecte o raciocínio com a transformação visual. Para abordar essa lacuna, introduzimos a tarefa de Edição de Vídeo Informada por Raciocínio (RVE), que exige raciocínio sobre plausibilidade física e dinâmicas causais durante a edição. Para apoiar uma avaliação sistemática, construímos o RVE-Bench, um benchmark abrangente com dois subconjuntos complementares: Edição de Vídeo Informada por Raciocínio e Geração de Vídeo em Contexto. Esses subconjuntos abrangem dimensões diversas de raciocínio e cenários de edição do mundo real. Com base nessa fundação, propomos o ReViSE, uma estrutura de Raciocínio Autorreflexivo (SRF) que unifica geração e avaliação em uma única arquitetura. O VLM interno do modelo fornece *feedback* intrínseco, avaliando se o vídeo editado satisfaz logicamente a instrução dada. O *feedback* diferencial refina o comportamento de raciocínio do gerador durante o treinamento. Experimentos extensivos no RVE-Bench demonstram que o ReViSE aprimora significativamente a precisão da edição e a fidelidade visual, alcançando uma melhoria de 32% na pontuação Geral no subconjunto de edição de vídeo informada por raciocínio em relação aos métodos state-of-the-art.

Omni-Attribute: Codificador de Atributos de Vocabulário Aberto para Personalização de Conceitos Visuais
Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

Dec 11

ByTsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov

A personalização de conceitos visuais visa transferir apenas atributos específicos da imagem, como identidade, expressão, iluminação e estilo, para contextos não vistos. No entanto, os métodos existentes dependem de incorporações holísticas de codificadores de imagem de propósito geral, que entrelaçam múltiplos fatores visuais e dificultam o isolamento de um único atributo. Isso frequentemente leva a vazamento de informação e síntese incoerente. Para superar esta limitação, introduzimos o Omni-Attribute, o primeiro codificador de atributos de imagem de vocabulário aberto projetado para aprender representações específicas por atributo e de alta fidelidade. Nossa abordagem projeta conjuntamente os dados e o modelo: (i) curadamos pares de imagens semanticamente ligadas, anotados com atributos positivos e negativos, para ensinar explicitamente ao codificador o que preservar ou suprimir; e (ii) adotamos um paradigma de treinamento de duplo objetivo que equilibra a fidelidade generativa com o desembaraço contrastivo. As incorporações resultantes mostram-se eficazes para recuperação de atributos de vocabulário aberto, personalização e geração composicional, alcançando desempenho de ponta em múltiplos benchmarks.

Agente do Código de Confúcio: Um Engenheiro de Software de IA de Código Aberto em Escala Industrial
Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

Dec 11

ByZhaodong Wang, Zhenting Qi, Sherman Wong, Nathan Hu, Samuel Lin, Jun Ge, Erwin Gao, Yining Yang, Ben Maurer, Wenlin Chen, David Recordon, Yilun Du, Minlan Yu, Ying Zhang

A engenharia de software com IA no mundo real exige agentes de codificação que possam raciocinar sobre repositórios massivos, manter memória durável entre e dentro de sessões longas e coordenar de forma robusta cadeias complexas de ferramentas em tempo de teste. Os agentes de codificação de código aberto existentes oferecem transparência, mas frequentemente ficam aquém quando pressionados por essas cargas de trabalho em escala industrial, enquanto os agentes de codificação proprietários oferecem forte desempenho prático, mas limitada extensibilidade, interpretabilidade e controlabilidade. Apresentamos o Confucius Code Agent (CCA), um engenheiro de software com IA de código aberto que pode operar em escala industrial. O CCA é construído sobre o Confucius SDK, uma plataforma de desenvolvimento de agentes de código aberto projetada em torno de três perspectivas complementares: Experiência do Agente (AX), Experiência do Usuário (UX) e Experiência do Desenvolvedor (DX). O SDK introduz um orquestrador unificado com memória de trabalho hierárquica para raciocínio de contexto longo, um sistema persistente de anotações para aprendizado contínuo entre sessões e um módulo de extensão modular para uso robusto de ferramentas. Além disso, um meta-agente automatiza a síntese, avaliação e refinamento de configurações de agente por meio de um ciclo de construção-teste-melhoria, permitindo o desenvolvimento rápido de agentes em novas tarefas, ambientes e pilhas de ferramentas. Instanciado no Confucius SDK com esses mecanismos, o CCA oferece um forte desempenho em tarefas de engenharia de software do mundo real. No SWE-Bench-Pro, o CCA alcança um desempenho Resolve@1 state-of-the-art de 54,3%, melhorando substancialmente em relação aos agentes de codificação anteriores. Juntos, o Confucius SDK e o CCA fornecem uma base transparente, extensível e reproduzível para agentes de IA, preenchem lacunas entre protótipos de pesquisa e sistemas de nível de produção e suportam o desenvolvimento e implantação de agentes em escala industrial.

Fed-SE: Auto-Evolução Federada para Agentes de LLM Multi-Ambiente com Restrições de Privacidade
Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents

Dec 9

ByXiang Chen, Yuling Shi, Qizhen Lan, Yuchao Qiu, Xiaodong Gu

Os agentes de LLM são amplamente implantados em tarefas interativas complexas, mas as restrições de privacidade frequentemente impedem a otimização centralizada e a coevolução em ambientes dinâmicos. Embora a Aprendizagem Federada (FL) tenha se mostrado eficaz em conjuntos de dados estáticos, sua extensão para a autoevolução aberta de agentes permanece pouco explorada. A aplicação direta da FL padrão é desafiadora: tarefas heterogêneas e recompensas esparsas em nível de trajetória introduzem graves conflitos de gradiente, desestabilizando o processo de otimização global. Para preencher essa lacuna, propomos o Fed-SE, uma estrutura de Autoevolução Federada para agentes de LLM. O Fed-SE estabelece um paradigma de evolução local-agregação global. Localmente, os agentes empregam fine-tuning eficiente em parâmetros sobre trajetórias filtradas de alto retorno para alcançar atualizações de gradiente estáveis. Globalmente, o Fed-SE agrega atualizações dentro de um subespaço de baixa classificação que desacopla dinâmicas específicas do ambiente, reduzindo efetivamente a transferência negativa entre clientes. Experimentos em cinco ambientes heterogêneos demonstram que o Fed-SE melhora as taxas médias de sucesso de tarefas em aproximadamente 18% em relação às linhas de base federadas, validando sua eficácia na transferência robusta de conhecimento entre ambientes em implantações com restrições de privacidade.

MOA: Alinhamento Multiobjetivo para Agentes de Role-Playing
MOA: Multi-Objective Alignment for Role-Playing Agents

Dec 10

ByChonghua Liao, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li

Os agentes de role-playing (RPAs) devem dominar simultaneamente múltiplas competências conflituosas – seguir instruções multi-turno, exibir conhecimento de domínio e adotar um estilo linguístico consistente. O trabalho existente baseia-se ou no ajuste fino supervisionado (SFT), que se ajusta excessivamente a pistas superficiais e produz baixa diversidade, ou aplica aprendizagem por reforço (RL), que falha em aprender múltiplas dimensões para uma otimização abrangente de RPAs. Apresentamos o MOA (Alinhamento Multi-Objetivo), uma estrutura de aprendizagem por reforço que permite a otimização multi-dimensional e de granularidade fina para RPAs gerais. O MOA introduz uma nova estratégia de otimização multi-objetivo que treina simultaneamente em múltiplas rubricas de granularidade fina para impulsionar o desempenho da otimização. Além disso, para resolver as questões da diversidade e qualidade da saída do modelo, também empregámos um rollout aumentado por pensamento com orientação off-policy. Experiências extensivas em benchmarks desafiadores como o PersonaGym e o RoleMRC mostram que o MOA permite que um modelo de 8B iguale ou até supere linhas de base fortes como o GPT-4o e o Claude em numerosas dimensões. Isto demonstra o grande potencial do MOA na construção de RPAs que podem satisfazer simultaneamente as exigências de conhecimento de papel, estilo de persona, cenários diversos e conversas complexas multi-turno.

X-Humanoid: Robotizar Vídeos Humanos para Gerar Vídeos Humanoides em Escala
X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

Dec 4

ByPei Yang, Hai Ci, Yiren Song, Mike Zheng Shou

O avanço da IA incorporada desbloqueou um potencial significativo para robôs humanoides inteligentes. No entanto, o progresso tanto em modelos Visão-Linguagem-Ação (VLA) quanto em modelos de mundo é severamente limitado pela escassez de dados de treinamento em larga escala e diversificados. Uma solução promissora é "robotizar" vídeos humanos da web, o que se mostrou eficaz para o treinamento de políticas. Contudo, essas soluções principalmente "sobrepõem" braços robóticos a vídeos egocêntricos, incapazes de lidar com movimentos complexos de corpo inteiro e oclusões de cena em vídeos em terceira pessoa, tornando-as inadequadas para robotizar humanos. Para preencher esta lacuna, apresentamos o X-Humanoid, uma abordagem de edição generativa de vídeo que adapta o poderoso modelo Wan 2.2 para uma estrutura vídeo-para-vídeo e o ajusta para a tarefa de tradução humano-para-humanoide. Este ajuste fino requer vídeos pareados humano-humanoide, portanto, projetamos um pipeline escalável de criação de dados, convertendo recursos da comunidade em mais de 17 horas de vídeos sintéticos pareados usando o Unreal Engine. Em seguida, aplicamos nosso modelo treinado a 60 horas de vídeos do Ego-Exo4D, gerando e divulgando um novo conjunto de dados em larga escala com mais de 3,6 milhões de quadros de vídeo humanoide "robotizados". Análises quantitativas e estudos com usuários confirmam a superioridade do nosso método sobre as linhas de base existentes: 69% dos usuários o classificaram como o melhor em consistência de movimento e 62,1% em correção de incorporação.

DuetSVG: Geração Unificada de SVG Multimodal com Orientação Visual Interna
DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance

Dec 11

ByPeiying Zhang, Nanxuan Zhao, Matthew Fisher, Yiran Xu, Jing Liao, Difan Liu

As abordagens baseadas em modelos visão-linguagem (VLM) recentes obtiveram resultados impressionantes na geração de SVG. No entanto, por gerarem apenas texto e carecerem de sinais visuais durante a decodificação, frequentemente apresentam dificuldades com semântica complexa e falham em produzir SVGs visualmente atraentes ou geometricamente coerentes. Apresentamos o DuetSVG, um modelo multimodal unificado que gera conjuntamente *tokens* de imagem e *tokens* SVG correspondentes de forma *end-to-end*. O DuetSVG é treinado em conjuntos de dados de imagem e SVG. Durante a inferência, aplicamos uma nova estratégia de dimensionamento em tempo de teste que aproveita as previsões visuais nativas do modelo como orientação para melhorar a qualidade da decodificação SVG. Experimentos extensivos demonstram que nosso método supera os métodos existentes, produzindo SVGs visualmente fiéis, semanticamente alinhados e sintaticamente limpos em uma ampla gama de aplicações.