HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

33 papers found

GigaEvo: Um Framework de Otimização de Código Aberto Alimentado por LLMs e Algoritmos Evolutivos
GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

Nov 17

ByValentin Khrulkov, Andrey Galichin, Denis Bashkirov, Dmitry Vinichenko, Oleg Travkin, Roman Alferov, Andrey Kuznetsov, Ivan Oseledets

121

Os avanços recentes em computação evolutiva guiada por LLM, particularmente o AlphaEvolve (Novikov et al., 2025; Georgiev et al., 2025), demonstraram sucesso notável na descoberta de novas construções matemáticas e na resolução de problemas desafiadores de otimização. No entanto, as descrições de alto nível nos trabalhos publicados deixam muitos detalhes de implementação não especificados, dificultando a reprodutibilidade e pesquisas adicionais. Neste relatório, apresentamos o GigaEvo, uma estrutura de código aberto extensível que permite aos pesquisadores estudar e experimentar abordagens híbridas de LLM-evolução inspiradas no AlphaEvolve. Nosso sistema fornece implementações modulares de componentes-chave: algoritmos de diversidade e qualidade MAP-Elites, pipelines de avaliação assíncronos baseados em DAG, operadores de mutação impulsionados por LLM com geração de insights e rastreamento bidirecional de linhagem, e estratégias evolutivas flexíveis de múltiplas ilhas. Para avaliar a reprodutibilidade e validar nossa implementação, avaliamos o GigaEvo em problemas desafiadores do artigo do AlphaEvolve: colocação de triângulos de Heilbronn, empacotamento de círculos em quadrados e números de contato em alta dimensionalidade. A estrutura enfatiza modularidade, concorrência e facilidade de experimentação, permitindo prototipagem rápida por meio de configuração declarativa. Fornecemos descrições detalhadas da arquitetura do sistema, decisões de implementação e metodologia experimental para apoiar pesquisas adicionais em métodos evolutivos impulsionados por LLM. A estrutura GigaEvo e todo o código experimental estão disponíveis em https://github.com/AIRI-Institute/gigaevo-core.

MedSAM3: Explorando o Segmentar Qualquer Coisa com Conceitos Médicos
MedSAM3: Delving into Segment Anything with Medical Concepts

Nov 24

ByAnglin Liu, Rundong Xue, Xu R. Cao, Yifan Shen, Yi Lu, Xiang Li, Qianqian Chen, Jintai Chen

A segmentação de imagens médicas é fundamental para a descoberta biomédica. Os métodos existentes carecem de generalização e exigem extensas anotações manuais demoradas para novas aplicações clínicas. Aqui, propomos o MedSAM-3, um modelo de segmentação médica acionável por texto para segmentação de imagens e vídeos médicos. Ao ajustar a arquitetura do Segment Anything Model (SAM) 3 em imagens médicas emparelhadas com rótulos de conceitos semânticos, nosso MedSAM-3 permite a Segmentação de Conceitos Acionável (PCS) médica, permitindo o direcionamento preciso de estruturas anatômicas por meio de descrições textais de vocabulário aberto, em vez de apenas prompts geométricos. Introduzimos ainda o Agente MedSAM-3, uma estrutura que integra Modelos de Linguagem Multimodais (MLLMs) para realizar raciocínio complexo e refinamento iterativo em um fluxo de trabalho com agente no loop. Experimentos abrangentes em diversas modalidades de imagem médica, incluindo Raio-X, Ressonância Magnética, Ultrassom, Tomografia Computadorizada e vídeo, demonstram que nossa abordagem supera significativamente os modelos especializados e de base existentes. Disponibilizaremos nosso código e modelo em https://github.com/Joey-S-Liu/MedSAM3.

Agent0-VL: Explorando Agentes de Auto-Evolução para Raciocínio Visiolinguístico Integrado a Ferramentas
Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

Nov 25

ByJiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao

Os agentes visão-linguagem têm alcançado progressos notáveis em uma variedade de tarefas de raciocínio multimodal; no entanto, sua aprendizagem permanece limitada pelas restrições da supervisão anotada por humanos. Abordagens recentes de autorrecompensa tentam superar essa limitação permitindo que os modelos atuem como seus próprios críticos ou provedores de recompensa. No entanto, a autoavaliação puramente baseada em texto luta para verificar etapas complexas de raciocínio visual e frequentemente sofre de alucinações de avaliação. Para enfrentar esses desafios, inspirados pelos avanços recentes em raciocínio com integração de ferramentas, propomos o Agent0-VL, um agente visão-linguagem de autoevolução que alcança melhoria contínua por meio do raciocínio com integração de ferramentas. O Agent0-VL incorpora o uso de ferramentas não apenas no raciocínio, mas também na autoavaliação e autorreparo, permitindo que o modelo introspecte, verifique e refine seu raciocínio por meio de uma análise fundamentada em evidências. Ele unifica dois papéis sinérgicos em um único LVLM: um Solucionador que executa raciocínio com ferramentas em múltiplas etapas, e um Verificador que gera feedback estruturado e autorrecompensas refinadas por meio de crítica fundamentada em ferramentas. Esses papéis interagem por meio de um Ciclo de Raciocínio de Autoevolução, onde a verificação baseada em ferramentas e o aprendizado por reforço alinham conjuntamente as distribuições de raciocínio e avaliação para uma autorreforça estável. Por meio desta evolução sem recompensa externa, o Agent0-VL alinha seus comportamentos de raciocínio e verificação sem qualquer anotação humana ou modelos externos de recompensa, alcançando uma melhoria contínua. Experimentos em resolução de problemas geométricos e análise científica visual mostram que o Agent0-VL alcança uma melhoria de 12,5% em relação ao modelo base. Nosso código está disponível em https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.

ROOT: Otimizador Ortogonalizado Robusto para Treinamento de Redes Neurais
ROOT: Robust Orthogonalized Optimizer for Neural Network Training

Nov 25

ByWei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang

A otimização de grandes modelos de linguagem (LLMs) continua a ser um desafio crítico, particularmente à medida que a escalabilidade dos modelos exacerba a sensibilidade à imprecisão algorítmica e à instabilidade do treino. Avanços recentes em otimizadores melhoraram a eficiência de convergência através da ortogonalização de momento, mas sofrem de duas limitações de robustez principais: fragilidade dimensional na precisão da ortogonalização e vulnerabilidade ao ruído induzido por valores atípicos (outliers). Para enfrentar estes desafios de robustez, introduzimos o ROOT, um Otimidor Ortogonalizado Robusto que melhora a estabilidade do treino através de mecanismos duplos de robustez. Primeiro, desenvolvemos um esquema de ortogonalização dimensionalmente robusto utilizando iterações de Newton adaptativas com coeficientes de granularidade fina adaptados a tamanhos de matriz específicos, garantindo precisão consistente em diversas configurações arquitetónicas. Segundo, introduzimos uma estrutura de otimização robusta via otimização proximal que suprime o ruído de outliers, preservando ao mesmo tempo direções de gradiente significativas. Experiências extensivas demonstram que o ROOT alcança uma robustez significativamente melhorada, com convergência mais rápida e desempenho final superior em comparação com otimizadores baseados em Muon e Adam, particularmente em cenários ruidosos e não convexos. O nosso trabalho estabelece um novo paradigma para o desenvolvimento de otimizadores robustos e precisos, capazes de lidar com as complexidades do treino moderno de modelos em larga escala. O código estará disponível em https://github.com/huawei-noah/noah-research/tree/master/ROOT.

Otimização de Políticas Adaptativas Suaves
Soft Adaptive Policy Optimization

Nov 25

ByChang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin

O aprendizado por reforço (RL) desempenha um papel cada vez mais importante na melhoria das capacidades de raciocínio de grandes modelos de linguagem (LLMs), no entanto, a otimização de políticas estável e de alto desempenho continua a ser um desafio. As razões de importância a nível de token frequentemente exibem alta variância - um fenômeno exacerbado em modelos Mixture-of-Experts - levando a atualizações instáveis. Os métodos existentes de otimização de políticas baseados em grupo, como GSPO e GRPO, aliviam este problema através de *clipping* rígido (*hard clipping*), dificultando a manutenção simultânea da estabilidade e da aprendizagem eficaz. Propomos a Otimização de Políticas Adaptativa Suave (SAPO), que substitui o *clipping* rígido por um *gate* suave, controlado por temperatura, que atenua adaptativamente as atualizações *off-policy* enquanto preserva os sinais de aprendizagem úteis. Em comparação com GSPO e GRPO, o SAPO é simultaneamente coerente a nível de sequência e adaptativo a nível de token. Tal como o GSPO, o SAPO mantém a coerência a nível de sequência, mas o seu *gating* suave forma uma região de confiança contínua que evita a banda de *clipping* rígido e frágil utilizada no GSPO. Quando uma sequência contém alguns tokens altamente *off-policy*, o GSPO suprime todos os gradientes para essa sequência, enquanto o SAPO reduz seletivamente o peso apenas dos tokens problemáticos e preserva o sinal de aprendizagem dos que estão próximos da política (*near-on-policy*), melhorando a eficiência da amostragem. Em relação ao GRPO, o SAPO substitui o *clipping* rígido a nível de token por um escalonamento suave e controlado por temperatura, permitindo atualizações mais informativas e estáveis. Resultados empíricos em benchmarks de raciocínio matemático indicam que o SAPO exibe maior estabilidade de treino e maior desempenho Pass@1 sob orçamentos de treino comparáveis. Além disso, empregamos o SAPO para treinar a série de modelos Qwen3-VL, demonstrando que o SAPO produz ganhos de desempenho consistentes em diversas tarefas e diferentes tamanhos de modelo. Globalmente, o SAPO fornece uma estratégia de otimização mais confiável, escalável e eficaz para o treino de RL de LLMs.

SteadyDancer: Animação Harmoniosa e Coerente de Imagens Humanas com Preservação do Primeiro Quadro
SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation

Nov 24

ByJiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma

Preservar a identidade do primeiro quadro enquanto garante um controle de movimento preciso é um desafio fundamental na animação de imagens humanas. O processo de Vinculação Imagem-Movimento do paradigma dominante Referência-para-Vídeo (R2V) ignora desalinhamentos espaço-temporais críticos comuns em aplicações do mundo real, levando a falhas como deriva de identidade e artefatos visuais. Apresentamos o SteadyDancer, uma estrutura baseada no paradigma Imagem-para-Vídeo (I2V) que alcança uma animação harmoniosa e coerente, sendo a primeira a garantir robustamente a preservação do primeiro quadro. Primeiramente, propomos um Mecanismo de Reconciliação de Condições para harmonizar as duas condições conflitantes, permitindo controle preciso sem sacrificar a fidelidade. Em segundo lugar, projetamos Módulos de Modulação de Pose Sinérgicos para gerar uma representação de pose adaptativa e coerente, altamente compatível com a imagem de referência. Por fim, empregamos um Pipeline de Treinamento com Objetivo Desacoplado em Etapas que otimiza hierarquicamente o modelo para fidelidade de movimento, qualidade visual e coerência temporal. Experimentos demonstram que o SteadyDancer alcança desempenho de última geração em fidelidade de aparência e controle de movimento, enquanto requer significativamente menos recursos de treinamento do que métodos comparáveis.

STARFlow-V: Modelagem Generativa de Vídeo End-to-End com Fluxo Normalizante
STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

Nov 25

ByJiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai

Os fluxos de normalização (NFs) são modelos generativos baseados em verossimilhança de ponta a ponta para dados contínuos e recentemente readquiriram atenção com progressos animadores na geração de imagens. No entanto, no domínio da geração de vídeos, onde a complexidade espaço-temporal e o custo computacional são substancialmente maiores, os sistemas state-of-the-art quase que exclusivamente dependem de modelos baseados em difusão. Neste trabalho, revisitamos este espaço de projeto apresentando o STARFlow-V, um gerador de vídeos baseado em fluxo de normalização com benefícios substanciais, como aprendizado de ponta a ponta, previsão causal robusta e estimativa nativa de verossimilhança. Construído sobre o recentemente proposto STARFlow, o STARFlow-V opera no espaço latente espaço-temporal com uma arquitetura global-local que restringe dependências causais a um espaço latente global, preservando interações locais ricas dentro do quadro. Isso atenua o acúmulo de erros ao longo do tempo, uma armadilha comum da geração padrão de modelos de difusão autoregressivos. Adicionalmente, propomos o flow-score matching, que equipa o modelo com um desruidor causal leve para melhorar a consistência da geração de vídeo de forma autoregressiva. Para melhorar a eficiência de amostragem, o STARFlow-V emprega um esquema de iteração de Jacobi consciente do vídeo que reformula atualizações internas como iterações paralelizáveis sem quebrar a causalidade. Graças à estrutura invertível, o mesmo modelo pode suportar nativamente tarefas de geração texto-para-vídeo, imagem-para-vídeo e vídeo-para-vídeo. Empiricamente, o STARFlow-V alcança forte fidelidade visual e consistência temporal com taxa de transferência de amostragem prática em relação às linhas de base baseadas em difusão. Esses resultados apresentam a primeira evidência, até onde sabemos, de que os NFs são capazes de geração de vídeo autoregressiva de alta qualidade, estabelecendo-os como uma direção de pesquisa promissora para a construção de modelos do mundo. Código e amostras geradas estão disponíveis em https://github.com/apple/ml-starflow.

A Compreensão Informa a Geração em Modelos Multimodais Unificados? Da Análise ao Caminho a Seguir
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

Nov 25

ByYuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan

Os últimos anos testemunharam progressos significativos nos Modelos Multimodais Unificados, mas uma questão fundamental permanece: A compreensão informa verdadeiramente a geração? Para investigar isso, introduzimos o UniSandbox, uma estrutura de avaliação desacoplada emparelhada com conjuntos de dados sintéticos e controlados para evitar vazamento de dados e permitir uma análise detalhada. Nossas descobertas revelam uma lacuna significativa entre compreensão e geração, que se reflete principalmente em duas dimensões-chave: geração de raciocínio e transferência de conhecimento. Especificamente, para tarefas de geração de raciocínio, observamos que uma Cadeia de Pensamento (CoT) explícita no módulo de compreensão efetivamente preenche a lacuna, e demonstramos ainda que uma abordagem de auto-treinamento pode internalizar com sucesso essa capacidade, permitindo o raciocínio implícito durante a geração. Além disso, para tarefas de transferência de conhecimento, descobrimos que a CoT auxilia o processo generativo, ajudando a recuperar conhecimentos recém-aprendidos, e também descobrimos que arquiteturas baseadas em consultas exibem inerentemente propriedades latentes semelhantes à CoT que afetam essa transferência. O UniSandbox fornece insights preliminares para projetar futuras arquiteturas unificadas e estratégias de treinamento que realmente preencham a lacuna entre compreensão e geração. O código e os dados estão disponíveis em https://github.com/PKU-YuanGroup/UniSandBox.

iMontage: Geração de Imagens Muitos-para-Muitos Unificada, Versátil e Altamente Dinâmica
iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

Nov 25

ByZhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin

Os modelos de vídeo pré-treinados aprendem *priors* poderosos para gerar conteúdo de alta qualidade e temporalmente coerente. Embora esses modelos se destaquem em coerência temporal, suas dinâmicas são frequentemente limitadas pela natureza contínua dos seus dados de treinamento. Nossa hipótese é que, ao injetar a rica e irrestrita diversidade de conteúdo dos dados de imagem nesta estrutura temporal coerente, podemos gerar conjuntos de imagens que apresentam tanto transições naturais quanto uma gama dinâmica muito mais expansiva. Para isso, introduzimos o iMontage, uma estrutura unificada projetada para readaptar um modelo de vídeo poderoso em um gerador de imagens completo. A estrutura consome e produz conjuntos de imagens de comprimento variável, unificando uma ampla gama de tarefas de geração e edição de imagens. Para alcançar este objetivo, propomos uma estratégia de adaptação elegante e minimamente invasiva, complementada por um processo de curadoria de dados e um paradigma de treinamento específicos. Esta abordagem permite que o modelo adquira amplas capacidades de manipulação de imagem sem corromper seus inestimáveis *priors* originais de movimento. O iMontage se destaca em várias tarefas principais do tipo *many-in-many-out*, mantendo não apenas uma forte consistência contextual entre imagens, mas também gerando cenas com dinâmicas extraordinárias que ultrapassam os escopos convencionais. Acesse nossa página em: https://kr1sjfu.github.io/iMontage-web/.

GigaWorld-0: Modelos de Mundo como Motor de Dados para Capacitar a IA Corporificada
GigaWorld-0: World Models as Data Engine to Empower Embodied AI

Nov 25

ByGigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu

Os modelos de mundo estão emergindo como um paradigma fundamental para a IA incorporada escalável e eficiente em dados. Neste trabalho, apresentamos o GigaWorld-0, uma estrutura unificada de modelo de mundo projetada explicitamente como um motor de dados para aprendizado de Visão-Linguagem-Ação (VLA). O GigaWorld-0 integra dois componentes sinérgicos: o GigaWorld-0-Video, que aproveita a geração de vídeo em larga escala para produzir sequências incorporadas diversas, ricas em textura e temporalmente coerentes sob controle refinado de aparência, ponto de vista da câmera e semântica de ação; e o GigaWorld-0-3D, que combina modelagem generativa 3D, reconstrução por *3D Gaussian Splatting*, identificação de sistemas fisicamente diferenciável e planejamento de movimento executável para garantir consistência geométrica e realismo físico. Sua otimização conjunta permite a síntese escalável de dados de interação incorporada que são visualmente atraentes, espacialmente coerentes, fisicamente plausíveis e alinhados com instruções. O treinamento em escala é viabilizado por nossa eficiente estrutura GigaTrain, que explora precisão FP8 e atenção esparsa para reduzir drasticamente os requisitos de memória e computação. Realizamos avaliações abrangentes mostrando que o GigaWorld-0 gera dados de alta qualidade, diversificados e controláveis em múltiplas dimensões. Crucialmente, modelos VLA (por exemplo, GigaBrain-0) treinados com dados gerados pelo GigaWorld-0 alcançam forte desempenho no mundo real, melhorando significativamente a generalização e o sucesso de tarefas em robôs físicos sem qualquer interação com o mundo real durante o treinamento.

SSA: Atenção Esparsa Esparsa por meio do Alinhamento de Saídas de Atenção Plena e Esparsa no Espaço de Características
SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space

Nov 25

ByZhenyi Shen, Junru Lu, Lin Gui, Jiazheng Li, Yulan He, Di Yin, Xing Sun

A complexidade quadrática da atenção completa limita o processamento eficiente de contextos longos em grandes modelos de linguagem (LLMs). A atenção esparsa mitiga esse custo ao restringir cada consulta a atender a um subconjunto de tokens anteriores; no entanto, abordagens *training-free* frequentemente resultam em severa degradação de desempenho. Métodos nativos de atenção esparsa (por exemplo, NSA, MoBA) aliviam esse problema, mas exibem um paradoxo crítico: eles produzem menor esparsidade de atenção do que os modelos de atenção completa, apesar de visarem aproximar a atenção completa, o que pode restringir sua eficácia. Atribuímos este paradoxo a uma deficiência na atualização do gradiente: pares chave-valor de baixo posto excluídos durante o treinamento esparso não recebem contribuição direta nem gradientes retroativos e, portanto, nunca aprendem a supressão adequada. Para superar essa limitação, propomos a SSA (*Sparse Sparse Attention*), uma estrutura de treinamento unificada que considera tanto a atenção esparsa quanto a completa e impõe um alinhamento bidirecional em cada camada. Este projeto preserva o fluxo do gradiente para todos os tokens, enquanto incentiva explicitamente que as saídas da atenção esparsa se alinhem com suas contrapartes de atenção completa, promovendo assim uma esparsidade mais forte. Como resultado, a SSA alcança desempenho de última geração sob inferência com atenção esparsa e completa em múltiplos benchmarks de *commonsense*. Adicionalmente, a SSA permite que os modelos se adaptem suavemente a diferentes orçamentos de esparsidade; o desempenho melhora consistentemente à medida que mais tokens têm permissão para atender, suportando compensações flexíveis entre computação e desempenho no momento da inferência. Finalmente, mostramos que o treinamento nativo com atenção esparsa surpreendentemente melhora a extrapolação de contexto longo ao mitigar a superalocação de valores de atenção em áreas *sink*, com a SSA demonstrando a mais forte capacidade de extrapolação.

CLaRa: Conectando Recuperação e Geração com Raciocínio Latente Contínuo
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Nov 24

ByJie He, Richard He Bai, Sinead Williamson, Jeff Z. Pan, Navdeep Jaitly, Yizhe Zhang

A geração aumentada por recuperação (RAG) aprimora os grandes modelos de linguagem (LLMs) com conhecimento externo, mas ainda sofre com contextos longos e uma otimização disjunta entre recuperação e geração. Neste trabalho, propomos o CLaRa (Raciocínio Latente Contínuo), uma estrutura unificada que realiza compressão baseada em *embeddings* e otimização conjunta em um espaço contínuo compartilhado. Para obter vetores compactados semanticamente ricos e recuperáveis, introduzimos o SCP, uma estrutura de síntese de dados que preserva chaves, usando supervisão baseada em perguntas e respostas (QA) e paráfrase. O CLaRa então treina o rerranqueador e o gerador de forma *end-to-end* por meio de uma única função de perda de modelagem de linguagem, com gradientes fluindo através de ambos os módulos usando um estimador *top-k* diferenciável. Teoricamente, esta otimização unificada alinha a relevância da recuperação com a qualidade da resposta. Experimentos em múltiplos benchmarks de QA mostram que o CLaRa alcança um estado da arte em desempenho de compressão e rerranqueamento, frequentemente superando as linhas de base ajustadas (*fine-tuned*) baseadas em texto.

Relatório Técnico do HunyuanOCR
HunyuanOCR Technical Report

Nov 24

ByHunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang

Este artigo apresenta o HunyuanOCR, um Modelo de Linguagem de Visão (VLM) comercial, de código aberto e leve (1B de parâmetros) dedicado a tarefas de OCR. A arquitetura compreende um Vision Transformer (ViT) Nativo e um LLM leve conectados por meio de um adaptador MLP. O HunyuanOCR demonstra desempenho superior, superando APIs comerciais, pipelines tradicionais e modelos maiores (por exemplo, Qwen3-VL-4B). Especificamente, ele supera as soluções públicas atuais em tarefas de perceção (Detecção de Texto, Análise) e destaca-se em tarefas semânticas (IE, Tradução de Imagem-Texto), conquistando o primeiro lugar no Desafio ICDAR 2025 DIMT (Modalidade de Modelos Pequenos). Além disso, atinge resultados state-of-the-art (SOTA) no OCRBench entre VLMs com menos de 3B de parâmetros. O HunyuanOCR alcança avanços em três aspetos principais: 1) Unificação de Versatilidade e Eficiência: Implementamos suporte abrangente para capacidades essenciais, incluindo deteção, análise, IE, VQA e tradução, numa estrutura leve. Isto resolve as limitações dos estreitos "modelos especialistas em OCR" e dos ineficientes "VLMs Gerais". 2) Arquitetura Simplificada End-to-End: A adoção de um paradigma puramente end-to-end elimina dependências de módulos de pré-processamento (ex: análise de layout). Isto resolve fundamentalmente a propagação de erros comum nos pipelines tradicionais e simplifica a implantação do sistema. 3) Estratégias Baseadas em Dados e RL: Confirmamos o papel crucial de dados de alta qualidade e, pela primeira vez na indústria, demonstramos que estratégias de Aprendizagem por Reforço (RL) produzem ganhos significativos de desempenho em tarefas de OCR. O HunyuanOCR é oficialmente de código aberto no HuggingFace. Também fornecemos uma solução de implantação de alto desempenho baseada no vLLM, posicionando a sua eficiência produtiva no nível mais alto. Esperamos que este modelo impulse a investigação de ponta e forneça uma base sólida para aplicações industriais.

MagicWorld: Exploração Interativa de Mundos em Vídeo Guiada por Geometria
MagicWorld: Interactive Geometry-driven Video World Exploration

Nov 24

ByGuangyuan Li, Siming Zheng, Shuolin Xu, Jinwei Chen, Bo Li, Xiaobin Hu, Lei Zhao, Peng-Tao Jiang

Os métodos recentes de modelos de mundo de vídeo interativo geram a evolução da cena condicionada por instruções do usuário. Embora alcancem resultados impressionantes, duas limitações principais persistem. Primeiro, eles falham em explorar plenamente a correspondência entre o movimento da cena dirigido por instruções e a geometria 3D subjacente, o que resulta em instabilidade estrutural sob mudanças de ponto de vista. Segundo, eles facilmente esquecem informações históricas durante a interação multi-etapa, resultando em acúmulo de erros e deriva progressiva na semântica e estrutura da cena. Para resolver essas questões, propomos o MagicWorld, um modelo de mundo de vídeo interativo que integra prioridades geométricas 3D e recuperação histórica. O MagicWorld parte de uma única imagem de cena, emprega ações do usuário para dirigir a evolução dinâmica da cena e sintetiza autoregressivamente cenas contínuas. Introduzimos o Módulo de Geometria 3D Guiada por Ação (AG3D), que constrói uma nuvem de pontos a partir do primeiro quadro de cada interação e da ação correspondente, fornecendo restrições geométricas explícitas para transições de ponto de vista e, assim, melhorando a consistência estrutural. Propomos ainda o mecanismo de Recuperação de Cache Histórico (HCR), que recupera quadros históricos relevantes durante a geração e os injeta como sinais de condicionamento, ajudando o modelo a utilizar informações passadas da cena e mitigar o acúmulo de erros. Resultados experimentais demonstram que o MagicWorld alcança melhorias notáveis na estabilidade e continuidade da cena através das iterações de interação.

UltraViCo: Superando os Limites da Extrapolação em Transformadores de Difusão de Vídeo
UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Nov 25

ByMin Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu

Apesar dos avanços, os transformadores de difusão de vídeo ainda lutam para generalizar além do seu comprimento de treinamento, um desafio que denominamos extrapolação de comprimento de vídeo. Identificamos dois modos de falha: repetição periódica de conteúdo específica do modelo e uma degradação de qualidade universal. Trabalhos anteriores tentaram resolver a repetição via codificações posicionais, negligenciando a degradação de qualidade e alcançando apenas extrapolação limitada. Neste artigo, revisitamos este desafio a partir de uma visão mais fundamental: os mapas de atenção, que governam diretamente como o contexto influencia as saídas. Identificamos que ambos os modos de falha surgem de uma causa unificada: a dispersão da atenção, onde *tokens* além da janela de treinamento diluem os padrões de atenção aprendidos. Isto leva à degradação da qualidade, e a repetição emerge como um caso especial quando esta dispersão se estrutura em padrões de atenção periódicos, induzida pelas propriedades harmônicas das codificações posicionais. Com base nesta perceção, propomos o UltraViCo, um método *plug-and-play* e livre de treino que suprime a atenção para *tokens* além da janela de treinamento através de um fator de decaimento constante. Ao abordar conjuntamente ambos os modos de falha, superamos um amplo conjunto de linhas de base em vários modelos e rácios de extrapolação, empurrando o limite de extrapolação de 2x para 4x. Notavelmente, o método melhora o *Dynamic Degree* e a *Imaging Quality* em 233% e 40,5%, respetivamente, em relação ao melhor método anterior na extrapolação de 4x. Adicionalmente, o nosso método generaliza-se perfeitamente para tarefas *downstream*, como síntese e edição de vídeo controlável.

Fara-7B: Um Modelo de Agente Eficiente para Uso em Computação
Fara-7B: An Efficient Agentic Model for Computer Use

Nov 24

ByAhmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao

O progresso nos agentes de uso de computador (CUAs) tem sido limitado pela ausência de conjuntos de dados grandes e de alta qualidade que capturem como os humanos interagem com um computador. Embora os LLMs tenham prosperado com dados textuais abundantes, não existe um corpus comparável para trajetórias de CUAs. Para resolver essas lacunas, apresentamos o FaraGen, um novo sistema de geração de dados sintéticos para tarefas web multi-etapa. O FaraGen pode propor tarefas diversas a partir de sites frequentemente usados, gerar múltiplas tentativas de solução e filtrar trajetórias bem-sucedidas usando múltiplos verificadores. Ele alcança alta produtividade, rendimento e diversidade para tarefas web multi-etapa, produzindo trajetórias verificadas a aproximadamente US$ 1 cada. Usamos esses dados para treinar o Fara-7B, um modelo CUA nativo que percebe o computador usando apenas capturas de tela, executa ações por meio de coordenadas previstas e é pequeno o suficiente para ser executado localmente. Descobrimos que o Fara-7B supera outros modelos CUA de tamanho comparável em benchmarks como WebVoyager, Online-Mind2Web e WebTailBench – nosso novo benchmark que captura melhor tarefas web sub-representadas em benchmarks pré-existentes. Além disso, o Fara-7B é competitivo com modelos de fronteira muito maiores, ilustrando os principais benefícios de sistemas escaláveis de geração de dados no avanço de modelos agentivos pequenos e eficientes. Estamos disponibilizando o Fara-7B como open-weight no Microsoft Foundry e no HuggingFace, e estamos lançando o WebTailBench.

OmniAlpha: Uma Estrutura Sequência a Sequência para Geração Unificada Multi-Tarefa RGBA
OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

Nov 25

ByHao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan

Os modelos generativos têm se destacado na síntese RGB, mas aplicações do mundo real exigem manipulação RGBA. Isso criou um cenário fragmentado: modelos especializados e de tarefa única lidam com o canal alfa, mas carecem de versatilidade, enquanto estruturas unificadas multitarefa estão confinadas ao domínio RGB. Para preencher esta lacuna crítica, propomos o OmniAlpha, o primeiro framework generativo unificado e multitarefa para geração e edição sequencial de imagens RGBA. Sua arquitetura apresenta o MSRoPE-BiL, um novo método RoPE com um eixo de camada extensível bidirecional para seu backbone de Transformer de Difusão (DiT), permitindo o processamento simultâneo de múltiplas camadas RGBA de entrada e destino. Para alimentar este framework, introduzimos o AlphaLayers, um novo conjunto de dados com 1.000 tripletos multicamadas de alta qualidade, construído por meio de um novo pipeline automatizado de síntese e filtragem. Ao treinar o OmniAlpha de forma conjunta neste conjunto de dados através de um conjunto abrangente de 21 tarefas diversas, experimentos extensivos demonstram que nossa abordagem unificada supera consistentemente baselines especializadas e robustas. Mais notavelmente, o OmniAlpha alcança uma redução relativa dramática de 84,8% no SAD para matting sem máscara no AIM-500 e vence mais de 90% das preferências humanas em conclusão condicionada por camada. Nosso trabalho prova que um modelo unificado e multitarefa pode aprender uma representação compartilhada superior para RGBA, abrindo caminho para sistemas generativos mais poderosos e conscientes de camadas.

ReDirector: Criando Retomadas de Vídeo de Qualquer Duração com Codificação de Câmera Rotativa
ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

Nov 25

ByByeongjun Park, Byung-Hoon Kim, Hyungjin Chung, Jong Chul Ye

Apresentamos o ReDirector, um método inovador de geração de retomas de vídeo controlado por câmera para vídeos de comprimento variável capturados dinamicamente. Especificamente, retificamos um uso inadequado comum da RoPE em trabalhos anteriores, alinhando as posições espaço-temporais do vídeo de entrada e da retoma desejada. Além disso, introduzimos a Codificação Rotacional de Câmera (RoCE), um deslocamento de fase da RoPE condicionado por câmera que captura e integra relações multi-visão dentro e entre os vídeos de entrada e destino. Ao integrar condições de câmera na RoPE, nosso método generaliza para trajetórias de câmera e comprimentos de vídeo fora da distribuição, resultando em uma localização aprimorada de objetos dinâmicos e preservação estática do plano de fundo. Experimentos extensivos demonstram ainda melhorias significativas na controlabilidade da câmera, consistência geométrica e qualidade de vídeo em várias trajetórias e comprimentos.

Fundações Cognitivas para o Raciocínio e Sua Manifestação em LLMs
Cognitive Foundations for Reasoning and Their Manifestation in LLMs

Nov 20

ByPriyanka Kargupta, Shuyue Stella Li, Haocheng Wang, Jinu Lee, Shan Chen, Orevaoghene Ahia, Dean Light, Thomas L. Griffiths, Max Kleiman-Weiner, Jiawei Han, Asli Celikyilmaz, Yulia Tsvetkov

Os modelos de linguagem de grande escala (LLMs) resolvem problemas complexos, mas falham em variantes mais simples, sugerindo que alcançam resultados corretos por meio de mecanismos fundamentalmente diferentes do raciocínio humano. Para compreender esta lacuna, sintetizamos pesquisas da ciência cognitiva numa taxonomia de 28 elementos cognitivos, abrangendo invariantes de raciocínio, controlos metacognitivos, representações para organizar o raciocínio e o conhecimento, e operações de transformação. Introduzimos um quadro de avaliação de granularidade fina e conduzimos a primeira análise empírica em larga escala de 192 mil *traces* (registos de processo) de 18 modelos através de texto, visão e áudio, complementada por 54 *traces* de protocolos verbais humanos, que disponibilizamos publicamente. Concluímos que os modelos subutilizam elementos cognitivos correlacionados com o sucesso, restringindo-se a um processamento sequencial rígido em problemas mal estruturados, onde representações diversificadas e monitorização metacognitiva são críticas. Os *traces* humanos mostram mais abstração e processamento conceptual, enquanto os modelos recorrem por padrão a enumeração superficial. Uma meta-análise de 1.600 artigos sobre raciocínio em LLMs revela que a comunidade de investigação se concentra em elementos facilmente quantificáveis (organização sequencial: 55%, decomposição: 60%), mas negligencia os controlos metacognitivos (autoconsciência: 16%) que se correlacionam com o sucesso. Os modelos possuem repertórios comportamentais associados ao sucesso, mas falham em implantá-los espontaneamente. Aproveitando estes padrões, desenvolvemos uma orientação de raciocínio em tempo de teste que estrutura automaticamente as estruturas de sucesso, melhorando o desempenho em até 66,7% em problemas complexos. Ao estabelecer uma linguagem comum entre a ciência cognitiva e a investigação em LLMs, o nosso quadro permite um diagnóstico sistemático de falhas de raciocínio e o desenvolvimento fundamentado de modelos que raciocinam através de mecanismos cognitivos robustos, em vez de atalhos espúrios, fornecendo simultaneamente ferramentas para testar teorias da cognição humana em larga escala.

Escalando o Aprendizado por Reforço Agente para Raciocínio com Integração de Ferramentas em VLMs
Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

Nov 24

ByMeng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang

Embora os modelos visuais-linguísticos (VLMs) recentes demonstrem forte compreensão de imagens, sua capacidade de "pensar com imagens", ou seja, raciocinar por meio de interações visuais multi-etapas, permanece limitada. Apresentamos o VISTA-Gym, um ambiente de treinamento escalável para incentivar capacidades de raciocínio visual integrado a ferramentas em VLMs. O VISTA-Gym unifica diversas tarefas de raciocínio multimodal do mundo real (7 tarefas de 13 conjuntos de dados no total) com uma interface padronizada para ferramentas visuais (ex.: localização, análise sintática), loops de interação executáveis, sinais de feedback verificáveis e registro eficiente de trajetórias, permitindo o aprendizado por reforço agentivo visual em escala. Embora VLMs recentes exibam forte raciocínio apenas com texto, tanto modelos proprietários quanto de código aberto ainda lutam com seleção, invocação e coordenação de ferramentas. Com o VISTA-Gym, treinamos o VISTA-R1 para intercalar o uso de ferramentas com raciocínio agentivo por meio de amostragem de trajetória multi-turno e aprendizado por reforço de ponta a ponta. Experimentos extensos em 11 benchmarks públicos de VQA intensivos em raciocínio mostram que o VISTA-R1-8B supera as linhas de base state-of-the-art de tamanhos similares em 9,51%-18,72%, demonstrando o VISTA-Gym como um campo de treinamento eficaz para liberar as capacidades de raciocínio integrado a ferramentas para VLMs.

Pense Visualmente, Raciocine Textualmente: A Sinergia Visão-Linguagem no ARC
Think Visually, Reason Textually: Vision-Language Synergy in ARC

Nov 19

ByBeichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang

A inferência abstrata a partir de exemplos mínimos continua sendo um problema central não resolvido para modelos de base de vanguarda, como GPT-5 e Grok 4. Esses modelos ainda falham em inferir regras de transformação estruturadas a partir de um punhado de exemplos, o que é uma característica fundamental da inteligência humana. O *Abstraction and Reasoning Corpus for Artificial General Intelligence* (ARC-AGI) fornece um ambiente de teste rigoroso para essa capacidade, exigindo indução conceitual de regras e transferência para tarefas novas. A maioria dos métodos existentes trata o ARC-AGI como uma tarefa de raciocínio puramente textual, ignorando o fato de que os humanos dependem fortemente da abstração visual ao resolver esses quebra-cabeças. No entanto, nossos experimentos piloto revelam um paradoxo: a renderização ingênua das grades do ARC-AGI como imagens degrada o desempenho devido à execução imprecisa de regras. Isso leva à nossa hipótese central de que a visão e a linguagem possuem pontos fortes complementares em diferentes estágios do raciocínio: a visão suporta a abstração e verificação de padrões globais, enquanto a linguagem se especializa na formulação simbólica de regras e na execução precisa. Com base nessa percepção, introduzimos duas estratégias sinérgicas: (1) *Vision-Language Synergy Reasoning* (VLSR), que decompõe o ARC-AGI em subtarefas alinhadas por modalidade; e (2) *Modality-Switch Self-Correction* (MSSC), que aproveita a visão para verificar o raciocínio baseado em texto para correção intrínseca de erros. Experimentos extensivos demonstram que nossa abordagem produz uma melhoria de até 4,33% em relação às linhas de base apenas de texto em diversos modelos emblemáticos e em múltiplas tarefas do ARC-AGI. Nossos achados sugerem que unificar a abstração visual com o raciocínio linguístico é um passo crucial para alcançar uma inteligência generalizável e semelhante à humana nos futuros modelos de base. O código-fonte será divulgado em breve.

MajutsuCity: Geração de Cidades com Adaptação Estética Orientada por Linguagem, Utilizando Ativos 3D e Layouts Controláveis
MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

Nov 25

ByZilong Huang, Jun He, Xiaobin Huang, Ziyi Xiong, Yang Luo, Junyan Ye, Weijia Li, Yiping Chen, Ting Han

A geração de cidades 3D realistas é fundamental para modelos de mundo, realidade virtual e desenvolvimento de jogos, onde uma cena urbana ideal deve satisfazer simultaneamente diversidade estilística, granularidade fina e controlabilidade. No entanto, os métodos existentes lutam para equilibrar a flexibilidade criativa oferecida pela geração baseada em texto com a editabilidade a nível de objeto possibilitada por representações estruturais explícitas. Apresentamos a MajutsuCity, uma estrutura orientada por linguagem natural e esteticamente adaptativa para sintetizar cenas urbanas 3D estruturalmente consistentes e estilisticamente diversas. A MajutsuCity representa uma cidade como uma composição de layouts, *assets* e materiais controláveis, e opera através de um *pipeline* de quatro estágios. Para estender a controlabilidade para além da geração inicial, integramos ainda o MajutsuAgent, um agente de edição interativo baseado em linguagem que suporta cinco operações a nível de objeto. Para suportar a síntese de cenas foto-realistas e personalizáveis, também construímos o MajutsuDataset, um conjunto de dados multimodais de alta qualidade contendo layouts semânticos 2D e mapas de altura, diversos *assets* de edifícios 3D, e materiais PBR e *skyboxes* curados, cada um acompanhado por anotações detalhadas. Paralelamente, desenvolvemos um conjunto prático de métricas de avaliação, cobrindo dimensões-chave como consistência estrutural, complexidade da cena, fidelidade do material e atmosfera de iluminação. Experimentos extensivos demonstram que a MajutsuCity reduz o FID do layout em 83,7% em comparação com o CityDreamer e em 20,1% em relação ao CityCraft. O nosso método classifica-se em primeiro lugar em todos os scores AQS e RDR, superando os métodos existentes por uma margem clara. Estes resultados confirmam a MajutsuCity como um novo estado da arte em fidelidade geométrica, adaptabilidade estilística e controlabilidade semântica para a geração de cidades 3D. Esperamos que a nossa estrutura possa inspirar novas vias de investigação na geração de cidades 3D. O nosso conjunto de dados e código serão disponibilizados em https://github.com/LongHZ140516/MajutsuCity.

VQ-VA World: Rumo a Perguntas Visuais-Respostas Visuais de Alta Qualidade
VQ-VA World: Towards High-Quality Visual Question-Visual Answering

Nov 25

ByChenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi

Este artigo estuda a Visual Question-Visual Answering (VQ-VA): a geração de uma imagem, em vez de texto, em resposta a uma questão visual — uma capacidade que surgiu recentemente em sistemas proprietários como o NanoBanana e o GPT-Image. Para também levar essa capacidade a modelos de código aberto, introduzimos o VQ-VA World, uma estrutura centrada em dados construída em torno de um pipeline de agente para a construção de dados em larga escala e direcionada. Aproveitando uma implantação em escala web, este pipeline rastreia uma quantidade massiva de aproximadamente 1,8 milhão de amostras intercaladas de imagem-texto de alta qualidade para o treinamento de modelos. Para avaliação, lançamos ainda o IntelligentBench, um benchmark curado por humanos que avalia sistematicamente a VQ-VA nos aspectos de conhecimento mundial, conhecimento de design e raciocínio. O treinamento com os dados do VQ-VA World produz ganhos empíricos significativos: ele ajuda o LightFusion a atingir 53,06 no IntelligentBench, superando substancialmente as melhores bases de código aberto anteriores (ou seja, 7,78 do LightFusion padrão; 1,94 do UniWorld-V1) e reduzindo significativamente a lacuna em relação aos sistemas proprietários líderes (por exemplo, 81,67 do NanoBanana; 82,64 do GPT-Image). Ao disponibilizar o conjunto completo de pesos do modelo, conjuntos de dados e pipelines, esperamos estimular pesquisas futuras sobre VQ-VA.

Cozinhar e Limpar Juntos: Ensinando Agentes Corporificados para Execução Paralela de Tarefas
Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

Nov 24

ByDingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai

O agendamento de tarefas é crucial para a IA incorporada, permitindo que agentes sigam instruções em linguagem natural e executem ações eficientemente em mundos físicos 3D. Entretanto, conjuntos de dados existentes frequentemente simplificam o planejamento de tarefas ignorando conhecimentos de pesquisa operacional (PO) e a ancoragem espacial 3D. Neste trabalho, propomos o Agendamento de Tarefas com Base em Conhecimento de Pesquisa Operacional e Ancoragem 3D (ORS3D), uma nova tarefa que exige a sinergia entre compreensão linguística, ancoragem 3D e otimização de eficiência. Diferente de configurações anteriores, o ORS3D exige que os agentes minimizem o tempo total de conclusão aproveitando subtarefas paralelizáveis, por exemplo, limpando a pia enquanto o micro-ondas funciona. Para facilitar a pesquisa sobre ORS3D, construímos o ORS3D-60K, um conjunto de dados em larga escala com 60 mil tarefas compostas em 4 mil cenas do mundo real. Adicionalmente, propomos o GRANT, um modelo de linguagem grande multimodal incorporado equipado com um mecanismo de token de agendamento simples porém eficaz para gerar cronogramas eficientes de tarefas e ações ancoradas. Experimentos extensivos no ORS3D-60K validam a eficácia do GRANT em compreensão linguística, ancoragem 3D e eficiência de agendamento. O código está disponível em https://github.com/H-EmbodVis/GRANT.

Yo'City: Geração Personalizada e Ilimitada de Cenas Urbanas 3D Realistas via Expansão Autocrítica
Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Nov 24

ByKeyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li

A geração realista de cidades 3D é fundamental para uma ampla gama de aplicações, incluindo realidade virtual e *digital twins*. No entanto, a maioria dos métodos existentes depende do treinamento de um único modelo de difusão, o que limita sua capacidade de gerar cenas em escala urbana personalizadas e ilimitadas. Neste artigo, apresentamos o Yo'City, uma nova estrutura agentiva que permite a geração de cidades 3D personalizáveis pelo utilizador e infinitamente expansíveis, aproveitando as capacidades de raciocínio e composição de modelos de grande porte disponíveis no mercado. Especificamente, o Yo'City primeiro conceptualiza a cidade através de uma estratégia de planeamento *top-down* que define uma estrutura hierárquica "Cidade-Distrito-Grelha". O Planeador Global determina o layout geral e os potenciais distritos funcionais, enquanto o Designer Local refina ainda mais cada distrito com descrições detalhadas ao nível da grelha. Posteriormente, a geração 3D ao nível da grelha é alcançada através de um ciclo de síntese de imagem isométrica "produzir-refinar-avaliar", seguido pela geração de imagem-para-3D. Para simular uma evolução contínua da cidade, o Yo'City introduz ainda um mecanismo de expansão interativo com o utilizador e guiado por relações, que executa uma otimização de layout com consciência da distância e da semântica baseada em grafos de cena, garantindo um crescimento urbano espacialmente coerente. Para avaliar abrangentemente o nosso método, construímos um conjunto de dados de referência diversificado e projetámos seis métricas multidimensionais que avaliam a qualidade da geração a partir das perspetivas de semântica, geometria, textura e layout. Experiências extensivas demonstram que o Yo'City supera consistentemente os métodos state-of-the-art existentes em todos os aspetos de avaliação.

PhysChoreo: Geração de Vídeo Controlada por Física com Ancoragem Semântica Consciente de Partes
PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

Nov 25

ByHaoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo

Embora os modelos recentes de geração de vídeo tenham alcançado uma fidelidade visual significativa, eles frequentemente sofrem com a falta de controlabilidade física explícita e plausibilidade. Para resolver isso, alguns estudos recentes tentaram orientar a geração de vídeo com renderização baseada em física. No entanto, esses métodos enfrentam desafios inerentes em modelar com precisão propriedades físicas complexas e controlar efetivamente o comportamento físico resultante ao longo de sequências temporais estendidas. Neste trabalho, introduzimos o PhysChoreo, uma nova estrutura que pode gerar vídeos com diversificada controlabilidade e realismo físico a partir de uma única imagem. Nosso método consiste em dois estágios: primeiro, ele estima as propriedades físicas iniciais estáticas de todos os objetos na imagem através de uma reconstrução de propriedades físicas com consciência de partes. Em seguida, por meio de uma simulação temporalmente instruída e fisicamente editável, ele sintetiza vídeos de alta qualidade com comportamentos dinâmicos ricos e realismo físico. Resultados experimentais mostram que o PhysChoreo pode gerar vídeos com comportamentos ricos e realismo físico, superando métodos state-of-the-art em múltiplas métricas de avaliação.

Elevando o Tênis de Mesa: Uma Aplicação Robusta no Mundo Real para Estimativa de Trajetória 3D e Efeito
Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation

Nov 25

ByDaniel Kienzle, Katja Ludwig, Julian Lorenz, Shin'ichi Satoh, Rainer Lienhart

A obtenção do movimento 3D preciso de uma bola de ténis de mesa a partir de vídeos monoculares padrão é um problema desafiador, uma vez que os métodos existentes treinados em dados sintéticos lutam para generalizar para as deteções ruidosas e imperfeitas da bola e da mesa do mundo real. Isto deve-se principalmente à falta inerente de trajetórias 3D de *ground truth* e anotações de *spin* para vídeo do mundo real. Para superar isto, propomos um *pipeline* inovador de dois estágios que divide o problema numa tarefa de perceção de *front-end* e numa tarefa de elevação (*uplifting*) 2D-para-3D de *back-end*. Esta separação permite-nos treinar os componentes de *front-end* com supervisão 2D abundante do nosso novo conjunto de dados TTHQ, enquanto a rede de elevação de *back-end* é treinada exclusivamente em dados sintéticos fisicamente corretos. Especificamente, reestruturamos o modelo de elevação para ser robusto a artefactos comuns do mundo real, como deteções em falta e taxas de *frames* variáveis. Ao integrar um detetor de bolas e um detetor de pontos-chave da mesa, a nossa abordagem transforma um método de elevação de prova de conceito numa aplicação prática, robusta e de alto desempenho de ponta a ponta para análise de trajetória e *spin* 3D no ténis de mesa.

DiffSeg30k: Um Benchmark de Edição por Difusão em Múltiplas Etapas para Detecção Localizada de AIGC
DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

Nov 24

ByHai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou

A edição baseada em difusão permite a modificação realista de regiões locais de imagens, tornando o conteúdo gerado por IA mais difícil de detectar. Os atuais benchmarks de detecção de AIGC concentram-se na classificação de imagens inteiras, negligenciando a localização de edições baseadas em difusão. Apresentamos o DiffSeg30k, um conjunto de dados publicamente disponível com 30 mil imagens editadas por difusão e anotações a nível de pixel, projetado para suportar a detecção de granularidade fina. O DiffSeg30k possui: 1) Imagens do mundo real—coletamos imagens ou prompts de imagem do COCO para refletir a diversidade de conteúdo do mundo real; 2) Modelos de difusão diversos—edições locais utilizando oito modelos de difusão state-of-the-art (SOTA); 3) Edição multi-etapas—cada imagem passa por até três edições sequenciais para simular a edição sequencial do mundo real; e 4) Cenários de edição realistas—um *pipeline* baseado em um modelo de visão e linguagem (VLM) identifica automaticamente regiões significativas e gera *prompts* contextualmente conscientes que cobrem adições, remoções e alterações de atributos. O DiffSeg30k muda a detecção de AIGC da classificação binária para a segmentação semântica, permitindo a localização simultânea das edições e a identificação dos modelos de edição. Avaliamos três abordagens de segmentação de base, revelando desafios significativos em tarefas de segmentação semântica, particularmente no que diz respeito à robustez a distorções de imagem. Os experimentos também revelam que os modelos de segmentação, apesar de serem treinados para localização a nível de pixel, surgem como classificadores de imagem inteira altamente confiáveis para edições de difusão, superando classificadores de falsificação estabelecidos enquanto mostram grande potencial na generalização cruzada entre geradores. Acreditamos que o DiffSeg30k avançará a pesquisa na localização de granularidade fina de conteúdo gerado por IA ao demonstrar a promessa e as limitações dos métodos baseados em segmentação. O DiffSeg30k foi lançado em: https://huggingface.co/datasets/Chaos2629/Diffseg30k

Amostragem de Lotes com Consciência de Conceito Melhora o Pré-treinamento de Linguagem e Imagem
Concept-Aware Batch Sampling Improves Language-Image Pretraining

Nov 25

ByAdhiraj Ghosh, Vishaal Udandarao, Thao Nguyen, Matteo Farina, Mehdi Cherti, Jenia Jitsev, Sewoong Oh, Elisa Ricci, Ludwig Schmidt, Matthias Bethge

Que dados devem ser usados para treinar um modelo visão-linguagem? Para responder a esta questão, muitos esforços de curadoria de dados centram-se na qualidade de um conjunto de dados. No entanto, a maioria destes métodos existentes são (i) *offline*, ou seja, produzem um conjunto de dados estático a partir de um conjunto de critérios de filtragem predeterminados, e (ii) *agnósticos em relação a conceitos*, ou seja, utilizam filtros baseados em modelos que induzem vieses adicionais nos dados. Neste trabalho, vamos além destes métodos *offline* e agnósticos em relação a conceitos, defendendo uma curadoria *online* baseada em conceitos, mais flexível e adaptativa à tarefa. A nossa primeira contribuição é o DataConcept, uma coleção de 128 milhões de pares imagem-texto extraídos da web, anotados com detalhes refinados sobre a sua composição conceptual. Com base no DataConcept, introduzimos a Amostragem de Lotes com Consciência Conceptual (CABS), uma estrutura de amostragem de lotes simples mas eficaz que constrói lotes de forma dinâmica com base em distribuições-alvo específicas. Propomos duas variantes: (i) Maximização da Diversidade (CABS-DM) para criar lotes com uma ampla cobertura de conceitos disponíveis, e (ii) Maximização da Frequência (CABS-FM) para criar lotes com alta multiplicidade de objetos. Através de avaliações extensas em 28 *benchmarks*, demonstramos que o nosso método CABS beneficia significativamente as classes de modelos CLIP/SigLIP e produz modelos de alto desempenho. No geral, o CABS representa uma alternativa de código aberto robusta aos algoritmos proprietários de curadoria de dados *online*, permitindo que os profissionais definam distribuições conceptuais personalizadas que otimizem tarefas específicas a jusante.

Geração Diversificada de Vídeos com Otimização de Políticas Guiada por Processos Pontuais Determinantais
Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

Nov 25

ByTahira Kazimi, Connor Dunlop, Pinar Yanardag

Embora os recentes modelos de difusão texto-para-vídeo (T2V) tenham alcançado qualidade e alinhamento impressionantes com os prompts, eles frequentemente produzem resultados de baixa diversidade ao amostrar múltiplos vídeos a partir de um único prompt de texto. Enfrentamos este desafio formulando-o como um problema de otimização de política em nível de conjunto, com o objetivo de treinar uma política que possa abranger a ampla gama de resultados plausíveis para um determinado prompt. Para resolver isso, introduzimos o DPP-GRPO, uma estrutura nova para geração diversificada de vídeos que combina as teorias dos Processos Pontuais Determinantais (DPPs) e da Otimização de Política Relativa em Grupo (GRPO) para impor uma recompensa explícita em gerações diversas. Nossa abordagem transforma a diversidade em um sinal explícito ao impor retornos decrescentes em amostras redundantes (via DPP) enquanto fornece feedback em grupo sobre conjuntos de candidatos (via GRPO). Nossa estrutura é plug-and-play e agnóstica ao modelo, e incentiva gerações diversas em aparência visual, movimentos de câmera e estrutura de cena sem sacrificar a fidelidade ao prompt ou a qualidade perceptual. Implementamos nosso método no WAN e no CogVideoX, e demonstramos que ele melhora consistentemente a diversidade dos vídeos em benchmarks state-of-the-art, como VBench, VideoScore e estudos de preferência humana. Além disso, disponibilizamos nosso código e um novo conjunto de dados de benchmark com 30.000 prompts diversos para apoiar pesquisas futuras.

O Futuro Está Desigualmente Distribuído: A Capacidade Preditiva dos LLMs Depende do que Perguntamos
Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking

Nov 23

ByChinmay Karkar, Paras Chopra

Os Grandes Modelos de Linguagem (LLMs) demonstram competência preditiva parcial em eventos sociais, políticos e econômicos. No entanto, sua capacidade preditiva varia drasticamente com a estrutura do domínio e a formulação dos prompts. Investigamos como o desempenho preditivo varia entre diferentes famílias de modelos em questões do mundo real sobre eventos ocorridos após a data de corte do modelo. Analisamos como o contexto, o tipo de questão e o conhecimento externo afetam a precisão e a calibração, e como a adição de contexto factual noticioso modifica a formação de crenças e os modos de falha. Nossos resultados mostram que a capacidade de previsão é altamente variável, pois depende do que perguntamos e de como perguntamos.

Geração unificada de moléculas em nível atômico com campos neurais
Unified all-atom molecule generation with neural fields

Nov 19

ByMatthieu Kirchmeyer, Pedro O. Pinheiro, Emma Willett, Karolis Martinkus, Joseph Kleinhenz, Emily K. Makowski, Andrew M. Watkins, Vladimir Gligorijevic, Richard Bonneau, Saeed Saremi

Os modelos generativos para o projeto de fármacos baseado em estrutura frequentemente limitam-se a uma modalidade específica, restringindo sua aplicabilidade mais ampla. Para enfrentar esse desafio, introduzimos o FuncBind, uma estrutura baseada em visão computacional para gerar moléculas com átomos completos condicionadas ao alvo, através de sistemas atômicos. O FuncBind utiliza campos neurais para representar moléculas como densidades atômicas contínuas e emprega modelos generativos baseados em pontuação com arquiteturas modernas adaptadas da literatura de visão computacional. Esta representação agnóstica à modalidade permite que um único modelo unificado seja treinado em diversos sistemas atômicos, desde pequenas moléculas até macromoléculas, e lide com contagens variáveis de átomos/resíduos, incluindo aminoácidos não canônicos. O FuncBind alcança desempenho competitivo in silico na geração de pequenas moléculas, peptídeos macrocíclicos e alças da região determinante da complementaridade de anticorpos, condicionados a estruturas alvo. O FuncBind também gerou novos ligantes de anticorpos in vitro via redesenho de novo da alça H3 da região determinante da complementaridade de duas estruturas co-cristal escolhidas. Como contribuição final, introduzimos um novo conjunto de dados e benchmark para a geração de peptídeos macrocíclicos condicionados por estrutura. O código está disponível em https://github.com/prescient-design/funcbind.

SciEducator: Compreensão e Educação Científica por Vídeo através de Sistema Multi-Agente baseado no Ciclo de Deming
SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

Nov 22

ByZhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan

Os recentes avanços nos modelos de linguagem grandes multimodais (MLLMs) e nos sistemas de agentes de vídeo melhoraram significativamente a compreensão geral de vídeos. No entanto, quando aplicados à compreensão e educação científica por vídeo, um domínio que exige a integração de conhecimento profissional externo e um raciocínio rigoroso passo a passo, as abordagens existentes frequentemente apresentam dificuldades. Para preencher essa lacuna, propomos o SciEducator, o primeiro sistema multiagente de auto-evolução iterativa para compreensão e educação científica por vídeo. Baseado no clássico Ciclo de Deming da ciência da gestão, nosso projeto reformula sua filosofia Planejar-Fazer-Verificar-Agir em um mecanismo de raciocínio e feedback de auto-evolução, que facilita a interpretação de atividades científicas complexas em vídeos. Além disso, o SciEducator pode produzir conteúdo educacional multimodal personalizado para processos científicos específicos, incluindo instruções textuais, guias visuais, narrações em áudio e referências interativas. Para apoiar a avaliação, construímos o SciVBench, um benchmark composto por 500 pares de perguntas e respostas científicas verificadas por especialistas e fundamentadas na literatura, abrangendo cinco categorias de fenômenos físicos, químicos e do cotidiano. Experimentos extensivos demonstram que o SciEducator supera substancialmente os principais MLLMs de código fechado (por exemplo, Gemini, GPT-4o) e os agentes de vídeo state-of-the-art no benchmark, estabelecendo um novo paradigma para a comunidade.