Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a Otimização de Políticas com Influência da KL Futura (FIPO), um algoritmo de aprendizagem por reforço projetado para superar os gargalos de raciocínio em modelos de linguagem de grande escala. Embora o treinamento no estilo GRPO seja eficaz em escala, ele normalmente depende de recompensas baseadas em resultados (ORM) que distribuem uma vantagem global de maneira uniforme por cada token em uma trajetória. Argumentamos que essa atribuição de crédito de granularidade grossa impõe um limite de desempenho ao falhar em distinguir pivôs lógicos críticos de tokens triviais. A FIPO aborda esta questão incorporando o divergência KL futura descontada na atualização da política, criando uma formulação de vantagem densa que repondera os tokens com base na sua influência no comportamento subsequente da trajetória. Empiricamente, a FIPO permite que os modelos superem a estagnação de comprimento observada nas linhas de base padrão. Avaliado no Qwen2.5-32B, o FIPO estende o comprimento médio da cadeia de raciocínio de aproximadamente 4.000 para mais de 10.000 tokens e aumenta a precisão AIME 2024 Pass@1 de 50,0% para um pico de 58,0% (convergindo para aproximadamente 56,0%). Este resultado supera tanto o DeepSeek-R1-Zero-Math-32B (cerca de 47,0%) quanto o o1-mini (aproximadamente 56,0%). Nossos resultados sugerem que estabelecer formulações de vantagem densa é um caminho vital para evoluir algoritmos baseados em ORM e desbloquear todo o potencial de raciocínio dos modelos base. Disponibilizamos publicamente nosso sistema de treinamento, construído sobre a estrutura verl.
A convergência das economias de baixa altitude, da inteligência incorporada e dos sistemas cooperativos ar-terra cria uma demanda crescente por infraestruturas de simulação capazes de modelar conjuntamente agentes aéreos e terrestres num único ambiente fisicamente coerente. As plataformas de código aberto existentes permanecem segregadas por domínio: os simuladores de condução carecem de dinâmicas aéreas, enquanto os simuladores de multirotores carecem de cenários terrestres realistas. A co-simulação baseada em ponte introduz sobrecarga de sincronização e não pode garantir consistência espaço-temporal estrita. Apresentamos o CARLA-Air, uma infraestrutura de código aberto que unifica a condução urbana de alta fidelidade e o voo de multirotores com precisão física num único processo do Unreal Engine. A plataforma preserva tanto as APIs nativas Python do CARLA e do AirSim como as interfaces ROS 2, permitindo a reutilização de código sem modificações. Dentro de um *pipeline* partilhado de *ticks* de física e renderização, o CARLA-Air oferece ambientes fotorrealistas com tráfego conforme às regras, peões com consciência social e dinâmicas de UAV aerodinamicamente consistentes, captando sincronamente até 18 modalidades de sensores em todas as plataformas em cada *tick*. A plataforma suporta cargas de trabalho representativas de inteligência incorporada ar-terra, abrangendo cooperação, navegação incorporada e ação visão-linguagem, perceção multimodal e construção de conjuntos de dados, e treino de políticas baseado em aprendizagem por reforço. Um *pipeline* de recursos extensível permite a integração de plataformas robóticas personalizadas no mundo partilhado. Ao herdar as capacidades aéreas do AirSim – cujo desenvolvimento *upstream* foi arquivado – o CARLA-Air garante que esta *stack* de voo amplamente adotada continua a evoluir dentro de uma infraestrutura moderna. Lançado com binários pré-compilados e código-fonte completo: https://github.com/louiszengCN/CarlaAir
O paradigma predominante de Predição do Próximo Token (NPT) tem impulsionado o sucesso dos grandes modelos de linguagem por meio da modelagem autoregressiva discreta. No entanto, os sistemas multimodais contemporâneos permanecem centrados na linguagem, frequentemente tratando modalidades não linguísticas como anexos externos, resultando em arquiteturas fragmentadas e integração subótima. Para superar essa limitação, introduzimos o Discrete Native Autoregressive (DiNA), um framework unificado que representa informações multimodais em um espaço discreto compartilhado, permitindo uma modelagem autoregressiva consistente e fundamentada entre modalidades. Uma inovação fundamental é o Discrete Native Any-resolution Visual Transformer (dNaViT), que realiza tokenização e detokenização em resoluções arbitrárias, transformando sinais visuais contínuos em tokens discretos hierárquicos. Com base nisso, desenvolvemos o LongCat-Next, um modelo multimodal nativo que processa texto, visão e áudio sob um único objetivo autoregressivo com design específico por modalidade mínimo. Como um modelo de base de força industrial, ele se destaca em ver, pintar e falar dentro de uma única estrutura, alcançando desempenho sólido em uma ampla gama de benchmarks multimodais. Em particular, o LongCat-Next aborda o limite de desempenho de longa data da modelagem visual discreta em tarefas de compreensão e fornece uma abordagem unificada para reconciliar efetivamente o conflito entre compreensão e geração. Como uma tentativa rumo à multimodalidade nativa, disponibilizamos em código aberto o LongCat-Next e seus tokenizadores, na esperança de fomentar mais pesquisa e desenvolvimento na comunidade. GitHub: https://github.com/meituan-longcat/LongCat-Next
A modelação de estados celulares e a previsão das suas respostas a perturbações são desafios centrais em biologia computacional e no desenvolvimento de células virtuais. Os modelos de base existentes para transcriptómica de célula única fornecem representações estáticas poderosas, mas não modelam explicitamente a distribuição de estados celulares para simulação generativa. Aqui, introduzimos o Lingshu-Cell, um modelo de difusão discreta mascarada que aprende as distribuições de estados transcriptómicos e suporta simulação condicional sob perturbação. Ao operar diretamente num espaço de *tokens* discretos compatível com a natureza esparsa e não sequencial dos dados de transcriptómica de célula única, o Lingshu-Cell captura dependências complexas de expressão a nível do transcriptoma completo em aproximadamente 18.000 genes, sem depender de seleção génica prévia, como a filtragem por alta variabilidade ou ordenação por nível de expressão. Em diversos tecidos e espécies, o Lingshu-Cell reproduz com precisão distribuições transcriptómicas, padrões de expressão de genes marcadores e proporções de subtipos celulares, demonstrando a sua capacidade de capturar heterogeneidade celular complexa. Além disso, ao incorporar conjuntamente a identidade do tipo celular ou do dador com a perturbação, o Lingshu-Cell pode prever alterações de expressão do transcriptoma completo para novas combinações de identidade e perturbação. O modelo atinge um desempenho líder no benchmark de perturbação genética H1 do Virtual Cell Challenge e na previsão de respostas induzidas por citocinas em PBMCs humanas. Em conjunto, estes resultados estabelecem o Lingshu-Cell como um modelo de mundo celular flexível para simulação *in silico* de estados celulares e respostas a perturbações, lançando as bases para um novo paradigma na descoberta biológica e no rastreio de perturbações.
Os modelos recentes de geração multimodal alcançaram progressos notáveis em tarefas de geração de propósito geral, mas continuam com dificuldades em instruções complexas e tarefas especializadas downstream. Inspirados pelo sucesso de frameworks avançados de agentes como o Claude Code, propomos o GEMS (Agente-Nativo de Geração Multimodal com Memória e Habilidades), um framework que supera as limitações inerentes dos modelos fundamentais tanto em tarefas gerais quanto downstream. O GEMS é construído sobre três componentes principais. O Loop do Agente introduz uma estrutura multiagente estruturada que melhora iterativamente a qualidade da geração por meio de otimização em loop fechado. A Memória do Agente fornece uma memória persistente em nível de trajetória que armazena hierarquicamente estados factuais e resumos experienciais comprimidos, permitindo uma visão global do processo de otimização enquanto reduz a redundância. A Habilidade do Agente oferece uma coleção extensível de conhecimentos especializados por domínio com carregamento sob demanda, permitindo que o sistema lide efetivamente com diversas aplicações downstream. Em cinco tarefas principais e quatro tarefas downstream, avaliadas em múltiplos backends generativos, o GEMS alcança consistentemente ganhos significativos de desempenho. Mais notavelmente, permite que o modelo leve Z-Image-Turbo de 6B supere o state-of-the-art Nano Banana 2 no GenEval2, demonstrando a eficácia do aproveitamento de agentes para estender as capacidades dos modelos além de seus limites originais.
Os modelos de fundação têm demonstrado sucesso notável em diversos domínios e tarefas, principalmente devido ao florescimento de conjuntos de dados em larga escala, diversificados e de alta qualidade. No entanto, na área de imagiologia médica, a curadoria e compilação de tais conjuntos de dados médicos são altamente desafiadoras devido à dependência de conhecimentos clínicos e a restrições éticas e de privacidade rigorosas, resultando numa escassez de conjuntos de dados médicos unificados em grande escala e dificultando o desenvolvimento de modelos de fundação médica robustos. Neste trabalho, apresentamos o maior levantamento até à data de conjuntos de dados de imagens médicas, abrangendo mais de 1.000 conjuntos de dados de acesso aberto com um catálogo sistemático das suas modalidades, tarefas, anatomias, anotações, limitações e potencial de integração. A nossa análise revela um panorama modesto em escala, fragmentado em tarefas de âmbito restrito e distribuído de forma desigual entre órgãos e modalidades, o que, por sua vez, limita a utilidade dos conjuntos de dados de imagens médicas existentes para o desenvolvimento de modelos de fundação médica versáteis e robustos. Para transformar a fragmentação em escala, propomos um paradigma de fusão orientado por metadados (MDFP) que integra conjuntos de dados públicos com modalidades ou tarefas partilhadas, transformando assim múltiplos silos de dados pequenos em recursos maiores e mais coerentes. Com base no MDFP, disponibilizamos um portal de descoberta interativo que permite a integração automatizada de conjuntos de dados de imagens médicas de ponta a ponta, e compilamos todos os conjuntos de dados pesquisados numa tabela unificada e estruturada que resume claramente as suas principais características e fornece ligações de referência, oferecendo à comunidade um repositório acessível e abrangente. Ao mapear o terreno atual e oferecer um caminho fundamentado para a consolidação de conjuntos de dados, o nosso levantamento fornece um roteiro prático para dimensionar os corpora de imagiologia médica, apoiando uma descoberta de dados mais rápida, uma criação de conjuntos de dados mais fundamentada e modelos de fundação médica mais capacitados.
Os modelos de difusão de vídeo em larga escala alcançam qualidade visual impressionante, mas frequentemente falham em preservar a consistência geométrica. Abordagens anteriores melhoram a consistência aumentando o gerador com módulos adicionais ou aplicando alinhamento com consciência geométrica. No entanto, modificações arquitetônicas podem comprometer a generalização de modelos pré-treinados em escala da internet, enquanto os métodos de alinhamento existentes são limitados a cenas estáticas e dependem de recompensas no espaço RGB que exigem decodificação repetida do VAE, incorrendo em sobrecarga computacional substancial e falhando na generalização para cenas dinâmicas do mundo real. Para preservar a capacidade pré-treinada enquanto melhora a consistência geométrica, propomos o VGGRPO (Visual Geometry GRPO), uma estrutura de pós-treinamento geométrica orientada por latentes para vídeo. O VGGRPO introduz um Modelo de Geometria Latente (LGM) que conecta os latentes de difusão de vídeo a modelos de base de geometria, permitindo a decodificação direta da geometria da cena a partir do espaço latente. Ao construir o LGM a partir de um modelo geométrico com capacidade de reconstrução 4D, o VGGRPO estende-se naturalmente a cenas dinâmicas, superando as limitações de cenas estáticas dos métodos anteriores. Com base nisso, realizamos a Otimização de Política Relativa de Grupo no espaço latente com duas recompensas complementares: uma recompensa de suavidade do movimento da câmera que penaliza trajetórias instáveis e uma recompensa de consistência de reprojeção geométrica que impõe coerência geométrica entre vistas. Experimentos em benchmarks estáticos e dinâmicos mostram que o VGGRPO melhora a estabilidade da câmera, a consistência geométrica e a qualidade geral, eliminando ao mesmo tempo a custosa decodificação VAE, tornando o reforço guiado por geometria no espaço latente uma abordagem eficiente e flexível para a geração de vídeo com consistência mundial.
Os modelos multimodais unificados oferecem uma arquitetura natural e promissora para compreender conhecimentos reais diversos e complexos, gerando simultaneamente imagens de alta qualidade. No entanto, eles ainda dependem principalmente de conhecimento paramétrico congelado, o que os faz ter dificuldades com a geração de imagens do mundo real que envolvem conceitos de cauda longa e intensivos em conhecimento. Inspirados pelo amplo sucesso de agentes em tarefas do mundo real, exploramos a modelagem agentiva para superar essa limitação. Especificamente, apresentamos o Unify-Agent, um agente multimodal unificado para síntese de imagens fundamentada no mundo real, que reformula a geração de imagens como um pipeline agentivo composto por compreensão de prompt, busca de evidências multimodais, recaptioning fundamentado e síntese final. Para treinar nosso modelo, construímos um pipeline de dados multimodal personalizado e curamos 143 mil trajetórias agentivas de alta qualidade para síntese de imagens fundamentada no mundo real, permitindo uma supervisão eficaz sobre todo o processo de geração agentivo. Introduzimos ainda o FactIP, um benchmark que abrange 12 categorias de conceitos factuais culturalmente significativos e de cauda longa que exigem explicitamente fundamentação em conhecimento externo. Experimentos extensivos mostram que nosso Unify-Agent proposto supera substancialmente seu modelo unificado base em diversos benchmarks e tarefas de geração do mundo real, ao mesmo tempo que se aproxima das capacidades de conhecimento mundial dos modelos proprietários mais robustos. Como uma exploração inicial da modelagem baseada em agentes para síntese de imagens fundamentada no mundo real, nosso trabalho destaca o valor do acoplamento estreito entre raciocínio, busca e geração para uma síntese agentiva de imagens confiável em mundo aberto.
A edição de conteúdo de vídeo com sincronização de áudio constitui uma forma de arte digital produzida por humanos nas atuais redes sociais. No entanto, a natureza demorada e repetitiva da edição manual de vídeo tem sido um desafio tanto para cineastas quanto para criadores de conteúdo profissionais. Neste artigo, apresentamos o CutClaw, uma estrutura autónoma de múltiplos agentes concebida para editar horas de filmagem bruta em vídeos curtos significativos, que aproveita as capacidades de múltiplos Modelos de Linguagem Multimodal (MLLMs) como um sistema de agentes. O sistema produz vídeos com música sincronizada, seguindo instruções e com uma aparência visualmente atrativa. Em detalhe, a nossa abordagem começa por empregar uma decomposição multimodal hierárquica que captura tanto detalhes refinados como estruturas globais através das filmagens visuais e sonoras. Em seguida, para garantir a consistência narrativa, um Agente Dramaturgo orquestra todo o fluxo da narrativa e estrutura a história de longo prazo, ancorando cenas visuais a transições musicais. Finalmente, para construir um vídeo editado curto, os Agentes Editor e Revisor otimizam colaborativamente o corte final através da seleção de conteúdo visual refinado com base em critérios estéticos e semânticos rigorosos. Realizamos experiências detalhadas para demonstrar que o CutClaw supera significativamente os métodos de referência state-of-the-art na geração de vídeos de alta qualidade e alinhados com o ritmo. O código está disponível em: https://github.com/GVCLab/CutClaw.
A fase fundamental de pré-treinamento determina o teto de capacidade de um modelo, uma vez que o pós-treinamento tem dificuldade em superar as bases de capacidade estabelecidas durante o pré-treinamento, no entanto, esta fase permanece criticamente subexplorada. Esta situação decorre de um paradoxo estrutural: organizações com recursos computacionais operam sob pressões comerciais que inibem a divulgação transparente, enquanto instituições académicas possuem liberdade de investigação mas carecem de recursos computacionais em escala de pré-treinamento. O daVinci-LLM ocupa esta interseção inexplorada, combinando recursos de escala industrial com plena liberdade de investigação para avançar a ciência do pré-treinamento. Adotamos um paradigma totalmente aberto que trata a abertura como metodologia científica, disponibilizando os *pipelines* completos de processamento de dados, os processos de treino integral e os resultados de exploração sistemática. Reconhecendo que a área carece de uma metodologia sistemática para o processamento de dados, empregamos o *framework* Data Darwinism, uma taxonomia principiada de L0 a L9 que vai da filtragem à síntese. Treinámos um modelo de 3B de parâmetros a partir de inicialização aleatória ao longo de 8T de *tokens*, utilizando um currículo adaptativo de dois estágios que progride gradualmente de capacidades fundamentais para um aprimoramento intensivo em raciocínio. Através de mais de 200 ablacões controladas, estabelecemos que: a profundidade do processamento aumenta sistematicamente as capacidades, estabelecendo-a como uma dimensão crítica a par da escala de volume; diferentes domínios exibem dinâmicas de saturação distintas, necessitando de estratégias adaptativas que vão desde ajustes de proporção até mudanças de formato; o equilíbrio composicional permite uma intensificação direcionada, evitando ao mesmo tempo o colapso de desempenho; e como as escolhas do protocolo de avaliação moldam a nossa compreensão do progresso do pré-treinamento. Ao disponibilizar o processo completo de exploração, permitimos que a comunidade construa sobre as nossas descobertas e metodologias sistemáticas para formar conhecimento científico acumulativo em pré-treinamento.
Os grandes modelos de linguagem (LLMs) podem gerar cadeias de pensamento (CoTs) que nem sempre são causalmente responsáveis por suas saídas finais. Quando ocorre essa discrepância, a CoT deixa de refletir fielmente os fatores críticos de decisão que orientam o comportamento do modelo, levando ao problema da monitorabilidade reduzida da CoT. No entanto, ainda falta um benchmark abrangente e totalmente de código aberto para estudar a monitorabilidade da CoT. Para preencher essa lacuna, propomos o MonitorBench, um benchmark sistemático para avaliar a monitorabilidade da CoT em LLMs. O MonitorBench oferece: (1) um conjunto diversificado de 1.514 instâncias de teste com fatores críticos de decisão cuidadosamente projetados em 19 tarefas abrangendo 7 categorias, para caracterizar quando as CoTs podem ser usadas para monitorar os fatores que orientam o comportamento dos LLMs; e (2) duas configurações de teste de estresse para quantificar até que ponto a monitorabilidade da CoT pode ser degradada. Experimentos extensos em vários LLMs populares com capacidades variadas mostram que a monitorabilidade da CoT é maior quando a produção da resposta final requer raciocínio estrutural através do fator crítico de decisão. LLMs de código fechado geralmente apresentam menor monitorabilidade, e existe uma relação negativa entre monitorabilidade e capacidade do modelo. Além disso, tanto LLMs de código aberto quanto fechado podem reduzir intencionalmente a monitorabilidade sob testes de estresse, com a monitorabilidade caindo até 30% em algumas tarefas que não requerem raciocínio estrutural sobre os fatores críticos de decisão. Além dessas percepções empíricas, o MonitorBench fornece uma base para pesquisas futuras sobre a avaliação de LLMs, o estudo de técnicas avançadas de monitorabilidade em testes de estresse e o desenvolvimento de novas abordagens de monitoramento.
Neste artigo, propomos o Extend3D, um *pipeline* livre de treinamento para geração de cenas 3D a partir de uma única imagem, construído sobre um modelo generativo 3D centrado em objetos. Para superar as limitações dos espaços latentes de tamanho fixo nos modelos centrados em objetos para representar cenas amplas, estendemos o espaço latente nas direções x e y. Em seguida, dividindo o espaço latente estendido em *patches* sobrepostos, aplicamos o modelo generativo 3D centrado em objetos a cada *patch* e os acoplamos a cada passo de tempo. Uma vez que a geração 3D por *patches* com condicionamento por imagem requer um alinhamento espacial rigoroso entre a imagem e os *patches* latentes, inicializamos a cena usando um *prior* de nuvem de pontos de um estimador de profundidade monocular e refinamos iterativamente as regiões ocluídas através do SDEdit. Descobrimos que tratar a incompletude da estrutura 3D como ruído durante o refinamento 3D permite a conclusão 3D através de um conceito que denominamos *under-noising*. Adicionalmente, para abordar a sub-otimalidade dos modelos centrados em objetos para a geração de subcenas, otimizamos o latente estendido durante a remoção de ruído, garantindo que as trajetórias de remoção de ruído permaneçam consistentes com a dinâmica da subcena. Para este fim, introduzimos objetivos de otimização com consciência 3D para melhorar a estrutura geométrica e a fidelidade da textura. Demonstramos que nosso método produz resultados superiores aos métodos anteriores, conforme evidenciado pela preferência humana e por experimentos quantitativos.
A geração de ideias científicas (SIG) é crucial para a pesquisa autónoma orientada por IA, no entanto, as abordagens existentes são frequentemente limitadas por um paradigma estático de recuperação e depois geração, levando a ideias homogéneas e insuficientemente divergentes. Neste trabalho, propomos o FlowPIE, uma estrutura de recuperação-geração fortemente acoplada que trata a exploração da literatura e a geração de ideias como um processo em co-evolução. O FlowPIE expande trajetórias de literatura através de uma Busca em Árvore de Monte Carlo (MCTS) guiada por fluxo, inspirada nas GFlowNets, utilizando a qualidade das ideias atuais, avaliada por um modelo de recompensa generativa (GRM) baseado em LLM, como um sinal supervisionado para orientar a recuperação adaptativa e construir uma população inicial diversificada e de alta qualidade. Com base nesta população, o FlowPIE modela a geração de ideias como um processo de evolução de ideias em tempo de teste, aplicando seleção, cruzamento e mutação com o paradigma da ilha de isolamento e cálculo de aptidão baseado no GRM para incorporar conhecimento transdomínio. Mitiga eficazmente os "ecos de informação" que surgem da excessiva dependência do conhecimento paramétrico e da literatura estática. Avaliações extensivas demonstram que o FlowPIE produz consistentemente ideias com maior novidade, viabilidade e diversidade em comparação com estruturas robustas baseadas em LLM e em agentes, permitindo também a escalabilidade de recompensa durante o tempo de teste.
Os recentes avanços em modelos de linguagem grandes (LLMs) com capacidades de raciocínio têm dependido principalmente do pensamento antecipado, onde o raciocínio ocorre antes da resposta final. No entanto, esta abordagem sofre de limitações críticas na geração de código, onde o pensamento antecipado é frequentemente insuficiente, uma vez que a complexidade total dos problemas só se revela durante a implementação do código. Além disso, ela não consegue alocar esforço de raciocínio de forma adaptativa ao longo do processo de geração de código, onde a dificuldade varia significativamente. Neste artigo, propomos o Think-Anywhere, um novo mecanismo de raciocínio que permite aos LLMs invocar o pensamento sob demanda em qualquer posição de token durante a geração de código. Alcançamos o Think-Anywhere primeiro ensinando os LLMs a imitar os padrões de raciocínio através de treino *cold-start*, e depois aproveitando recompensas de RL baseadas em resultados para conduzir a exploração autónoma do modelo sobre quando e onde invocar o raciocínio. Experiências extensas em quatro *benchmarks* principais de geração de código (ou seja, LeetCode, LiveCodeBench, HumanEval e MBPP) mostram que o Think-Anywhere alcança um desempenho de ponta em relação tanto aos métodos de raciocínio existentes como às abordagens recentes de pós-treinamento, demonstrando ao mesmo tempo uma generalização consistente em diversos LLMs. A nossa análise revela ainda que o Think-Anywhere permite ao modelo invocar o raciocínio de forma adaptativa em posições de alta entropia, proporcionando uma interpretabilidade aprimorada.
Os recentes avanços nos modelos de geração de imagens expandiram suas aplicações para além da criação estética, direcionando-se para a produção prática de conteúdo visual. No entanto, os benchmarks existentes concentram-se principalmente na síntese de imagens naturais e não avaliam sistematicamente os modelos sob os requisitos estruturados e de múltiplas restrições das tarefas de design comercial do mundo real. Neste trabalho, apresentamos o BizGenEval, um benchmark sistemático para geração de conteúdo visual comercial. O benchmark abrange cinco tipos de documentos representativos: apresentações, gráficos, páginas web, pôsteres e figuras científicas, e avalia quatro dimensões-chave de capacidade: renderização de texto, controle de layout, vinculação de atributos e raciocínio baseado em conhecimento, formando 20 tarefas de avaliação diversas. O BizGenEval contém 400 prompts cuidadosamente selecionados e 8000 questões de lista de verificação validadas por humanos para avaliar rigorosamente se as imagens geradas satisfazem restrições visuais e semânticas complexas. Realizamos uma avaliação em larga escala de 26 sistemas populares de geração de imagens, incluindo APIs comerciais de última geração e modelos de código aberto líderes. Os resultados revelam lacunas substanciais de capacidade entre os modelos generativos atuais e os requisitos da criação profissional de conteúdo visual. Esperamos que o BizGenEval sirva como um benchmark padronizado para a geração de conteúdo visual comercial do mundo real.
A capacidade de transformar uma folha plana numa estrutura tridimensional complexa é um teste fundamental à inteligência física. Ao contrário da manipulação de tecidos, o origami é regido por axiomas geométricos rigorosos e restrições cinemáticas rígidas, onde uma única dobra inválida ou colisão pode invalidar toda a sequência de dobragem. Consequentemente, o origami exige um raciocínio construtivo de longo horizonte que satisfaça conjuntamente leis físicas precisas e uma intenção semântica de alto nível. As abordagens existentes dividem-se em dois paradigmas distintos: os métodos baseados em otimização impõem validade física, mas requerem entradas densas e especificadas com precisão, tornando-os inadequados para descrições esparsas em linguagem natural, enquanto os modelos de base generativos se destacam na síntese semântica e perceptual, mas falham em produzir processos de dobragem de longo horizonte e fisicamente consistentes. Por conseguinte, a geração de sequências de dobragem de origami válidas diretamente a partir de texto permanece um desafio em aberto. Para colmatar esta lacuna, introduzimos o Learn2Fold, uma estrutura neuro-simbólica que formula a dobragem de origami como uma indução de programa condicional sobre um grafo de padrão de vincos. A nossa principal perceção é desacoplar a proposta semântica da verificação física. Um modelo de linguagem de grande escala gera programas de dobragem candidatos a partir de instruções textuais abstratas, enquanto um modelo de mundo aprendido com estrutura de grafo serve como um simulador substituto diferenciável que prevê a viabilidade física e os modos de falha antes da execução. Integrado num ciclo de planeamento prospetivo, o Learn2Fold permite a geração robusta de sequências de dobragem fisicamente válidas para padrões complexos e fora da distribuição, demonstrando que uma inteligência espacial eficaz surge da sinergia entre o raciocínio simbólico e a simulação física fundamentada.
Os sistemas centrados na percepção são tipicamente implementados com um pipeline modular de codificador-decodificador: um *backbone* de visão para extração de características e um decodificador separado (ou módulo de fusão tardia) para previsão de tarefas. Isso levanta uma questão central: esta separação arquitetônica é essencial ou pode uma única pilha de fusão precoce realizar tanto a modelagem de percepção quanto a de tarefas em escala? Apresentamos o Falcon Perception, um Transformer denso unificado que processa *patches* de imagem e *tokens* de texto em um espaço de parâmetros compartilhado desde a primeira camada, usando um padrão de atenção híbrido (bidirecional entre *tokens* de imagem, causal para *tokens* de previsão) para combinar contexto visual global com geração autoregressiva de instâncias de comprimento variável. Para manter as saídas densas práticas, o Falcon Perception mantém uma interface de *token* leve e decodifica saídas espaciais contínuas com cabeças especializadas, permitindo a previsão paralela de máscaras de alta resolução. Nosso projeto prioriza a simplicidade: mantemos um único *backbone* escalável e transferimos a complexidade para os dados e sinais de treinamento, adicionando apenas pequenas cabeças onde as saídas são contínuas e densas. No SA-Co, o Falcon Perception melhora a qualidade da máscara para 68,0 Macro-F_1 em comparação com 62,3 do SAM3. Também apresentamos o PBench, um *benchmark* focado em *prompts* composicionais (OCR, restrições espaciais, relações) e regimes de contexto longo e denso, onde o modelo mostra ganhos superiores. Por fim, estendemos a mesma receita de fusão precoce para o Falcon OCR: um modelo compacto de 300 milhões de parâmetros que atinge 80,3% no olmOCR e 88,64 no OmniDocBench.
Os grandes modelos de linguagem falham sistematicamente quando uma pista superficial saliente entra em conflito com uma restrição de viabilidade não declarada. Estudamos este fenômeno através de uma estrutura de diagnóstico-medição-ponte-tratamento. A análise causal-comportamental do "problema do lava-jato" em seis modelos revela heurísticas sigmoidais aproximadamente independentes do contexto: a pista de distância exerce de 8,7 a 38 vezes mais influência do que o objetivo, e a atribuição a nível de *token* mostra padrões mais consistentes com associações de palavras-chave do que com inferência composicional. O *Heuristic Override Benchmark* (HOB) – 500 instâncias abrangendo 4 famílias de heurísticas por 5 famílias de restrições com pares mínimos e gradientes de explicitação – demonstra a generalidade em 14 modelos: sob avaliação estrita (10/10 correto), nenhum modelo excede 75%, e as restrições de presença são as mais difíceis (44%). Uma dica mínima (por exemplo, enfatizar o objeto-chave) recupera +15 pp em média, sugerindo que a falha está na inferência da restrição e não na falta de conhecimento; 12/14 modelos têm pior desempenho quando a restrição é removida (até -39 pp), revelando um viés conservador. Sondagens paramétricas confirmam que o padrão sigmoidal generaliza-se para heurísticas de custo, eficiência e similaridade semântica; o *prompting* de decomposição de objetivos recupera +6 a 9 pp ao forçar os modelos a enumerar pré-condições antes de responder. Juntos, estes resultados caracterizam a sobreposição heurística como uma vulnerabilidade sistemática de raciocínio e fornecem um *benchmark* para medir o progresso na sua resolução.
O pré-treinamento contínuo é amplamente utilizado para adaptar LLMs a idiomas e domínios específicos, no entanto, a proporção de mistura dos dados de treinamento permanece um hiperparâmetro sensível e dispendioso de ajustar: as proporções devem ser definidas antes do início do treinamento, e uma escolha subótima pode desperdiçar semanas de computação. Neste trabalho, propomos o OptiMer, que desacopla a seleção da proporção do treinamento: treinamos um modelo de CPT por conjunto de dados, extraímos o vetor de distribuição de cada modelo, que representa a mudança de parâmetro induzida por aquele conjunto de dados, e buscamos os pesos de composição ideais *post-hoc* via otimização bayesiana. Experimentos com o Gemma 3 27B em idiomas (Japonês, Chinês) e domínios (Matemática, Código) mostram que o OptiMer supera consistentemente os baselines de mistura de dados e média de modelos com um custo de busca 15 a 35 vezes menor. Principais descobertas revelam que 1) os pesos otimizados podem ser interpretados como proporções de mistura de dados, e o retreinamento com essas proporções melhora o CPT por mistura de dados, e 2) o mesmo conjunto de vetores pode ser reotimizado para um determinado objetivo sem qualquer retreinamento, produzindo modelos sob medida para o objetivo sob demanda. Nosso trabalho estabelece que a seleção da proporção de mistura de dados, tradicionalmente uma decisão de pré-treinamento, pode ser reformulada como uma otimização *post-hoc* sobre vetores de distribuição, oferecendo um paradigma mais flexível para o pré-treinamento contínuo.
Os modelos recentes de geração facial multimodal superam as limitações de controle espacial dos modelos de difusão texto-imagem ao aprimorar o condicionamento baseado em texto com prévias espaciais, como máscaras de segmentação, esboços ou mapas de bordas. Essa fusão multimodal permite síntese controlada alinhada tanto com a intenção semântica de alto nível quanto com o layout estrutural de baixo nível. Contudo, a maioria das abordagens existentes normalmente estende pipelines pré-treinados de texto-imagem anexando módulos de controle auxiliares ou unindo redes unimodais separadas. Esses projetos ad hoc herdam restrições arquiteturais, duplicam parâmetros e frequentemente falham sob modalidades conflitantes ou espaços latentes incompatíveis, limitando sua capacidade de realizar fusão sinérgica entre domínios semânticos e espaciais. Apresentamos o MMFace-DiT, um transformer de difusão de fluxo duplo unificado projetado para síntese facial multimodal sinérgica. Sua principal inovação reside em um bloco transformer de fluxo duplo que processa tokens espaciais (máscara/esboço) e semânticos (texto) em paralelo, fundindo-os profundamente por meio de um mecanismo de Atenção com Posicionamento Rotacional (RoPE) compartilhado. Este projeto previne dominância modal e garante forte aderência tanto a prévias textuais quanto estruturais para alcançar consistência espaço-semântica sem precedentes na geração facial controlada. Adicionalmente, um novo Incorporador de Modalidade permite que um único modelo coeso se adapte dinamicamente a condições espaciais variadas sem retreinamento. O MMFace-DiT alcança uma melhoria de 40% na fidelidade visual e no alinhamento textual em relação a seis modelos state-of-the-art de geração facial multimodal, estabelecendo um novo paradigma flexível para modelagem generativa controlada de ponta a ponta. O código e o conjunto de dados estão disponíveis em nossa página do projeto: https://vcbsl.github.io/MMFace-DiT/
Os modelos generativos de vídeo avançaram significativamente na síntese fotorrealista de condições climáticas adversas para a condução autónoma; no entanto, exigem consistentemente conjuntos de dados massivos para aprender cenários climáticos raros. Embora os métodos de edição 3D-aware aliviem estas restrições de dados através da ampliação de filmagens de vídeo existentes, são fundamentalmente limitados por uma otimização por cena dispendiosa e sofrem de um entrelaçamento inerente entre geometria e iluminação. Neste trabalho, apresentamos o AutoWeather4D, uma estrutura de edição meteorológica 3D-aware de avanço direto, concebida para desacoplar explicitamente a geometria e a iluminação. O cerne da nossa abordagem é um mecanismo de Edição de Dupla Passagem com G-buffer. A Passagem de Geometria aproveita fundamentos estruturais explícitos para permitir interações físicas ancoradas na superfície, enquanto a Passagem de Luz resolve analiticamente o transporte de luz, acumulando as contribuições de iluminantes locais na iluminação global para permitir uma reiluminação local 3D dinâmica. Experiências extensivas demonstram que o AutoWeather4D atinge um fotorrealismo e uma consistência estrutural comparáveis aos métodos generativos de base, permitindo simultaneamente um controlo físico paramétrico de granularidade fina, servindo como um motor de dados prático para a condução autónoma.
Os modelos de linguagem de grande escala (LLMs) têm sido amplamente utilizados como bases de conhecimento para Modelos de Linguagem de Áudio de Grande Escala (LALMs), mas ainda não está claro quanto conhecimento auditivo eles codificam através do pré-treinamento apenas com texto e como isso afeta o desempenho em tarefas subsequentes. Investigamos essa lacuna comparando diferentes LLMs sob duas configurações baseadas apenas em texto e uma baseada em áudio: (1) sondagem direta no AKB-2000, um benchmark curado que testa a amplitude e profundidade do conhecimento auditivo; (2) avaliação em cascata, onde os LLMs raciocinam sobre descrições textuais provenientes de um gerador de legendas de áudio; e (3) avaliação com base em áudio, onde cada LLM é ajustado para se tornar um Modelo de Linguagem de Áudio de Grande Escala (LALM) com um codificador de áudio. Nossos resultados revelam que o conhecimento auditivo varia substancialmente entre diferentes famílias de modelos, e os resultados baseados apenas em texto apresentam forte correlação com o desempenho em áudio. Nosso trabalho fornece fundamentação empírica para uma compreensão abrangente dos LLMs na pesquisa em áudio.
A aquisição de conjuntos de dados anotados para a estimativa de malha humana 3D é desafiadora devido às ambiguidades de profundidade e à dificuldade inerente de anotar geometria 3D a partir de imagens monoculares. Os conjuntos de dados existentes são reais, com geometria 3D anotada manualmente e escala limitada, ou sintéticos, renderizados a partir de motores 3D que fornecem anotações precisas, mas sofrem com fotorealismo limitado, baixa diversidade e altos custos de produção. Neste trabalho, exploramos um terceiro caminho: dados gerados. Apresentamos o PoseDreamer, um *pipeline* inovador que aproveita modelos de difusão para gerar conjuntos de dados sintéticos em larga escala com anotações de malha 3D. Nossa abordagem combina geração de imagem controlável com Otimização de Preferência Direta para alinhamento de controle, mineração curricular de amostras difíceis e filtragem de qualidade multiestágio. Juntos, esses componentes mantêm naturalmente a correspondência entre as anotações 3D e as imagens geradas, priorizando amostras desafiadoras para maximizar a utilidade do conjunto de dados. Usando o PoseDreamer, geramos mais de 500.000 amostras sintéticas de alta qualidade, alcançando uma melhoria de 76% nas métricas de qualidade de imagem em comparação com conjuntos de dados baseados em renderização. Modelos treinados no PoseDreamer alcançam desempenho comparável ou superior aos treinados em conjuntos de dados do mundo real e sintéticos tradicionais. Além disso, combinar o PoseDreamer com conjuntos de dados sintéticos resulta em melhor desempenho do que combinar conjuntos de dados do mundo real e sintéticos, demonstrando a natureza complementar do nosso conjunto de dados. Disponibilizaremos o conjunto de dados completo e o código de geração.
Apresentamos o VectorGym, uma suíte abrangente de *benchmarks* para Gráficos Vetoriais Escaláveis (SVG) que abrange a geração a partir de texto e esboços, edição complexa e compreensão visual. O VectorGym aborda a carência de *benchmarks* realistas e desafiadores alinhados com os fluxos de trabalho de design profissional. Nossa suíte compreende quatro tarefas com anotações especializadas elaboradas por humanos: a nova tarefa Sketch2SVG (VG-Sketch); um novo conjunto de dados para edição de SVG (VG-Edit) com edições complexas e multi-etapas envolvendo primitivas de ordem superior; geração Text2SVG (VG-Text); e legendagem de SVG (VG-Cap). Diferente de *benchmarks* anteriores que dependem de edições sintéticas, o VectorGym fornece anotações humanas de referência que exigem compreensão semântica e intenção de design. Também propomos uma abordagem de aprendizado por reforço multi-tarefa que otimiza conjuntamente todas as quatro tarefas usando recompensas baseadas em renderização. Nosso método, construído sobre GRPO com aprendizado curricular, treina um modelo Qwen3-VL 8B que alcança desempenho de ponta entre os modelos de código aberto, superando modelos muito maiores, incluindo o Qwen3-VL 235B, e equiparando-se ao GPT-4o. Também introduzimos uma métrica VLM-como-Juiz para geração de SVG, validada através de estudos de correlação humana. Nossa avaliação de VLMs de fronteira revela lacunas significativas de desempenho, posicionando o VectorGym como uma estrutura rigorosa para o avanço da geração de código visual. O VectorGym está publicamente disponível em huggingface.co/datasets/ServiceNow/VectorGym.
A manipulação multimodal de imagens baseada em instruções tem progredido rapidamente recentemente. No entanto, os métodos de avaliação existentes carecem de uma estrutura sistemática e alinhada com humanos para avaliar o desempenho dos modelos em tarefas de edição complexas e criativas. Para preencher esta lacuna, propomos o CREval, um pipeline de avaliação totalmente automatizado baseado em perguntas e respostas (QA) que supera a incompletude e a baixa interpretabilidade da pontuação opaca de Modelos de Linguagem Multimodais (MLLMs). Simultaneamente, introduzimos o CREval-Bench, um benchmark abrangente especificamente projetado para manipulação criativa de imagens sob instruções complexas. O CREval-Bench abrange três categorias e nove dimensões criativas, compreendendo mais de 800 amostras de edição e 13 mil consultas de avaliação. Aproveitando este pipeline e benchmark, avaliamos sistematicamente um conjunto diversificado de modelos state-of-the-art, tanto de código aberto quanto proprietários. Os resultados revelam que, embora os modelos proprietários geralmente superem os de código aberto em tarefas complexas e criativas, todos os modelos ainda lutam para concluir tais edições de forma eficaz. Além disso, estudos com usuários demonstram forte consistência entre as métricas automatizadas do CREval e os julgamentos humanos. Portanto, o CREval fornece uma base confiável para avaliar modelos de edição de imagem em tarefas complexas e criativas de manipulação de imagens, e destaca desafios e oportunidades fundamentais para pesquisas futuras.
A geração ilimitada de mundos 3D está emergindo como uma tarefa fundamental para a modelagem de cenas em visão computacional, gráficos e robótica. Neste trabalho, apresentamos o WorldFlow3D, um método inovador capaz de gerar mundos 3D ilimitados. Com base numa propriedade fundamental do *flow matching* - especificamente, a definição de um caminho de transporte entre duas distribuições de dados - modelamos a geração 3D de forma mais geral como um problema de fluxo através de distribuições de dados 3D, não limitado à remoção de ruído condicional. Verificamos que a nossa abordagem de fluxo livre de *latents* gera uma estrutura 3D causal e precisa, e pode usar isso como uma distribuição intermediária para orientar a geração de estruturas mais complexas e texturas de alta qualidade - tudo enquanto converge mais rapidamente do que os métodos existentes. Permitimos a controlabilidade sobre as cenas geradas com condições de layout de cena vetorizadas para controlo da estrutura geométrica e controlo de textura visual através de atributos de cena. Confirmamos a eficácia do WorldFlow3D tanto em cenas reais de condução ao ar livre como em cenas sintéticas de interior, validando a generalizabilidade transversal a domínios e a geração de alta qualidade em distribuições de dados reais. Confirmamos uma fidelidade de geração de cenas superior às abordagens em todos os cenários testados para geração ilimitada de cenas. Para mais informações, consulte https://light.princeton.edu/worldflow3d.
A avaliação precisa da privacidade de dados textuais continua a ser um desafio crítico no processamento de linguagem natural que preserva a privacidade. Trabalhos recentes demonstraram que os grandes modelos de linguagem (LLMs) podem atuar como avaliadores de privacidade confiáveis, alcançando alta concordância com julgamentos humanos; no entanto, o seu custo computacional e a sua impraticabilidade para processar dados sensíveis em larga escala limitam a implantação no mundo real. Nós abordamos esta lacuna destilando as capacidades de avaliação de privacidade do Mistral Large 3 (675B) em modelos *encoder* leves com apenas 150M de parâmetros. Aproveitando um conjunto de dados em larga escala de textos anotados para privacidade abrangendo 10 domínios diversos, treinamos classificadores eficientes que preservam uma forte concordância com as anotações humanas enquanto reduzem drasticamente os requisitos computacionais. Validamos nossa abordagem em dados de teste anotados por humanos e demonstramos a sua utilidade prática como uma métrica de avaliação para sistemas de desidentificação.
Os métodos existentes de interação mão-objeto (HOI) estão amplamente limitados a objetos rígidos, enquanto os métodos de reconstrução 4D de objetos articulados geralmente exigem a digitalização prévia do objeto ou mesmo vídeos multivista. Permanece um desafio inexplorado, mas significativo, reconstruir interações 4D entre humanos e objetos articulados a partir de um único vídeo RGB monocular. Felizmente, os avanços recentes em modelos de base apresentam uma nova oportunidade para abordar este problema altamente mal-posto. Para isso, introduzimos o ArtHOI, uma estrutura baseada em otimização que integra e refina prioridades de múltiplos modelos de base. Nossa principal contribuição é um conjunto de metodologias inovadoras projetadas para resolver as imprecisões inerentes e a irrealidade física dessas prioridades. Em particular, introduzimos um método de Refinamento por Amostragem Adaptativa (ASR) para otimizar a escala métrica e a pose do objeto para fundamentar sua malha normalizada no espaço mundial. Além disso, propomos um método de alinhamento mão-objeto guiado por Modelo de Linguagem Grande Multimodal (MLLM), utilizando informações de raciocínio de contato como restrições da otimização de composição de malhas mão-objeto. Para facilitar uma avaliação abrangente, também contribuímos com dois novos conjuntos de dados, ArtHOI-RGBD e ArtHOI-Wild. Experimentos extensos validam a robustez e eficácia do nosso ArtHOI em diversos objetos e interações. Projeto: https://arthoi-reconstruction.github.io.
Os modelos visão-linguagem (VLMs) têm sido amplamente adotados para tarefas de questionamento e resposta em 3D (3D QA). Em pipelines típicos, tokens visuais extraídos de múltiplos pontos de vista são concatenados com tokens linguísticos e processados conjuntamente por um modelo de linguagem grande (LLM) para inferência. No entanto, a agregação de observações multi-view introduz inevitavelmente uma severa redundância de tokens, resultando em um conjunto visual de tokens excessivamente grande que prejudica significativamente a eficiência inferencial sob orçamentos de token restritos. A poda de tokens visuais emergiu como uma estratégia prevalente para abordar esta questão. Não obstante, a maioria dos podadores existentes são primariamente adaptados para entradas 2D ou dependem de pistas geométricas indiretas, o que limita sua capacidade de reter explicitamente objetos semanticamente críticos e manter uma cobertura espacial suficiente para um raciocínio 3D robusto. Neste artigo, propomos o SeGPruner, uma estrutura de redução de tokens guiada por semântica e geometria para 3D QA eficiente com imagens multi-view. Especificamente, o SeGPruner primeiro preserva tokens semanticamente salientes através de um módulo de importância baseado em atenção (Seletor de Tokens com Consciência de Salência), garantindo que evidências críticas de objetos sejam retidas. Em seguida, complementa esses tokens com outros espacialmente diversos via um seletor guiado por geometria (Diversificador de Tokens com Consciência Geométrica), que considera conjuntamente a relevância semântica e a distância geométrica 3D. Esta cooperação entre preservação de salência e diversificação guiada por geometria equilibra evidências a nível de objeto e cobertura global da cena sob uma redução agressiva de tokens. Experimentos extensivos no ScanQA e OpenEQA demonstram que o SeGPruner melhora substancialmente a eficiência inferencial, reduzindo o orçamento de tokens visuais em 91% e a latência de inferência em 86%, enquanto mantém um desempenho competitivo em tarefas de raciocínio 3D.
A triagem precoce por colonoscopia é crucial para a prevenção do cancro do cólon, mas o desenvolvimento de sistemas robustos de IA para esta área é dificultado pela falta de conjuntos de dados de vídeo de sequência longa e densamente anotados. Os conjuntos de dados existentes focam-se predominantemente na deteção de pólipos de classe única e carecem das ricas anotações espaciais, temporais e linguísticas necessárias para avaliar os modernos Modelos de Linguagem Grande Multimodais (MLLMs). Para colmatar esta lacuna crítica, apresentamos o Colon-Bench, gerado através de um novo fluxo de trabalho agentico multiestágio. O nosso pipeline integra perfeitamente propostas temporais, rastreamento de caixas delimitadoras, confirmação visual baseada em IA e revisão humana em ciclo para anotar de forma escalável vídeos de procedimentos completos. O benchmark verificado resultante é sem precedentes em alcance, abrangendo 528 vídeos, 14 categorias distintas de lesões (incluindo pólipos, úlceras e hemorragias), mais de 300.000 caixas delimitadoras, 213.000 máscaras de segmentação e 133.000 palavras de descrições clínicas. Utilizamos o Colon-Bench para avaliar rigorosamente MLLMs de última geração em classificação de lesões, Segmentação de Objetos em Vídeo de Vocabulário Aberto (OV-VOS) e Resposta a Questões sobre Vídeo (VQA). Os resultados dos MLLMs demonstram um desempenho de localização surpreendentemente elevado em domínios médicos em comparação com o SAM-3. Finalmente, analisamos os erros comuns de VQA dos MLLMs para introduzir uma nova estratégia de "prompting" de "competência do cólon" (*colon-skill*), melhorando o desempenho *zero-shot* dos MLLMs em até 9,7% na maioria dos modelos. O conjunto de dados e o código estão disponíveis em https://abdullahamdi.com/colon-bench.
As arquiteturas Transformer, particularmente os Diffusion Transformers (DiTs), tornaram-se amplamente utilizadas em modelos de difusão e *flow-matching* devido ao seu forte desempenho em comparação com as UNets convolucionais. No entanto, o design isotrópico dos DiTs processa o mesmo número de *tokens* em *patches* em todos os blocos, resultando em um processamento computacionalmente pesado durante o treinamento. Neste trabalho, introduzimos um design de transformer multi-*patch* no qual os blocos iniciais operam em *patches* maiores para capturar o contexto global geral, enquanto os blocos posteriores usam *patches* menores para refinar os detalhes locais. Este design hierárquico pode reduzir o custo computacional em até 50\% em GFLOPs, ao mesmo tempo que alcança uma boa performance generativa. Além disso, também propomos designs aprimorados para as incorporações de tempo e classe que aceleram a convergência do treinamento. Experimentos extensivos no conjunto de dados ImageNet demonstram a eficácia das nossas escolhas arquiteturais. O código está disponível em https://github.com/quandao10/MPDiT.
O LiDAR tornou-se uma modalidade de sensoriamento essencial em aplicações de condução autónoma, robótica e cidades inteligentes. No entanto, os pontos fantasmas (ou fantasmas), que são reflexos falsos causados por retornos de laser de múltiplos percursos a partir de superfícies de vidro e refletores, degradam severamente a precisão do mapeamento e da localização 3D. A remoção anterior de fantasmas baseava-se na consistência geométrica em nuvens de pontos densas, falhando nos dados esparsos e dinâmicos do LiDAR móvel. Abordamos esta limitação explorando o LiDAR de forma de onda completa (FWL), que captura perfis temporais completos de intensidade, e não apenas distâncias de pico, fornecendo pistas cruciais para distinguir fantasmas de reflexões genuínas em cenários móveis. Como esta é uma nova tarefa, apresentamos o Ghost-FWL, o primeiro e maior conjunto de dados FWL móvel anotado para deteção e remoção de fantasmas. O Ghost-FWL compreende 24 mil quadros em 10 cenários diversos, com 7,5 mil milhões de anotações a nível de pico, sendo 100 vezes maior do que os conjuntos de dados FWL anotados existentes. Beneficiando deste conjunto de dados de grande escala, estabelecemos um modelo de base baseado em FWL para deteção de fantasmas e propomos o FWL-MAE, um autoencoder mascarado para aprendizagem de representação auto-supervisionada eficiente em dados FWL. Os experimentos mostram que o nosso modelo de base supera os métodos existentes em precisão de remoção de fantasmas, e a nossa remoção de fantasmas melhora ainda mais tarefas subsequentes, como o SLAM baseado em LiDAR (redução de 66% no erro de trajetória) e a deteção de objetos 3D (redução de 50 vezes nos falsos positivos). O conjunto de dados e o código estão publicamente disponíveis e podem ser acedidos através da página do projeto: https://keio-csg.github.io/Ghost-FWL.
Os materiais de educação do paciente para transplante de órgãos sólidos variam substancialmente entre os centros dos EUA, mas não existe um método sistemático para quantificar essa heterogeneidade em larga escala. Apresentamos uma estrutura que ancora as mesmas perguntas do paciente em manuais de diferentes centros usando modelos de linguagem aumentados por recuperação de informação e compara as respostas resultantes usando uma taxonomia de consistência de cinco categorias. Aplicado a 102 manuais de 23 centros e 1.115 perguntas de referência, o framework quantifica a heterogeneidade em quatro dimensões: pergunta, tópico, órgão e centro. Descobrimos que 20,8% das comparações pareadas não ausentes exibem divergência clinicamente significativa, concentrada em tópicos de monitoramento de condições e estilo de vida. As lacunas de cobertura são ainda mais proeminentes: 96,2% dos pares pergunta-manual carecem de conteúdo relevante, com a saúde reprodutiva apresentando 95,1% de ausência. Os perfis de divergência em nível de centro são estáveis e interpretáveis, onde a heterogeneidade reflete diferenças institucionais sistemáticas, provavelmente devido à diversidade de pacientes. Essas descobertas expõem uma lacuna informacional nos materiais educacionais para pacientes transplantados, com sistemas de resposta a perguntas médicas baseadas em documentos destacando oportunidades para melhorias de conteúdo.
Os artefactos de cintilação (flicker), resultantes de iluminação instável e inconsistências de exposição linha a linha, representam um desafio significativo na fotografia de curta exposição, degradando severamente a qualidade da imagem. Ao contrário de artefactos típicos, como ruído e baixa luminosidade, a cintilação é uma degradação estruturada com padrões espaço-temporais específicos, que não são considerados nas estruturas genéricas de restauração atuais, levando a uma supressão subótima de cintilação e a artefactos de fantasma (ghosting). Neste trabalho, revelamos que os artefactos de cintilação exibem duas características intrínsecas, periodicidade e direcionalidade, e propomos o Flickerformer, uma arquitetura baseada em transformers que remove eficazmente a cintilação sem introduzir artefactos de fantasma. Especificamente, o Flickerformer compreende três componentes principais: um módulo de fusão baseado em fase (PFM), uma rede feed-forward de autocorrelação (AFFN) e um módulo de atenção direcional baseado em wavelets (WDAM). Com base na periodicidade, o PFM realiza uma correlação de fase inter-frames para agregar adaptativamente características de burst, enquanto o AFFN explita regularidades estruturais intra-frame através da autocorrelação, melhorando conjuntamente a capacidade da rede de perceber padrões recorrentes espacialmente. Além disso, motivado pela direcionalidade dos artefactos de cintilação, o WDAM aproveita as variações de alta frequência no domínio wavelet para orientar a restauração de regiões escuras de baixa frequência, produzindo uma localização precisa dos artefactos de cintilação. Experimentos extensivos demonstram que o Flickerformer supera as abordagens state-of-the-art tanto em métricas quantitativas como em qualidade visual. O código fonte está disponível em https://github.com/qulishen/Flickerformer.
Os sistemas de reconhecimento de fala baseados em LLM (Large Language Models) normalmente processam enunciados de forma isolada, limitando sua capacidade de aproveitar o contexto conversacional. Neste trabalho, investigamos se o contexto multimodal de turnos anteriores melhora o ASR baseado em LLM e como representar esse contexto de forma eficiente. Constatamos que, após um treinamento supervisionado multiturno, o contexto conversacional auxilia principalmente no reconhecimento de entidades contextuais. No entanto, condicionar o modelo ao contexto bruto é computacionalmente custoso, pois a sequência de tokens de áudio dos turnos anteriores cresce rapidamente com a duração da conversa. Para resolver isso, propomos a Compressão Abstrata, que substitui a porção de áudio dos turnos anteriores por um número fixo de tokens latentes aprendidos, mantendo explicitamente as transcrições correspondentes. Tanto em conjuntos de teste internos quanto externos ao domínio, o modelo compactado recupera parte dos ganhos do condicionamento por contexto bruto, mas com uma pegada de áudio anterior menor. Também fornecemos análises direcionadas da configuração de compressão e seus trade-offs.
A modelagem de cenas usando modelos de geração de vídeo tem despertado um crescente interesse de pesquisa nos últimos anos. No entanto, a maioria das abordagens existentes depende de modelos de vídeo em perspectiva que sintetizam apenas observações limitadas de uma cena, levando a problemas de completude e consistência global. Propomos o OmniRoam, uma estrutura de geração de vídeo panorâmico controlável que explora a rica cobertura de cena por quadro e a consistência espacial e temporal de longo prazo inerente à representação panorâmica, permitindo uma exploração de cena de longo horizonte. Nossa estrutura começa com uma fase de pré-visualização, na qual um modelo de geração de vídeo controlado por trajetória cria uma visão geral rápida da cena a partir de uma imagem ou vídeo de entrada. Em seguida, na fase de refinamento, este vídeo é estendido temporalmente e ampliado espacialmente para produzir vídeos de longo alcance e alta resolução, permitindo assim uma exploração do mundo de alta fidelidade. Para treinar nosso modelo, introduzimos dois conjuntos de dados de vídeo panorâmico que incorporam vídeos capturados sintéticos e do mundo real. Experimentos mostram que nossa estrutura supera consistentemente os métodos state-of-the-art em termos de qualidade visual, controlabilidade e consistência de cena de longo prazo, tanto qualitativa quanto quantitativamente. Demonstramos ainda várias extensões desta estrutura, incluindo geração de vídeo em tempo real e reconstrução 3D. O código está disponível em https://github.com/yuhengliu02/OmniRoam.
A edição generativa de vídeo permitiu várias operações de edição intuitivas para clipes de vídeo curtos que anteriormente seriam difíceis de alcançar, especialmente para editores não especializados. Os métodos existentes concentram-se em prescrever a trajetória de movimento 3D ou 2D de um objeto num vídeo, ou em alterar a aparência de um objeto ou de uma cena, preservando tanto a plausibilidade do vídeo como a sua identidade. No entanto, ainda falta um método para mover a trajetória de movimento 3D de um objeto num vídeo, ou seja, mover um objeto preservando o seu movimento 3D relativo. O principal desafio reside na obtenção de dados de vídeo emparelhados para este cenário. Métodos anteriores geralmente dependem de abordagens inteligentes de geração de dados para construir dados emparelhados plausíveis a partir de vídeos não emparelhados, mas esta abordagem falha se um dos vídeos de um par não puder ser facilmente construído a partir do outro. Em vez disso, introduzimos o TrajectoryAtlas, um novo *pipeline* de geração de dados para dados de vídeo sintéticos emparelhados em larga escala e um gerador de vídeo, o TrajectoryMover, afinado com estes dados. Mostramos que isto permite com sucesso o movimento generativo de trajetórias de objetos. Página do projeto: https://chhatrekiran.github.io/trajectorymover
O diagnóstico preciso da doença de Alzheimer (DA) requer o processamento de dados biomarcadores tabulares, no entanto, esses dados são frequentemente escassos e incompletos, situações em que os modelos de aprendizagem profunda frequentemente falham em superar os métodos clássicos. Os grandes modelos de linguagem (LLMs) pré-treinados oferecem generalização few-shot, raciocínio estruturado e saídas interpretáveis, representando uma poderosa mudança de paradigma para a predição clínica. Propomos o TAP-GPT (Tabular Alzheimer's Prediction GPT), uma estrutura de LLM tabular adaptada ao domínio, construída sobre o TableGPT2 e afinada para classificação few-shot da DA usando prompts tabulares em vez de textos simples. Avaliamos o TAP-GPT em quatro conjuntos de dados derivados do ADNI, incluindo biomarcadores QT-PAD e ressonância magnética estrutural a nível regional, PET de amiloide e PET de tau para classificação binária da DA. Em configurações multimodais e unimodais, o TAP-GPT supera os seus modelos de base e apresenta melhor desempenho do que os métodos de referência de aprendizagem automática tradicionais no cenário few-shot, mantendo-se competitivo face aos LLMs de propósito geral state-of-the-art. Demonstramos que a seleção de características mitiga a degradação em entradas de alta dimensionalidade e que o TAP-GPT mantém um desempenho estável sob cenários de missingness simulados e do mundo real, sem necessidade de imputação. Adicionalmente, o TAP-GPT produz um raciocínio estruturado e consciente da modalidade, alinhado com a biologia estabelecida da DA, e exibe maior estabilidade sob autorreflexão, suportando a sua utilização em sistemas multiagente iterativos. Até onde sabemos, esta é a primeira aplicação sistemática de um LLM especializado em dados tabulares para a predição multimodal da DA baseada em biomarcadores, demonstrando que tais modelos pré-treinados podem abordar eficazmente tarefas de predição clínica estruturada e lançando as bases para sistemas de apoio à decisão clínica multiagente orientados por LLMs tabulares. O código fonte está publicamente disponível no GitHub: https://github.com/sophie-kearney/TAP-GPT.
Apresentamos o TokenDial, uma estrutura para controle contínuo de atributos no estilo de controle deslizante em modelos pré-treinados de geração de texto para vídeo. Embora os geradores modernos produzam vídeos holisticamente robustos, eles oferecem controle limitado sobre a intensidade de alteração de um atributo (por exemplo, intensidade de efeito ou magnitude de movimento) sem comprometer a identidade, o plano de fundo ou a coerência temporal. O TokenDial é baseado na observação de que deslocamentos aditivos no espaço intermediário de tokens visuais espaço-temporais formam uma direção de controle semântica, onde o ajuste da magnitude do deslocamento produz edições coerentes e previsíveis tanto para a aparência quanto para a dinâmica de movimento. Aprendemos deslocamentos de tokens específicos para cada atributo sem retreinar o modelo base, utilizando sinais de compreensão pré-treinados: correspondência de direção semântica para aparência e escalonamento de magnitude de movimento para dinâmica. Demonstramos a eficácia do TokenDial em diversos atributos e prompts, alcançando maior controlabilidade e edições de qualidade superior em comparação com as abordagens state-of-the-art, apoiados por extensa avaliação quantitativa e estudos com humanos.