Artigos de pesquisa em IA selecionados diariamente com traduções
A fundamentação de Interface Gráfica do Usuário (GUI) mapeia instruções em linguagem natural para locais precisos da interface para interação autônoma. As abordagens atuais de aprendizado por reforço utilizam recompensas binárias que tratam os elementos como alvos de acerto ou erro, criando sinais esparsos que ignoram a natureza contínua das interações espaciais. Motivados pelo comportamento humano de cliques que naturalmente forma distribuições Gaussianas centradas nos elementos alvo, introduzimos as Recompensas Gaussianas de Fundamentação de GUI (GUI-G^2), uma estrutura de recompensa fundamentada que modela elementos de GUI como distribuições Gaussianas contínuas ao longo do plano da interface. GUI-G^2 incorpora dois mecanismos sinérgicos: recompensas pontuais Gaussianas modelam a localização precisa por meio de distribuições de decaimento exponencial centradas nos centróides dos elementos, enquanto recompensas de cobertura avaliam o alinhamento espacial medindo a sobreposição entre as distribuições Gaussianas previstas e as regiões alvo. Para lidar com escalas diversas de elementos, desenvolvemos um mecanismo de variância adaptativa que calibra as distribuições de recompensa com base nas dimensões dos elementos. Essa estrutura transforma a fundamentação de GUI de uma classificação binária esparsa para uma otimização contínua densa, onde as distribuições Gaussianas geram sinais de gradiente ricos que guiam os modelos para posições de interação ótimas. Experimentos extensivos nos benchmarks ScreenSpot, ScreenSpot-v2 e ScreenSpot-Pro demonstram que GUI-G^2 supera substancialmente o método state-of-the-art UI-TARS-72B, com a melhoria mais significativa de 24,7% no ScreenSpot-Pro. Nossa análise revela que a modelagem contínua proporciona robustez superior a variações de interface e generalização aprimorada para layouts não vistos, estabelecendo um novo paradigma para raciocínio espacial em tarefas de interação com GUI.
Modelos de linguagem de grande escala evoluíram recentemente da geração de texto fluente para raciocínio avançado em diversos domínios, dando origem aos modelos de linguagem de raciocínio. Entre esses domínios, o raciocínio matemático serve como um benchmark representativo, pois exige lógica precisa de múltiplos passos e raciocínio abstrato, que podem ser generalizados para outras tarefas. Embora modelos de linguagem de raciocínio proprietários, como o GPT-3, demonstrem capacidades impressionantes de raciocínio, sua natureza fechada limita a transparência e a reprodutibilidade. Apesar de muitos projetos de código aberto buscarem reduzir essa lacuna, a maioria carece de abertura suficiente ao omitir recursos críticos, como conjuntos de dados e configurações detalhadas de treinamento, o que dificulta a reprodutibilidade. Para contribuir com maior transparência no desenvolvimento de modelos de linguagem de raciocínio, apresentamos a série MiroMind-M1, um conjunto de modelos de linguagem de raciocínio totalmente de código aberto, construídos sobre a base do Qwen-2.5, que igualam ou superam o desempenho dos modelos de código aberto existentes. Especificamente, nossos modelos são treinados em duas etapas: SFT (Fine-Tuning Supervisionado) em um corpus cuidadosamente curado de 719K problemas de raciocínio matemático com trajetórias de CoT (Chain-of-Thought) verificadas, seguido por RLVR (Reforço de Aprendizado com Verificação de Raciocínio) em 62K problemas desafiadores e verificáveis. Para aumentar a robustez e eficiência do processo de RLVR, introduzimos o Context-Aware Multi-Stage Policy Optimization, um algoritmo que integra treinamento progressivo em comprimento com uma penalidade de repetição adaptativa para incentivar o treinamento de reforço contextual. Nosso modelo alcança desempenho de ponta ou competitivo e superior eficiência de tokens entre os modelos de código aberto baseados no Qwen-2.5 de 7B e 32B nos benchmarks AIME24, AIME25 e MATH. Para facilitar a reprodutibilidade, liberamos a pilha completa: modelos (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); conjuntos de dados (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); e todas as configurações de treinamento e avaliação. Esperamos que esses recursos apoiem pesquisas adicionais e promovam o avanço da comunidade.
Avanços recentes em modelos de raciocínio em larga escala destacam o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) como um método promissor para aprimorar as capacidades da IA, particularmente na resolução de tarefas lógicas complexas. No entanto, ainda não está claro se o RLVR realmente expande os limites de raciocínio de um modelo ou apenas amplifica as saídas de alta recompensa que o modelo base já conhece, melhorando a precisão. Este estudo apresenta uma investigação teórica e empírica que oferece novos insights sobre os limites potenciais do RLVR. Primeiro, oferecemos uma nova perspectiva teórica de que o RLVR é limitado pelo suporte do modelo base - incapaz de amostrar soluções com probabilidade inicial zero - e opera como um mecanismo de reajuste conservador que pode restringir a descoberta de soluções completamente originais. Também identificamos uma troca entre entropia e recompensa: embora o RLVR melhore consistentemente a precisão, ele pode progressivamente estreitar a exploração e potencialmente ignorar soluções corretas, porém sub-representadas. Experimentos empíricos extensivos validam que, embora o RLVR melhore consistentemente o pass@1, a redução do suporte empírico geralmente supera a expansão do suporte empírico sob orçamentos de amostragem maiores, falhando em recuperar respostas corretas que eram anteriormente acessíveis ao modelo base. Curiosamente, também observamos que, embora o RLVR às vezes aumente a entropia no nível de tokens, resultando em maior incerteza em cada etapa de geração, a entropia no nível de respostas diminui, indicando que esses caminhos aparentemente mais incertos acabam convergindo para um conjunto menor de respostas distintas. Em conjunto, essas descobertas revelam limites potenciais do RLVR na extensão dos horizontes de raciocínio. Romper essa coleira invisível pode exigir inovações algorítmicas futuras, como mecanismos de exploração explícitos ou estratégias híbridas que distribuam massa de probabilidade em regiões de soluções sub-representadas.
Avanços recentes em modelagem generativa permitem assistentes de edição de imagens que seguem instruções em linguagem natural sem a necessidade de entrada adicional do usuário. O treinamento supervisionado desses modelos requer milhões de triplas: imagem original, instrução e imagem editada. No entanto, a mineração de exemplos com precisão de pixels é desafiadora. Cada edição deve afetar apenas as regiões especificadas no prompt, preservar a coerência estilística, respeitar a plausibilidade física e manter o apelo visual. A falta de métricas robustas e automatizadas para avaliar a qualidade das edições dificulta a automação confiável em larga escala. Apresentamos um pipeline automatizado e modular que extrai triplas de alta fidelidade em diversos domínios, resoluções, complexidades de instruções e estilos. Baseado em modelos generativos públicos e operando sem intervenção humana, nosso sistema utiliza um validador Gemini ajustado para tarefas que pontua diretamente a aderência às instruções e a estética, eliminando a necessidade de modelos de segmentação ou ancoragem. A inversão e o bootstrap composicional ampliam o conjunto minerado em aproximadamente 2,2 vezes, permitindo dados de treinamento em larga escala e de alta fidelidade. Ao automatizar as etapas de anotação mais repetitivas, a abordagem possibilita um novo patamar de treinamento sem esforço de rotulagem humana. Para democratizar a pesquisa nessa área intensiva em recursos, lançamos o NHR-Edit: um conjunto de dados aberto com 358 mil triplas de alta qualidade. Na maior avaliação cruzada entre conjuntos de dados, ele supera todas as alternativas públicas. Também lançamos o Bagel-NHR-Edit, um modelo Bagel ajustado e de código aberto, que alcança métricas de ponta em nossos experimentos.
O advento de agentes alimentados por Modelos de Linguagem de Grande Escala (LLMs) revolucionou a inteligência artificial ao permitir soluções para tarefas complexas e abertas por meio de capacidades de busca de informações (IS) baseadas na web. A escassez de dados de treinamento de alta qualidade tem limitado o desenvolvimento de agentes de IS. As abordagens existentes geralmente adotam um paradigma orientado por informações que primeiro coleta dados da web e, em seguida, gera perguntas com base na recuperação. No entanto, isso pode levar a inconsistências entre a estrutura da informação e a estrutura de raciocínio, pergunta e resposta. Para mitigar isso, propomos um framework de síntese de dados de IS orientado por formalização, chamado WebShaper, para construir um conjunto de dados. O WebShaper formaliza sistematicamente tarefas de IS por meio da teoria dos conjuntos. Central para essa formalização é o conceito de Projeções de Conhecimento (KP), que permite um controle preciso sobre a estrutura de raciocínio por meio de composições de operações de KP. Durante a síntese, começamos criando tarefas iniciais e, em seguida, usamos um processo de expansão em várias etapas. Em cada etapa, um Expansor agentivo expande a pergunta formal atual para torná-la mais complexa com ferramentas de recuperação e validação baseadas em nossa formalização. Treinamos nosso modelo no conjunto de dados sintetizado. Os resultados dos experimentos demonstram que o WebShaper alcança desempenho de ponta entre os agentes de IS de código aberto nos benchmarks GAIA e WebWalkerQA.
Relatamos nosso progresso recente na construção de políticas robóticas generalistas, com o desenvolvimento do GR-3. O GR-3 é um modelo de grande escala que integra visão, linguagem e ação (VLA). Ele demonstra capacidades excepcionais em generalizar para novos objetos, ambientes e instruções envolvendo conceitos abstratos. Além disso, pode ser ajustado de forma eficiente com um mínimo de dados de trajetória humana, permitindo uma adaptação rápida e econômica a novos cenários. O GR-3 também se destaca no tratamento de tarefas de longo prazo e de alta destreza, incluindo aquelas que exigem manipulação bimanual e movimento móvel, mostrando um desempenho robusto e confiável. Essas capacidades são alcançadas por meio de uma abordagem de treinamento multifacetada, que inclui co-treinamento com dados de visão e linguagem em escala da web, ajuste fino eficiente a partir de dados de trajetória humana coletados por dispositivos de realidade virtual e aprendizado por imitação eficaz com dados de trajetória robótica. Além disso, apresentamos o ByteMini, um robô móvel bimanual versátil projetado com flexibilidade e confiabilidade excepcionais, capaz de realizar uma ampla gama de tarefas quando integrado ao GR-3. Por meio de extensos experimentos no mundo real, mostramos que o GR-3 supera o método de referência state-of-the-art, pi_0, em uma variedade de tarefas desafiadoras. Esperamos que o GR-3 possa servir como um passo em direção à construção de robôs generalistas capazes de auxiliar os humanos no dia a dia.
A Segmentação de Objetos em Vídeo (VOS) é uma tarefa fundamental na visão computacional, exigindo que os modelos rastreiem e segmentem objetos-alvo ao longo dos frames de um vídeo. Apesar dos avanços notáveis com esforços recentes, as técnicas atuais ainda ficam aquém das capacidades humanas ao lidar com variações visuais drásticas, oclusões e mudanças complexas de cena. Essa limitação surge da dependência dessas técnicas na correspondência de aparência, negligenciando o entendimento conceitual semelhante ao humano sobre os objetos, que permite uma identificação robusta ao longo das dinâmicas temporais. Motivados por essa lacuna, propomos o Segment Concept (SeC), uma estrutura de segmentação orientada por conceitos que se afasta da correspondência de características convencional para a construção e utilização progressiva de representações de alto nível centradas no objeto. O SeC emprega Grandes Modelos de Visão e Linguagem (LVLMs) para integrar pistas visuais em diversos frames, construindo priores conceituais robustos. Durante a inferência, o SeC forma uma representação semântica abrangente do alvo com base nos frames processados, realizando uma segmentação robusta dos frames subsequentes. Além disso, o SeC equilibra de forma adaptativa o raciocínio semântico baseado em LVLM com uma correspondência de características aprimorada, ajustando dinamicamente os esforços computacionais com base na complexidade da cena. Para avaliar rigorosamente os métodos de VOS em cenários que exigem raciocínio conceitual de alto nível e entendimento semântico robusto, introduzimos o benchmark Semantic Complex Scenarios Video Object Segmentation (SeCVOS). O SeCVOS compreende 160 vídeos de múltiplos cenários anotados manualmente, projetados para desafiar os modelos com variações substanciais de aparência e transformações dinâmicas de cena. Em particular, o SeC alcança uma melhoria de 11,8 pontos em relação ao SAM 2.1 no SeCVOS, estabelecendo um novo estado da arte na segmentação de objetos em vídeo consciente de conceitos.
Avanços recentes em representações neurais 3D e modelos de edição em nível de instância têm possibilitado a criação eficiente de conteúdo 3D de alta qualidade. No entanto, alcançar edições locais 3D precisas continua sendo um desafio, especialmente para o Gaussian Splatting, devido a segmentações de partes 2D multivista inconsistentes e à natureza inerentemente ambígua da perda de Amostragem de Destilação de Pontuação (SDS). Para abordar essas limitações, propomos o RoMaP, uma nova estrutura de edição local de Gaussianos 3D que permite modificações precisas e drásticas em nível de parte. Primeiro, introduzimos um módulo robusto de geração de máscaras 3D com nossa Predição de Rótulo Ciente de Geometria 3D (3D-GALP), que utiliza coeficientes de harmônicos esféricos (SH) para modelar variações de rótulo dependentes da vista e a propriedade de rótulo suave, resultando em segmentações de partes precisas e consistentes em diferentes pontos de vista. Segundo, propomos uma perda SDS regularizada que combina a perda SDS padrão com regularizadores adicionais. Em particular, uma perda de âncora L1 é introduzida por meio de nosso método de Edição de Mistura Latente Programada e Parte (SLaMP), que gera imagens 2D editadas de alta qualidade e confina as modificações apenas à região alvo, preservando a coerência contextual. Regularizadores adicionais, como a remoção de prior Gaussiana, melhoram ainda mais a flexibilidade ao permitir mudanças além do contexto existente, e a máscara 3D robusta evita edições não intencionais. Resultados experimentais demonstram que nosso RoMaP alcança a edição local 3D mais avançada em cenas e objetos Gaussianos reconstruídos e gerados, tanto qualitativa quanto quantitativamente, possibilitando uma edição de Gaussianos 3D em nível de parte mais robusta e flexível. O código está disponível em https://janeyeon.github.io/romap.
Apresentamos o Being-H0, um modelo Visão-Linguagem-Ação (VLA) habilidoso treinado em vídeos humanos em grande escala. Os VLAs existentes enfrentam dificuldades com tarefas de manipulação complexas que exigem alta destreza e generalizam mal para cenários e tarefas novos, principalmente devido à sua dependência de dados sintéticos com grandes lacunas de simulação-realidade ou demonstrações teleoperadas que carecem de escala e diversidade. Para superar esse gargalo de dados, propomos aproveitar as mãos humanas como um manipulador fundamental, capitalizando a rica destreza e escalabilidade presentes em dados da web. Nossa abordagem centra-se no ajuste físico por instrução, um paradigma de treinamento inovador que combina pré-treinamento VLA em grande escala a partir de vídeos humanos, alinhamento do espaço físico para raciocínio 3D e adaptação pós-treinamento para tarefas robóticas. Além disso, introduzimos um método de tokenização de movimento em nível de partes, que alcança precisão de reconstrução em nível milimétrico para modelar trajetórias precisas das mãos no aprendizado de ações. Para apoiar nosso paradigma proposto, desenvolvemos ainda um pipeline abrangente de curadoria de dados que integra fontes heterogêneas — incluindo captura de movimento, realidade virtual (VR) e vídeos apenas RGB — em um conjunto de dados em grande escala com milhões de instâncias instrucionais baseadas em movimento. Demonstramos empiricamente a excelência do Being-H0 na geração de movimentos das mãos e no seguimento de instruções, além de sua boa escalabilidade com o tamanho do modelo e dos dados. Importante destacar, observamos os ganhos esperados do Being-H0 na manipulação robótica do mundo real à medida que o ajuste físico por instrução é aplicado. Mais detalhes estão disponíveis em https://beingbeyond.github.io/Being-H0.
Modelos de Linguagem Falada (SLMs, do inglês Spoken Language Models) são projetados para receber entradas de fala e produzir respostas faladas. No entanto, os SLMs atuais não possuem a capacidade de realizar um processo interno e não falado de pensamento antes de responder. Em contraste, os humanos geralmente se envolvem em raciocínios mentais complexos internamente, permitindo que comuniquem ideias de forma clara e concisa. Portanto, integrar um processo de pensamento não falado aos SLMs é altamente desejável. Embora gerar de forma ingênua uma cadeia completa de raciocínio (CoT, do inglês Chain-of-Thought) antes de começar a falar possa permitir o pensamento para SLMs, isso induz uma latência adicional para a resposta de fala, já que o raciocínio CoT pode ser arbitrariamente longo. Para resolver esse problema, propomos Stitch, um novo método de geração que alterna entre a geração de blocos de raciocínio não falado e blocos de resposta falada. Como a duração do áudio de um bloco de resposta falada é muito maior do que o tempo para gerar os tokens em um bloco de resposta falada, utilizamos o tempo livre restante para gerar os tokens de raciocínio não falado. Quando um bloco de áudio é reproduzido para o usuário, o modelo continua a gerar o próximo bloco de raciocínio não falado, alcançando pensamento e fala simultâneos. Notavelmente, o Stitch iguala a latência de modelos de referência que, por design, não podem gerar CoT não falado, enquanto supera esses modelos de referência em 15% em conjuntos de dados de raciocínio matemático; o Stitch também se sai igualmente bem em conjuntos de dados não relacionados a raciocínio, comparado a esses modelos de referência. Algumas animações e demonstrações estão disponíveis na página do projeto: https://d223302.github.io/STITCH.
Construímos tarefas de avaliação onde a extensão do comprimento do raciocínio em Modelos de Raciocínio de Grande Escala (LRMs) deteriora o desempenho, exibindo uma relação de escala inversa entre o cálculo em tempo de teste e a precisão. Nossas tarefas de avaliação abrangem quatro categorias: tarefas simples de contagem com distratores, tarefas de regressão com características espúrias, tarefas de dedução com rastreamento de restrições e riscos avançados de IA. Identificamos cinco modos distintos de falha quando os modelos raciocinam por mais tempo: 1) os modelos Claude tornam-se cada vez mais distraídos por informações irrelevantes; 2) os modelos da série o da OpenAI resistem aos distratores, mas superajustam-se às formulações dos problemas; 3) os modelos mudam de prioridades razoáveis para correlações espúrias; 4) todos os modelos mostram dificuldades em manter o foco em tarefas dedutivas complexas; e 5) o raciocínio prolongado pode amplificar comportamentos preocupantes, com o Claude Sonnet 4 mostrando um aumento nas expressões de autopreservação. Esses achados sugerem que, embora a escala de cálculo em tempo de teste continue promissora para melhorar as capacidades dos modelos, ela pode inadvertidamente reforçar padrões problemáticos de raciocínio. Nossos resultados demonstram a importância de avaliar os modelos em diversos comprimentos de raciocínio para identificar e abordar esses modos de falha em LRMs.
O splatting 3D Gaussiano (3DGS) demonstrou sua capacidade expressiva detalhada e velocidade de renderização altamente eficiente na tarefa de síntese de novas vistas (NVS). A aplicação ao rendering inverso ainda enfrenta vários desafios, pois a natureza discreta dos primitivos Gaussianos dificulta a aplicação de restrições geométricas. Trabalhos recentes introduzem o campo de distância sinalizada (SDF) como uma representação contínua adicional para regularizar a geometria definida pelos primitivos Gaussianos. Isso melhora a qualidade da decomposição, ao custo de aumentar o uso de memória e complicar o treinamento. Diferentemente desses trabalhos, introduzimos um SDF discretizado para representar o SDF contínuo de forma discreta, codificando-o dentro de cada Gaussiano usando um valor amostrado. Essa abordagem nos permite vincular o SDF à opacidade Gaussiana por meio de uma transformação SDF-opacidade, permitindo renderizar o SDF via splatting e evitando o custo computacional do ray marching. O principal desafio é regularizar as amostras discretas para que sejam consistentes com o SDF subjacente, já que a representação discreta dificilmente pode aplicar restrições baseadas em gradiente (\eg, perda Eikonal). Para isso, projetamos Gaussianos no conjunto de nível zero do SDF e impomos o alinhamento com a superfície gerada pelo splatting, ou seja, uma perda de consistência baseada em projeção. Graças ao SDF discretizado, nosso método alcança maior qualidade de relighting, sem exigir memória adicional além do GS e evitando otimizações complexas projetadas manualmente. Os experimentos revelam que nosso método supera os métodos existentes de rendering inverso baseados em Gaussianos. Nosso código está disponível em https://github.com/NK-CS-ZZL/DiscretizedSDF.
A inteligência humana requer correção e robustez, sendo a primeira fundamental para a segunda. Na compreensão de vídeos, a correção garante a interpretação precisa do conteúdo visual, enquanto a robustez mantém um desempenho consistente em condições desafiadoras. Apesar dos avanços nos modelos de linguagem de grande escala para vídeos (video LLMs), os benchmarks existentes não refletem adequadamente a lacuna entre esses modelos e a inteligência humana na manutenção da correção e robustez na interpretação de vídeos. Apresentamos o Teste de Pensamento em Vídeo (Video-TT), para avaliar se os video LLMs podem interpretar vídeos do mundo real com a mesma eficácia que os humanos. O Video-TT reflete lacunas genuínas na compreensão de narrativas visuais complexas e avalia a robustez contra perguntas adversariais naturais. O Video-TT é composto por 1.000 vídeos do YouTube Shorts, cada um com uma pergunta aberta e quatro perguntas adversariais que exploram a complexidade visual e narrativa. Nossa avaliação mostra uma lacuna significativa entre o desempenho dos video LLMs e o desempenho humano.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um método eficaz de pós-treinamento para aprimorar as habilidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs), principalmente ao moldar comportamentos de ordem superior, como reflexão e planejamento. No entanto, algoritmos anteriores de RLVR frequentemente aplicam sinais de treinamento uniformes a todos os tokens, sem considerar os diferentes papéis dos tokens relacionados a conhecimento de baixa entropia e dos tokens relacionados a raciocínio de alta entropia. Alguns métodos recentes tentam separar esses tipos de tokens por meio de mascaramento de gradientes ou atualizações assíncronas, mas essas abordagens podem quebrar dependências semânticas na saída do modelo e prejudicar o aprendizado eficaz. Neste trabalho, propomos o Archer, uma abordagem de RLVR consciente da entropia com restrições de tokens duais e atualizações síncronas. Especificamente, nosso método aplica regularização KL mais fraca e limites de corte mais altos aos tokens de raciocínio para incentivar a exploração, enquanto usa restrições mais fortes nos tokens de conhecimento para manter o conhecimento factual. Resultados experimentais em vários benchmarks de raciocínio matemático e geração de código mostram que nossa abordagem supera significativamente os métodos anteriores de RLVR, atingindo ou excedendo o desempenho de ponta entre modelos de tamanho comparável. O código está disponível em https://github.com/wizard-III/ArcherCodeR.
O rápido crescimento de agentes inteligentes baseados em Modelos de Linguagem de Grande Escala (LLMs) destaca a necessidade de frameworks de avaliação robustos e escaláveis. Os métodos existentes dependem de benchmarks estáticos e da coleta de dados intensiva em mão de obra, limitando a avaliação prática. Apresentamos o \oursystemname, um framework de código aberto baseado no Protocolo de Contexto de Modelo (MCP) que automatiza a geração de tarefas de ponta a ponta e a avaliação profunda de agentes LLM em diversos domínios. O MCPEval padroniza métricas, integra-se perfeitamente com ferramentas nativas de agentes e elimina o esforço manual na construção de pipelines de avaliação. Resultados empíricos em cinco domínios do mundo real demonstram sua eficácia em revelar desempenhos específicos e detalhados. Disponibilizamos publicamente o MCPEval em https://github.com/SalesforceAIResearch/MCPEval para promover a avaliação reproduzível e padronizada de agentes LLM.
Modelos de geração de vídeo têm alcançado progressos notáveis na criação de conteúdo fotorealístico de alta qualidade. No entanto, sua capacidade de simular com precisão fenômenos físicos permanece um desafio crítico e não resolvido. Este artigo apresenta o PhyWorldBench, um benchmark abrangente projetado para avaliar modelos de geração de vídeo com base em sua aderência às leis da física. O benchmark cobre múltiplos níveis de fenômenos físicos, desde princípios fundamentais como movimento de objetos e conservação de energia até cenários mais complexos envolvendo interações de corpos rígidos e movimentos humanos ou animais. Além disso, introduzimos uma nova categoria chamada "Anti-Física", onde os prompts violam intencionalmente a física do mundo real, permitindo avaliar se os modelos podem seguir tais instruções enquanto mantêm a consistência lógica. Além de uma avaliação humana em larga escala, também projetamos um método simples, porém eficaz, que pode utilizar modelos multimodais de linguagem (MLLM) atuais para avaliar o realismo físico de forma zero-shot. Avaliamos 12 modelos state-of-the-art de geração de texto para vídeo, incluindo cinco modelos de código aberto e cinco proprietários, com uma comparação e análise detalhada. Identificamos desafios cruciais que os modelos enfrentam ao aderir à física do mundo real. Por meio de testes sistemáticos de suas saídas em 1.050 prompts cuidadosamente selecionados - abrangendo cenários fundamentais, compostos e anti-físicos - identificamos desafios cruciais que esses modelos enfrentam ao aderir à física do mundo real. Em seguida, examinamos rigorosamente seu desempenho em diversos fenômenos físicos com diferentes tipos de prompts, derivando recomendações direcionadas para a criação de prompts que aumentam a fidelidade aos princípios físicos.
Perceber e reconstruir a geometria espaço-temporal 4D a partir de vídeos é uma tarefa fundamental, porém desafiadora, na área de visão computacional. Para facilitar aplicações interativas e em tempo real, propomos um transformador de geometria visual 4D em streaming que compartilha uma filosofia semelhante com modelos de linguagem grandes autoregressivos. Exploramos um design simples e eficiente e empregamos uma arquitetura de transformador causal para processar a sequência de entrada de maneira online. Utilizamos atenção causal temporal e armazenamos em cache as chaves e valores históricos como memória implícita para permitir uma reconstrução 4D de longo prazo eficiente em streaming. Esse design é capaz de lidar com a reconstrução 4D em tempo real ao integrar incrementalmente informações históricas, mantendo uma consistência espacial de alta qualidade. Para um treinamento eficiente, propomos destilar conhecimento do transformador de geometria visual bidirecional denso (VGGT) para o nosso modelo causal. Para inferência, nosso modelo suporta a migração de operadores de atenção eficientes otimizados (por exemplo, FlashAttention) do campo de modelos de linguagem grandes. Experimentos extensivos em vários benchmarks de percepção de geometria 4D demonstram que nosso modelo aumenta a velocidade de inferência em cenários online enquanto mantém um desempenho competitivo, abrindo caminho para sistemas de visão 4D escaláveis e interativos. O código está disponível em: https://github.com/wzzheng/StreamVGGT.
A resolução de problemas em múltiplos turnos é crucial, porém desafiadora, para Modelos de Raciocínio de Grande Escala (LRMs) refletirem sobre seu raciocínio e revisarem com base em feedback. Os métodos existentes de Aprendizado por Reforço (RL) treinam modelos de raciocínio de grande escala em um paradigma de turno único com recompensas verificáveis. No entanto, observamos que modelos treinados com os paradigmas de RL existentes frequentemente perdem a capacidade de resolver problemas em múltiplos turnos e lutam para revisar respostas com base em feedback contextual, levando a respostas repetitivas. Perguntamos: os LRMs podem aprender a refletir sobre suas respostas em um contexto de múltiplos turnos? Neste trabalho, descobrimos que treinar modelos com RL de múltiplos turnos usando apenas feedback unário (por exemplo, "Vamos tentar novamente") após respostas erradas pode melhorar tanto o desempenho em turno único quanto o raciocínio em múltiplos turnos. Introduzimos o Feedback Unário como Observação (UFO) para aprendizado por reforço, que utiliza feedback unário mínimo, porém comum, durante a resolução iterativa de problemas. Ele pode ser facilmente aplicado a configurações de treinamento de RL de turno único existentes. Resultados experimentais mostram que o treinamento de RL com UFO mantém o desempenho em turno único e melhora a precisão do raciocínio em múltiplos turnos em até 14%, permitindo que modelos de linguagem reajam melhor ao feedback na resolução de problemas em múltiplos turnos. Para minimizar ainda mais o número de turnos necessários para uma resposta correta, ao mesmo tempo em que incentivamos raciocínios diversos quando ocorrem erros, projetamos estruturas de recompensa que orientam os modelos a produzir respostas cuidadosas e deliberadas em cada turno. Código: https://github.com/lichengliu03/unary-feedback
Apesar de seu papel fundamental, ainda não está claro quais propriedades poderiam tornar os tokenizadores visuais mais eficazes para modelagem generativa. Observamos que os modelos generativos modernos compartilham um objetivo de treinamento conceitualmente semelhante — reconstruir sinais limpos a partir de entradas corrompidas, como ruído gaussiano ou mascaramento — um processo que denominamos de desruído. Motivados por essa percepção, propomos alinhar diretamente os embeddings do tokenizador com o objetivo de desruído downstream, incentivando que os embeddings latentes sejam mais facilmente reconstruídos, mesmo quando fortemente corrompidos. Para alcançar isso, introduzimos o Tokenizador de Desruído Latente (l-DeTok), um tokenizador simples, porém eficaz, treinado para reconstruir imagens limpas a partir de embeddings latentes corrompidos por ruído interpolativo e mascaramento aleatório. Experimentos extensivos no ImageNet 256x256 demonstram que nosso tokenizador supera consistentemente os tokenizadores padrão em seis modelos generativos representativos. Nossas descobertas destacam o desruído como um princípio fundamental de design para o desenvolvimento de tokenizadores, e esperamos que isso possa motivar novas perspectivas para o design futuro de tokenizadores.
Embora o aprendizado de máquina tenha avançado por meio de uma massiva paralelização, identificamos um ponto cego crítico: alguns problemas são fundamentalmente sequenciais. Esses problemas "inerentemente seriais" — desde o raciocínio matemático até simulações físicas e tomadas de decisão sequenciais — exigem etapas computacionais dependentes que não podem ser paralelizadas. Com base na teoria da complexidade, formalizamos essa distinção e demonstramos que as arquiteturas atuais centradas na paralelização enfrentam limitações fundamentais nessas tarefas. Argumentamos que reconhecer a natureza serial da computação tem implicações profundas no aprendizado de máquina, no design de modelos e no desenvolvimento de hardware. À medida que a IA aborda raciocínios cada vez mais complexos, escalar deliberadamente a computação serial — e não apenas a computação paralela — é essencial para o progresso contínuo.
Apresentamos o LLM Economist, uma estrutura inovadora que utiliza modelagem baseada em agentes para projetar e avaliar políticas econômicas em ambientes estratégicos com tomada de decisão hierárquica. No nível inferior, agentes trabalhadores com racionalidade limitada — instanciados como prompts condicionados por personas amostrados de estatísticas de renda e demográficas calibradas pelo Censo dos EUA — escolhem a oferta de trabalho para maximizar funções de utilidade baseadas em texto aprendidas em contexto. No nível superior, um agente planejador emprega aprendizado por reforço em contexto para propor escalas de impostos marginais lineares por partes ancoradas nas faixas federais atuais dos EUA. Essa construção confere aos simulacros econômicos três capacidades essenciais para experimentação fiscal credível: (i) otimização de utilidades heterogêneas, (ii) geração fundamentada de grandes populações de agentes demograficamente realistas e (iii) design de mecanismos — o problema final de "nudging" — expresso inteiramente em linguagem natural. Experimentos com populações de até cem agentes interagindo mostram que o planejador converge para equilíbrios de Stackelberg que melhoram o bem-estar social agregado em relação às soluções de Saez, enquanto um procedimento periódico de votação no nível da persona amplia esses ganhos sob governança descentralizada. Esses resultados demonstram que agentes baseados em grandes modelos de linguagem podem modelar, simular e governar conjuntamente sistemas econômicos complexos, fornecendo um ambiente de teste viável para avaliação de políticas em escala societal, ajudando a construir civilizações melhores.
Gerar vídeos longos e consistentes é um desafio complexo: embora modelos generativos baseados em difusão produzam clipes curtos visualmente impressionantes, estendê-los para durações maiores frequentemente resulta em gargalos de memória e inconsistências de longo prazo. Neste artigo, propomos o TokensGen, uma nova estrutura de duas etapas que utiliza tokens condensados para abordar esses problemas. Nosso método decompõe a geração de vídeos longos em três tarefas principais: (1) controle semântico intra-clipe, (2) controle de consistência de longo prazo e (3) transição suave entre clipes. Primeiro, treinamos o To2V (Token-to-Video), um modelo de difusão para vídeos curtos guiado por texto e tokens de vídeo, com um Video Tokenizer que condensa clipes curtos em tokens semanticamente ricos. Em seguida, introduzimos o T2To (Text-to-Token), um transformador de difusão de tokens de vídeo que gera todos os tokens de uma vez, garantindo consistência global entre os clipes. Por fim, durante a inferência, uma estratégia adaptativa de FIFO-Diffusion conecta suavemente clipes adjacentes, reduzindo artefatos de borda e melhorando as transições suaves. Resultados experimentais demonstram que nossa abordagem melhora significativamente a coerência temporal e de conteúdo de longo prazo sem incorrer em sobrecarga computacional proibitiva. Ao aproveitar tokens condensados e modelos pré-treinados de vídeos curtos, nosso método oferece uma solução escalável e modular para a geração de vídeos longos, abrindo novas possibilidades para narrativas, produção cinematográfica e simulações imersivas. Consulte nossa página do projeto em https://vicky0522.github.io/tokensgen-webpage/.
O pré-treinamento contínuo em pequenos conjuntos de dados específicos para tarefas é um método eficaz para melhorar modelos de linguagem de grande escala em novos campos de interesse, mas corre o risco de causar esquecimento catastrófico de suas capacidades originais. Uma solução comum é reequilibrar as misturas de dados de treinamento dos campos de origem e de destino em um espaço de domínio para alcançar desempenho equilibrado. Estratégias anteriores de reequilíbrio de domínio dependem de designações manuais com certas heurísticas baseadas em intuição humana ou resultados empíricos. Neste trabalho, demonstramos que heurísticas mais gerais podem ser parametrizadas ao propor o Agente de Mistura de Dados, o primeiro framework baseado em modelo e de ponta a ponta que aprende a reequilibrar domínios. O agente aprende heurísticas generalizáveis por meio de aprendizado por reforço em grandes quantidades de trajetórias de mistura de dados com feedback correspondente de um ambiente de avaliação. Experimentos de pré-treinamento contínuo em raciocínio matemático mostram que o Agente de Mistura de Dados supera baselines fortes ao alcançar desempenho equilibrado em benchmarks de campos de origem e de destino. Além disso, ele generaliza bem em campos de origem não vistos, modelos de destino e espaços de domínio sem necessidade de retreinamento. A aplicação direta no campo de geração de código também indica sua adaptabilidade entre domínios de destino. Análises adicionais mostram que as heurísticas do agente estão bem alinhadas com intuições humanas e sua eficiência em alcançar desempenho superior do modelo com menos dados do campo de origem.
Avaliar as capacidades de descoberta científica de agentes baseados em grandes modelos de linguagem (LLMs), particularmente como eles lidam com a complexidade variável do ambiente e utilizam conhecimento prévio, requer benchmarks especializados que atualmente estão ausentes no cenário. Para preencher essa lacuna, introduzimos o PhysGym, uma nova suíte de benchmarks e plataforma de simulação para avaliar rigorosamente o raciocínio científico baseado em LLMs em ambientes interativos de física. A principal contribuição do PhysGym reside em seu controle sofisticado sobre o nível de conhecimento prévio fornecido ao agente. Isso permite que os pesquisadores analisem o desempenho do agente ao longo de eixos que incluem a complexidade do problema e os níveis de conhecimento prévio. O benchmark compreende uma suíte de simulações interativas, onde os agentes devem investigar ativamente os ambientes, coletar dados sequencialmente sob restrições e formular hipóteses sobre as leis físicas subjacentes. O PhysGym fornece protocolos e métricas padronizados para avaliar a precisão das hipóteses e a fidelidade do modelo. Demonstramos a utilidade do benchmark apresentando resultados de LLMs de linha de base, destacando sua capacidade de diferenciar as capacidades com base em diferentes conhecimentos prévios e complexidades de tarefas.
A localização cruzada de visão, a tarefa de estimar a pose de 3 graus de liberdade (3-DoF) de uma câmera ao alinhar imagens em nível do solo com imagens de satélite, é crucial para aplicações externas em grande escala, como navegação autônoma e realidade aumentada. Os métodos existentes frequentemente dependem de aprendizado totalmente supervisionado, que requer anotações de pose de verdade terrestre (ground truth) custosas. Neste trabalho, propomos o GeoDistill, uma estrutura de auto-distilação fracamente supervisionada guiada por geometria que utiliza aprendizado professor-aluno com máscaras baseadas no Campo de Visão (FoV) para aprimorar o aprendizado de características locais para uma localização cruzada de visão robusta. No GeoDistill, o modelo professor localiza uma imagem panorâmica, enquanto o modelo aluno prevê localizações a partir de uma contraparte com FoV limitado criada por máscaras baseadas no FoV. Ao alinhar as previsões do aluno com as do professor, o aluno se concentra em características-chave, como linhas de faixa, e ignora regiões sem textura, como estradas. Isso resulta em previsões mais precisas e redução da incerteza, independentemente de as imagens de consulta serem panoramas ou imagens com FoV limitado. Nossos experimentos mostram que o GeoDistill melhora significativamente o desempenho de localização em diferentes estruturas. Além disso, introduzimos uma nova rede de estimativa de orientação que prevê a orientação relativa sem exigir a verdade terrestre de posição planar precisa. O GeoDistill oferece uma solução escalável e eficiente para os desafios de localização cruzada de visão no mundo real. O código e o modelo podem ser encontrados em https://github.com/tongshw/GeoDistill.
A classificação precisa de imagens de tomografia computadorizada (CT) é essencial para o diagnóstico e planejamento de tratamento, mas os métodos existentes frequentemente enfrentam dificuldades com a natureza sutil e espacialmente diversa das características patológicas. As abordagens atuais geralmente processam as imagens de maneira uniforme, limitando sua capacidade de detectar anormalidades localizadas que exigem uma análise focada. Apresentamos o UGPL, uma estrutura de aprendizado progressivo guiada por incerteza que realiza uma análise global para local, identificando primeiro regiões de ambiguidade diagnóstica e, em seguida, conduzindo um exame detalhado dessas áreas críticas. Nossa abordagem emprega o aprendizado profundo evidencial para quantificar a incerteza preditiva, orientando a extração de patches informativos por meio de um mecanismo de supressão não máxima que mantém a diversidade espacial. Essa estratégia de refinamento progressivo, combinada com um mecanismo de fusão adaptativa, permite que o UGPL integre tanto informações contextuais quanto detalhes refinados. Experimentos realizados em três conjuntos de dados de CT demonstram que o UGPL supera consistentemente os métodos state-of-the-art, alcançando melhorias de 3,29%, 2,46% e 8,08% na precisão para detecção de anormalidades renais, câncer de pulmão e COVID-19, respectivamente. Nossa análise mostra que o componente guiado por incerteza oferece benefícios substanciais, com o desempenho aumentando drasticamente quando o pipeline completo de aprendizado progressivo é implementado. Nosso código está disponível em: https://github.com/shravan-18/UGPL
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho forte em tarefas de programação, mas eles podem gerar código semelhante ao de estudantes - imperfeito, iterativo e estilisticamente diverso? Apresentamos o ParaStudent, um estudo sistemático da geração de código "semelhante ao de estudantes" baseada em LLMs no contexto de um curso introdutório de programação. Utilizando um conjunto de dados de submissões de estudantes com carimbos de tempo ao longo de múltiplos semestres, projetamos experimentos de baixa e alta resolução para modelar o progresso dos estudantes e avaliar as saídas de código em dimensões semânticas, funcionais e estilísticas. Nossos resultados mostram que o ajuste fino melhora significativamente o alinhamento com as trajetórias reais dos estudantes e captura padrões de erro, melhorias incrementais e variações estilísticas de forma mais fiel. Este estudo demonstra que modelar código realista de estudantes requer capturar dinâmicas de aprendizagem por meio de geração contextualizada, modelagem temporal e avaliação multidimensional. O código para os experimentos e avaliação está disponível em https://github.com/mmiroyan/ParaStudent.