Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os Modelos Multimodais de Grande Porte (LMMs) tenham feito progressos significativos, eles permanecem amplamente centrados em texto, utilizando a linguagem como sua modalidade central de raciocínio. Como resultado, sua capacidade de lidar com tarefas de raciocínio predominantemente visuais é limitada. Abordagens recentes tentaram resolver isso supervisionando etapas visuais intermediárias com imagens auxiliares, mapas de profundidade ou recortes de imagem. No entanto, essas estratégias impõem pré-condições restritivas sobre como as abstrações visuais "úteis" devem ser, adicionam custos pesados de anotação e lutam para generalizar entre tarefas. Para enfrentar esta limitação crítica, propomos um mecanismo independente de tarefa que treina LMMs para descobrir e usar tokens de raciocínio visual sem supervisão explícita. Esses tokens atendem globalmente e recodificam a imagem de uma forma adaptada à tarefa, permitindo que o modelo extraia informações visuais relevantes sem supervisão manual. Nossa abordagem supera o ajuste fino direto e alcança resultados de última geração em uma ampla gama de tarefas centradas na visão – incluindo aquelas em que as abstrações intermediárias são difíceis de especificar – ao mesmo tempo que generaliza para o ajuste de instrução multitarefa.
Modelos autorregressivos de grande escala pré-treinados em previsão do próximo token e ajustados com aprendizagem por reforço (RL) alcançaram sucesso sem precedentes em muitos domínios de problemas. Durante o RL, esses modelos exploram gerando novas saídas, um token por vez. No entanto, amostrar ações token a token pode resultar em aprendizagem altamente ineficiente, particularmente quando as recompensas são esparsas. Aqui, mostramos que é possível superar esse problema agindo e explorando dentro das representações internas de um modelo autorregressivo. Especificamente, para descobrir ações temporalmente abstratas, introduzimos um modelo de sequência de ordem superior e não causal, cujas saídas controlam as ativações do fluxo residual de um modelo autorregressivo base. Em tarefas baseadas em grid world e MuJoCo com estrutura hierárquica, descobrimos que o modelo de ordem superior aprende a comprimir longos trechos de sequências de ativação em controladores internos. Criticamente, cada controlador executa uma sequência de ações comportamentalmente significativas que se desdobram em longas escalas de tempo e são acompanhadas por uma condição de término aprendida, de modo que compor múltiplos controladores ao longo do tempo leva a uma exploração eficiente em tarefas novas. Mostramos que o reforço direto do controlador interno, um processo que denominamos "RL interno", permite o aprendizado a partir de recompensas esparsas em casos onde o ajuste fino padrão por RL falha. Nossos resultados demonstram os benefícios da geração e do reforço de ações latentes em modelos autorregressivos, sugerindo o RL interno como uma via promissora para realizar RL hierárquico dentro de modelos de fundação.
Os modelos existentes de geração de vídeo enfrentam dificuldades em manter a consistência espacial e temporal de longo prazo devido à natureza densa e de alta dimensão dos sinais de vídeo. Para superar essa limitação, propomos o Spatia, uma estrutura de geração de vídeo com memória espacial que preserva explicitamente uma nuvem de pontos 3D da cena como memória espacial persistente. O Spatia gera iterativamente clipes de vídeo condicionados a essa memória espacial e a atualiza continuamente por meio de SLAM visual. Este design de separação dinâmico-estática melhora a consistência espacial ao longo do processo de geração, preservando a capacidade do modelo de produzir entidades dinâmicas realistas. Além disso, o Spatia permite aplicações como controle explícito de câmera e edição interativa com consciência 3D, fornecendo uma estrutura geometricamente fundamentada para geração de vídeo escalável e orientada por memória.
Os modelos de linguagem de grande porte expõem cada vez mais traços de raciocínio, contudo, a sua estrutura cognitiva subjacente e as suas etapas permanecem difíceis de identificar e analisar para além de estatísticas superficiais. Adotamos a Teoria dos Episódios de Schoenfeld como uma lente indutiva de escala intermédia e introduzimos o ThinkARM (Anatomia do Raciocínio em Modelos), um quadro escalável que abstrai explicitamente os traços de raciocínio em etapas de raciocínio funcionais, como Análise, Exploração, Implementação, Verificação, etc. Quando aplicada à resolução de problemas matemáticos por diversos modelos, esta abstração revela dinâmicas de pensamento reproduzíveis e diferenças estruturais entre modelos com e sem capacidades de raciocínio, que não são aparentes numa visão ao nível dos *tokens*. Apresentamos ainda dois estudos de caso de diagnóstico que mostram que a exploração funciona como uma etapa crítica de ramificação associada à correção, e que os métodos orientados para a eficiência suprimem seletivamente etapas de *feedback* avaliativo em vez de encurtarem as respostas de forma uniforme. Em conjunto, os nossos resultados demonstram que as representações ao nível do episódio tornam as etapas de raciocínio explícitas, permitindo uma análise sistemática de como o raciocínio é estruturado, estabilizado e alterado nos modelos de linguagem modernos.
A geração visual autorregressiva (AR) depende de tokenizers para mapear imagens de e para sequências discretas. No entanto, os tokenizers são treinados para reconstruir imagens limpas a partir de tokens de referência, enquanto os geradores AR são otimizados apenas para a verossimilhança dos tokens. Este desalinhamento leva a sequências de tokens geradas que podem decodificar em imagens de baixa qualidade, sem supervisão direta do espaço de pixels. Propomos o VA-π, uma estrutura leve de pós-treinamento que otimiza diretamente os modelos AR com um objetivo fundamentado no espaço de pixels. O VA-π formula o alinhamento gerador-tokenizer como uma otimização variacional, derivando um limite inferior da evidência (ELBO) que unifica a reconstrução de pixels e a modelagem autorregressiva. Para otimizar sob o espaço discreto de tokens, o VA-π introduz uma estratégia de alinhamento baseada em reforço que trata o gerador AR como uma política, usando a qualidade de reconstrução no espaço de pixels como sua recompensa intrínseca. A recompensa é medida pela capacidade das sequências de tokens previstas reconstruírem a imagem original sob "teacher forcing", fornecendo ao modelo orientação direta a nível de pixel sem a necessidade de amostragem por "free-running" dispendiosa. O termo de regularização do ELBO atua como um regularizador natural, mantendo a consistência distributiva dos tokens. O VA-π permite a rápida adaptação de geradores AR existentes, sem necessidade de retreino do tokenizer ou de modelos externos de recompensa. Com apenas 1% dos dados do ImageNet-1K e 25 minutos de ajuste, ele reduz o FID de 14,36 para 7,65 e melhora o IS de 86,55 para 116,70 no LlamaGen-XXL, além de produzir ganhos notáveis na tarefa de texto-para-imagem no GenEval tanto para o modelo de geração visual (LlamaGen: de 0,306 para 0,339) quanto para o modelo multimodal unificado (Janus-Pro: de 0,725 para 0,744). O código está disponível em https://github.com/Lil-Shake/VA-Pi.
Os vídeos são projeções 2D contínuas de mundos 3D. Após o treinamento em grandes conjuntos de dados de vídeo, será que a compreensão global 3D emerge naturalmente? Investigamos isso quantificando a compreensão 3D de modelos fundamentais de vídeo (VidFMs) existentes pré-treinados em vastos dados de vídeo. Propomos o primeiro framework agnóstico de modelo que mede a percepção 3D de vários VidFMs através da estimativa de múltiplas propriedades 3D a partir de suas características via leituras superficiais. Nosso estudo apresenta descobertas significativas sobre a percepção 3D dos VidFMs em múltiplos eixos. Em particular, demonstramos que modelos state-of-the-art de geração de vídeo exibem uma forte compreensão de objetos e cenas 3D, apesar de não terem sido treinados em quaisquer dados 3D. Tal compreensão pode até superar a de grandes modelos especializados treinados especificamente para tarefas 3D. Nossas descobertas, juntamente com a avaliação 3D dos principais VidFMs, fornecem observações valiosas para a construção de modelos 3D escaláveis.
O aprendizado por reforço (RL) multi-turn para agentes multimodais baseados em modelos de visão e linguagem (VLMs) é prejudicado por recompensas esparsas e pela difícil atribuição de crédito em horizontes longos. Métodos recentes densificam a recompensa consultando um "professor" que fornece feedback a nível de etapa, como o *Guided Thought Reinforcement* (GTR) e a *On-Policy Distillation*, mas dependem de modelos custosos e frequentemente privilegiados como professores, limitando a praticidade e a reprodutibilidade. Apresentamos o GTR-Turbo, uma atualização altamente eficiente para o GTR, que iguala o desempenho sem a necessidade de treinar ou consultar um modelo professor caro. Especificamente, o GTR-Turbo combina os pesos dos *checkpoints* produzidos durante o treinamento de RL em andamento e, em seguida, usa esse modelo combinado como um professor "gratuito" para orientar o RL subsequente por meio de *fine-tuning* supervisionado ou destilação de *logits* suaves. Este projeto elimina a dependência de VLMs privilegiados (por exemplo, GPT ou Gemini), mitiga o "colapso de entropia" observado em trabalhos anteriores e mantém o treinamento estável. Em diversas tarefas de agentes visuais, o GTR-Turbo melhora a precisão do modelo de referência em 10-30%, enquanto reduz o tempo de treinamento em 50% e o custo computacional em 60% em relação ao GTR.