Artigos de pesquisa em IA selecionados diariamente com traduções
A memória emergiu e continuará sendo uma capacidade central dos agentes baseados em modelos de fundação. À medida que a pesquisa sobre memória de agentes se expande rapidamente e atrai atenção sem precedentes, a área também se tornou cada vez mais fragmentada. Os trabalhos existentes sob o guarda-chuva da memória de agentes frequentemente diferem substancialmente em suas motivações, implementações e protocolos de avaliação, enquanto a proliferação de terminologias de memória vagamente definidas obscureceu ainda mais a clareza conceitual. Taxonomias tradicionais, como memória de longo/curto prazo, mostraram-se insuficientes para capturar a diversidade dos sistemas contemporâneos de memória de agentes. Este trabalho visa fornecer um panorama atualizado da pesquisa atual em memória de agentes. Começamos por delinear claramente o escopo da memória do agente e distingui-la de conceitos relacionados, como memória de LLM, geração aumentada por recuperação (RAG) e engenharia de contexto. Em seguida, examinamos a memória do agente através das lentes unificadas de formas, funções e dinâmicas. Do ponto de vista das formas, identificamos três realizações dominantes da memória do agente, nomeadamente memória em nível de token, paramétrica e latente. Do ponto de vista das funções, propomos uma taxonomia mais refinada que distingue memória factual, experiencial e de trabalho. Do ponto de vista da dinâmica, analisamos como a memória é formada, evoluída e recuperada ao longo do tempo. Para apoiar o desenvolvimento prático, compilamos um resumo abrangente de benchmarks de memória e estruturas de código aberto. Além da consolidação, articulamos uma perspectiva prospectiva sobre as fronteiras emergentes de pesquisa, incluindo automação de memória, integração de aprendizado por reforço, memória multimodal, memória multiagente e questões de confiabilidade. Esperamos que este survey sirva não apenas como referência para o trabalho existente, mas também como uma base conceitual para repensar a memória como um primitivo de primeira classe no design da inteligência agentiva futura.
Apresentamos o QwenLong-L1.5, um modelo que alcança capacidades superiores de raciocínio de contexto longo por meio de inovações sistemáticas de pós-treinamento. Os principais avanços técnicos do QwenLong-L1.5 são os seguintes: (1) *Pipeline* de Síntese de Dados de Contexto Longo: Desenvolvemos uma estrutura de síntese sistemática que gera tarefas de raciocínio desafiadoras, exigindo fundamentação multi-etapa em evidências distribuídas globalmente. Ao desconstruir documentos em factos atómicos e suas relações subjacentes, e depois compor programaticamente questões de raciocínio verificáveis, a nossa abordagem cria dados de treino de alta qualidade em escala, indo substancialmente além de simples tarefas de recuperação para permitir genuínas capacidades de raciocínio de longo alcance. (2) Aprendizagem por Reforço Estabilizada para Treino de Contexto Longo: Para superar a instabilidade crítica na aprendizagem por reforço (RL) de contexto longo, introduzimos uma amostragem balanceada por tarefa com estimativa de vantagem específica por tarefa para mitigar o viés de recompensa, e propomos a Otimização de Política com Entropia Adaptativa Controlada (AEPO), que regula dinamicamente os compromissos entre exploração e exploração. (3) Arquitetura Aumentada por Memória para Contextos Ultra-Longos: Reconhecendo que mesmo janelas de contexto estendidas não podem acomodar sequências arbitrariamente longas, desenvolvemos uma estrutura de gestão de memória com treino de RL de fusão multi-etapa que integra perfeitamente o raciocínio de passagem única com o processamento iterativo baseado em memória para tarefas que excedem 4M *tokens*. Com base no Qwen3-30B-A3B-Thinking, o QwenLong-L1.5 alcança um desempenho comparável ao GPT-5 e ao Gemini-2.5-Pro em benchmarks de raciocínio de contexto longo, superando a sua linha de base em 9,90 pontos em média. Em tarefas ultra-longas (1M~4M *tokens*), a estrutura de agente de memória do QwenLong-L1.5 proporciona um ganho de 9,48 pontos sobre a linha de base do agente. Adicionalmente, a capacidade de raciocínio de contexto longo adquirida traduz-se num desempenho melhorado em domínios gerais, como raciocínio científico, utilização de ferramentas de memória e diálogo estendido.
A qualidade do espaço latente em tokenizadores visuais (por exemplo, VAEs) é crucial para os modelos generativos modernos. No entanto, o paradigma padrão de treinamento baseado em reconstrução produz um espaço latente tendencioso para informações de baixo nível, levando a uma falha fundamental: uma melhor precisão a nível de pixel não resulta em geração de maior qualidade. Isto implica que investir computação massiva no pré-treinamento do tokenizador visual traduz-se pouco em melhorias de desempenho na geração. Identificamos isto como o "problema de escala no pré-treinamento" e sugerimos uma mudança necessária: para ser eficaz para geração, um espaço latente deve representar de forma concisa semânticas de alto nível. Apresentamos o VTP, um framework unificado de pré-treinamento para tokenizadores visuais, pioneiro na otimização conjunta de perdas de contraste imagem-texto, auto-supervisionadas e de reconstrução. O nosso estudo em larga escala revela duas descobertas principais: (1) a compreensão é um motor chave da geração, e (2) propriedades de escala muito melhores, onde o desempenho generativo escala eficazmente com a computação, parâmetros e dados alocados ao pré-treinamento do tokenizador visual. Após o pré-treinamento em larga escala, o nosso tokenizador apresenta um perfil competitivo (78,2% de precisão zero-shot e 0,36 rFID no ImageNet) e uma convergência 4,1 vezes mais rápida na geração em comparação com métodos avançados de destilação. Mais importante ainda, ele escala eficazmente: sem modificar as especificações padrão de treinamento do DiT, apenas investir mais FLOPS no pré-treinamento do VTP alcança uma melhoria de 65,8% no FID na geração subsequente, enquanto os autoencoders convencionais estagnam muito cedo com 1/10 dos FLOPS. Os nossos modelos pré-treinados estão disponíveis em https://github.com/MiniMax-AI/VTP.
Os modelos autoregressivos (ARMs) são limitados pela inferência sequencial lenta. Embora os modelos de difusão mascarada (MDMs) ofereçam uma alternativa paralela, eles sofrem de desvantagens críticas: alta sobrecarga computacional devido à impossibilidade de usar cache Key-Value (KV) e geração incoerente resultante da aprendizagem de dependências sobre um espaço intratável de combinações de tokens. Para superar estas limitações, introduzimos o ReFusion, um novo modelo de difusão mascarada que alcança desempenho e eficiência superiores ao elevar a decodificação paralela do nível de token para um nível superior de *slot*, onde cada *slot* é uma sub-sequência contígua de comprimento fixo. Isto é alcançado através de um processo iterativo de decodificação "planejar-e-preencher": um passo de planeamento baseado em difusão identifica primeiro um conjunto de *slots* fracamente dependentes, e um passo de preenchimento autoregressivo decodifica depois estes *slots* selecionados em paralelo. O desenho baseado em *slots* permite simultaneamente a reutilização total do cache KV com uma estrutura causal unificada e reduz a complexidade de aprendizagem do espaço de combinações de tokens para um espaço manejável de permutações a nível de *slot*. Experimentos extensivos em sete *benchmarks* diversos mostram que o ReFusion não só supera amplamente os MDMs anteriores com ganhos de desempenho de 34% e uma aceleração média superior a 18 vezes, mas também reduz a diferença de desempenho para ARMs fortes mantendo uma aceleração média de 2,33 vezes.
A construção de modelos de mundo em vídeo sobre sistemas pré-treinados de geração de vídeo representa um passo importante, porém desafiador, rumo à inteligência espaço-temporal geral. Um modelo de mundo deve possuir três propriedades essenciais: controlabilidade, qualidade visual de longo prazo e consistência temporal. Para isso, adotamos uma abordagem progressiva - primeiro aprimorando a controlabilidade e depois estendendo para a geração de longo prazo e alta qualidade. Apresentamos o LongVie 2, um framework autoregressivo de ponta a ponta treinado em três estágios: (1) Orientação multimodal, que integra sinais de controle densos e esparsos para fornecer supervisão implícita em nível de mundo e melhorar a controlabilidade; (2) Treinamento com consciência da degradação no frame de entrada, preenchendo a lacuna entre o treinamento e a inferência de longo prazo para manter alta qualidade visual; e (3) Orientação por contexto histórico, que alinha informações contextuais entre clipes adjacentes para garantir consistência temporal. Introduzimos ainda o LongVGenBench, um benchmark abrangente composto por 100 vídeos de um minuto em alta resolução, abrangendo diversos ambientes do mundo real e sintéticos. Experimentos extensivos demonstram que o LongVie 2 alcança desempenho de ponta em controlabilidade de longo alcance, coerência temporal e fidelidade visual, e suporta geração contínua de vídeo com duração de até cinco minutos, marcando um passo significativo em direção à modelagem unificada de mundos em vídeo.
Apresentamos um benchmark de finanças e contabilidade (Finch) para avaliar agentes de IA em fluxos de trabalho profissionais reais de nível empresarial — que intercalam entrada, estruturação e formatação de dados, pesquisa na web, recuperação de arquivos cruzados, cálculo, modelagem, validação, tradução, visualização e relatórios. O Finch é originado de espaços de trabalho empresariais autênticos da Enron (15.000 planilhas e 500.000 e-mails de 150 funcionários) e de outras instituições financeiras, preservando a desorganização característica de ambientes reais em artefatos multimodais (texto, tabelas, fórmulas, gráficos, código e imagens) e abrangendo domínios diversos, como orçamento, trading e gestão de ativos. Propomos um processo de construção de fluxo de trabalho que combina descoberta assistida por LLM com anotação especializada: (1) derivação de fluxos de trabalho a partir de threads de e-mail reais e históricos de versão de arquivos de planilha, assistida por LLM e verificada por especialistas, e (2) meticulosa anotação especializada para fluxos de trabalho, exigindo mais de 700 horas de esforço de especialistas do domínio. Isso resulta em 172 fluxos de trabalho compostos com 384 tarefas, envolvendo 1.710 planilhas com 27 milhões de células, além de PDFs e outros artefatos, capturando a natureza intrinsecamente desorganizada, de longo prazo, intensiva em conhecimento e colaborativa do trabalho empresarial real. Realizamos avaliações humanas e automatizadas de sistemas de IA de fronteira, incluindo GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 e Qwen 3 Max. O GPT 5.1 Pro gasta 48 horas no total, mas passa por apenas 38,4% dos fluxos de trabalho, enquanto o Claude Sonnet 4.5 passa por apenas 25,0%. Estudos de caso abrangentes revelam ainda os desafios que os fluxos de trabalho empresariais reais representam para os agentes de IA.
Os recentes avanços em agentes de codificação sugerem um progresso rápido rumo ao desenvolvimento de software autónomo, contudo, os *benchmarks* existentes não avaliam rigorosamente as capacidades de longo horizonte necessárias para construir sistemas de software completos. A maioria das avaliações anteriores concentra-se na geração de código localizada, na conclusão assistida ou em tarefas de reparação de curto prazo, deixando em aberto a questão de saber se os agentes podem sustentar um raciocínio, planeamento e execução coerentes ao longo dos horizontes prolongados exigidos pela construção de repositórios do mundo real. Para colmatar esta lacuna, apresentamos o NL2Repo Bench, um *benchmark* explicitamente concebido para avaliar a capacidade de geração de repositórios de longo horizonte por parte de agentes de codificação. Dado apenas um único documento de requisitos em linguagem natural e uma área de trabalho vazia, os agentes devem conceber autonomamente a arquitetura, gerir dependências, implementar lógica multi-módulo e produzir uma biblioteca Python totalmente instalável. As nossas experiências com os modelos *open-source* e proprietários mais avançados revelam que a geração de repositórios de longo horizonte permanece largamente por resolver: mesmo os agentes mais fortes atingem taxas médias de sucesso em testes abaixo de 40% e raramente completam um repositório inteiro corretamente. Uma análise detalhada revela modos de falha fundamentais de longo horizonte, incluindo terminação prematura, perda de coerência global, dependências interficiais frágeis e planeamento inadequado ao longo de centenas de passos de interação. O NL2Repo Bench estabelece um ambiente de teste rigoroso e verificável para medir a competência agentiva sustentada e destaca o raciocínio de longo horizonte como um estrangulamento central para a próxima geração de agentes de codificação autónomos.
A atenção de tempo linear e os Modelos de Espaço de Estados (SSMs) prometem resolver o gargalo do custo quadrático em modelos de linguagem de contexto longo que empregam atenção softmax. Apresentamos a Atenção Linear Livre de Erros (EFLA), uma formulação numericamente estável, totalmente paralelizável e generalizada da regra delta. Especificamente, formulamos a atualização do aprendizado online como um sistema dinâmico de tempo contínuo e provamos que sua solução exata não só é atingível, mas também computável em tempo linear com paralelismo total. Ao aproveitar a estrutura de posto 1 da matriz de dinâmica, derivamos diretamente a solução de forma fechada exata, que corresponde efetivamente ao método de Runge-Kutta de ordem infinita. Esse mecanismo de atenção é teoricamente livre de acumulação de erros, capturando perfeitamente a dinâmica contínua enquanto preserva a complexidade de tempo linear. Por meio de uma extensa suíte de experimentos, mostramos que a EFLA permite um desempenho robusto em ambientes ruidosos, alcançando uma perplexidade de modelagem de linguagem mais baixa e um desempenho superior em benchmarks de tarefas subsequentes em comparação com a DeltaNet, sem introduzir parâmetros adicionais. Nosso trabalho fornece uma nova base teórica para a construção de modelos de atenção de tempo linear escaláveis e de alta fidelidade.
Os modelos de geração de vídeos de avatar alcançaram progressos notáveis nos últimos anos. No entanto, trabalhos anteriores apresentam eficiência limitada na geração de vídeos de longa duração e alta resolução, sofrendo com deriva temporal, degradação de qualidade e fraca aderência aos comandos à medida que a duração do vídeo aumenta. Para enfrentar esses desafios, propomos o KlingAvatar 2.0, uma estrutura em cascata espaço-temporal que realiza upscaling tanto na resolução espacial quanto na dimensão temporal. A estrutura gera primeiro keyframes de vídeo de baixa resolução que capturam a semântica e o movimento globais, e depois os refina em subclipes de alta resolução e coerência temporal usando uma estratégia de primeiro-último quadro, mantendo transições temporais suaves em vídeos de longa duração. Para melhorar a fusão e o alinhamento de instruções multimodais em vídeos estendidos, introduzimos um Diretor de Co-Raciocínio composto por três especialistas em grandes modelos de linguagem (LLM) específicos por modalidade. Esses especialistas avaliam as prioridades das modalidades e inferem a intenção subjacente do usuário, convertendo entradas em narrativas detalhadas por meio de diálogos multiturno. Um Diretor Negativo refina ainda mais os prompts negativos para melhorar o alinhamento das instruções. Com base nesses componentes, estendemos a estrutura para suportar controle multicaracterístico específico por ID. Experimentos extensivos demonstram que nosso modelo aborda efetivamente os desafios da geração eficiente de vídeos de longa duração e alta resolução com alinhamento multimodal, oferecendo clareza visual aprimorada, renderização realista de lábios e dentes com sincronização labial precisa, forte preservação de identidade e coerência no seguimento de instruções multimodais.
Os transtornos de saúde mental afetam centenas de milhões de pessoas globalmente, e a Web serve agora como um meio primário para acessar suporte, informação e avaliação. Os grandes modelos de linguagem (LLMs) oferecem assistência escalável e acessível, mas a sua implantação em contextos de saúde mental permanece arriscada quando o seu raciocínio é incompleto, inconsistente ou sem fundamento. Os LLMs psicológicos existentes enfatizam a compreensão emocional ou a recordação de conhecimento, mas negligenciam o raciocínio clínico, passo a passo e alinhado com a prática clínica, necessário para a avaliação, o diagnóstico, o planejamento de intervenções, a abstração e a verificação. Para abordar estas questões, introduzimos o MentraSuite, um quadro unificado para avançar o raciocínio confiável em saúde mental. Propomos o MentraBench, um benchmark abrangente que abrange cinco aspetos centrais do raciocínio, seis tarefas e 13 conjuntos de dados, avaliando tanto o desempenho da tarefa como a qualidade do raciocínio em cinco dimensões: concisão, coerência, evitamento de alucinações, compreensão da tarefa e consistência interna. Apresentamos ainda o Mindora, um modelo pós-treinado otimizado através de um quadro híbrido SFT-RL com uma recompensa de deteção de inconsistências para impor um raciocínio fiel e coerente. Para suportar o treino, construímos trajetórias de alta qualidade usando uma nova estratégia de geração de trajetória de raciocínio, que filtra estrategicamente amostras difíceis e aplica um processo estruturado de reescrita orientado para a consistência, produzindo trajetórias concisas, legíveis e bem equilibradas. Entre os 20 LLMs avaliados, o Mindora alcança o desempenho médio mais alto no MentraBench e mostra desempenhos notáveis em confiabilidade do raciocínio, demonstrando a sua eficácia para cenários complexos de saúde mental.
O Desafio BEHAVIOR 2025 foi concebido para monitorizar rigorosamente o progresso na resolução de tarefas de longo horizonte por agentes físicos em ambientes simulados. O BEHAVIOR-1K centra-se em tarefas domésticas quotidianas com as quais as pessoas mais desejam que os robôs auxiliem, e estas tarefas introduzem desafios de manipulação móvel de longo horizonte em ambientes realistas, colmatando a lacuna entre a investigação atual e as aplicações do mundo real centradas no ser humano. Este relatório apresenta a nossa solução para o Desafio BEHAVIOR 2025, que ficou em um muito próximo 2.º lugar e superou substancialmente as restantes submissões. Com base no π_{0.5}, concentramo-nos na construção sistemática da nossa solução através do estudo dos efeitos de técnicas de treino e dados. Por meio de ablações cuidadosas, demonstramos o poder de escalabilidade nas fases de pré-treino e pós-treino para um desempenho competitivo. Resumimos as nossas lições práticas e recomendações de design, que esperamos fornecer informações acionáveis para a comunidade mais ampla de IA incorporada ao adaptar modelos de base poderosos a cenários incorporados complexos.
Os modelos Visão-Linguagem-Ação (VLA) oferecem um paradigma promissor para a aprendizagem robótica ao integrar a perceção visual com a aprendizagem de políticas orientada por linguagem. No entanto, a maioria das abordagens existentes depende de entradas visuais 2D para executar ações em ambientes físicos 3D, criando uma lacuna significativa entre a perceção e a fundamentação da ação. Para colmatar esta lacuna, propomos um paradigma de Pré-treinamento VLA com Consciência Espacial que realiza um alinhamento explícito entre o espaço visual e o espaço físico durante o pré-treinamento, permitindo que os modelos adquiram compreensão espacial 3D antes da aprendizagem de políticas robóticas. Partindo de modelos de visão e linguagem pré-treinados, aproveitamos vídeos de demonstração humana em larga escala para extrair anotações visuais 3D e de ação 3D, formando uma nova fonte de supervisão que alinha observações visuais 2D com o raciocínio espacial 3D. Instanciamos este paradigma com o VIPA-VLA, uma arquitetura de duplo codificador que incorpora um codificador visual 3D para aumentar as representações visuais semânticas com características conscientes da 3D. Quando adaptado a tarefas robóticas subsequentes, o VIPA-VLA alcança uma fundamentação significativamente melhorada entre a visão 2D e a ação 3D, resultando em políticas robóticas mais robustas e generalizáveis.
Os agentes baseados em LLM frequentemente operam de forma gananciosa e passo a passo, selecionando ações unicamente com base na observação atual sem considerar consequências de longo prazo ou caminhos alternativos. Esta falta de perspicácia é particularmente problemática em ambientes web, que são apenas parcialmente observáveis - limitados ao conteúdo visível no navegador (por exemplo, elementos DOM e de UI) - onde um único passo em falso frequentemente exige uma navegação complexa e frágil para ser desfeito. Sem um mecanismo explícito de retrocesso, os agentes lutam para corrigir erros ou explorar caminhos alternativos de forma sistemática. Métodos de busca em árvore fornecem uma estrutura principiada para tal exploração estruturada, mas as abordagens existentes carecem de mecanismos para retrocesso seguro, tornando-as propensas a efeitos colaterais não intencionais. Elas também assumem que todas as ações são reversíveis, ignorando a presença de ações irreversíveis - limitações que reduzem sua eficácia em tarefas web realistas. Para enfrentar esses desafios, introduzimos o WebOperator, uma estrutura de busca em árvore que permite retrocesso confiável e exploração estratégica. Nosso método incorpora uma estratégia de busca de melhor primeiro que classifica ações por estimativas de recompensa e considerações de segurança, juntamente com um mecanismo robusto de retrocesso que verifica a viabilidade de caminhos previamente visitados antes de reexecutá-los, prevenindo efeitos colaterais não intencionais. Para orientar ainda mais a exploração, o WebOperator gera candidatos a ação a partir de múltiplos contextos de raciocínio variados para garantir uma exploração diversificada e robusta, e subsequentemente seleciona um conjunto de ações de alta qualidade filtrando ações inválidas pré-execução e fundindo as semanticamente equivalentes. Resultados experimentais no WebArena e WebVoyager demonstram a eficácia do WebOperator. No WebArena, o WebOperator alcança uma taxa de sucesso state-of-the-art de 54,6% com o gpt-4o, sublinhando a vantagem crítica da integração da perspicácia estratégica com a execução segura.
Apresentamos a Inteligência Interativa, um novo paradigma de humano digital capaz de expressão alinhada com a personalidade, interação adaptativa e auto-evolução. Para concretizar isso, apresentamos o Mio (Avatar Ômni Multimodal Interativo), uma estrutura de ponta a ponta composta por cinco módulos especializados: Pensador, Locutor, Animador Facial, Animador Corporal e Renderizador. Esta arquitetura unificada integra o raciocínio cognitivo com a embodiação multimodal em tempo real para permitir interação fluida e consistente. Além disso, estabelecemos um novo benchmark para avaliar rigorosamente as capacidades da inteligência interativa. Experimentos extensivos demonstram que nossa estrutura alcança desempenho superior em comparação com métodos state-of-the-art em todas as dimensões avaliadas. Juntas, essas contribuições elevam os humanos digitais além da imitação superficial rumo à interação inteligente.
Embora os modelos de linguagem multimodal (MLLMs) tenham demonstrado fortes capacidades em diversos domínios, sua aplicação na geração de saídas de percepção e previsão 3D de alta granularidade na condução autónoma permanece pouco explorada. Neste artigo, propomos o DrivePI, um novo MLLM 4D com consciência espacial que funciona como uma estrutura unificada Visão-Linguagem-Ação (VLA), também compatível com modelos visão-ação (VA). O nosso método executa em paralelo, através de otimização de ponta a ponta, a compreensão espacial, a perceção 3D (ou seja, ocupação 3D), a previsão (ou seja, fluxo de ocupação) e o planeamento (ou seja, saídas de ação). Para obter informações geométricas precisas e aparência visual rica, a nossa abordagem integra nuvens de pontos, imagens multi-vista e instruções de linguagem numa arquitetura MLLM unificada. Desenvolvemos ainda um motor de dados para gerar pares de perguntas e respostas (QA) de texto-ocupação e texto-fluxo para compreensão espacial 4D. Notavelmente, utilizando apenas um modelo Qwen2.5 de 0.5B como espinha dorsal do MLLM, o DrivePI, como um único modelo unificado, iguala ou supera tanto os modelos VLA existentes como os modelos VA especializados. Especificamente, em comparação com modelos VLA, o DrivePI supera o OpenDriveVLA-7B em 2.5% de precisão média no nuScenes-QA e reduz a taxa de colisão em 70% face ao ORION (de 0.37% para 0.11%) no nuScenes. Contra modelos VA especializados, o DrivePI supera o FB-OCC em 10.3 RayIoU para ocupação 3D no OpenOcc, reduz o mAVE de 0.591 para 0.509 para o fluxo de ocupação no OpenOcc e alcança um erro L2 32% menor que o VAD (de 0.72m para 0.49m) no planeamento no nuScenes. O código estará disponível em https://github.com/happinesslz/DrivePI.
Os Modelos de Linguagem Visual (VLMs) destacam-se na resposta a perguntas visuais (VQA), mas permanecem limitados à visão instantânea, raciocinando a partir de imagens estáticas. Em contraste, os agentes incorporados requerem visão ambulatorial, movendo-se ativamente para obter perspetivas mais informativas. Apresentamos a Seleção Ativa de Vista com Base Visual (VG-AVS), uma tarefa que seleciona o ponto de vista seguinte mais informativo usando apenas a informação visual na imagem atual, sem depender de memória de cena ou conhecimento externo. Para suportar esta tarefa, construímos um conjunto de dados sintético com pares de vistas de consulta-alvo e prompts de pergunta-resposta gerados automaticamente. Propomos também um framework que ajusta VLMs pré-treinados através de ajuste fino supervisionado (SFT) seguido de otimização de política baseada em RL. A nossa abordagem alcança um forte desempenho na resposta a perguntas com base na seleção do ponto de vista e generaliza robustamente para cenas sintéticas e reais não vistas. Além disso, a incorporação do nosso framework VG-AVS aprendido em sistemas existentes de EQA baseados na exploração de cenas melhora a precisão da resposta a perguntas subsequentes.
Embora o treinamento pós-treinamento eficaz integre o Ajuste Fino Supervisionado (SFT) e o Aprendizado por Reforço (RL), o mecanismo ideal para utilizar trajetórias especialistas permanece não resolvido. Propomos a Estrutura de Plasticidade-Teto para fundamentar teoricamente este panorama, decompondo o desempenho no desempenho SFT fundamental e na subsequente plasticidade do RL. Por meio de uma extensa avaliação comparativa, estabelecemos o pipeline Sequencial SFT-depois-RL como o padrão superior, superando os déficits de estabilidade das abordagens sincronizadas. Além disso, derivamos diretrizes de escalonamento precisas: (1) A transição para o RL na Subfase Estável do SFT ou na Subfase de Superajuste Moderado maximiza o teto final, assegurando o desempenho SFT fundamental sem comprometer a plasticidade do RL; (2) Refutando a ideia de "Menos é Mais" no contexto do escalonamento SFT-depois-RL, demonstramos que a Escala de Dados determina o potencial primário do pós-treinamento, enquanto a Dificuldade da Trajetória atua como um multiplicador de desempenho; e (3) Identificamos que a Perda de Validação Mínima do SFT serve como um indicador robusto para selecionar as trajetórias especialistas que maximizam o teto de desempenho final. Nossas descobertas fornecem diretrizes acionáveis para maximizar o valor extraído das trajetórias especialistas.
A destilação por difusão acelerou dramaticamente a síntese de imagens condicionadas por classe, mas sua aplicabilidade à geração aberta de texto para imagem (T2I) ainda não é clara. Apresentamos o primeiro estudo sistemático que adapta e compara técnicas de destilação de última geração em um forte modelo professor de T2I, o FLUX.1-lite. Ao enquadrar os métodos existentes em uma estrutura unificada, identificamos os principais obstáculos que surgem ao passar de rótulos de classe discretos para prompts de linguagem livre. Além de uma análise metodológica minuciosa, oferecemos diretrizes práticas sobre dimensionamento de entrada, arquitetura de rede e hiperparâmetros, acompanhadas por uma implementação de código aberto e modelos estudante pré-treinados. Nossas descobertas estabelecem uma base sólida para a implantação de geradores de difusão rápidos, de alta fidelidade e eficientes em recursos em aplicações reais de T2I. O código está disponível em github.com/alibaba-damo-academy/T2I-Distill.
Embora muitos modelos visão-linguagem (VLMs) sejam desenvolvidos para responder a perguntas bem definidas e objetivas, com alvos altamente específicos, como na maioria dos benchmarks, eles frequentemente têm dificuldades na prática com tarefas complexas e de resposta aberta, que geralmente exigem múltiplas rodadas de exploração e raciocínio no espaço visual. Esses caminhos de pensamento visual não apenas fornecem uma exploração e verificação passo a passo, como um detetive de IA, mas também produzem interpretações melhores das respostas finais. No entanto, esses caminhos são difíceis de avaliar devido ao grande espaço de exploração das etapas intermediárias. Para preencher essa lacuna, desenvolvemos um conjunto de avaliação, "Raciocínio Visual com Exploração Multi-etapa (V-REX)", que é composto por um benchmark de tarefas desafiadoras de raciocínio visual que exigem exploração multi-etapa nativa e um protocolo de avaliação. O V-REX abrange cenários de aplicação ricos em diversos domínios. O V-REX transforma o raciocínio exploratório multi-etapa em uma Cadeia de Perguntas (Chain-of-Questions, CoQ) e desagrega a capacidade dos VLMs em (1) Planejamento: decompor uma tarefa de resposta aberta selecionando uma cadeia de perguntas exploratórias; e (2) Seguimento: responder a uma CoQ curada sequencialmente para coletar informações para derivar a resposta final. Ao selecionar opções finitas de perguntas e respostas por etapa, o V-REX alcança uma análise quantitativa confiável e granular das etapas intermediárias. Ao avaliar VLMs proprietários e de código aberto estado da arte, revelamos tendências consistentes de escalabilidade, diferenças significativas entre as habilidades de planejamento e seguimento, e uma margem substancial de melhoria no raciocínio exploratório multi-etapa.
Os modelos Visão-Linguagem-Ação (VLA) demonstraram capacidades notáveis na generalização de diversas tarefas de manipulação robótica. No entanto, a implantação desses modelos em ambientes não estruturados permanece desafiadora devido à necessidade crítica de garantir simultaneamente a conformidade com a tarefa e a segurança, particularmente na prevenção de possíveis colisões durante interações físicas. Neste trabalho, introduzimos uma arquitetura Visão-Linguagem-Ação Segura (VLSA), denominada AEGIS, que contém uma camada de restrição de segurança (SC) do tipo "plug-and-play" formulada por meio de funções de barreira de controle. O AEGIS integra-se diretamente aos modelos VLA existentes para melhorar a segurança com garantias teóricas, mantendo seu desempenho original de seguir instruções. Para avaliar a eficácia de nossa arquitetura, construímos um benchmark abrangente de segurança crítica, o SafeLIBERO, abrangendo cenários distintos de manipulação caracterizados por diferentes graus de complexidade espacial e intervenção de obstáculos. Experimentos extensivos demonstram a superioridade de nosso método em relação aos baselines state-of-the-art. Notavelmente, o AEGIS alcança uma melhoria de 59,16% na taxa de evitação de obstáculos, aumentando substancialmente a taxa de sucesso na execução de tarefas em 17,25%. Para facilitar a reprodutibilidade e pesquisas futuras, disponibilizamos publicamente nosso código, modelos e conjuntos de dados de benchmark em https://vlsa-aegis.github.io/.
Os modelos de difusão podem reproduzir involuntariamente exemplos de treinamento, levantando preocupações sobre privacidade e direitos autorais à medida que esses sistemas são cada vez mais implantados em larga escala. Os métodos de mitigação existentes no momento da inferência geralmente manipulam a orientação sem classificador (CFG) ou perturbam embeddings de prompt; no entanto, eles frequentemente têm dificuldade em reduzir a memorização sem comprometer o alinhamento com o prompt condicionante. Apresentamos o CAPTAIN, uma estrutura livre de treinamento que mitiga a memorização modificando diretamente as características latentes durante a desruídosificação. O CAPTAIN aplica primeiro uma inicialização de ruído baseada em frequência para reduzir a tendência de replicar padrões memorizados no início do processo de desruídosificação. Em seguida, identifica os intervalos de tempo ideais de desruídosificação para injeção de características e localiza as regiões memorizadas. Finalmente, o CAPTAIN injeta características semanticamente alinhadas de imagens de referência não memorizadas nas regiões latentes localizadas, suprimindo a memorização enquanto preserva a fidelidade ao prompt e a qualidade visual. Nossos experimentos mostram que o CAPTAIN alcança reduções substanciais na memorização em comparação com as linhas de base baseadas em CFG, mantendo um forte alinhamento com o prompt pretendido.
O alinhamento de representações (REPA) orienta o treinamento generativo através da destilação de representações de um codificador visual forte e pré-treinado para características intermediárias de difusão. Investigamos uma questão fundamental: que aspeto da representação-alvo é importante para a geração - a sua informação semântica global (ex: medida pela precisão no ImageNet-1K) ou a sua estrutura espacial (isto é, a similaridade de cosseno entre pares de tokens de *patch*)? A sabedoria prevalecente defende que um melhor desempenho semântico global conduz a uma melhor geração como representação-alvo. Para estudar isto, realizamos primeiro uma análise empírica em larga escala através de 27 codificadores visuais diferentes e diferentes escalas de modelo. Os resultados são surpreendentes; a estrutura espacial, e não o desempenho global, impulsiona o desempenho de geração de uma representação-alvo. Para aprofundar este estudo, introduzimos duas modificações simples, que acentuam especificamente a transferência de informação espacial. Substituímos a camada de projeção MLP padrão no REPA por uma simples camada convolucional e introduzimos uma camada de normalização espacial para a representação externa. Surpreendentemente, o nosso método simples (implementado em <4 linhas de código), denominado iREPA, melhora consistentemente a velocidade de convergência do REPA, através de um conjunto diversificado de codificadores visuais, tamanhos de modelo e variantes de treino (como REPA, REPA-E, Meanflow, JiT, etc.). O nosso trabalho motiva uma revisão do mecanismo fundamental de funcionamento do alinhamento representacional e de como este pode ser aproveitado para melhorar o treinamento de modelos generativos. O código e a página do projeto estão disponíveis em https://end2end-diffusion.github.io/irepa.
O processo lento de inferência dos modelos de difusão de imagens degrada significativamente as experiências interativas dos utilizadores. Para resolver este problema, introduzimos o Diffusion Preview, um novo paradigma que emprega amostragem rápida com poucos passos para gerar resultados preliminares para avaliação do utilizador, adiando o refinamento completo até que a pré-visualização seja considerada satisfatória. Os métodos de aceleração existentes, incluindo solvers sem treino e destilação pós-treinamento, lutam para fornecer pré-visualizações de alta qualidade ou garantir consistência entre as pré-visualizações e os resultados finais. Propomos o ConsistencySolver, derivado de métodos lineares multidegrau gerais, um solver treinável de alta ordem e leve otimizado via Aprendizagem por Reforço, que melhora a qualidade e a consistência da pré-visualização. Resultados experimentais demonstram que o ConsistencySolver melhora significativamente a qualidade e consistência da geração em cenários com poucos passos, tornando-o ideal para fluxos de trabalho eficientes de pré-visualização e refinamento. Notavelmente, atinge pontuações FID equivalentes ao Multistep DPM-Solver usando 47% menos passos, superando ainda as linhas de base de destilação. Além disso, estudos com utilizadores indicam que a nossa abordagem reduz o tempo total de interação do utilizador em quase 50%, mantendo a qualidade da geração. O código está disponível em https://github.com/G-U-N/consolver.
Um modelo de mundo de condução com consciência física é essencial para o planejamento de direção, a síntese de dados fora de distribuição e a avaliação em circuito fechado. No entanto, os métodos existentes frequentemente dependem de um único modelo de difusão para mapear diretamente ações de condução para vídeos, o que torna a aprendizagem difícil e resulta em saídas fisicamente inconsistentes. Para superar esses desafios, propomos o GenieDrive, uma nova estrutura projetada para a geração de vídeos de condução com consciência física. Nossa abordagem começa gerando ocupação 4D, que serve como base física para a subsequente geração de vídeo. A ocupação 4D contém informações físicas ricas, incluindo estruturas 3D de alta resolução e dinâmicas. Para facilitar a compressão eficaz de tal ocupação de alta resolução, propomos um VAE que codifica a ocupação numa representação latente de tri-plano, reduzindo o tamanho latente para apenas 58% do usado em métodos anteriores. Introduzimos ainda a Atenção de Controlo Mútua (MCA) para modelar com precisão a influência do controlo na evolução da ocupação, e treinamos conjuntamente o VAE e o módulo de previsão subsequente de forma integral para maximizar a precisão da previsão. Juntas, estas soluções produzem uma melhoria de 7,2% no mIoU de previsão a uma velocidade de inferência de 41 FPS, utilizando apenas 3,47 M de parâmetros. Adicionalmente, é introduzida uma Atenção Multi-Vista Normalizada no modelo de geração de vídeo para gerar vídeos de condução multi-vista com orientação da nossa ocupação 4D, melhorando significativamente a qualidade do vídeo com uma redução de 20,7% no FVD. Experiências demonstram que o GenieDrive permite uma geração de vídeos de condução altamente controlável, consistente em multi-vista e com consciência física.
As arquiteturas neurais modernas para processamento de nuvens de pontos 3D contêm camadas convolucionais e blocos de atenção, mas a melhor forma de combiná-los permanece pouco clara. Analisamos o papel dos diferentes blocos computacionais em redes de nuvens de pontos 3D e encontramos um comportamento intuitivo: a convolução é adequada para extrair geometria de baixo nível em alta resolução nas camadas iniciais, onde a atenção é computacionalmente cara sem trazer benefícios; a atenção captura semântica de alto nível e contexto em camadas profundas de baixa resolução de forma mais eficiente. Guiados por este princípio de design, propomos uma nova e melhorada rede base (*backbone*) para nuvens de pontos 3D que emprega convoluções nas fases iniciais e muda para a atenção nas camadas mais profundas. Para evitar a perda de informação espacial ao descartar as camadas convolucionais redundantes, introduzimos uma nova codificação posicional 3D, isenta de treino, denominada PointROPE. O modelo resultante, LitePT, tem 3,6 vezes menos parâmetros, é executado 2 vezes mais rápido e usa 2 vezes menos memória do que o estado da arte Point Transformer V3, mas mesmo assim iguala ou supera o seu desempenho numa variedade de tarefas e conjuntos de dados. O código e os modelos estão disponíveis em: https://github.com/prs-eth/LitePT.
A geração de Música-para-Vídeo (M2V) para músicas completas enfrenta desafios significativos. Os métodos existentes produzem clipes curtos e desconexos, falhando em alinhar os visuais com a estrutura musical, batidas ou letras, e carecem de consistência temporal. Propomos o AutoMV, um sistema multiagente que gera videoclipes (MV) completos diretamente a partir de uma música. O AutoMV aplica primeiro ferramentas de processamento de música para extrair atributos musicais, como estrutura, faixas vocais e letras sincronizadas no tempo, e constrói essas características como entradas contextuais para os agentes seguintes. O Agente Roteirista e o Agente Diretor usam então essa informação para elaborar um roteiro curto, definir perfis de personagens em um banco externo compartilhado e especificar instruções de câmera. Subsequentemente, esses agentes chamam o gerador de imagens para *keyframes* e diferentes geradores de vídeo para cenas de "história" ou do "cantor". Um Agente Verificador avalia sua saída, permitindo uma colaboração multiagente para produzir um MV longo e coerente. Para avaliar a geração M2V, propomos ainda um *benchmark* com quatro categorias de alto nível (Conteúdo Musical, Técnico, Pós-produção, Arte) e doze critérios granulares. Este *benchmark* foi aplicado para comparar produtos comerciais, o AutoMV e MVs dirigidos por humanos com avaliadores humanos especialistas: o AutoMV supera significativamente as *baselines* atuais em todas as quatro categorias, reduzindo a distância para os MVs profissionais. Finalmente, investigamos o uso de grandes modelos multimodais como juízes automáticos de MV; embora promissor, eles ainda ficam atrás dos especialistas humanos, destacando espaço para trabalhos futuros.
A compreensão do movimento é fundamental para o raciocínio físico, permitindo que modelos infiram dinâmicas e prevejam estados futuros. No entanto, os modelos de última geração ainda apresentam dificuldades em benchmarks recentes de movimento, principalmente devido à escassez de conjuntos de dados de movimento em larga escala e com granularidade fina. Os conjuntos de dados de movimento existentes são frequentemente construídos a partir de anotações manuais dispendiosas, limitando severamente a escalabilidade. Para enfrentar este desafio, apresentamos o FoundationMotion, um pipeline automatizado de curadoria de dados que constrói conjuntos de dados de movimento em larga escala. Nossa abordagem primeiro detecta e rastreia objetos em vídeos para extrair suas trajetórias, depois aproveita essas trajetórias e os quadros de vídeo com Modelos de Linguagem de Grande Escala (LLMs) para gerar legendas de granularidade fina e diversos pares de pergunta-resposta sobre movimento e raciocínio espacial. Utilizando conjuntos de dados produzidos por este pipeline, realizamos o fine-tuning de modelos de código aberto, incluindo NVILA-Video-15B e Qwen2.5-7B, alcançando melhorias substanciais na compreensão de movimento sem comprometer o desempenho em outras tarefas. Notavelmente, nossos modelos superam fortes baselines de código fechado, como o Gemini-2.5 Flash, e grandes modelos de código aberto, como o Qwen2.5-VL-72B, em diversos conjuntos de dados e benchmarks de compreensão de movimento. O FoundationMotion oferece, portanto, uma solução escalável para a curadoria de conjuntos de dados de movimento com granularidade fina, que permitem o fine-tuning eficaz de diversos modelos para aprimorar as capacidades de compreensão de movimento e raciocínio espacial.
Apresentamos o FIN-bench-v2, um conjunto unificado de benchmarks para avaliação de grandes modelos de linguagem em finlandês. O FIN-bench-v2 consolida versões em finlandês de benchmarks amplamente utilizados, juntamente com uma versão atualizada e expandida do FIN-bench original, numa única coleção com formatação consistente, abrangendo tarefas de múltipla escolha e generativas em compreensão de leitura, raciocínio de senso comum, análise de sentimentos, conhecimento mundial e alinhamento. Todos os conjuntos de dados são convertidos para o formato HuggingFace Datasets, que inclui formulações de *prompts* do tipo *cloze* e múltipla escolha com cinco variantes por tarefa, e incorporamos anotação humana ou revisão para recursos traduzidos automaticamente, como o GoldenSwag e o XED. Para selecionar tarefas robustas, pré-treinamos um conjunto de modelos *decoder-only* com 2,15 mil milhões de parâmetros e usamos as suas curvas de aprendizagem para calcular a monotonicidade, relação sinal-ruído, desempenho não aleatório e consistência na ordenação de modelos, mantendo apenas as tarefas que satisfazem todos os critérios. Avaliamos ainda um conjunto de modelos maiores, ajustados por instrução, para caracterizar o desempenho entre tarefas e formulações de *prompts*. Todos os conjuntos de dados, *prompts* e configurações de avaliação estão publicamente disponíveis através do nosso *fork* do *Language Model Evaluation Harness* em https://github.com/LumiOpen/lm-evaluation-harness. Recursos suplementares são disponibilizados num repositório separado em https://github.com/TurkuNLP/FIN-bench-v2.
O alinhamento excessivo dos modelos de geração de imagens a uma preferência estética generalizada entra em conflito com a intenção do utilizador, especialmente quando são solicitados resultados "antiestéticos" para fins artísticos ou críticos. Esta adesão prioriza valores centrados no programador, comprometendo a autonomia do utilizador e o pluralismo estético. Testamos este viés construindo um conjunto de dados de estética de amplo espectro e avaliando modelos de geração e recompensa de última geração. Descobrimos que os modelos de geração alinhados esteticamente recorrem frequentemente a resultados convencionalmente belos, falhando em respeitar instruções para imagens de baixa qualidade ou negativas. Crucialmente, os modelos de recompensa penalizam imagens antiestéticas mesmo quando estas correspondem perfeitamente ao prompt explícito do utilizador. Confirmamos este viés sistémico através de edição imagem-a-imagem e avaliação contra obras de arte abstratas reais.
Os tokenizadores visuais desempenham um papel crucial nos modelos de difusão. A dimensionalidade do espaço latente governa tanto a fidelidade de reconstrução quanto a expressividade semântica da característica latente. No entanto, um compromisso fundamental é inerente entre dimensionalidade e qualidade de geração, restringindo os métodos existentes a espaços latentes de baixa dimensionalidade. Embora trabalhos recentes tenham aproveitado modelos de base visuais para enriquecer a semântica dos tokenizadores visuais e acelerar a convergência, tokenizadores de alta dimensionalidade ainda apresentam desempenho inferior aos seus equivalentes de baixa dimensionalidade. Neste trabalho, propomos o RecTok, que supera as limitações dos tokenizadores visuais de alta dimensionalidade através de duas inovações principais: destilação semântica de fluxo e destilação de alinhamento-reconstrução. Nossa principal percepção é tornar o fluxo direto no *flow matching* semanticamente rico, o que serve como espaço de treinamento dos transformadores de difusão, em vez de focar no espaço latente como em trabalhos anteriores. Especificamente, nosso método destila a informação semântica nos VFMs para as trajetórias de fluxo direto no *flow matching*. E aprimoramos ainda mais a semântica introduzindo uma perda de reconstrução de características mascaradas. Nosso RecTok alcança reconstrução de imagem superior, qualidade de geração e desempenho discriminativo. Ele alcança resultados state-of-the-art no gFID-50K tanto com quanto sem configurações de orientação livre de classificador, mantendo uma estrutura de espaço latente semanticamente rica. Além disso, à medida que a dimensionalidade latente aumenta, observamos melhorias consistentes. Código e modelo estão disponíveis em https://shi-qingyu.github.io/rectok.github.io.
Os Grandes Modelos de Linguagem (LLMs) podem gerar tokens de raciocínio antes de sua resposta final para melhorar o desempenho em tarefas complexas. Embora essas sequências se assemelhem a processos de pensamento humano, evidências empíricas revelam que elas não são uma explicação fiel do processo real de raciocínio do modelo. Para abordar essa lacuna entre aparência e função, introduzimos o quadro conceitual Estado sobre Tokens (SoT). O SoT reformula os tokens de raciocínio não como uma narrativa linguística, mas como um estado computacional externalizado — o único portador de informação persistente entre os ciclos de geração sem estado do modelo. Isso explica como os tokens podem conduzir um raciocínio correto sem serem uma explicação fiel quando lidos como texto, e traz à tona questões de pesquisa previamente negligenciadas sobre esses tokens. Argumentamos que, para compreender verdadeiramente o processo que os LLMs realizam, a pesquisa deve ir além da leitura dos tokens de raciocínio como texto e focar em decodificá-los como estado.
Apresentamos o Flowception, uma nova estrutura de geração de vídeo não autorregressiva e de comprimento variável. O Flowception aprende um caminho de probabilidade que intercala inserções discretas de frames com a remoção de ruído contínua de frames. Em comparação com métodos autorregressivos, o Flowception atenua o acúmulo/desvio de erros, uma vez que o mecanismo de inserção de frames durante a amostragem funciona como um mecanismo de compressão eficiente para lidar com contexto de longo prazo. Comparado aos fluxos de sequência completa, nosso método reduz os FLOPS de treinamento em três vezes, sendo também mais adequado para variantes de atenção local e permitindo aprender o comprimento dos vídeos em conjunto com seu conteúdo. Resultados experimentais quantitativos mostram métricas FVD e VBench melhoradas em relação às linhas de base autorregressivas e de sequência completa, o que é validado por resultados qualitativos. Por fim, ao aprender a inserir e remover ruído de frames em uma sequência, o Flowception integra perfeitamente diferentes tarefas, como geração de imagem para vídeo e interpolação de vídeo.
Os recentes avanços em modelos multimodais de grande escala sugerem que os mecanismos de raciocínio explícito desempenham um papel crítico na melhoria da confiabilidade, interpretabilidade e alinhamento multimodal dos modelos. Embora essas abordagens centradas no raciocínio tenham se mostrado eficazes em tarefas de linguagem e visão, sua extensão para o domínio 3D permanece subdesenvolvida. O CoRe3D introduz uma estrutura unificada de raciocínio para compreensão e geração 3D que opera conjuntamente sobre abstrações semânticas e espaciais, permitindo que intenções de alto nível inferidas a partir da linguagem orientem diretamente a formação de conteúdo 3D em nível granular. Central a este projeto está uma representação de raciocínio espacialmente fundamentada que decompõe o espaço latente 3D em regiões localizadas, permitindo que o modelo raciocine sobre a geometria de maneira composicional e procedural. Ao acoplar estreitamente a inferência semântica de cadeia de pensamento com o raciocínio espacial estruturado, o CoRe3D produz resultados 3D que exibem forte consistência local e alinhamento fiel com descrições linguísticas.
A generalização permanece o principal desafio para a geração interativa de cenas 3D. As abordagens existentes baseadas em aprendizagem fundamentam a compreensão espacial em conjuntos de dados de cenas limitados, restringindo a generalização para novos layouts. Em vez disso, reprogramamos um gerador de instâncias 3D pré-treinado para atuar como um aprendiz em nível de cena, substituindo a supervisão limitada ao conjunto de dados por uma supervisão espencial centrada no modelo. Esta reprogramação liberta o conhecimento espacial transferível do gerador, permitindo a generalização para layouts não vistos e novas composições de objetos. Notavelmente, o raciocínio espacial ainda emerge mesmo quando as cenas de treino são compostas aleatoriamente por objetos. Isto demonstra que o conhecimento prévio de cena transferível do gerador fornece um sinal de aprendizagem rico para inferir proximidade, suporte e simetria a partir de pistas puramente geométricas. Substituindo o espaço canónico amplamente utilizado, instanciamos esta perceção com uma formulação centrada na vista do espaço da cena, resultando num gerador de cenas totalmente feed-forward e generalizável que aprende relações espaciais diretamente a partir do modelo de instância. Resultados quantitativos e qualitativos mostram que um gerador de instâncias 3D é um aprendiz e raciocinador espacial implícito, apontando para modelos de base para a compreensão e geração interativa de cenas 3D. Página do projeto: https://luling06.github.io/I-Scene-project/
As cenas do mundo real são frequentemente compostas por vários objetos estáticos e dinâmicos. Capturar as suas estruturas 4-dimensionais, composição e configuração espaço-temporal em ambientes não controlados, embora extremamente interessante, é igualmente difícil. Consequentemente, os trabalhos existentes focam-se frequentemente num objeto de cada vez, recorrendo a algum modelo de forma paramétrico específico da categoria para objetos dinâmicos. Isto pode levar a configurações de cena inconsistentes, para além de se limitar às categorias de objetos modeladas. Propomos o COM4D (Composicional 4D), um método que prevê de forma consistente e conjunta a estrutura e a configuração espaço-temporal de objetos 4D/3D, utilizando apenas supervisão estática de múltiplos objetos ou supervisão dinâmica de objeto único. Conseguimos isto através de um treino cuidadosamente concebido de atenções espaciais e temporais em vídeos 2D de entrada. O treino é desacoplado na aprendizagem de composições de objetos, por um lado, e na dinâmica de objeto único ao longo do vídeo, por outro, evitando assim completamente a dependência de dados de treino composicionais 4D. No momento da inferência, o nosso mecanismo proposto de mistura de atenções combina estas atenções aprendidas independentemente, sem necessitar de quaisquer exemplos de composição 4D. Alternando entre o raciocínio espacial e temporal, o COM4D reconstrói cenas 4D completas e persistentes com múltiplos objetos em interação diretamente a partir de vídeos monoculares. Adicionalmente, o COM4D fornece resultados state-of-the-art em problemas separados existentes de reconstrução 4D de objetos e reconstrução 3D composicional, apesar de ser puramente orientado por dados.
A Inversão Textual (IT) é uma abordagem eficiente para a personalização texto-imagem, mas frequentemente falha em instruções complexas. Nós rastreamos essas falhas até a inflação da norma do *embedding*: os tokens aprendidos desviam-se para magnitudes fora da distribuição, degradando o condicionamento por *prompt* em Transformers com pré-normalização. Empiricamente, mostramos que a semântica é codificada principalmente pela direção no espaço de tokens do CLIP, enquanto normas inflacionadas prejudicam a contextualização; teoricamente, analisamos como magnitudes grandes atenuam a informação posicional e dificultam as atualizações residuais em blocos de pré-normalização. Propomos a Inversão Textual Direcional (ITD), que fixa a magnitude do *embedding* para uma escala dentro da distribuição e otimiza apenas a direção na hiperesfera unitária via SGD Riemanniano. Formula-se a aprendizagem de direção como MAP com um *prior* von Mises-Fisher, resultando em um gradiente de *prior* de direção constante que é simples e eficiente de incorporar. Em diversas tarefas de personalização, a ITD melhora a fidelidade textual em relação à IT e suas variantes, mantendo a similaridade do sujeito. Crucialmente, a parametrização hipersférica da ITD permite uma interpolação suave e semanticamente coerente entre conceitos aprendidos (slerp), uma capacidade ausente na IT padrão. Nossos achados sugerem que a otimização apenas da direção é um caminho robusto e escalável para a personalização fiel ao *prompt*.
A compreensão de gráficos é crucial para a implantação de modelos de linguagem multimodal (MLLMs) em cenários do mundo real, como a análise de artigos científicos e relatórios técnicos. Diferentemente de imagens naturais, os gráficos combinam um layout visual estruturado (propriedade espacial) com uma representação de dados subjacente (propriedade textual) – compreender ambas é essencial para um raciocínio preciso e refinado sobre gráficos. Motivados por essa observação, propomos o START, o aprendizado Espacial e Textual para a compreensão de gráficos (Spatial and Textual learning for chART understanding). Especificamente, introduzimos (i) a ancoragem de elementos do gráfico (chart-element grounding) e (ii) a geração de gráfico-para-código (chart-to-code generation) para fortalecer a compreensão de um MLLM sobre o layout visual do gráfico e os detalhes dos dados. Para facilitar o aprendizado espacial e textual, propomos o START-Dataset, gerado com um novo pipeline de geração de dados que primeiro aproveita um MLLM para traduzir imagens reais de gráficos em código de gráfico executável, recuperando a representação de dados subjacente enquanto preserva a distribuição visual de gráficos do mundo real. Em seguida, evoluímos o código com um Modelo de Linguagem de Grande Escala (LLM) para ascertain as posições dos elementos do gráfico que capturam a estrutura visual do gráfico, abordando desafios que os métodos existentes não conseguem lidar. Para avaliar a capacidade de um modelo de entender estruturas espaciais de gráficos, propomos o Chart Spatial understanding Benchmark (CS-Bench), preenchendo uma lacuna crítica na avaliação abrangente da compreensão de gráficos. Aproveitando o aprendizado espacial e textual, o START oferece ganhos consistentes em todos os tamanhos de modelos e benchmarks em relação aos modelos base e supera os melhores métodos anteriores por uma margem clara. Código, dados e modelos estarão publicamente disponíveis.
Os modelos de difusão de vídeo revolucionaram a síntese generativa de vídeo, mas são imprecisos, lentos e podem ser opacos durante a geração – mantendo os utilizadores no escuro por um período prolongado. Neste trabalho, propomos o DiffusionBrowser, uma estrutura de decodificador leve e independente do modelo que permite aos utilizadores gerar previsualizações interativas em qualquer ponto (passo temporal ou bloco do transformador) durante o processo de remoção de ruído. O nosso modelo pode gerar representações de previsualização multimodais que incluem RGB e características intrínsecas da cena a uma velocidade superior a 4 vezes o tempo real (menos de 1 segundo para um vídeo de 4 segundos), transmitindo aparência e movimento consistentes com o vídeo final. Com o decodificador treinado, demonstramos que é possível guiar interativamente a geração em passos de ruído intermediários através da reinjeção de estocasticidade e direcionamento modal, desbloqueando uma nova capacidade de controlo. Além disso, analisamos sistematicamente o modelo usando os decodificadores aprendidos, revelando como a cena, os objetos e outros detalhes são compostos e montados durante o processo de remoção de ruído, que de outra forma seria uma caixa negra.
Dados pesqueiros precisos são cruciais para uma gestão eficaz e sustentável dos recursos marinhos. Com a recente adoção de sistemas de Monitoramento Eletrônico (EM), mais dados de vídeo estão sendo coletados do que é viável analisar manualmente. Este artigo aborda esse desafio desenvolvendo um *pipeline* de aprendizado profundo otimizado para a reidentificação (Re-ID) automatizada de peixes usando o novo conjunto de dados AutoFish, que simula sistemas EM com esteiras transportadoras contendo seis espécies de peixes de aparência similar. Demonstramos que as principais métricas de Re-ID (R1 e mAP@k) são substancialmente melhoradas usando a mineração de triplas difíceis em conjunto com um *pipeline* personalizado de transformação de imagens que inclui normalização específica para o conjunto de dados. Ao empregar essas estratégias, demonstramos que a arquitetura Swin-T, baseada em Vision Transformer, supera consistentemente a ResNet-50, baseada em Rede Neural Convolucional, atingindo um desempenho máximo de 41,65% mAP@k e 90,43% de precisão Rank-1. Uma análise aprofundada revela que o principal desafio é distinguir indivíduos visualmente similares da mesma espécie (erros intraespécie), nos quais a inconsistência do ponto de vista se mostra significamente mais prejudicial do que a oclusão parcial. O código-fonte e a documentação estão disponíveis em: https://github.com/msamdk/Fish_Re_Identification.git
Os modelos de mundo demonstraram um desempenho impressionante em tarefas de aprendizagem robótica. Muitas dessas tarefas exigem inerentemente raciocínio multimodal; por exemplo, encher uma garrafa com água tornará a informação visual, por si só, ambígua ou incompleta, exigindo, portanto, o raciocínio sobre a evolução temporal do áudio, considerando suas propriedades físicas subjacentes e padrões de tom. Neste artigo, propomos um modelo generativo de correspondência de fluxo latente para antecipar observações de áudio futuras, permitindo que o sistema raciocine sobre consequências de longo prazo quando integrado a uma política robótica. Demonstramos as capacidades superiores do nosso sistema por meio de duas tarefas de manipulação que exigem a percepção de sinais de áudio ou música em ambientes não controlados, em comparação com métodos sem antecipação futura. Salientamos ainda que o aprendizado de ações robóticas bem-sucedido para essas tarefas depende não apenas da entrada multimodal, mas, criticamente, da previsão precisa de estados de áudio futuros que incorporam padrões rítmicos intrínsecos.
A degeneração macular relacionada à idade (DMRI) e as condições associadas à neovascularização coroidal (NVC) estão entre as principais causas de perda de visão em todo o mundo, sendo a tomografia de coerência óptica (OCT) uma ferramenta fundamental para a detecção precoce e o manejo. No entanto, a implantação de modelos de aprendizagem profunda de última geração, como o ConvNeXtV2-Large, em ambientes clínicos é dificultada pelas suas exigências computacionais. Portanto, é desejável desenvolver modelos eficientes que mantenham alto desempenho diagnóstico, permitindo ao mesmo tempo a implantação em tempo real. Neste estudo, é proposto um novo framework de destilação de conhecimento, denominado KD-OCT, para comprimir um modelo professor de alto desempenho ConvNeXtV2-Large, aprimorado com técnicas avançadas de aumento de dados, média móvel de pesos estocástica e função de perda focal, em um modelo estudante leve EfficientNet-B2, para classificar casos normais, com drusas e com NVC. O KD-OCT emprega destilação em tempo real com uma função de perda combinada que equilibra a transferência do conhecimento suave do professor e a supervisão direta das anotações de referência. A eficácia do método proposto é avaliada no conjunto de dados do Hospital Oftalmológico Noor (NEH) usando validação cruzada a nível de paciente. Os resultados experimentais demonstram que o KD-OCT supera classificadores de OCT comparáveis baseados em fusão de características ou escalas múltiplas no equilíbrio entre eficiência e precisão, alcançando um desempenho próximo ao do modelo professor com reduções substanciais no tamanho do modelo e no tempo de inferência. Apesar da compressão, o modelo estudante supera a maioria dos frameworks existentes, facilitando a implantação em dispositivos de ponta para a triagem de DMRI. O código está disponível em https://github.com/erfan-nourbakhsh/KD-OCT.