Artigos de pesquisa em IA selecionados diariamente com traduções
A aprendizagem por feedback de recompensa (ReFL) tem-se mostrado eficaz para alinhar a geração de imagens com as preferências humanas. No entanto, a sua extensão para a geração de vídeo enfrenta desafios significativos. Os modelos de recompensa de vídeo existentes dependem de modelos de visão e linguagem concebidos para entradas no espaço de pixels, confinando a otimização ReFL a etapas de desruído quase completas após a computacionalmente dispendiosa descodificação VAE. Esta abordagem no espaço de pixels acarreta uma sobrecarga substancial de memória e um aumento do tempo de treino, e a sua otimização em fase tardia carece de supervisão em fases iniciais, refinando apenas a qualidade visual em vez da dinâmica motora fundamental e da coerência estrutural. Neste trabalho, mostramos que os modelos de geração de vídeo pré-treinados são naturalmente adequados para a modelação de recompensas no espaço latente ruidoso, uma vez que foram explicitamente concebidos para processar representações latentes ruidosas em intervalos de tempo arbitrários e preservam inerentemente informação temporal através das suas capacidades de modelação sequencial. Consequentemente, propomos a Aprendizagem por Feedback de Recompensa de Processo (PRFL), uma estrutura que conduz a otimização de preferências inteiramente no espaço latente, permitindo uma retropropagação eficiente do gradiente ao longo de toda a cadeia de desruído sem descodificação VAE. Experiências extensivas demonstram que a PRFL melhora significativamente o alinhamento com as preferências humanas, ao mesmo tempo que alcança reduções substanciais no consumo de memória e no tempo de treino em comparação com a ReFL em RGB.
Embora os modelos modernos de difusão se destaquem na geração de imagens de alta qualidade e diversidade, eles ainda enfrentam dificuldades com controle composicional e multimodal de alta fidelidade, especialmente quando os usuários especificam simultaneamente prompts de texto, referências de assunto, arranjos espaciais, restrições de pose e anotações de layout. Apresentamos o Canvas-to-Image, uma estrutura unificada que consolida esses controles heterogêneos em uma única interface de tela, permitindo que os usuários gerem imagens que reflitam fielmente sua intenção. Nossa ideia principal é codificar diversos sinais de controle em uma única imagem de tela composta que o modelo pode interpretar diretamente para um raciocínio visuo-espacial integrado. Além disso, curadamos um conjunto de dados de multitarefa e propomos uma Estratégia de Treinamento de Tela Multitarefa que otimiza o modelo de difusão para compreender e integrar conjuntamente controles heterogêneos na geração de texto para imagem dentro de um paradigma de aprendizagem unificado. Este treinamento conjunto permite que o Canvas-to-Image raciocine através de múltiplas modalidades de controle, em vez de depender de heurísticas específicas por tarefa, e generaliza bem para cenários de múltiplos controles durante a inferência. Experimentos extensivos mostram que o Canvas-to-Image supera significativamente os métodos state-of-the-art na preservação de identidade e aderência ao controle em benchmarks desafiadores, incluindo composição multipessoal, composição controlada por pose, geração restrita por layout e geração com múltiplos controles.
A cognição incorporada argumenta que a inteligência surge da interação sensório-motora, e não da observação passiva. Isso levanta uma questão intrigante: os modernos modelos de visão e linguagem (VLMs), treinados em grande parte de maneira desincorporada, exibem sinais de cognição incorporada? Apresentamos o ENACT, um benchmark que transforma a avaliação da cognição incorporada em modelagem do mundo a partir da interação egocêntrica, no formato de resposta a perguntas visuais (VQA). Estruturado como um processo de decisão de Markov parcialmente observável (POMDP) cujas ações são alterações no grafo da cena, o ENACT compreende duas tarefas complementares de reordenação de sequências: modelagem direta do mundo (reordenar observações embaralhadas dadas as ações) e modelagem inversa do mundo (reordenar ações embaralhadas dadas as observações). Embora conceitualmente simples, resolver essas tarefas exige implicitamente capacidades centrais para a cognição incorporada: reconhecimento de affordances, raciocínio sobre ação-efeito, consciência incorporada e memória interativa de longo prazo a partir de entradas egocêntricas parcialmente observáveis, evitando ao mesmo tempo a síntese de imagens de baixo nível que poderia confundir a avaliação. Fornecemos um pipeline escalável que sintetiza pares de perguntas e respostas a partir de simulações robóticas (BEHAVIOR) e avalia os modelos em 8.972 pares de QA abrangendo atividades domésticas de longo prazo. Os experimentos revelam uma lacuna de desempenho entre os VLMs de ponta e os humanos que aumenta com o horizonte de interação. Os modelos apresentam consistentemente melhor desempenho na tarefa inversa do que na direta e exibem vieses antropocêntricos, incluindo uma preferência por ações destras e degradação quando as intrínsecas da câmera ou os pontos de vista se desviam da visão humana. Site em https://enact-embodied-cognition.github.io/.
A compreensão da linguagem envolve não apenas extrair o significado superficial do input linguístico, mas construir modelos mentais ricos da situação que ela descreve. Aqui propomos que, como o processamento dentro do sistema central de linguagem do cérebro é fundamentalmente limitado, compreender profundamente a linguagem requer exportar informações do sistema de linguagem para outras regiões cerebrais que calculam representações perceptivas e motoras, constroem modelos mentais e armazenam nosso conhecimento do mundo e memórias autobiográficas. Revisamos as evidências existentes para esta hipótese e argumentamos que os recentes avanços na neurociência cognitiva fornecem tanto a base conceitual quanto os métodos para testá-la diretamente, abrindo assim uma nova estratégia para revelar o que significa, cognitiva e neuralmente, compreender a linguagem.
A edição de imagens guiada por instruções oferece uma forma intuitiva para os usuários editarem imagens com linguagem natural. No entanto, modelos de edição baseados em difusão frequentemente lutam para interpretar com precisão instruções complexas do usuário, especialmente aquelas envolvendo relações composicionais, pistas contextuais ou expressões de referência, levando a edições que se desviam semanticamente ou falham em refletir as alterações pretendidas. Enfrentamos este problema propondo o MIRA (Multimodal Iterative Reasoning Agent), um agente de raciocínio multimodal leve e *plug-and-play* que realiza a edição através de um ciclo iterativo de percepção-raciocínio-ação, simulando efetivamente processos de interação humano-modelo em múltiplos turnos. Em vez de emitir um único comando ou plano estático, o MIRA prevê instruções de edição atômica passo a passo, usando *feedback* visual para tomar suas decisões. O nosso conjunto de dados multimodal de 150K para uso de ferramentas, MIRA-Editing, combinado com um *pipeline* de treinamento em dois estágios (SFT + GRPO), permite ao MIRA realizar raciocínio e edição sobre instruções de edição complexas. Quando emparelhado com modelos de edição de imagem de código aberto, como Flux.1-Kontext, Step1X-Edit e Qwen-Image-Edit, o MIRA melhora significativamente tanto a consistência semântica quanto a qualidade perceptual, alcançando um desempenho comparável ou superior a sistemas proprietários como GPT-Image e Nano-Banana.
Os grandes modelos multimodais (LMMs) estão a ser cada vez mais adotados como avaliadores em sistemas de avaliação multimodal devido à sua forte capacidade de seguir instruções e à sua consonância com as preferências humanas. No entanto, a sua capacidade de seguir critérios de avaliação diversos e granulares permanece pouco explorada. Desenvolvemos o Multi-Crit, um *benchmark* para avaliar avaliadores multimodais quanto à sua capacidade de seguir critérios pluralistas e produzir julgamentos fiáveis a nível de critério. Abrangendo tanto tarefas de geração aberta como de raciocínio verificável, o Multi-Crit é construído através de um rigoroso *pipeline* de curadoria de dados que recolhe pares de respostas desafiadoras com anotações humanas multicritério. Introduz ainda três métricas novas para avaliar sistematicamente a adesão pluralista, a flexibilidade na alternância de critérios e a capacidade de reconhecer conflitos de preferência a nível de critério. Uma análise abrangente de 25 LMMs revela que 1) os modelos proprietários ainda têm dificuldade em manter uma adesão consistente a critérios pluralistas—especialmente na avaliação de tarefas abertas; 2) os modelos de código aberto estão ainda mais atrás na flexibilidade de seguir critérios diversos; e 3) o *fine-tuning* do crítico com sinais de julgamento holístico melhora a fundamentação visual, mas não consegue generalizar para o julgamento pluralista a nível de critério. Análises adicionais sobre *fine-tuning* de raciocínio, escalamento no momento do teste e consistência de limites entre modelos de código aberto e proprietários investigam ainda mais os limites dos atuais avaliadores multimodais. Como um estudo pioneiro, o Multi-Crit estabelece as bases para a construção de uma avaliação de IA multimodal fiável e direcionável.
Os MLLMs exibem raciocínio robusto em consultas isoladas, mas operam de novo – resolvendo cada problema independentemente e frequentemente repetindo os mesmos erros. Os agentes existentes com aumento de memória armazenam principalmente trajetórias passadas para reutilização. No entanto, a memória baseada em trajetória sofre de viés de brevidade, perdendo gradualmente conhecimentos essenciais do domínio. Mais criticamente, mesmo em ambientes verdadeiramente multimodais de resolução de problemas, ela registra apenas um traço de modalidade única do comportamento passado, falhando em preservar como a atenção visual e o raciocínio lógico contribuíram conjuntamente para a solução. Isto está fundamentalmente desalinhado com a cognição humana: a memória semântica é multimodal e integrada, preservando conhecimento visual e abstrato através de fluxos representacionais coordenados mas distintos. Apresentamos assim o ViLoMem, uma estrutura de memória de fluxo duplo que constrói memória compacta baseada em esquemas. Ele codifica separadamente padrões de distração visual e erros de raciocínio lógico, permitindo que os MLLMs aprendam com suas experiências bem-sucedidas e fracassadas. Seguindo um princípio de crescimento e refinamento, o sistema acumula e atualiza incrementalmente conhecimento semântico multimodal – preservando estratégias estáveis e generalizáveis enquanto evita o esquecimento catastrófico. Em seis benchmarks multimodais, o ViLoMem melhora consistentemente a precisão pass@1 e reduz substancialmente os erros visuais e lógicos repetidos. Ablações confirmam a necessidade de memória de fluxo duplo com separação explícita entre distração e alucinação, demonstrando o valor da memória multimodal consciente de erros para aprendizado agentivo contínuo e entre domínios. Nossa página do projeto estará disponível em https://weihao-bo.github.io/ViLoMeo-page.