Artigos de pesquisa em IA selecionados diariamente com traduções
Avanços recentes em grandes modelos generativos multimodais demonstraram capacidades impressionantes na geração multimodal, incluindo geração de imagens e vídeos. Esses modelos são tipicamente construídos sobre estruturas de múltiplas etapas, como difusão e *flow matching*, o que limita inerentemente sua eficiência de inferência (exigindo 40-100 Avaliações de Função - NFEs). Embora vários métodos de poucas etapas visem acelerar a inferência, as soluções existentes têm limitações claras. Métodos proeminentes baseados em destilação, como destilação progressiva e de consistência, ou exigem um procedimento de destilação iterativo ou apresentam degradação significativa em etapas muito reduzidas (< 4-NFE). Entretanto, integrar o treinamento adversarial na destilação (por exemplo, DMD/DMD2 e SANA-Sprint) para melhorar o desempenho introduz instabilidade no treinamento, complexidade adicional e alta sobrecarga de memória da GPU devido aos modelos auxiliares treinados. Para isso, propomos o TwinFlow, uma estrutura simples mas eficaz para treinar modelos generativos de 1 etapa que ignora a necessidade de modelos professores pré-treinados fixos e evita redes adversariais padrão durante o treino, tornando-o ideal para construir modelos eficientes em larga escala. Em tarefas de texto para imagem, nosso método alcança uma pontuação GenEval de 0.83 em 1-NFE, superando bases fortes como SANA-Sprint (uma estrutura baseada em perda GAN) e RCGM (uma estrutura baseada em consistência). Notavelmente, demonstramos a escalabilidade do TwinFlow através do treino de parâmetro completo no Qwen-Image-20B e transformamo-lo num gerador eficiente de poucas etapas. Com apenas 1-NFE, a nossa abordagem iguala o desempenho do modelo original de 100-NFE tanto nos benchmarks GenEval como DPG-Bench, reduzindo o custo computacional em 100 vezes com degradação mínima de qualidade. A página do projeto está disponível em https://zhenglin-cheng.com/twinflow.
A edição de imagens baseada em instruções emergiu como uma área de pesquisa proeminente que, beneficiando-se de modelos fundamentais de geração de imagens, alcançou alta qualidade estética, tornando a capacidade de seguir instruções o principal desafio. As abordagens existentes melhoram a aderência às instruções via aprendizado supervisionado ou por reforço, porém as taxas de sucesso em tarefas únicas permanecem limitadas devido à estocasticidade inerente e à falta de deliberação. Neste trabalho, propomos um framework de edição deliberativa para "pensar" durante a edição, que simula o loop cognitivo humano através da execução iterativa de um ciclo Pensar-durante-Editar: Criticar resultados e Refinar instruções, seguido pela Repetição da geração até a satisfação. Especificamente, treinamos um único MLLM, o EditThinker, para atuar como motor de raciocínio deste framework, produzindo conjuntamente a pontuação de crítica, o processo de raciocínio e as instruções refinadas. Empregamos aprendizado por reforço para alinhar o pensamento do EditThinker com sua edição, gerando assim melhorias de instrução mais direcionadas. Experimentos extensos em quatro benchmarks demonstram que nossa abordagem melhora significativamente a capacidade de seguir instruções de qualquer modelo de edição de imagem por uma grande margem. Disponibilizaremos nosso framework de construção de dados, conjuntos de dados e modelos para beneficiar a comunidade.
O aprendizado por reforço emergiu como um paradigma para o pós-treinamento de grandes modelos de linguagem, aumentando suas capacidades de raciocínio. Tais abordagens calculam um valor de vantagem para cada amostra, refletindo um desempenho melhor ou pior do que o esperado, fornecendo assim sinais positivos e negativos para o treinamento. No entanto, a mistura indiscriminada dos dois sinais nos métodos existentes, especialmente desde os estágios iniciais, pode levar a uma orientação ambígua e ganhos limitados. Para resolver esta questão, propomos o **CAPO** (**O**timização de **P**olítica por **V**antagem com **C**urrículo), um mecanismo de currículo adaptativo baseado em sinais de vantagem. O mecanismo proposto inicia o aprendizado por imitação com amostras de vantagem exclusivamente positivas para estabelecer bases robustas e, subsequentemente, introduz sinais negativos para cultivar capacidades discriminativas, melhorando assim a generalização em cenários complexos. Compatível com diversos métodos de otimização, incluindo GRPO, PPO, RLOO e Reinforce++, nosso método alcança consistentemente melhorias estáveis e significativas em tarefas de raciocínio matemático e ainda generaliza eficazmente para cenários de raciocínio multimodal em Interface Gráfica do Utilizador (GUI), estabelecendo-se como uma estrutura de otimização versátil e robusta.
Propomos a EMMA, uma arquitetura unificada e eficiente para compreensão, geração e edição multimodal. Especificamente, a EMMA consiste principalmente em: 1) Um autoencoder eficiente com taxa de compressão de 32x, que reduz significativamente o número de tokens necessários para geração. Isso também garante o equilíbrio do treinamento entre tarefas de compreensão e geração ao aplicar a mesma taxa de compressão a imagens. 2) Concatenação por canal em vez de concatenação por token entre os tokens de compreensão e geração visual, o que reduz ainda mais os tokens visuais em arquiteturas unificadas. 3) Uma rede compartilhada e desacoplada que permite melhorias mútuas entre tarefas, atendendo aos requisitos de modelagem específicos de cada tarefa. 4) Um mecanismo de mistura de especialistas adotado para o codificador de compreensão visual, que melhora substancialmente as capacidades perceptivas com um pequeno aumento de parâmetros. Experimentos extensivos demonstraram que a EMMA-4B pode superar significativamente as abordagens multimodais unificadas state-of-the-art (como a BAGEL-7B) em eficiência e desempenho, além de alcançar resultados competitivos em comparação com especialistas recentes em compreensão e geração multimodal (como Qwen3-VL e Qwen-Image). Acreditamos que a EMMA estabelece uma base sólida para o desenvolvimento futuro de arquiteturas multimodais unificadas.
Com o avanço contínuo da tecnologia de geração de imagens, modelos avançados como o GPT-Image-1 e o Qwen-Image alcançaram notável consistência texto-imagem e conhecimento mundial. No entanto, estes modelos ainda apresentam limitações na geração de imagens fotorrealistas. Mesmo em tarefas simples de T2I, tendem a produzir imagens "artificiais" com artefatos de IA distintos, frequentemente caracterizados por "pele excessivamente suave" e "brilhos faciais oleosos". Para recuperar o objetivo original de geração "indistinguível da realidade", propomos o RealGen, um framework fotorrealista de texto para imagem. O RealGen integra um componente de LLM para otimização de prompts e um modelo de difusão para geração realista de imagens. Inspirado pela geração adversarial, o RealGen introduz um mecanismo de "Recompensa do Detector", que quantifica artefatos e avalia o realismo utilizando detectores de imagens sintéticas a nível semântico e de características. Aproveitamos este sinal de recompensa com o algoritmo GRPO para otimizar todo o pipeline de geração, melhorando significativamente o realismo e o detalhe da imagem. Adicionalmente, propomos o RealBench, um benchmark de avaliação automática que emprega Pontuação por Detector e Pontuação por Arena. Ele permite a avaliação de fotorrealismo sem intervenção humana, produzindo resultados mais precisos e alinhados com a experiência real do utilizador. Experiências demonstram que o RealGen supera significativamente modelos gerais como o GPT-Image-1 e o Qwen-Image, bem como modelos especializados em fotorrealismo como o FLUX-Krea, em termos de realismo, detalhe e estética. O código está disponível em https://github.com/yejy53/RealGen.
Os métodos generativos para ativos 3D alcançaram progressos notáveis recentemente, mas fornecer controle intuitivo e preciso sobre a geometria do objeto continua sendo um desafio fundamental. As abordagens existentes dependem predominantemente de prompts de texto ou imagem, que frequentemente apresentam limitações em especificidade geométrica: a linguagem pode ser ambígua e as imagens são difíceis de editar. Neste trabalho, apresentamos o SpaceControl, um método livre de treinamento aplicado durante o teste para controle espacial explícito da geração 3D. Nossa abordagem aceita uma ampla gama de entradas geométricas, desde primitivas simples até malhas detalhadas, e integra-se perfeitamente com modelos generativos pré-treinados modernos sem exigir qualquer treinamento adicional. Um parâmetro controlável permite aos usuários equilibrar a fidelidade geométrica com o realismo do resultado. Avaliação quantitativa extensiva e estudos com utilizadores demonstram que o SpaceControl supera tanto as linhas de base baseadas em treinamento quanto as baseadas em otimização em fidelidade geométrica, preservando alta qualidade visual. Por fim, apresentamos uma interface de utilizador interativa que permite a edição online de superquádricas para conversão direta em ativos 3D texturizados, facilitando a implantação prática em fluxos de trabalho criativos. Consulte nossa página do projeto em https://spacecontrol3d.github.io/
A geração consistente de imagens exige a preservação fiel de identidades, estilos e coerência lógica em múltiplas imagens, o que é essencial para aplicações como narrativa visual e design de personagens. As abordagens de treinamento supervisionado enfrentam dificuldades nesta tarefa devido à escassez de conjuntos de dados em larga escala que capturem consistência visual e à complexidade de modelar preferências perceptivas humanas. Neste artigo, argumentamos que o aprendizado por reforço (RL) oferece uma alternativa promissora ao permitir que os modelos aprendam critérios visuais complexos e subjetivos de forma livre de dados. Para alcançar este objetivo, introduzimos o PaCo-RL, um framework abrangente que combina um modelo de recompensa de consistência especializado com um algoritmo de RL eficiente. O primeiro componente, PaCo-Reward, é um avaliador de consistência pareada treinado em um conjunto de dados em larga escala construído através do emparelhamento automatizado de subfiguras. Ele avalia a consistência por meio de um mecanismo de pontuação generativo e autorregressivo aprimorado por instruções conscientes da tarefa e razões CoT. O segundo componente, PaCo-GRPO, aproveita uma estratégia inovadora de otimização dissociada de resolução para reduzir substancialmente o custo do RL, juntamente com um mecanismo de agregação de múltiplas recompensas com atenuação logarítmica que garante uma otimização de recompensa equilibrada e estável. Experimentos extensos nas duas subtarefas representativas mostram que o PaCo-Reward melhora significativamente o alinhamento com as percepções humanas de consistência visual, e o PaCo-GRPO alcança um desempenho de consistência state-of-the-art com eficiência e estabilidade de treinamento aprimoradas. Juntos, estes resultados destacam o potencial do PaCo-RL como uma solução prática e escalável para geração consistente de imagens. A página do projeto está disponível em https://x-gengroup.github.io/HomePage_PaCo-RL/.
Avaliadores eficazes de Modelos de Visão e Linguagem (VLMs) são cruciais para o desenvolvimento de modelos. Os métodos atuais para treinar avaliadores de VLMs dependem principalmente de anotações de preferência humana em larga escala. No entanto, essa abordagem é dispendiosa e as anotações tornam-se rapidamente obsoletas à medida que os modelos melhoram rapidamente. Neste trabalho, apresentamos uma estrutura para auto-treinar um modelo avaliador de VLM sem qualquer anotação de preferência humana, utilizando apenas dados auto-sintetizados. O nosso método é iterativo e possui três etapas: (1) gerar pares diversificados de instrução-resposta multimodais em vários níveis de qualidade, (2) gerar traços de raciocínio e julgamentos para cada par, removendo aqueles que não correspondem aos nossos níveis de qualidade esperados, e (3) treinar com respostas corretas do avaliador e os seus respetivos traços de raciocínio. Avaliamos o avaliador resultante no Multimodal RewardBench e no VL-RewardBench em vários domínios: correção, preferência, raciocínio, segurança e resposta a perguntas visuais. O nosso método melhora um avaliador multimodal Llama-3.2-11B, aumentando a precisão geral no VL-RewardBench de 0,38 para 0,51, frequentemente superando modelos muito maiores, incluindo Llama-3.2-90B, GPT-4o e Claude 3.5 Sonnet, com ganhos particularmente fortes nas dimensões geral, alucinação e raciocínio. A solidez geral destes resultados sem anotações humanas sugere o potencial para um futuro auto-avaliador que evolua em paralelo com as capacidades em rápida melhoria dos VLMs.
A obtenção de animação de personagens que atenda aos padrões de produção de nível de estúdio continua a ser um desafio, apesar dos progressos recentes. As abordagens existentes podem transferir o movimento de um vídeo de condução para uma imagem de referência, mas frequentemente falham em preservar a fidelidade estrutural e a consistência temporal em cenários complexos que envolvem movimentos intrincados e animações entre diferentes identidades. Neste trabalho, apresentamos o SCAIL (Studio-grade Character Animation via In-context Learning), uma estrutura concebida para enfrentar esses desafios através de duas inovações principais. Primeiro, propomos uma nova representação de pose 3D, fornecendo um sinal de movimento mais robusto e flexível. Segundo, introduzimos um mecanismo de injeção de pose de contexto completo dentro de uma arquitetura de difusão-transformer, permitindo um raciocínio espaço-temporal eficaz sobre sequências de movimento completas. Para alinhar com os requisitos de nível de estúdio, desenvolvemos um pipeline de dados curado que garante diversidade e qualidade, e estabelecemos um benchmark abrangente para avaliação sistemática. Os experimentos demonstram que o SCAIL atinge um desempenho de última geração e avança a animação de personagens em direção à confiabilidade e realismo de nível de estúdio.
O pós-treinamento de grandes modelos de linguagem baseia-se em aprendizagem por reforço para melhorar a capacidade do modelo e a qualidade do alinhamento. No entanto, o paradigma de treinamento *off-policy* introduz um desvio de distribuição, que frequentemente empurra a política para além da região de confiança, levando a instabilidades de treinamento manifestadas como flutuações na entropia da política e gradientes instáveis. Embora o PPO-Clip mitigue este problema através do recorte de importância, ele ainda ignora o desvio distribucional global das ações. Para enfrentar esses desafios, propomos usar a razão de entropia entre as políticas atual e anterior como uma nova métrica global que quantifica efetivamente a mudança relativa na exploração da política ao longo das atualizações. Com base nesta métrica, introduzimos um mecanismo de Recorte da Razão de Entropia (ERC) que impõe restrições bidirecionais sobre a razão de entropia. Isso estabiliza as atualizações da política ao nível distribucional global e compensa a incapacidade do PPO-clip de regular desvios de probabilidade de ações não amostradas. Integramos o ERC em ambos os algoritmos de aprendizagem por reforço DAPO e GPPO. Experimentos em múltiplos *benchmarks* mostram que o ERC melhora consistentemente o desempenho.
A geração de cenas 4D interativas e dinâmicas a partir de uma única imagem estática continua a ser um desafio central. A maioria dos métodos existentes de "gerar-depois-reconstruir" e "reconstruir-depois-gerar" desacoplam a geometria do movimento, causando inconsistências espaço-temporais e má generalização. Para resolver estes problemas, estendemos a estrutura "reconstruir-depois-gerar" para realizar conjuntamente a Geração de Movimento e a Reconstrução Geométrica para Síntese 4D (MoRe4D). Primeiro, introduzimos o TrajScene-60K, um conjunto de dados em larga escala com 60.000 amostras de vídeo contendo trajetórias densas de pontos, abordando a escassez de dados de cenas 4D de alta qualidade. Com base nisto, propomos um Gerador de Trajetórias de Cenas 4D baseado em difusão (4D-STraG) para gerar conjuntamente trajetórias de pontos 4D geometricamente consistentes e com movimento plausível. Para aproveitar os *priors* de visão única, projetamos uma estratégia de normalização de movimento guiada por profundidade e um módulo sensível ao movimento para uma integração eficaz de geometria e dinâmica. Em seguida, propomos um Módulo de Síntese de Vista 4D (4D-ViSM) para renderizar vídeos com trajetórias de câmera arbitrárias a partir de representações de trajetórias de pontos 4D. Os experimentos mostram que o MoRe4D gera cenas 4D de alta qualidade com consistência multi-vista e ricos detalhes dinâmicos a partir de uma única imagem. Código: https://github.com/Zhangyr2022/MoRe4D.
O Raciocínio Visual Espacial é crucial para permitir que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) compreendam as propriedades dos objetos e as relações espaciais, no entanto, os modelos atuais ainda lutam com o raciocínio consciente do 3D. As abordagens existentes geralmente aprimoram a percepção, aumentando as entradas RGB com modalidades auxiliares, como profundidade e segmentação, ou o raciocínio, treinando em conjuntos de dados de QVA (Questionamento e Resposta Visual) espaciais e aplicando aprendizado por reforço, tratando assim esses dois aspectos de forma isolada. Neste trabalho, investigamos se um MLLM unificado pode desenvolver uma capacidade intrínseca para melhorar a percepção espacial e, por meio de um raciocínio intercalado adaptativo, alcançar uma inteligência espacial mais forte. Propomos o COOPER, um MLLM unificado que aproveita a profundidade e a segmentação como modalidades auxiliares e é treinado em dois estágios para adquirir capacidades de geração de modalidades auxiliares e de raciocínio intercalado adaptativo. O COOPER alcança uma melhoria média de 6,91% no raciocínio espacial, mantendo o desempenho geral. Além disso, mesmo uma variante treinada apenas para geração de modalidades auxiliares obtém um ganho de 7,92% na estimativa de distância e tamanho, sugerindo que aprender a gerar modalidades auxiliares ajuda a internalizar o conhecimento espacial e a fortalecer a compreensão espacial.
Os recentes avanços em modelos generativos de vídeo levaram a avanços significativos na síntese de vídeo de alta fidelidade, especificamente na geração de vídeo controlável, onde o vídeo gerado é condicionado por entradas de texto e ação, por exemplo, na edição de vídeo guiada por instruções e na modelagem de mundos em robótica. Apesar dessas capacidades excepcionais, os modelos de vídeo controláveis frequentemente apresentam alucinações – gerando quadros de vídeo futuros que estão desalinhados com a realidade física – o que levanta sérias preocupações em muitas tarefas, como avaliação e planejamento de políticas robóticas. No entanto, os modelos de vídeo state-of-the-art carecem da capacidade de avaliar e expressar sua confiança, dificultando a mitigação de alucinações. Para enfrentar rigorosamente este desafio, propomos o C3, um método de quantificação de incerteza (UQ) para treinar modelos de vídeo controláveis calibrados em escala contínua para estimativa de confiança densa ao nível de sub-regiões, localizando precisamente a incerteza em cada quadro de vídeo gerado. O nosso método UQ introduz três inovações centrais para capacitar os modelos de vídeo a estimarem sua própria incerteza. Primeiro, o nosso método desenvolve uma estrutura nova que treina modelos de vídeo para correção e calibração via regras de pontuação estritamente próprias. Segundo, estimamos a incerteza do modelo de vídeo no espaço latente, evitando a instabilidade de treinamento e os custos proibitivos associados a abordagens no espaço de pixels. Terceiro, mapeamos a incerteza densa do espaço latente para uma incerteza interpretável ao nível de pixel no espaço RGB para visualização intuitiva, fornecendo mapas de calor de incerteza de alta resolução que identificam regiões não confiáveis. Através de extensivos experimentos em conjuntos de dados de aprendizagem robótica em larga escala (Bridge e DROID) e avaliações no mundo real, demonstramos que o nosso método não só fornece estimativas de incerteza calibradas dentro da distribuição de treinamento, mas também permite uma deteção eficaz de dados fora da distribuição.
A segmentação de objetos em vídeo centrada no raciocínio é uma tarefa intrinsecamente complexa: a consulta frequentemente refere-se a dinâmicas, causalidade e interações temporais, em vez de aparências estáticas. No entanto, as soluções existentes geralmente colapsam esses fatores em raciocínios simplificados com incorporações latentes, tornando a cadeia de raciocínio opaca e essencialmente intratável. Adotamos, portanto, uma perspectiva de decomposição explícita e introduzimos o ReVSeg, que executa o raciocínio como decisões sequenciais na interface nativa de modelos de visão e linguagem pré-treinados (VLMs). Em vez de dobrar todo o raciocínio em uma previsão de etapa única, o ReVSeg executa três operações explícitas — interpretação semântica, seleção de evidências temporais e fundamentação espacial — alinhando capacidades pré-treinadas. Empregamos ainda o aprendizado por reforço para otimizar a cadeia de raciocínio de múltiplas etapas, permitindo que o modelo refine automaticamente a qualidade da sua decisão a partir de sinais orientados por resultados. Resultados experimentais demonstram que o ReVSeg atinge desempenhos state-of-the-art em benchmarks padrão de segmentação de objetos em vídeo e produz trajetórias de raciocínio interpretáveis. A página do projeto está disponível em https://clementine24.github.io/ReVSeg/.
A autossuperação é um objetivo que atualmente entusiasma o campo da IA, mas está repleto de perigos e pode levar tempo para ser totalmente alcançado. Defendemos que um objetivo mais realizável e melhor para a humanidade é maximizar a cocapacitação: a colaboração entre investigadores humanos e IAs para alcançar uma cosuperinteligência. Ou seja, visar especificamente melhorar a capacidade dos sistemas de IA para trabalhar com investigadores humanos na realização conjunta de investigação em IA, desde a ideação até à experimentação, de modo a acelerar a investigação em IA e a dotar, de forma geral, tanto as IAs como os humanos com uma superinteligência mais segura através da sua simbiose. Concentrar-nos em incluir a melhoria da investigação humana no ciclo permitirá-nos chegar lá mais rapidamente e com maior segurança.
Os sistemas de recuperação de documentos multimodais têm demonstrado avanços significativos no alinhamento de conteúdo visual e textual para busca semântica. No entanto, a maioria das abordagens existentes permanece fortemente centrada no inglês, limitando sua eficácia em contextos multilingues. Neste trabalho, apresentamos o M3DR (Recuperação de Documentos Multimodais Multilingues), uma estrutura projetada para preencher essa lacuna entre idiomas, permitindo aplicabilidade em diversos contextos linguísticos e culturais. O M3DR aproveita dados sintéticos de documentos multilingues e generaliza-se em diferentes arquiteturas visão-linguagem e tamanhos de modelo, permitindo um alinhamento robusto entre modalidades e idiomas. Usando treinamento contrastivo, nossos modelos aprendem representações unificadas para texto e imagens de documentos que se transferem eficazmente entre línguas. Validamos essa capacidade em 22 idiomas tipologicamente diversos, demonstrando desempenho consistente e adaptabilidade através de variações linguísticas e de escrita. Introduzimos ainda um benchmark abrangente que captura cenários multilingues do mundo real, avaliando modelos em configurações monolíngues, multilingues e de idiomas mistos. O M3DR generaliza-se tanto para paradigmas de recuperação de vetor único denso quanto para paradigmas de recuperação multi-vetor a nível de token no estilo ColBERT. Nossos modelos, NetraEmbed e ColNetraEmbed, alcançam desempenho de ponta com melhorias relativas de ~150% na recuperação cross-lingual.
A compreensão de vídeos longos (LVU) é desafiadora porque responder a consultas do mundo real frequentemente depende de pistas esparsas e temporalmente dispersas enterradas em horas de conteúdo majoritariamente redundante e irrelevante. Embora pipelines agentes melhorem as capacidades de raciocínio em vídeo, os frameworks predominantes dependem de um sistema de legendagem (captioner) independente da consulta para perceber informações do vídeo, o que desperdiça computação em conteúdo irrelevante e desfoca informações temporais e espaciais de granularidade fina. Motivados pela teoria da percepção ativa, argumentamos que os agentes de LVU devem decidir ativamente o quê, quando e onde observar, e avaliar continuamente se a observação atual é suficiente para responder à consulta. Apresentamos a Percepção de Vídeo Ativa (AVP), um framework de busca por evidências que trata o vídeo como um ambiente interativo e adquire evidências compactas e relevantes para a consulta diretamente dos pixels. Concretamente, a AVP executa um processo iterativo de planejar-observar-refletir com agentes MLLM. Em cada rodada, um planejador propõe interações específicas com o vídeo, um observador as executa para extrair evidências com carimbo de tempo, e um refletor avalia a suficiência das evidências para a consulta, parando com uma resposta ou acionando novas observações. Em cinco benchmarks de LVU, a AVP alcança o maior desempenho com melhorias significativas. Notavelmente, a AVP supera o melhor método agente em 5,7% na precisão média, enquanto requer apenas 18,4% do tempo de inferência e 12,4% dos tokens de entrada.
A compreensão temporal na condução autónoma (CA) permanece um desafio significativo, mesmo para os mais recentes Modelos de Visão e Linguagem (VLMs) de última geração. Trabalhos anteriores introduziram conjuntos de dados e benchmarks destinados a melhorar o raciocínio temporal, mas estes enfatizaram outros tipos de conteúdo de vídeo, incluindo desportos, culinária e filmes. Nenhum benchmark existente foca-se exclusivamente nos desafios únicos da compreensão temporal em filmagens ego-cêntricas de CA. Para preencher esta lacuna, é apresentado o benchmark de Compreensão Temporal em Condução Autónoma (TAD), que avalia a capacidade dos VLMs de capturar as relações dinâmicas entre ações na CA. O TAD compreende cerca de 6.000 pares de pergunta-resposta (QA), abrangendo 7 tarefas concebidas por humanos. Além disso, é realizada uma avaliação que inclui 9 modelos generalistas, de código aberto e proprietários, bem como modelos especialistas em CA de última geração. Quando aplicados ao TAD, os modelos atuais de última geração demonstraram precisões abaixo do padrão, em grande parte devido a uma compreensão imperfeita do movimento de granularidade fina. Para melhorar a compreensão do movimento e a precisão geral no TAD, são propostas duas soluções novas e sem necessidade de treino: Scene-CoT, que aproveita o Chain-of-Thought (CoT), e TCogMap, que incorpora um mapa cognitivo temporal ego-cêntrico. As abordagens propostas são integradas com VLMs existentes e melhoram a precisão média no TAD em até 17,72%. Ao introduzir o TAD, avaliar vários modelos de última geração e propor melhorias eficazes, este trabalho visa catalisar futuras investigações sobre a compreensão temporal na CA. O benchmark e o código de avaliação estão disponíveis em https://huggingface.co/datasets/vbdai/TAD e https://github.com/vbdi/tad_bench, respetivamente.
Os recentes avanços na geração de vídeo têm demonstrado um potencial notável para a construção de simuladores de mundo. No entanto, os modelos atuais ainda lutam para produzir resultados fisicamente consistentes, especialmente ao lidar com dinâmicas complexas ou em larga escala. Esta limitação surge principalmente porque as abordagens existentes respondem isotropicamente a *prompts* físicos e negligenciam o alinhamento refinado entre o conteúdo gerado e as pistas físicas localizadas. Para enfrentar esses desafios, propomos o ProPhy, uma Estrutura de Alinhamento Físico Progressivo que permite um condicionamento explicitamente consciente da física e uma geração anisotrópica. O ProPhy emprega um mecanismo de dois estágios, Mistura de Especialistas em Física (MoPE), para a extração discriminativa de *prior* físicos, no qual Especialistas Semânticos inferem princípios físicos a nível semântico a partir de descrições textuais, e Especialistas de Refinamento capturam a dinâmica física a nível de *token*. Este mecanismo permite ao modelo aprender representações de vídeo refinadas e conscientes da física que refletem melhor as leis físicas subjacentes. Além disso, introduzimos uma estratégia de alinhamento físico que transfere as capacidades de raciocínio físico dos modelos de visão e linguagem (VLMs) para os Especialistas de Refinamento, facilitando uma representação mais precisa de fenômenos físicos dinâmicos. Experimentos extensos em benchmarks de geração de vídeo consciente da física demonstram que o ProPhy produz resultados mais realistas, dinâmicos e fisicamente coerentes do que os métodos state-of-the-art existentes.
Neste estudo, apresentamos o Colon-X, uma iniciativa aberta destinada a avançar a inteligência multimodal em colonoscopia. Começamos por construir o ColonVQA, o conjunto de dados multimodal mais abrangente já criado para colonoscopia, contendo mais de 1,1 milhão de entradas de resposta a perguntas visuais abrangendo 76 achados clínicos e 18 tarefas multimodais. Para além de servir como uma base de dados para a comunidade, investigamos ainda uma transição crítica mas pouco explorada na colonoscopia - a evolução da compreensão multimodal para o raciocínio clínico: (a) Para captar o panorama atual dos comportamentos de compreensão multimodal, avaliamos sistematicamente a generalização de 22 modelos de linguagem grandes multimodais e examinamos a sua fiabilidade sob perturbações induzidas por humanos. Os resultados revelam que os resultados clínicos dos principais MLLMs permanecem longe de serem robustos e confiáveis. (b) Para reduzir esta lacuna, exploramos ainda uma inteligência centrada no raciocínio adaptada para colonoscopia. Especificamente, criamos o ColonReason, um conjunto de dados de raciocínio clinicamente fundamentado anotado através de um pipeline de debate multipericial, e desenvolvemos o ColonR1, o primeiro modelo de estilo R1 que incorpora técnicas de recompensa adaptativa à tarefa e otimização com gradiente estável. Em condições de escassez de dados, o nosso ColonR1 atinge uma precisão global de 56,61%, superando o ajuste fino supervisionado em 25,22%, e estabelece uma nova linha de base habilitada para raciocínio para a análise multimodal de colonoscopia. Todos os dados e recursos do modelo estão publicamente disponíveis em https://github.com/ai4colonoscopy/Colon-X.
A quantização pós-treinamento (PTQ) desempenha um papel crucial na democratização de grandes modelos de linguagem (LLMs). No entanto, as técnicas existentes de quantização e esparsificação de baixo bit são difíceis de equilibrar em termos de precisão e eficiência devido ao suporte limitado de hardware. Por exemplo, a configuração W4A8 só pode alcançar o mesmo pico de TOPS que a W8A8, enquanto o formato de dados esparsos suportado por GPU (esparsidade semi-estruturada 2:4) raramente é adotado devido à perda de precisão. Para preencher esta lacuna, neste artigo propomos o Formato de Quantização Esparsa (SQ-format), que é um formato de dados unificado para quantização e esparsificação potencialmente fácil de ser suportado por novo hardware e GPUs existentes. O SQ-format aproveita o facto de que matrizes esparsas podem ser aceleradas em alta precisão, e a multiplicação de matrizes de baixa precisão também pode ser acelerada em conformidade. Como tal, o SQ-format é proposto para alcançar uma melhoria de Pareto entre desempenho e throughput. Este formato é particularmente adequado para ativações com estatuto de desigualdade de valores atípicos (outliers) e torna possível a sua compressão estática. Demonstramos o desempenho state-of-the-art em PTQ com o SQ-format, propomos o hardware necessário para o suportar e oferecemos ainda uma exploração de design e insights para a próxima geração de aceleradores de IA.
À medida que as demandas computacionais continuam a aumentar, a avaliação da pegada ambiental da IA requer ir além do consumo de energia e água para incluir as exigências materiais de hardware especializado. Este estudo quantifica a pegada material do treinamento de IA vinculando cargas de trabalho computacionais às necessidades físicas de hardware. A composição elementar da unidade de processamento gráfico (GPU) Nvidia A100 SXM 40 GB foi analisada por espectrometria de emissão óptica com plasma indutivamente acoplado, que identificou 32 elementos. Os resultados mostram que o hardware de IA consiste em cerca de 90% de metais pesados e apenas vestígios de metais preciosos. Os elementos cobre, ferro, estanho, silício e níquel dominam a composição da GPU em massa. Em uma metodologia de múltiplas etapas, integramos essas medições com a taxa de transferência computacional por GPU ao longo de diferentes tempos de vida útil, considerando os requisitos computacionais para treinar modelos específicos de IA em diferentes regimes de eficiência de treinamento. Análises baseadas em cenários revelam que, dependendo da Utilização de FLOPs do Modelo (MFU) e da vida útil do hardware, o treinamento do GPT-4 requer entre 1.174 e 8.800 GPUs A100, correspondendo à extração e descarte final de até 7 toneladas de elementos tóxicos. Estratégias combinadas de otimização de software e hardware podem reduzir as demandas materiais: aumentar a MFU de 20% para 60% reduz os requisitos de GPU em 67%, enquanto estender a vida útil de 1 para 3 anos gera economias comparáveis; implementar ambas as medidas em conjunto reduz as necessidades de GPU em até 93%. Nossos achados destacam que ganhos incrementais de desempenho, como os observados entre o GPT-3.5 e o GPT-4, acarretam custos materiais desproporcionalmente altos. O estudo ressalta a necessidade de incorporar considerações sobre recursos materiais nas discussões sobre a escalabilidade da IA, enfatizando que o progresso futuro na IA deve alinhar-se aos princípios de eficiência de recursos e responsabilidade ambiental.
A redução eficaz do risco sísmico depende de avaliações precisas e específicas do local. Isto exige modelos que possam representar a influência das condições locais do terreno nas características do movimento do solo. Neste contexto, as abordagens orientadas por dados que aprendem assinaturas controladas pelo local a partir de movimentos do solo registados oferecem uma direção promissora. Abordamos a geração de movimentos fortes do solo a partir de registos de acelerómetro no domínio do tempo e introduzimos o TimesNet-Gen, um gerador condicional no domínio do tempo. A abordagem utiliza um estrangulamento latente específico da estação. Avaliamos a geração comparando curvas HVSR e distribuições da frequência fundamental do local (f_0) entre registos reais e gerados por estação, e resumimos a especificidade da estação com uma pontuação baseada nas matrizes de confusão da distribuição de f_0. O TimesNet-Gin alcança um forte alinhamento por estação e compara-se favoravelmente com uma linha de base VAE condicional baseada em espectrograma para a síntese específica do local de movimentos fortes do solo. Os nossos códigos estão disponíveis em https://github.com/brsylmz23/TimesNet-Gen.
Os Grandes Modelos de Linguagem (LLMs) são normalmente alinhados para segurança durante a fase de pós-treinamento; no entanto, eles ainda podem gerar resultados inadequados que poderiam potencialmente representar riscos para os usuários. Este desafio ressalta a necessidade de salvaguardas robustas que atuem tanto nas entradas quanto nas saídas do modelo. Neste trabalho, apresentamos o Roblox Guard 1.0, um LLM de última geração ajustado por instrução e projetado para aumentar a segurança dos sistemas de LLM por meio de moderação abrangente de entrada e saída, utilizando um *pipeline* de LLMs para aprimorar a capacidade de moderação. Construído sobre a base Llama-3.1-8B-Instruct, nosso modelo é ajustado por instrução para generalizar em taxonomias de segurança não vistas anteriormente e demonstra um desempenho sólido em *benchmarks* de segurança fora do domínio. O processo de ajuste fino por instrução utiliza uma mistura de dados sintéticos e de código aberto sobre segurança, aumentados com racionalidades de *chain-of-thought* (CoT) e inversão de entrada para melhorar a compreensão contextual e a tomada de decisão. Para apoiar uma avaliação sistemática, também lançamos o RobloxGuard-Eval, um novo *benchmark* que apresenta uma taxonomia de segurança extensível para avaliar a eficácia de proteções e estruturas de moderação de LLMs.