Artigos de pesquisa em IA selecionados diariamente com traduções
O campo do diagnóstico médico passou por uma transformação significativa com o surgimento de grandes modelos de linguagem (LLMs), no entanto, os desafios de interpretabilidade dentro desses modelos permanecem amplamente não abordados. Este estudo apresenta a Cadeia de Diagnóstico (CoD) para aprimorar a interpretabilidade dos diagnósticos médicos baseados em LLM. A CoD transforma o processo de diagnóstico em uma cadeia diagnóstica que reflete o processo de pensamento de um médico, fornecendo um caminho de raciocínio transparente. Além disso, a CoD produz a distribuição de confiança da doença para garantir transparência na tomada de decisões. Essa interpretabilidade torna os diagnósticos do modelo controláveis e auxilia na identificação de sintomas críticos para investigação por meio da redução da entropia das confianças. Com a CoD, desenvolvemos o DiagnosisGPT, capaz de diagnosticar 9604 doenças. Resultados experimentais demonstram que o DiagnosisGPT supera outros LLMs em benchmarks de diagnóstico. Além disso, o DiagnosisGPT fornece interpretabilidade ao mesmo tempo em que garante controlabilidade na rigorosidade do diagnóstico.
Este artigo não apresenta um método inovador. Em vez disso, oferece uma comparação mais justa e abrangente dos modelos KAN e MLP em várias tarefas, incluindo aprendizado de máquina, visão computacional, processamento de áudio, processamento de linguagem natural e representação de fórmulas simbólicas. Especificamente, controlamos o número de parâmetros e FLOPs para comparar o desempenho do KAN e do MLP. Nossa principal observação é que, exceto para tarefas de representação de fórmulas simbólicas, o MLP geralmente supera o KAN. Também realizamos estudos de ablação no KAN e descobrimos que sua vantagem em tarefas de representação de fórmulas simbólicas se deve principalmente à sua função de ativação B-spline. Quando a B-spline é aplicada ao MLP, o desempenho na representação de fórmulas simbólicas melhora significativamente, superando ou igualando o do KAN. No entanto, em outras tarefas em que o MLP já se destaca em relação ao KAN, a B-spline não melhora substancialmente o desempenho do MLP. Além disso, descobrimos que o problema de esquecimento do KAN é mais grave do que o do MLP em um ambiente padrão de aprendizado contínuo incremental de classes, o que difere das descobertas relatadas no artigo do KAN. Esperamos que esses resultados forneçam insights para pesquisas futuras sobre o KAN e outras alternativas ao MLP. Link do projeto: https://github.com/yu-rp/KANbeFair
Os avanços recentes na geração de vídeos têm principalmente aproveitado modelos de difusão para conteúdos de curta duração. No entanto, essas abordagens frequentemente falham na modelagem de narrativas complexas e na manutenção da consistência dos personagens ao longo de períodos prolongados, o que é essencial para a produção de vídeos de longa duração, como filmes. Propomos o MovieDreamer, um novo framework hierárquico que integra os pontos fortes de modelos autoregressivos com renderização baseada em difusão para pioneirar a geração de vídeos de longa duração com progressões de enredo intricadas e alta fidelidade visual. Nossa abordagem utiliza modelos autoregressivos para coerência narrativa global, prevendo sequências de tokens visuais que são posteriormente transformados em quadros de vídeo de alta qualidade por meio da renderização por difusão. Este método é semelhante aos processos tradicionais de produção de filmes, nos quais histórias complexas são decompostas em cenas gerenciáveis. Além disso, empregamos um roteiro multimodal que enriquece as descrições de cena com informações detalhadas dos personagens e estilo visual, aprimorando a continuidade e identidade dos personagens entre as cenas. Apresentamos experimentos extensivos em vários gêneros de filmes, demonstrando que nossa abordagem não apenas alcança qualidade visual e narrativa superiores, mas também estende efetivamente a duração do conteúdo gerado significativamente além das capacidades atuais. Página inicial: https://aim-uofa.github.io/MovieDreamer/.
A experimentação virtual de roupas (VTON) tornou-se uma tecnologia transformadora, capacitando os usuários a experimentar moda sem precisar experimentar fisicamente as roupas. No entanto, os métodos existentes frequentemente enfrentam dificuldades em gerar resultados de alta fidelidade e consistentes em detalhes. Enquanto os modelos de difusão, como a série Stable Diffusion, demonstraram sua capacidade de criar imagens de alta qualidade e fotorrealistas, eles enfrentam desafios consideráveis em cenários de geração condicional como o VTON. Especificamente, esses modelos têm dificuldade em manter um equilíbrio entre controle e consistência ao gerar imagens para testes de roupas virtuais. O OutfitAnyone aborda essas limitações aproveitando um modelo de difusão condicional de dois fluxos, permitindo lidar habilmente com a deformação de roupas para resultados mais realistas. Ele se destaca com fatores de modulação de escalabilidade, como pose, forma do corpo e ampla aplicabilidade, que se estende de anime a imagens do mundo real. O desempenho do OutfitAnyone em cenários diversos destaca sua utilidade e prontidão para implantação no mundo real. Para mais detalhes e resultados animados, consulte https://humanaigc.github.io/outfit-anyone/.
Os modelos de geração de texto para vídeo (T2V) avançaram significativamente, no entanto, sua capacidade de compor diferentes objetos, atributos, ações e movimentos em um vídeo permanece inexplorada. Benchmarks anteriores de texto para vídeo também negligenciam essa habilidade importante para avaliação. Neste trabalho, realizamos o primeiro estudo sistemático sobre geração de texto para vídeo de forma composicional. Propomos o T2V-CompBench, o primeiro benchmark adaptado para geração de texto para vídeo de forma composicional. O T2V-CompBench abrange diversos aspectos da composicionalidade, incluindo vinculação consistente de atributos, vinculação dinâmica de atributos, relacionamentos espaciais, vinculação de movimento, vinculação de ação, interações de objetos e numeracia generativa. Além disso, projetamos cuidadosamente métricas de avaliação baseadas em MLLM, métricas baseadas em detecção e métricas baseadas em rastreamento, que podem refletir melhor a qualidade da geração de texto para vídeo de forma composicional em sete categorias propostas com 700 prompts de texto. A eficácia das métricas propostas é verificada pela correlação com avaliações humanas. Também comparamos vários modelos generativos de texto para vídeo e realizamos uma análise aprofundada entre diferentes modelos e diferentes categorias composicionais. Constatamos que a geração de texto para vídeo de forma composicional é altamente desafiadora para os modelos atuais, e esperamos que nossa tentativa ilumine futuras pesquisas nessa direção.
Os conjuntos de dados e modelos existentes de interação de objetos humanos em 3D (HOI) simplesmente alinham descrições globais com a longa sequência de HOI, enquanto carecem de uma compreensão detalhada dos estados intermediários e das transições entre estados. Neste artigo, argumentamos que o alinhamento semântico refinado, que utiliza descrições a nível de estado, oferece um paradigma promissor para aprender representações semanticamente ricas de HOI. Para alcançar isso, introduzimos o Semantic-HOI, um novo conjunto de dados composto por mais de 20 mil estados de HOI emparelhados com descrições refinadas para cada estado de HOI e os movimentos corporais que ocorrem entre dois estados consecutivos. Aproveitando o conjunto de dados proposto, projetamos três tarefas de HOI a nível de estado para realizar o alinhamento semântico refinado dentro da sequência de HOI. Além disso, propomos um modelo unificado chamado F-HOI, projetado para aproveitar instruções multimodais e capacitar o Modelo de Linguagem Multimodal Grande para lidar eficientemente com diversas tarefas de HOI. F-HOI oferece várias vantagens: (1) Emprega uma formulação de tarefa unificada que suporta o uso de entradas multimodais versáteis. (2) Mantém consistência em HOI em espaços 2D, 3D e linguísticos. (3) Utiliza supervisão textual refinada para otimização direta, evitando modelagem intricada de estados de HOI. Experimentos extensivos revelam que F-HOI alinha efetivamente estados de HOI com descrições semânticas refinadas, lidando habilmente com tarefas de compreensão, raciocínio, geração e reconstrução.
Com avanços na disponibilidade de dados e recursos computacionais, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades em diversos campos. No entanto, a complexidade quadrática do codificador de visão nos MLLMs limita a resolução das imagens de entrada. A maioria das abordagens atuais mitiga esse problema ao recortar imagens de alta resolução em sub-imagens menores, que são processadas de forma independente pelo codificador de visão. Apesar de capturar detalhes locais suficientes, essas sub-imagens carecem de contexto global e falham em interagir umas com as outras. Para lidar com essa limitação, propomos um novo MLLM, INF-LLaVA, projetado para uma percepção eficaz de imagens de alta resolução. INF-LLaVA incorpora dois componentes inovadores. Primeiramente, introduzimos um Módulo de Recorte de Dupla Perspectiva (DCM), que garante que cada sub-imagem contenha detalhes contínuos de uma perspectiva local e informações abrangentes de uma perspectiva global. Em segundo lugar, introduzimos o Módulo de Aprimoramento de Dupla Perspectiva (DEM) para permitir o aprimoramento mútuo de características globais e locais, permitindo que o INF-LLaVA processe efetivamente imagens de alta resolução capturando simultaneamente informações locais detalhadas e contexto global abrangente. Estudos extensivos de ablação validam a eficácia desses componentes, e experimentos em um conjunto diversificado de benchmarks demonstram que o INF-LLaVA supera os MLLMs existentes. O código e o modelo pré-treinado estão disponíveis em https://github.com/WeihuangLin/INF-LLaVA.
Apesar da disponibilidade de competições internacionais com prêmios em dinheiro, veículos em escala e ambientes de simulação, a pesquisa sobre corridas autônomas e o controle de carros esportivos operando próximo ao limite de aderência tem sido limitada pelos altos custos de aquisição e gerenciamento de veículos, bem como pela precisão limitada da física dos simuladores de código aberto. Neste artigo, propomos uma plataforma de simulação de corridas com base no simulador Assetto Corsa para testar, validar e avaliar algoritmos de direção autônoma, incluindo aprendizado por reforço (RL) e Controle Preditivo de Modelo (MPC) clássico, em cenários realistas e desafiadores. Nossas contribuições incluem o desenvolvimento desta plataforma de simulação, diversos algoritmos de ponta adaptados ao ambiente de corrida e um conjunto abrangente de dados coletados de motoristas humanos. Além disso, avaliamos os algoritmos no cenário de RL offline. Todo o código necessário (incluindo ambiente e benchmarks), exemplos práticos, conjuntos de dados e vídeos são publicamente disponibilizados e podem ser encontrados em: https://assetto-corsa-gym.github.io.
A pré-treinamento baseado em vídeo oferece um potencial imenso para aprender representações visuais robustas em uma escala sem precedentes. Recentemente, métodos de modelagem de vídeo mascarado têm mostrado escalabilidade promissora, porém falham em capturar semântica de nível superior devido à reconstrução de alvos de baixo nível predefinidos, como pixels. Para lidar com isso, apresentamos o Modelo de Vídeo Mascaramento Guiado por Sinkhorn (SIGMA), um novo método de pré-treinamento de vídeo que aprende conjuntamente o modelo de vídeo além de um espaço de características alvo usando uma rede de projeção. No entanto, essa simples modificação significa que a perda de reconstrução L2 regular levará a soluções triviais, uma vez que ambas as redes são otimizadas em conjunto. Como solução, distribuímos características de tubos espaço-temporais uniformemente em um número limitado de clusters aprendíveis. Ao apresentar isso como um problema de transporte ótimo, impomos alta entropia nas características geradas em todo o lote, infundindo significado semântico e temporal no espaço de características. As atribuições de clusters resultantes são usadas como alvos para uma tarefa de previsão simétrica, na qual o modelo de vídeo prevê a atribuição de cluster da rede de projeção e vice-versa. Resultados experimentais em dez conjuntos de dados em três benchmarks validam a eficácia do SIGMA em aprender representações de vídeo mais performáticas, temporalmente conscientes e robustas, melhorando os métodos de ponta. Nosso site do projeto com o código está disponível em: https://quva-lab.github.io/SIGMA.
A implantação de modelos de linguagem (LMs) exige que as saídas sejam de alta qualidade e estejam em conformidade com as diretrizes de segurança. Embora os Guardrails de Tempo de Inferência (ITG) ofereçam soluções que direcionam as distribuições de saída do modelo para a conformidade, observamos que os métodos atuais têm dificuldade em equilibrar a segurança com a utilidade. Métodos ITG que lidam com consultas não conformes de forma segura apresentam menor utilidade, enquanto aqueles que priorizam a utilidade comprometem a segurança. Referimo-nos a esse trade-off como o "imposto do guardrail", análogo ao imposto de alinhamento. Para lidar com isso, propomos o PrimeGuard, um novo método ITG que utiliza fluxo de controle estruturado. O PrimeGuard direciona solicitações para diferentes auto-inicializações do LM com instruções variadas, aproveitando suas capacidades inerentes de seguir instruções e aprendizado em contexto. Nosso método sem ajuste dinamicamente compila diretrizes do designer do sistema para cada consulta. Construímos e disponibilizamos o safe-eval, um benchmark de segurança de equipe vermelha diversificado. Avaliações extensivas demonstram que o PrimeGuard, sem ajustes finos, supera o imposto do guardrail ao (1) aumentar significativamente a resistência a ataques de jailbreak iterativos e (2) alcançar resultados de ponta em guardrails de segurança, enquanto (3) mantém pontuações de utilidade de modelos ajustados para alinhamento. Avaliações extensivas demonstram que o PrimeGuard, sem ajustes finos, supera todas as linhas de base concorrentes e supera o imposto do guardrail ao melhorar a fração de respostas seguras de 61% para 97% e aumentar as pontuações médias de utilidade de 4,17 para 4,29 nos maiores modelos, enquanto reduz a taxa de sucesso de ataques de 100% para 8%. A implementação do PrimeGuard está disponível em https://github.com/dynamofl/PrimeGuard e o conjunto de dados safe-eval está disponível em https://huggingface.co/datasets/dynamoai/safe_eval.
A aplicação de modelos visão-linguagem (VLMs) tem alcançado sucesso impressionante em várias tarefas de robótica, mas há poucas explorações para modelos fundamentais usados na navegação de robôs quadrúpedes. Apresentamos o Sistema Cross Anything (CAS), um sistema inovador composto por um módulo de raciocínio de alto nível e uma política de controle de baixo nível, permitindo que o robô navegue por terrenos 3D complexos e alcance a posição de destino. Para o raciocínio de alto nível e planejamento de movimento, propomos um sistema algorítmico inovador aproveitando um VLM, com um design de decomposição de tarefas e um mecanismo de execução de sub-tarefas em loop fechado. Para o controle de locomoção de baixo nível, utilizamos o método de Seleção de Anelamento de Probabilidade (PAS) para treinar uma política de controle por aprendizado por reforço. Numerosos experimentos mostram que nosso sistema como um todo pode navegar com precisão e robustez por terrenos 3D complexos, e sua forte capacidade de generalização garante aplicações em diversos cenários e terrenos internos e externos. Página do projeto: https://cross-anything.github.io/