Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar da rápida integração das capacidades de percepção de vídeo em Modelos Multimodais de Grande Escala (LMMs), os mecanismos subjacentes que impulsionam a compreensão de vídeo ainda são pouco compreendidos. Consequentemente, muitas decisões de design nesse domínio são tomadas sem justificativa ou análise adequada. O alto custo computacional de treinar e avaliar tais modelos, juntamente com a limitada pesquisa aberta, dificulta o desenvolvimento de LMMs de vídeo. Para lidar com isso, apresentamos um estudo abrangente que ajuda a descobrir o que impulsiona efetivamente a compreensão de vídeo em LMMs. Começamos examinando criticamente os principais contribuintes para os altos requisitos computacionais associados à pesquisa de LMMs de vídeo e descobrimos a Consistência de Escalonamento, onde decisões de design e treinamento feitas em modelos e conjuntos de dados menores (até um tamanho crítico) transferem efetivamente para modelos maiores. Aproveitando essas percepções, exploramos muitos aspectos específicos de vídeo de LMMs de vídeo, incluindo amostragem de vídeo, arquiteturas, composição de dados, cronogramas de treinamento e mais. Por exemplo, demonstramos que a amostragem de fps durante o treinamento é muito preferível à amostragem uniforme de quadros e quais codificadores de visão são os melhores para representação de vídeo. Guiados por essas descobertas, apresentamos Apollo, uma família de LMMs de última geração que alcançam desempenho superior em diferentes tamanhos de modelo. Nossos modelos podem perceber vídeos de uma hora de forma eficiente, com o Apollo-3B superando a maioria dos modelos existentes de 7B com impressionantes 55.1 no LongVideoBench. O Apollo-7B é de última geração em comparação com os LMMs de 7B, com 70.9 no MLVU e 63.3 no Video-MME.
Compreender, navegar e explorar o mundo físico 3D sempre foi um desafio central no desenvolvimento da inteligência artificial. Neste trabalho, damos um passo em direção a esse objetivo ao apresentar o GenEx, um sistema capaz de planejar a exploração complexa do mundo incorporado, guiado por sua imaginação generativa que forma prioridades (expectativas) sobre os ambientes circundantes. O GenEx gera um ambiente imaginativo inteiramente consistente em 3D a partir de uma única imagem RGB, dando vida a ele por meio de fluxos de vídeo panorâmicos. Aproveitando dados de mundo 3D escaláveis curados do Unreal Engine, nosso modelo generativo está enraizado no mundo físico. Ele captura um ambiente contínuo de 360 graus com pouco esforço, oferecendo uma paisagem ilimitada para agentes de IA explorarem e interagirem. O GenEx alcança geração de mundo de alta qualidade, consistência robusta ao longo de trajetórias longas e demonstra fortes capacidades 3D, como consistência e mapeamento 3D ativo. Impulsionados pela imaginação generativa do mundo, os agentes assistidos por GPT estão equipados para realizar tarefas incorporadas complexas, incluindo exploração sem objetivo específico e navegação orientada por objetivos. Esses agentes utilizam expectativas preditivas sobre partes não vistas do mundo físico para refinar suas crenças, simular diferentes resultados com base em decisões potenciais e fazer escolhas mais informadas. Em resumo, demonstramos que o GenEx fornece uma plataforma transformadora para avançar a IA incorporada em espaços imaginativos e traz potencial para estender essas capacidades para a exploração do mundo real.
O notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs) se estendeu ao domínio multimodal, alcançando um desempenho excepcional na compreensão e geração de imagens. Esforços recentes para desenvolver Modelos de Linguagem de Grande Escala Multimodais unificados (MLLMs) que integram essas capacidades têm mostrado resultados promissores. No entanto, abordagens existentes frequentemente envolvem designs complexos na arquitetura do modelo ou no pipeline de treinamento, aumentando a dificuldade no treinamento e escalabilidade do modelo. Neste artigo, propomos o SynerGen-VL, um MLLM simples, porém poderoso, sem codificador, capaz tanto de compreensão quanto de geração de imagens. Para lidar com os desafios identificados nos MLLMs unificados existentes sem codificador, introduzimos o mecanismo de dobragem de tokens e a estratégia de pré-treinamento de alinhamento progressivo baseado em especialistas em visão, que suportam efetivamente a compreensão de imagens de alta resolução, reduzindo a complexidade do treinamento. Após ser treinado em dados mistos de imagem-texto em grande escala com um objetivo unificado de previsão do próximo token, o SynerGen-VL alcança ou supera o desempenho dos MLLMs unificados existentes sem codificador com tamanhos de parâmetros comparáveis ou menores, e reduz a diferença com modelos de ponta específicos para tarefas, destacando um caminho promissor para futuros MLLMs unificados. Nosso código e modelos serão disponibilizados.
À medida que a IA continua avançando, há uma crescente demanda por sistemas que vão além da assistência baseada em linguagem e avançam em direção a agentes inteligentes capazes de realizar ações do mundo real. Essa evolução requer a transição dos tradicionais Modelos de Linguagem Grande (LLMs), que se destacam na geração de respostas textuais, para Modelos de Ação Grande (LAMs), projetados para geração e execução de ações em ambientes dinâmicos. Habilitados por sistemas de agentes, os LAMs têm o potencial de transformar a IA de uma compreensão passiva de linguagem para a conclusão ativa de tarefas, marcando um marco significativo na progressão em direção à inteligência artificial geral. Neste artigo, apresentamos um framework abrangente para o desenvolvimento de LAMs, oferecendo uma abordagem sistemática para sua criação, desde a concepção até a implantação. Começamos com uma visão geral dos LAMs, destacando suas características únicas e delineando suas diferenças em relação aos LLMs. Utilizando um agente baseado no sistema operacional Windows como estudo de caso, fornecemos um guia detalhado, passo a passo, sobre as principais etapas do desenvolvimento de LAMs, incluindo coleta de dados, treinamento do modelo, integração do ambiente, fundamentação e avaliação. Este fluxo de trabalho generalizável pode servir como um modelo para a criação de LAMs funcionais em vários domínios de aplicação. Concluímos identificando as limitações atuais dos LAMs e discutindo direções para futuras pesquisas e implantação industrial, enfatizando os desafios e oportunidades que estão por vir na realização do pleno potencial dos LAMs em aplicações do mundo real. O código para o processo de coleta de dados utilizado neste artigo está publicamente disponível em: https://github.com/microsoft/UFO/tree/main/dataflow, e a documentação abrangente pode ser encontrada em https://microsoft.github.io/UFO/dataflow/overview/.
Este artigo apresenta o BiMediX2, um Modelo Multimodal Grande (LMM) especializado em Bio-Médica bilíngue (árabe-inglês) com uma arquitetura unificada que integra modalidades de texto e visual, permitindo uma compreensão avançada de imagens e aplicações médicas. O BiMediX2 aproveita a arquitetura Llama3.1 e integra capacidades de texto e visual para facilitar interações contínuas tanto em inglês quanto em árabe, suportando entradas baseadas em texto e conversas de várias etapas envolvendo imagens médicas. O modelo é treinado em um extenso conjunto de dados de saúde bilíngue composto por 1,6 milhões de amostras de interações médicas diversas para ambas as modalidades de texto e imagem, misturadas em árabe e inglês. Também propomos o primeiro benchmark médico bilíngue baseado em GPT-4o chamado BiMed-MBench. O BiMediX2 é avaliado em tarefas baseadas em texto e imagem, alcançando desempenho de ponta em vários benchmarks médicos. Supera modelos recentes de ponta em benchmarks de avaliação de LLM médico. Nosso modelo também estabelece um novo benchmark em avaliações médicas multimodais com mais de 9% de melhoria em inglês e mais de 20% em avaliações em árabe. Além disso, supera o GPT-4 em cerca de 9% nas avaliações de precisão factual UPHILL e se destaca em várias tarefas de Questionamento Visual Médico, Geração de Relatórios e Sumarização de Relatórios. A página do projeto, incluindo o código-fonte e o modelo treinado, está disponível em https://github.com/mbzuai-oryx/BiMediX2.
Os modelos de difusão visual alcançam progressos notáveis, no entanto, geralmente são treinados em resoluções limitadas devido à falta de dados de alta resolução e recursos computacionais limitados, prejudicando sua capacidade de gerar imagens ou vídeos de alta fidelidade em resoluções mais altas. Esforços recentes têm explorado estratégias sem ajuste para demonstrar o potencial inexplorado de geração visual em alta resolução de modelos pré-treinados. No entanto, esses métodos ainda são propensos a produzir conteúdo visual de baixa qualidade com padrões repetitivos. O principal obstáculo reside no aumento inevitável de informações de alta frequência quando o modelo gera conteúdo visual que excede sua resolução de treinamento, resultando em padrões repetitivos indesejados decorrentes dos erros acumulados. Para enfrentar esse desafio, propomos o FreeScale, um paradigma de inferência sem ajuste para permitir a geração visual em alta resolução por meio da fusão de escala. Especificamente, o FreeScale processa informações de diferentes escalas receptivas e, em seguida, as funde extraindo os componentes de frequência desejados. Experimentos extensivos validam a superioridade de nosso paradigma na ampliação das capacidades de geração visual em alta resolução para modelos de imagem e vídeo. Notavelmente, em comparação com o método anteriormente mais eficaz, o FreeScale desbloqueia a geração de imagens em resolução de 8k pela primeira vez.
Exploramos o uso da Quantização Vetorial Residual (QVR) para geração de alta fidelidade em modelos generativos quantizados por vetores. Essa técnica de quantização mantém uma fidelidade de dados mais alta ao empregar tokens mais aprofundados. No entanto, aumentar o número de tokens em modelos generativos resulta em velocidades de inferência mais lentas. Para isso, introduzimos o ResGen, um modelo de difusão discreta eficiente baseado em QVR que gera amostras de alta fidelidade sem comprometer a velocidade de amostragem. Nossa ideia-chave é a previsão direta da incorporação vetorial de tokens coletivos em vez de individuais. Além disso, demonstramos que nosso método proposto de mascaramento de tokens e previsão multi-token pode ser formulado dentro de um framework probabilístico fundamentado usando um processo de difusão discreta e inferência variacional. Validamos a eficácia e generalizabilidade do método proposto em duas tarefas desafiadoras em diferentes modalidades: geração de imagens condicionais no ImageNet 256x256 e síntese de texto para fala sem treinamento. Resultados experimentais demonstram que o ResGen supera contrapartes autoregressivas em ambas as tarefas, oferecendo desempenho superior sem comprometer a velocidade de amostragem. Além disso, à medida que aumentamos a profundidade da QVR, nossos modelos generativos exibem uma fidelidade de geração aprimorada ou velocidades de amostragem mais rápidas em comparação com modelos de referência de tamanho semelhante. A página do projeto pode ser encontrada em https://resgen-genai.github.io
A geração de vídeo a partir de texto evoluiu rapidamente nos últimos anos, proporcionando resultados notáveis. O treinamento normalmente se baseia em dados em pares de vídeo-legenda, o que desempenha um papel crucial na melhoria do desempenho da geração. No entanto, as legendas de vídeo atuais frequentemente sofrem com detalhes insuficientes, alucinações e representações imprecisas de movimento, afetando a fidelidade e consistência dos vídeos gerados. Neste trabalho, propomos um novo framework de legenda estruturada consciente de instância, denominado InstanceCap, para alcançar pela primeira vez uma legenda de vídeo a nível de instância e refinada. Com base nesse esquema, projetamos um cluster de modelos auxiliares para converter o vídeo original em instâncias e aprimorar a fidelidade da instância. As instâncias de vídeo são posteriormente utilizadas para refinar prompts densos em frases estruturadas, alcançando descrições concisas e precisas. Além disso, um conjunto de dados InstanceVid de 22K é organizado para treinamento, e um pipeline de aprimoramento adaptado à estrutura do InstanceCap é proposto para inferência. Resultados experimentais demonstram que nosso InstanceCap proposto supera significativamente modelos anteriores, garantindo alta fidelidade entre legendas e vídeos, ao mesmo tempo que reduz alucinações.
Os LLMs de longo contexto possibilitaram inúmeras aplicações downstream, mas também introduziram desafios significativos relacionados à eficiência computacional e de memória. Para lidar com esses desafios, foram desenvolvidas otimizações para inferência de longo contexto, centradas em torno do cache KV. No entanto, os benchmarks existentes frequentemente avaliam em solicitação única, negligenciando o ciclo de vida completo do cache KV em uso do mundo real. Essa omissão é particularmente crítica, uma vez que a reutilização do cache KV se tornou amplamente adotada em frameworks de inferência de LLMs, como vLLM e SGLang, bem como por provedores de LLMs, incluindo OpenAI, Microsoft, Google e Anthropic. Para abordar essa lacuna, apresentamos o SCBench (SharedContextBench), um benchmark abrangente para avaliar métodos de longo contexto de uma perspectiva centrada no cache KV: 1) geração de cache KV, 2) compressão de cache KV, 3) recuperação de cache KV, 4) carregamento de cache KV. Especificamente, o SCBench utiliza exemplos de teste com contexto compartilhado, abrangendo 12 tarefas com dois modos de contexto compartilhado, cobrindo quatro categorias de capacidades de longo contexto: recuperação de string, recuperação semântica, informação global e multi-tarefa. Com ele, fornecemos uma análise abrangente centrada no cache KV de oito categorias de soluções de longo contexto, incluindo RNNs Lineares com Portões, híbridos Mamba-Attention e métodos eficientes como atenção esparsa, descarte de cache KV, quantização, recuperação, carregamento e compressão de prompt. A avaliação é realizada em 8 LLMs de longo contexto. Nossas descobertas mostram que métodos de memória sub-O(n) sofrem em cenários de múltiplas interações, enquanto a codificação esparsa com memória O(n) e computação de pré-preenchimento sub-O(n^2) têm desempenho robusto. A esparsidade dinâmica proporciona caches KV mais expressivos do que padrões estáticos, e a esparsidade em nível de camada em arquiteturas híbridas reduz o uso de memória com forte desempenho. Além disso, identificamos problemas de deslocamento na distribuição de atenção em cenários de geração longa. https://aka.ms/SCBench.
Este artigo apresenta um método sem ajustes para inserção de objeto e geração orientada por sujeito. A tarefa envolve compor um objeto, dado múltiplas visualizações, em uma cena especificada por uma imagem ou texto. Métodos existentes têm dificuldade em atender totalmente aos objetivos desafiadores da tarefa: (i) compor o objeto na cena de forma contínua com pose e iluminação fotorrealistas e (ii) preservar a identidade do objeto. Nossa hipótese é que alcançar esses objetivos requer supervisão em larga escala, mas coletar manualmente dados suficientes é simplesmente muito caro. A observação-chave neste artigo é que muitos objetos produzidos em massa se repetem em várias imagens de grandes conjuntos de dados não rotulados, em diferentes cenas, poses e condições de iluminação. Utilizamos essa observação para criar supervisão massiva, recuperando conjuntos de visualizações diversas do mesmo objeto. Este conjunto de dados em pares poderoso nos permite treinar uma arquitetura de difusão texto-imagem direta para mapear as descrições do objeto e da cena para a imagem compostada. Comparamos nosso método, ObjectMate, com métodos de ponta para inserção de objeto e geração orientada por sujeito, utilizando uma ou várias referências. Empiricamente, o ObjectMate alcança uma preservação de identidade superior e uma composição mais fotorrealista. Diferentemente de muitos outros métodos de múltiplas referências, o ObjectMate não requer ajustes lentos no momento do teste.
Embora os Fluxos Retificados (ReFlows) com destilação ofereçam uma maneira promissora de amostragem rápida, sua inversão rápida transforma imagens de volta em ruído estruturado para recuperação e a subsequente edição permanece não resolvida. Este artigo apresenta o FireFlow, uma abordagem simples, porém eficaz, de zero-shot que herda a impressionante capacidade de modelos baseados em ReFlow (como FLUX) na geração, ao mesmo tempo em que estende suas capacidades para inversão e edição precisas em 8 etapas. Demonstramos primeiramente que um solucionador numérico cuidadosamente projetado é fundamental para a inversão do ReFlow, possibilitando uma inversão e reconstrução precisas com a precisão de um solucionador de segunda ordem, mantendo a eficiência prática de um método de Euler de primeira ordem. Este solucionador alcança uma aceleração de tempo de execução de 3 vezes em comparação com as técnicas de inversão e edição de ReFlow de ponta, entregando erros de reconstrução menores e resultados de edição superiores em um modo sem treinamento. O código está disponível em https://github.com/HolmesShuan/FireFlow{this URL}.
A geração de vídeo a partir de texto melhora a criação de conteúdo, mas é altamente intensiva em termos computacionais: o custo computacional dos Transformadores de Difusão (DiTs) escala de forma quadrática com o número de pixels. Isso torna a geração de vídeos de curta duração extremamente cara, limitando a maioria dos modelos existentes a gerar vídeos com apenas 10-20 segundos de duração. Propomos um framework de Geração de Vídeo Linear (LinGen) cujo custo escala linearmente com o número de pixels. Pela primeira vez, o LinGen possibilita a geração de vídeos de alta resolução de longa duração em uma única GPU sem comprometer a qualidade. Ele substitui o bloco de autoatenção, dominante computacionalmente e de complexidade quadrática, por um bloco de complexidade linear chamado MATE, que consiste em um ramo MA e um ramo TE. O ramo MA visa correlações de curto a longo alcance, combinando um bloco bidirecional Mamba2 com nosso método de rearranjo de tokens, Rotary Major Scan, e nossos tokens de revisão desenvolvidos para geração de vídeos longos. O ramo TE é um novo bloco de Atenção Swin Temporal que se concentra em correlações temporais entre tokens adjacentes e tokens de alcance médio. O bloco MATE aborda a questão da preservação de adjacência do Mamba e melhora significativamente a consistência dos vídeos gerados. Resultados experimentais mostram que o LinGen supera o DiT (com uma taxa de vitória de 75,6%) em qualidade de vídeo com redução de até 15 vezes (11,5 vezes) em FLOPs (latência). Além disso, tanto métricas automáticas quanto avaliação humana demonstram que nosso LinGen-4B produz qualidade de vídeo comparável aos modelos de ponta (com uma taxa de vitória de 50,5%, 52,1%, 49,1% em relação a Gen-3, LumaLabs e Kling, respectivamente). Isso abre caminho para a geração de filmes de longa duração e geração de vídeo interativo em tempo real. Fornecemos resultados de geração de vídeo de 68 segundos e mais exemplos em nosso site do projeto: https://lineargen.github.io/.
Os modelos de fluxo retificado surgiram como uma abordagem dominante na geração de imagens, exibindo capacidades impressionantes na síntese de imagens de alta qualidade. No entanto, apesar de sua eficácia na geração visual, os modelos de fluxo retificado frequentemente enfrentam dificuldades com a edição desentrelaçada de imagens. Essa limitação impede a capacidade de realizar modificações precisas e específicas de atributos sem afetar aspectos não relacionados da imagem. Neste artigo, apresentamos o FluxSpace, um método de edição de imagens independente de domínio que aproveita um espaço de representação com a capacidade de controlar a semântica de imagens geradas por transformadores de fluxo retificado, como o Flux. Ao aproveitar as representações aprendidas pelos blocos do transformador nos modelos de fluxo retificado, propomos um conjunto de representações semanticamente interpretáveis que possibilitam uma ampla gama de tarefas de edição de imagens, desde a edição de imagens detalhadas até a criação artística. Este trabalho oferece uma abordagem escalável e eficaz para edição de imagens, juntamente com suas capacidades de desentrelaçamento.
A geração de música multimodal tem como objetivo produzir música a partir de diversas modalidades de entrada, incluindo texto, vídeos e imagens. Métodos existentes utilizam um espaço de incorporação comum para fusão multimodal. Apesar de sua eficácia em outras modalidades, sua aplicação na geração de música multimodal enfrenta desafios de escassez de dados, fraca alinhamento entre modalidades e limitada controlabilidade. Este artigo aborda essas questões ao utilizar pontes explícitas de texto e música para alinhamento multimodal. Introduzimos um método inovador chamado Ponte Visual de Música (VMB). Especificamente, um Modelo de Descrição de Música Multimodal converte entradas visuais em descrições textuais detalhadas para fornecer a ponte de texto; um módulo de Recuperação de Música de Dupla Trilha que combina estratégias de recuperação ampla e direcionada para fornecer a ponte de música e permitir o controle do usuário. Por fim, projetamos um framework de Geração de Música Explicitamente Condicionada para gerar música com base nas duas pontes. Realizamos experimentos em tarefas de vídeo-para-música, imagem-para-música, texto-para-música e geração de música controlável, juntamente com experimentos sobre controlabilidade. Os resultados demonstram que o VMB melhora significativamente a qualidade da música, o alinhamento de modalidade e personalização em comparação com métodos anteriores. O VMB estabelece um novo padrão para geração de música multimodal interpretável e expressiva com aplicações em vários campos multimídia. Demonstrativos e código estão disponíveis em https://github.com/wbs2788/VMB.
A eficácia de grandes modelos de linguagem (LLMs) está intimamente ligada ao design de prompts, tornando a otimização de prompts essencial para aprimorar seu desempenho em uma ampla gama de tarefas. Muitas abordagens existentes para automatizar a engenharia de prompts dependem exclusivamente de feedback textual, refinando prompts com base apenas em erros de inferência identificados por LLMs grandes e computacionalmente caros. Infelizmente, modelos menores têm dificuldade em gerar feedback de alta qualidade, resultando em uma dependência completa do julgamento de grandes LLMs. Além disso, esses métodos falham em aproveitar informações mais diretas e detalhadas, como gradientes, devido a operarem puramente no espaço de texto. Nesse sentido, apresentamos o GReaTer, uma nova técnica de otimização de prompts que incorpora diretamente informações de gradientes sobre raciocínio específico da tarefa. Ao utilizar gradientes de perda da tarefa, o GReaTer permite a auto-otimização de prompts para modelos de linguagem de código aberto e leves, sem a necessidade de LLMs caros de código fechado. Isso permite a otimização de prompts de alto desempenho sem depender de LLMs massivos, reduzindo a lacuna entre modelos menores e o raciocínio sofisticado frequentemente necessário para o refinamento de prompts. Avaliações extensas em diversas tarefas de raciocínio, incluindo BBH, GSM8k e FOLIO, demonstram que o GReaTer consistentemente supera os métodos de otimização de prompts do estado da arte anteriores, mesmo aqueles dependentes de LLMs poderosos. Além disso, prompts otimizados pelo GReaTer frequentemente apresentam melhor transferibilidade e, em alguns casos, impulsionam o desempenho da tarefa a níveis comparáveis ou superiores aos alcançados por modelos de linguagem maiores, destacando a eficácia da otimização de prompts guiada por gradientes sobre o raciocínio. O código do GReaTer está disponível em https://github.com/psunlpgroup/GreaTer.
Apresentamos o SmolTulu-1.7b-Instruct, referido neste relatório como SmolTulu-DPO-1130, um modelo de linguagem ajustado para instruções que adapta o pipeline de pós-treinamento Tulu 3 da AllenAI para aprimorar o modelo base SmolLM2-1.7B da Huggingface. Através de uma análise empírica abrangente usando um modelo de 135 milhões de parâmetros, demonstramos que a relação entre a taxa de aprendizado e o tamanho do lote impacta significativamente o desempenho do modelo de maneira dependente da tarefa. Nossas descobertas revelam uma clara divisão: tarefas de raciocínio como ARC e GSM8K se beneficiam de maiores razões entre taxa de aprendizado e tamanho do lote, enquanto tarefas de reconhecimento de padrões como HellaSwag e IFEval mostram desempenho ótimo com razões menores. Esses insights informaram o desenvolvimento do SmolTulu, que alcança desempenho de ponta entre modelos com menos de 2B de parâmetros em seguir instruções, marcando 67,7% no IFEval (Delta11%), e raciocínio matemático com 51,6% no GSM8K (Delta3,4%), com uma versão alternativa alcançando 57,1% no ARC (Delta5,4%). Disponibilizamos nosso modelo, receitas de treinamento e estudos de ablação para facilitar pesquisas adicionais em alinhamento eficiente de modelos, demonstrando que a adaptação cuidadosa da dinâmica de otimização pode ajudar a reduzir a lacuna de capacidade entre modelos de linguagem pequenos e grandes.
Embora os grandes modelos de visão-linguagem-ação (VLA) pré-treinados em extensos conjuntos de dados de robôs ofereçam políticas generalistas promissoras para a aprendizagem robótica, eles ainda enfrentam dificuldades com a dinâmica espaço-temporal na robótica interativa, tornando-os menos eficazes no manuseio de tarefas complexas, como manipulação. Neste trabalho, introduzimos a indução visual de rastreamento, uma abordagem simples, porém eficaz, para facilitar a consciência espaço-temporal dos modelos VLA para previsão de ações, codificando visualmente trajetórias estado-ação. Desenvolvemos um novo modelo TraceVLA, por meio do ajuste fino do OpenVLA em nosso próprio conjunto de dados coletado de 150 mil trajetórias de manipulação de robôs usando a indução visual de rastreamento. Avaliações do TraceVLA em 137 configurações no SimplerEnv e 4 tarefas em um robô físico WidowX demonstram desempenho de ponta, superando o OpenVLA em 10% no SimplerEnv e 3,5 vezes em tarefas de robô real, exibindo generalização robusta em diferentes encarnações e cenários. Para validar ainda mais a eficácia e generalidade de nosso método, apresentamos um modelo VLA compacto baseado em 4B Phi-3-Vision, pré-treinado no Open-X-Embodiment e ajustado fino em nosso conjunto de dados, que rivaliza com a linha de base 7B OpenVLA, ao mesmo tempo em que melhora significativamente a eficiência de inferência.
Redes neurais profundas (DNNs) oferecem uma promessa significativa para melhorar o diagnóstico de câncer de mama em imagens médicas. No entanto, esses modelos são altamente suscetíveis a ataques adversariais - pequenas alterações imperceptíveis que podem enganar classificadores - levantando preocupações críticas sobre sua confiabilidade e segurança. Ataques tradicionais dependem de perturbações com norma fixa, que não se alinham com a percepção humana. Em contraste, ataques baseados em difusão exigem modelos pré-treinados, demandando uma quantidade substancial de dados quando esses modelos não estão disponíveis, limitando o uso prático em cenários com escassez de dados. Na área de imagens médicas, no entanto, isso muitas vezes é inviável devido à disponibilidade limitada de conjuntos de dados. Construindo sobre avanços recentes em prompts aprendíveis, propomos o Prompt2Perturb (P2P), um novo método de ataque guiado por linguagem capaz de gerar exemplos de ataque significativos impulsionados por instruções de texto. Durante a fase de aprendizado do prompt, nossa abordagem aproveita prompts aprendíveis dentro do codificador de texto para criar perturbações sutis, porém impactantes, que permanecem imperceptíveis enquanto guiam o modelo em direção a resultados específicos. Em contraste com abordagens atuais baseadas em aprendizado de prompts, nosso P2P se destaca ao atualizar diretamente os embeddings de texto, evitando a necessidade de re-treinar modelos de difusão. Além disso, aproveitamos a descoberta de que otimizar apenas as etapas iniciais de difusão reversa aumenta a eficiência, garantindo que os exemplos adversariais gerados incorporem ruído sutil, preservando assim a qualidade da imagem de ultrassom sem introduzir artefatos perceptíveis. Mostramos que nosso método supera técnicas de ataque de ponta em três conjuntos de dados de ultrassom de mama em FID e LPIPS. Além disso, as imagens geradas são mais naturais em aparência e mais eficazes em comparação com os ataques adversariais existentes. Nosso código estará publicamente disponível em https://github.com/yasamin-med/P2P.