Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de raciocínio de grande escala (LRMs) já possuem uma capacidade latente para raciocínio de cadeia longa de pensamento. Trabalhos anteriores mostraram que o aprendizado por reforço (RL) baseado em resultados pode incidentalmente eliciar comportamentos avançados de raciocínio, como autocorreção, retrocesso e fenômenos de verificação, frequentemente referidos como o "momento eureka" do modelo. No entanto, o momento e a consistência desses comportamentos emergentes permanecem imprevisíveis e incontroláveis, limitando a escalabilidade e a confiabilidade das capacidades de raciocínio dos LRMs. Para abordar essas limitações, vamos além da dependência de prompts e dos "momentos eureka" coincidentes. Em vez disso, alinhamos explicitamente os modelos com três meta-habilidades: dedução, indução e abdução, utilizando tarefas auto-verificáveis geradas automaticamente. Nosso pipeline de três estágios — alinhamento individual, fusão no espaço de parâmetros e aprendizado por reforço específico do domínio — aumenta o desempenho em mais de 10% em relação às linhas de base ajustadas por instrução. Além disso, o RL específico do domínio a partir do ponto de verificação alinhado resulta em um ganho médio adicional de 2% no teto de desempenho em benchmarks de matemática, codificação e ciências, demonstrando que o alinhamento explícito de meta-habilidades oferece uma base escalável e confiável para o raciocínio. O código está disponível em: https://github.com/zhiyuanhubj/Meta-Ability-Alignment
É comumente aceito que a escalonagem de modelos de linguagem deve incorrer em um custo significativo de espaço ou tempo, seja aumentando os parâmetros (escalonamento de parâmetros) ou os tokens de saída (escalonamento no tempo de inferência). Introduzimos o terceiro e mais eficiente paradigma de escalonamento em termos de inferência: aumentar a computação paralela do modelo durante o treinamento e o tempo de inferência. Aplicamos P transformações diversas e aprendíveis à entrada, executamos passagens diretas do modelo em paralelo e agregamos dinamicamente as P saídas. Este método, denominado escalonamento paralelo (ParScale), escala a computação paralela reutilizando parâmetros existentes e pode ser aplicado a qualquer estrutura de modelo, procedimento de otimização, dados ou tarefa. Teoricamente, propomos uma nova lei de escalonamento e a validamos por meio de pré-treinamento em larga escala, que mostra que um modelo com P fluxos paralelos é semelhante a escalonar os parâmetros por O(log P), ao mesmo tempo que demonstra eficiência superior na inferência. Por exemplo, o ParScale pode usar até 22 vezes menos aumento de memória e 6 vezes menos aumento de latência em comparação com o escalonamento de parâmetros que alcança a mesma melhoria de desempenho. Ele também pode reciclar um modelo pré-treinado disponível comercialmente em um escalonado paralelamente por meio de pós-treinamento em uma pequena quantidade de tokens, reduzindo ainda mais o orçamento de treinamento. A nova lei de escalonamento que descobrimos potencialmente facilita a implantação de modelos mais poderosos em cenários de baixos recursos e fornece uma perspectiva alternativa para o papel da computação no aprendizado de máquina.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis, com a otimização de seus prompts de entrada desempenhando um papel fundamental na maximização de seu desempenho. No entanto, embora os prompts de LLMs consistam tanto em prompts de sistema agnósticos à tarefa quanto em prompts de usuário específicos à tarefa, os trabalhos existentes sobre otimização de prompts têm se concentrado em prompts de usuário específicos para consultas ou tarefas individuais, e em grande parte negligenciado o prompt de sistema que, uma vez otimizado, é aplicável em diferentes tarefas e domínios. Motivados por isso, introduzimos o novo problema de otimização de prompt de sistema em dois níveis, cujo objetivo é projetar prompts de sistema que sejam robustos a diversos prompts de usuário e transferíveis para tarefas não vistas. Para abordar esse problema, propomos então um framework de meta-aprendizado, que meta-aprende o prompt de sistema otimizando-o sobre vários prompts de usuário em múltiplos conjuntos de dados, enquanto atualiza simultaneamente os prompts de usuário de maneira iterativa para garantir sinergia entre eles. Realizamos experimentos em 14 conjuntos de dados não vistos abrangendo 5 domínios diferentes, nos quais mostramos que nossa abordagem produz prompts de sistema que generalizam efetivamente para diversos prompts de usuário. Além disso, nossas descobertas revelam que o prompt de sistema otimizado permite uma rápida adaptação mesmo a tarefas não vistas, exigindo menos etapas de otimização para prompts de usuário em tempo de teste enquanto alcança um desempenho aprimorado.
Enquanto os humanos podem aproveitar de forma flexível a cognição visual interativa para resolver problemas complexos, permitir que Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) aprendam comportamentos adaptativos semelhantes com ferramentas visuais continua sendo um desafio. Um obstáculo significativo é a atual falta de infraestrutura padronizada, o que dificulta a integração de diversas ferramentas, a geração de dados ricos de interação e o treinamento eficaz de agentes robustos. Para abordar essas lacunas, introduzimos o OpenThinkIMG, o primeiro framework de código aberto, abrangente e de ponta a ponta para LVLMs aumentados por ferramentas. Ele apresenta interfaces padronizadas para ferramentas visuais, geração escalável de trajetórias para inicialização de políticas e um ambiente de treinamento flexível. Além disso, considerando que o ajuste fino supervisionado (SFT) em demonstrações estáticas oferece generalização limitada de políticas para invocação dinâmica de ferramentas, propomos um novo framework de aprendizado por reforço (RL), o V-ToolRL, para treinar LVLMs a aprender políticas adaptativas para invocar ferramentas visuais externas. O V-ToolRL permite que os LVLMs descubram autonomamente estratégias ótimas de uso de ferramentas, otimizando diretamente para o sucesso da tarefa com base no feedback das interações com as ferramentas. Validamos empiricamente o V-ToolRL em tarefas desafiadoras de raciocínio em gráficos. Nosso agente treinado com RL, baseado em um Qwen2-VL-2B, supera significativamente sua contraparte inicializada com SFT (+28,83 pontos) e ultrapassa baselines estabelecidos de aprendizado de ferramentas supervisionadas, como Taco e CogCom, em média +12,7 pontos. Notavelmente, ele também supera modelos proprietários proeminentes, como o GPT-4.1, por +8,68 pontos de precisão. Esperamos que o OpenThinkIMG possa servir como um framework fundamental para avançar o raciocínio visual dinâmico aumentado por ferramentas, ajudando a comunidade a desenvolver agentes de IA que possam genuinamente "pensar com imagens".
Motivados pelas leis de escala na modelagem de linguagem, que demonstram como a perda no teste escala como uma lei de potência com o tamanho do modelo e do conjunto de dados, descobrimos que leis semelhantes existem na modelagem de preferências. Propomos o Modelo de Preferências Globais (World Preference Modeling - WorldPM) para enfatizar esse potencial de escalabilidade, onde Preferência Global representa uma representação unificada das preferências humanas. Neste artigo, coletamos dados de preferência de fóruns públicos que abrangem diversas comunidades de usuários e realizamos treinamentos extensivos usando dados em escala de 15M em modelos que variam de 1,5B a 72B parâmetros. Observamos padrões distintos em diferentes métricas de avaliação: (1) Métricas adversariais (capacidade de identificar características enganosas) escalam consistentemente com o aumento dos dados de treinamento e do tamanho do modelo base; (2) Métricas objetivas (conhecimento objetivo com respostas bem definidas) mostram comportamento emergente em modelos de linguagem maiores, destacando o potencial de escalabilidade do WorldPM; (3) Métricas subjetivas (preferências subjetivas de um número limitado de humanos ou IA) não demonstram tendências de escalabilidade. Experimentos adicionais validam a eficácia do WorldPM como base para o ajuste fino de preferências. Por meio de avaliações em 7 benchmarks com 20 subtarefas, descobrimos que o WorldPM melhora amplamente o desempenho de generalização em conjuntos de dados de preferências humanas de tamanhos variados (7K, 100K e 800K amostras), com ganhos de desempenho superiores a 5% em muitas subtarefas-chave. Integrando o WorldPM em nosso pipeline interno de RLHF, observamos melhorias significativas tanto em conjuntos de avaliação internos quanto públicos, com ganhos notáveis de 4% a 8% em nossas avaliações internas.
A cadeia de pensamento (CoT, do inglês Chain-of-Thought) é um elemento essencial para o uso eficaz dos modernos modelos de linguagem de grande escala, mas nossa compreensão das estratégias de raciocínio subjacentes a essas capacidades ainda é limitada. Embora alguns trabalhos anteriores tenham tentado categorizar as CoTs usando tipos de estratégias predefinidos, tais abordagens são limitadas pela intuição humana e não conseguem capturar toda a diversidade dos comportamentos dos modelos. Neste trabalho, introduzimos a Enciclopédia de CoT, uma estrutura de análise e direcionamento do raciocínio dos modelos construída de baixo para cima. Nosso método extrai automaticamente critérios diversos de raciocínio a partir das CoTs geradas pelos modelos, os incorpora em um espaço semântico, os agrupa em categorias representativas e deriva rubricas contrastantes para interpretar o comportamento de raciocínio. Avaliações humanas mostram que essa estrutura produz análises mais interpretáveis e abrangentes do que os métodos existentes. Além disso, demonstramos que esse entendimento possibilita ganhos de desempenho: podemos prever qual estratégia um modelo provavelmente usará e guiá-lo para alternativas mais eficazes. Por fim, oferecemos insights práticos, como o fato de que o formato dos dados de treinamento (por exemplo, livre vs. múltipla escolha) tem um impacto muito maior no comportamento de raciocínio do que o domínio dos dados, destacando a importância de um design de modelo consciente do formato.
O progresso da IA é limitado pela qualidade da avaliação, e modelos poderosos de LLM-como-Juiz provaram ser uma solução central. A melhoria da capacidade de julgamento é possibilitada por um raciocínio em cadeia de pensamento mais forte, motivando a necessidade de encontrar as melhores abordagens para treinar tais modelos a pensar. Neste trabalho, introduzimos o J1, uma abordagem de aprendizado por reforço para treinar esses modelos. Nosso método converte tanto prompts verificáveis quanto não verificáveis em tarefas de julgamento com recompensas verificáveis que incentivam o pensamento e mitigam o viés de julgamento. Em particular, nossa abordagem supera todos os outros modelos existentes de 8B ou 70B quando treinados nesses tamanhos, incluindo modelos destilados do DeepSeek-R1. O J1 também supera o o1-mini e, em alguns benchmarks, até mesmo o R1, apesar de treinar um modelo menor. Fornecemos análises e ablações comparando modelos Pairwise-J1 versus Pointwise-J1, receitas de treinamento offline versus online, estratégias de recompensa, prompts iniciais e variações no comprimento e conteúdo do pensamento. Descobrimos que nossos modelos fazem julgamentos melhores ao aprender a delinear critérios de avaliação, comparar com respostas de referência autogeradas e reavaliar a correção das respostas do modelo.
O aprendizado por imitação robótica evoluiu da resolução de tarefas estáticas para o enfrentamento de cenários de interação dinâmica, mas os testes e avaliações continuam caros e desafiadores devido à necessidade de interação em tempo real com ambientes dinâmicos. Propomos o EnerVerse-AC (EVAC), um modelo de mundo condicionado por ações que gera observações visuais futuras com base nas ações previstas de um agente, permitindo inferência robótica realista e controlável. Baseando-se em arquiteturas anteriores, o EVAC introduz um mecanismo de condicionamento de ações em múltiplos níveis e codificação de mapas de raios para a geração dinâmica de imagens de múltiplas visões, enquanto expande os dados de treinamento com trajetórias de falha diversas para melhorar a generalização. Funcionando tanto como um motor de dados quanto como um avaliador, o EVAC amplia trajetórias coletadas por humanos em conjuntos de dados diversos e gera observações de vídeo realistas e condicionadas por ações para testes de políticas, eliminando a necessidade de robôs físicos ou simulações complexas. Essa abordagem reduz significativamente os custos enquanto mantém alta fidelidade na avaliação de manipulação robótica. Experimentos extensivos validam a eficácia do nosso método. Código, checkpoints e conjuntos de dados podem ser encontrados em <https://annaj2178.github.io/EnerverseAC.github.io>.
A tokenização visual existente isola a otimização dos tokenizadores visuais do treinamento subsequente, assumindo implicitamente que os tokens visuais podem generalizar bem em várias tarefas, por exemplo, geração de imagens e resposta a perguntas visuais. O tokenizador visual otimizado para reconstrução de baixo nível é agnóstico em relação a tarefas subsequentes que exigem representações e semânticas variadas. Esse paradigma desacoplado introduz um desalinhamento crítico: A perda da tokenização visual pode ser o gargalo de representação para as tarefas-alvo. Por exemplo, erros na tokenização de texto em uma determinada imagem levam a resultados ruins ao reconhecê-lo ou gerá-lo. Para resolver isso, propomos o ETT, uma abordagem de ajuste de tokenizador visual de ponta a ponta que permite a otimização conjunta entre a tokenização visual e tarefas autoregressivas-alvo. Diferente de modelos autoregressivos anteriores que usam apenas índices discretos de um tokenizador visual congelado, o ETT aproveita os embeddings visuais do codebook do tokenizador e otimiza os tokenizadores visuais de ponta a ponta com objetivos de reconstrução e legendagem. O ETT pode ser integrado de forma contínua aos pipelines de treinamento existentes com modificações mínimas na arquitetura. Nosso ETT é simples de implementar e integrar, sem a necessidade de ajustar os codebooks ou arquiteturas originais dos grandes modelos de linguagem empregados. Experimentos extensivos demonstram que nosso ajuste de tokenizador visual de ponta a ponta proposto desbloqueia ganhos significativos de desempenho, ou seja, 2-6% para tarefas de entendimento multimodal e geração visual em comparação com baselines de tokenizadores congelados, enquanto preserva a capacidade original de reconstrução. Esperamos que este método muito simples e eficaz possa capacitar modelos de base multimodal além da geração e entendimento de imagens.
Avanços recentes em IA criativa têm possibilitado a síntese de imagens e vídeos de alta fidelidade condicionados a instruções em linguagem natural. Com base nesses desenvolvimentos, modelos de difusão de texto para vídeo evoluíram para modelos de mundo incorporado (EWMs, do inglês Embodied World Models), capazes de gerar cenas fisicamente plausíveis a partir de comandos de linguagem, efetivamente conectando visão e ação em aplicações de IA incorporada. Este trabalho aborda o desafio crítico de avaliar EWMs além de métricas perceptuais gerais, garantindo a geração de comportamentos fisicamente fundamentados e consistentes com ações. Propomos o Embodied World Model Benchmark (EWMBench), um framework dedicado projetado para avaliar EWMs com base em três aspectos-chave: consistência visual da cena, correção do movimento e alinhamento semântico. Nossa abordagem utiliza um conjunto de dados meticulosamente curado, abrangendo cenas e padrões de movimento diversos, juntamente com um kit de avaliação multidimensional abrangente, para avaliar e comparar modelos candidatos. O benchmark proposto não apenas identifica as limitações dos modelos existentes de geração de vídeo em atender aos requisitos únicos de tarefas incorporadas, mas também fornece insights valiosos para orientar avanços futuros na área. O conjunto de dados e as ferramentas de avaliação estão disponíveis publicamente em https://github.com/AgibotTech/EWMBench.
Apresentamos o MLE-Dojo, um framework no estilo Gym para o aprendizado por reforço sistemático, avaliação e aprimoramento de agentes autônomos de modelos de linguagem de grande escala (LLM) em fluxos de trabalho iterativos de engenharia de aprendizado de máquina (MLE). Diferente dos benchmarks existentes que dependem principalmente de conjuntos de dados estáticos ou avaliações de tentativa única, o MLE-Dojo fornece um ambiente interativo que permite aos agentes experimentar, depurar e refinar soluções de forma iterativa por meio de loops de feedback estruturados. Construído com base em mais de 200 desafios reais do Kaggle, o MLE-Dojo abrange diversas tarefas de MLE de natureza aberta, cuidadosamente curadas para refletir cenários realistas de engenharia, como processamento de dados, busca de arquitetura, ajuste de hiperparâmetros e depuração de código. Seu ambiente totalmente executável suporta treinamento abrangente de agentes por meio de ajuste fino supervisionado e aprendizado por reforço, facilitando experimentação iterativa, amostragem realista de dados e verificação de resultados em tempo real. Avaliações extensivas de oito LLMs de ponta revelam que, embora os modelos atuais alcancem melhorias iterativas significativas, eles ainda apresentam limitações importantes na geração autônoma de soluções de longo prazo e na resolução eficiente de erros complexos. Além disso, a arquitetura flexível e extensível do MLE-Dojo integra de forma contínua diversas fontes de dados, ferramentas e protocolos de avaliação, permitindo de maneira única o ajuste de agentes baseados em modelos e promovendo interoperabilidade, escalabilidade e reprodutibilidade. Disponibilizamos nosso framework e benchmarks em código aberto para fomentar a inovação impulsionada pela comunidade em direção à próxima geração de agentes de MLE.
Este artigo apresenta o Unilogit, um novo método de auto-distilação para o esquecimento de máquina em Modelos de Linguagem de Grande Escala. O Unilogit aborda o desafio de esquecer seletivamente informações específicas enquanto mantém a utilidade geral do modelo, uma tarefa crítica para a conformidade com regulamentos de privacidade de dados, como o GDPR. Diferente de métodos anteriores que dependem de hiperparâmetros estáticos ou saídas iniciais do modelo, o Unilogit ajusta dinamicamente os logits alvo para alcançar uma probabilidade uniforme para o token alvo, aproveitando as saídas atuais do modelo para obter alvos de auto-distilação mais precisos. Essa abordagem não apenas elimina a necessidade de hiperparâmetros adicionais, mas também aprimora a capacidade do modelo de aproximar os alvos ideais. Experimentos extensivos em benchmarks públicos e em um conjunto de dados interno de e-commerce demonstram o desempenho superior do Unilogit no equilíbrio entre os objetivos de esquecimento e retenção, superando métodos state-of-the-art como NPO e UnDIAL. Nossa análise ainda revela a robustez do Unilogit em diversos cenários, destacando sua aplicabilidade prática e eficácia na realização de esquecimento de máquina eficaz.
Os gráficos vetoriais escaláveis (SVGs) são altamente valorizados por designers devido à sua independência de resolução e estrutura de camadas bem organizada. Embora os métodos existentes de geração de texto para vetor (T2V) possam criar SVGs a partir de prompts de texto, eles frequentemente negligenciam uma necessidade importante em aplicações práticas: a personalização de estilo, que é crucial para produzir uma coleção de gráficos vetoriais com aparência visual consistente e estética coerente. A extensão dos métodos T2V existentes para personalização de estilo apresenta certos desafios. Modelos T2V baseados em otimização podem utilizar os priors de modelos de texto para imagem (T2I) para personalização, mas lutam para manter a regularidade estrutural. Por outro lado, modelos T2V de avanço direto podem garantir regularidade estrutural, mas enfrentam dificuldades em separar conteúdo e estilo devido à limitação de dados de treinamento de SVG. Para abordar esses desafios, propomos um novo pipeline de personalização de estilo em duas etapas para geração de SVG, aproveitando as vantagens tanto dos modelos T2V de avanço direto quanto dos priors de imagem T2I. Na primeira etapa, treinamos um modelo de difusão T2V com uma representação em nível de caminho para garantir a regularidade estrutural dos SVGs, mantendo ao mesmo tempo capacidades expressivas diversas. Na segunda etapa, personalizamos o modelo de difusão T2V para diferentes estilos, destilando modelos T2I personalizados. Ao integrar essas técnicas, nosso pipeline pode gerar SVGs de alta qualidade e diversificados em estilos personalizados com base em prompts de texto de maneira eficiente e de avanço direto. A eficácia do nosso método foi validada por meio de extensos experimentos. A página do projeto está disponível em https://customsvg.github.io.
O apontar serve como um mecanismo fundamental e intuitivo para ancorar a linguagem em contextos visuais, com aplicações que abrangem robótica, tecnologias assistivas e sistemas de IA interativos. Embora modelos multimodais recentes tenham começado a oferecer suporte a capacidades de apontar, os benchmarks existentes geralmente se concentram apenas em tarefas de localização referencial de objetos. Apresentamos o PointArena, uma plataforma abrangente para avaliar o apontar multimodal em diversos cenários de raciocínio. O PointArena é composto por três componentes: (1) Point-Bench, um conjunto de dados curado contendo aproximadamente 1.000 tarefas de apontar em cinco categorias de raciocínio; (2) Point-Battle, uma arena interativa baseada na web que facilita comparações cegas e pareadas de modelos, já tendo coletado mais de 4.500 votos anônimos; e (3) Point-Act, um sistema robótico de manipulação do mundo real que permite aos usuários avaliar diretamente as capacidades de apontar de modelos multimodais em cenários práticos. Realizamos avaliações extensas de modelos multimodais de código aberto e proprietários de última geração. Os resultados indicam que o Molmo-72B supera consistentemente outros modelos, embora os modelos proprietários estejam demonstrando desempenho cada vez mais comparável. Além disso, descobrimos que o treinamento supervisionado especificamente voltado para tarefas de apontar melhora significativamente o desempenho dos modelos. Em nossa pipeline de avaliação em múltiplas etapas, também observamos fortes correlações, destacando o papel crítico das capacidades precisas de apontar para permitir que modelos multimodais conectem efetivamente o raciocínio abstrato com ações concretas do mundo real. Página do projeto: https://pointarena.github.io/
Este trabalho apresenta o Prior Depth Anything, um framework que combina informações métricas incompletas, porém precisas, em medições de profundidade com estruturas geométricas relativas, mas completas, em previsões de profundidade, gerando mapas de profundidade métricos precisos, densos e detalhados para qualquer cena. Para isso, projetamos um pipeline de refinamento progressivo para integrar gradualmente as duas fontes complementares de profundidade. Primeiro, introduzimos o alinhamento métrico em nível de pixel e a ponderação consciente da distância para preencher previamente diversas métricas, utilizando explicitamente a previsão de profundidade. Isso reduz efetivamente a lacuna de domínio entre os padrões anteriores, melhorando a generalização em diversos cenários. Em segundo lugar, desenvolvemos um modelo de estimativa de profundidade monocondicional (MDE) para refinar o ruído inerente das métricas de profundidade. Ao condicionar o modelo ao preenchimento prévio normalizado e à previsão, ele implicitamente mescla as duas fontes complementares de profundidade. Nosso modelo demonstra uma impressionante generalização zero-shot em tarefas de completamento de profundidade, super-resolução e inpainting em 7 conjuntos de dados do mundo real, igualando ou até superando métodos anteriores específicos para cada tarefa. Mais importante ainda, ele se sai bem em métricas mistas desafiadoras e não vistas anteriormente e permite melhorias em tempo de teste ao alternar modelos de previsão, oferecendo uma flexível troca entre precisão e eficiência, enquanto evolui com os avanços nos modelos MDE.
Modelos de linguagem pré-treinados (LLMs) são frequentemente limitados por seus esquemas de tokenização fixos, resultando em ineficiências e limitações de desempenho, especialmente para aplicações multilíngues ou especializadas. Esse bloqueio no tokenizador apresenta desafios significativos. Métodos padrão para superar isso geralmente exigem recursos computacionais proibitivos. Embora a substituição do tokenizador com inicialização heurística vise reduzir esse ônus, os métodos existentes frequentemente requerem um ajuste fino residual exaustivo e ainda podem não preservar totalmente as nuances semânticas ou abordar adequadamente as ineficiências subjacentes de compressão. Nosso framework introduz duas inovações: primeiro, Tokenadapt, um método de transplante de tokenizador agnóstico ao modelo, e segundo, um novo aprendizado de pré-tokenização para Supertokens de múltiplas palavras para melhorar a compressão e reduzir a fragmentação. O Tokenadapt inicializa novos embeddings de tokens únicos por meio de uma heurística híbrida que combina dois métodos: uma estimativa local baseada na decomposição de subpalavras usando o tokenizador antigo, e uma estimativa global utilizando os k tokens semanticamente mais similares do vocabulário original. Essa metodologia visa preservar a semântica enquanto minimiza significativamente os requisitos de retreinamento. Investigações empíricas validam ambas as contribuições: a heurística de transplante inicializa com sucesso tokens únicos, superando marcadamente as linhas de base convencionais e métodos sofisticados, incluindo Transtokenizer e ReTok, enquanto nossos Supertokens alcançam ganhos notáveis de compressão. Nossos resultados de perplexidade zero-shot demonstram que a inicialização híbrida do TokenAdapt consistentemente produz taxas de perplexidade mais baixas em comparação com as linhas de base ReTok e TransTokenizer em diferentes modelos base e novos tokenizadores de destino treinados. O TokenAdapt tipicamente reduziu a taxa de perplexidade geral significativamente em comparação com o ReTok, resultando em pelo menos uma melhoria de 2 vezes nessas pontuações agregadas.
Este artigo não descreve um novo método; em vez disso, oferece uma exploração detalhada de um espaço de design importante, porém pouco estudado, relacionado aos avanços recentes na síntese de texto para imagem — especificamente, a fusão profunda de modelos de linguagem de grande escala (LLMs) e transformadores de difusão (DiTs) para geração multimodal. Estudos anteriores concentraram-se principalmente no desempenho geral do sistema, em vez de comparações detalhadas com métodos alternativos, e detalhes cruciais de design e receitas de treinamento frequentemente não foram divulgados. Essas lacunas geram incertezas sobre o verdadeiro potencial dessa abordagem. Para preencher essas lacunas, realizamos um estudo empírico sobre geração de texto para imagem, realizando comparações controladas com baselines estabelecidas, analisando escolhas importantes de design e fornecendo uma receita clara e reproduzível para treinamento em larga escala. Esperamos que este trabalho ofereça pontos de dados significativos e diretrizes práticas para pesquisas futuras em geração multimodal.
A segmentação de cenas cirúrgicas é crucial na cirurgia assistida por computador e é vital para melhorar a qualidade cirúrgica e os resultados dos pacientes. Recentemente, a segmentação cirúrgica referenciada está emergindo, dada sua vantagem de fornecer aos cirurgiões uma experiência interativa para segmentar o objeto alvo. No entanto, os métodos existentes são limitados pela baixa eficiência e rastreamento de curto prazo, dificultando sua aplicabilidade em cenários cirúrgicos complexos do mundo real. Neste artigo, apresentamos o ReSurgSAM2, uma estrutura de segmentação referenciada cirúrgica em dois estágios que aproveita o Segment Anything Model 2 para realizar a detecção de alvos referenciados por texto, seguida pelo rastreamento com identificação confiável do quadro inicial e memória de longo prazo orientada pela diversidade. Para o estágio de detecção, propomos um Mamba espaço-temporal multimodal para gerar resultados precisos de detecção e segmentação. Com base nesses resultados, nossa estratégia de seleção de quadro inicial confiável identifica o quadro confiável para o subsequente rastreamento. Após a seleção do quadro inicial, nosso método transita para o estágio de rastreamento, onde incorpora um mecanismo de memória orientado pela diversidade que mantém um banco de memória confiável e diversificado, garantindo um rastreamento consistente de longo prazo. Experimentos extensivos demonstram que o ReSurgSAM2 alcança melhorias substanciais em precisão e eficiência em comparação com os métodos existentes, operando em tempo real a 61,2 FPS. Nosso código e conjuntos de dados estarão disponíveis em https://github.com/jinlab-imvr/ReSurgSAM2.
Este estudo distingue criticamente entre Agentes de IA e IA Agêntica, oferecendo uma taxonomia conceitual estruturada, mapeamento de aplicações e análise de desafios para esclarecer suas filosofias de design e capacidades divergentes. Começamos delineando a estratégia de pesquisa e definições fundamentais, caracterizando Agentes de IA como sistemas modulares impulsionados por Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Imagem de Grande Escala (LIMs) para automação específica de tarefas. A IA Generativa é posicionada como um precursor, com Agentes de IA avançando por meio de integração de ferramentas, engenharia de prompts e aprimoramentos de raciocínio. Em contraste, sistemas de IA Agêntica representam uma mudança paradigmática marcada por colaboração multiagente, decomposição dinâmica de tarefas, memória persistente e autonomia orquestrada. Através de uma avaliação sequencial da evolução arquitetônica, mecanismos operacionais, estilos de interação e níveis de autonomia, apresentamos uma análise comparativa entre ambos os paradigmas. Domínios de aplicação como suporte ao cliente, agendamento e resumo de dados são contrastados com implantações de IA Agêntica em automação de pesquisa, coordenação robótica e suporte à decisão médica. Examinamos ainda desafios únicos em cada paradigma, incluindo alucinação, fragilidade, comportamento emergente e falha de coordenação, e propomos soluções direcionadas, como loops ReAct, RAG, camadas de orquestração e modelagem causal. Este trabalho visa fornecer um roteiro definitivo para o desenvolvimento de sistemas robustos, escaláveis e explicáveis impulsionados por Agentes de IA e IA Agêntica. >Agentes de IA, Agente-impulsionado, Modelos Visão-Linguagem, Sistema de Suporte à Decisão de IA Agêntica, Aplicações de IA Agêntica
Apesar dos avanços significativos na modelagem de priors de imagem por meio de modelos de difusão, a edição de imagens com consciência 3D continua desafiadora, em parte porque o objeto é especificado apenas por uma única imagem. Para enfrentar esse desafio, propomos o 3D-Fixup, um novo framework para edição de imagens 2D guiada por priors 3D aprendidos. O framework suporta situações de edição difíceis, como translação de objetos e rotação 3D. Para alcançar isso, utilizamos uma abordagem baseada em treinamento que aproveita o poder generativo dos modelos de difusão. Como os dados de vídeo naturalmente codificam a dinâmica física do mundo real, recorremos a dados de vídeo para gerar pares de dados de treinamento, ou seja, um quadro de origem e um quadro de destino. Em vez de depender exclusivamente de um único modelo treinado para inferir transformações entre os quadros de origem e destino, incorporamos orientação 3D de um modelo Image-to-3D, que facilita essa tarefa desafiadora ao projetar explicitamente informações 2D no espaço 3D. Projetamos um pipeline de geração de dados para garantir orientação 3D de alta qualidade durante o treinamento. Os resultados mostram que, ao integrar esses priors 3D, o 3D-Fixup suporta efetivamente edições complexas e coerentes com a identidade, com consciência 3D, alcançando resultados de alta qualidade e avançando a aplicação de modelos de difusão na manipulação realista de imagens. O código está disponível em https://3dfixup.github.io/
O surgimento de modelos híbridos de aprendizado de máquina quântico-clássico (HQML) abre novos horizontes para a inteligência computacional, mas sua complexidade fundamental frequentemente resulta em comportamentos de "caixa preta" que comprometem a transparência e a confiabilidade em sua aplicação. Embora a XAI (Inteligência Artificial Explicável) para sistemas quânticos ainda esteja em sua infância, uma lacuna significativa de pesquisa é evidente em abordagens robustas de explicabilidade global e local projetadas para arquiteturas HQML que empregam codificação de características quantizadas seguida por aprendizado clássico. Essa lacuna é o foco deste trabalho, que introduz o QuXAI, um framework baseado no Q-MEDLEY, um explicador para a importância de características nesses sistemas híbridos. Nosso modelo envolve a criação de modelos HQML que incorporam mapas de características quânticas, o uso do Q-MEDLEY, que combina inferências baseadas em características, preserva o estágio de transformação quântica e visualiza as atribuições resultantes. Nossos resultados mostram que o Q-MEDLEY delineia aspectos clássicos influentes em modelos HQML, além de separar seu ruído, e compete bem contra técnicas estabelecidas de XAI em cenários clássicos de validação. Estudos de ablação expõem de forma mais significativa as virtudes da estrutura composta usada no Q-MEDLEY. As implicações deste trabalho são de extrema importância, pois fornecem um caminho para melhorar a interpretabilidade e a confiabilidade dos modelos HQML, promovendo assim maior confiança e possibilitando um uso mais seguro e responsável da tecnologia de IA aprimorada por quântica.
A detecção universal de anomalias visuais visa identificar anomalias em domínios visuais novos ou não vistos sem a necessidade de ajuste fino adicional, o que é crucial em cenários abertos. Estudos recentes demonstraram que modelos pré-treinados de visão e linguagem, como o CLIP, exibem forte generalização com apenas zero ou algumas imagens normais. No entanto, os métodos existentes enfrentam dificuldades ao projetar modelos de prompt, interações complexas entre tokens ou exigem ajuste fino adicional, resultando em flexibilidade limitada. Neste trabalho, apresentamos um método simples, porém eficaz, chamado AdaptCLIP, baseado em dois insights principais. Primeiro, as representações visuais e textuais adaptativas devem ser aprendidas alternadamente, e não conjuntamente. Segundo, a aprendizagem comparativa entre a consulta e o prompt de imagem normal deve incorporar tanto características contextuais quanto características residuais alinhadas, em vez de depender exclusivamente de características residuais. O AdaptCLIP trata os modelos CLIP como um serviço fundamental, adicionando apenas três adaptadores simples: adaptador visual, adaptador textual e adaptador de prompt-consulta, em suas entradas ou saídas. O AdaptCLIP suporta generalização zero-shot/few-shot entre domínios e possui uma abordagem livre de treinamento em domínios de destino uma vez treinado em um conjunto de dados base. O AdaptCLIP alcança desempenho de ponta em 12 benchmarks de detecção de anomalias dos domínios industrial e médico, superando significativamente os métodos competitivos existentes. Disponibilizaremos o código e o modelo do AdaptCLIP em https://github.com/gaobb/AdaptCLIP.
Vídeos humanos oferecem uma maneira escalável de treinar políticas de manipulação robótica, mas carecem dos rótulos de ação necessários para algoritmos padrão de aprendizado por imitação. Abordagens existentes de cruzamento de embodiamentos tentam mapear o movimento humano para ações robóticas, mas frequentemente falham quando os embodiamentos diferem significativamente. Propomos o X-Sim, uma estrutura real-para-sim-para-real que utiliza o movimento do objeto como um sinal denso e transferível para aprender políticas robóticas. O X-Sim começa reconstruindo uma simulação fotorrealista a partir de um vídeo humano RGBD e rastreia trajetórias de objetos para definir recompensas centradas no objeto. Essas recompensas são usadas para treinar uma política de aprendizado por reforço (RL) na simulação. A política aprendida é então destilada em uma política de difusão condicionada por imagem usando rollouts sintéticos renderizados com diversos pontos de vista e iluminação. Para transferir para o mundo real, o X-Sim introduz uma técnica de adaptação de domínio online que alinha observações reais e simuladas durante a implantação. Importante destacar que o X-Sim não requer nenhum dado de teleoperação robótica. Avaliamos o método em 5 tarefas de manipulação em 2 ambientes e mostramos que ele: (1) melhora o progresso da tarefa em 30% em média em relação a baselines de rastreamento manual e sim-para-real, (2) iguala o comportamento de clonagem com 10x menos tempo de coleta de dados, e (3) generaliza para novos pontos de vista da câmera e mudanças durante o teste. Código e vídeos estão disponíveis em https://portal-cornell.github.io/X-Sim/.
Redes de reconstrução não supervisionadas que utilizam transformadores com auto-atenção alcançaram desempenho de ponta para detecção de anomalias multiclasse (unificada) com um único modelo. No entanto, esses modelos de reconstrução com auto-atenção operam principalmente em características do alvo, o que pode resultar em reconstrução perfeita tanto para características normais quanto para anomalias devido à alta consistência com o contexto, levando à falha na detecção de anomalias. Além disso, esses modelos frequentemente produzem segmentação imprecisa de anomalias por realizar a reconstrução em um espaço latente de baixa resolução espacial. Para permitir que modelos de reconstrução mantenham alta eficiência enquanto melhoram sua generalização para detecção unificada de anomalias, propomos um método simples, porém eficaz, que reconstrói características normais e restaura características anômalas com apenas Um Prompt de Imagem Normal (OneNIP). Em contraste com trabalhos anteriores, o OneNIP permite, pela primeira vez, reconstruir ou restaurar anomalias com apenas um prompt de imagem normal, aumentando efetivamente o desempenho da detecção unificada de anomalias. Além disso, propomos um refinador supervisionado que regride erros de reconstrução utilizando tanto imagens normais reais quanto imagens anômalas sintetizadas, o que melhora significativamente a segmentação de anomalias em nível de pixel. O OneNIP supera métodos anteriores em três benchmarks de detecção de anomalias industriais: MVTec, BTAD e VisA. O código e os modelos pré-treinados estão disponíveis em https://github.com/gaobb/OneNIP.
A escalabilidade do aprendizado de robôs requer conjuntos de dados vastos e diversos. No entanto, o paradigma predominante de coleta de dados - teleoperação humana - continua sendo caro e limitado pelo esforço manual e pelo acesso físico ao robô. Apresentamos o Real2Render2Real (R2R2R), uma abordagem inovadora para gerar dados de treinamento para robôs sem depender de simulações de dinâmica de objetos ou teleoperação de hardware robótico. A entrada consiste em uma varredura capturada por smartphone de um ou mais objetos e um único vídeo de uma demonstração humana. O R2R2R renderiza milhares de demonstrações de alta fidelidade visual, independentes do robô, reconstruindo a geometria 3D detalhada e a aparência dos objetos, além de rastrear o movimento dos objetos em 6 graus de liberdade (6-DoF). O R2R2R utiliza o 3D Gaussian Splatting (3DGS) para permitir a geração flexível de ativos e a síntese de trajetórias tanto para objetos rígidos quanto articulados, convertendo essas representações em malhas para manter a compatibilidade com motores de renderização escaláveis, como o IsaacLab, mas com a modelagem de colisão desativada. Os dados de demonstração robótica gerados pelo R2R2R integram-se diretamente com modelos que operam em estados proprioceptivos do robô e observações de imagem, como modelos visão-linguagem-ação (VLA) e políticas de aprendizado por imitação. Experimentos físicos sugerem que modelos treinados com dados do R2R2R a partir de uma única demonstração humana podem igualar o desempenho de modelos treinados com 150 demonstrações de teleoperação humana. Página do projeto: https://real2render2real.com
A segmentação visual de anomalias em cenários zero-shot e few-shot depende de modelos poderosos de visão e linguagem que detectam anomalias não vistas usando prompts textuais projetados manualmente. No entanto, as representações visuais são inerentemente independentes da linguagem. Neste artigo, exploramos o potencial de um modelo de base puramente visual como uma alternativa aos modelos de visão e linguagem amplamente utilizados para a segmentação visual universal de anomalias. Apresentamos um novo paradigma que unifica a segmentação de anomalias na segmentação de mudanças. Esse paradigma nos permite aproveitar pares de imagens sintéticas em grande escala, com mudanças em nível de objeto e em regiões locais, derivadas de conjuntos de dados de imagens existentes, que são independentes dos conjuntos de dados de anomalias alvo. Propomos uma estrutura de meta-aprendizado de um único prompt para Segmentação Universal de Anomalias (MetaUAS) que é treinada nesse conjunto de dados sintético e, em seguida, generaliza bem para segmentar qualquer anomalia visual nova ou não vista no mundo real. Para lidar com variações geométricas entre a imagem de prompt e a imagem de consulta, propomos um módulo de alinhamento suave de características que conecta a percepção de mudança em pares de imagens e a segmentação semântica de imagem única. Este é o primeiro trabalho a alcançar a segmentação universal de anomalias usando um modelo puramente visual, sem depender de conjuntos de dados especiais de detecção de anomalias e modelos pré-treinados de visão e linguagem. Nosso método segmenta qualquer anomalia de forma eficaz e eficiente com apenas uma imagem normal de prompt e dispensa o treinamento, sem orientação da linguagem. Nosso MetaUAS supera significativamente os métodos anteriores de segmentação de anomalias zero-shot, few-shot e até mesmo full-shot. O código e os modelos pré-treinados estão disponíveis em https://github.com/gaobb/MetaUAS.
A detecção de anomalias é uma tarefa prática e desafiadora devido à escassez de amostras anômalas em inspeções industriais. Alguns métodos existentes de detecção de anomalias abordam essa questão sintetizando anomalias com ruído ou dados externos. No entanto, sempre há uma grande lacuna semântica entre anomalias sintéticas e as do mundo real, resultando em um desempenho fraco na detecção de anomalias. Para resolver esse problema, propomos um método de Geração Orientada por Anomalias em Poucos Exemplos (AnoGen), que orienta o modelo de difusão a gerar anomalias realistas e diversas com apenas algumas anomalias reais, beneficiando assim o treinamento de modelos de detecção de anomalias. Especificamente, nosso trabalho é dividido em três etapas. Na primeira etapa, aprendemos a distribuição das anomalias com base em algumas anomalias reais fornecidas e injetamos o conhecimento aprendido em um embedding. Na segunda etapa, usamos o embedding e caixas delimitadoras fornecidas para orientar o modelo de difusão a gerar anomalias realistas e diversas em objetos (ou texturas) específicos. Na etapa final, propomos um método de detecção de anomalias fracamente supervisionado para treinar um modelo mais robusto com as anomalias geradas. Nosso método é baseado em DRAEM e DesTSeg como modelo de fundo e realiza experimentos no conjunto de dados de detecção de anomalias industriais comumente utilizado, MVTec. Os experimentos demonstram que nossas anomalias geradas melhoram efetivamente o desempenho do modelo tanto em tarefas de classificação quanto de segmentação de anomalias simultaneamente, por exemplo, DRAEM e DesTSeg alcançaram uma melhoria de 5,8% e 1,5% na métrica AU-PR na tarefa de segmentação, respectivamente. O código e os dados anômalos gerados estão disponíveis em https://github.com/gaobb/AnoGen.