Artigos de pesquisa em IA selecionados diariamente com traduções
Camadas de normalização são onipresentes em redes neurais modernas e há muito tempo são consideradas essenciais. Este trabalho demonstra que Transformers sem normalização podem alcançar o mesmo ou melhor desempenho usando uma técnica notavelmente simples. Introduzimos o Dynamic Tanh (DyT), uma operação elemento a elemento DyT(x) = tanh(alpha x), como uma substituição direta para camadas de normalização em Transformers. O DyT é inspirado pela observação de que a normalização de camadas em Transformers frequentemente produz mapeamentos entrada-saída em forma de S, semelhantes à função tanh. Ao incorporar o DyT, Transformers sem normalização podem igualar ou superar o desempenho de suas contrapartes normalizadas, geralmente sem ajuste de hiperparâmetros. Validamos a eficácia de Transformers com DyT em diversas configurações, variando de reconhecimento a geração, aprendizado supervisionado a auto-supervisionado, e modelos de visão computacional a modelos de linguagem. Essas descobertas desafiam o entendimento convencional de que camadas de normalização são indispensáveis em redes neurais modernas e oferecem novos insights sobre seu papel em redes profundas.
Com a existência de milhões de redes neurais publicamente disponíveis, a busca e análise de grandes repositórios de modelos torna-se cada vez mais importante. Navegar por tantos modelos exige um atlas, mas, como a maioria dos modelos é mal documentada, mapear esse atlas é um desafio. Para explorar o potencial oculto dos repositórios de modelos, mapeamos um atlas preliminar que representa a fração documentada do Hugging Face. Ele fornece visualizações impressionantes da paisagem e da evolução dos modelos. Demonstramos várias aplicações desse atlas, incluindo a previsão de atributos de modelos (por exemplo, precisão) e a análise de tendências em modelos de visão computacional. No entanto, como o atlas atual permanece incompleto, propomos um método para mapear regiões não documentadas. Especificamente, identificamos prioridades estruturais de alta confiança com base nas práticas dominantes de treinamento de modelos no mundo real. Ao aproveitar essas prioridades, nossa abordagem permite o mapeamento preciso de áreas anteriormente não documentadas do atlas. Disponibilizamos publicamente nossos conjuntos de dados, código e atlas interativo.
Modelos de texto para imagem, como Stable Diffusion e DALLE-3, ainda enfrentam dificuldades com edição de imagens em múltiplas etapas. Decompomos essa tarefa como um fluxo de trabalho (caminho) agencial de uso de ferramentas que aborda uma sequência de subtarefas por meio de ferramentas de IA com custos variados. Algoritmos de busca convencionais exigem uma exploração dispendiosa para encontrar caminhos de ferramentas. Embora os modelos de linguagem de grande escala (LLMs) possuam conhecimento prévio de planejamento de subtarefas, eles podem carecer de estimativas precisas das capacidades e custos das ferramentas para determinar quais aplicar em cada subtarefa. Podemos combinar os pontos fortes de ambos, LLMs e busca em grafos, para encontrar caminhos de ferramentas com custo eficiente? Propomos uma abordagem em três etapas, "CoSTA*", que aproveita os LLMs para criar uma árvore de subtarefas, o que ajuda a podar um grafo de ferramentas de IA para a tarefa dada, e então realiza uma busca A* no subgrafo reduzido para encontrar um caminho de ferramentas. Para equilibrar melhor o custo total e a qualidade, o CoSTA* combina ambas as métricas de cada ferramenta em cada subtarefa para guiar a busca A*. A saída de cada subtarefa é então avaliada por um modelo de visão e linguagem (VLM), onde uma falha acionará uma atualização do custo e da qualidade da ferramenta na subtarefa. Assim, a busca A* pode se recuperar rapidamente de falhas para explorar outros caminhos. Além disso, o CoSTA* pode alternar automaticamente entre modalidades ao longo das subtarefas para uma melhor relação custo-qualidade. Construímos um novo benchmark de edição de imagens desafiador em múltiplas etapas, no qual o CoSTA* supera os modelos ou agentes de edição de imagem mais avançados em termos de custo e qualidade, e realiza trocas versáteis de acordo com a preferência do usuário.
Avanços recentes em grandes modelos de visão e linguagem (LVLMs) têm mostrado potencial para o planejamento de tarefas corporificadas, mas eles ainda enfrentam desafios fundamentais, como restrições de dependência e eficiência. As abordagens existentes ou otimizam apenas a seleção de ações ou utilizam modelos do mundo durante a inferência, negligenciando os benefícios de aprender a modelar o mundo como uma forma de aprimorar as capacidades de planejamento. Propomos a Otimização Dual de Preferências (D^2PO), uma nova estrutura de aprendizado que otimiza conjuntamente a previsão de estados e a seleção de ações por meio de aprendizado de preferências, permitindo que os LVLMs compreendam a dinâmica do ambiente para um planejamento mais eficaz. Para coletar automaticamente trajetórias e dados de preferências passo a passo sem anotação humana, introduzimos um mecanismo de busca em árvore para exploração extensiva por meio de tentativa e erro. Experimentos extensivos no VoTa-Bench demonstram que nosso método baseado em D^2PO supera significativamente os métodos existentes e o GPT-4o quando aplicado ao Qwen2-VL (7B), LLaVA-1.6 (7B) e LLaMA-3.2 (11B), alcançando taxas de sucesso de tarefas superiores com caminhos de execução mais eficientes.
Os métodos atuais de geração e edição de imagens processam principalmente prompts textuais como entradas diretas, sem raciocinar sobre a composição visual e operações explícitas. Apresentamos o Generation Chain-of-Thought (GoT), um novo paradigma que permite a geração e edição por meio de um processo explícito de raciocínio em linguagem antes de gerar as imagens. Essa abordagem transforma a geração e edição convencional de texto para imagem em um framework guiado por raciocínio que analisa relações semânticas e arranjos espaciais. Definimos a formulação do GoT e construímos grandes conjuntos de dados GoT contendo mais de 9 milhões de amostras com cadeias de raciocínio detalhadas que capturam relações semântico-espaciais. Para aproveitar as vantagens do GoT, implementamos um framework unificado que integra o Qwen2.5-VL para a geração de cadeias de raciocínio com um modelo de difusão end-to-end aprimorado pelo nosso novo Módulo de Orientação Semântico-Espacial. Experimentos mostram que nosso framework GoT alcança excelente desempenho em tarefas de geração e edição, com melhorias significativas em relação às baselines. Além disso, nossa abordagem permite a geração visual interativa, permitindo que os usuários modifiquem explicitamente os passos de raciocínio para ajustes precisos na imagem. O GoT inaugura uma nova direção para a geração e edição visual guiada por raciocínio, produzindo imagens que se alinham melhor com a intenção humana. Para facilitar pesquisas futuras, disponibilizamos publicamente nossos conjuntos de dados, código e modelos pré-treinados em https://github.com/rongyaofang/GoT.
Este artigo apresenta o SANA-Sprint, um modelo de difusão eficiente para geração ultrarrápida de texto para imagem (T2I). O SANA-Sprint é construído sobre um modelo base pré-treinado e aprimorado com destilação híbrida, reduzindo drasticamente os passos de inferência de 20 para 1-4. Introduzimos três inovações principais: (1) Propomos uma abordagem sem treinamento que transforma um modelo de correspondência de fluxo pré-treinado para destilação de consistência em tempo contínuo (sCM), eliminando o custoso treinamento do zero e alcançando alta eficiência de treinamento. Nossa estratégia de destilação híbrida combina sCM com destilação adversarial latente (LADD): o sCM garante alinhamento com o modelo professor, enquanto o LADD melhora a fidelidade da geração em um único passo. (2) O SANA-Sprint é um modelo unificado adaptativo a passos que alcança geração de alta qualidade em 1-4 passos, eliminando o treinamento específico por passo e melhorando a eficiência. (3) Integramos o ControlNet ao SANA-Sprint para geração de imagens interativas em tempo real, permitindo feedback visual instantâneo para interação do usuário. O SANA-Sprint estabelece uma nova fronteira de Pareto em compensações de velocidade-qualidade, alcançando desempenho de ponta com 7,59 FID e 0,74 GenEval em apenas 1 passo - superando o FLUX-schnell (7,94 FID / 0,71 GenEval) enquanto é 10x mais rápido (0,1s vs 1,1s no H100). Também alcança latência de 0,1s (T2I) e 0,25s (ControlNet) para imagens de 1024 x 1024 no H100, e 0,31s (T2I) em uma RTX 4090, demonstrando sua excepcional eficiência e potencial para aplicações de consumo impulsionadas por IA (AIPC). Código e modelos pré-treinados serão disponibilizados como código aberto.
Apresentamos o VisualPRM, um Modelo de Recompensa de Processo (PRM) multimodal avançado com 8 bilhões de parâmetros, que aprimora as habilidades de raciocínio dos Modelos de Linguagem Multimodal de Grande Escala (MLLMs) existentes em diferentes escalas e famílias de modelos, utilizando estratégias de avaliação Best-of-N (BoN). Especificamente, nosso modelo melhora o desempenho de raciocínio de três tipos de MLLMs e quatro escalas de modelos diferentes. Mesmo quando aplicado ao altamente capacitado InternVL2.5-78B, ele alcança uma melhoria de 5,9 pontos em sete benchmarks de raciocínio multimodal. Os resultados experimentais mostram que nosso modelo exibe desempenho superior em comparação com Modelos de Recompensa de Resultado e Auto-Consistência durante a avaliação BoN. Para facilitar o treinamento de PRMs multimodais, construímos um conjunto de dados de supervisão de processo multimodal, o VisualPRM400K, utilizando um pipeline de dados automatizado. Para a avaliação de PRMs multimodais, propomos o VisualProcessBench, um benchmark com rótulos de correção passo a passo anotados por humanos, para medir as habilidades dos PRMs em detectar etapas errôneas em tarefas de raciocínio multimodal. Esperamos que nosso trabalho possa inspirar mais pesquisas futuras e contribuir para o desenvolvimento de MLLMs. Nosso modelo, dados e benchmark estão disponíveis em https://internvl.github.io/blog/2025-03-13-VisualPRM/.
Modelos de difusão de texto para imagem alcançaram sucesso notável na geração de conteúdos de alta qualidade a partir de prompts de texto. No entanto, sua dependência de dados publicamente disponíveis e a crescente tendência de compartilhamento de dados para ajuste fino tornam esses modelos particularmente vulneráveis a ataques de envenenamento de dados. Neste trabalho, introduzimos o Ataque de Marcação Silenciosa, um novo método de envenenamento de dados que manipula modelos de difusão de texto para imagem para gerar imagens contendo logotipos ou símbolos de marcas específicas sem qualquer gatilho de texto. Descobrimos que, quando certos padrões visuais estão repetidamente presentes nos dados de treinamento, o modelo aprende a reproduzi-los naturalmente em suas saídas, mesmo sem menções no prompt. Aproveitando isso, desenvolvemos um algoritmo automatizado de envenenamento de dados que injeta logotipos de forma discreta em imagens originais, garantindo que eles se integrem naturalmente e permaneçam indetectáveis. Modelos treinados nesse conjunto de dados envenenados geram imagens contendo logotipos sem degradar a qualidade da imagem ou o alinhamento do texto. Validamos experimentalmente nosso ataque de marcação silenciosa em dois cenários realistas, utilizando grandes conjuntos de dados de imagens de alta qualidade e conjuntos de dados de personalização de estilo, alcançando altas taxas de sucesso mesmo sem um gatilho de texto específico. Avaliações humanas e métricas quantitativas, incluindo detecção de logotipos, mostram que nosso método pode incorporar logotipos de forma furtiva.
Tornar a amostragem de modelos generativos texto-imagem (T2I) rápida e de alta qualidade representa uma direção de pesquisa promissora. Estudos anteriores geralmente se concentraram em melhorar a qualidade visual das imagens sintetizadas em detrimento da eficiência de amostragem ou em acelerar drasticamente a amostragem sem melhorar a capacidade generativa do modelo base. Além disso, quase todos os métodos de inferência não conseguiram garantir desempenho estável simultaneamente em modelos de difusão (DMs) e modelos autoregressivos visuais (ARMs). Neste artigo, introduzimos um novo paradigma de inferência plug-and-play, CoRe^2, que compreende três subprocessos: Coletar, Refletir e Refinar. O CoRe^2 primeiro coleta trajetórias de orientação sem classificador (CFG) e, em seguida, usa os dados coletados para treinar um modelo fraco que reflete os conteúdos fáceis de aprender, reduzindo pela metade o número de avaliações de função durante a inferência. Posteriormente, o CoRe^2 emprega orientação de fraco para forte para refinar a saída condicional, melhorando assim a capacidade do modelo de gerar conteúdo de alta frequência e realista, que é difícil para o modelo base capturar. Até onde sabemos, o CoRe^2 é o primeiro a demonstrar eficiência e eficácia em uma ampla gama de DMs, incluindo SDXL, SD3.5 e FLUX, bem como ARMs como LlamaGen. Ele exibiu melhorias significativas de desempenho em HPD v2, Pick-of-Pic, Drawbench, GenEval e T2I-Compbench. Além disso, o CoRe^2 pode ser integrado perfeitamente com o estado da arte Z-Sampling, superando-o em 0,3 e 0,16 em PickScore e AES, enquanto economiza 5,64s usando SD3.5. O código foi liberado em https://github.com/xie-lab-ml/CoRe/tree/main.
Aprender campos de linguagem 4D para permitir consultas de linguagem sensíveis ao tempo e de vocabulário aberto em cenas dinâmicas é essencial para muitas aplicações do mundo real. Embora o LangSplat tenha conseguido ancorar características do CLIP em representações Gaussianas 3D, alcançando precisão e eficiência em cenas estáticas 3D, ele não possui a capacidade de lidar com campos dinâmicos 4D, já que o CLIP, projetado para tarefas estáticas de imagem-texto, não consegue capturar a dinâmica temporal em vídeos. Ambientes do mundo real são inerentemente dinâmicos, com a semântica dos objetos evoluindo ao longo do tempo. Construir um campo de linguagem 4D preciso exige a obtenção de características de vídeo alinhadas por pixel e específicas por objeto, algo que os modelos de visão atuais têm dificuldade em alcançar. Para enfrentar esses desafios, propomos o 4D LangSplat, que aprende campos de linguagem 4D para lidar eficientemente com consultas de vocabulário aberto agnósticas ao tempo ou sensíveis ao tempo em cenas dinâmicas. O 4D LangSplat contorna a aprendizagem do campo de linguagem a partir de características visuais e, em vez disso, aprende diretamente a partir de textos gerados a partir de legendas específicas por objeto em vídeos por meio de Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Especificamente, propomos um método de prompt de vídeo específico por objeto e multimodal, composto por prompts visuais e textuais que orientam os MLLMs a gerar legendas detalhadas, temporalmente consistentes e de alta qualidade para objetos ao longo de um vídeo. Essas legendas são codificadas usando um Modelo de Linguagem de Grande Escala em embeddings de sentenças de alta qualidade, que então servem como supervisão de características específicas por objeto e alinhadas por pixel, facilitando consultas de texto de vocabulário aberto por meio de espaços de embedding compartilhados. Reconhecendo que objetos em cenas 4D exibem transições suaves entre estados, propomos ainda uma rede deformável de status para modelar efetivamente essas mudanças contínuas ao longo do tempo. Nossos resultados em vários benchmarks demonstram que o 4D LangSplat alcança resultados precisos e eficientes tanto para consultas de vocabulário aberto sensíveis ao tempo quanto agnósticas ao tempo.
Este artigo apresenta nosso trabalho na série Light-R1, com modelos, dados e código todos liberados. Primeiro, focamos no treinamento de modelos long-COT do zero, especificamente começando com modelos que inicialmente não possuíam capacidades long-COT. Usando uma receita de treinamento curricular composta por SFT em dois estágios e DPO semi-on-policy, treinamos nosso modelo Light-R1-32B a partir do Qwen2.5-32B-Instruct, resultando em um desempenho matemático superior ao DeepSeek-R1-Distill-Qwen-32B. Apesar de ter sido treinado exclusivamente com dados matemáticos, o Light-R1-32B demonstra forte generalização em outros domínios. Na fase subsequente deste trabalho, destacamos o benefício significativo do conjunto de dados de 3k construído para o segundo estágio de SFT no aprimoramento de outros modelos. Ao ajustar os modelos DeepSeek-R1-Distilled usando esse conjunto de dados, obtemos novos modelos SOTA em 7B e 14B, enquanto o modelo de 32B, Light-R1-32B-DS, teve desempenho comparável ao QwQ-32B e ao DeepSeek-R1. Além disso, estendemos nosso trabalho aplicando aprendizado por reforço, especificamente GRPO, em modelos long-COT para melhorar ainda mais o desempenho de raciocínio. Treinamos com sucesso nosso modelo final Light-R1-14B-DS com RL, alcançando desempenho SOTA entre modelos de 14B parâmetros em matemática. Com pontuações AIME24 e 25 de 74,0 e 60,2, respectivamente, o Light-R1-14B-DS supera até mesmo muitos modelos de 32B e o DeepSeek-R1-Distill-Llama-70B. Seu treinamento com RL também exibe o comportamento esperado, mostrando aumento simultâneo no comprimento da resposta e na pontuação de recompensa. A série Light-R1 valida o treinamento de modelos long-COT do zero, demonstra a arte nos dados de SFT e libera modelos SOTA a partir de RL.
Modelos generativos baseados em difusão revolucionaram a edição de imagens orientada a objetos, mas sua aplicação em remoção e inserção realista de objetos ainda enfrenta desafios, como a complexa interação de efeitos físicos e a insuficiência de dados de treinamento pareados. Neste trabalho, apresentamos o OmniPaint, um framework unificado que reconceitualiza a remoção e a inserção de objetos como processos interdependentes, em vez de tarefas isoladas. Aproveitando um prior de difusão pré-treinado e um pipeline de treinamento progressivo que inclui otimização inicial de amostras pareadas e refinamento em larga escala não pareado via CycleFlow, o OmniPaint alcança a eliminação precisa de objetos em primeiro plano e a inserção perfeita de objetos, preservando fielmente a geometria da cena e as propriedades intrínsecas. Além disso, nossa nova métrica CFD oferece uma avaliação robusta e sem referência da consistência contextual e da alucinação de objetos, estabelecendo um novo padrão para edição de imagens de alta fidelidade. Página do projeto: https://yeates.github.io/OmniPaint-Page/
Os Modelos de Visão e Linguagem têm feito progressos significativos em muitas tarefas focadas em percepção, porém, seu avanço em tarefas voltadas para raciocínio parece ser limitado devido à falta de dados de treinamento de alta qualidade e diversificados. Neste trabalho, buscamos abordar a escassez de conjuntos de dados multimodais focados em raciocínio. Propomos o VisualWebInstruct — uma abordagem inovadora que utiliza mecanismos de busca para criar um conjunto de dados diversificado e de alta qualidade, abrangendo múltiplas disciplinas como matemática, física, finanças, química, entre outras. Começando com 30.000 imagens selecionadas meticulosamente, empregamos a pesquisa do Google Imagens para identificar sites contendo imagens semelhantes. Coletamos e processamos os HTMLs de mais de 700 mil fontes de URLs únicas. Por meio de um pipeline de extração de conteúdo, filtragem e síntese, construímos um conjunto de dados de aproximadamente 900 mil pares de perguntas e respostas, sendo 40% pares de perguntas e respostas visuais e o restante pares de perguntas e respostas textuais. Modelos ajustados com o VisualWebInstruct demonstram ganhos significativos de desempenho: (1) o treinamento a partir do Llava-OV-mid mostra ganhos de 10 a 20 pontos percentuais absolutos em benchmarks, (2) o treinamento a partir do MAmmoTH-VL mostra um ganho absoluto de 5%. Nosso melhor modelo, o MAmmoTH-VL2, apresenta desempenho de ponta na classe de 10 bilhões de parâmetros no MMMU-Pro-std (40,7%), MathVerse (42,6%) e DynaMath (55,7%). Esses resultados notáveis destacam a eficácia do nosso conjunto de dados em aprimorar as capacidades de raciocínio dos VLMs para tarefas multimodais complexas.
Os recentes avanços em Modelos de Raciocínio em Larga Escala (LRMs), particularmente aqueles que utilizam o raciocínio em Cadeia de Pensamento (CoT), abriram novas possibilidades para a Tradução Automática (MT). Este artigo de posicionamento argumenta que os LRMs transformaram substancialmente os paradigmas tradicionais de MT neural, bem como os baseados em LLMs, ao reformular a tradução como uma tarefa dinâmica de raciocínio que requer compreensão e raciocínio contextual, cultural e linguístico. Identificamos três mudanças fundamentais: 1) coerência contextual, onde os LRMs resolvem ambiguidades e preservam a estrutura do discurso por meio de raciocínio explícito sobre contextos complexos ou mesmo a ausência de contexto; 2) intencionalidade cultural, permitindo que os modelos adaptem as saídas ao inferir a intenção do falante, as expectativas do público e as normas sociolinguísticas; 3) autorreflexão, onde os LRMs podem realizar autorreflexão durante o tempo de inferência para corrigir possíveis erros na tradução, especialmente em casos extremamente ruidosos, demonstrando maior robustez em comparação com a simples tradução mapeada X->Y. Exploramos vários cenários de tradução, incluindo tradução estilizada, tradução em nível de documento e tradução multimodal, apresentando exemplos empíricos que demonstram a superioridade dos LRMs na tradução. Também identificamos vários fenômenos interessantes dos LRMs para MT, como a tradução automática por pivô, além de desafios críticos, como a superlocalização na tradução e a eficiência de inferência. Em conclusão, acreditamos que os LRMs redefinem os sistemas de tradução não apenas como conversores de texto, mas como agentes cognitivos multilíngues capazes de raciocinar sobre o significado além do texto. Essa mudança de paradigma nos leva a pensar nos problemas de tradução além dos cenários tradicionais, em um contexto muito mais amplo com os LRMs - o que podemos alcançar com base nisso.
Os avanços recentes em modelos de linguagem de grande escala (LLMs) com contexto longo têm se concentrado principalmente no processamento de contextos de entrada extensos, resultando em progressos significativos na compreensão de contextos longos. No entanto, o aspecto igualmente crítico da geração de saídas de longo formato tem recebido relativamente menos atenção. Este artigo defende uma mudança de paradigma na pesquisa de PLN para abordar os desafios da geração de saídas longas. Tarefas como escrita de romances, planejamento de longo prazo e raciocínio complexo exigem que os modelos compreendam contextos extensos e produzam textos estendidos coerentes, contextualmente ricos e logicamente consistentes. Essas demandas destacam uma lacuna crítica nas capacidades atuais dos LLMs. Ressaltamos a importância desse domínio pouco explorado e defendemos esforços concentrados para desenvolver LLMs fundamentais projetados para gerar saídas de longo formato de alta qualidade, que possuem um imenso potencial para aplicações no mundo real.
Os modelos de geração de vídeo alcançaram progressos notáveis no último ano. A qualidade dos vídeos gerados por IA continua a melhorar, mas ao custo de um tamanho maior do modelo, maior quantidade de dados e maior demanda por capacidade de treinamento. Neste relatório, apresentamos o Open-Sora 2.0, um modelo de geração de vídeo de nível comercial treinado por apenas US$ 200 mil. Com este modelo, demonstramos que o custo de treinamento de um modelo de geração de vídeo de alto desempenho é altamente controlável. Detalhamos todas as técnicas que contribuíram para esse avanço em eficiência, incluindo curadoria de dados, arquitetura do modelo, estratégia de treinamento e otimização do sistema. De acordo com os resultados de avaliação humana e pontuações do VBench, o Open-Sora 2.0 é comparável aos principais modelos de geração de vídeo globais, incluindo o HunyuanVideo de código aberto e o Runway Gen-3 Alpha de código fechado. Ao disponibilizar o Open-Sora 2.0 como código aberto, nosso objetivo é democratizar o acesso à tecnologia avançada de geração de vídeo, promovendo uma inovação e criatividade mais amplas na criação de conteúdo. Todos os recursos estão disponíveis publicamente em: https://github.com/hpcaitech/Open-Sora.
Neste trabalho, estudamos empiricamente os Transformadores de Difusão (DiTs) para geração de texto para imagem, com foco em escolhas arquitetônicas, estratégias de condicionamento de texto e protocolos de treinamento. Avaliamos uma variedade de arquiteturas baseadas em DiTs—incluindo variantes no estilo PixArt e MMDiT—e as comparamos com uma variante padrão de DiT que processa diretamente entradas concatenadas de texto e ruído. Surpreendentemente, nossos resultados revelam que o desempenho do DiT padrão é comparável ao desses modelos especializados, ao mesmo tempo em que demonstra uma eficiência superior em termos de parâmetros, especialmente quando escalonado. Aproveitando a estratégia de compartilhamento de parâmetros por camadas, alcançamos uma redução adicional de 66% no tamanho do modelo em comparação com uma arquitetura MMDiT, com impacto mínimo no desempenho. Com base em uma análise aprofundada de componentes críticos, como codificadores de texto e Autoencodadores Variacionais (VAEs), introduzimos o DiT-Air e o DiT-Air-Lite. Com ajuste fino supervisionado e baseado em recompensas, o DiT-Air alcança desempenho de ponta no GenEval e no T2I CompBench, enquanto o DiT-Air-Lite permanece altamente competitivo, superando a maioria dos modelos existentes, apesar de seu tamanho compacto.
O pixel grounding, que abrange tarefas como a Segmentação de Expressões Referenciais (RES), tem atraído considerável atenção devido ao seu imenso potencial para preencher a lacuna entre as modalidades de visão e linguagem. No entanto, os avanços nesse domínio estão atualmente limitados pelas restrições inerentes aos conjuntos de dados existentes, incluindo categorias de objetos limitadas, diversidade textual insuficiente e escassez de anotações de alta qualidade. Para mitigar essas limitações, apresentamos o GroundingSuite, que compreende: (1) um framework automatizado de anotação de dados que utiliza múltiplos agentes de Modelos de Visão e Linguagem (VLM); (2) um conjunto de dados de treinamento em larga escala que abrange 9,56 milhões de expressões referenciais diversas e suas segmentações correspondentes; e (3) um benchmark de avaliação meticulosamente curado, composto por 3.800 imagens. O conjunto de dados de treinamento do GroundingSuite facilita melhorias substanciais de desempenho, permitindo que os modelos treinados nele alcancem resultados de ponta. Especificamente, um cIoU de 68,9 no gRefCOCO e um gIoU de 55,3 no RefCOCOm. Além disso, o framework de anotação do GroundingSuite demonstra eficiência superior em comparação com o método líder atual de anotação de dados, ou seja, 4,5 vezes mais rápido que o GLaMM.
Os Modelos de Linguagem de Grande Escala demonstraram uma capacidade notável de raciocínio em tarefas textuais complexas. No entanto, o raciocínio multimodal, que requer a integração de informações visuais e textuais, continua sendo um desafio significativo. Os modelos visuais-linguísticos existentes frequentemente lutam para analisar e raciocinar efetivamente sobre o conteúdo visual, resultando em desempenho subótimo em tarefas de raciocínio complexas. Além disso, a ausência de benchmarks abrangentes dificulta a avaliação precisa das capacidades de raciocínio multimodal. Neste artigo, apresentamos o R1-Onevision, um modelo de raciocínio multimodal projetado para preencher a lacuna entre a percepção visual e o raciocínio profundo. Para isso, propomos um pipeline de raciocínio cross-modal que transforma imagens em representações textuais formais, permitindo um raciocínio preciso baseado em linguagem. Utilizando esse pipeline, construímos o conjunto de dados R1-Onevision, que fornece anotações detalhadas e passo a passo de raciocínio multimodal em diversos domínios. Desenvolvemos ainda o modelo R1-Onevision por meio de ajuste fino supervisionado e aprendizado por reforço para cultivar habilidades avançadas de raciocínio e generalização robusta. Para avaliar de forma abrangente o desempenho do raciocínio multimodal em diferentes níveis, introduzimos o R1-Onevision-Bench, um benchmark alinhado com os estágios educacionais humanos, cobrindo exames desde o ensino médio até a universidade e além. Os resultados experimentais mostram que o R1-Onevision alcança desempenho de ponta, superando modelos como GPT-4o e Qwen2.5-VL em vários benchmarks desafiadores de raciocínio multimodal.
Modelos de difusão destilados sofrem de uma limitação crítica: a redução da diversidade de amostras em comparação com seus equivalentes base. Neste trabalho, descobrimos que, apesar dessa perda de diversidade, os modelos destilados retêm as representações fundamentais de conceitos dos modelos base. Demonstramos a destilação de controle - onde mecanismos de controle como Concept Sliders e LoRAs treinados em modelos base podem ser transferidos diretamente para modelos destilados e vice-versa, efetivamente destilando o controle sem necessidade de retreinamento. Essa preservação da estrutura representacional motivou nossa investigação sobre os mecanismos de colapso de diversidade durante a destilação. Para entender como a destilação afeta a diversidade, introduzimos a Visualização de Alvo de Difusão (DT-Visualization), uma ferramenta de análise e depuração que revela como os modelos preveem os resultados finais em etapas intermediárias. Através da DT-Visualization, identificamos artefatos de geração, inconsistências e demonstramos que os passos iniciais da difusão determinam desproporcionalmente a diversidade da saída, enquanto os passos posteriores refinam principalmente os detalhes. Com base nessas percepções, introduzimos a destilação de diversidade - uma abordagem híbrida de inferência que emprega estrategicamente o modelo base apenas para o primeiro passo crítico antes de transicionar para o modelo destilado eficiente. Nossos experimentos demonstram que essa simples modificação não apenas restaura as capacidades de diversidade dos modelos base para os destilados, mas surpreendentemente as supera, mantendo quase a eficiência computacional da inferência destilada, tudo isso sem exigir treinamento adicional ou modificações no modelo. Nosso código e dados estão disponíveis em https://distillation.baulab.info.
Os avanços recentes na geração de vídeos permitem a produção de vídeos realistas e de longa duração (minutos) em tomada única com transformadores de difusão escaláveis. No entanto, vídeos narrativos do mundo real exigem cenas com múltiplas tomadas, mantendo consistência visual e dinâmica entre elas. Neste trabalho, introduzimos o Long Context Tuning (LCT), um paradigma de treinamento que expande a janela de contexto de modelos pré-treinados de difusão de vídeo em tomada única para aprender consistência em nível de cena diretamente a partir dos dados. Nosso método estende mecanismos de atenção completa de tomadas individuais para abranger todas as tomadas dentro de uma cena, incorporando embeddings de posição 3D intercalados e uma estratégia de ruído assíncrona, permitindo tanto a geração conjunta quanto autoregressiva de tomadas sem parâmetros adicionais. Modelos com atenção bidirecional após o LCT podem ser ainda mais ajustados com atenção causal-contextual, facilitando a geração autoregressiva com cache KV eficiente. Experimentos demonstram que modelos de tomada única após o LCT podem produzir cenas com múltiplas tomadas coerentes e exibir capacidades emergentes, incluindo geração composicional e extensão interativa de tomadas, abrindo caminho para uma criação de conteúdo visual mais prática. Consulte https://guoyww.github.io/projects/long-context-video/ para mais detalhes.
À medida que escalamos para modelos de aprendizado de máquina cada vez maiores, as demandas frequentes de sincronização inerentes às abordagens de paralelismo de dados criam desacelerações significativas, representando um desafio crítico para uma maior escalabilidade. Trabalhos recentes desenvolveram uma abordagem (DiLoCo) que relaxa as demandas de sincronização sem comprometer a qualidade do modelo. No entanto, esses estudos não analisam cuidadosamente como o comportamento do DiLoCo muda com o tamanho do modelo. Neste trabalho, estudamos o comportamento das leis de escalabilidade do DiLoCo ao treinar LLMs (Large Language Models) sob um orçamento fixo de computação. Focamos em como fatores algorítmicos, incluindo o número de réplicas do modelo, hiperparâmetros e orçamento de tokens, afetam o treinamento de maneiras que podem ser previstas com precisão por meio de leis de escalabilidade. Descobrimos que o DiLoCo escala de forma previsível e robusta com o tamanho do modelo. Quando bem ajustado, o DiLoCo escala melhor do que o treinamento com paralelismo de dados em relação ao tamanho do modelo, e pode superar o treinamento com paralelismo de dados mesmo em tamanhos pequenos de modelo. Nossos resultados demonstram um conjunto mais amplo de benefícios do DiLoCo do que o documentado anteriormente, incluindo tamanhos de lote ótimos maiores, melhoria na generalização em tarefas subsequentes com a escala e redução da perda de avaliação para um orçamento fixo de tokens.
A geração de vídeos tem testemunhado progressos notáveis com o advento de modelos generativos profundos, particularmente os modelos de difusão. Embora os métodos existentes se destaquem na geração de vídeos de alta qualidade a partir de prompts de texto ou imagens únicas, a geração de vídeos personalizados com múltiplos sujeitos permanece um desafio amplamente inexplorado. Essa tarefa envolve a síntese de vídeos que incorporam múltiplos sujeitos distintos, cada um definido por imagens de referência separadas, garantindo consistência temporal e espacial. As abordagens atuais dependem principalmente do mapeamento de imagens de sujeitos para palavras-chave em prompts de texto, o que introduz ambiguidade e limita sua capacidade de modelar efetivamente as relações entre os sujeitos. Neste artigo, propomos o CINEMA, uma nova estrutura para a geração coerente de vídeos com múltiplos sujeitos, aproveitando o Modelo de Linguagem Multimodal de Grande Escala (MLLM). Nossa abordagem elimina a necessidade de correspondências explícitas entre imagens de sujeitos e entidades de texto, mitigando a ambiguidade e reduzindo o esforço de anotação. Ao utilizar o MLLM para interpretar as relações entre os sujeitos, nosso método facilita a escalabilidade, permitindo o uso de grandes e diversos conjuntos de dados para treinamento. Além disso, nossa estrutura pode ser condicionada a um número variável de sujeitos, oferecendo maior flexibilidade na criação de conteúdo personalizado. Por meio de avaliações extensivas, demonstramos que nossa abordagem melhora significativamente a consistência dos sujeitos e a coerência geral do vídeo, abrindo caminho para aplicações avançadas em narrativas, mídia interativa e geração de vídeos personalizados.
Este artigo explora a viabilidade de usar modelos de texto para imagem em uma configuração zero-shot para gerar imagens de conceitos taxonômicos. Embora os métodos baseados em texto para enriquecimento de taxonomias sejam bem estabelecidos, o potencial da dimensão visual permanece inexplorado. Para abordar isso, propomos um benchmark abrangente para Geração de Imagens Taxonômicas que avalia a capacidade dos modelos de compreender conceitos taxonômicos e gerar imagens relevantes e de alta qualidade. O benchmark inclui conceitos de senso comum e amostrados aleatoriamente do WordNet, juntamente com previsões geradas por LLM. Os 12 modelos são avaliados usando 9 novas métricas de texto para imagem relacionadas à taxonomia e feedback humano. Além disso, pioneiramente, utilizamos avaliação pareada com feedback do GPT-4 para geração de imagens. Os resultados experimentais mostram que a classificação dos modelos difere significativamente das tarefas padrão de T2I. Playground-v2 e FLUX superam consistentemente em todas as métricas e subconjuntos, enquanto a abordagem baseada em recuperação tem um desempenho ruim. Essas descobertas destacam o potencial para automatizar a curadoria de recursos de dados estruturados.
Modelos de Linguagem Visual (VLMs) demonstraram um potencial significativo em diversas tarefas subsequentes, incluindo Geração de Imagem/Video, Resposta a Perguntas Visuais, Chatbots Multimodais e Compreensão de Vídeo. No entanto, esses modelos frequentemente enfrentam dificuldades com transformações básicas de imagem. Este artigo investiga a compreensão em nível de imagem dos VLMs, especificamente o CLIP da OpenAI e o SigLIP da Google. Nossas descobertas revelam que esses modelos carecem de compreensão de múltiplas transformações em nível de imagem. Para facilitar este estudo, criamos uma versão aumentada do conjunto de dados Flickr8k, emparelhando cada imagem com uma descrição detalhada da transformação aplicada. Exploramos ainda como essa deficiência impacta tarefas subsequentes, particularmente na edição de imagens, e avaliamos o desempenho de modelos Image2Image de última geração em transformações simples.
A transferência de estilo envolve a transferência do estilo de uma imagem de referência para o conteúdo de uma imagem alvo. Avanços recentes em métodos baseados em LoRA (Adaptação de Baixa Ordem) têm mostrado potencial para capturar efetivamente o estilo de uma única imagem. No entanto, essas abordagens ainda enfrentam desafios significativos, como inconsistência de conteúdo, desalinhamento de estilo e vazamento de conteúdo. Neste artigo, analisamos de forma abrangente as limitações da parametrização padrão de difusão, que aprende a prever ruído, no contexto da transferência de estilo. Para abordar esses problemas, introduzimos o ConsisLoRA, um método baseado em LoRA que melhora a consistência tanto do conteúdo quanto do estilo, otimizando os pesos do LoRA para prever a imagem original em vez de ruído. Também propomos uma estratégia de treinamento em duas etapas que desacopla a aprendizagem do conteúdo e do estilo da imagem de referência. Para capturar efetivamente tanto a estrutura global quanto os detalhes locais da imagem de conteúdo, introduzimos uma estratégia de transição gradual de perda. Além disso, apresentamos um método de orientação de inferência que permite o controle contínuo das intensidades de conteúdo e estilo durante a inferência. Por meio de avaliações qualitativas e quantitativas, nosso método demonstra melhorias significativas na consistência de conteúdo e estilo, reduzindo efetivamente o vazamento de conteúdo.
Apresentamos o ARPG, um novo modelo visual autorregressivo que possibilita a geração paralela randomizada, abordando as limitações inerentes das abordagens convencionais de ordem raster, que prejudicam a eficiência de inferência e a generalização zero-shot devido à sua ordem sequencial e pré-definida de geração de tokens. Nossa principal percepção é que a modelagem eficaz de ordem aleatória requer orientação explícita para determinar a posição do próximo token previsto. Para isso, propomos uma nova estrutura de decodificação guiada que desacopla a orientação posicional da representação de conteúdo, codificando-as separadamente como consultas e pares chave-valor. Ao incorporar diretamente essa orientação no mecanismo de atenção causal, nossa abordagem permite treinamento e geração em ordem totalmente aleatória, eliminando a necessidade de atenção bidirecional. Consequentemente, o ARPG generaliza facilmente para tarefas zero-shot, como preenchimento de imagens, expansão de bordas e aumento de resolução. Além disso, ele suporta inferência paralela ao processar múltiplas consultas simultaneamente usando um cache KV compartilhado. No benchmark ImageNet-1K 256, nossa abordagem atinge um FID de 1,94 com apenas 64 etapas de amostragem, alcançando um aumento de mais de 20 vezes na taxa de processamento enquanto reduz o consumo de memória em mais de 75% em comparação com modelos autorregressivos recentes representativos de escala similar.
Modelos generativos avançados se destacam na síntese de imagens, mas frequentemente dependem de condicionamento baseado em texto. Designers visuais, no entanto, muitas vezes trabalham além da linguagem, inspirando-se diretamente em elementos visuais existentes. Em muitos casos, esses elementos representam apenas fragmentos de um conceito potencial—como uma asa de estrutura única ou um penteado específico—servindo de inspiração para o artista explorar como eles podem se unir criativamente em um todo coerente. Reconhecendo essa necessidade, introduzimos um framework generativo que integra de forma contínua um conjunto parcial de componentes visuais fornecidos pelo usuário em uma composição coerente, ao mesmo tempo em que amostra as partes ausentes necessárias para gerar um conceito plausível e completo. Nossa abordagem se baseia em um espaço de representação robusto e pouco explorado, extraído do IP-Adapter+, no qual treinamos o IP-Prior, um modelo leve de correspondência de fluxo que sintetiza composições coerentes com base em prioridades específicas do domínio, permitindo gerações diversas e contextualmente conscientes. Além disso, apresentamos uma estratégia de ajuste fino baseada em LoRA que melhora significativamente a aderência ao prompt no IP-Adapter+ para uma tarefa específica, abordando o equilíbrio comum entre qualidade de reconstrução e aderência ao prompt.
Neste artigo, propomos um framework geral para navegação orientada a objetivos universal em cenário zero-shot. Os métodos zero-shot existentes constroem frameworks de inferência baseados em grandes modelos de linguagem (LLM) para tarefas específicas, que diferem bastante no pipeline geral e falham em generalizar entre diferentes tipos de objetivos. Com o objetivo de alcançar uma navegação zero-shot universal, propomos uma representação gráfica uniforme para unificar diferentes objetivos, incluindo categoria de objeto, imagem de instância e descrição textual. Também convertemos a observação do agente em um grafo de cena mantido online. Com essa representação consistente de cena e objetivo, preservamos a maior parte das informações estruturais em comparação com o uso exclusivo de texto e somos capazes de aproveitar o LLM para raciocínio explícito baseado em grafos. Especificamente, realizamos a correspondência de grafos entre o grafo de cena e o grafo de objetivo em cada instante de tempo e propomos diferentes estratégias para gerar o objetivo de exploração de longo prazo de acordo com diferentes estados de correspondência. O agente primeiro busca iterativamente subgrafos do objetivo quando não há correspondência. Com correspondência parcial, o agente então utiliza projeção de coordenadas e alinhamento de pares âncora para inferir a localização do objetivo. Por fim, a correção do grafo de cena e a verificação do objetivo são aplicadas para correspondência perfeita. Também apresentamos um mecanismo de lista negra para permitir uma transição robusta entre os estágios. Experimentos extensivos em vários benchmarks mostram que nosso UniGoal alcança desempenho zero-shot de última geração em três tarefas de navegação estudadas com um único modelo, superando até mesmo métodos zero-shot específicos para tarefas e métodos universais supervisionados.
Modelos de reconhecimento automático de fala (ASR) ganharam destaque em aplicações como legendagem, tradução de fala e transcrição ao vivo. Este artigo estuda o Whisper e duas variantes de modelo: uma otimizada para streaming de fala ao vivo e outra para transcrição offline. Notavelmente, esses modelos foram observados gerando conteúdo alucinado, reduzindo a confiabilidade da transcrição. Além disso, variantes maiores do modelo apresentam maior latência e desafios para implantação em dispositivos com recursos limitados. Este estudo analisa as semelhanças e diferenças entre três modelos Whisper, examinando qualitativamente suas capacidades distintas. Em seguida, o estudo quantifica o impacto da quantização do modelo na latência e avalia sua viabilidade para implantação em dispositivos de borda. Utilizando o conjunto de dados LibriSpeech de código aberto, este artigo avalia a taxa de erro de palavras (WER) juntamente com a análise de latência do whispercpp usando três métodos de quantização (INT4, INT5, INT8). Os resultados mostram que a quantização reduz a latência em 19% e o tamanho do modelo em 45%, preservando a precisão da transcrição. Essas descobertas fornecem insights sobre os casos de uso ideais de diferentes modelos Whisper e as possibilidades de implantação em dispositivos de borda. Todo o código, conjuntos de dados e detalhes de implementação estão disponíveis em um repositório público do GitHub: https://github.com/allisonandreyev/WhisperQuantization.git.
Os modelos Vision Transformer exibem um poder imenso, mas permanecem opacos à compreensão humana, apresentando desafios e riscos para aplicações práticas. Embora pesquisas anteriores tenham tentado desmistificar esses modelos por meio de atribuição de entrada e análise de papéis dos neurônios, houve uma lacuna notável na consideração de informações em nível de camada e no caminho holístico do fluxo de informações entre as camadas. Neste artigo, investigamos a importância dos caminhos de neurônios influentes dentro dos Vision Transformers, que é um caminho de neurônios desde a entrada até a saída do modelo que impacta a inferência do modelo de forma mais significativa. Primeiro, propomos uma medida de influência conjunta para avaliar a contribuição de um conjunto de neurônios para o resultado do modelo. E ainda fornecemos uma abordagem de localização progressiva de neurônios por camada que seleciona eficientemente o neurônio mais influente em cada camada, tentando descobrir o caminho crucial de neurônios da entrada até a saída dentro do modelo alvo. Nossos experimentos demonstram a superioridade de nosso método ao encontrar o caminho de neurônios mais influente ao longo do qual as informações fluem, em relação às soluções de linha de base existentes. Além disso, os caminhos de neurônios ilustraram que os Vision Transformers exibem um mecanismo interno específico para processar as informações visuais dentro da mesma categoria de imagem. Analisamos ainda os efeitos-chave desses neurônios na tarefa de classificação de imagens, mostrando que os caminhos de neurônios encontrados já preservam a capacidade do modelo em tarefas subsequentes, o que também pode lançar luz sobre aplicações do mundo real, como a poda de modelos. O site do projeto, incluindo o código de implementação, está disponível em https://foundation-model-research.github.io/NeuronPath/.
Os Modelos de Linguagem de Grande Escala (LLMs) estão rapidamente entrando na vida das crianças - por meio da adoção impulsionada pelos pais, escolas e redes de colegas - mas as pesquisas atuais sobre ética e segurança em IA não abordam adequadamente os riscos relacionados ao conteúdo específicos para menores. Neste artigo, destacamos essas lacunas com um estudo de caso real de um chatbot baseado em LLM implantado em uma escola de ensino fundamental, revelando como os alunos usaram e, às vezes, usaram mal o sistema. Com base nessas descobertas, propomos uma nova taxonomia de riscos baseados em conteúdo para menores e apresentamos o MinorBench, um benchmark de código aberto projetado para avaliar LLMs em sua capacidade de recusar consultas inseguras ou inadequadas de crianças. Avaliamos seis LLMs proeminentes sob diferentes prompts de sistema, demonstrando uma variabilidade substancial em sua conformidade com a segurança infantil. Nossos resultados informam etapas práticas para mecanismos de segurança mais robustos e focados nas crianças e destacam a urgência de adaptar os sistemas de IA para proteger os usuários jovens.
Apesar do desempenho promissor dos modelos de linguagem e visão de grande escala (LVLMs) de código aberto, os ataques direcionados baseados em transferência frequentemente falham contra LVLMs comerciais de caixa preta. A análise das perturbações adversariais malsucedidas revela que as perturbações aprendidas geralmente se originam de uma distribuição uniforme e carecem de detalhes semânticos claros, resultando em respostas não intencionais. Essa ausência crítica de informação semântica faz com que os LVLMs comerciais ignorem completamente a perturbação ou interpretem mal sua semântica embutida, causando assim a falha do ataque. Para superar esses problemas, observamos que a identificação de objetos semânticos centrais é um objetivo-chave para modelos treinados com diversos conjuntos de dados e metodologias. Essa percepção motiva nossa abordagem, que aprimora a clareza semântica ao codificar detalhes semânticos explícitos em regiões locais, garantindo assim interoperabilidade e capturando características mais refinadas, e ao concentrar as modificações em áreas semanticamente ricas, em vez de aplicá-las uniformemente. Para alcançar isso, propomos uma solução simples, mas altamente eficaz: em cada etapa de otimização, a imagem adversarial é recortada aleatoriamente por uma proporção de aspecto e escala controladas, redimensionada e então alinhada com a imagem alvo no espaço de incorporação. Os resultados experimentais confirmam nossa hipótese. Nossos exemplos adversariais criados com perturbações agregadas localmente e focadas em regiões cruciais exibem uma transferibilidade surpreendentemente boa para LVLMs comerciais, incluindo GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, e até mesmo modelos de raciocínio como o1, Claude-3.7-thinking e Gemini-2.0-flash-thinking. Nossa abordagem alcança taxas de sucesso superiores a 90% em GPT-4.5, 4o e o1, superando significativamente todos os métodos de ataque state-of-the-art anteriores. Nossos exemplos adversariais otimizados sob diferentes configurações e código de treinamento estão disponíveis em https://github.com/VILA-Lab/M-Attack.
A alucinação de objetos (Object Hallucination - OH) tem sido reconhecida como um dos principais desafios de confiabilidade em Modelos de Linguagem e Visão de Grande Escala (Large Vision-Language Models - LVLMs). Avanços recentes em Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) indicam que estados internos, como estados ocultos, codificam a "veracidade geral" das respostas geradas. No entanto, ainda é pouco explorado como os estados internos em LVLMs funcionam e se eles poderiam servir como indicadores de alucinação "por token", o que é essencial para mitigar a OH. Neste artigo, primeiro realizamos uma exploração aprofundada dos estados internos de LVLMs em relação a problemas de OH e descobrimos que (1) os estados internos de LVLMs são indicadores de alucinação por token de alta especificidade. Além disso, (2) diferentes LVLMs codificam padrões universais de alucinação em subespaços latentes comuns, indicando que existem "direções genéricas de veracidade" compartilhadas por vários LVLMs. Com base nessas descobertas, propomos a Intervenção Prévia Guiada pela Veracidade (Truthful-Guided Pre-Intervention - TruthPrInt), que primeiro aprende a direção de veracidade da decodificação do LVLM e, em seguida, aplica uma intervenção guiada pela veracidade durante a decodificação do LVLM. Propomos ainda o ComnHallu para aprimorar a transferibilidade de detecção de alucinação tanto entre LVLMs quanto entre dados, construindo e alinhando subespaços latentes de alucinação. Avaliamos o TruthPrInt em diversos cenários experimentais, incluindo cenários dentro e fora do domínio, em LVLMs populares e benchmarks de OH. Os resultados experimentais indicam que o TruthPrInt supera significativamente os métodos state-of-the-art. Os códigos estarão disponíveis em https://github.com/jinhaoduan/TruthPrInt.
A toxicidade nas discussões de relatórios de bugs apresenta desafios significativos para a dinâmica colaborativa do desenvolvimento de software de código aberto. Os relatórios de bugs são cruciais para identificar e resolver defeitos, mas sua natureza intrinsecamente focada em problemas e o contexto emocionalmente carregado os tornam suscetíveis a interações tóxicas. Este estudo explora a toxicidade em relatórios de bugs no GitHub por meio de uma análise qualitativa de 203 threads de bugs, incluindo 81 tóxicos. Nossas descobertas revelam que a toxicidade frequentemente surge de percepções desalinhadas sobre a gravidade e prioridade dos bugs, frustrações não resolvidas com ferramentas e falhas na comunicação profissional. Essas interações tóxicas não apenas desviam discussões produtivas, mas também reduzem a probabilidade de resultados acionáveis, como vincular problemas a pull requests. Nossas descobertas preliminares oferecem recomendações práticas para melhorar a resolução de bugs, mitigando a toxicidade.
O acoplamento de transporte ótimo em minibatches endireita os caminhos no fluxo incondicional. Isso resulta em uma inferência computacionalmente menos exigente, pois menos etapas de integração e solucionadores numéricos menos complexos podem ser empregados ao resolver numericamente uma equação diferencial ordinária no momento do teste. No entanto, no cenário condicional, o transporte ótimo em minibatches se mostra insuficiente. Isso ocorre porque o mapeamento padrão de transporte ótimo ignora as condições, resultando em uma distribuição prévia condicionalmente distorcida durante o treinamento. Em contraste, no momento do teste, não temos acesso à distribuição prévia distorcida e, em vez disso, amostramos da distribuição prévia completa e não tendenciosa. Essa lacuna entre treinamento e teste leva a um desempenho inferior. Para preencher essa lacuna, propomos o transporte ótimo condicional C²OT, que adiciona um termo de ponderação condicional na matriz de custo ao calcular a atribuição de transporte ótimo. Experimentos demonstram que essa correção simples funciona tanto com condições discretas quanto contínuas em 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 e ImageNet-256x256. Nosso método apresenta um desempenho geral melhor em comparação com as linhas de base existentes em diferentes orçamentos de avaliação de funções. O código está disponível em https://hkchengrex.github.io/C2OT.
Apresentamos o PerCoV2, um novo e aberto sistema de compressão perceptual de imagens com taxa de bits ultrabaixa, projetado para aplicações com restrições de largura de banda e armazenamento. Baseando-se em trabalhos anteriores de Careil et al., o PerCoV2 estende a formulação original para o ecossistema do Stable Diffusion 3 e melhora a eficiência da codificação de entropia ao modelar explicitamente a distribuição discreta de hiper-latentes da imagem. Para isso, realizamos uma comparação abrangente de métodos autoregressivos recentes (VAR e MaskGIT) para modelagem de entropia e avaliamos nossa abordagem no benchmark em larga escala MSCOCO-30k. Em comparação com trabalhos anteriores, o PerCoV2 (i) alcança maior fidelidade de imagem em taxas de bits ainda mais baixas, mantendo qualidade perceptual competitiva, (ii) apresenta um modo de geração híbrida para economias adicionais de taxa de bits e (iii) é construído exclusivamente com componentes públicos. O código e os modelos treinados serão disponibilizados em https://github.com/Nikolai10/PerCoV2.
Este artigo apresenta o PoseLess, uma nova estrutura para controle de mãos robóticas que elimina a necessidade de estimativa explícita de pose ao mapear diretamente imagens 2D para ângulos articulares usando representações projetadas. Nossa abordagem aproveita dados de treinamento sintéticos gerados por meio de configurações articulares aleatórias, permitindo generalização zero-shot para cenários do mundo real e transferência de morfologia cruzada de mãos robóticas para humanas. Ao projetar entradas visuais e empregar um decodificador baseado em transformers, o PoseLess alcança controle robusto e de baixa latência, abordando desafios como ambiguidade de profundidade e escassez de dados. Resultados experimentais demonstram desempenho competitivo na precisão de previsão de ângulos articulares sem depender de qualquer conjunto de dados rotulado por humanos.
A orientação sem classificador tornou-se um elemento essencial para geração condicional com modelos de difusão de ruído. No entanto, ainda falta uma compreensão abrangente da orientação sem classificador. Neste trabalho, realizamos um estudo empírico para oferecer uma nova perspectiva sobre a orientação sem classificador. Concretamente, em vez de focar exclusivamente na orientação sem classificador, retornamos à raiz, ou seja, à orientação com classificador, identificamos a suposição-chave para a derivação e conduzimos um estudo sistemático para entender o papel do classificador. Descobrimos que tanto a orientação com classificador quanto a orientação sem classificador alcançam a geração condicional ao afastar as trajetórias de difusão de ruído das fronteiras de decisão, ou seja, áreas onde a informação condicional geralmente está entrelaçada e é difícil de aprender. Com base nessa compreensão centrada no classificador, propomos uma etapa genérica de pós-processamento construída sobre correspondência de fluxo para reduzir a lacuna entre a distribuição aprendida para um modelo de difusão de ruído pré-treinado e a distribuição real dos dados, principalmente em torno das fronteiras de decisão. Experimentos em diversos conjuntos de dados verificam a eficácia da abordagem proposta.