Artigos de pesquisa em IA selecionados diariamente com traduções
Este relatório apresenta o Kandinsky 5.0, uma família de modelos de base de última geração para síntese de imagens de alta resolução e vídeos de 10 segundos. O framework é composto por três linhas principais de modelos: Kandinsky 5.0 Image Lite - uma linha de modelos de geração de imagens com 6 bilhões de parâmetros, Kandinsky 5.0 Video Lite - modelos rápidos e leves de texto-para-vídeo e imagem-para-vídeo com 2 bilhões de parâmetros, e Kandinsky 5.0 Video Pro - modelos com 19 bilhões de parâmetros que alcançam qualidade superior na geração de vídeos. Fornecemos uma revisão abrangente do ciclo de vida de curadoria de dados - incluindo coleta, processamento, filtragem e agrupamento - para o pipeline de treinamento em múltiplas etapas que envolve extenso pré-treinamento e incorpora técnicas de aprimoramento de qualidade, como ajuste fino auto-supervisionado (SFT) e pós-treinamento baseado em aprendizado por reforço (RL). Também apresentamos otimizações arquitetônicas, de treinamento e de inferência inovadoras que permitem ao Kandinsky 5.0 alcançar altas velocidades de geração e desempenho de ponta em diversas tarefas, conforme demonstrado por avaliações humanas. Como um framework generativo de grande escala e disponível publicamente, o Kandinsky 5.0 aproveita todo o potencial de seu pré-treinamento e etapas subsequentes para ser adaptado a uma ampla gama de aplicações generativas. Esperamos que este relatório, juntamente com o lançamento de nosso código aberto e checkpoints de treinamento, avance significativamente o desenvolvimento e a acessibilidade de modelos generativos de alta qualidade para a comunidade de pesquisa.
Os modelos de vídeo alcançaram sucesso notável na geração de vídeos de alta fidelidade com dinâmicas de movimento coerentes. Analogamente ao desenvolvimento da geração de texto para o raciocínio baseado em texto na modelagem de linguagem, o desenvolvimento de modelos de vídeo motiva-nos a questionar: Podem os modelos de vídeo raciocinar através da geração de vídeo? Comparado com o corpus textual discreto, o vídeo ancora o raciocínio em layouts espaciais explícitos e continuidade temporal, servindo como um substrato ideal para o raciocínio espacial. Neste trabalho, exploramos o paradigma de raciocínio via vídeo e introduzimos o VR-Bench – um benchmark abrangente concebido para avaliar sistematicamente as capacidades de raciocínio de modelos de vídeo. Ancorado em tarefas de resolução de labirintos que requerem inerentemente planeamento espacial e raciocínio multi-etapa, o VR-Bench contém 7.920 vídeos gerados proceduralmente em cinco tipos de labirinto e estilos visuais diversificados. A nossa análise empírica demonstra que o Fine-Tuning Supervisionado (SFT) pode eliciar eficientemente a capacidade de raciocínio do modelo de vídeo. Os modelos de vídeo exibem perceção espacial mais forte durante o raciocínio, superando os principais Modelos de Linguagem Visual (VLMs) e generalizando bem em diversos cenários, tarefas e níveis de complexidade. Descobrimos ainda um efeito de escalonamento em tempo de teste, onde a amostragem diversificada durante a inferência melhora a confiabilidade do raciocínio em 10–20%. Estes resultados destacam o potencial único e a escalabilidade do raciocínio via vídeo para tarefas de raciocínio espacial.
Os agentes de pesquisa de IA oferecem a promessa de acelerar o progresso científico através da automação do projeto, implementação e treinamento de modelos de aprendizagem automática. No entanto, a área ainda está na sua infância, e os fatores-chave que determinam o sucesso ou fracasso das trajetórias dos agentes não são totalmente compreendidos. Examinamos o papel que a diversidade de ideias desempenha no desempenho dos agentes. Primeiro, analisamos as trajetórias dos agentes no MLE-bench, um benchmark conhecido para avaliar agentes de pesquisa de IA, em diferentes modelos e estruturas de agentes. Nossa análise revela que diferentes modelos e estruturas de agentes produzem graus variados de diversidade de ideias, e que agentes com melhor desempenho tendem a ter uma diversidade de ideias aumentada. Além disso, realizamos um experimento controlado onde modificamos o grau de diversidade de ideias, demonstrando que uma maior diversidade de ideias resulta em um desempenho mais forte. Por fim, reforçamos nossos resultados examinando métricas de avaliação adicionais além da pontuação padrão baseada em medalhas do MLE-bench, mostrando que nossas descobertas ainda se mantêm em outras métricas de desempenho de agentes.
O aprendizado por reforço (RL) fornece uma estrutura fundamentada para melhorar os Modelos de Visão e Linguagem (VLMs) em tarefas de raciocínio complexo. No entanto, as abordagens de RL existentes frequentemente dependem de rótulos anotados manualmente ou heurísticas específicas da tarefa para definir recompensas verificáveis, sendo ambas as opções custosas e de difícil escalabilidade. Apresentamos o VisPlay, uma estrutura de RL de auto-evolução que permite aos VLMs melhorar autonomamente suas capacidades de raciocínio utilizando grandes quantidades de dados de imagem não rotulados. Partindo de um único VLM base, o VisPlay atribui ao modelo dois papéis interativos: um Questionador Condicionado por Imagem, que formula questões visuais desafiadoras porém respondíveis, e um Raciocinador Multimodal, que gera respostas de prata (silver responses). Esses papéis são treinados conjuntamente com a Otimização de Política Relativa de Grupo (GRPO), que incorpora recompensas de diversidade e dificuldade para equilibrar a complexidade das questões geradas com a qualidade das respostas de prata. O VisPlay escala eficientemente em duas famílias de modelos. Quando treinado no Qwen2.5-VL e no MiMo-VL, o VisPlay alcança melhorias consistentes no raciocínio visual, na generalização composicional e na redução de alucinações em oito benchmarks, incluindo MM-Vet e MMMU, demonstrando um caminho escalável para a inteligência multimodal de auto-evolução. A página do projeto está disponível em https://bruno686.github.io/VisPlay/.
A aplicabilidade dos modelos atuais de segmentação de lesões em radiografias de tórax (CXRs) tem sido limitada tanto pelo pequeno número de rótulos-alvo quanto pela dependência de textos longos e detalhados, de nível especializado, criando uma barreira para o uso prático. Para superar essas limitações, introduzimos um novo paradigma: a segmentação de lesões guiada por instruções (ILS), projetada para segmentar diversos tipos de lesões com base em instruções simples e de fácil utilização. Sob este paradigma, construímos o MIMIC-ILS, o primeiro conjunto de dados em larga escala de instrução-resposta para segmentação de lesões em CXR, utilizando nosso *pipeline* multimodal totalmente automatizado que gera anotações a partir de imagens de radiografias de tórax e seus relatórios correspondentes. O MIMIC-ILS contém 1,1 milhão de pares de instrução-resposta derivados de 192 mil imagens e 91 mil máscaras de segmentação únicas, abrangendo sete tipos principais de lesões. Para demonstrar empiricamente sua utilidade, apresentamos a ROSALIA, um modelo de visão e linguagem ajustado no MIMIC-ILS. A ROSALIA é capaz de segmentar diversas lesões e fornecer explicações textuais em resposta às instruções do usuário. O modelo alcança alta precisão de segmentação e textual em nossa nova tarefa proposta, destacando a eficácia de nosso *pipeline* e o valor do MIMIC-ILS como um recurso fundamental para a ancoragem de lesões em CXR a nível de *pixel*.
A proliferação de vídeos com duração de uma hora (por exemplo, palestras, podcasts, documentários) intensificou a demanda por uma estruturação eficiente de conteúdo. No entanto, as abordagens existentes são limitadas pelo treinamento em pequena escala com anotações tipicamente curtas e grosseiras, o que restringe a generalização para transições sutis em vídeos longos. Apresentamos o ARC-Chapter, o primeiro modelo de capítulo de vídeo em larga escala treinado com mais de um milhão de capítulos de vídeos longos, caracterizado por anotações de capítulos bilíngues, temporalmente fundamentadas e hierárquicas. Para alcançar este objetivo, organizamos um conjunto de dados de capítulos bilíngue inglês-chinês por meio de um pipeline estruturado que unifica transcrições ASR, textos de cena e legendas visuais em anotações de múltiplos níveis, desde títulos curtos até resumos longos. Demonstramos melhorias claras de desempenho com a escala de dados, tanto em volume de dados quanto em intensidade de rótulos. Além disso, projetamos uma nova métrica de avaliação denominada GRACE, que incorpora sobreposições de segmentos muitos-para-um e similaridade semântica, refletindo melhor a flexibilidade de capítulo do mundo real. Experimentos extensivos demonstram que o ARC-Chapter estabelece um novo estado da arte por uma margem significativa, superando o melhor anterior em 14,0% no score F1 e 11,3% no score SODA. Além disso, o ARC-Chapter mostra excelente transferibilidade, melhorando o estado da arte em tarefas subsequentes, como a legendagem densa de vídeo no YouCook2.
Apresentamos o MHR, um modelo paramétrico do corpo humano que combina o paradigma de esqueleto/forma desacoplado do ATLAS com uma rig moderna e flexível e um sistema de correção de pose inspirado na biblioteca Momentum. Nosso modelo permite uma animação humana expressiva e anatomicamente plausível, suporta correções de pose não lineares e foi projetado para uma integração robusta em pipelines de RA/RV e gráficos.
Apresentamos o MoS (Mixture of States), um novo paradigma de fusão para modelos de difusão multimodal que combina modalidades por meio de interações flexíveis baseadas em estados. O cerne do MoS é um roteador aprendível, a nível de token, que cria interações dependentes do *timestep* de remoção de ruído e da entrada entre os estados ocultos das modalidades, alinhando com precisão as características em nível de token com a trajetória de difusão. Este roteador seleciona esparsamente os *k* estados ocultos mais relevantes e é treinado com uma estratégia ε-greedy, selecionando eficientemente características contextuais com parâmetros aprendíveis mínimos e sobrecarga computacional insignificante. Validamos nosso projeto com geração de texto para imagem (MoS-Image) e edição (MoS-Editing), que alcançam resultados de última geração. Com apenas 3B a 5B de parâmetros, nossos modelos igualam ou superam contrapartes até 4 vezes maiores. Essas descobertas estabelecem o MoS como um paradigma flexível e computacionalmente eficiente para escalar modelos de difusão multimodal.
A correspondência densa de características tem como objetivo estimar todas as correspondências entre duas imagens de uma cena 3D e foi recentemente estabelecida como o padrão-ouro devido à sua alta precisão e robustez. No entanto, os correspondedores densos existentes ainda falham ou apresentam desempenho insatisfatório em muitos cenários reais complexos, e os modelos de alta precisão são frequentemente lentos, limitando sua aplicabilidade. Neste artigo, atacamos essas fraquezas em uma ampla frente através de uma série de melhorias sistemáticas que, juntas, resultam em um modelo significativamente melhor. Em particular, construímos uma arquitetura e uma função de perda de correspondência inovadoras, que, combinadas com uma distribuição de treinamento diversificada e curada, permitem que nosso modelo resolva muitas tarefas complexas de correspondência. Além disso, tornamos o treinamento mais rápido por meio de um pipeline de correspondência e refinamento em dois estágios desacoplados e, ao mesmo tempo, reduzimos significativamente o uso de memória no refinamento por meio de um kernel CUDA personalizado. Por fim, aproveitamos o recente modelo de base DINOv3, juntamente com várias outras percepções, para tornar o modelo mais robusto e imparcial. Em nossa extensa série de experimentos, mostramos que o novo correspondedor resultante estabelece um novo estado da arte, sendo significativamente mais preciso do que seus predecessores. O código está disponível em https://github.com/Parskatt/romav2.
À medida que a inteligência incorporada emerge como uma fronteira central na pesquisa de inteligência artificial, as plataformas de simulação devem evoluir além das interações físicas de baixo nível para capturar comportamentos sociais complexos e centrados no ser humano. Apresentamos o FreeAskWorld, uma estrutura de simulação interativa que integra modelos de linguagem de grande escala (LLMs) para planeamento comportamental de alto nível e interação semanticamente fundamentada, baseada em teorias de intencionalidade e cognição social. Nossa estrutura suporta simulações realistas e escaláveis entre humanos e agentes, incluindo um pipeline modular de geração de dados adaptado para diversas tarefas de incorporação. Para validar a estrutura, estendemos a tarefa clássica de Navegação por Visão e Linguagem (VLN) para um cenário de Consulta Direcional enriquecido com interação, no qual os agentes podem procurar e interpretar ativamente orientações de navegação. Apresentamos e disponibilizamos publicamente o FreeAskWorld, um conjunto de dados de referência em larga escala que compreende ambientes reconstruídos, seis tipos diversos de tarefas, 16 categorias principais de objetos, 63.429 quadros de amostra anotados e mais de 17 horas de dados de interação para apoiar o treino e a avaliação de sistemas de IA incorporada. Avaliamos modelos de VLN e participantes humanos em configurações de ciclo aberto e ciclo fechado. Os resultados experimentais demonstram que os modelos afinados no FreeAskWorld superam as suas contrapartes originais, alcançando uma compreensão semântica e uma competência interativa aprimoradas. Estas descobertas sublinham a eficácia de estruturas de simulação socialmente fundamentadas no avanço de sistemas de IA incorporada em direção a um planeamento de alto nível sofisticado e a uma interação mais naturalista entre humanos e agentes. Importante, o nosso trabalho salienta que a interação em si serve como uma modalidade adicional de informação.
Os recentes avanços na IA generativa para música alcançaram uma fidelidade e diversidade estilística notáveis, no entanto, esses sistemas frequentemente falham em se alinhar com as nuances das preferências humanas devido às funções de perda específicas que utilizam. Este artigo defende a aplicação sistemática de técnicas de alinhamento de preferências para a geração musical, abordando a lacuna fundamental entre a otimização computacional e a apreciação musical humana. Com base em avanços recentes, incluindo o aprendizado de preferências em larga escala do MusicRL, estruturas de alinhamento multipreferenciais como a otimização de preferências baseada em difusão no DiffRhythm+, e técnicas de otimização no momento da inferência como o Text2midi-InferAlign, discutimos como essas técnicas podem abordar os desafios únicos da música: coerência temporal, consistência harmônica e avaliação subjetiva de qualidade. Identificamos os principais desafios de pesquisa, incluindo a escalabilidade para composições de longa duração e a confiabilidade na modelagem de preferências, entre outros. Perspectivando o futuro, vislumbramos que a geração de música com preferências alinhadas permitirá aplicações transformadoras em ferramentas de composição interativa e serviços de música personalizada. Este trabalho apela a uma pesquisa interdisciplinar sustentada, combinando avanços em aprendizagem de máquina e teoria musical para criar sistemas de IA para música que realmente sirvam às necessidades criativas e experienciais humanas.
Apresentamos o Medal S, um modelo de base para segmentação médica que suporta prompts espaciais em resolução nativa e prompts textuais dentro de uma arquitetura treinável de ponta a ponta. Diferente de métodos baseados apenas em texto que carecem de consciência espacial, o Medal S alcança um alinhamento por canal entre prompts volumétricos e embeddings de texto, mitigando imprecisões decorrentes de incompatibilidades de resolução. Ao preservar o contexto 3D completo, ele processa eficientemente múltiplas máscaras em resolução nativa em paralelo, melhorando o desempenho na segmentação multiclasse. Um módulo convolucional 3D leve permite um refinamento preciso no espaço voxel, guiado por ambos os tipos de prompt, suportando até 243 classes através das modalidades de TC, RM, PET, ultrassom e microscopia no conjunto de dados BiomedSegFM. O Medal S oferece dois modos de prompting: um modo apenas textual, onde as previsões do modelo servem como prompts espaciais para autorrefinamento sem intervenção humana, e um modo híbrido, que incorpora anotações manuais para maior flexibilidade. Para segmentação de 24 classes, o prompting espacial paralelo reduz o tempo de inferência em mais de 90% em comparação com o prompting sequencial. Propomos uma técnica de reamostragem dinâmica para abordar o desequilíbrio na razão alvo-patch, estendendo o SAT e o nnU-Net para aumento de dados. Adicionalmente, desenvolvemos um pré-processamento de texto otimizado, uma estratégia de inferência em dois estágios e técnicas de pós-processamento para melhorar a eficiência de memória, a precisão e a velocidade de inferência. Na média das cinco modalidades no conjunto de validação, o Medal S supera o SAT com um DSC de 75,44 (vs. 69,83), NSD de 77,34 (vs. 71,06), F1 de 38,24 (vs. 24,88) e DSC TP de 65,46 (vs. 46,97). O Medal S alcança um desempenho excelente ao harmonizar precisão espacial com orientação textual semântica, demonstrando eficiência e acurácia superiores em tarefas de segmentação médica multiclasse em comparação com abordagens baseadas em prompting sequencial. O Medal S estará publicamente disponível em https://github.com/yinghemedical/Medal-S.