Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) se destacam em raciocínio, mas o pós-treinamento continua sendo crucial para alinhar seu comportamento com os objetivos da tarefa. Os métodos existentes de aprendizado por reforço (RL) frequentemente dependem de anotações humanas custosas ou modelos externos de recompensa. Propomos o Aprendizado por Reforço via Autoconfiança (RLSC), que utiliza a própria confiança do modelo como sinais de recompensa, eliminando a necessidade de rótulos, modelos de preferência ou engenharia de recompensa. Aplicado ao Qwen2.5-Math-7B com apenas 16 amostras por questão e 10 ou 20 etapas de treinamento, o RLSC melhora a precisão em +13,4% no AIME2024, +21,2% no MATH500, +21,7% no Minerva Math, +20,8% no Olympiadbench e +9,7% no AMC23. O RLSC oferece um método simples e escalável de pós-treinamento para modelos de inferência, exigindo apenas um pequeno número de amostras e supervisão não rotulada.
Avanços notáveis em modelagem de difusão têm impulsionado melhorias rápidas na geração de vídeos, mas os modelos fundamentais atuais ainda enfrentam desafios críticos ao equilibrar simultaneamente a adesão a prompts, a plausibilidade do movimento e a qualidade visual. Neste relatório, apresentamos o Seedance 1.0, um modelo de geração de vídeo fundamental de alto desempenho e eficiente em inferência que integra várias melhorias técnicas centrais: (i) curadoria de dados de múltiplas fontes aprimorada com legendagem de vídeo precisa e significativa, permitindo aprendizado abrangente em diversos cenários; (ii) um design de arquitetura eficiente com um paradigma de treinamento proposto, que permite suporte nativo à geração de múltiplas cenas e aprendizado conjunto de tarefas de texto-para-vídeo e imagem-para-vídeo; (iii) abordagens pós-treinamento cuidadosamente otimizadas que aproveitam ajuste fino supervisionado de granularidade fina e RLHF (Reinforcement Learning from Human Feedback) específico para vídeo com mecanismos de recompensa multidimensionais para melhorias abrangentes de desempenho; (iv) excelente aceleração do modelo, alcançando uma aceleração de inferência de ~10x por meio de estratégias de destilação em múltiplos estágios e otimizações em nível de sistema. O Seedance 1.0 pode gerar um vídeo de 5 segundos em resolução 1080p em apenas 41,4 segundos (NVIDIA-L20). Em comparação com os modelos de geração de vídeo mais avançados, o Seedance 1.0 se destaca com geração de vídeo de alta qualidade e rápida, apresentando fluidez espaço-temporal superior com estabilidade estrutural, adesão precisa a instruções em contextos complexos com múltiplos sujeitos e coerência narrativa nativa em múltiplas cenas com representação consistente do sujeito.
Os modelos existentes de geração de vídeo em grande escala são computacionalmente intensivos, o que impede sua adoção em aplicações em tempo real e interativas. Neste trabalho, propomos o pós-treinamento adversarial autoregressivo (AAPT) para transformar um modelo de difusão de vídeo latente pré-treinado em um gerador de vídeo em tempo real e interativo. Nosso modelo gera autoregressivamente um quadro latente por vez usando uma única avaliação de função neural (1NFE). O modelo pode transmitir o resultado ao usuário em tempo real e receber respostas interativas como controles para gerar o próximo quadro latente. Diferente das abordagens existentes, nosso método explora o treinamento adversarial como um paradigma eficaz para geração autoregressiva. Isso não apenas nos permite projetar uma arquitetura mais eficiente para geração em uma etapa, aproveitando totalmente o cache KV, mas também possibilita treinar o modelo de maneira "student-forcing", que se mostra eficaz na redução do acúmulo de erros durante a geração de vídeos longos. Nossos experimentos demonstram que nosso modelo de 8B alcança geração de vídeo em tempo real, a 24fps, com resolução de 736x416 em um único H100, ou 1280x720 em 8xH100, com duração de até um minuto (1440 quadros). Visite nosso site de pesquisa em https://seaweed-apt.com/2.
O conteúdo gerado por IA evoluiu de modelos monolíticos para fluxos de trabalho modulares, especialmente em plataformas como o ComfyUI, permitindo personalização em pipelines criativos. No entanto, a criação de fluxos de trabalho eficazes requer grande expertise para orquestrar diversos componentes especializados, apresentando uma curva de aprendizado acentuada para os usuários. Para enfrentar esse desafio, introduzimos o ComfyUI-R1, o primeiro modelo de raciocínio em larga escala para geração automatizada de fluxos de trabalho. Começando com nosso conjunto de dados curado de 4K fluxos de trabalho, construímos dados de raciocínio em cadeia longa (CoT), incluindo seleção de nós, planejamento de fluxo de trabalho e representação de fluxo de trabalho em nível de código. O ComfyUI-R1 é treinado por meio de um framework de duas etapas: (1) ajuste fino de CoT para início a frio, adaptando modelos ao domínio do ComfyUI; (2) aprendizado por reforço para incentivar a capacidade de raciocínio, guiado por uma recompensa híbrida de regra-métrica de granularidade fina, garantindo validade de formato, integridade estrutural e fidelidade em nível de nó. Experimentos mostram que nosso modelo de 7 bilhões de parâmetros alcança uma taxa de validade de formato de 97%, juntamente com alta taxa de aprovação, pontuações F1 em nível de nó e gráfico, superando significativamente métodos anteriores de ponta que empregam modelos proprietários líderes, como GPT-4o e a série Claude. Análises adicionais destacam o papel crítico do processo de raciocínio e a vantagem de transformar fluxos de trabalho em código. Comparações qualitativas revelam nossa força na síntese de fluxos de trabalho intrincados com diversos nós, ressaltando o potencial do raciocínio CoT longo na criação de arte por IA.
Modelos de Linguagem Grande Autoregressivos (AR-LLMs) frequentemente exibem paralelismo implícito na geração sequencial. Inspirados por isso, introduzimos o Multiverse, um novo modelo generativo que permite a geração nativamente paralela. O Multiverse internaliza um paradigma MapReduce, gerando automaticamente em três estágios: (i) um estágio Map para decomposição adaptativa de tarefas, (ii) um estágio Process para execução paralela de subtarefas, e (iii) um estágio Reduce para síntese de resultados sem perdas. Em seguida, construímos um modelo de raciocínio Multiverse do mundo real com co-design de dados, algoritmo e sistema, permitindo uma transferência rápida e contínua a partir de AR-LLMs de ponta. Partindo de cadeias de raciocínio sequenciais, criamos o Multiverse 1K convertendo-as em dados de treinamento estruturados usando um pipeline automatizado assistido por LLM, evitando anotações humanas custosas. Algoritmicamente, projetamos a Atenção Multiverse para separar etapas de raciocínio paralelas enquanto mantém compatibilidade com a atenção causal para treinamento eficiente. Sistematicamente, implementamos o Multiverse Engine para permitir inferência paralela. Ele apresenta um agendador dedicado que alterna dinamicamente entre geração sequencial e paralela, acionado diretamente pelo modelo. Após um ajuste fino de 3 horas com 1K exemplos, nosso Multiverse-32B se destaca como o único modelo não-AR de código aberto que alcança desempenho equivalente aos principais AR-LLMs da mesma escala, evidenciado pelas pontuações AIME24 e 25 de 54% e 46%, respectivamente. Além disso, nossos experimentos de controle de orçamento mostram que o Multiverse-32B exibe escalabilidade superior, superando AR-LLMs em média 1,87% usando o mesmo comprimento de contexto. Essa escalabilidade leva a ganhos práticos de eficiência, alcançando até 2x de aceleração em diferentes tamanhos de lote. Disponibilizamos todo o ecossistema Multiverse em código aberto, incluindo dados, pesos do modelo, engine, ferramentas de suporte, além de prompts completos de curadoria de dados e receitas detalhadas de treinamento e avaliação.
Apresentamos o PlayerOne, o primeiro simulador realista de mundo egocêntrico, que facilita a exploração imersiva e irrestrita em ambientes dinâmicos e vívidos. Dada uma imagem de cena egocêntrica fornecida pelo usuário, o PlayerOne pode construir com precisão o mundo correspondente e gerar vídeos egocêntricos estritamente alinhados com o movimento humano real do usuário capturado por uma câmera exocêntrica. O PlayerOne é treinado em um pipeline de refinamento progressivo que primeiro realiza pré-treinamento em pares texto-vídeo egocêntricos em larga escala para compreensão egocêntrica em nível grosseiro, seguido por ajuste fino em dados de vídeo-movimento síncronos extraídos de conjuntos de dados de vídeo egocêntrico-exocêntrico com nosso pipeline de construção automática. Além disso, considerando a importância variável de diferentes componentes, projetamos um esquema de injeção de movimento desacoplado por partes, permitindo controle preciso dos movimentos em nível de partes. Adicionalmente, desenvolvemos uma estrutura de reconstrução conjunta que modela progressivamente tanto a cena 4D quanto os quadros de vídeo, garantindo consistência da cena na geração de vídeos de longa duração. Resultados experimentais demonstram sua grande capacidade de generalização no controle preciso de diversos movimentos humanos e na modelagem consistente de cenários variados. Este trabalho marca o primeiro esforço em simulação realista de mundo egocêntrico e pode abrir caminho para a comunidade explorar novas fronteiras na modelagem de mundos e suas diversas aplicações.
Os recentes avanços na geração de texto para música permitiram que modelos sintetizassem segmentos musicais de alta qualidade, composições completas e até respondessem a sinais de controle refinados, como progressões de acordes. Os sistemas state-of-the-art (SOTA) diferem significativamente em várias dimensões, como conjuntos de dados de treinamento, paradigmas de modelagem e escolhas arquitetônicas. Essa diversidade complica os esforços para avaliar os modelos de forma justa e identificar quais escolhas de design mais influenciam o desempenho. Embora fatores como dados e arquitetura sejam importantes, neste estudo focamos exclusivamente no paradigma de modelagem. Realizamos uma análise empírica sistemática para isolar seus efeitos, oferecendo insights sobre trade-offs associados e comportamentos emergentes que podem orientar futuros sistemas de geração de texto para música. Especificamente, comparamos os dois paradigmas de modelagem mais comuns: decodificação Auto-Regressiva e Conditional Flow-Matching. Realizamos uma comparação controlada treinando todos os modelos do zero usando conjuntos de dados idênticos, configurações de treinamento e arquiteturas de backbone semelhantes. O desempenho é avaliado em múltiplos eixos, incluindo qualidade de geração, robustez a configurações de inferência, escalabilidade, aderência a condicionamentos textuais e temporalmente alinhados, e capacidades de edição na forma de inpainting de áudio. Este estudo comparativo revela pontos fortes e limitações distintos de cada paradigma, fornecendo insights acionáveis que podem informar futuras decisões arquitetônicas e de treinamento no cenário em evolução da geração de texto para música. Exemplos de áudio estão disponíveis em: https://huggingface.co/spaces/ortal1602/ARvsFM
Apresentamos o SeerAttention-R, uma estrutura de atenção esparsa especialmente projetada para a decodificação longa de modelos de raciocínio. Derivado do SeerAttention, o SeerAttention-R mantém o design de aprender a esparsidade da atenção por meio de um mecanismo de portão auto-distilado, enquanto remove o pooling de consultas para acomodar a decodificação auto-regressiva. Com um mecanismo de portão leve e plugável, o SeerAttention-R é flexível e pode ser facilmente integrado a modelos pré-treinados existentes sem modificar os parâmetros originais. Demonstramos que o SeerAttention-R, treinado com apenas 0,4 bilhão de tokens, mantém uma precisão de raciocínio quase sem perdas com um orçamento de 4K tokens no benchmark AIME sob grandes tamanhos de blocos de atenção esparsa (64/128). Utilizando o TileLang, desenvolvemos um kernel de decodificação esparsa altamente otimizado que alcança acelerações próximas às teóricas de até 9x em relação ao FlashAttention-3 na GPU H100 com 90% de esparsidade. O código está disponível em: https://github.com/microsoft/SeerAttention.
Modelos de Raciocínio de Grande Escala (LRMs, na sigla em inglês), como o o1 e o DeepSeek-R1, têm demonstrado progresso notável no raciocínio em linguagem natural com cadeias longas de pensamento (CoT, na sigla em inglês). No entanto, eles ainda são ineficientes ou imprecisos ao lidar com operações matemáticas complexas. Abordar essas limitações por meio de ferramentas computacionais (por exemplo, bibliotecas de cálculo e solucionadores simbólicos) é promissor, mas introduz um desafio técnico: o Interpretador de Código (CI, na sigla em inglês) traz conhecimento externo além das representações de texto internas do modelo, tornando a combinação direta ineficiente. Este artigo apresenta o CoRT, uma estrutura de pós-treinamento para ensinar LRMs a utilizar o CI de forma eficaz e eficiente. Como primeiro passo, abordamos a escassez de dados sintetizando dados de raciocínio integrados a código por meio da Engenharia de Dicas (Hint-Engineering), que insere estrategicamente diferentes dicas em posições apropriadas para otimizar a interação LRM-CI. Criamos manualmente 30 amostras de alta qualidade, sobre as quais realizamos o pós-treinamento de modelos variando de 1,5B a 32B parâmetros, com ajuste fino supervisionado, ajuste fino por rejeição e aprendizado por reforço. Nossos resultados experimentais demonstram que os modelos com Engenharia de Dicas alcançam melhorias absolutas de 4% e 8% no DeepSeek-R1-Distill-Qwen-32B e no DeepSeek-R1-Distill-Qwen-1.5B, respectivamente, em cinco conjuntos de dados desafiadores de raciocínio matemático. Além disso, os modelos com Engenharia de Dicas usam cerca de 30% menos tokens para o modelo de 32B e 50% menos tokens para o modelo de 1,5B em comparação com os modelos de linguagem natural. Os modelos e o código estão disponíveis em https://github.com/ChengpengLi1003/CoRT.
Os Modelos de Linguagem de Grande Escala (LLMs) são agora fundamentais em diversos domínios e demonstraram desempenho impressionante. No entanto, o progresso depende da premissa de que as pontuações de benchmarks são precisas e reproduzíveis. Demonstramos que a reprodutibilidade do desempenho dos LLMs é frágil: alterações na configuração do sistema, como tamanho do lote de avaliação, número de GPUs e versão da GPU, podem introduzir diferenças significativas nas respostas geradas. Esse problema é especialmente pronunciado em modelos de raciocínio, onde pequenas diferenças de arredondamento nos primeiros tokens podem se propagar em cadeias de pensamento divergentes, afetando a precisão. Por exemplo, sob precisão bfloat16 com decodificação gananciosa, um modelo de raciocínio como o DeepSeek-R1-Distill-Qwen-7B pode exibir variações de até 9% na precisão e diferenças de 9.000 tokens no comprimento da resposta devido a diferenças no número de GPUs, tipo e tamanho do lote de avaliação. Rastreamos a causa raiz dessa variabilidade à natureza não associativa da aritmética de ponto flutuante sob precisão numérica limitada. Este trabalho apresenta a primeira investigação sistemática sobre como a precisão numérica afeta a reprodutibilidade na inferência de LLMs. Por meio de experimentos cuidadosamente controlados em diversos cenários de hardware, software e configurações de precisão, quantificamos quando e como as saídas do modelo divergem. Nossa análise revela que a precisão de ponto flutuante — embora crítica para a reprodutibilidade — é frequentemente negligenciada nas práticas de avaliação. Inspirados por isso, desenvolvemos um pipeline de inferência leve, chamado LayerCast, que armazena pesos em precisão de 16 bits, mas realiza todos os cálculos em FP32, equilibrando eficiência de memória com estabilidade numérica. O código está disponível em https://github.com/nanomaoli/llm_reproducibility.
Apresentamos o **SWE-Flow**, uma nova estrutura de síntese de dados baseada em Desenvolvimento Orientado a Testes (TDD). Diferente dos dados de engenharia de software existentes que dependem de problemas submetidos por humanos, o **SWE-Flow** infere automaticamente etapas incrementais de desenvolvimento diretamente a partir de testes unitários, que encapsulam intrinsecamente requisitos de alto nível. O núcleo do **SWE-Flow** é a construção de um Grafo de Dependência de Tempo de Execução (RDG), que captura com precisão as interações entre funções, permitindo a geração de um *cronograma de desenvolvimento* estruturado e passo a passo. Em cada etapa, o **SWE-Flow** produz uma base de código parcial, os testes unitários correspondentes e as modificações de código necessárias, resultando em tarefas TDD totalmente verificáveis. Com essa abordagem, geramos 16.061 instâncias de treinamento e 2.020 instâncias de teste a partir de projetos reais do GitHub, criando o benchmark **SWE-Flow-Eval**. Nossos experimentos mostram que o ajuste fino de modelos abertos nesse conjunto de dados melhora significativamente o desempenho em codificação baseada em TDD. Para facilitar pesquisas futuras, disponibilizamos todo o código, conjuntos de dados, modelos e imagens Docker no [Github](https://github.com/Hambaobao/SWE-Flow).
A animação humana de ponta a ponta com condições multimodais ricas, como texto, imagem e áudio, alcançou avanços notáveis nos últimos anos. No entanto, a maioria dos métodos existentes só consegue animar um único sujeito e injetar condições de maneira global, ignorando cenários em que múltiplos conceitos podem aparecer no mesmo vídeo com interações ricas entre humanos e entre humanos e objetos. Essa suposição global impede o controle preciso e por identidade de múltiplos conceitos, incluindo humanos e objetos, dificultando assim aplicações práticas. Neste trabalho, descartamos a suposição de entidade única e introduzimos uma nova estrutura que impõe uma vinculação forte e específica por região das condições das modalidades à pegada espaço-temporal de cada identidade. Dadas imagens de referência de múltiplos conceitos, nosso método pode inferir automaticamente informações de layout ao aproveitar um preditor de máscara para corresponder pistas de aparência entre o vídeo denoizado e cada aparência de referência. Além disso, injetamos a condição de áudio local em sua região correspondente para garantir o alinhamento de layout e a correspondência de modalidades de maneira iterativa. Esse design possibilita a geração de alta qualidade de vídeos centrados no humano com múltiplos conceitos controláveis. Resultados empíricos e estudos de ablação validam a eficácia do nosso controle explícito de layout para condições multimodais em comparação com abordagens implícitas e outros métodos existentes.
Os LLMs são usados predominantemente em comunicação síncrona, onde um usuário humano e um modelo se comunicam em turnos alternados. Em contraste, muitos cenários do mundo real são inerentemente assíncronos. Por exemplo, em chats de grupo, reuniões de equipe online ou jogos sociais, não há uma noção inerente de turnos; portanto, a decisão de quando falar forma uma parte crucial da tomada de decisão do participante. Neste trabalho, desenvolvemos um agente LLM assíncrono adaptativo que, além de determinar o que dizer, também decide quando dizê-lo. Para avaliar nosso agente, coletamos um conjunto de dados único de jogos online de Mafia, incluindo tanto participantes humanos quanto nosso agente assíncrono. No geral, nosso agente tem um desempenho equivalente ao dos jogadores humanos, tanto no desempenho do jogo quanto em sua capacidade de se integrar com os outros jogadores humanos. Nossa análise mostra que o comportamento do agente ao decidir quando falar reflete de perto os padrões humanos, embora surjam diferenças no conteúdo das mensagens. Disponibilizamos todos os nossos dados e código para apoiar e incentivar mais pesquisas para uma comunicação assíncrona mais realista entre agentes LLM. Este trabalho abre caminho para a integração de LLMs em cenários realistas de grupos humanos, desde a assistência em discussões de equipe até ambientes educacionais e profissionais onde dinâmicas sociais complexas devem ser navegadas.
Apesar do rápido progresso dos modelos de linguagem multimodal de grande escala (MLLMs), eles têm negligenciado em grande parte a importância do processamento visual. Em um experimento simples, mas revelador, descobrimos de forma interessante que modelos exclusivamente de linguagem, quando fornecidos com legendas de imagens, podem alcançar desempenho comparável ou até superior ao dos MLLMs que consomem entradas visuais brutas. Isso sugere que os MLLMs atuais podem gerar descrições visuais precisas, mas falham em integrá-las efetivamente durante o raciocínio. Motivados por isso, propomos uma estrutura simples de perturbação visual que aumenta a robustez perceptiva sem exigir modificações algorítmicas ou dados adicionais de treinamento. Nossa abordagem introduz três perturbações direcionadas: concatenação de distratores, mixup que preserva a dominância e rotação aleatória, que podem ser facilmente integradas em pipelines pós-treinamento existentes, incluindo SFT, DPO e GRPO. Por meio de extensos experimentos em vários conjuntos de dados, demonstramos melhorias consistentes no desempenho de raciocínio matemático, com ganhos comparáveis aos alcançados por meio de mudanças algorítmicas. Além disso, alcançamos desempenho competitivo entre os modelos de 7B ajustados por RL de código aberto ao treinar o Qwen2.5-VL-7B com perturbação visual. Através de estudos abrangentes de ablação, analisamos a eficácia de diferentes estratégias de perturbação, revelando que cada tipo de perturbação contribui de forma única para diferentes aspectos do raciocínio visual. Nossas descobertas destacam o papel crítico da perturbação visual no raciocínio matemático multimodal: um melhor raciocínio começa com uma melhor visão. Nosso código está disponível em https://github.com/YutingLi0606/Vision-Matters.
Embora os modelos visão-linguagem-ação (VLAs) tenham demonstrado comportamentos robóticos promissores em uma diversidade de tarefas de manipulação, eles alcançam taxas de sucesso limitadas quando implantados em tarefas novas sem ajustes prévios. Para permitir que essas políticas interajam com segurança em seus ambientes, precisamos de um detector de falhas que forneça um alerta oportuno, de modo que o robô possa parar, retroceder ou pedir ajuda. No entanto, os detectores de falhas existentes são treinados e testados apenas em uma ou poucas tarefas específicas, enquanto os VLAs exigem que o detector generalize e detecte falhas também em tarefas não vistas e ambientes novos. Neste artigo, introduzimos o problema de detecção de falhas multitarefa e propomos o SAFE, um detector de falhas para políticas robóticas generalistas, como os VLAs. Analisamos o espaço de características dos VLAs e descobrimos que eles possuem conhecimento suficiente de alto nível sobre sucesso e falha de tarefas, que é genérico entre diferentes tarefas. Com base nessa percepção, projetamos o SAFE para aprender a partir das características internas dos VLAs e prever um único escalar que indica a probabilidade de falha na tarefa. O SAFE é treinado em execuções bem-sucedidas e falhas, e é avaliado em tarefas não vistas. O SAFE é compatível com diferentes arquiteturas de políticas. Testamos o SAFE no OpenVLA, pi_0 e pi_0-FAST em ambientes simulados e do mundo real de forma extensiva. Comparamos o SAFE com diversas linhas de base e mostramos que ele alcança desempenho de detecção de falhas de última geração e o melhor equilíbrio entre precisão e tempo de detecção usando previsão conformal. Mais resultados qualitativos podem ser encontrados em https://vla-safe.github.io/.
Os recentes avanços na geração de objetos 3D têm melhorado significativamente tanto a qualidade quanto a eficiência. No entanto, a maioria dos métodos existentes gera uma única malha com todas as partes fundidas, o que limita a capacidade de editar ou manipular partes individuais. Um desafio crucial é que diferentes objetos podem ter um número variável de partes. Para resolver isso, propomos uma nova estrutura de ponta a ponta para a geração de objetos 3D em nível de partes. Dada uma única imagem de entrada, nosso método gera objetos 3D de alta qualidade com um número arbitrário de partes completas e semanticamente significativas. Introduzimos uma estratégia de empacotamento de volume duplo que organiza todas as partes em dois volumes complementares, permitindo a criação de partes completas e intercaladas que se montam no objeto final. Experimentos mostram que nosso modelo alcança melhor qualidade, diversidade e generalização do que os métodos anteriores de geração em nível de partes baseados em imagem.
A correspondência densa de imagens é central para muitas aplicações, como odometria visual, reconstrução 3D, associação de objetos e reidentificação. Historicamente, a correspondência densa tem sido abordada separadamente para cenários de linha de base ampla e estimativa de fluxo óptico, apesar do objetivo comum de corresponder o conteúdo entre duas imagens. Neste artigo, desenvolvemos um modelo Unificado de Fluxo & Correspondência (UFM), que é treinado com dados unificados para pixels que são co-visíveis tanto na imagem de origem quanto na imagem de destino. O UFM utiliza uma arquitetura de transformer simples e genérica que regride diretamente o fluxo (u,v). Ele é mais fácil de treinar e mais preciso para grandes fluxos em comparação com os volumes de custo de granularidade grossa para fina usados em trabalhos anteriores. O UFM é 28% mais preciso do que os métodos de fluxo estado da arte (Unimatch), enquanto também apresenta 62% menos erro e é 6,7 vezes mais rápido do que os correspondentes densos de linha de base ampla (RoMa). O UFM é o primeiro a demonstrar que o treinamento unificado pode superar abordagens especializadas em ambos os domínios. Esse resultado possibilita uma correspondência rápida e de propósito geral e abre novas direções para tarefas de correspondência multimodal, de longo alcance e em tempo real.
A linguagem fornece uma interface natural para especificar e avaliar o desempenho em tarefas visuais. Para concretizar essa possibilidade, os modelos de linguagem visual (VLMs, na sigla em inglês) devem integrar com sucesso informações visuais e linguísticas. Nosso trabalho compara VLMs a uma leitura direta de seus codificadores visuais para entender sua capacidade de integrar essas modalidades. Em uma série de benchmarks centrados em visão (por exemplo, estimativa de profundidade, correspondência), descobrimos que os VLMs têm um desempenho substancialmente pior do que seus codificadores visuais, caindo para um desempenho próximo ao acaso. Investigamos esses resultados por meio de uma série de análises em todo o VLM: especificamente 1) a degradação das representações visuais, 2) a fragilidade em relação ao prompt da tarefa e 3) o papel do modelo de linguagem na resolução da tarefa. Descobrimos que o gargalo na execução dessas tarefas centradas em visão está nessa terceira categoria; os VLMs não estão utilizando efetivamente as informações visuais facilmente acessíveis em todo o modelo, e eles herdam os vieses linguísticos presentes no LLM. Nosso trabalho ajuda a diagnosticar os modos de falha de VLMs de código aberto e apresenta uma série de avaliações úteis para investigações futuras sobre o entendimento visual dentro de VLMs.
A inferência referencial do olhar - a capacidade de inferir o que os outros estão olhando - é um componente crítico de uma teoria da mente que sustenta a interação natural entre humanos e IA. Em um estudo controlado, avaliamos essa habilidade em 111 Modelos de Linguagem Visual (VLMs) usando fotos tiradas com dificuldade e variabilidade manipuladas, comparando o desempenho com o de participantes humanos (N = 65), e analisamos os comportamentos usando modelos de efeitos mistos. Descobrimos que 94 dos 111 VLMs não conseguiram superar o acerto aleatório, enquanto os humanos alcançaram precisão quase máxima. Os VLMs até respondem com cada escolha quase igualmente frequente. Eles estão chutando aleatoriamente? Embora a maioria dos VLMs tenha dificuldades, quando nos concentramos em cinco dos VLMs de ponta com desempenho acima do acaso, descobrimos que seu desempenho diminuiu com o aumento da dificuldade da tarefa, mas variou apenas ligeiramente entre diferentes prompts e objetos da cena. Essas características comportamentais não podem ser explicadas considerando-os como chutadores aleatórios. Em vez disso, eles provavelmente usam uma combinação de heurísticas e chutes, de modo que seu desempenho é influenciado pela dificuldade da tarefa, mas robusto a variações perceptivas. Isso sugere que os VLMs, carecendo de capacidade de inferência do olhar, ainda não se tornaram tecnologias que podem interagir naturalmente com humanos, mas o potencial permanece.
O ajuste fino de modelos de difusão de vídeo (VDMs) no nível do usuário para gerar vídeos que reflitam atributos específicos dos dados de treinamento apresenta desafios notáveis, mas ainda é pouco explorado, apesar de sua importância prática. Enquanto isso, trabalhos recentes, como o Alinhamento de Representação (REPA), mostraram potencial em melhorar a convergência e a qualidade de modelos de difusão de imagens baseados em DiT, alinhando ou assimilando seus estados internos ocultos com características visuais pré-treinadas externas, sugerindo seu potencial para o ajuste fino de VDMs. Neste trabalho, primeiro propomos uma adaptação direta do REPA para VDMs e empiricamente mostramos que, embora eficaz para a convergência, ele é subótimo na preservação da consistência semântica entre os quadros. Para superar essa limitação, introduzimos o Alinhamento de Representação Cruzada entre Quadros (CREPA), uma nova técnica de regularização que alinha os estados ocultos de um quadro com características externas de quadros vizinhos. Avaliações empíricas em VDMs de grande escala, incluindo CogVideoX-5B e Hunyuan Video, demonstram que o CREPA melhora tanto a fidelidade visual quanto a coerência semântica entre quadros quando ajustado com métodos eficientes em parâmetros, como LoRA. Validamos ainda o CREPA em diversos conjuntos de dados com atributos variados, confirmando sua ampla aplicabilidade. Página do projeto: https://crepavideo.github.io
É crucial que os Modelos de Linguagem de Grande Escala (LLMs) estejam cientes dos limites de seu conhecimento e do mecanismo de identificação de consultas conhecidas e desconhecidas. Esse tipo de consciência pode ajudar os modelos a realizar inferências adaptativas, como invocar o RAG (Retrieval-Augmented Generation), engajar-se em pensamentos lentos e profundos, ou adotar o mecanismo de abstenção, o que é benéfico para o desenvolvimento de IA eficiente e confiável. Neste trabalho, propomos um método para detectar os limites do conhecimento por meio da Incerteza no Nível da Consulta, que visa determinar se o modelo é capaz de responder a uma consulta específica sem gerar nenhum token. Para isso, introduzimos um método novo e livre de treinamento chamado Confiança Interna, que aproveita autoavaliações entre camadas e tokens. Resultados empíricos em tarefas de QA factual e raciocínio matemático demonstram que nossa confiança interna pode superar várias baselines. Além disso, mostramos que o método proposto pode ser usado para RAG eficiente e cascateamento de modelos, o que é capaz de reduzir os custos de inferência enquanto mantém o desempenho.
A inteligência artificial (IA) tornou-se uma ferramenta fundamental para auxiliar clínicos na análise de imagens oftalmológicas, como a tomografia de coerência óptica (OCT). No entanto, o desenvolvimento de modelos de IA frequentemente requer anotações extensas, e os modelos existentes tendem a ter desempenho inferior em dados independentes e não vistos anteriormente. Modelos de base (Foundation Models - FMs), grandes modelos de IA treinados em vastos conjuntos de dados não rotulados, têm mostrado potencial para superar esses desafios. No entanto, os FMs disponíveis para oftalmologia carecem de validação extensa, especialmente para tarefas de segmentação, e se concentram em uma única modalidade de imagem. Nesse contexto, propomos o MIRAGE, um novo FM multimodal para a análise de imagens de OCT e oftalmoscopia de varredura a laser (SLO). Além disso, propomos um novo benchmark de avaliação com tarefas de classificação e segmentação de OCT/SLO. A comparação com FMs gerais e especializados e métodos de segmentação demonstra a superioridade do MIRAGE em ambos os tipos de tarefas, destacando sua adequação como base para o desenvolvimento de sistemas de IA robustos para análise de imagens de OCT retiniano. Tanto o MIRAGE quanto o benchmark de avaliação estão disponíveis publicamente: https://github.com/j-morano/MIRAGE.
Embora os grandes modelos de linguagem (LLMs) estejam impulsionando o rápido avanço da inteligência artificial, treinar esses modelos grandes de forma eficaz e confiável continua sendo um dos desafios mais significativos da área. Para enfrentar esse desafio, propomos o POET, um novo algoritmo de treinamento reparametrizado que utiliza Transformação de Equivalência Ortogonal para otimizar neurônios. Especificamente, o POET reparametriza cada neurônio com duas matrizes ortogonais aprendíveis e uma matriz de pesos fixa e aleatória. Devido à sua capacidade comprovada de preservar as propriedades espectrais das matrizes de pesos, o POET pode otimizar de forma estável a função objetivo com uma generalização aprimorada. Desenvolvemos ainda aproximações eficientes que tornam o POET flexível e escalável para o treinamento de redes neurais em grande escala. Experimentos extensivos validam a eficácia e a escalabilidade do POET no treinamento de LLMs.
O Visual Question Answering Médico (MedVQA) é um campo promissor para o desenvolvimento de sistemas de apoio à decisão clínica, mas o progresso é frequentemente limitado pelos conjuntos de dados disponíveis, que podem carecer de complexidade clínica e diversidade visual. Para abordar essas lacunas, introduzimos o Kvasir-VQA-x1, um novo conjunto de dados em larga escala para endoscopia gastrointestinal (GI). Nosso trabalho expande significativamente o Kvasir-VQA original, incorporando 159.549 novos pares de perguntas e respostas projetados para testar raciocínios clínicos mais profundos. Desenvolvemos um método sistemático utilizando modelos de linguagem de grande escala para gerar essas perguntas, que são estratificadas por complexidade para melhor avaliar as capacidades de inferência de um modelo. Para garantir que nosso conjunto de dados prepare os modelos para cenários clínicos do mundo real, também introduzimos uma variedade de aumentos visuais que simulam artefatos comuns de imagem. O conjunto de dados é estruturado para suportar duas principais trilhas de avaliação: uma para o desempenho padrão de VQA e outra para testar a robustez do modelo contra essas perturbações visuais. Ao fornecer um benchmark mais desafiador e clinicamente relevante, o Kvasir-VQA-x1 visa acelerar o desenvolvimento de sistemas de IA multimodal mais confiáveis e eficazes para uso em ambientes clínicos. O conjunto de dados é totalmente acessível e adere aos princípios de dados FAIR, tornando-o um recurso valioso para a comunidade de pesquisa em geral. Código e dados: https://github.com/Simula/Kvasir-VQA-x1 e https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
Prever as trajetórias intermediárias entre uma distribuição inicial e uma alvo é um problema central na modelagem generativa. Abordagens existentes, como o *flow matching* e o *Schrödinger Bridge Matching*, aprendem efetivamente mapeamentos entre duas distribuições ao modelar um único caminho estocástico. No entanto, esses métodos são intrinsecamente limitados a transições unimodais e não conseguem capturar evoluções ramificadas ou divergentes de uma origem comum para múltiplos resultados distintos. Para resolver isso, introduzimos o *Branched Schrödinger Bridge Matching* (BranchSBM), uma nova estrutura que aprende pontes de Schrödinger ramificadas. O BranchSBM parametriza múltiplos campos de velocidade dependentes do tempo e processos de crescimento, permitindo a representação da divergência em nível populacional em múltiplas distribuições terminais. Mostramos que o BranchSBM não apenas é mais expressivo, mas também essencial para tarefas que envolvem navegação em superfícies de múltiplos caminhos, modelagem de bifurcações do destino celular a partir de estados progenitores homogêneos e simulação de respostas celulares divergentes a perturbações.
Modelos de linguagem de grande escala frequentemente enfrentam conflitos entre seu conhecimento paramétrico e a entrada contextual, muitas vezes resultando em inconsistências factuais ou alucinações. Propomos o Debate Autorreflexivo para Confiabilidade Contextual (SR-DCR, na sigla em inglês), uma estrutura leve que integra a autoconfiança em nível de token com um debate assimétrico entre múltiplos agentes para resolver tais conflitos. Um crítico, privado de contexto, desafia um defensor que argumenta com base na passagem fornecida; um modelo juiz avalia o debate e determina a confiabilidade do contexto. A resposta final é selecionada combinando o veredito com a confiança do modelo. Experimentos no benchmark ClashEval demonstram que o SR-DCR melhora consistentemente a robustez a contextos enganosos, mantendo a precisão em entradas confiáveis, superando tanto os debates clássicos quanto as linhas de base baseadas apenas em confiança, com um custo computacional mínimo. O código está disponível em https://github.com/smiles724/Self-Reflective-Debates.
Modelos de raciocínio de grande escala (LRMs) demonstraram capacidades impressionantes de raciocínio em uma ampla gama de tarefas, incluindo problemas matemáticos de nível olímpico, indicando evidências de suas habilidades complexas de raciocínio. Embora muitos benchmarks de raciocínio se concentrem no domínio STEM, a capacidade dos LRMs de raciocinar corretamente em domínios de tarefas mais amplos permanece pouco explorada. Neste trabalho, introduzimos o TTT-Bench, um novo benchmark projetado para avaliar habilidades básicas de raciocínio estratégico, espacial e lógico em LRMs por meio de uma suíte de quatro jogos de dois jogadores no estilo Jogo da Velha que humanos podem resolver facilmente desde tenra idade. Propomos uma abordagem programática simples, mas escalável, para gerar problemas verificáveis de jogos de dois jogadores para o TTT-Bench. Embora esses jogos sejam triviais para humanos, eles exigem raciocínio sobre as intenções do oponente, bem como sobre as configurações espaciais do tabuleiro, para garantir uma vitória. Avaliamos um conjunto diversificado de LRMs state-of-the-art e descobrimos que os modelos que se destacam em problemas difíceis de matemática frequentemente falham nesses jogos simples de raciocínio. Testes adicionais revelam que os modelos de raciocínio avaliados pontuam, em média, 41% e 5% menos no TTT-Bench em comparação com o MATH 500 e o AIME 2024, respectivamente, com modelos maiores alcançando maior desempenho usando traços de raciocínio mais curtos, onde a maioria dos modelos luta em situações de raciocínio estratégico de longo prazo em tarefas simples e novas do TTT-Bench.
Os recentes avanços nos modelos de linguagem de grande escala (LLMs) levaram muitos pesquisadores a se concentrarem na construção de agentes de IA totalmente autônomos. Este artigo de posicionamento questiona se essa abordagem é o caminho certo a seguir, uma vez que esses sistemas autônomos ainda enfrentam problemas de confiabilidade, transparência e compreensão das reais necessidades humanas. Sugerimos uma abordagem diferente: Sistemas Humano-Agente baseados em LLM (LLM-HAS), onde a IA trabalha em conjunto com humanos, em vez de substituí-los. Ao manter os humanos envolvidos para fornecer orientação, responder perguntas e manter o controle, esses sistemas podem ser mais confiáveis e adaptáveis. Analisando exemplos de áreas como saúde, finanças e desenvolvimento de software, mostramos como a colaboração entre humanos e IA pode lidar com tarefas complexas de forma mais eficaz do que a IA trabalhando sozinha. Também discutimos os desafios de construir esses sistemas colaborativos e oferecemos soluções práticas. Este artigo argumenta que o progresso da IA não deve ser medido pelo quão independentes os sistemas se tornam, mas pela capacidade de trabalhar bem com humanos. O futuro mais promissor para a IA não está em sistemas que assumem papéis humanos, mas naqueles que amplificam as capacidades humanas por meio de uma parceria significativa.