Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Ovis2.5, um sucessor do Ovis2 projetado para percepção visual em resolução nativa e raciocínio multimodal robusto. O Ovis2.5 integra um vision transformer de resolução nativa que processa imagens em suas resoluções nativas e variáveis, evitando a degradação causada pelo recorte em resolução fixa e preservando tanto detalhes finos quanto o layout global — crucial para conteúdos visualmente densos, como gráficos complexos. Para fortalecer o raciocínio, treinamos o modelo para ir além da cadeia de pensamento linear e realizar reflexão — incluindo auto-verificação e revisão. Essa capacidade avançada é exposta como um "modo de pensamento" opcional no momento da inferência, permitindo que os usuários troquem latência por precisão aprimorada em entradas difíceis. O modelo é treinado por meio de um currículo abrangente de cinco fases que constrói progressivamente suas habilidades. O processo começa com pré-treinamento visual e multimodal básico, avança por ajuste de instrução em larga escala e culmina em aprimoramento de alinhamento e raciocínio usando DPO e GRPO. Para dimensionar essas atualizações de forma eficiente, empregamos empacotamento de dados multimodais e paralelismo híbrido, resultando em uma aceleração significativa de ponta a ponta. Lançamos dois modelos de código aberto: Ovis2.5-9B e Ovis2.5-2B. Este último continua a filosofia de "modelo pequeno, grande desempenho" do Ovis2, tornando-o ideal para cenários com recursos limitados e em dispositivos. No quadro de líderes multimodal OpenCompass, o Ovis2.5-9B alcança uma média de 78.3, marcando uma melhoria substancial em relação ao seu predecessor, Ovis2-8B, e atingindo resultados de ponta entre os MLLMs de código aberto na faixa de parâmetros abaixo de 40B; o Ovis2.5-2B pontua 73.9, estabelecendo o estado da arte (SOTA) para seu tamanho. Além das pontuações agregadas, o Ovis2.5 alcança resultados líderes em benchmarks STEM, exibe capacidades robustas em tarefas de fundamentação e vídeo e atinge o SOTA de código aberto em sua escala para análise de gráficos complexos.
A compreensão narrativa de histórias longas e romances tem sido um domínio desafiador devido às suas tramas intrincadas e às relações complexas e frequentemente evolutivas entre personagens e entidades. Dada a capacidade reduzida dos modelos de linguagem de grande escala (LLMs) para raciocinar sobre contextos extensos e o alto custo computacional envolvido, as abordagens baseadas em recuperação continuam desempenhando um papel crucial na prática. No entanto, os métodos tradicionais de RAG (Recuperação Aumentada por Geração) podem falhar devido ao seu processo de recuperação estático e de etapa única, que frequentemente ignora a natureza dinâmica de capturar relações interconectadas dentro de contextos de longo alcance. Neste trabalho, propomos o ComoRAG, fundamentado no princípio de que o raciocínio narrativo não é um processo único, mas uma interação dinâmica e evolutiva entre a aquisição de novas evidências e a consolidação de conhecimentos passados, análoga à cognição humana ao raciocinar com sinais relacionados à memória no cérebro. Especificamente, ao encontrar um impasse no raciocínio, o ComoRAG passa por ciclos iterativos de raciocínio enquanto interage com um espaço de memória dinâmico. Em cada ciclo, ele gera consultas de sondagem para traçar novos caminhos exploratórios, integrando então as evidências recuperadas de novos aspectos em um pool de memória global, suportando assim a emergência de um contexto coerente para a resolução da consulta. Em quatro benchmarks desafiadores de narrativas de contexto longo (200K+ tokens), o ComoRAG supera as bases fortes de RAG com ganhos relativos consistentes de até 11% em comparação com a linha de base mais forte. Análises adicionais revelam que o ComoRAG é particularmente vantajoso para consultas complexas que exigem compreensão global, oferecendo um paradigma fundamentado e cognitivamente motivado para a compreensão de contextos longos baseada em recuperação, visando o raciocínio com estado. Nosso código está disponível publicamente em https://github.com/EternityJune25/ComoRAG.
Apresentamos o 4DNeX, o primeiro framework de propagação direta para gerar representações de cenas 4D (ou seja, 3D dinâmicas) a partir de uma única imagem. Em contraste com métodos existentes que dependem de otimizações computacionalmente intensivas ou exigem entradas de vídeo com múltiplos quadros, o 4DNeX permite a geração eficiente e de ponta a ponta de imagem para 4D por meio do ajuste fino de um modelo de difusão de vídeo pré-treinado. Especificamente, 1) para mitigar a escassez de dados 4D, construímos o 4DNeX-10M, um conjunto de dados em larga escala com anotações 4D de alta qualidade geradas usando abordagens avançadas de reconstrução. 2) Introduzimos uma representação de vídeo 6D unificada que modela conjuntamente sequências RGB e XYZ, facilitando o aprendizado estruturado tanto da aparência quanto da geometria. 3) Propomos um conjunto de estratégias de adaptação simples, porém eficazes, para reutilizar modelos de difusão de vídeo pré-treinados para modelagem 4D. O 4DNeX produz nuvens de pontos dinâmicas de alta qualidade que permitem a síntese de vídeos com novas perspectivas. Experimentos extensivos demonstram que o 4DNeX supera os métodos existentes de geração 4D em eficiência e generalização, oferecendo uma solução escalável para modelagem de imagem para 4D e estabelecendo as bases para modelos de mundo 4D generativos que simulam a evolução dinâmica de cenas.
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm alcançado resultados impressionantes em compreensão de linguagem, geração, raciocínio e têm expandido os limites das habilidades dos modelos multimodais. Os modelos Transformer, como base dos LLMs modernos, oferecem uma linha de base robusta com excelentes propriedades de escalabilidade. No entanto, a arquitetura tradicional do Transformer exige cálculos substanciais e apresenta obstáculos significativos para o treinamento em larga escala e a implantação prática. Nesta pesquisa, oferecemos uma análise sistemática de arquiteturas inovadoras de LLMs que abordam as limitações inerentes aos Transformers e aumentam a eficiência. Partindo da modelagem de linguagem, esta pesquisa cobre o contexto e os detalhes técnicos dos métodos de modelagem de sequências lineares e esparsas, variantes eficientes de atenção completa, mistura esparsa de especialistas, arquiteturas híbridas que incorporam as técnicas mencionadas e os emergentes LLMs baseados em difusão. Além disso, discutimos as aplicações dessas técnicas em outras modalidades e consideramos suas implicações mais amplas para o desenvolvimento de modelos de base escaláveis e conscientes de recursos. Ao agrupar estudos recentes nas categorias mencionadas, esta pesquisa apresenta um panorama das arquiteturas modernas e eficientes de LLMs, e esperamos que isso possa motivar pesquisas futuras em direção a sistemas de IA mais eficientes e versáteis.
Propomos uma nova abordagem para geração de imagens, decompondo uma imagem em uma sequência estruturada, onde cada elemento da sequência compartilha a mesma resolução espacial, mas difere no número de tokens únicos utilizados, capturando diferentes níveis de granularidade visual. A geração de imagens é realizada por meio de nosso recém-introduzido framework de Geração de Granularidade Visual Seguinte (Next Visual Granularity - NVG), que gera uma sequência de granularidade visual começando a partir de uma imagem vazia e a refina progressivamente, do layout global aos detalhes finos, de maneira estruturada. Esse processo iterativo codifica uma representação hierárquica e em camadas, oferecendo controle refinado sobre o processo de geração em múltiplos níveis de granularidade. Treinamos uma série de modelos NVG para geração de imagens condicionadas por classe no conjunto de dados ImageNet e observamos um comportamento claro de escalabilidade. Em comparação com a série VAR, o NVG supera consistentemente em termos de pontuações FID (3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06). Também realizamos uma análise extensa para demonstrar a capacidade e o potencial do framework NVG. Nosso código e modelos serão liberados.
A Orientação sem Classificador (Classifier-free Guidance - CFG) é uma técnica amplamente utilizada em modelos de difusão modernos para melhorar a qualidade das amostras e a aderência aos prompts. No entanto, por meio de uma análise empírica em modelagem de mistura gaussiana com uma solução de forma fechada, observamos uma discrepância entre os resultados subótimos produzidos pela CFG e a verdade fundamental. A dependência excessiva do modelo nessas previsões subótimas frequentemente leva a incoerências semânticas e saídas de baixa qualidade. Para abordar esse problema, primeiro demonstramos empiricamente que as previsões subótimas do modelo podem ser efetivamente refinadas usando sub-redes do próprio modelo. Com base nessa percepção, propomos a S^2-Guidance, um método inovador que aproveita o descarte estocástico de blocos durante o processo direto para construir sub-redes estocásticas, guiando efetivamente o modelo para longe de previsões de baixa qualidade potencial e em direção a saídas de alta qualidade. Experimentos qualitativos e quantitativos extensivos em tarefas de geração de texto para imagem e texto para vídeo demonstram que a S^2-Guidance oferece desempenho superior, superando consistentemente a CFG e outras estratégias avançadas de orientação. Nosso código será liberado.
Modelos de Linguagem de Grande Escala (LLMs) são altamente sensíveis a variações sutis e não semânticas na formulação e formatação de prompts. Neste trabalho, apresentamos a primeira avaliação sistemática de 5 métodos para melhorar a robustez de prompts dentro de um framework experimental unificado. Avaliamos essas técnicas em 8 modelos das famílias Llama, Qwen e Gemma em 52 tarefas do conjunto de dados Natural Instructions. Nossa avaliação abrange métodos de robustez tanto de paradigmas de ajuste fino quanto de aprendizado em contexto, e testa sua generalização contra múltiplos tipos de deslocamentos de distribuição. Por fim, estendemos nossa análise ao GPT-4.1 e ao DeepSeek V3 para avaliar a robustez atual dos modelos de fronteira a perturbações de formato. Nossos resultados oferecem insights acionáveis sobre a eficácia relativa desses métodos de robustez, permitindo que profissionais tomem decisões informadas ao buscar desempenho estável e confiável de LLMs em aplicações do mundo real. Código: https://github.com/AIRI-Institute/when-punctuation-matters.
Modelos multi-modais têm alcançado progressos notáveis nos últimos anos. No entanto, eles continuam a exibir limitações significativas em compreensão e raciocínio espacial, que são capacidades fundamentais para atingir a inteligência artificial geral. Com o recente lançamento do GPT-5, supostamente o modelo de IA mais poderoso até o momento, é oportuno examinar onde os modelos líderes estão no caminho para a inteligência espacial. Primeiro, propomos uma taxonomia abrangente de tarefas espaciais que unifica benchmarks existentes e discutimos os desafios em garantir uma avaliação justa. Em seguida, avaliamos modelos proprietários e de código aberto de ponta em oito benchmarks-chave, a um custo que excede um bilhão de tokens no total. Nosso estudo empírico revela que (1) o GPT-5 demonstra uma força sem precedentes em inteligência espacial, mas (2) ainda fica aquém do desempenho humano em uma ampla gama de tarefas. Além disso, (3) identificamos os problemas mais desafiadores de inteligência espacial para modelos multi-modais, e (4) modelos proprietários não exibem uma vantagem decisiva ao enfrentar os problemas mais difíceis. Adicionalmente, conduzimos uma avaliação qualitativa em um conjunto diversificado de cenários que são intuitivos para humanos, mas que desafiam até os modelos multi-modais mais avançados.
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em tarefas de raciocínio passo a passo isoladas, como matemática e programação, mas sua proficiência em planejamento de longo horizonte, onde as soluções exigem sequências estruturadas e extensas de ações interdependentes, permanece pouco explorada. Os benchmarks existentes geralmente avaliam LLMs por meio de tarefas algorítmicas abstratas ou de baixa dimensionalidade, falhando em capturar a complexidade de ambientes de planejamento realistas. Apresentamos o HeroBench, um novo benchmark projetado especificamente para avaliar o planejamento de longo horizonte e o raciocínio estruturado em mundos virtuais complexos inspirados em RPGs. O HeroBench fornece um conjunto de dados rigorosamente construído de tarefas que abrangem uma ampla gama de dificuldades, um ambiente simulado para executar e validar os planos dos agentes, e ferramentas analíticas detalhadas para avaliar o desempenho dos modelos. As tarefas desafiam os modelos a formular planos estratégicos, reunir recursos de forma eficiente, dominar habilidades necessárias, criar equipamentos e derrotar adversários, refletindo as dependências em camadas e as restrições de cenários práticos. Nossa extensa avaliação de 25 LLMs de última geração, abrangendo tanto modelos de código aberto quanto proprietários, incluindo a família GPT-5, revela disparidades substanciais de desempenho raramente observadas em benchmarks convencionais de raciocínio. Uma análise detalhada de erros ainda revela fraquezas específicas nas habilidades dos modelos atuais para gerar planos robustos de alto nível e executar ações estruturadas de forma confiável. O HeroBench, portanto, não apenas avança significativamente a avaliação do raciocínio de LLMs, mas também fornece uma base flexível e escalável para pesquisas futuras sobre planejamento avançado e autônomo em ambientes virtuais.
Avanços recentes na geração de vídeos interativos demonstraram o potencial dos modelos de difusão como modelos de mundo, ao capturar dinâmicas físicas complexas e comportamentos interativos. No entanto, os modelos de mundo interativos existentes dependem de atenção bidirecional e etapas de inferência longas, limitando severamente o desempenho em tempo real. Consequentemente, eles têm dificuldade em simular dinâmicas do mundo real, onde os resultados devem ser atualizados instantaneamente com base no contexto histórico e nas ações atuais. Para resolver isso, apresentamos o Matrix-Game 2.0, um modelo de mundo interativo que gera vídeos longos em tempo real por meio de difusão auto-regressiva de poucos passos. Nosso framework consiste em três componentes principais: (1) Um pipeline escalável de produção de dados para ambientes Unreal Engine e GTA5, capaz de produzir efetivamente grandes quantidades (cerca de 1200 horas) de dados de vídeo com diversas anotações de interação; (2) Um módulo de injeção de ações que permite entradas de mouse e teclado em nível de quadro como condições interativas; (3) Uma destilação de poucos passos baseada na arquitetura causal para geração de vídeo em tempo real e em streaming. O Matrix Game 2.0 pode gerar vídeos de alta qualidade em nível de minuto em diversas cenas a uma velocidade ultrarrápida de 25 FPS. Disponibilizamos nossos pesos de modelo e base de código como open-source para avançar a pesquisa em modelagem de mundo interativo.
Apresentamos o AuriStream, um modelo biologicamente inspirado para codificação de fala por meio de uma estrutura de duas etapas inspirada na hierarquia de processamento auditivo humano. A primeira etapa transforma o áudio bruto em uma representação tempo-frequência baseada na cóclea humana, da qual extraímos tokens cocleares discretos. A segunda etapa aplica um modelo de sequência autorregressivo sobre os tokens cocleares. O AuriStream aprende representações significativas de fonemas e palavras, além de alcançar semântica lexical de ponta. O AuriStream demonstra desempenho competitivo em diversas tarefas de fala do benchmark SUPERB. Complementando as fortes capacidades representacionais do AuriStream, ele gera continuações de áudio que podem ser visualizadas no espaço de espectrogramas e decodificadas de volta em áudio, fornecendo insights sobre as previsões do modelo. Em resumo, apresentamos uma estrutura de duas etapas para aprendizado de representação de fala, visando avançar o desenvolvimento de modelos mais semelhantes aos humanos que lidam eficientemente com uma variedade de tarefas baseadas em fala.
A reiluminação de vídeos é uma tarefa desafiadora, porém valiosa, que visa substituir o fundo em vídeos enquanto ajusta correspondentemente a iluminação no primeiro plano com uma mistura harmoniosa. Durante a tradução, é essencial preservar as propriedades originais do primeiro plano, por exemplo, o albedo, e propagar uma reiluminação consistente entre os quadros temporais. Neste artigo, propomos o Lumen, um framework de reiluminação de vídeos de ponta a ponta desenvolvido em modelos generativos de vídeo em grande escala, que recebe descrições textuais flexíveis para instruir o controle da iluminação e do fundo. Considerando a escassez de vídeos pareados de alta qualidade com o mesmo primeiro plano em várias condições de iluminação, construímos um conjunto de dados em grande escala com uma mistura de vídeos realistas e sintéticos. Para o domínio sintético, aproveitando os abundantes ativos 3D da comunidade, utilizamos um motor de renderização 3D avançado para criar pares de vídeos em diversos ambientes. Para o domínio realista, adaptamos uma simulação de iluminação baseada em HDR para complementar a falta de vídeos pareados capturados em ambientes naturais. Alimentado pelo conjunto de dados mencionado, projetamos um currículo de treinamento conjunto para liberar efetivamente os pontos fortes de cada domínio, ou seja, a consistência física nos vídeos sintéticos e a distribuição generalizada do domínio nos vídeos realistas. Para implementar isso, injetamos um adaptador consciente do domínio no modelo para desacoplar o aprendizado da reiluminação e da distribuição de aparência do domínio. Construímos um benchmark abrangente para avaliar o Lumen juntamente com os métodos existentes, a partir das perspectivas de preservação do primeiro plano e avaliação da consistência do vídeo. Os resultados experimentais demonstram que o Lumen edita efetivamente a entrada em vídeos reiluminados cinematográficos com iluminação consistente e preservação estrita do primeiro plano. Nossa página do projeto: https://lumen-relight.github.io/
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma poderoso para aprimorar Modelos de Linguagem de Grande Escala (LLMs), exemplificado pelo sucesso da série o da OpenAI. No RLVR, as recompensas são derivadas de sinais verificáveis, como passar em testes unitários na geração de código ou corresponder a respostas corretas no raciocínio matemático. Embora eficaz, esse requisito limita amplamente o RLVR a domínios com resultados automaticamente verificáveis. Para superar isso, estendemos o paradigma RLVR para tarefas abertas, integrando recompensas baseadas em rubricas, onde critérios cuidadosamente projetados servem como estruturas interpretáveis pelo modelo para pontuação automática de saídas subjetivas. Construímos, até onde sabemos, o maior sistema de recompensas por rubricas até o momento, com mais de 10.000 rubricas provenientes de humanos, LLMs ou uma colaboração híbrida humano-LLM. Implementar RL baseado em rubricas é desafiador; abordamos essas questões com uma estrutura clara e apresentamos um modelo de código aberto Qwen-30B-A3B com ganhos notáveis: 1) Com apenas 5K+ amostras, nosso sistema melhora em +5,2% em benchmarks de tarefas abertas (especialmente em humanidades), superando um modelo DeepSeek-V3 de 671B em +2,4%, enquanto preserva habilidades gerais e de raciocínio. 2) Nosso método oferece controle estilístico refinado, usando rubricas como âncoras para mitigar o tom "artificial" e produzir respostas mais humanas e expressivas. Compartilhamos lições-chave na construção de rubricas, seleção de dados e treinamento, e discutimos limitações e lançamentos futuros.
Apresentamos o G-CUT3R, uma nova abordagem feed-forward para reconstrução guiada de cenas 3D que aprimora o modelo CUT3R ao integrar informações prévias. Diferente dos métodos feed-forward existentes que dependem exclusivamente de imagens de entrada, nosso método aproveita dados auxiliares, como profundidade, calibrações de câmera ou posições de câmera, comumente disponíveis em cenários do mundo real. Propomos uma modificação leve ao CUT3R, incorporando um codificador dedicado para cada modalidade a fim de extrair características, que são fundidas com tokens de imagens RGB por meio de convolução zero. Esse design flexível permite a integração contínua de qualquer combinação de informações prévias durante a inferência. Avaliado em diversos benchmarks, incluindo reconstrução 3D e outras tarefas multi-visão, nossa abordagem demonstra melhorias significativas de desempenho, mostrando sua capacidade de utilizar efetivamente os priores disponíveis enquanto mantém compatibilidade com diferentes modalidades de entrada.
Apresentamos os prompts visuais de ação, uma representação unificada de ações para a geração de vídeos a partir de interações complexas de alto grau de liberdade (DoF), mantendo dinâmicas visuais transferíveis entre domínios. A geração de vídeos orientada por ações enfrenta um dilema entre precisão e generalidade: métodos existentes que utilizam texto, ações primitivas ou máscaras grosseiras oferecem generalidade, mas carecem de precisão, enquanto sinais de ação centrados no agente fornecem precisão em detrimento da transferibilidade entre domínios. Para equilibrar a precisão da ação e a transferibilidade dinâmica, propomos "renderizar" ações em prompts visuais precisos como representações agnósticas de domínio que preservam tanto a precisão geométrica quanto a adaptabilidade entre domínios para ações complexas; especificamente, escolhemos esqueletos visuais por sua generalidade e acessibilidade. Propomos pipelines robustos para construir esqueletos a partir de duas fontes de dados ricas em interações - interações humano-objeto (HOI) e manipulação robótica destra - permitindo o treinamento entre domínios de modelos generativos orientados por ações. Ao integrar esqueletos visuais em modelos de geração de vídeos pré-treinados por meio de ajuste fino leve, habilitamos o controle preciso de ações em interações complexas, preservando o aprendizado de dinâmicas entre domínios. Experimentos no EgoVid, RT-1 e DROID demonstram a eficácia da nossa abordagem proposta. Página do projeto: https://zju3dv.github.io/VAP/.
As abordagens tradicionais de aprendizado multimodal exigem um pré-treinamento de alinhamento dispendioso para conectar as modalidades de visão e linguagem, geralmente projetando características visuais em espaços discretos de tokens de texto. Desafiamos ambas as premissas fundamentais subjacentes a esse paradigma ao propor o Inverse-LLaVA, uma nova abordagem que elimina completamente o pré-treinamento de alinhamento enquanto inverte a direção convencional de mapeamento. Em vez de projetar características visuais para o espaço de texto, nosso método mapeia embeddings de texto em um espaço contínuo de representação visual e realiza a fusão dentro das camadas intermediárias de transformadores. Por meio de componentes aditivos seletivos em mecanismos de atenção, permitimos a integração dinâmica de representações visuais e textuais sem a necessidade de grandes conjuntos de dados de alinhamento imagem-texto. Experimentos abrangentes em nove benchmarks multimodais demonstram compensações de desempenho sutis: o Inverse-LLaVA alcança melhorias notáveis em tarefas intensivas em raciocínio e cognitivas (MM-VET: +0,2%, VizWiz: +1,8%, ScienceQA: +0,2%, raciocínio cognitivo: +27,2%), enquanto mostra quedas esperadas em tarefas de percepção que exigem associações memorizadas entre visão e texto (reconhecimento de celebridades: -49,5%, OCR: -21,3%). Esses resultados fornecem a primeira evidência empírica de que o pré-treinamento de alinhamento não é necessário para um aprendizado multimodal eficaz, particularmente para tarefas complexas de raciocínio. Nosso trabalho estabelece a viabilidade de um novo paradigma que reduz os requisitos computacionais em 45%, desafia a sabedoria convencional sobre a fusão de modalidades e abre novas direções de pesquisa para arquiteturas multimodais eficientes que preservam características específicas de cada modalidade. Nosso site do projeto, com código e recursos adicionais, está disponível em https://inverse-llava.github.io.
O Desaprendizado de Máquina (Machine Unlearning - MU) visa remover dados de treinamento específicos de um modelo já treinado, de modo que os dados removidos não influenciem mais o comportamento do modelo, cumprindo assim as obrigações do "direito ao esquecimento" previstas nas leis de privacidade de dados. No entanto, observamos que os pesquisadores neste campo emergente enfrentam desafios ao analisar e compreender o comportamento de diferentes métodos de MU, especialmente em relação a três princípios fundamentais: precisão, eficiência e privacidade. Consequentemente, eles frequentemente dependem de métricas agregadas e avaliações ad-hoc, o que dificulta a avaliação precisa das compensações entre os métodos. Para preencher essa lacuna, introduzimos um sistema de análise visual, o Comparador de Desaprendizado (Unlearning Comparator), projetado para facilitar a avaliação sistemática de métodos de MU. Nosso sistema suporta duas tarefas importantes no processo de avaliação: comparação de modelos e simulação de ataques. Primeiro, ele permite ao usuário comparar os comportamentos de dois modelos, como um modelo gerado por um determinado método e uma linha de base retreinada, em níveis de classe, instância e camada, para entender melhor as alterações feitas após o desaprendizado. Segundo, nosso sistema simula ataques de inferência de associação (Membership Inference Attacks - MIAs) para avaliar a privacidade de um método, onde um atacante tenta determinar se amostras de dados específicas faziam parte do conjunto de treinamento original. Avaliamos nosso sistema por meio de um estudo de caso que analisa visualmente métodos proeminentes de MU e demonstramos que ele ajuda o usuário não apenas a entender os comportamentos do modelo, mas também a obter insights que podem informar a melhoria dos métodos de MU.
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram habilidades notáveis de resolução de problemas em matemática, conforme avaliado por benchmarks existentes exclusivamente em problemas bem definidos. No entanto, tal configuração de avaliação constitui uma lacuna crítica, uma vez que um agente inteligente genuíno não deve apenas resolver problemas (como um solucionador de questionários de matemática), mas também ser capaz de solicitar informações quando os problemas carecem de dados suficientes, permitindo proatividade ao responder às solicitações dos usuários. Para preencher essa lacuna, propomos um novo conjunto de dados composto por dois tipos de problemas incompletos com contextos diversos. Com base nesse conjunto de dados, nossa avaliação sistemática dos LRMs revela sua incapacidade de solicitar informações de forma proativa. Além disso, descobrimos comportamentos relacionados ao excesso de pensamento e à alucinação dos LRMs, e destacamos o potencial e os desafios do ajuste fino supervisionado no aprendizado dessa habilidade. Esperamos fornecer novos insights para o desenvolvimento de LRMs com inteligência genuína, em vez de apenas resolver problemas.
Investigamos até que ponto os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) conseguem identificar com precisão a orientação de imagens de entrada rotacionadas em 0°, 90°, 180° e 270°. Essa tarefa exige capacidades robustas de raciocínio visual para detectar pistas de rotação e contextualizar relações espaciais dentro das imagens, independentemente de sua orientação. Para avaliar os MLLMs nessas habilidades, introduzimos o RotBench — um benchmark de 350 imagens filtradas manualmente, composto por imagens de estilo de vida, retratos e paisagens. Apesar da natureza relativamente simples dessa tarefa, mostramos que vários MLLMs de ponta, tanto abertos quanto proprietários, incluindo GPT-5, o3 e Gemini-2.5-Pro, não identificam de forma confiável a rotação nas imagens de entrada. Fornecer aos modelos informações auxiliares — incluindo legendas, mapas de profundidade e outros — ou usar prompts de cadeia de pensamento oferece apenas melhorias pequenas e inconsistentes. Nossos resultados indicam que a maioria dos modelos consegue identificar de forma confiável imagens na posição correta (0°), enquanto certos modelos conseguem identificar imagens invertidas (180°). Nenhum consegue distinguir de forma confiável entre 90° e 270°. Mostrar simultaneamente a imagem rotacionada em diferentes orientações leva a ganhos moderados de desempenho para modelos de raciocínio, enquanto uma configuração modificada usando votação melhora o desempenho de modelos mais fracos. Mostramos ainda que o ajuste fino não melhora a capacidade dos modelos de distinguir rotações de 90° e 270°, apesar de melhorar substancialmente a identificação de imagens a 180°. Juntos, esses resultados revelam uma lacuna significativa entre as capacidades de raciocínio espacial dos MLLMs e a percepção humana na identificação de rotações.