Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de difusão enfrentam dificuldades para escalar além de suas resoluções de treinamento, uma vez que a amostragem direta em alta resolução é lenta e custosa, enquanto a super-resolução de imagem pós-processamento (ISR) introduz artefatos e latência adicional ao operar após a decodificação. Apresentamos o Latent Upscaler Adapter (LUA), um módulo leve que realiza super-resolução diretamente no código latente do gerador antes da etapa final de decodificação do VAE. O LUA integra-se como um componente plug-and-play, sem exigir modificações no modelo base ou estágios adicionais de difusão, e permite a síntese em alta resolução por meio de uma única passagem direta no espaço latente. Um backbone compartilhado no estilo Swin com cabeças de pixel-shuffle específicas para escala suporta fatores de 2x e 4x e mantém compatibilidade com baselines de SR no espaço de imagem, alcançando qualidade perceptual comparável com um tempo de decodificação e upscaling quase 3x menor (adicionando apenas +0,42 s para geração de 1024 px a partir de 512 px, em comparação com 1,87 s para SR no espaço de pixels usando a mesma arquitetura SwinIR). Além disso, o LUA demonstra forte generalização entre os espaços latentes de diferentes VAEs, facilitando sua implantação sem a necessidade de retreinar do zero para cada novo decodificador. Experimentos extensivos mostram que o LUA se aproxima da fidelidade da geração nativa em alta resolução, oferecendo um caminho prático e eficiente para síntese de imagens escaláveis e de alta fidelidade em pipelines modernos de difusão.
Apresentamos o Depth Anything 3 (DA3), um modelo que prevê geometria espacialmente consistente a partir de um número arbitrário de entradas visuais, com ou sem poses de câmera conhecidas. Em busca de uma modelagem mínima, o DA3 oferece dois insights fundamentais: um único transformer simples (por exemplo, um codificador DINO padrão) é suficiente como backbone sem especialização arquitetônica, e um único alvo de predição de raio de profundidade dispensa a necessidade de aprendizado multitarefa complexo. Através do nosso paradigma de treinamento professor-aluno, o modelo atinge um nível de detalhe e generalização equivalente ao Depth Anything 2 (DA2). Estabelecemos um novo benchmark de geometria visual abrangendo estimativa de pose de câmera, geometria de visão arbitrária e renderização visual. Neste benchmark, o DA3 estabelece um novo estado da arte em todas as tarefas, superando o SOTA anterior VGGT em uma média de 44,3% na precisão da pose da câmera e 25,1% na precisão geométrica. Além disso, supera o DA2 na estimativa de profundidade monocular. Todos os modelos são treinados exclusivamente em conjuntos de dados acadêmicos públicos.
Um modelo mundial permite que um agente inteligente imagine, preveja e raciocine sobre como o mundo evolui em resposta às suas ações, e, consequentemente, planeje e estrategize. Embora os modelos recentes de geração de vídeo produzam sequências visuais realistas, eles normalmente operam de maneira direta (do prompt ao vídeo completo) sem o controle causal, a interactividade ou a consistência de longo horizonte necessários para um raciocínio com propósito. Por outro lado, os esforços existentes de modelagem mundial frequentemente concentram-se em domínios restritos (por exemplo, dinâmicas físicas, de jogos ou de cenas 3D) com profundidade e controlabilidade limitadas, e lutam para generalizar entre diversos ambientes e formatos de interação. Neste trabalho, introduzimos o PAN, um modelo mundial geral, interativo e de longo horizonte que prevê estados futuros do mundo através de simulação de vídeo de alta qualidade condicionada pela história e por ações em linguagem natural. O PAN emprega a arquitetura de Predição Latente Generativa (Generative Latent Prediction - GLP) que combina uma estrutura dinâmica latente autorregressiva baseada num modelo de linguagem de grande escala (LLM) – que ancora a simulação em conhecimento textual extenso e permite o condicionamento por ações especificadas linguisticamente – com um descodificador de difusão de vídeo que reconstrói observações visuais perceptualmente detalhadas e temporalmente coerentes, para alcançar uma unificação entre o raciocínio no espaço latente (imaginação) e as dinâmicas mundiais realizáveis (realidade). Treinado em pares vídeo-ação de grande escala abrangendo domínios diversos, o PAN suporta simulação de domínio aberto, condicionada por ações, com dinâmicas coerentes e de longo prazo. Extensos experimentos mostram que o PAN alcança um desempenho sólido em simulação mundial condicionada por ações, previsão de longo horizonte e raciocínio simulativo em comparação com outros geradores de vídeo e modelos mundiais, dando um passo em direção a modelos mundiais gerais que permitem a simulação preditiva de estados futuros do mundo para raciocinar e agir.
A destilação de caixa preta cria modelos de linguagem grandes (LLMs) estudante aprendendo apenas a partir das saídas de texto de um modelo professor proprietário, sem acesso aos seus logits internos ou parâmetros. Neste trabalho, introduzimos a Destilação Generativa Adversarial (GAD), que permite a destilação sob política e em caixa preta. A GAD enquadra o LLM estudante como um gerador e treina um discriminador para distinguir suas respostas das do LLM professor, criando um jogo minimax. O discriminador atua como um modelo de recompensa sob política que co-evolui com o estudante, fornecendo feedback estável e adaptativo. Resultados experimentais mostram que a GAD supera consistentemente a destilação de conhecimento a nível de sequência, comumente utilizada. Em particular, o Qwen2.5-14B-Instruct (estudante) treinado com GAD torna-se comparável ao seu professor, o GPT-5-Chat, na avaliação automática LMSYS-Chat. Os resultados estabelecem a GAD como um paradigma promissor e eficaz para a destilação de LLMs em caixa preta.
Embora os modelos de IA especializados se destaquem em tarefas isoladas de vídeo, como geração ou compreensão, as aplicações do mundo real exigem fluxos de trabalho complexos e iterativos que combinam essas capacidades. Para preencher essa lacuna, apresentamos o UniVA, uma estrutura de multiagente de código aberto e onipresente para generalistas de vídeo de próxima geração que unifica compreensão, segmentação, edição e geração de vídeo em fluxos de trabalho coesos. O UniVA emprega uma arquitetura de agente duplo Planejar-e-Agir que conduz um fluxo de trabalho altamente automatizado e proativo: um agente planejador interpreta as intenções do usuário e as decompõe em etapas estruturadas de processamento de vídeo, enquanto agentes executores as implementam por meio de servidores de ferramentas modulares baseados em MCP (para análise, geração, edição, rastreamento etc.). Através de uma memória hierárquica multinível (conhecimento global, contexto de tarefa e preferências específicas do usuário), o UniVA sustenta raciocínio de longo prazo, continuidade contextual e comunicação interagente, permitindo criação de vídeo interativa e autorreflexiva com total rastreabilidade. Este projeto permite fluxos de trabalho de vídeo iterativos e sob quaisquer condições (por exemplo, geração condicionada por texto/imagem/vídeo → edição em múltiplas rodadas → segmentação de objetos → síntese composicional) que anteriormente eram difíceis de alcançar com modelos de propósito único ou modelos monolíticos de vídeo e linguagem. Também apresentamos o UniVA-Bench, um conjunto de benchmarks de tarefas de vídeo multietapa abrangendo compreensão, edição, segmentação e geração, para avaliar rigorosamente tais sistemas de vídeo agentivos. Tanto o UniVA quanto o UniVA-Bench são totalmente de código aberto, visando catalisar pesquisas sobre inteligência de vídeo interativa, agentiva e de propósito geral para a próxima geração de sistemas de IA multimodal. (https://univa.online/)
O Group Relative Policy Optimization (GRPO) tem demonstrado grande utilidade no pós-treinamento de Grandes Modelos de Linguagem (LLMs). No GRPO, os prompts são respondidos pelo modelo e, através de aprendizagem por reforço, as conclusões preferidas são aprendidas. Devido ao pequeno volume de comunicação, o GRPO é intrinsecamente adequado para treinamento descentralizado, uma vez que os prompts podem ser respondidos concorrentemente por múltiplos nós e depois trocados na forma de strings. Neste trabalho, apresentamos o primeiro ataque adversarial em GRPO descentralizado. Demonstramos que partes maliciosas podem envenenar tais sistemas através da injeção de tokens maliciosos arbitrários em modelos benignos, tanto em ataques fora de contexto quanto em contexto. Utilizando exemplos empíricos de tarefas de matemática e programação, mostramos que ataques adversariais podem facilmente envenenar os nós benignos, poluindo seu pós-treinamento local de LLM, atingindo taxas de sucesso de ataque de até 100% em apenas 50 iterações. Propomos duas formas de defender contra esses ataques, dependendo se todos os usuários treinam o mesmo modelo ou modelos diferentes. Mostramos que essas defesas podem atingir taxas de parada de até 100%, tornando o ataque impossível.
Os LLMs alcançaram avanços notáveis em raciocínio, percepção e uso de ferramentas, mas a combinação dessas capacidades em processos estendidos na escala daqueles rotineiramente executados por humanos, organizações e sociedades permaneceu fora de alcance. Os modelos apresentam uma taxa de erro persistente que impede a escalabilidade: por exemplo, experimentos recentes no domínio de referência das Torres de Hanói mostraram que o processo inevitavelmente descarrila após, no máximo, algumas centenas de passos. Assim, embora a pesquisa com LLMs ainda seja frequentemente avaliada em tarefas com relativamente poucos passos lógicos dependentes, há uma atenção crescente na capacidade (ou incapacidade) dos LLMs de executar tarefas de longo alcance. Este artigo descreve o MAKER, o primeiro sistema que resolve com sucesso uma tarefa com mais de um milhão de passos de LLM sem erros e que, em princípio, escala muito além desse nível. A abordagem baseia-se numa decomposição extrema de uma tarefa em subtarefas, cada uma das quais pode ser resolvida por microagentes especializados. O alto nível de modularidade resultante da decomposição permite que a correção de erros seja aplicada a cada passo através de um esquema eficiente de votação multiagente. Esta combinação de decomposição extrema e correção de erros torna a escalabilidade possível. Desta forma, os resultados sugerem que, em vez de depender da melhoria contínua dos LLMs atuais, os processos agentivos massivamente decompostos (MDAPs) podem fornecer uma forma de resolver problemas eficientemente ao nível de organizações e sociedades.
Os grandes modelos de linguagem têm feito progressos significativos em problemas complexos, mas de fácil verificação, no entanto, eles ainda lutam para descobrir o desconhecido. Neste artigo, apresentamos o AlphaResearch, um agente de pesquisa autónomo projetado para descobrir novos algoritmos em problemas de natureza aberta. Para sinergizar a viabilidade e a inovação do processo de descoberta, construímos um ambiente de pesquisa dual inovador, combinando a verificação baseada em execução com um ambiente simulado de revisão por pares do mundo real. O AlphaResearch descobre novos algoritmos executando iterativamente os seguintes passos: (1) propor novas ideias, (2) verificar as ideias no ambiente de pesquisa dual e (3) otimizar as propostas de pesquisa para um melhor desempenho. Para promover um processo de avaliação transparente, construímos o AlphaResearchComp, um novo benchmark de avaliação que inclui uma competição com oito problemas algorítmicos abertos, sendo cada problema cuidadosamente selecionado e verificado por meio de pipelines executáveis, métricas objetivas e verificações de reprodutibilidade. O AlphaResearch obtém uma taxa de sucesso de 2/8 em comparação direta com investigadores humanos, demonstrando a possibilidade de acelerar a descoberta de algoritmos com LLMs. Notavelmente, o algoritmo descoberto pelo AlphaResearch no problema do "empacotamento de círculos" atinge o melhor desempenho conhecido, superando os resultados de investigadores humanos e bases de comparação robustas de trabalhos recentes (por exemplo, AlphaEvolve). Adicionalmente, realizamos uma análise abrangente dos desafios remanescentes nos 6/8 casos de insucesso, fornecendo perspetivas valiosas para pesquisas futuras.
Os grandes modelos de linguagem (LLMs) estão cada vez mais sendo treinados com técnicas clássicas de otimização como AdamW para melhorar a convergência e a generalização. No entanto, os mecanismos pelos quais métodos inspirados na quântica melhoram o treinamento clássico permanecem pouco explorados. Apresentamos o Superpositional Gradient Descent (SGD), um novo otimizador que conecta atualizações de gradiente com a superposição quântica através da injeção de perturbações de circuitos quânticos. Apresentamos uma estrutura matemática e implementamos circuitos híbridos quântico-clássicos em PyTorch e Qiskit. Na classificação de sequências sintéticas e no ajuste fino de LLMs em larga escala, o SGD converge mais rapidamente e produz uma perda final menor do que o AdamW. Apesar dos resultados promissores, a escalabilidade e as limitações de hardware restringem a adoção. No geral, este trabalho fornece novos insights sobre a interseção entre computação quântica e aprendizado profundo, sugerindo caminhos práticos para aproveitar os princípios quânticos para controlar e melhorar o comportamento do modelo.
Os modelos de edição de imagens baseados em instrução têm alcançado recentemente desempenhos impressionantes, permitindo edições complexas em uma imagem de entrada a partir de um prompt com múltiplas instruções. No entanto, esses modelos aplicam cada instrução do prompt com uma intensidade fixa, limitando a capacidade do usuário de controlar com precisão e continuidade a intensidade de edições individuais. Apresentamos o SliderEdit, uma estrutura para edição contínua de imagens com controle de instrução de granularidade fina e interpretável. Dada uma instrução de edição com múltiplas partes, o SliderEdit separa as instruções individuais e expõe cada uma como um controle deslizante treinado globalmente, permitindo ajuste suave de sua intensidade. Diferente de trabalhos anteriores que introduziram controles deslizantes de atributos na geração de texto para imagem – que geralmente exigem treinamento ou ajuste separado para cada atributo ou conceito – nosso método aprende um único conjunto de matrizes de adaptação de baixo posto que generaliza para diversas edições, atributos e instruções composicionais. Isso permite interpolação contínua ao longo de dimensões de edição individuais, preservando tanto a localidade espacial quanto a consistência semântica global. Aplicamos o SliderEdit a modelos de edição de imagem de última geração, incluindo FLUX-Kontext e Qwen-Image-Edit, e observamos melhorias substanciais na controlabilidade da edição, consistência visual e capacidade de direcionamento pelo usuário. Até onde sabemos, somos os primeiros a explorar e propor uma estrutura para controle contínuo de instrução de granularidade fina em modelos de edição de imagem baseados em instrução. Nossos resultados abrem caminho para manipulação de imagens interativa e orientada por instrução com controle contínuo e composicional.
A Pesquisa Aprofundada (PA) é uma aplicação de agente emergente que aproveita modelos de linguagem de grande escala (LLMs) para abordar consultas abertas. Ela requer a integração de várias capacidades, incluindo raciocínio multi-etapas, síntese entre documentos e a geração de respostas longas e fundamentadas em evidências. A avaliação da PA continua a ser um desafio porque as respostas são longas e diversificadas, admitem muitas soluções válidas e frequentemente dependem de fontes de informação dinâmicas. Apresentamos as ResearchRubrics, uma referência padronizada para PA, construída com mais de 2.800 horas de trabalho humano, que emparelha instruções realistas e diversificadas por domínio com mais de 2.500 rubricas detalhadas escritas por especialistas para avaliar fundamentação factual, solidez do raciocínio e clareza. Também propomos um novo quadro de complexidade para categorizar tarefas de PA ao longo de três eixos: amplitude conceptual, aninhamento lógico e exploração. Além disso, desenvolvemos protocolos de avaliação baseados em humanos e em modelos que medem a adesão às rubricas para agentes de PA. Avaliamos vários sistemas de PA de última geração e descobrimos que mesmo agentes líderes como o PA da Gemini e o PA da OpenAI atingem menos de 68% de conformidade média com as nossas rubricas, principalmente devido à falta de contexto implícito e ao raciocínio inadequado sobre a informação recuperada. Os nossos resultados destacam a necessidade de uma avaliação robusta e escalável das capacidades de pesquisa aprofundada, para o que disponibilizamos as ResearchRubrics (incluindo todas as instruções, rubricas e código de avaliação) para facilitar o progresso em direção a assistentes de pesquisa bem fundamentados.
Apresentamos o Music Flamingo, um novo e avançado modelo de áudio e linguagem projetado para promover a compreensão musical (incluindo canções) em modelos fundamentais de áudio. Embora a pesquisa em áudio e linguagem tenha progredido rapidamente, a música continua a ser um desafio devido à sua natureza dinâmica, estratificada e densa em informação. O progresso tem sido ainda mais limitado pela dificuldade de escalar modelos abertos de compreensão de áudio, principalmente devido à escassez de dados e anotações musicais de alta qualidade. Como resultado, os modelos anteriores estão restritos a produzir legendas curtas e de alto nível, a responder apenas a perguntas superficiais e a mostrar uma generalização limitada entre diversas culturas musicais. Para enfrentar esses desafios, criamos o MF-Skills, um conjunto de dados em larga escala rotulado por meio de um pipeline multiestágio que produz legendas ricas e pares de pergunta-resposta abrangendo harmonia, estrutura, timbre, letras e contexto cultural. Ajustamos finamente uma versão aprimorada do backbone Audio Flamingo 3 no MF-Skills e fortalecemos ainda mais múltiplas habilidades relevantes para a compreensão musical. Para melhorar as capacidades de raciocínio do modelo, introduzimos uma receita de pós-treinamento: iniciamos primeiro com um "cold-start" usando o MF-Think, um novo conjunto de dados de cadeia de pensamento fundamentado em teoria musical, seguido por um aprendizado por reforço baseado em GRPO com recompensas personalizadas. O Music Flamingo alcança resultados state-of-the-art em mais de 10 benchmarks para compreensão e raciocínio musical, estabelecendo-se como um modelo generalista e musicalmente inteligente de áudio e linguagem. Para além de fortes resultados empíricos, o Music Flamingo estabelece um novo padrão para a compreensão musical avançada, demonstrando como os modelos podem evoluir do reconhecimento superficial para uma percepção estratificada e semelhante à humana das canções. Acreditamos que este trabalho fornece tanto um benchmark quanto uma base para a comunidade construir a próxima geração de modelos que se envolvem com a música de forma tão significativa quanto os humanos.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm resultado em desempenhos impressionantes em uma série de tarefas, mas a capacidade avançada de seguir instruções (IF) – especialmente para instruções complexas, de múltiplos turnos e com *prompts* de sistema – continua a ser um desafio significativo. A avaliação rigorosa e o treinamento eficaz para tais capacidades são dificultados pela falta de *benchmarks* de alta qualidade anotados por humanos e de sinais de recomposta confiáveis e interpretáveis. Neste trabalho, introduzimos o AdvancedIF (que disponibilizaremos em breve), um *benchmark* abrangente com mais de 1.600 *prompts* e rubricas curadas por especialistas que avaliam a capacidade dos LLMs de seguir instruções complexas, de múltiplos turnos e em nível de sistema. Propomos ainda o RIFL (Aprendizado de Seguimento de Instruções baseado em Rúbricas), um novo *pipeline* de pós-treinamento que aproveita a geração de rubricas, um verificador de rubricas afinado e a modelagem de recompensas para permitir um aprendizado por reforço eficaz para o seguimento de instruções. Experimentos extensivos demonstram que o RIFL melhora substancialmente as capacidades de seguimento de instruções dos LLMs, alcançando um ganho absoluto de 6,7% no AdvancedIF e resultados sólidos em *benchmarks* públicos. Nossos estudos de ablação confirmam a eficácia de cada componente do RIFL. Este trabalho estabelece as rubricas como uma ferramenta poderosa tanto para o treinamento quanto para a avaliação da IF avançada em LLMs, abrindo caminho para sistemas de IA mais capazes e confiáveis.
A colaboração eficaz entre humanos e agentes em ambientes físicos requer a compreensão não apenas do que atuar, mas também de onde estão os elementos acionáveis e como interagir com eles. As abordagens existentes geralmente operam no nível de objeto ou lidam de forma fragmentada com o raciocínio de affordance em granularidade fina, carecendo de uma fundamentação e raciocínio coerentes e orientados por instruções. Neste trabalho, introduzimos uma nova tarefa: Raciocínio Corporificado 3D de Granularidade Fina, que requer que um agente preveja, para cada elemento de affordance referenciado em uma cena 3D, um tripleto estruturado compreendendo sua localização espacial, tipo de movimento e eixo de movimento, com base em uma instrução de tarefa. Para resolver esta tarefa, propomos o AffordBot, uma estrutura nova que integra Modelos de Linguagem Multimodais de Grande Escala (MLLMs) com um paradigma de raciocínio em cadeia de pensamento (CoT) personalizado. Para preencher a lacuna entre a entrada 3D e os MLLMs compatíveis com 2D, renderizamos imagens de visão envolvente da cena e projetamos os candidatos a elementos 3D nessas visualizações, formando uma representação visual rica alinhada com a geometria da cena. Nossa pipeline CoT começa com um estágio de percepção ativa, solicitando que o MLLM selecione o ponto de vista mais informativo com base na instrução, antes de prosseguir com um raciocínio passo a passo para localizar elementos de affordance e inferir movimentos de interação plausíveis. Avaliado no conjunto de dados SceneFun3D, o AffordBot atinge um desempenho de ponta, demonstrando forte generalização e raciocínio fisicamente fundamentado com apenas entrada de nuvem de pontos 3D e MLLMs.
Apesar dos avanços na qualidade de geração, os modelos atuais de texto para imagem (T2I) frequentemente carecem de diversidade, produzindo resultados homogéneos. Este trabalho introduz um *framework* para abordar a necessidade de uma avaliação robusta da diversidade em modelos T2I. O nosso *framework* avalia sistematicamente a diversidade, analisando conceitos individuais e os seus respetivos fatores de variação. As principais contribuições incluem: (1) um novo modelo de avaliação humana para uma análise de diversidade mais subtil; (2) um conjunto de *prompts* criteriosamente selecionado, abrangendo conceitos diversos com os seus fatores de variação identificados (ex.: *prompt*: Uma imagem de uma maçã, fator de variação: cor); e (3) uma metodologia para comparar modelos com base em anotações humanas através de testes binomiais. Além disso, comparamos rigorosamente vários *embeddings* de imagem para medição da diversidade. De forma notável, a nossa abordagem fundamentada permite hierarquizar modelos T2I por diversidade, identificando categorias em que estes têm particular dificuldade. Esta investigação oferece uma metodologia robusta e *insights*, abrindo caminho para melhorias na diversidade dos modelos T2I e no desenvolvimento de métricas.
Os métodos de classificação (AC) e segmentação (AS) de anomalias *zero-shot* visam identificar e delinear defeitos sem utilizar quaisquer amostras rotuladas. Neste artigo, revelamos uma propriedade fundamental negligenciada pelos métodos existentes: os *patches* de imagens normais em produtos industriais tipicamente encontram muitos outros *patches* semelhantes, não apenas na aparência 2D, mas também nas formas 3D, enquanto as anomalias permanecem diversas e isoladas. Para explorar explicitamente esta propriedade discriminativa, propomos uma estrutura de Pontuação Mútua (MuSc-V2) para AC/AS *zero-shot*, que suporta flexivelmente modalidades única 2D/3D ou multimodais. Especificamente, nosso método começa por melhorar a representação 3D através do Agrupamento Iterativo de Pontos (IPG), que reduz falsos positivos provenientes de superfícies descontínuas. Em seguida, utilizamos a Agregação de Vizinhança por Similaridade com Múltiplos Graus (SNAMD) para fundir pistas de vizinhança 2D/3D em características de *patches* multiescala mais discriminativas para pontuação mútua. O núcleo compreende um Mecanismo de Pontuação Mútua (MSM) que permite que amostras dentro de cada modalidade atribuam pontuação umas às outras, e um Reforço de Anomalia Cross-modal (CAE) que funde as pontuações 2D e 3D para recuperar anomalias faltantes específicas da modalidade. Finalmente, a Repontuação com Vizinhança Restrita (RsCon) suprime a classificação falsa com base na similaridade com amostras mais representativas. Nossa estrutura funciona flexivelmente tanto no conjunto de dados completo quanto em subconjuntos menores com desempenho consistentemente robusto, garantindo adaptabilidade perfeita em diversas linhas de produtos. Auxiliado pela nova estrutura, o MuSc-V2 alcança melhorias significativas de desempenho: um ganho de +23,7% em AP no conjunto de dados MVTec 3D-AD e um aumento de +19,3% no conjunto de dados Eyecandies, superando os benchmarks *zero-shot* anteriores e até superando a maioria dos métodos *few-shot*. O código estará disponível em https://github.com/HUST-SLOW/MuSc-V2.
A capacidade de crítica é vital para que os modelos se aperfeiçoem e funcionem como assistentes de IA confiáveis. Embora amplamente estudada em contextos exclusivamente linguísticos, a crítica multimodal de Modelos Multimodais de Grande Porte (LMMs) permanece pouco explorada, apesar das suas capacidades crescentes em tarefas como legendagem e raciocínio visual. Neste trabalho, apresentamos o MM-CRITIC, um benchmark holístico para avaliar a capacidade crítica dos LMMs em múltiplas dimensões: básica, de correção e de comparação. Abrangendo 8 tipos principais de tarefas e mais de 500 tarefas, o MM-CRITIC recolhe respostas de vários LMMs com diferentes dimensões de modelo e é composto por 4471 amostras. Para aumentar a fiabilidade da avaliação, integramos respostas fundamentadas informadas por especialistas em grelhas de pontuação que orientam o GPT-4o na anotação de respostas e na geração de críticas de referência, que servem como âncoras para julgamentos confiáveis. Experiências extensivas validam a eficácia do MM-CRITIC e fornecem uma avaliação abrangente das capacidades críticas dos principais LMMs sob múltiplas dimensões. Uma análise mais aprofundada revela alguns insights-chave, incluindo a correlação entre a qualidade da resposta e a crítica, e a dificuldade variável da crítica entre as dimensões de avaliação. O nosso código está disponível em https://github.com/MichealZeng0420/MM-Critic.
Os sentimentos sobre a reprodutibilidade de artigos citados na literatura subsequente oferecem perspectivas da comunidade e demonstraram ser um sinal promissor da reprodutibilidade real de descobertas publicadas. Para treinar modelos eficazes que prevejam sentimentos orientados à reprodutibilidade e estudar sistematicamente sua correlação com a reprodutibilidade, introduzimos o conjunto de dados CC30k, composto por 30.734 contextos de citação em artigos de aprendizado de máquina. Cada contexto de citação é classificado com um de três rótulos de sentimento orientados à reprodutibilidade: Positivo, Negativo ou Neutro, refletindo a reprodutibilidade ou replicabilidade percebida do artigo citado. Destes, 25.829 são rotulados por meio de crowdsourcing, complementados com negativos gerados através de um pipeline controlado para contornar a escassez de rótulos negativos. Diferente de conjuntos de dados tradicionais de análise de sentimentos, o CC30k foca em sentimentos orientados à reprodutibilidade, abordando uma lacuna de pesquisa em recursos para estudos computacionais de reprodutibilidade. O conjunto de dados foi criado através de um pipeline que inclui robusta limpeza de dados, seleção criteriosa de colaboradores e validação abrangente. O conjunto de dados resultante atinge uma precisão de rotulagem de 94%. Demonstramos então que o desempenho de três grandes modelos de linguagem melhora significativamente na classificação de sentimentos orientados à reprodutibilidade após o ajuste fino usando nosso conjunto de dados. O conjunto de dados estabelece as bases para avaliações em larga escala da reprodutibilidade de artigos de aprendizado de máquina. O conjunto de dados CC30k e os notebooks Jupyter utilizados para produzi-lo e analisá-lo estão publicamente disponíveis em https://github.com/lamps-lab/CC30k.