HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

17 papers found

VisuLogic: Um Benchmark para Avaliação do Raciocínio Visual em Modelos de Linguagem Multimodais de Grande Escala
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Apr 21

ByWeiye Xu, Jiahao Wang, Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei Lu, Houqiang Li, Xiaohua Wang, Xizhou Zhu, Wenhai Wang, Jifeng Dai, Jinguo Zhu

O raciocínio visual é um componente central da inteligência humana e uma capacidade crítica para modelos multimodais avançados. No entanto, as avaliações atuais de raciocínio em modelos de linguagem multimodal de grande escala (MLLMs) frequentemente dependem de descrições textuais e permitem atalhos baseados em linguagem, falhando em medir o verdadeiro raciocínio centrado na visão. Para abordar essa questão, introduzimos o VisuLogic: um benchmark de 1.000 problemas verificados por humanos em seis categorias (por exemplo, mudanças quantitativas, relações espaciais, comparações de atributos). Esses diversos tipos de questões podem ser avaliados para medir as capacidades de raciocínio visual dos MLLMs a partir de múltiplas perspectivas. Avaliamos os principais MLLMs nesse benchmark e analisamos seus resultados para identificar modos comuns de falha. A maioria dos modelos obteve pontuação abaixo de 30% de precisão—apenas ligeiramente acima da linha de base aleatória de 25% e muito abaixo dos 51,4% alcançados por humanos—revelando lacunas significativas no raciocínio visual. Além disso, fornecemos um conjunto de dados de treinamento suplementar e uma linha de base de aprendizado por reforço para apoiar avanços futuros.

Tina: Modelos de Raciocínio Compactos via LoRA
Tina: Tiny Reasoning Models via LoRA

Apr 22

ByShangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger

Com que custo-benefício as habilidades de raciocínio robustas podem ser alcançadas em modelos de linguagem? Motivados por essa questão fundamental, apresentamos Tina, uma família de modelos de raciocínio compactos obtidos com alta eficiência de custo. Notavelmente, Tina demonstra que um desempenho substancial de raciocínio pode ser desenvolvido utilizando apenas recursos mínimos, aplicando atualizações eficientes em termos de parâmetros durante o aprendizado por reforço (RL), usando adaptação de baixa classificação (LoRA), a um modelo base já compacto de 1,5 bilhão de parâmetros. Essa abordagem minimalista produz modelos que alcançam um desempenho de raciocínio competitivo e, às vezes, superior aos modelos de raciocínio RL state-of-the-art (SOTA) construídos sobre o mesmo modelo base. Crucialmente, isso é alcançado com uma fração mínima do custo computacional pós-treinamento empregado pelos modelos SOTA existentes. Na verdade, o melhor modelo Tina alcança um aumento de mais de 20% no desempenho de raciocínio e uma precisão de 43,33% em Pass@1 no AIME24, com um custo de pós-treinamento e avaliação de apenas \$9 USD (ou seja, uma redução de custo estimada em 260 vezes). Nosso trabalho revela a surpreendente eficácia do raciocínio RL eficiente via LoRA. Validamos isso em vários conjuntos de dados de raciocínio de código aberto e diversas configurações de ablação, começando com um único conjunto fixo de hiperparâmetros. Além disso, hipotetizamos que essa eficácia e eficiência decorrem da capacidade do LoRA de adaptar rapidamente o modelo ao formato estrutural de raciocínio recompensado pelo RL, preservando amplamente o conhecimento subjacente do modelo base. Em prol da acessibilidade e da pesquisa aberta, disponibilizamos totalmente o código, logs de treinamento e pesos & checkpoints dos modelos.

DreamID: Troca de Rosto Baseada em Difusão de Alta Fidelidade e Rápida via Aprendizado de Grupo Triplo de ID
DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning

Apr 20

ByFulong Ye, Miao Hua, Pengze Zhang, Xinghui Li, Qichao Sun, Songtao Zhao, Qian He, Xinglong Wu

Neste artigo, apresentamos o DreamID, um modelo de troca de faces baseado em difusão que alcança altos níveis de similaridade de identidade (ID), preservação de atributos, fidelidade de imagem e velocidade rápida de inferência. Diferentemente do processo típico de treinamento para troca de faces, que frequentemente depende de supervisão implícita e luta para obter resultados satisfatórios, o DreamID estabelece uma supervisão explícita para a troca de faces ao construir dados de Grupo Triplo de ID, melhorando significativamente a similaridade de identidade e a preservação de atributos. A natureza iterativa dos modelos de difusão apresenta desafios para a utilização de funções de perda eficientes no espaço de imagem, uma vez que realizar amostragens demoradas em múltiplos passos para obter a imagem gerada durante o treinamento é impraticável. Para resolver esse problema, aproveitamos o modelo de difusão acelerado SD Turbo, reduzindo os passos de inferência para uma única iteração, permitindo um treinamento eficiente de ponta a ponta em nível de pixel com supervisão explícita do Grupo Triplo de ID. Além disso, propomos uma arquitetura de modelo baseada em difusão aprimorada, composta por SwapNet, FaceNet e ID Adapter. Essa arquitetura robusta libera todo o potencial da supervisão explícita do Grupo Triplo de ID. Por fim, para estender ainda mais nosso método, modificamos explicitamente os dados do Grupo Triplo de ID durante o treinamento para ajustar e preservar atributos específicos, como óculos e formato do rosto. Experimentos extensivos demonstram que o DreamID supera os métodos state-of-the-art em termos de similaridade de identidade, preservação de pose e expressão, e fidelidade de imagem. No geral, o DreamID alcança resultados de alta qualidade em troca de faces com resolução de 512*512 em apenas 0,6 segundos e se destaca em cenários desafiadores, como iluminação complexa, ângulos grandes e oclusões.

Relatório Técnico do Trillion 7B
Trillion 7B Technical Report

Apr 21

BySungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jamin Shin

Apresentamos o Trillion-7B, o modelo de linguagem multilingue (LLM) centrado no coreano mais eficiente em termos de tokens disponível. Nosso novo mecanismo de Atenção a Documentos Translingual (XLDA) permite uma transferência de conhecimento altamente eficiente e eficaz do inglês para idiomas-alvo como coreano e japonês. Combinado com misturas de dados otimizadas, filtragem específica por idioma e construção de tokenizadores personalizados, o Trillion-7B alcança desempenho competitivo enquanto dedica apenas 10\% de seus 2 trilhões de tokens de treinamento a dados multilingues e requer apenas 59,4 mil horas de GPU H100 (\$148 mil) para o treinamento completo. Avaliações abrangentes em 27 benchmarks em quatro idiomas demonstram o robusto desempenho multilingue e a excepcional consistência translingual do Trillion-7B.

PHYBench: Avaliação Holística da Percepção e Raciocínio Físico em Modelos de Linguagem de Grande Escala
PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

Apr 22

ByShi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu

Apresentamos o PHYBench, um novo e de alta qualidade benchmark projetado para avaliar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) em contextos físicos. O PHYBench consiste em 500 problemas de física meticulosamente curados, baseados em cenários físicos do mundo real, projetados para avaliar a capacidade dos modelos de compreender e raciocinar sobre processos físicos realistas. Abrangendo mecânica, eletromagnetismo, termodinâmica, óptica, física moderna e física avançada, o benchmark cobre níveis de dificuldade desde exercícios do ensino médio até problemas de graduação e desafios de Olimpíadas de Física. Além disso, propomos o Expression Edit Distance (EED) Score, uma nova métrica de avaliação baseada na distância de edição entre expressões matemáticas, que efetivamente captura diferenças nos processos de raciocínio e resultados dos modelos, indo além dos métodos tradicionais de pontuação binária. Avaliamos vários LLMs no PHYBench e comparamos seu desempenho com especialistas humanos. Nossos resultados revelam que mesmo os modelos de raciocínio mais avançados ficam significativamente atrás dos especialistas humanos, destacando suas limitações e a necessidade de melhorias em cenários complexos de raciocínio físico. Nossos resultados de benchmark e conjunto de dados estão publicamente disponíveis em https://phybench-official.github.io/phybench-demo/.

I-Con: Um Framework Unificador para Aprendizado de Representação
I-Con: A Unifying Framework for Representation Learning

Apr 23

ByShaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton

À medida que o campo de aprendizado de representações avança, houve uma proliferação de diferentes funções de perda para resolver diversas classes de problemas. Introduzimos uma única equação baseada na teoria da informação que generaliza uma grande coleção de funções de perda modernas no aprendizado de máquina. Em particular, apresentamos um framework que demonstra que várias classes amplas de métodos de aprendizado de máquina estão minimizando precisamente uma divergência de Kullback-Leibler (KL) integrada entre duas distribuições condicionais: as representações supervisionadas e as aprendidas. Essa perspectiva revela uma geometria da informação subjacente a técnicas de clustering, métodos espectrais, redução de dimensionalidade, aprendizado contrastivo e aprendizado supervisionado. Esse framework possibilita o desenvolvimento de novas funções de perda ao combinar técnicas bem-sucedidas da literatura. Não apenas apresentamos uma ampla gama de provas, conectando mais de 23 abordagens diferentes, mas também utilizamos esses resultados teóricos para criar classificadores de imagens não supervisionados de última geração, que alcançam uma melhoria de +8% em relação ao estado da arte anterior na classificação não supervisionada no ImageNet-1K. Também demonstramos que o I-Con pode ser usado para derivar métodos de debiasing fundamentados, que melhoram aprendizes de representação contrastiva.

Solução Vencedora do AIMO-2: Construindo Modelos de Raciocínio Matemático de Última Geração com o Conjunto de Dados OpenMathReasoning
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

Apr 23

ByIvan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman

Este artigo apresenta nossa submissão vencedora da Olimpíada Matemática de IA - Prêmio de Progresso 2 (AIMO-2). Nossa receita para construir modelos de raciocínio matemático de ponta baseia-se em três pilares principais. Primeiro, criamos um conjunto de dados em larga escala composto por 540 mil problemas matemáticos únicos e de alta qualidade, incluindo problemas de nível olímpico, e suas 3,2 milhões de soluções de raciocínio longo. Segundo, desenvolvemos um método inovador para integrar a execução de código com modelos de raciocínio longo por meio de treinamento iterativo, geração e filtragem de qualidade, resultando em 1,7 milhão de soluções de Raciocínio Integrado com Ferramentas de alta qualidade. Terceiro, criamos um pipeline para treinar modelos a selecionar a solução mais promissora entre muitos candidatos. Mostramos que essa seleção generativa de soluções (GenSelect) pode melhorar significativamente em relação à linha de base de votação majoritária. Combinando essas ideias, treinamos uma série de modelos que alcançam resultados de ponta em benchmarks de raciocínio matemático. Para facilitar pesquisas futuras, disponibilizamos nosso código, modelos e o conjunto de dados completo OpenMathReasoning sob uma licença comercialmente permissiva.

DreamO: Um Framework Unificado para Personalização de Imagens
DreamO: A Unified Framework for Image Customization

Apr 23

ByChong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu

Recentemente, extensas pesquisas sobre personalização de imagens (por exemplo, identidade, assunto, estilo, fundo, etc.) demonstram fortes capacidades de personalização em modelos generativos em larga escala. No entanto, a maioria das abordagens é projetada para tarefas específicas, restringindo sua generalização para combinar diferentes tipos de condições. Desenvolver uma estrutura unificada para personalização de imagens continua sendo um desafio em aberto. Neste artigo, apresentamos o DreamO, uma estrutura de personalização de imagens projetada para suportar uma ampla gama de tarefas, ao mesmo tempo em que facilita a integração perfeita de múltiplas condições. Especificamente, o DreamO utiliza uma estrutura de transformador de difusão (DiT) para processar uniformemente entradas de diferentes tipos. Durante o treinamento, construímos um grande conjunto de dados de treinamento que inclui várias tarefas de personalização, e introduzimos uma restrição de roteamento de características para facilitar a consulta precisa de informações relevantes a partir de imagens de referência. Além disso, projetamos uma estratégia de marcador que associa marcadores específicos a condições em posições particulares, permitindo o controle sobre o posicionamento das condições nos resultados gerados. Adicionalmente, empregamos uma estratégia de treinamento progressivo composta por três estágios: um estágio inicial focado em tarefas simples com dados limitados para estabelecer consistência básica, um estágio de treinamento em larga escala para aprimorar de forma abrangente as capacidades de personalização, e um estágio final de alinhamento de qualidade para corrigir vieses de qualidade introduzidos por dados de baixa qualidade. Experimentos extensivos demonstram que o DreamO proposto pode efetivamente realizar várias tarefas de personalização de imagens com alta qualidade e integrar de forma flexível diferentes tipos de condições de controle.

Pré-DPO: Melhorando a Utilização de Dados na Otimização Direta de Preferências Usando um Modelo de Referência Orientador
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

Apr 22

ByJunshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang

O Otimização Direta de Preferências (Direct Preference Optimization - DPO) simplifica o aprendizado por reforço a partir de feedback humano (Reinforcement Learning from Human Feedback - RLHF) para modelos de linguagem de grande escala (Large Language Models - LLMs) ao otimizar diretamente as preferências humanas sem a necessidade de um modelo explícito de recompensa. Descobrimos que, durante o treinamento do DPO, o modelo de referência atua como um ajustador de pesos dos dados. No entanto, a prática comum de inicializar os modelos de política e de referência de forma idêntica no DPO pode levar a uma utilização ineficiente dos dados e impor um limite de desempenho. Enquanto isso, a ausência de um modelo de referência na Otimização Simples de Preferências (Simple Preference Optimization - SimPO) reduz a robustez do treinamento e exige condições mais rigorosas para evitar o esquecimento catastrófico. Neste trabalho, propomos o Pre-DPO, um paradigma de treinamento baseado no DPO, simples porém eficaz, que melhora o desempenho da otimização de preferências ao aproveitar um modelo de referência orientador. Esse modelo de referência fornece uma visão antecipada do estado de política ótima alcançável por meio dos dados de preferência de treinamento, servindo como um mecanismo orientador que atribui pesos mais altos de forma adaptativa às amostras mais adequadas ao modelo e pesos mais baixos àquelas menos adequadas. Experimentos extensivos nos benchmarks AlpacaEval 2.0 e Arena-Hard v0.1 demonstram que o Pre-DPO melhora consistentemente o desempenho tanto do DPO quanto do SimPO, sem depender de modelos externos ou dados adicionais.

Alinhamento Global-Local Desacoplado para Melhorar a Compreensão Composicional
Decoupled Global-Local Alignment for Improving Compositional Understanding

Apr 23

ByXiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang

O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) tem obtido sucesso em múltiplas tarefas subsequentes ao alinhar as modalidades de imagem e texto. No entanto, a natureza do aprendizado contrastivo global limita a capacidade do CLIP de compreender conceitos composicionais, como relações e atributos. Embora estudos recentes empreguem amostras negativas globais difíceis para melhorar a compreensão composicional, esses métodos comprometem significativamente as capacidades gerais inerentes do modelo ao distanciar forçadamente amostras textuais negativas das imagens no espaço de incorporação. Para superar essa limitação, introduzimos um framework de Alinhamento Global-Local Desacoplado (DeGLA) que melhora a compreensão composicional enquanto mitiga substancialmente as perdas nas capacidades gerais. Para otimizar a retenção das capacidades inerentes do modelo, incorporamos um mecanismo de auto-distilação no processo de alinhamento global, alinhando o codificador de imagem-texto aprendível com um modelo professor congelado derivado de uma média móvel exponencial. Sob a restrição da auto-distilação, ele mitiga efetivamente o esquecimento catastrófico do conhecimento pré-treinado durante o ajuste fino. Para melhorar a compreensão composicional, primeiro aproveitamos a capacidade de aprendizado em contexto dos Modelos de Linguagem de Grande Escala (LLMs) para construir cerca de 2 milhões de legendas negativas de alta qualidade em cinco tipos. Posteriormente, propomos a perda de Contraste Baseado em Imagem (IGC) e a perda de Contraste Baseado em Texto (TGC) para aprimorar a composicionalidade visão-linguagem. Resultados experimentais extensivos demonstram a eficácia do framework DeGLA. Em comparação com os métodos state-of-the-art anteriores, o DeGLA alcança um aprimoramento médio de 3,5% nos benchmarks VALSE, SugarCrepe e ARO. Simultaneamente, obtém uma melhoria média de desempenho de 13,0% em tarefas de classificação zero-shot em onze conjuntos de dados. Nosso código será liberado em https://github.com/xiaoxing2001/DeGLA.

Uma Análise Abrangente sobre Segurança em Pilha Completa de LLM(-Agente): Dados, Treinamento e Implantação
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Apr 22

ByKun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Yi Ding, Donghai Hong, Jiaming Ji, Xinfeng Li, Yifan Jiang, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Yanwei Yue, Wenke Huang, Guancheng Wan, Tianlin Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu

O notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) iluminou um caminho promissor rumo à Inteligência Artificial Geral, tanto para comunidades acadêmicas quanto industriais, graças ao seu desempenho sem precedentes em diversas aplicações. À medida que os LLMs continuam a ganhar destaque tanto em domínios de pesquisa quanto comerciais, suas implicações de segurança e segurança tornaram-se uma preocupação crescente, não apenas para pesquisadores e corporações, mas também para cada nação. Atualmente, as pesquisas existentes sobre a segurança dos LLMs concentram-se principalmente em etapas específicas do ciclo de vida dos LLMs, por exemplo, fase de implantação ou fase de ajuste fino, carecendo de uma compreensão abrangente de toda a "cadeia de vida" dos LLMs. Para abordar essa lacuna, este artigo introduz, pela primeira vez, o conceito de segurança "full-stack" para considerar sistematicamente questões de segurança ao longo de todo o processo de treinamento, implantação e eventual comercialização dos LLMs. Em comparação com as pesquisas de segurança de LLMs prontas para uso, nosso trabalho demonstra várias vantagens distintas: (I) Perspectiva Abrangente. Definimos o ciclo de vida completo dos LLMs como abrangendo preparação de dados, pré-treinamento, pós-treinamento, implantação e comercialização final. Até onde sabemos, esta é a primeira pesquisa de segurança a abranger todo o ciclo de vida dos LLMs. (II) Suporte Extenso de Literatura. Nossa pesquisa é baseada em uma revisão exaustiva de mais de 800 artigos, garantindo cobertura abrangente e organização sistemática de questões de segurança dentro de uma compreensão mais holística. (III) Insights Únicos. Por meio de análise sistemática da literatura, desenvolvemos roteiros confiáveis e perspectivas para cada capítulo. Nosso trabalho identifica direções de pesquisa promissoras, incluindo segurança na geração de dados, técnicas de alinhamento, edição de modelos e sistemas de agentes baseados em LLMs. Esses insights fornecem orientações valiosas para pesquisadores que buscam trabalhos futuros neste campo.

Repensando a Geração de Dados CoT de Alta Qualidade sob a Perspectiva da Classificação Adaptativa de Dificuldade de Questões para LLMs
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

Apr 16

ByQianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu

Recentemente, o DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) demonstrou sua excelente capacidade de raciocínio em tarefas complexas e compartilhou publicamente sua metodologia. Isso fornece dados de cadeia de pensamento (CoT) potencialmente de alta qualidade para estimular as habilidades de raciocínio de modelos de linguagem grandes (LLMs) de pequeno porte. Para gerar dados CoT de alta qualidade para diferentes LLMs, buscamos um método eficiente para gerar dados CoT de alta qualidade com níveis de dificuldade de questões adaptáveis ao LLM. Primeiro, classificamos a dificuldade das questões de acordo com a capacidade de raciocínio dos próprios LLMs e construímos um banco de dados de questões adaptáveis ao LLM. Em seguida, amostramos o banco de problemas com base em uma distribuição de níveis de dificuldade das questões e, então, usamos o DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) para gerar os correspondentes dados CoT de alta qualidade com respostas corretas. Graças à construção de dados CoT com níveis de dificuldade adaptáveis ao LLM, reduzimos significativamente o custo de geração de dados e aumentamos a eficiência do ajuste fino supervisionado (SFT) do modelo. Por fim, validamos a eficácia e a generalização do método proposto nos campos de competições matemáticas complexas e tarefas de geração de código. Notavelmente, com apenas 2k dados CoT matemáticos de alta qualidade, nosso ZMath-32B supera o DeepSeek-Distill-32B em tarefas de raciocínio matemático. Da mesma forma, com apenas 2k dados CoT de código de alta qualidade, nosso ZCode-32B supera o DeepSeek-Distill-32B em tarefas de raciocínio de código.

RePOPE: Impacto dos Erros de Anotação no Benchmark POPE
RePOPE: Impact of Annotation Errors on the POPE Benchmark

Apr 22

ByYannic Neuhaus, Matthias Hein

Como a anotação de dados é custosa, conjuntos de dados de referência frequentemente incorporam rótulos de conjuntos de imagens estabelecidos. Neste trabalho, avaliamos o impacto de erros de rótulo no MSCOCO sobre o benchmark de alucinação de objetos frequentemente utilizado, POPE. Re-anotamos as imagens do benchmark e identificamos um desequilíbrio nos erros de anotação entre diferentes subconjuntos. Avaliando múltiplos modelos com os rótulos revisados, que denominamos RePOPE, observamos mudanças significativas na classificação dos modelos, destacando o impacto da qualidade dos rótulos. O código e os dados estão disponíveis em https://github.com/YanNeu/RePOPE.

Causal-Copilot: Um Agente Autônomo de Análise Causal
Causal-Copilot: An Autonomous Causal Analysis Agent

Apr 17

ByXinyue Wang, Kun Zhou, Wenyi Wu, Har Simrat Singh, Fang Nan, Songyao Jin, Aryan Philip, Saloni Patnaik, Hou Zhu, Shivam Singh, Parjanya Prashant, Qian Shen, Biwei Huang

A análise causal desempenha um papel fundamental na descoberta científica e na tomada de decisões confiáveis, mas permanece amplamente inacessível para especialistas de domínio devido à sua complexidade conceitual e algorítmica. Essa desconexão entre a metodologia causal e a usabilidade prática apresenta um desafio duplo: os especialistas de domínio não conseguem aproveitar os avanços recentes no aprendizado causal, enquanto os pesquisadores em causalidade carecem de implantações amplas no mundo real para testar e refinar seus métodos. Para resolver isso, apresentamos o Causal-Copilot, um agente autônomo que opera análises causais de nível especialista dentro de uma estrutura de modelo de linguagem de grande escala. O Causal-Copilot automatiza todo o pipeline de análise causal para dados tabulares e de séries temporais — incluindo descoberta causal, inferência causal, seleção de algoritmos, otimização de hiperparâmetros, interpretação de resultados e geração de insights acionáveis. Ele suporta refinamento interativo por meio de linguagem natural, reduzindo a barreira para não especialistas enquanto preserva o rigor metodológico. Ao integrar mais de 20 técnicas de análise causal de ponta, nosso sistema promove um ciclo virtuoso — expandindo o acesso a métodos causais avançados para especialistas de domínio enquanto gera aplicações ricas e reais que informam e avançam a teoria causal. Avaliações empíricas demonstram que o Causal-Copilot alcança desempenho superior em comparação com as linhas de base existentes, oferecendo uma solução confiável, escalável e extensível que preenche a lacuna entre a sofisticação teórica e a aplicabilidade no mundo real na análise causal. Uma demonstração interativa ao vivo do Causal-Copilot está disponível em https://causalcopilot.com/.

CRUST-Bench: Um Benchmark Abrangente para Transpilação de C para Rust Seguro
CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation

Apr 21

ByAnirudh Khatry, Robert Zhang, Jia Pan, Ziteng Wang, Qiaochu Chen, Greg Durrett, Isil Dillig

A transpilação de C para Rust é essencial para modernizar código legado em C, ao mesmo tempo em que melhora a segurança e a interoperabilidade com ecossistemas modernos de Rust. No entanto, atualmente não existe um conjunto de dados para avaliar se um sistema pode transpilar C para Rust seguro que passe em um conjunto de casos de teste. Apresentamos o CRUST-Bench, um conjunto de dados de 100 repositórios em C, cada um emparelhado com interfaces escritas manualmente em Rust seguro, além de casos de teste que podem ser usados para validar a correção da transpilação. Ao considerar repositórios inteiros em vez de funções isoladas, o CRUST-Bench captura os desafios de traduzir projetos complexos com dependências entre múltiplos arquivos. As interfaces em Rust fornecidas oferecem especificações explícitas que garantem a adesão a padrões idiomáticos e seguros de Rust, enquanto os casos de teste acompanhantes reforçam a correção funcional. Avaliamos modelos de linguagem de última geração (LLMs) nessa tarefa e descobrimos que a geração de Rust seguro e idiomático ainda é um problema desafiador para vários métodos e técnicas de ponta. Também fornecemos insights sobre os erros que os LLMs geralmente cometem ao transpilar código de C para Rust seguro. O modelo com melhor desempenho, OpenAI o1, consegue resolver apenas 15 tarefas em uma configuração de única tentativa. Melhorias no CRUST-Bench levariam a sistemas de transpilação aprimorados que podem raciocinar sobre cenários complexos e ajudar na migração de bases de código legado de C para linguagens como Rust, que garantem segurança de memória. O conjunto de dados e o código podem ser encontrados em https://github.com/anirudhkhatry/CRUST-bench.

Desatendido e Negligenciado: Abordando o Ponto Cego de Caixas de Seleção em Modelos de Linguagem de Grande Escala com CheckboxQA
Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

Apr 14

ByMichał Turski, Mateusz Chiliński, Łukasz Borchmann

Caixas de seleção são fundamentais no processamento de documentos do mundo real, onde a presença ou ausência de marcações influencia diretamente a extração de dados e os processos de tomada de decisão. No entanto, apesar do forte desempenho dos Modelos de Visão e Linguagem de Grande Escala em uma ampla gama de tarefas, eles enfrentam dificuldades ao interpretar conteúdo verificável. Esse desafio torna-se particularmente crítico em setores onde uma única caixa de seleção não marcada pode resultar em falhas regulatórias ou contratuais custosas. Para abordar essa lacuna, apresentamos o conjunto de dados CheckboxQA, um recurso específico projetado para avaliar e melhorar o desempenho dos modelos em tarefas relacionadas a caixas de seleção. Ele revela as limitações dos modelos atuais e serve como uma ferramenta valiosa para avançar os sistemas de compreensão de documentos, com implicações significativas para aplicações em setores como tecnologia jurídica e finanças. O conjunto de dados está disponível publicamente em: https://github.com/Snowflake-Labs/CheckboxQA

Aprendizado Visual Progressivo Orientado por Linguagem para Fundamentação Visual Multitarefa
Progressive Language-guided Visual Learning for Multi-Task Visual Grounding

Apr 22

ByJingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng

A ancoragem visual multitarefa (MTVG) inclui duas subtarefas: Compreensão de Expressões Referenciais (REC) e Segmentação de Expressões Referenciais (RES). As abordagens representativas existentes geralmente seguem um pipeline de pesquisa que consiste principalmente em três procedimentos principais: extração independente de características para as modalidades visual e linguística, respectivamente, um módulo de interação cross-modal e cabeças de predição independentes para diferentes subtarefas. Embora tenham alcançado desempenho notável, essa linha de pesquisa apresenta duas limitações: 1) O conteúdo linguístico não foi totalmente injetado em toda a rede visual para impulsionar uma extração de características visuais mais eficaz, exigindo um módulo adicional de interação cross-modal; 2) A relação entre as tarefas REC e RES não é efetivamente explorada para auxiliar na predição colaborativa para uma saída mais precisa. Para lidar com esses problemas, neste artigo, propomos uma estrutura de Aprendizado Visual Progressivo Guiado por Linguagem para ancoragem visual multitarefa, chamada PLVL, que não apenas mina finamente a expressão inerente de características da modalidade visual em si, mas também injeta progressivamente informações linguísticas para auxiliar no aprendizado de características visuais relacionadas à linguagem. Dessa forma, nosso PLVL não requer um módulo adicional de fusão cross-modal, ao mesmo tempo em que introduz plenamente a orientação linguística. Além disso, analisamos que o centro de localização para REC ajudaria, em certa medida, a identificar a região do objeto a ser segmentado para RES. Inspirados por essa investigação, projetamos uma cabeça multitarefa para realizar predições colaborativas para essas duas subtarefas. Experimentos extensivos conduzidos em vários conjuntos de dados de referência comprovam de forma abrangente que nosso PLVL supera significativamente os métodos representativos tanto nas tarefas REC quanto RES. https://github.com/jcwang0602/PLVL

Uma Análise Abrangente sobre Segurança em Pilha Completa de LLM(-Agente): Dados, Treinamento e Implantação
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Apr 22