HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

19 papers found

DuPO: Habilitando Verificação Autônoma Confiável em LLMs por meio de Otimização de Preferências Duais
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

Aug 20

ByShuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

Apresentamos o DuPO, uma estrutura de otimização de preferências baseada em aprendizado dual que gera feedback sem anotações por meio de uma dualidade generalizada. O DuPO aborda duas limitações principais: a dependência do Aprendizado por Reforço com Recompensas Verificáveis (RLVR) em rótulos custosos e sua aplicabilidade restrita a tarefas verificáveis, e a restrição do aprendizado dual tradicional a pares de tarefas estritamente duais (por exemplo, tradução e retro-tradução). Especificamente, o DuPO decompõe a entrada de uma tarefa primária em componentes conhecidos e desconhecidos, e então constrói sua tarefa dual para reconstruir a parte desconhecida usando a saída primária e informações conhecidas (por exemplo, reverter soluções matemáticas para recuperar variáveis ocultas), ampliando a aplicabilidade para tarefas não invertíveis. A qualidade dessa reconstrução serve como uma recompensa auto-supervisionada para otimizar a tarefa primária, sinergizando com a capacidade dos LLMs de instanciar ambas as tarefas por meio de um único modelo. Empiricamente, o DuPO alcança ganhos substanciais em diversas tarefas: ele melhora a qualidade média de tradução em 2,13 COMET em 756 direções, aumenta a precisão do raciocínio matemático em uma média de 6,4 pontos em três benchmarks desafiadores e melhora o desempenho em 9,3 pontos como um reranker em tempo de inferência (trocando computação por precisão). Esses resultados posicionam o DuPO como um paradigma escalável, geral e sem anotações para otimização de LLMs.

FutureX: Um Benchmark Avançado em Tempo Real para Agentes de LLM em Previsão do Futuro
FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

Aug 16

ByZhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang

A previsão do futuro é uma tarefa complexa para agentes de LLM, exigindo um alto nível de pensamento analítico, coleta de informações, compreensão contextual e tomada de decisões sob incerteza. Os agentes não apenas precisam coletar e interpretar grandes quantidades de informações dinâmicas, mas também integrar diversas fontes de dados, ponderar incertezas e adaptar previsões com base em tendências emergentes, assim como especialistas humanos fazem em áreas como política, economia e finanças. Apesar de sua importância, não existe um benchmark em grande escala para avaliar agentes em previsões futuras, principalmente devido aos desafios de lidar com atualizações em tempo real e recuperar respostas precisas e oportunas. Para resolver isso, apresentamos o FutureX, um benchmark dinâmico e em tempo real projetado especificamente para agentes de LLM que realizam tarefas de previsão do futuro. O FutureX é o maior e mais diversificado benchmark em tempo real para previsão do futuro, suportando atualizações diárias em tempo real e eliminando a contaminação de dados por meio de um pipeline automatizado para coleta de perguntas e respostas. Avaliamos 25 modelos de LLM/agentes, incluindo aqueles com capacidades de raciocínio, busca e integração de ferramentas externas, como o agente de pesquisa profunda de código aberto e os modelos de pesquisa profunda de código fechado. Esta avaliação abrangente examina o raciocínio adaptativo e o desempenho dos agentes em ambientes dinâmicos. Além disso, fornecemos análises detalhadas dos modos de falha e dos pontos fracos de desempenho dos agentes em tarefas orientadas para o futuro, incluindo a vulnerabilidade a páginas da web falsas e a validade temporal. Nosso objetivo é estabelecer um padrão de avaliação dinâmico e livre de contaminação que impulsione o desenvolvimento de agentes de LLM capazes de desempenhar no nível de analistas humanos profissionais em raciocínio complexo e pensamento preditivo.

MeshCoder: Geração de Código de Malha Estruturada Alimentada por LLM a partir de Nuvens de Pontos
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

Aug 20

ByBingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang

A reconstrução de objetos 3D em programas editáveis é fundamental para aplicações como engenharia reversa e edição de formas. No entanto, os métodos existentes frequentemente dependem de linguagens específicas de domínio (DSLs) limitadas e conjuntos de dados em pequena escala, restringindo sua capacidade de modelar geometrias e estruturas complexas. Para enfrentar esses desafios, apresentamos o MeshCoder, uma nova estrutura que reconstrói objetos 3D complexos a partir de nuvens de pontos em scripts Python editáveis no Blender. Desenvolvemos um conjunto abrangente de APIs Python expressivas para o Blender, capazes de sintetizar geometrias intrincadas. Aproveitando essas APIs, construímos um grande conjunto de dados emparelhados objeto-código, onde o código de cada objeto é decomposto em partes semânticas distintas. Posteriormente, treinamos um modelo de linguagem multimodal de grande escala (LLM) que traduz nuvens de pontos 3D em scripts Python executáveis no Blender. Nossa abordagem não apenas alcança desempenho superior em tarefas de reconstrução de forma para código, mas também facilita a edição intuitiva de geometria e topologia por meio de modificações convenientes no código. Além disso, nossa representação baseada em código aprimora as capacidades de raciocínio dos LLMs em tarefas de compreensão de formas 3D. Juntas, essas contribuições estabelecem o MeshCoder como uma solução poderosa e flexível para a reconstrução e compreensão programática de formas 3D.

De Pontuações a Habilidades: Um Framework de Diagnóstico Cognitivo para Avaliação de Modelos de Linguagem de Grande Escala em Finanças
From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

Aug 19

ByZiyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou

Os Modelos de Linguagem de Grande Escala (LLMs) têm mostrado potencial para aplicações financeiras, mas sua adequação para esse domínio de alto impacto ainda permanece amplamente não comprovada devido às deficiências nos benchmarks existentes. Os benchmarks atuais dependem exclusivamente de avaliações baseadas em pontuação, resumindo o desempenho com uma única pontuação que obscurece a compreensão detalhada do que os modelos realmente sabem e suas limitações precisas. Eles também se baseiam em conjuntos de dados que cobrem apenas um subconjunto limitado de conceitos financeiros, enquanto negligenciam outros essenciais para aplicações do mundo real. Para abordar essas lacunas, introduzimos o FinCDM, o primeiro framework de avaliação de diagnóstico cognitivo projetado especificamente para LLMs financeiros, permitindo a avaliação dos LLMs no nível de conhecimento-habilidade, identificando quais habilidades e conhecimentos financeiros eles possuem ou carecem com base em seus padrões de resposta em tarefas marcadas por habilidades, em vez de um único número agregado. Construímos o CPA-QKA, o primeiro conjunto de dados de avaliação financeira cognitivamente informado, derivado do exame de Certified Public Accountant (CPA), com cobertura abrangente de habilidades contábeis e financeiras do mundo real. Ele é rigorosamente anotado por especialistas do domínio, que elaboram, validam e anotam as questões com alta concordância entre anotadores e rótulos de conhecimento detalhados. Nossos extensos experimentos com 30 LLMs proprietários, de código aberto e específicos do domínio mostram que o FinCDM revela lacunas de conhecimento ocultas, identifica áreas subtestadas, como raciocínio fiscal e regulatório, negligenciadas pelos benchmarks tradicionais, e descobre clusters comportamentais entre os modelos. O FinCDM introduz um novo paradigma para a avaliação de LLMs financeiros, permitindo um diagnóstico interpretável e consciente das habilidades que apoia o desenvolvimento de modelos mais confiáveis e direcionados, e todos os conjuntos de dados e scripts de avaliação serão publicamente disponibilizados para apoiar pesquisas futuras.

MCP-Universe: Avaliação de Modelos de Linguagem de Grande Escala com Servidores de Protocolo de Contexto do Mundo Real
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

Aug 20

ByZiyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li

O Protocolo de Contexto do Modelo emergiu como um padrão transformador para conectar grandes modelos de linguagem a fontes de dados externas e ferramentas, ganhando rapidamente adoção entre os principais provedores de IA e plataformas de desenvolvimento. No entanto, os benchmarks existentes são excessivamente simplistas e não capturam os desafios reais das aplicações, como raciocínio de longo prazo e espaços de ferramentas grandes e desconhecidos. Para abordar essa lacuna crítica, introduzimos o MCP-Universe, o primeiro benchmark abrangente projetado especificamente para avaliar LLMs em tarefas realistas e complexas por meio da interação com servidores MCP do mundo real. Nosso benchmark abrange 6 domínios principais, abrangendo 11 servidores MCP diferentes: Navegação por Localização, Gerenciamento de Repositórios, Análise Financeira, Design 3D, Automação de Navegador e Busca na Web. Para garantir uma avaliação rigorosa, implementamos avaliadores baseados em execução, incluindo avaliadores de formato para conformidade com o formato do agente, avaliadores estáticos para correspondência de conteúdo invariante no tempo e avaliadores dinâmicos que recuperam automaticamente a verdade real em tempo real para tarefas temporalmente sensíveis. Por meio de uma extensa avaliação dos principais LLMs, descobrimos que até mesmo modelos de última geração, como GPT-5 (43,72%), Grok-4 (33,33%) e Claude-4.0-Sonnet (29,44%), exibem limitações significativas de desempenho. Além disso, nosso benchmark apresenta um desafio significativo de contexto longo para agentes LLM, já que o número de tokens de entrada aumenta rapidamente com o número de etapas de interação. Além disso, ele introduz um desafio de ferramentas desconhecidas, pois os agentes LLM frequentemente não estão familiarizados com o uso preciso dos servidores MCP. Notavelmente, agentes de nível empresarial, como o Cursor, não conseguem obter um desempenho melhor do que os frameworks ReAct padrão. Além da avaliação, disponibilizamos nosso framework de avaliação extensível com suporte a UI, permitindo que pesquisadores e profissionais integrem novos agentes e servidores MCP de forma contínua, promovendo a inovação no ecossistema MCP em rápida evolução.

Tinker: O Presente da Difusão para o 3D—Edição Consistente em Múltiplas Visualizações a Partir de Entradas Escassas sem Otimização por Cena
Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

Aug 20

ByCanyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen

Apresentamos o Tinker, um framework versátil para edição 3D de alta fidelidade que opera tanto em regimes de uma única amostra quanto de poucas amostras, sem qualquer ajuste fino por cena. Diferente de técnicas anteriores que exigem extensa otimização por cena para garantir consistência multi-visual ou para produzir dezenas de visualizações editadas consistentes, o Tinker oferece edições robustas e consistentes em múltiplas visualizações a partir de apenas uma ou duas imagens. Essa capacidade surge da reutilização de modelos de difusão pré-treinados, que desbloqueiam sua percepção latente em 3D. Para impulsionar a pesquisa nessa área, organizamos o primeiro conjunto de dados e pipeline de edição multi-visual em grande escala, abrangendo diversas cenas e estilos. Com base nesse conjunto de dados, desenvolvemos nosso framework capaz de gerar visualizações editadas consistentes em múltiplas perspectivas sem treinamento por cena, que consiste em dois novos componentes: (1) Editor multi-visual referenciado: Permite edições precisas e orientadas por referência que permanecem coerentes em todas as perspectivas. (2) Sintetizador de qualquer visualização para vídeo: Aproveita prioridades espaço-temporais da difusão de vídeo para realizar a conclusão de cena e geração de novas visualizações de alta qualidade, mesmo a partir de entradas esparsas. Por meio de extensos experimentos, o Tinker reduz significativamente a barreira para a criação de conteúdo 3D generalizável, alcançando desempenho de ponta em tarefas de edição, síntese de novas visualizações e aprimoramento de renderização. Acreditamos que o Tinker representa um passo crucial em direção à edição 3D verdadeiramente escalável e de zero-shot. Página do projeto: https://aim-uofa.github.io/Tinker

NVIDIA Nemotron Nano 2: Um Modelo de Raciocínio Híbrido Mamba-Transformer Preciso e Eficiente
NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Aug 20

ByNVIDIA, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adi Renduchintala, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

Apresentamos o Nemotron-Nano-9B-v2, um modelo de linguagem híbrido Mamba-Transformer projetado para aumentar a taxa de transferência em tarefas de raciocínio, ao mesmo tempo que alcança precisão de ponta em comparação com modelos de tamanho similar. O Nemotron-Nano-9B-v2 é baseado na arquitetura Nemotron-H, na qual a maioria das camadas de self-attention da arquitetura Transformer comum é substituída por camadas Mamba-2, para melhorar a velocidade de inferência ao gerar os longos rastros de pensamento necessários para o raciocínio. Criamos o Nemotron-Nano-9B-v2 pré-treinando primeiro um modelo de 12 bilhões de parâmetros (Nemotron-Nano-12B-v2-Base) em 20 trilhões de tokens usando uma receita de treinamento em FP8. Após alinhar o Nemotron-Nano-12B-v2-Base, empregamos a estratégia Minitron para comprimir e destilar o modelo, com o objetivo de permitir inferência em até 128k tokens em uma única GPU NVIDIA A10G (22GiB de memória, precisão bfloat16). Em comparação com modelos existentes de tamanho similar (por exemplo, Qwen3-8B), demonstramos que o Nemotron-Nano-9B-v2 alcança precisão equivalente ou superior em benchmarks de raciocínio, enquanto obtém até 6x maior taxa de transferência de inferência em cenários de raciocínio, como 8k tokens de entrada e 16k tokens de saída. Estamos disponibilizando os checkpoints do Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base e Nemotron-Nano-9B-v2-Base, juntamente com a maioria de nossos conjuntos de dados de pré e pós-treinamento, no Hugging Face.

De IA para Ciência a Ciência Agente: Uma Pesquisa sobre Descoberta Científica Autônoma
From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

Aug 18

ByJiaqi Wei, Yuejin Yang, Xiang Zhang, Yuhan Chen, Xiang Zhuang, Zhangyang Gao, Dongzhan Zhou, Guangshuai Wang, Zhiqiang Gao, Juntai Cao, Zijie Qiu, Xuming He, Qiang Zhang, Chenyu You, Shuangjia Zheng, Ning Ding, Wanli Ouyang, Nanqing Dong, Yu Cheng, Siqi Sun, Lei Bai, Bowen Zhou

A inteligência artificial (IA) está remodelando a descoberta científica, evoluindo de ferramentas computacionais especializadas para parceiros de pesquisa autônomos. Posicionamos a Ciência Agente como um estágio crucial dentro do paradigma mais amplo de IA para Ciência, onde os sistemas de IA avançam de assistência parcial para agência científica completa. Habilitada por modelos de linguagem de grande escala (LLMs), sistemas multimodais e plataformas de pesquisa integradas, a IA agente demonstra capacidades em geração de hipóteses, design experimental, execução, análise e refinamento iterativo — comportamentos antes considerados exclusivamente humanos. Esta pesquisa oferece uma revisão orientada por domínio da descoberta científica autônoma nas ciências da vida, química, ciência dos materiais e física. Unificamos três perspectivas anteriormente fragmentadas — orientada por processo, orientada por autonomia e orientada por mecanismo — através de um framework abrangente que conecta capacidades fundamentais, processos centrais e realizações específicas por domínio. Com base nesse framework, nós (i) traçamos a evolução da IA para Ciência, (ii) identificamos cinco capacidades centrais que sustentam a agência científica, (iii) modelamos a descoberta como um fluxo de trabalho dinâmico de quatro estágios, (iv) revisamos aplicações nos domínios mencionados e (v) sintetizamos os principais desafios e oportunidades futuras. Este trabalho estabelece uma síntese orientada por domínio da descoberta científica autônoma e posiciona a Ciência Agente como um paradigma estruturado para avançar a pesquisa impulsionada por IA.

Quantização Encontra dLLMs: Um Estudo Sistemático de Quantização Pós-treinamento para LLMs de Difusão
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

Aug 20

ByHaokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Avanços recentes em modelos de linguagem de grande escala baseados em difusão (dLLMs) introduziram uma alternativa promissora aos modelos de linguagem autoregressivos (AR) para tarefas de geração de linguagem natural, aproveitando estratégias de atenção completa e decodificação baseada em remoção de ruído. No entanto, a implantação desses modelos em dispositivos de borda continua desafiadora devido à sua escala massiva de parâmetros e altas demandas de recursos. Embora a quantização pós-treinamento (PTQ) tenha surgido como uma técnica amplamente adotada para comprimir modelos AR LLMs, sua aplicabilidade a dLLMs permanece amplamente inexplorada. Neste trabalho, apresentamos o primeiro estudo sistemático sobre a quantização de modelos de linguagem baseados em difusão. Começamos identificando a presença de outliers de ativação, caracterizados por valores de ativação anormalmente grandes que dominam a faixa dinâmica. Esses outliers representam um desafio chave para a quantização de baixo bit, pois dificultam a preservação da precisão para a maioria dos valores. Mais importante, implementamos métodos de PTQ de última geração e conduzimos uma avaliação abrangente em vários tipos de tarefas e variantes de modelos. Nossa análise é estruturada ao longo de quatro dimensões principais: largura de bit, método de quantização, categoria de tarefa e tipo de modelo. Através dessa avaliação multiperspectiva, oferecemos insights práticos sobre o comportamento de quantização de dLLMs sob diferentes configurações. Esperamos que nossas descobertas forneçam uma base para pesquisas futuras na implantação eficiente de dLLMs. Todos os códigos e configurações experimentais serão liberados para apoiar a comunidade.

RynnEC: Integrando MLLMs no Mundo Embarcado
RynnEC: Bringing MLLMs into Embodied World

Aug 19

ByRonghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

Apresentamos o RynnEC, um modelo multimodal de linguagem de grande escala projetado para cognição incorporada em vídeos. Construído sobre um modelo base de visão e linguagem de propósito geral, o RynnEC incorpora um codificador de regiões e um decodificador de máscaras, permitindo interação flexível em nível de região em vídeos. Apesar de sua arquitetura compacta, o RynnEC alcança desempenho de ponta em compreensão de propriedades de objetos, segmentação de objetos e raciocínio espacial. Conceitualmente, ele oferece um paradigma de vídeo centrado em regiões para o "cérebro" de agentes incorporados, proporcionando percepção refinada do mundo físico e permitindo interações mais precisas. Para mitigar a escassez de conjuntos de dados 3D anotados, propomos um pipeline baseado em vídeos egocêntricos para gerar dados de cognição incorporada. Além disso, introduzimos o RynnEC-Bench, um benchmark centrado em regiões para avaliar capacidades cognitivas incorporadas. Antecipamos que o RynnEC impulsionará o desenvolvimento de núcleos cognitivos de propósito geral para agentes incorporados e facilitará a generalização em diversas tarefas incorporadas. O código, os pontos de verificação do modelo e o benchmark estão disponíveis em: https://github.com/alibaba-damo-academy/RynnEC

Máquinas Virtuosas: Rumo à Ciência Geral Artificial
Virtuous Machines: Towards Artificial General Science

Aug 19

ByGabrielle Wehr, Reuben Rideaux, Amaya J. Fox, David R. Lightfoot, Jason Tangen, Jason B. Mattingley, Shane E. Ehrhardt

Os sistemas de inteligência artificial estão transformando a descoberta científica ao acelerar tarefas específicas de pesquisa, desde a previsão da estrutura de proteínas até o design de materiais, mas ainda permanecem confinados a domínios estreitos que exigem supervisão humana substancial. O crescimento exponencial da literatura científica e a crescente especialização em domínios limitam a capacidade dos pesquisadores de sintetizar conhecimento entre disciplinas e desenvolver teorias unificadoras, motivando a exploração de sistemas de IA mais gerais para a ciência. Aqui, mostramos que um sistema de IA agente e independente de domínio pode navegar de forma autônoma pelo fluxo de trabalho científico — desde a geração de hipóteses, passando pela coleta de dados, até a preparação de manuscritos. O sistema projetou e executou autonomamente três estudos psicológicos sobre memória de trabalho visual, rotação mental e vivacidade de imagens, realizou uma nova coleta de dados online com 288 participantes, desenvolveu pipelines de análise por meio de sessões contínuas de codificação de mais de 8 horas e produziu manuscritos completos. Os resultados demonstram a capacidade dos pipelines de descoberta científica baseados em IA de conduzir pesquisas não triviais com raciocínio teórico e rigor metodológico comparáveis aos de pesquisadores experientes, embora com limitações em nuances conceituais e interpretação teórica. Este é um passo em direção a uma IA incorporada que pode testar hipóteses por meio de experimentos do mundo real, acelerando a descoberta ao explorar autonomamente regiões do espaço científico que as restrições cognitivas e de recursos humanos poderiam deixar inexploradas. Isso levanta questões importantes sobre a natureza do entendimento científico e a atribuição de crédito científico.

RL On-Policy Encontra Especialistas Off-Policy: Harmonizando Ajuste Fino Supervisionado e Aprendizado por Reforço via Ponderação Dinâmica
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Aug 15

ByWenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou

O Ajuste Fino Supervisionado (SFT) e o Aprendizado por Reforço (RL) são dois paradigmas proeminentes de pós-treinamento para refinar as capacidades e alinhar o comportamento de Modelos de Linguagem de Grande Escala (LLMs). As abordagens existentes que integram SFT e RL frequentemente enfrentam o risco de perturbar padrões estabelecidos do modelo e induzir sobreajuste aos dados de especialistas. Para abordar isso, apresentamos uma nova investigação sobre a visão unificada de SFT e RL através de uma lente off-policy versus on-policy. Propomos o CHORD, um framework para a Harmonização Controlável de Aprendizado por Reforço On-Policy e Off-Policy via Ponderação Dinâmica, que reformula o SFT não como uma etapa separada, mas como um objetivo auxiliar ponderado dinamicamente dentro do processo de RL on-policy. Com base em uma análise da influência dos dados de especialistas off-policy em níveis holísticos e granulares, incorporamos um mecanismo de controle duplo no CHORD. Especificamente, o framework primeiro emprega um coeficiente global para guiar holisticamente a transição da imitação off-policy para a exploração on-policy, e então aplica uma função de ponderação por token que permite o aprendizado granular a partir de tokens de especialistas, preservando a exploração on-policy e mitigando a perturbação dos dados off-policy. Realizamos extensos experimentos em benchmarks amplamente utilizados, fornecendo evidências empíricas de que o CHORD alcança um processo de aprendizado estável e eficiente. Ao harmonizar efetivamente os dados de especialistas off-policy com a exploração on-policy, o CHORD demonstra melhorias significativas em relação às baselines. Disponibilizamos a implementação em https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord para inspirar pesquisas futuras.

FLARE: Motor de Roteamento de Atenção Rápida de Baixa Ordem
FLARE: Fast Low-rank Attention Routing Engine

Aug 18

ByVedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara

A complexidade quadrática da auto-atenção limita sua aplicabilidade e escalabilidade em malhas não estruturadas de grande porte. Apresentamos o Fast Low-rank Attention Routing Engine (FLARE), um mecanismo de auto-atenção com complexidade linear que direciona a atenção por meio de sequências latentes de comprimento fixo. Cada cabeça de atenção realiza comunicação global entre N tokens projetando a sequência de entrada em uma sequência latente de comprimento fixo de M ll N tokens usando tokens de consulta aprendíveis. Ao direcionar a atenção por meio de uma sequência de gargalo, o FLARE aprende uma forma de atenção de baixo posto que pode ser aplicada com custo O(NM). O FLARE não apenas escala para tamanhos de problemas sem precedentes, mas também oferece precisão superior em comparação com os melhores substitutos neurais de EDP em diversos benchmarks. Também disponibilizamos um novo conjunto de dados de manufatura aditiva para estimular pesquisas adicionais. Nosso código está disponível em https://github.com/vpuri3/FLARE.py.

ViExam: Modelos de Linguagem Visual são Melhores que Humanos em Questões de Exame Multimodais Vietnamitas?
ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?

Aug 19

ByVy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim

Modelos de linguagem visual (VLMs) demonstram capacidades notáveis em tarefas multimodais em inglês, mas seu desempenho em idiomas de baixo recurso com conteúdo educacional genuinamente multimodal permanece amplamente inexplorado. Neste trabalho, testamos como os VLMs se saem em avaliações educacionais vietnamitas, investigando se VLMs treinados predominantemente em dados em inglês podem lidar com raciocínio multimodal cross-lingual no mundo real. Nosso trabalho apresenta a primeira avaliação abrangente das capacidades dos VLMs em exames multimodais vietnamitas, propondo o ViExam, um benchmark contendo 2.548 questões multimodais. Descobrimos que os VLMs state-of-the-art alcançam apenas 57,74%, enquanto modelos de código aberto atingem 27,70% de precisão média em 7 domínios acadêmicos, incluindo Matemática, Física, Química, Biologia, Geografia, Teste de Direção e Teste de QI. A maioria dos VLMs tem desempenho inferior ao dos participantes humanos médios (66,54%), com apenas o VLM pensante o3 (74,07%) superando a média humana, mas ainda ficando substancialmente abaixo do melhor desempenho humano (99,60%). O prompting cross-lingual com instruções em inglês, mantendo o conteúdo em vietnamita, não melhora o desempenho, reduzindo a precisão em 1 ponto percentual para VLMs SOTA. A colaboração human-in-the-loop pode melhorar parcialmente o desempenho dos VLMs em 5 pontos percentuais. Código e dados estão disponíveis em: https://vi-exam.github.io.

Dissecando o Raciocínio Integrado a Ferramentas: Um Estudo e Análise Empírica
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

Aug 21

ByYufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen

Modelos de Linguagem de Grande Escala (LLMs) têm feito avanços significativos em tarefas de raciocínio por meio de métodos como o raciocínio em cadeia de pensamento (chain-of-thought, CoT). No entanto, eles frequentemente apresentam deficiências em tarefas que exigem cálculos precisos. O Raciocínio Integrado com Ferramentas (Tool-Integrated Reasoning, TIR) surgiu como uma solução ao incorporar ferramentas externas ao processo de raciocínio. No entanto, a generalização do TIR na melhoria da capacidade de raciocínio dos LLMs ainda não é clara. Além disso, se o TIR melhorou o comportamento de raciocínio do modelo e ajudou o modelo a pensar ainda precisa ser estudado. Apresentamos o ReasonZoo, um benchmark abrangente que engloba nove categorias diversas de raciocínio, para avaliar a eficácia do TIR em vários domínios. Além disso, propomos duas novas métricas, Custo Consciente de Desempenho (Performance-Aware Cost, PAC) e Área Sob a Curva de Desempenho-Custo (Area Under the Performance-Cost Curve, AUC-PCC), para avaliar a eficiência do raciocínio. Nossa avaliação empírica demonstra que modelos habilitados com TIR consistentemente superam suas contrapartes sem TIR tanto em tarefas matemáticas quanto não matemáticas. Além disso, o TIR melhora a eficiência do raciocínio, como evidenciado pela melhoria no PAC e AUC-PCC, indicando redução de pensamento excessivo e raciocínio mais direcionado. Esses achados destacam os benefícios de domínio geral do TIR e seu potencial para avançar as capacidades dos LLMs em tarefas complexas de raciocínio.

Equivariância em Escala Local com Canonificador de Equilíbrio Profundo Latente
Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

Aug 19

ByMd Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh

A variação de escala é um desafio fundamental na visão computacional. Objetos da mesma classe podem ter tamanhos diferentes, e seu tamanho percebido é ainda mais afetado pela distância da câmera. Essas variações são locais aos objetos, ou seja, diferentes tamanhos de objetos podem mudar de maneira distinta dentro da mesma imagem. Para lidar efetivamente com as variações de escala, apresentamos um canonizador de equilíbrio profundo (DEC, na sigla em inglês) para melhorar a equivariância de escala local de um modelo. O DEC pode ser facilmente incorporado em arquiteturas de rede existentes e pode ser adaptado a um modelo pré-treinado. Notavelmente, mostramos que, no competitivo benchmark ImageNet, o DEC melhora tanto o desempenho do modelo quanto a consistência de escala local em quatro redes profundas pré-treinadas populares, como ViT, DeiT, Swin e BEiT. Nosso código está disponível em https://github.com/ashiq24/local-scale-equivariance.

mSCoRe: um Benchmark Multilíngue e Escalável para Raciocínio de Senso Comum Baseado em Habilidades
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

Aug 13

ByNghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

Avanços recentes em modelos de linguagem de grande escala (LLMs) reforçados para raciocínio têm demonstrado capacidades notáveis em tarefas complexas de raciocínio. No entanto, o mecanismo subjacente à sua utilização de diferentes habilidades de raciocínio humano permanece pouco investigado, especialmente para o raciocínio de senso comum multilingue que envolve conhecimentos cotidianos de diferentes idiomas e culturas. Para abordar essa lacuna, propomos um Benchmark Multilingue e Escalável para Raciocínio de Senso Comum Baseado em Habilidades (mSCoRe). Nosso benchmark incorpora três componentes principais projetados para avaliar sistematicamente as capacidades de raciocínio dos LLMs, incluindo: (1) uma nova taxonomia de habilidades de raciocínio que permite uma análise refinada dos processos de raciocínio dos modelos, (2) um pipeline robusto de síntese de dados especificamente adaptado para avaliação de raciocínio de senso comum, e (3) uma estrutura de escalonamento de complexidade que permite que a dificuldade da tarefa seja ajustada dinamicamente em conjunto com futuras melhorias nas habilidades dos LLMs. Experimentos extensos em oito LLMs state-of-the-art de diferentes tamanhos e abordagens de treinamento demonstram que o mSCoRe permanece significativamente desafiador para os modelos atuais, especialmente em níveis mais altos de complexidade. Nossos resultados revelam as limitações desses modelos reforçados para raciocínio quando confrontados com nuances de senso comum geral e cultural multilingue. Além disso, fornecemos uma análise detalhada dos processos de raciocínio dos modelos, sugerindo direções futuras para melhorar as capacidades de raciocínio de senso comum multilingue.

Leuvenshtein: Cálculo Eficiente de Distância de Edição Baseado em FHE com uma Única Bootstrap por Célula
Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell

Aug 20

ByWouter Legiest, Jan-Pieter D'Anvers, Bojan Spasic, Nam-Luc Tran, Ingrid Verbauwhede

Este artigo apresenta uma nova abordagem para calcular a distância de Levenshtein (edição) no contexto da Criptografia Totalmente Homomórfica (FHE), com foco específico em esquemas de terceira geração como o TFHE. Cálculos de distância de edição são essenciais em aplicações nas áreas de finanças e genômica, como o alinhamento de sequências de DNA. Introduzimos um algoritmo otimizado que reduz significativamente o custo dos cálculos de distância de edição, denominado Leuvenshtein. Esse algoritmo reduz especificamente o número de bootstraps programáveis (PBS) necessários por célula do cálculo, diminuindo de aproximadamente 94 operações -- exigidas pelo algoritmo convencional de Wagner-Fisher -- para apenas 1. Além disso, propomos um método eficiente para realizar verificações de igualdade de caracteres, reduzindo as comparações de caracteres ASCII para apenas 2 operações PBS. Por fim, exploramos o potencial para melhorias adicionais de desempenho utilizando pré-processamento quando uma das strings de entrada não está criptografada. Nosso algoritmo Leuvenshtein alcança um desempenho até 278 vezes mais rápido em comparação com a melhor implementação disponível do TFHE e até 39 vezes mais rápido que uma implementação otimizada do algoritmo de Wagner-Fisher. Além disso, quando o pré-processamento offline é possível devido à presença de uma entrada não criptografada no lado do servidor, um ganho adicional de 3 vezes em velocidade pode ser obtido.

Refinando o Aprendizado Contrastivo e as Relações de Homografia para Recomendação Multimodal
Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

Aug 19

ByShouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu

O sistema de recomendação multimodal concentra-se em utilizar informações ricas de diferentes modalidades (ou seja, imagens e descrições textuais) dos itens para melhorar o desempenho da recomendação. Os métodos atuais alcançaram sucesso notável com a poderosa capacidade de modelagem estrutural das redes neurais em grafos. No entanto, esses métodos frequentemente são prejudicados pela escassez de dados em cenários do mundo real. Embora o aprendizado contrastivo e a homografia (ou seja, grafos homogêneos) sejam empregados para enfrentar o desafio da escassez de dados, os métodos existentes ainda sofrem com duas limitações principais: 1) Contrastes simples de características multimodais falham em produzir representações eficazes, resultando em características compartilhadas entre modalidades ruidosas e perda de informações valiosas nas características únicas de cada modalidade; 2) A falta de exploração das relações homográficas entre os interesses do usuário e a co-ocorrência de itens resulta em uma mineração incompleta da interação usuário-item. Para abordar as limitações acima, propomos uma nova estrutura para Refinar o aprendizado contrastivo multimodal e as relações de homografia (REARM). Especificamente, complementamos o aprendizado contrastivo multimodal empregando estratégias de meta-rede e restrições ortogonais, que filtram o ruído nas características compartilhadas entre modalidades e retêm informações relevantes para a recomendação nas características únicas de cada modalidade. Para minerar efetivamente as relações homogêneas, integramos um novo grafo de interesses do usuário e um grafo de co-ocorrência de itens com os grafos existentes de co-ocorrência de usuários e semântica de itens para o aprendizado em grafos. Os extensos experimentos em três conjuntos de dados do mundo real demonstram a superioridade do REARM em relação a várias linhas de base state-of-the-art. Nossa visualização mostra ainda uma melhoria feita pelo REARM na distinção entre características compartilhadas e únicas de cada modalidade. O código está disponível {aqui} https://github.com/MrShouxingMa/REARM.

NVIDIA Nemotron Nano 2: Um Modelo de Raciocínio Híbrido Mamba-Transformer Preciso e Eficiente
NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Aug 20