HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

17 papers found

RobustFT: Ajuste Fino Supervisionado Robusto para Modelos de Linguagem Grandes sob Resposta Ruidosa
RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Dec 19

ByJunyu Luo, Xiao Luo, Kaize Ding, Jingyang Yuan, Zhiping Xiao, Ming Zhang

A afinação fina supervisionada (SFT) desempenha um papel crucial na adaptação de grandes modelos de linguagem (LLMs) a domínios ou tarefas específicas. No entanto, como demonstrado por experimentos empíricos, os dados coletados inevitavelmente contêm ruído em aplicações práticas, o que representa desafios significativos para o desempenho do modelo em tarefas subsequentes. Portanto, há uma necessidade urgente de um framework de SFT robusto ao ruído para aprimorar as capacidades do modelo em tarefas subsequentes. Para enfrentar esse desafio, introduzimos um framework robusto de SFT (RobustFT) que realiza detecção e rotulagem de ruído nos dados da tarefa subsequente. Para identificação de ruído, nossa abordagem emprega um sistema colaborativo multi-especialista com modelos aprimorados por inferência para alcançar uma detecção de ruído superior. Na fase de remoção de ruído, utilizamos uma estratégia aprimorada por contexto, que incorpora o conhecimento mais relevante e confiante seguido por uma avaliação cuidadosa para gerar anotações confiáveis. Além disso, introduzimos um mecanismo eficaz de seleção de dados com base na entropia de resposta, garantindo que apenas amostras de alta qualidade sejam retidas para a afinação fina. Experimentos extensivos realizados em vários LLMs em cinco conjuntos de dados demonstram o desempenho excepcional do RobustFT em cenários ruidosos.

B-STaR: Monitoramento e Equilíbrio da Exploração e Exploração em Raciocinadores Autoaprendidos
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Dec 23

ByWeihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He

Na ausência de extensos dados humanos anotados para tarefas de raciocínio complexas, a autoaperfeiçoamento - onde modelos são treinados com base em suas próprias saídas - surgiu como um método primário para aprimorar o desempenho. No entanto, os fatores críticos subjacentes ao mecanismo desses métodos iterativos de autoaperfeiçoamento ainda são mal compreendidos, como em que condições a autoaperfeiçoamento é eficaz e quais são os gargalos nas iterações atuais. Neste trabalho, identificamos e propomos métodos para monitorar dois fatores cruciais nesse processo iterativo: (1) a capacidade do modelo de gerar respostas suficientemente diversas (exploração); e (2) a eficácia de recompensas externas em distinguir candidatos de alta qualidade dos de baixa qualidade (exploração). Usando o raciocínio matemático como estudo de caso, começamos com uma análise quantitativa para rastrear a dinâmica da exploração e exploração, descobrindo que as capacidades exploratórias de um modelo deterioram rapidamente ao longo das iterações, e a eficácia de explorar recompensas externas também diminui. Motivados por essas descobertas, introduzimos o B-STaR, um framework de Raciocínio Autodidata que ajusta autonomamente configurações ao longo das iterações para Balancear exploração e exploração, otimizando assim a eficácia de autoaperfeiçoamento com base no modelo de política atual e recompensas disponíveis. Nossos experimentos em raciocínio matemático, programação e raciocínio do senso comum demonstram que o B-STaR não apenas aprimora as capacidades exploratórias do modelo durante todo o treinamento, mas também alcança um equilíbrio mais eficaz entre exploração e exploração, resultando em um desempenho superior.

Explorando o Treinamento Autoevolutivo para Raciocínio Multimodal
Diving into Self-Evolving Training for Multimodal Reasoning

Dec 23

ByWei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He

A capacidade de raciocínio é essencial para os Modelos Multimodais de Grande Escala (LMMs). Na ausência de dados anotados de corrente de pensamento multimodal, o treinamento autoevolutivo, no qual o modelo aprende a partir de suas próprias saídas, surgiu como uma abordagem eficaz e escalável para aprimorar as habilidades de raciocínio. Apesar de seu uso crescente, a compreensão abrangente do treinamento autoevolutivo, especialmente no contexto do raciocínio multimodal, ainda é limitada. Neste artigo, aprofundamos nas complexidades do treinamento autoevolutivo para o raciocínio multimodal, destacando três fatores-chave: Método de Treinamento, Modelo de Recompensa e Variação de Estímulo. Examinamos sistematicamente cada fator e exploramos como várias configurações afetam a eficácia do treinamento. Nossa análise resulta em um conjunto das melhores práticas para cada fator, com o objetivo de otimizar o raciocínio multimodal. Além disso, exploramos a Dinâmica de Autoevolução durante o treinamento e o impacto dos mecanismos automáticos de equilíbrio no aumento de desempenho. Após todas as investigações, apresentamos uma receita final para o treinamento autoevolutivo no raciocínio multimodal, encapsulando essas escolhas de design em um framework que chamamos de MSTaR (Treinamento Autoevolutivo Multimodal para Raciocínio), que é universalmente eficaz para modelos de diferentes tamanhos em vários benchmarks, por exemplo, superando significativamente o modelo pré-evoluído em 5 benchmarks de raciocínio multimodal sem o uso de anotações humanas adicionais, conforme demonstrado no MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Acreditamos que este estudo preenche uma lacuna significativa na compreensão do treinamento autoevolutivo para o raciocínio multimodal e oferece um framework robusto para pesquisas futuras. Nossos modelos de política e recompensa, bem como os dados coletados, são disponibilizados para facilitar investigações adicionais no raciocínio multimodal.

Decodificação Destilada 1: Amostragem de um Passo de Modelos Auto-regressivos de Imagens com Correspondência de Fluxo
Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching

Dec 22

ByEnshu Liu, Xuefei Ning, Yu Wang, Zinan Lin

Os modelos autorregressivos (AR) alcançaram um desempenho de ponta na geração de texto e imagem, mas sofrem com uma geração lenta devido ao processo token a token. Fazemos uma pergunta ambiciosa: um modelo AR pré-treinado pode ser adaptado para gerar saídas em apenas um ou dois passos? Se bem-sucedido, isso avançaria significativamente no desenvolvimento e implementação de modelos AR. Observamos que trabalhos existentes que tentam acelerar a geração AR gerando vários tokens de uma vez não conseguem capturar a distribuição de saída devido às dependências condicionais entre tokens, limitando sua eficácia para geração de poucos passos. Para abordar isso, propomos o Decodificador Destilado (DD), que utiliza correspondência de fluxo para criar um mapeamento determinístico da distribuição gaussiana para a distribuição de saída do modelo AR pré-treinado. Em seguida, treinamos uma rede para destilar esse mapeamento, possibilitando a geração de poucos passos. O DD não necessita dos dados de treinamento do modelo AR original, tornando-o mais prático. Avaliamos o DD em modelos AR de imagem de ponta e apresentamos resultados promissores no ImageNet-256. Para VAR, que requer geração de 10 passos, o DD possibilita a geração em um passo (aumento de velocidade de 6,3 vezes), com um aumento aceitável no FID de 4,19 para 9,96. Para LlamaGen, o DD reduz a geração de 256 passos para 1, alcançando um aumento de velocidade de 217,8 vezes com um aumento comparável no FID de 4,11 para 11,35. Em ambos os casos, os métodos de referência falham completamente com FID>100. O DD também se destaca na geração de texto para imagem, reduzindo a geração de 256 passos para 2 para LlamaGen com um aumento mínimo no FID de 25,70 para 28,95. Como o primeiro trabalho a demonstrar a possibilidade de geração em um passo para modelos AR de imagem, o DD desafia a noção predominante de que os modelos AR são inerentemente lentos e abre novas oportunidades para uma geração AR eficiente. O site do projeto está em https://imagination-research.github.io/distilled-decoding.

Cartão do Sistema OpenAI o1
OpenAI o1 System Card

Dec 21

ByOpenAI, Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, Alex Iftimie, Alex Karpenko, Alex Tachard Passos, Alexander Neitz, Alexander Prokofiev, Alexander Wei, Allison Tam, Ally Bennett, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Duberstein, Andrew Kondrich, Andrey Mishchenko, Andy Applebaum, Angela Jiang, Ashvin Nair, Barret Zoph, Behrooz Ghorbani, Ben Rossen, Benjamin Sokolowsky, Boaz Barak, Bob McGrew, Borys Minaiev, Botao Hao, Bowen Baker, Brandon Houghton, Brandon McKinzie, Brydon Eastman, Camillo Lugaresi, Cary Bassin, Cary Hudson, Chak Ming Li, Charles de Bourcy, Chelsea Voss, Chen Shen, Chong Zhang, Chris Koch, Chris Orsinger, Christopher Hesse, Claudia Fischer, Clive Chan, Dan Roberts, Daniel Kappler, Daniel Levy, Daniel Selsam, David Dohan, David Farhi, David Mely, David Robinson, Dimitris Tsipras, Doug Li, Dragos Oprica, Eben Freeman, Eddie Zhang, Edmund Wong, Elizabeth Proehl, Enoch Cheung, Eric Mitchell, Eric Wallace, Erik Ritter, Evan Mays, Fan Wang, Felipe Petroski Such, Filippo Raso, Florencia Leoni, Foivos Tsimpourlas, Francis Song, Fred von Lohmann, Freddie Sulit, Geoff Salmon, Giambattista Parascandolo, Gildas Chabot, Grace Zhao, Greg Brockman, Guillaume Leclerc, Hadi Salman, Haiming Bao, Hao Sheng, Hart Andrin, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian Osband, Ignasi Clavera Gilaberte, Ilge Akkaya, Ilya Kostrikov, Ilya Sutskever, Irina Kofman, Jakub Pachocki, James Lennon, Jason Wei, Jean Harb, Jerry Twore, Jiacheng Feng, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joaquin Quiñonero Candela, Joe Palermo, Joel Parish, Johannes Heidecke, John Hallman, John Rizzo, Jonathan Gordon, Jonathan Uesato, Jonathan Uesato, Jonathan Ward, Joost Huizinga, Julie Wang, Kai Chen, Kai Xiao, Karan Singhal, Karina Nguyen, Karl Cobbe, Katy Shi, Kayla Wood, Kendra Rimbach, Keren Gu-Lemberg, Keren GuLemberg, Kevin Liu, Kevin Lu, Kevin Stone, Kevin Yu, Lama Ahmad, Lauren Yang, Leo Liu, Leon Maksin, Leyton Ho, Liam Fedus, Lilian Weng, Linden Li, Lindsay McCallum, Lindsey Held, Lorenz Kuhn, Lukas Kondraciuk, Lukasz Kaiser, Luke Metz, Madelaine Boyd, Maja Trebacz, Manas Joglekar, Mark Chen, Marko Tintor, Mason Meyer, Matt Jones, Matt Kaufer, Max Schwarzer, Meghan Shah, Mehmet Yatbaz, Melody Guan, Mengyuan Xu, Mengyuan Yan, Mia Glaese, Mianna Chen, Mianna Chen, Michael Lampe, Michael Malek, Michele Wang, Michelle Fradin, Mike McClay, Mikhail Pavlov, Miles Wang, Mingxuan Wang, Mira Murati, Mo Bavarian, Mostafa Rohaninejad, Nat McAleese, Neil Chowdhury, Neil Chowdhury, Nick Ryder, Nikolas Tezak, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Patrick Chao, Paul Ashbourne, Pavel Izmailov, Peter Zhokhov, Rachel Dias, Rahul Arora, Randall Lin, Rapha Gontijo Lopes, Raz Gaon, Reah Miyara, Reimar Leike, Renny Hwang, Rhythm Garg, Robin Brown, Roshan James, Rui Shu, Ryan Cheu, Ryan Greene, Saachi Jain, Sam Altman, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Santiago Hernandez, Sasha Baker, Scott McKinney, Scottie Yan, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shraman Ray Chaudhuri, Shuyuan Zhang, Siyuan Fu, Spencer Papay, Steph Lin, Suchir Balaji, Suvansh Sanjeev, Szymon Sidor, Tal Broda, Aidan Clark, Tao Wang, Taylor Gordon, Ted Sanders, Tejal Patwardhan, Thibault Sottiaux, Thomas Degry, Thomas Dimson, Tianhao Zheng, Timur Garipov, Tom Stasi, Trapit Bansal, Trevor Creech, Troy Peterson, Tyna Eloundou, Valerie Qi, Vineet Kosaraju, Vinnie Monaco, Vitchyr Pong, Vlad Fomenko, Weiyi Zheng, Wenda Zhou, Wes McCabe, Wojciech Zaremba, Yann Dubois, Yinghai Lu, Yining Chen, Young Cha, Yu Bai, Yuchen He, Yuchen Zhang, Yunyun Wang, Zheng Shao, Zhuohan Li

A série de modelos o1 é treinada com aprendizado por reforço em larga escala para raciocinar usando cadeias de pensamento. Essas capacidades avançadas de raciocínio abrem novas possibilidades para melhorar a segurança e robustez de nossos modelos. Em particular, nossos modelos podem raciocinar sobre nossas políticas de segurança em contexto ao responder a estímulos potencialmente inseguros, por meio de alinhamento deliberativo. Isso resulta em desempenho de ponta em determinados benchmarks de riscos, como gerar conselhos ilícitos, escolher respostas estereotipadas e sucumbir a jailbreaks conhecidos. Treinar modelos para incorporar uma cadeia de pensamento antes de responder tem o potencial de desbloquear benefícios substanciais, ao mesmo tempo em que aumenta os riscos potenciais decorrentes de uma inteligência mais elevada. Nossos resultados destacam a necessidade de desenvolver métodos de alinhamento robustos, testar extensivamente sua eficácia e manter protocolos meticulosos de gerenciamento de riscos. Este relatório delineia o trabalho de segurança realizado para os modelos OpenAI o1 e OpenAI o1-mini, incluindo avaliações de segurança, testes externos de equipe vermelha e avaliações do Framework de Prontidão.

Deliberação no Espaço Latente via Augmentação de Cache Diferenciável
Deliberation in Latent Space via Differentiable Cache Augmentation

Dec 23

ByLuyang Liu, Jonas Pfeiffer, Jiaxing Wu, Jun Xie, Arthur Szlam

Técnicas que permitem que grandes modelos de linguagem (LLMs) "pensem mais" gerando e atendendo a etapas intermediárias de raciocínio têm mostrado promessa na resolução de problemas complexos. No entanto, as abordagens padrão geram sequências de tokens discretos imediatamente antes de responder, o que pode acarretar custos significativos de latência e ser desafiador de otimizar. Neste trabalho, demonstramos que um LLM congelado pode ser aumentado com um coprocessador offline que opera no cache chave-valor do modelo. Esse coprocessador aumenta o cache com um conjunto de embeddings latentes projetados para melhorar a fidelidade da decodificação subsequente. Treinamos esse coprocessador usando a perda de modelagem de linguagem do decodificador em dados padrão de pré-treinamento, mantendo o próprio decodificador congelado. Essa abordagem permite que o modelo aprenda, de forma diferenciável de ponta a ponta, como destilar computação adicional em seu cache chave-valor. Como o decodificador permanece inalterado, o coprocessador pode operar offline e de forma assíncrona, e o modelo de linguagem pode funcionar normalmente se o coprocessador não estiver disponível ou se um determinado cache não precisar de computação extra. Mostramos experimentalmente que, quando um cache é aumentado, o decodificador alcança menor perplexidade em numerosos tokens subsequentes. Além disso, mesmo sem nenhum treinamento específico da tarefa, nossos experimentos demonstram que a ampliação do cache consistentemente reduz a perplexidade e melhora o desempenho em uma variedade de tarefas intensivas em raciocínio.

Revisitando a Aprendizagem em Contexto com Modelos de Linguagem de Longo Contexto
Revisiting In-Context Learning with Long Context Language Models

Dec 22

ByJinheon Baek, Sun Jae Lee, Prakhar Gupta, Geunseob, Oh, Siddharth Dalmia, Prateek Kolhar

A Aprendizagem em Contexto (ICL) é uma técnica pela qual os modelos de linguagem fazem previsões com base nos exemplos fornecidos em seu contexto de entrada. Anteriormente, o tamanho da janela de contexto impunha um limite ao número de exemplos que podiam ser mostrados, tornando as técnicas de seleção de exemplos cruciais para identificar o conjunto de exemplos mais eficaz. No entanto, o recente surgimento dos Modelos de Linguagem de Longo Contexto (LCLMs) aumentou significativamente o número de exemplos que podem ser incluídos no contexto, levantando uma questão importante sobre se o desempenho do ICL em um regime de muitos exemplos ainda é sensível ao método de seleção de amostras. Para responder a isso, revisitamos essas abordagens no contexto dos LCLMs por meio de experimentos extensivos em 18 conjuntos de dados abrangendo 4 tarefas. Surpreendentemente, observamos que técnicas sofisticadas de seleção de exemplos não resultam em melhorias significativas em relação a um método simples de seleção de amostras aleatórias. Em vez disso, descobrimos que o surgimento dos LCLMs mudou fundamentalmente o desafio do ICL de selecionar os exemplos mais eficazes para coletar exemplos suficientes para preencher a janela de contexto. Especificamente, em certos conjuntos de dados, incluir todos os exemplos disponíveis não utiliza totalmente a janela de contexto; no entanto, ao aumentar os exemplos em contexto com uma abordagem simples de aumento de dados, melhoramos substancialmente o desempenho do ICL em 5%.

Codificação Automática de Vídeo de Grandes Movimentos com VAE de Vídeo Multimodal
Large Motion Video Autoencoding with Cross-modal Video VAE

Dec 23

ByYazhou Xing, Yang Fei, Yingqing He, Jingye Chen, Jiaxin Xie, Xiaowei Chi, Qifeng Chen

Aprender um robusto Autoencoder Variacional de Vídeo (VAE) é essencial para reduzir a redundância de vídeo e facilitar a geração eficiente de vídeo. Aplicar diretamente VAEs de imagem a quadros individuais de forma isolada pode resultar em inconsistências temporais e taxas de compressão subótimas devido à falta de compressão temporal. Os VAEs de Vídeo existentes começaram a abordar a compressão temporal; no entanto, frequentemente sofrem de desempenho de reconstrução inadequado. Neste artigo, apresentamos um autoencoder de vídeo inovador e poderoso capaz de codificação de vídeo de alta fidelidade. Primeiramente, observamos que entrelaçar compressão espacial e temporal simplesmente estendendo o VAE de imagem para um VAE 3D pode introduzir artefatos de desfoque de movimento e distorção de detalhes. Portanto, propomos uma compressão espacial consciente do tempo para melhor codificar e decodificar a informação espacial. Além disso, integramos um modelo de compressão de movimento leve para uma maior compressão temporal. Em segundo lugar, propomos aproveitar a informação textual inerente em conjuntos de dados de texto-para-vídeo e incorporar orientação de texto em nosso modelo. Isso melhora significativamente a qualidade de reconstrução, especialmente em termos de preservação de detalhes e estabilidade temporal. Em terceiro lugar, melhoramos ainda mais a versatilidade de nosso modelo por meio de treinamento conjunto em imagens e vídeos, o que não só melhora a qualidade de reconstrução, mas também permite que o modelo realize tanto a autoencodificação de imagem quanto de vídeo. Avaliações extensas contra bases recentes fortes demonstram o desempenho superior de nosso método. O site do projeto pode ser encontrado em https://yzxing87.github.io/vae/.

LearnLM: Melhorando o Gemini para Aprendizado
LearnLM: Improving Gemini for Learning

Dec 21

ByLearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Brett Wiltshire, Brian Veprek, Daniel Gillick, Daniel Kasenberg, Derek Ahmed, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin McKee, Lisa Wang, Markus Kunesch, Mike Schaekermann, Miruna Pîslar, Nikhil Joshi, Parsa Mahmoudieh, Paul Jhun, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Amy Wang, Ankit Anand, Avishkar Bhoopchand, Dan Wild, Divya Pandya, Filip Bar, Garth Graham, Holger Winnemoeller, Mahvish Nagda, Prateek Kolhar, Renee Schneider, Shaojian Zhu, Stephanie Chan, Steve Yadlowsky, Viknesh Sounderajah, Yannis Assael

Os sistemas de IA generativa de hoje são ajustados para apresentar informações por padrão, em vez de envolver os usuários em serviço de aprendizado como faria um tutor humano. Para abordar a ampla gama de possíveis casos de uso educacional para esses sistemas, reformulamos o desafio de injetar comportamento pedagógico como um de instrução pedagógica a seguir, onde exemplos de treinamento e avaliação incluem instruções em nível de sistema descrevendo os atributos pedagógicos específicos presentes ou desejados nas próximas etapas do modelo. Essa abordagem evita comprometer nossos modelos com qualquer definição específica de pedagogia e, em vez disso, permite que professores ou desenvolvedores especifiquem o comportamento do modelo desejado. Também abre caminho para a melhoria dos modelos Gemini para aprendizado, permitindo a adição de nossos dados pedagógicos a misturas pós-treinamento, juntamente com seu conjunto rapidamente crescente de capacidades. Ambos representam mudanças importantes em relação ao nosso relatório técnico inicial. Mostramos como o treinamento com instrução pedagógica a seguir produz um modelo LearnLM (disponível no Google AI Studio) que é substancialmente preferido por avaliadores especializados em um conjunto diversificado de cenários de aprendizado, com fortes preferências médias de 31\% em relação ao GPT-4o, 11\% em relação ao Claude 3.5 e 13\% em relação ao modelo Gemini 1.5 Pro no qual o LearnLM foi baseado.

DRT-o1: Tradução Profunda Otimizada por Raciocínio Profundo via Longa Cadeia de Pensamento
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

Dec 23

ByJiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou

Recentemente, modelos semelhantes ao O1 surgiram como exemplos representativos, ilustrando a eficácia de longas cadeias de pensamento (CoT) em tarefas de raciocínio, como tarefas de matemática e programação. Neste artigo, apresentamos o DRT-o1, uma tentativa de trazer o sucesso do longo CoT para a tradução automática neural (MT). Especificamente, considerando os livros de literatura que podem envolver comparações e metáforas, traduzir esses textos para um idioma-alvo é muito difícil na prática devido às diferenças culturais. Em tais casos, a tradução literal frequentemente falha em transmitir o significado pretendido de forma eficaz. Mesmo para tradutores humanos profissionais, é necessário dedicar bastante atenção para preservar a semântica ao longo do processo de tradução. Para simular a capacidade de longo pensamento dos LLMs na MT, primeiro extraímos frases contendo comparações ou metáforas de livros de literatura existentes e, em seguida, desenvolvemos um framework multiagente para traduzir essas frases por meio de um pensamento prolongado. No framework multiagente, um tradutor é utilizado para traduzir iterativamente a frase de origem sob as sugestões fornecidas por um orientador. Para garantir a eficácia dos pensamentos prolongados, um avaliador também é empregado para julgar se a tradução na rodada atual é melhor do que a anterior ou não. Dessa forma, coletamos dezenas de milhares de dados de MT de longo pensamento, que são usados para treinar nosso DRT-o1. Os resultados experimentais na tradução de literatura demonstram a eficácia do DRT-o1. Usando Qwen2.5-7B e Qwen2.5-14B como espinhas dorsais, a melhoria trazida pelo DRT-o1 alcança 7.33~8.26 BLEU e 1.66~3.36 CometScore. Além disso, o DRT-o1-7B pode superar o QwQ-32B-Preview em 7.82 BLEU e 1.46 CometScore, mostrando sua eficácia. O projeto está disponível em https://github.com/krystalan/DRT-o1.

Supervisão do Processo de Refinamento de Resultados para Geração de Código
Outcome-Refining Process Supervision for Code Generation

Dec 19

ByZhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang

Grandes Modelos de Linguagem têm demonstrado capacidades notáveis na geração de código, no entanto, frequentemente enfrentam dificuldades em tarefas de programação complexas que exigem um raciocínio algorítmico profundo. Enquanto a supervisão do processo por meio de modelos de recompensa aprendidos mostra promessa em orientar os passos de raciocínio, ela requer dados de treinamento caros e sofre de avaliação não confiável. Propomos a Supervisão de Processo de Refinamento de Resultados, um novo paradigma que trata o refinamento de resultados em si como o processo a ser supervisionado. Nosso framework aproveita sinais de execução concretos para fundamentar a supervisão dos passos de raciocínio, enquanto utiliza exploração estruturada em árvore para manter várias trajetórias de solução simultaneamente. Experimentos demonstram que nossa abordagem permite até mesmo que modelos menores alcancem alta precisão de sucesso e métricas de desempenho em tarefas de programação competitivas, criando uma verificação mais confiável do que os modelos de recompensa tradicionais sem exigir treinamento PRMs. Nossa abordagem alcança melhorias significativas em 5 modelos e 3 conjuntos de dados: uma média de 26,9% de aumento na correção e 42,2% na eficiência. Os resultados sugerem que fornecer um espaço de raciocínio estruturado com sinais de verificação concretos é crucial para resolver tarefas de programação complexas. Disponibilizamos todo o nosso código e dados em código aberto em: https://github.com/zhuohaoyu/ORPS

ResearchTown: Simulador da Comunidade de Pesquisa Humana
ResearchTown: Simulator of Human Research Community

Dec 23

ByHaofei Yu, Zhaochen Hong, Zirui Cheng, Kunlun Zhu, Keyang Xuan, Jinwei Yao, Tao Feng, Jiaxuan You

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um potencial notável em domínios científicos, no entanto, uma questão fundamental permanece sem resposta: Podemos simular comunidades de pesquisa humanas com LLMs? Abordar essa questão pode aprofundar nossa compreensão dos processos por trás da geração de ideias e inspirar a descoberta automática de insights científicos inovadores. Neste trabalho, propomos ResearchTown, um framework multiagente para simulação de comunidades de pesquisa. Dentro desse framework, a comunidade de pesquisa humana é simplificada e modelada como um grafo agente-dados, onde pesquisadores e artigos são representados como nós do tipo agente e tipo de dados, respectivamente, e conectados com base em suas relações de colaboração. Também introduzimos TextGNN, um framework de inferência baseado em texto que modela várias atividades de pesquisa (por exemplo, leitura de artigos, escrita de artigos e escrita de revisões) como formas especiais de um processo unificado de passagem de mensagens no grafo agente-dados. Para avaliar a qualidade da simulação de pesquisa, apresentamos ResearchBench, um benchmark que utiliza uma tarefa de previsão de mascaramento de nós para avaliação escalável e objetiva com base em similaridade. Nossos experimentos revelam três descobertas-chave: (1) ResearchTown pode fornecer uma simulação realista de atividades de pesquisa colaborativa, incluindo a escrita de artigos e revisões; (2) ResearchTown pode manter uma simulação robusta com múltiplos pesquisadores e artigos diversos; (3) ResearchTown pode gerar ideias de pesquisa interdisciplinares que potencialmente inspiram novas direções de pesquisa.

Agente de PC: Enquanto Você Dorme, a IA Trabalha - Uma Jornada Cognitiva no Mundo Digital
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

Dec 23

ByYanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu

Imagine um mundo onde a IA pode lidar com o seu trabalho enquanto você dorme - organizando seus materiais de pesquisa, redigindo um relatório ou criando uma apresentação que você precisa para o dia seguinte. No entanto, embora os agentes digitais atuais possam realizar tarefas simples, estão longe de ser capazes de lidar com o trabalho complexo do mundo real que os humanos realizam rotineiramente. Apresentamos o Agente PC, um sistema de IA que demonstra um passo crucial em direção a essa visão por meio da transferência de cognição humana. Nosso insight chave é que o caminho, desde a execução de "tarefas" simples até o manuseio de "trabalho" complexo, está em capturar e aprender de forma eficiente os processos cognitivos humanos durante o uso do computador. Para validar essa hipótese, introduzimos três inovações principais: (1) Rastreador PC, uma infraestrutura leve que coleta de forma eficiente trajetórias de interação humano-computador de alta qualidade com contexto cognitivo completo; (2) um pipeline de conclusão de cognição em duas etapas que transforma dados brutos de interação em trajetórias cognitivas ricas completando semântica de ação e processos de pensamento; e (3) um sistema multiagente que combina um agente de planejamento para tomada de decisão com um agente de fundamentação para fundamentação visual robusta. Nossos experimentos preliminares na criação de apresentações do PowerPoint revelam que capacidades de trabalho digital complexas podem ser alcançadas com uma pequena quantidade de dados cognitivos de alta qualidade - o Agente PC, treinado em apenas 133 trajetórias cognitivas, pode lidar com cenários de trabalho sofisticados envolvendo até 50 etapas em várias aplicações. Isso demonstra a eficiência de dados de nossa abordagem, destacando que a chave para treinar agentes digitais capazes está em coletar dados cognitivos humanos. Ao disponibilizar nosso framework completo de código aberto, incluindo a infraestrutura de coleta de dados e os métodos de conclusão de cognição, nosso objetivo é reduzir as barreiras para a comunidade de pesquisa desenvolver agentes digitais verdadeiramente capazes.

Agente-SafetyBench: Avaliando a Segurança de Agentes LLM
Agent-SafetyBench: Evaluating the Safety of LLM Agents

Dec 19

ByZhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang

À medida que os grandes modelos de linguagem (LLMs) são cada vez mais implantados como agentes, sua integração em ambientes interativos e uso de ferramentas introduzem novos desafios de segurança além daqueles associados aos modelos em si. No entanto, a ausência de benchmarks abrangentes para avaliar a segurança do agente apresenta uma barreira significativa para uma avaliação eficaz e melhorias adicionais. Neste artigo, apresentamos o Agent-SafetyBench, um benchmark abrangente projetado para avaliar a segurança de agentes LLM. O Agent-SafetyBench abrange 349 ambientes de interação e 2.000 casos de teste, avaliando 8 categorias de riscos de segurança e cobrindo 10 modos de falha comuns frequentemente encontrados em interações inseguras. Nossa avaliação de 16 agentes LLM populares revela um resultado preocupante: nenhum dos agentes alcança uma pontuação de segurança acima de 60%. Isso destaca desafios significativos de segurança em agentes LLM e ressalta a necessidade considerável de melhorias. Através de análises quantitativas, identificamos modos críticos de falha e resumimos dois defeitos fundamentais de segurança nos agentes LLM atuais: falta de robustez e falta de consciência de risco. Além disso, nossas descobertas sugerem que a dependência apenas de prompts de defesa é insuficiente para lidar com essas questões de segurança, enfatizando a necessidade de estratégias mais avançadas e robustas. Disponibilizamos o Agent-SafetyBench em https://github.com/thu-coai/Agent-SafetyBench para facilitar pesquisas e inovações adicionais na avaliação e melhoria da segurança do agente.

Friends-MMC: Um Conjunto de Dados para Compreensão de Conversas Multi-modais e Multi-participantes
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Dec 23

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao

A conversa multi-modal multi-partes (MMC) é um tópico de pesquisa menos estudado, porém importante, devido ao fato de se adequar bem a cenários do mundo real e, portanto, potencialmente ter aplicações mais amplamente utilizadas. Comparado às conversas multi-modais tradicionais, a MMC requer habilidades de compreensão centradas nos personagens mais fortes, uma vez que há muitos interlocutores aparecendo tanto no contexto visual quanto textual. Para facilitar o estudo desse problema, apresentamos neste artigo o Friends-MMC, um conjunto de dados MMC que contém 24.000+ enunciados únicos pareados com contexto de vídeo. Para explorar a compreensão centrada nos personagens do diálogo, também anotamos o falante de cada enunciado, os nomes e as bounding boxes dos rostos que aparecem no vídeo. Com base neste conjunto de dados Friends-MMC, estudamos ainda duas tarefas fundamentais de MMC: identificação do falante na conversa e previsão de resposta na conversa, ambas com natureza multi-partes com o vídeo ou imagem como contexto visual. Para a identificação do falante na conversa, demonstramos as ineficiências dos métodos existentes, como modelos pré-treinados, e propomos um método básico, porém eficaz, que utiliza um otimizador para aproveitar o contexto de duas modalidades e obter melhor desempenho. Para a previsão de resposta na conversa, ajustamos modelos de diálogo generativos no Friend-MMC e analisamos os benefícios da informação do falante. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/yellow-binary-tree/Friends-MMC e, portanto, solicitamos mais atenção para a modelagem da informação do falante ao compreender conversas.

OpenRFT: Adaptação do Modelo de Fundação de Raciocínio para Tarefas Específicas de Domínio com Ajuste Fino por Reforço
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

Dec 22

ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang

A recente introdução do Refinamento por Reforço (RFT) pela OpenAI destaca o potencial do modelo de fundamentação de raciocínio e oferece um novo paradigma para o refinamento além da simples imitação de padrões. Este relatório técnico apresenta o OpenRFT, nossa tentativa de refinar modelos de raciocínio generalistas para tarefas específicas de domínio sob as mesmas configurações do RFT. O OpenRFT aborda dois desafios-chave de falta de dados de etapas de raciocínio e a quantidade limitada de amostras de treinamento, aproveitando as amostras específicas do domínio de três maneiras: aumento de perguntas, síntese de dados de processo de raciocínio e ICL de poucas amostras. A avaliação é realizada no SciKnowEval, onde o OpenRFT alcança ganhos de desempenho notáveis com apenas 100 amostras específicas de domínio para cada tarefa. Mais resultados experimentais serão atualizados continuamente em versões posteriores. Os códigos-fonte, conjuntos de dados e modelos estão disponíveis em: https://github.com/ADaM-BJTU/OpenRFT

NILE: Alinhamento de Consistência Interna em Modelos de Linguagem Grandes
NILE: Internal Consistency Alignment in Large Language Models

Dec 21

ByMinda Hu, Qiyuan Zhang, Yufei Wang, Bowei He, Hongru Wang, Jingyan Zhou, Liangyou Li, Yasheng Wang, Chen Ma, Irwin King

Como um passo crucial para melhorar o alinhamento dos LLMs com as intenções humanas, o Ajuste Fino de Instruções (AFI) tem uma alta demanda por qualidade de conjunto de dados. No entanto, os conjuntos de dados de AFI existentes frequentemente contêm conhecimento que é inconsistente com o conhecimento interno dos LLMs aprendido da fase de pré-treinamento, o que pode afetar significativamente a eficácia do AFI. Para lidar com esse problema, introduzimos o framework NILE (alinhamento de consistência interna), com o objetivo de otimizar conjuntos de dados de AFI para desbloquear ainda mais a capacidade dos LLMs. O NILE opera ao elicitar o conhecimento interno do LLM pré-treinado alvo correspondente aos dados de instrução. O conhecimento interno é utilizado para revisar a resposta nos conjuntos de dados de AFI. Além disso, propomos um novo método de Filtragem de Consistência Interna (FCI) para filtrar amostras de treinamento, garantindo sua alta consistência com o conhecimento interno do LLM. Nossos experimentos demonstram que os conjuntos de dados de AFI alinhados pelo NILE impulsionam significativamente o desempenho dos LLMs em diversos conjuntos de dados de avaliação de habilidades dos LLMs, alcançando até 66,6% de ganho no Arena-Hard e 68,5% no Alpaca-Eval V2. Análises adicionais confirmam que cada componente do framework NILE contribui para essas melhorias substanciais de desempenho, e fornecem evidências convincentes de que a consistência do conjunto de dados com o conhecimento interno pré-treinado é fundamental para maximizar o potencial dos LLMs.

Cartão do Sistema OpenAI o1
OpenAI o1 System Card

Dec 21