Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes modelos de raciocínio (LRMs, do inglês Large Reasoning Models) como o OpenAI-o1 e o DeepSeek-R1 demonstraram capacidades notáveis em tarefas complexas de raciocínio por meio da utilização de longas cadeias de pensamento (CoT, do inglês Chain-of-Thought). No entanto, esses modelos frequentemente sofrem com alucinações e ineficiências devido à sua dependência exclusiva de processos internos de raciocínio. Neste artigo, apresentamos o START (Self-Taught Reasoner with Tools), um novo modelo de linguagem de raciocínio de longa CoT integrado a ferramentas, que aprimora significativamente as capacidades de raciocínio ao aproveitar ferramentas externas. Por meio da execução de código, o START é capaz de realizar cálculos complexos, auto-verificação, exploração de métodos diversos e auto-depuração, abordando assim as limitações dos LRMs. A inovação central do START reside em sua estrutura de autoaprendizagem, que compreende duas técnicas principais: 1) Hint-infer: Demonstramos que a inserção de dicas artificialmente projetadas (por exemplo, "Espere, talvez usar Python aqui seja uma boa ideia.") durante o processo de inferência de um LRM estimula efetivamente sua capacidade de utilizar ferramentas externas sem a necessidade de dados de demonstração. O Hint-infer também pode servir como um método simples e eficaz de escalonamento sequencial em tempo de teste; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): O Hint-RFT combina o Hint-infer e o RFT ao pontuar, filtrar e modificar as trajetórias de raciocínio com invocação de ferramentas geradas por um LRM via Hint-infer, seguido pelo ajuste fino do LRM. Por meio dessa estrutura, ajustamos o modelo QwQ-32B para alcançar o START. Em questões de ciência de nível de doutorado (GPQA), benchmarks de matemática de nível de competição (AMC23, AIME24, AIME25) e o benchmark de código de nível de competição (LiveCodeBench), o START alcança taxas de precisão de 63,6%, 95,0%, 66,7%, 47,1% e 47,3%, respectivamente. Ele supera significativamente o QwQ-32B base e alcança desempenho comparável ao modelo de peso aberto de última geração R1-Distill-Qwen-32B e ao modelo proprietário o1-Preview.
Os avanços recentes em modelos de linguagem multimodal baseados em vídeo (Video-LLMs) melhoraram significativamente a compreensão de vídeos ao processá-los como sequências de quadros de imagem. No entanto, muitos métodos existentes tratam os quadros de forma independente no backbone de visão, carecendo de modelagem temporal explícita, o que limita sua capacidade de capturar padrões dinâmicos e lidar eficientemente com vídeos longos. Para abordar essas limitações, introduzimos o STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), uma nova arquitetura que incorpora um codificador temporal dedicado entre o codificador de imagem e o LLM. Nosso codificador temporal aproveita o Modelo de Espaço de Estados Mamba para integrar informações temporais aos tokens de imagem, gerando representações enriquecidas que preservam a dinâmica interquadros em toda a sequência de vídeo. Essa codificação enriquecida não apenas aprimora as capacidades de raciocínio em vídeo, mas também permite estratégias eficazes de redução de tokens, incluindo amostragem em tempo de teste e pooling temporal e espacial baseado em treinamento, reduzindo substancialmente as demandas computacionais no LLM sem sacrificar informações temporais essenciais. Ao integrar essas técnicas, nossa abordagem reduz simultaneamente a latência de treinamento e inferência enquanto melhora o desempenho, permitindo uma compreensão de vídeo eficiente e robusta em contextos temporais estendidos. Avaliações extensivas mostram que o STORM alcança resultados de ponta em vários benchmarks de compreensão de vídeos longos (melhoria de mais de 5% no MLVU e LongVideoBench) enquanto reduz os custos computacionais em até 8 vezes e a latência de decodificação em 2,4-2,9 vezes para um número fixo de quadros de entrada. A página do projeto está disponível em https://research.nvidia.com/labs/lpr/storm.
Os avanços recentes em sistemas de diálogo de fala para fala utilizam LLMs para interações multimodais, mas ainda enfrentam limitações devido à necessidade de ajuste fino, alto custo computacional e desalinhamento entre texto e fala. Os LLMs habilitados para fala existentes frequentemente degradam a qualidade da conversa ao modificar o LLM, comprometendo assim suas capacidades linguísticas. Em contraste, propomos o LLMVoX, um sistema leve de TTS (síntese de fala) autoregressivo e em streaming, com 30 milhões de parâmetros e independente de LLM, que gera fala de alta qualidade com baixa latência, preservando totalmente as capacidades do LLM base. Nossa abordagem alcança uma Taxa de Erro de Palavra significativamente menor em comparação com LLMs habilitados para fala, operando com latência comparável e pontuação UTMOS semelhante. Ao desacoplar a síntese de fala do processamento do LLM por meio de um sistema de streaming de tokens com múltiplas filas, o LLMVoX suporta diálogos contínuos e de comprimento infinito. Seu design plug-and-play também facilita a extensão para várias tarefas com diferentes backbones. Além disso, o LLMVoX generaliza para novos idiomas com apenas adaptação do conjunto de dados, atingindo uma baixa Taxa de Erro de Caracteres em uma tarefa de fala em árabe. Adicionalmente, integramos o LLMVoX com um Modelo de Linguagem Visual para criar um modelo omni com capacidades de fala, texto e visão, sem a necessidade de treinamento multimodal adicional. Nossa base de código e página do projeto estão disponíveis em https://mbzuai-oryx.github.io/LLMVoX.
Apresentamos o EgoLife, um projeto para desenvolver um assistente pessoal egocêntrico que acompanha e aprimora a eficiência pessoal por meio de óculos vestíveis alimentados por IA. Para estabelecer as bases desse assistente, realizamos um estudo abrangente de coleta de dados, no qual seis participantes viveram juntos por uma semana, registrando continuamente suas atividades diárias — incluindo discussões, compras, culinária, socialização e entretenimento — usando óculos de IA para captura multimodal de vídeo egocêntrico, juntamente com referências de vídeo sincronizadas em terceira pessoa. Esse esforço resultou no EgoLife Dataset, um conjunto de dados abrangente de 300 horas de vida diária egocêntrica, interpessoal, multiview e multimodal, com anotações intensivas. Aproveitando esse conjunto de dados, introduzimos o EgoLifeQA, uma suíte de tarefas de resposta a perguntas de longo contexto e orientadas para a vida, projetada para fornecer assistência significativa no dia a dia, abordando questões práticas, como relembrar eventos relevantes do passado, monitorar hábitos de saúde e oferecer recomendações personalizadas. Para enfrentar os principais desafios técnicos de (1) desenvolver modelos visuais-auditivos robustos para dados egocêntricos, (2) permitir o reconhecimento de identidade e (3) facilitar a resposta a perguntas de longo contexto sobre informações temporais extensas, introduzimos o EgoButler, um sistema integrado composto por EgoGPT e EgoRAG. O EgoGPT é um modelo omni-modal treinado em conjuntos de dados egocêntricos, alcançando desempenho de ponta na compreensão de vídeo egocêntrico. O EgoRAG é um componente baseado em recuperação que suporta a resposta a perguntas de contexto ultra longo. Nossos estudos experimentais verificam seus mecanismos de funcionamento e revelam fatores críticos e gargalos, orientando melhorias futuras. Ao disponibilizar nossos conjuntos de dados, modelos e benchmarks, visamos estimular pesquisas adicionais em assistentes de IA egocêntricos.
À medida que os modelos de linguagem de grande escala (LLMs) se tornam cada vez mais responsáveis pelo conteúdo online, surgem preocupações sobre o impacto de processar repetidamente suas próprias saídas. Inspirado pelo efeito do "telefone sem fio" na comunicação humana em cadeia, este estudo investiga se os LLMs distorcem informações de maneira semelhante por meio de geração iterativa. Por meio de experimentos baseados em tradução, descobrimos que a distorção se acumula ao longo do tempo, influenciada pela escolha do idioma e pela complexidade da cadeia. Embora a degradação seja inevitável, ela pode ser mitigada por meio de técnicas estratégicas de "prompting". Esses achados contribuem para as discussões sobre os efeitos de longo prazo da propagação de informações mediada por IA, levantando questões importantes sobre a confiabilidade do conteúdo gerado por LLMs em fluxos de trabalho iterativos.
A avaliação eficaz das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) é suscetível a superestimação devido à exposição de dados em benchmarks de avaliação. Introduzimos um framework para a produção de problemas de raciocínio linguístico que reduz o efeito da memorização nas estimativas de desempenho dos modelos e aplicamos esse framework para desenvolver o LINGOLY-TOO, um benchmark desafiador para avaliação de raciocínio linguístico. Ao desenvolver templates ortográficos, obscurecemos dinamicamente os sistemas de escrita de idiomas reais para gerar diversas variações de questões. Essas variações preservam os passos de raciocínio necessários para cada solução, enquanto reduzem a probabilidade de instâncias específicas de problemas aparecerem nos dados de treinamento dos modelos. Nossos experimentos demonstram que modelos de ponta, incluindo o OpenAI o1-preview e o DeepSeem R1, têm dificuldades com raciocínio avançado. Nossa análise também mostra que os LLMs exibem variação perceptível na precisão entre permutações do mesmo problema e, em média, têm melhor desempenho em questões que aparecem em sua ortografia original. Nossas descobertas destacam a natureza opaca da geração de respostas em LLMs e fornecem evidências de que a exposição prévia a dados contribui para a superestimação das capacidades de raciocínio dos modelos de ponta.
Compreender e raciocinar sobre sons não verbais e música é crucial tanto para humanos quanto para agentes de IA interagirem efetivamente com seus ambientes. Neste artigo, apresentamos o Audio Flamingo 2 (AF2), um Modelo de Áudio-Linguagem (ALM) com capacidades avançadas de compreensão e raciocínio de áudio. O AF2 utiliza (i) um modelo CLAP personalizado, (ii) dados sintéticos de Perguntas e Respostas de Áudio para raciocínio detalhado de áudio, e (iii) uma estratégia de aprendizado curricular em múltiplas etapas. O AF2 alcança desempenho de ponta com apenas um modelo de linguagem pequeno de 3B parâmetros, superando modelos grandes de código aberto e proprietários em mais de 20 benchmarks. Em seguida, pela primeira vez, estendemos a compreensão de áudio para segmentos longos de áudio (30 segundos a 5 minutos) e propomos o LongAudio, um grande e novo conjunto de dados para treinar ALMs em tarefas de legendagem e perguntas e respostas de áudio longo. O ajuste fino do AF2 no LongAudio resulta em um desempenho excepcional no nosso LongAudioBench, um benchmark anotado por especialistas para avaliar as capacidades de compreensão de áudio longo em ALMs. Realizamos extensos estudos de ablação para confirmar a eficácia da nossa abordagem. Site do Projeto: https://research.nvidia.com/labs/adlr/AF2/.
Estabelecemos rigorosamente uma lei de escala de informação mútua bipartida em linguagem natural que governa dependências de longo alcance. Essa lei de escala, que demonstramos ser distinta e escalar independentemente da informação mútua convencional de dois pontos, é a chave para compreender a modelagem de linguagem de contexto longo. Utilizando essa lei de escala, formulamos a condição de Modelagem de Linguagem de Contexto Longo (L^2M), que relaciona a capacidade de um modelo para efetivamente modelar comprimentos de contexto longo ao dimensionamento do tamanho do seu estado latente para armazenar informações passadas. Nossos resultados são validados por meio de experimentos em modelos transformadores e modelos de espaço de estados. Este trabalho estabelece uma base teórica que orienta o desenvolvimento de modelos de linguagem de grande escala para comprimentos de contexto mais longos.
Apresentamos o IFIR, o primeiro benchmark abrangente projetado para avaliar a recuperação de informações baseada em instruções (IR) em domínios especializados. O IFIR inclui 2.426 exemplos de alta qualidade e abrange oito subconjuntos em quatro domínios específicos: finanças, direito, saúde e literatura científica. Cada subconjunto aborda uma ou mais tarefas de recuperação específicas do domínio, replicando cenários do mundo real onde instruções personalizadas são essenciais. O IFIR permite uma análise detalhada das capacidades de recuperação baseada em instruções ao incorporar instruções em diferentes níveis de complexidade. Também propomos um novo método de avaliação baseado em LLM para fornecer uma avaliação mais precisa e confiável do desempenho dos modelos em seguir instruções. Por meio de experimentos extensos em 15 modelos de recuperação de ponta, incluindo aqueles baseados em LLMs, nossos resultados revelam que os modelos atuais enfrentam desafios significativos para seguir efetivamente instruções complexas e específicas do domínio. Além disso, fornecemos análises aprofundadas para destacar essas limitações, oferecendo insights valiosos para orientar avanços futuros no desenvolvimento de recuperadores.
Os Transformers tornaram-se a arquitetura de facto para uma ampla gama de tarefas de aprendizado de máquina, particularmente em modelos de linguagem de grande escala (LLMs). Apesar de seu desempenho notável, desafios persistem no treinamento de redes transformer profundas, especialmente no que diz respeito à localização da normalização de camadas. Embora estruturas Pre-Norm facilitem o treinamento devido ao seu caminho de identidade mais proeminente, elas frequentemente resultam em desempenho subótimo em comparação com o Post-Norm. Neste artigo, propomos o HybridNorm, uma estratégia de normalização híbrida simples, porém eficaz, que integra as vantagens das abordagens Pre-Norm e Post-Norm. Especificamente, o HybridNorm emprega normalização QKV no mecanismo de atenção e Post-Norm na rede feed-forward (FFN) de cada bloco transformer. Esse design não apenas estabiliza o treinamento, mas também melhora o desempenho, especialmente no contexto de LLMs. Experimentos abrangentes em arquiteturas densas e esparsas mostram que o HybridNorm supera consistentemente as abordagens Pre-Norm e Post-Norm, alcançando resultados de ponta em vários benchmarks. Esses achados destacam o potencial do HybridNorm como uma técnica mais estável e eficaz para melhorar o treinamento e o desempenho de modelos transformer profundos. %O código será disponibilizado publicamente. O código está disponível em https://github.com/BryceZhuo/HybridNorm.
Apresentamos o FuseChat-3.0, um conjunto de modelos de linguagem de grande escala (LLMs) desenvolvido ao integrar os pontos fortes de LLMs heterogêneos de origem em LLMs de destino mais compactos. Nossos modelos de origem incluem o poderoso Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct e Llama-3.1-70B-Instruct. Para os modelos de destino, focamos em três variantes menores amplamente utilizadas — Llama-3.1-8B-Instruct, Gemma-2-9B-it e Qwen-2.5-7B-Instruct — juntamente com duas opções ultracompactas, Llama-3.2-3B-Instruct e Llama-3.2-1B-Instruct. Para aproveitar as diversas capacidades desses modelos de origem, desenvolvemos um protocolo especializado de construção de dados adaptado a várias tarefas e domínios. O pipeline de treinamento do FuseChat-3.0 consiste em duas etapas principais: (1) ajuste fino supervisionado (SFT) para alinhar as distribuições dos modelos de destino e origem, e (2) Otimização de Preferência Direta (DPO) para aplicar preferências de múltiplos LLMs de origem no ajuste fino do modelo de destino. Os modelos resultantes do FuseChat-3.0 exibem ganhos significativos de desempenho em tarefas como seguimento de instruções, conhecimento geral, matemática e codificação. Como ilustrado na Figura 1, ao usar o Llama-3.1-8B-Instruct como modelo de destino, nossa abordagem de fusão alcança uma melhoria média de 6,8 pontos em 14 benchmarks. Além disso, demonstra ganhos notáveis de 37,1 pontos e 30,1 pontos nos benchmarks de seguimento de instruções AlpacaEval-2 e Arena-Hard, respectivamente. Nosso código, modelos e conjuntos de dados estão disponíveis em https://github.com/SLIT-AI/FuseChat-3.0.
Apresentamos o Pok\'eChamp, um agente minimax impulsionado por Modelos de Linguagem de Grande Escala (LLMs) para batalhas de Pok\'emon. Construído sobre uma estrutura geral para jogos competitivos de dois jogadores, o Pok\'eChamp aproveita as capacidades generalistas dos LLMs para aprimorar a busca em árvore minimax. Especificamente, os LLMs substituem três módulos principais: (1) amostragem de ações do jogador, (2) modelagem do oponente e (3) estimativa da função de valor, permitindo que o agente utilize efetivamente o histórico de jogos e o conhecimento humano para reduzir o espaço de busca e lidar com a observabilidade parcial. Notavelmente, nossa estrutura não requer treinamento adicional de LLMs. Avaliamos o Pok\'eChamp no popular formato Gen 9 OU. Quando impulsionado pelo GPT-4o, ele alcança uma taxa de vitória de 76% contra o melhor bot baseado em LLM existente e 84% contra o bot baseado em regras mais forte, demonstrando seu desempenho superior. Mesmo com um modelo Llama 3.1 de 8 bilhões de parâmetros de código aberto, o Pok\'eChamp consistentemente supera o melhor bot baseado em LLM anterior, o Pok\'ellmon impulsionado pelo GPT-4o, com uma taxa de vitória de 64%. O Pok\'eChamp atinge um Elo projetado de 1300-1500 na escada online do Pok\'emon Showdown, colocando-o entre os 30%-10% melhores jogadores humanos. Além disso, este trabalho compila o maior conjunto de dados de batalhas de Pok\'emon de jogadores reais, com mais de 3 milhões de jogos, incluindo mais de 500 mil partidas de alto Elo. Com base nesse conjunto de dados, estabelecemos uma série de benchmarks e quebra-cabeças de batalha para avaliar habilidades específicas de combate. Também fornecemos atualizações importantes para o motor de jogo local. Esperamos que este trabalho promova mais pesquisas que utilizem batalhas de Pok\'emon como benchmark para integrar tecnologias de LLM com algoritmos de teoria dos jogos que abordam problemas multiagentes gerais. Vídeos, código e conjunto de dados disponíveis em https://sites.google.com/view/pokechamp-llm.
Alucinações em LLMs representam uma preocupação significativa para sua implantação segura em aplicações do mundo real. Abordagens recentes têm aproveitado o espaço latente de LLMs para a detecção de alucinações, mas seus embeddings, otimizados para coerência linguística em vez de precisão factual, frequentemente falham em separar claramente conteúdo verdadeiro e alucinado. Para isso, propomos o Vetor Separador de Veracidade (TSV), um vetor de direcionamento leve e flexível que remodela o espaço de representação do LLM durante a inferência para melhorar a separação entre saídas verdadeiras e alucinadas, sem alterar os parâmetros do modelo. Nosso framework de dois estágios primeiro treina o TSV em um pequeno conjunto de exemplares rotulados para formar clusters compactos e bem separados. Em seguida, ele amplia o conjunto de exemplares com gerações não rotuladas do LLM, empregando um algoritmo baseado em transporte ótimo para pseudo-rotulação combinado com um processo de filtragem baseado em confiança. Experimentos extensivos demonstram que o TSV alcança desempenho de ponta com dados rotulados mínimos, exibindo forte generalização entre conjuntos de dados e fornecendo uma solução prática para aplicações de LLM no mundo real.
Os avanços recentes na geração de texto para vídeo (T2V) têm sido impulsionados por dois paradigmas concorrentes: modelos de linguagem autoregressivos e modelos de difusão. No entanto, cada paradigma possui limitações intrínsecas: os modelos de linguagem enfrentam dificuldades com a qualidade visual e o acúmulo de erros, enquanto os modelos de difusão carecem de compreensão semântica e modelagem causal. Neste trabalho, propomos o LanDiff, um framework híbrido que sinergiza os pontos fortes de ambos os paradigmas por meio de uma geração de granularidade grossa para fina. Nossa arquitetura introduz três inovações principais: (1) um tokenizador semântico que comprime características visuais 3D em representações discretas 1D compactas por meio de compressão semântica eficiente, alcançando uma taxa de compressão de 14.000 vezes; (2) um modelo de linguagem que gera tokens semânticos com relações semânticas de alto nível; (3) um modelo de difusão em fluxo que refina a semântica grossa em vídeos de alta fidelidade. Experimentos mostram que o LanDiff, um modelo de 5B, alcança uma pontuação de 85,43 no benchmark VBench T2V, superando os modelos de código aberto state-of-the-art, como Hunyuan Video (13B), e outros modelos comerciais, como Sora, Keling e Hailuo. Além disso, nosso modelo também alcança desempenho state-of-the-art na geração de vídeos longos, superando outros modelos de código aberto nesse campo. Nossa demonstração pode ser visualizada em https://landiff.github.io/.
O Mixture-of-Experts (MoE) melhora o desempenho do modelo enquanto mantém a eficiência computacional, tornando-o bem adequado para aplicações em grande escala. No entanto, no paradigma MoE existente, cada especialista funciona de forma individual, carecendo de interações de alta qualidade entre os especialistas. Além disso, eles não foram efetivamente estendidos para blocos de atenção, o que limita melhorias adicionais de eficiência. Para resolver esses problemas, propomos o Union-of-Experts (UoE), que decompõe o transformer em um grupo equivalente de especialistas e, em seguida, implementa o roteamento dinâmico nos dados de entrada e nos especialistas. Nossa abordagem avança o design do MoE com três inovações principais: (1) Realizamos a decomposição equivalente de especialistas tanto em blocos MLP quanto em blocos de atenção com base na partição de matrizes no paralelismo tensorial. (2) Desenvolvemos dois paradigmas de roteamento: seleção de dados por patch e seleção de especialistas, para aplicar o roteamento em diferentes níveis. (3) Projetamos a arquitetura do modelo UoE, incluindo a Selective Multi-Head Attention (SMHA) e o Union-of-MLP-Experts (UoME). (4) Desenvolvemos a implementação paralela das operações de roteamento e computação do UoE e otimizamos a eficiência com base na análise de processamento de hardware. Os experimentos demonstram que o modelo empregado com UoE supera a Full Attention, os MoEs state-of-the-art e os transformers eficientes em várias tarefas nos domínios de imagem e linguagem natural. Os códigos-fonte estão disponíveis em https://github.com/YujiaoYang-work/UoE.
Servir grandes modelos de linguagem (LLMs) é custoso. No entanto, a quantização pós-treinamento dos pesos pode resolver esse problema, tanto comprimindo seus tamanhos para memória limitada quanto economizando largura de banda para aceleração. Como nem todas as dimensões dos pesos são igualmente importantes, esses métodos geralmente dependem de uma métrica de sensibilidade, que indica a influência elemento a elemento dos pesos na função de perda e é usada para pré-processar os pesos originais para uma melhor quantização. Neste trabalho, realizamos um estudo empírico sobre a precisão da métrica de sensibilidade e descobrimos que as métricas existentes baseadas em gradiente e Hessiana são muito imprecisas: elas subestimam o impacto da quantização na função de perda em ordens de magnitude, principalmente devido ao pequeno raio de convergência da aproximação local de segunda ordem, ou seja, os termos de gradiente e Hessiana na fórmula de Taylor. Para resolver esse problema, propomos o Post-quantization Integral (PQI), uma métrica precisa para estimar a sensibilidade posterior de maneira refinada. Para aproveitar essa métrica precisa, propomos ainda o ReQuant, uma estrutura simples, mas poderosa, que consiste principalmente em dois componentes Dense-and-Sparse detach: seleção de outliers auto-adaptativa e detach passo a passo de pesos significativos. Os resultados mostram que o ReQuant impulsiona os métodos de quantização pós-treinamento de última geração, com uma melhoria acentuada de 2,66 no ganho de perplexidade no Llama 3.2 1B com QTIP.
O dimensionamento no tempo de inferência tem sido crucial para o sucesso de modelos recentes, como o OpenAI o1 e o DeepSeek R1. No entanto, muitas técnicas usadas para treinar modelos para dimensionamento no tempo de inferência exigem que as tarefas tenham respostas que possam ser verificadas, limitando sua aplicação a domínios como matemática, programação e raciocínio lógico. Inspiramo-nos na forma como os humanos fazem primeiras tentativas, solicitam feedback detalhado de outros e fazem melhorias com base nesse feedback em uma ampla gama de atividades de natureza aberta. Para isso, coletamos dados e treinamos modelos dedicados de Feedback e Edição que são capazes de realizar dimensionamento no tempo de inferência para tarefas de domínio geral e de natureza aberta. Em nossa configuração, um modelo gera uma resposta inicial, que recebe feedback de um segundo modelo, que é então usado por um terceiro modelo para editar a resposta. Mostramos que o desempenho no Arena Hard, um benchmark fortemente preditivo do Elo do Chatbot Arena, pode ser impulsionado ao escalar o número de rascunhos de respostas iniciais, feedback eficaz e respostas editadas. Quando dimensionado de forma ideal, nossa configuração baseada em modelos de 70B da família Llama 3 pode atingir desempenho de estado da arte no Arena Hard com 92,7 em 5 de março de 2025, superando o OpenAI o1-preview-2024-09-12 com 90,4 e o DeepSeek R1 com 92,3.
Modelos de linguagem de grande escala (LLMs, na sigla em inglês) alcançaram sucesso notável em tradução automática, demonstrando desempenho impressionante em diversos idiomas. No entanto, o "translationese", caracterizado por traduções excessivamente literais e não naturais, continua sendo um desafio persistente em sistemas de tradução baseados em LLMs. Apesar de seu pré-treinamento em vastos corpora de enunciados naturais, os LLMs exibem erros de translationese e geram traduções inesperadamente não naturais, decorrentes de vieses introduzidos durante o ajuste fino supervisionado (SFT, na sigla em inglês). Neste trabalho, avaliamos sistematicamente a prevalência do translationese em traduções geradas por LLMs e investigamos suas raízes durante o treinamento supervisionado. Introduzimos métodos para mitigar esses vieses, incluindo o aprimoramento de referências de ouro e a filtragem de instâncias de treinamento não naturais. Avaliações empíricas demonstram que essas abordagens reduzem significativamente o translationese enquanto melhoram a naturalidade da tradução, validadas por avaliações humanas e métricas automáticas. Nossas descobertas destacam a necessidade de ajustes conscientes do treinamento para otimizar as saídas de tradução dos LLMs, abrindo caminho para traduções mais fluentes e consistentes com o idioma de destino. Disponibilizamos os dados e o código em https://github.com/yafuly/LLM_Translationese.
Resolver problemas inversos bayesianos de forma eficiente continua sendo um desafio significativo devido à complexidade das distribuições posteriores e ao custo computacional dos métodos tradicionais de amostragem. Dada uma série de observações e o modelo direto, nosso objetivo é recuperar a distribuição dos parâmetros, condicionada aos dados experimentais observados. Demonstramos que, ao combinar o Conditional Flow Matching (CFM) com uma arquitetura baseada em transformers, podemos amostrar eficientemente desse tipo de distribuição, condicionada a um número variável de observações.
Embora a transferência crosslingual seja crucial para as capacidades multilíngues dos modelos de linguagem contemporâneos, como ela ocorre ainda não é bem compreendido. Neste artigo, investigamos o que acontece com um modelo de linguagem monolíngue quando ele começa a ser treinado em um segundo idioma. Especificamente, treinamos pequenos modelos bilíngues para os quais controlamos a quantidade de dados para cada idioma e a ordem de exposição aos idiomas. Para encontrar evidências de representações multilíngues compartilhadas, recorremos ao priming estrutural, um método usado para estudar representações gramaticais em humanos. Primeiro, replicamos resultados anteriores de priming estrutural crosslingual e descobrimos que, após controlar a quantidade de dados de treinamento e a exposição aos idiomas, há efeitos assimétricos entre pares de idiomas e direções. Argumentamos que essa assimetria pode moldar hipóteses sobre os efeitos de priming estrutural em humanos. Também descobrimos que os efeitos de priming estrutural são menos robustos para pares de idiomas menos semelhantes, destacando possíveis limitações da aprendizagem por transferência crosslingual e das representações compartilhadas para idiomas tipologicamente diversos.
Projetos de software prosperam com o envolvimento e as contribuições de indivíduos de diferentes origens. No entanto, linguagem tóxica e interações negativas podem dificultar a participação e a retenção de colaboradores, além de afastar novos participantes. Estratégias proativas de moderação visam prevenir a toxicidade ao abordar conversas que se desviaram de seu propósito original. Este estudo tem como objetivo compreender e prever o desvio conversacional que leva à toxicidade no GitHub. Para facilitar essa pesquisa, compilamos um novo conjunto de dados contendo 202 conversas tóxicas do GitHub com pontos de desvio anotados, juntamente com 696 conversas não tóxicas como linha de base. Com base nesse conjunto de dados, identificamos características únicas de conversas tóxicas e pontos de desvio, incluindo marcadores linguísticos como pronomes de segunda pessoa, termos de negação e tons de Frustração Amarga e Impaciência, além de padrões na dinâmica conversacional entre colaboradores do projeto e participantes externos. Aproveitando essas observações empíricas, propomos uma abordagem de moderação proativa para detectar e abordar automaticamente conversas potencialmente prejudiciais antes que escalem. Utilizando LLMs modernos, desenvolvemos uma técnica de resumo de trajetória conversacional que captura a evolução das discussões e identifica sinais precoces de desvio. Nossos experimentos demonstram que prompts de LLMs ajustados para fornecer resumos de conversas do GitHub alcançam um F1-Score de 69% na previsão de desvio conversacional, superando significativamente um conjunto de abordagens de linha de base.