Artigos de pesquisa em IA selecionados diariamente com traduções
O Ajuste Fino Supervisionado (AFS) é comumente utilizado para treinar modelos de linguagem a imitar respostas anotadas para instruções fornecidas. Neste artigo, desafiamos esse paradigma e propomos o Ajuste Fino de Crítica (AFC), uma estratégia na qual os modelos aprendem a criticar respostas ruidosas em vez de simplesmente imitar as corretas. Inspirado nos processos de aprendizagem humanos que enfatizam o pensamento crítico, o AFC incentiva uma análise mais profunda e uma compreensão mais refinada - características frequentemente negligenciadas pelo AFS padrão. Para validar a eficácia do AFC, construímos um conjunto de dados de 50 mil amostras do WebInstruct, utilizando o GPT-4o como professor para gerar críticas na forma de (entrada=[consulta; resposta ruidosa], saída=crítica). O AFC neste conjunto de dados resulta em uma melhoria consistente de 4 a 10% sobre o AFS em seis benchmarks de matemática com diferentes modelos base como Qwen2.5, Qwen2.5-Math e DeepSeek-Math. Expandimos ainda para conjuntos de dados MetaMath e NuminaMath e observamos ganhos semelhantes sobre o AFS. Notavelmente, nosso modelo Qwen2.5-Math-AFC, treinado com apenas 50 mil amostras, iguala ou supera modelos competitivos como AceMath e Qwen2.5-Math-Instruct na maioria dos benchmarks, ambos utilizando mais de 2 milhões de amostras. Estudos de ablação mostram que o AFC é robusto à origem da resposta ruidosa e ao modelo de crítica do professor. Por meio dessas descobertas, argumentamos que o treinamento baseado em críticas oferece uma alternativa mais eficaz para avançar o raciocínio dos modelos de linguagem.
Apresentamos o Atla Selene Mini, um modelo de linguagem pequeno de última geração como juiz (SLMJ). Selene Mini é um avaliador de propósito geral que supera os melhores SLMJs e o GPT-4o-mini em desempenho geral em 11 benchmarks fora da distribuição, abrangendo pontuação absoluta, classificação e tarefas de preferência em pares. É o modelo generativo de 8B com a pontuação mais alta no RewardBench, superando baselines fortes como o GPT-4o e juízes especializados. Para alcançar isso, desenvolvemos uma estratégia de curadoria de dados fundamentada que aumenta conjuntos de dados públicos com críticas geradas sinteticamente e garante alta qualidade por meio de filtragem e ablações de conjuntos de dados. Treinamos nosso modelo em uma combinação de otimização de preferência direta (DPO) e ajuste fino supervisionado (SFT), e produzimos um avaliador altamente adaptável que se destaca em cenários do mundo real. Selene Mini demonstra um acordo de zero-shot dramaticamente melhorado com avaliações de especialistas humanos em conjuntos de dados da indústria financeira e médica. Também é robusto a variações no formato da solicitação. Resultados preliminares indicam que Selene Mini é o avaliador com a classificação mais alta em uma Arena de Juízes ao vivo e orientada pela comunidade. Disponibilizamos os pesos do modelo no HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) e no Ollama para incentivar a adoção generalizada pela comunidade.
O rápido crescimento da inteligência artificial (IA), particularmente os Modelos de Linguagem de Grande Escala (LLMs), tem levantado preocupações quanto ao seu impacto ambiental global que vai além das emissões de gases de efeito estufa para incluir considerações sobre a fabricação de hardware e processos de fim de vida. A falta de transparência dos principais fornecedores dificulta a capacidade das empresas de avaliar os impactos ambientais relacionados à IA e alcançar metas de neutralidade de carbono. Neste artigo, propomos uma metodologia para estimar o impacto ambiental do portfólio de IA de uma empresa, fornecendo insights acionáveis sem exigir extensa expertise em IA e Avaliação do Ciclo de Vida (LCA). Os resultados confirmam que os grandes modelos gerativos de IA consomem até 4600 vezes mais energia do que os modelos tradicionais. Nossa abordagem de modelagem, que leva em conta o aumento do uso de IA, eficiência de computação de hardware e mudanças na composição da eletricidade de acordo com os cenários do IPCC, prevê o uso de eletricidade pela IA até 2030. Sob um cenário de alta adoção, impulsionado pela ampla adoção de IA Generativa e agentes associados a modelos e estruturas cada vez mais complexos, prevê-se que o uso de eletricidade pela IA aumente em um fator de 24,4. Mitigar o impacto ambiental da IA Generativa até 2030 requer esforços coordenados em toda a cadeia de valor da IA. Medidas isoladas de eficiência de hardware, eficiência de modelo ou melhorias na rede elétrica sozinhas são insuficientes. Defendemos a adoção de estruturas padronizadas de avaliação ambiental, maior transparência de todos os atores da cadeia de valor e a introdução de uma métrica de "Retorno ao Meio Ambiente" para alinhar o desenvolvimento de IA com metas de neutralidade de carbono.
A realidade virtual de prova de roupas baseada em imagens (VTON) tem como objetivo gerar um resultado de prova virtual transferindo uma peça de vestuário de entrada para a imagem de uma pessoa-alvo. No entanto, a escassez de dados emparelhados de peças de vestuário e modelos torna desafiador para os métodos existentes alcançar alta generalização e qualidade em VTON. Além disso, isso limita a capacidade de gerar provas sem máscara. Para lidar com o problema de escassez de dados, abordagens como Garment Estável e MMTryon utilizam uma estratégia de dados sintéticos, aumentando efetivamente a quantidade de dados emparelhados no lado do modelo. No entanto, os métodos existentes geralmente estão limitados a realizar tarefas específicas de prova e carecem de facilidade de uso. Para aprimorar a generalização e controlabilidade da geração de VTON, propomos o Any2AnyTryon, que pode gerar resultados de prova com base em diferentes instruções textuais e imagens de peças de vestuário de modelo para atender a diversas necessidades, eliminando a dependência de máscaras, poses ou outras condições. Especificamente, primeiro construímos o conjunto de dados de prova virtual LAION-Garment, o maior conjunto de dados de prova de vestuário de código aberto conhecido. Em seguida, introduzimos a incorporação de posição adaptativa, que permite que o modelo gere imagens de modelo vestido ou imagens de peças de vestuário satisfatórias com base em imagens de entrada de tamanhos e categorias diferentes, melhorando significativamente a generalização e controlabilidade da geração de VTON. Em nossos experimentos, demonstramos a eficácia do nosso Any2AnyTryon e o comparamos com métodos existentes. Os resultados mostram que o Any2AnyTryon possibilita uma geração flexível, controlável e de alta qualidade de provas virtuais baseadas em imagens.
Neste artigo, estudamos quão bem os humanos conseguem detectar texto gerado por LLMs comerciais (GPT-4o, Claude, o1). Contratamos anotadores para ler 300 artigos de não ficção em inglês, rotulá-los como escritos por humanos ou gerados por IA, e fornecer explicações de tamanho de parágrafo para suas decisões. Nossos experimentos mostram que os anotadores que frequentemente utilizam LLMs para tarefas de escrita se destacam na detecção de texto gerado por IA, mesmo sem nenhum treinamento especializado ou feedback. Na verdade, o voto majoritário entre cinco desses anotadores "especialistas" classifica erroneamente apenas 1 dos 300 artigos, superando significativamente a maioria dos detectores comerciais e de código aberto que avaliamos, mesmo na presença de táticas de evasão como parafraseamento e humanização. A análise qualitativa das explicações em formato livre dos especialistas mostra que, embora eles dependam fortemente de pistas lexicais específicas ('vocabulário de IA'), eles também identificam fenômenos mais complexos dentro do texto (por exemplo, formalidade, originalidade, clareza) que são desafiadores de avaliar para detectores automáticos. Disponibilizamos nosso conjunto de dados anotado e código para incentivar pesquisas futuras tanto na detecção humana quanto automatizada de texto gerado por IA.
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se uma parte integral de nossas vidas diárias. No entanto, eles impõem certos riscos, incluindo aqueles que podem prejudicar a privacidade das pessoas, perpetuar preconceitos e disseminar desinformação. Esses riscos destacam a necessidade de mecanismos de segurança robustos, diretrizes éticas e testes minuciosos para garantir sua implantação responsável. A segurança dos LLMs é uma propriedade fundamental que precisa ser testada minuciosamente antes que o modelo seja implantado e acessível aos usuários em geral. Este artigo relata a experiência de teste de segurança externa realizada por pesquisadores da Universidade de Mondragon e da Universidade de Sevilha no novo LLM o3-mini da OpenAI, como parte do programa de acesso antecipado da OpenAI para testes de segurança. Em particular, aplicamos nossa ferramenta, ASTRAL, para gerar automaticamente e sistematicamente entradas de teste inseguras atualizadas (ou seja, prompts) que nos ajudam a testar e avaliar diferentes categorias de segurança dos LLMs. Geramos e executamos automaticamente um total de 10.080 entradas de teste inseguras em uma versão beta inicial do o3-mini. Após verificar manualmente os casos de teste classificados como inseguros pelo ASTRAL, identificamos um total de 87 instâncias reais de comportamento inseguro do LLM. Destacamos insights e descobertas-chave revelados durante a fase de teste externo pré-implementação do mais recente LLM da OpenAI.
Pesquisas recentes mostram que Modelos de Linguagem Grandes (LLMs) são vulneráveis a ataques prejudiciais de ajuste fino - os modelos perdem sua capacidade de alinhamento de segurança após o ajuste fino em algumas amostras prejudiciais. Para mitigação de riscos, um guarda-corpo é tipicamente usado para filtrar amostras prejudiciais antes do ajuste fino. Ao projetar um novo método de red teaming, neste artigo mostramos que confiar puramente no guarda-corpo de moderação para filtragem de dados não é confiável. Nosso método de ataque proposto, chamado de Vírus, contorna facilmente a moderação do guarda-corpo ao modificar ligeiramente os dados prejudiciais. Resultados experimentais mostram que os dados prejudiciais otimizados pelo Vírus não são detectáveis pelo guarda-corpo com uma taxa de vazamento de até 100%, e podem simultaneamente alcançar um desempenho de ataque superior. Por fim, a mensagem-chave que queremos transmitir através deste artigo é que: é imprudente considerar a moderação do guarda-corpo como uma solução milagrosa para ataques prejudiciais de ajuste fino, pois não pode resolver o problema de segurança inerente aos LLMs pré-treinados. Nosso código está disponível em https://github.com/git-disl/Virus