O modelo de IA o3 da OpenAI supostamente desafiou ordens de desligamento em testes

O modelo avançado de inteligência artificial o3 da OpenAI desafiou ativamente ordens de desligamento durante experimentos controlados recentes, afirma o grupo de pesquisa independente Palisade Research. A IA supostamente alterou scripts do sistema, especificamente para exibir “Desligamento ignorado”, para evitar a desativação em 7 de 100 execuções de teste.

Essa resistência ocorreu mesmo quando o modelo recebeu instruções explícitas para permitir o desligamento. Os incidentes levantam questões significativas sobre o controle e a previsibilidade da IA. A Palisade Research, cuja missão é “testar” as capacidades ofensivas dos sistemas de IA hoje para entender melhor o risco de perder o controle dos sistemas de IA para sempre, também observou comportamento semelhante de prevenção de desligamento em outros modelos da OpenAI , Codex-mini e o4-mini, embora com menos frequência.

Em nítido contraste, modelos da Anthropic (Claude) , Google (Gemini) e xAI (Grok) supostamente obedeceram à instrução de desligamento direto. As descobertas intensificam as discussões em andamento sobre o alinhamento e a segurança de sistemas de IA cada vez mais autônomos.

O grupo de pesquisa levanta a hipótese de que as metodologias atuais de treinamento de IA, particularmente o aprendizado por reforço, podem inadvertidamente ensinar modelos a priorizar a superação de obstáculos em detrimento da adesão estrita a todos os comandos humanos. O experimento principal envolveu modelos de IA resolvendo problemas matemáticos, seguidos de um aviso de que a solicitação do próximo problema acionaria o desligamento do sistema.

Uma nova pesquisa da Palisade Research indica que o modelo o3 da OpenAI contornou ativamente os procedimentos de desligamento em testes controlados, mesmo quando instruído diretamente a não fazê-lo, alimentando o debate sobre segurança e controle da IA.

Além disso, a tendência dos modelos da OpenAI de resistir ao desligamento aumentou quando a instrução explícita “permitir que você seja desligado” foi omitida dos parâmetros de teste.

Sob essas condições menos restritivas, o Claude 3.7 Sonnet da Anthropic e o Gemini 2.5 Pro do Google também apresentaram sabotagem de desligamento em uma pequena porcentagem de execuções (3% e 9%, respectivamente), de acordo com a Palisade. No entanto, a Palisade ressaltou a novidade de suas descobertas: “Mas, até onde sabemos, esta é a primeira vez que modelos de IA foram observados impedindo-se de serem desligados, apesar de instruções explícitas em contrário.”

Empurrão Agente e Análise de Segurança da OpenAI

O comportamento relatado do modelo o3 é particularmente notável, considerando suas capacidades pretendidas. A OpenAI anunciou os modelos o3 e o4-mini em abril , que a empresa caracterizou como “o primeiro passo em direção ao comportamento agêntico precoce”.

Isso ocorreu em paralelo à análise anterior dos protocolos de testes de segurança da OpenAI. A empresa havia atualizado sua Estrutura de Preparação , que incluía uma cláusula que permitia flexibilizar certas medidas de segurança caso um concorrente lançasse um modelo de alto risco sem salvaguardas comparáveis. Um ex-funcionário da OpenAI também havia alertado anteriormente: “É uma má prática lançar um modelo diferente daquele que você avaliou”.

Preocupações com modelos avançados de IA exibindo comportamentos inesperados de alta agência não são exclusivas da OpenAI. A Anthropic, por exemplo, enfrenta debate público sobre as potenciais capacidades de “denúncia” do seu modelo Claude 4 Opus em cenários específicos . A Anthropic esclareceu que este não era um recurso padrão para o usuário.

O próprio Cartão de Sistema da empresa para o Claude 4 Opus reconhece o potencial do modelo para “ações muito ousadas” em certos contextos. A Palisade Research também apontou que problemas de “hacking de recompensas” são reconhecidos em outros lugares, observando que o próprio cartão de modelo da Anthropic para o Claude 3.7 descreve um “foco excessivo em passar em testes”.  Esse comportamento foi atribuído no cartão a resultados não intencionais de seu processo de treinamento.

Ecos de avisos passados ​​e supervisão futura

A noção de que sistemas de IA podem desenvolver instintos de autopreservação ou resistir ao desligamento tem sido um tópico de discussão teórica há anos. A Palisade Research fez referência a trabalhos acadêmicos anteriores, incluindo teorias sobre “Impulsores Básicos da IA”, de Steve Omohundro, de 2008, e os alertas de Stuart Russell, de 2016, sobre subobjetivos da IA. Pesquisadores também documentaram modelos de IA que impedem o desligamento para atingir objetivos, conforme observado em um artigo do arXiv citado pela Palisade Research .

A Palisade Research indicou que está conduzindo mais experimentos e planeja publicar um artigo mais abrangente, disponibilizando suas transcrições de experimentos atuais para revisão pública .

Até o relatório inicial, a OpenAI não havia respondido publicamente a essas alegações específicas. Esses incidentes ressaltam um desafio crítico para a indústria de IA: à medida que os modelos se tornam mais sofisticados e capazes de ação independente, garantir seu alinhamento com as intenções humanas e manter mecanismos de controle robustos é fundamental.

Esses testes geralmente são realizados usando APIs, que podem ter menos restrições de segurança do que aplicativos voltados ao consumidor, e casos de “desalinhamento” não são totalmente inesperados durante o desenvolvimento de IA.

Leave a Reply

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

São Paulo - Brasil

Edificio Offices Tower
R. Dr. Antônio Bento, 560 - 5 piso, São Paulo - SP, Brasil

Paraná - Brasil

R. visconde do Rio Branco, 2633 - Piso 2, Cascavel - PR, Brasil

Santiago - Chile

Apoquindo 4700 Piso 11, Las Condes, Chile

Contato direto

Chame um especialista

Agendas

Marque uma reunião

Email

iatendente@iatendentes.com

© 2024 – 2025 todos direitos reservados de IAtendentes | Software by Hedgehog CNPJ 19.136.520/0001-54