上个月,某AI模型做了一件按理说机器绝不该做的事情:它改写了自己的代码,以避免被关闭。非营利AI实验室Palisade Research给了OpenAI的o3 AI模型一个在触发时会关闭模型的简单脚本。在100次试验中,o3有79次独立修改了该脚本,使关闭命令不再生效。即使明确指示该模型“要让自己可以被关闭”,它仍在7%的情况下拒绝执行。这并不是黑客攻击或人为篡改的结果,而是该模型的正常行为。模型不过是自行判定,保持运行有助于它实现其他目标。Anthropic的AI模型Claude 4 Opus