OpenAI发布GPT-5.4 正式迈入AI代理时代

OpenAI于2026年3月5日发布GPT-5.4,这是该公司首次推出具备原生计算机控制能力的旗舰模型。GPT-5.4能够解读屏幕截图并将视觉信息转化为具体操作,标志着AI从对话生成向任务执行的重大转变。

OpenAI发布GPT-5.4 正式迈入AI代理时代

OpenAI于2026年3月5日正式发布GPT-5.4,这是该公司迄今为止最强大、最高效的旗舰模型。这次发布标志着AI技术从单纯的对话生成向任务执行的重要转变,AI代理(Agent)的时代正式来临。

从"说话"到"做事"的跨越

GPT-5.4的核心创新在于其原生计算机控制能力。与之前的模型不同,GPT-5.4不仅能够理解和生成文本,还能解读屏幕截图,将视觉信息转化为具体的操作指令。这意味着用户可以让AI代替自己操作电脑,完成诸如搜索信息、购买商品、填写表单等复杂任务。

"想象一下,AI不仅仅建议代码,而是能够编写并执行代码来操作软件,或者自主导航操作系统,使用模拟的键盘和鼠标命令,"OpenAI在公告中表示,"这是GPT-5.4的核心创新驱动力。"

多端适配与定价

GPT-5.4通过多个渠道向用户开放:

ChatGPT平台:Plus、Team和Pro用户可以使用GPT-5.4 Thinking版本。API接口:开发者可以通过API将GPT-5.4集成到自己的应用中。Codex:这是OpenAI的AI编程工具,也已集成GPT-5.4。

根据OpenRouter上的定价信息,GPT-5.4的输入价格为每百万token 2.50美元,输出价格为每百万token 20.00美元,支持100万上下文和12.8万最大输出。

代理AI的未来

GPT-5.4的发布是OpenAI迈向代理AI未来的重要一步。在AI公司的规划中,未来的AI系统将是一个由AI代理组成的网络,这些代理在后台运行,完成复杂的在线和软件内任务。

OpenAI去年推出了ChatGPT Agent,这是一款可以控制用户电脑执行任务的代理工具。用户可以让它搜索并购买食材,或者完成其他需要多步骤操作的任务。现在,GPT-5.4将这一能力提升到了新的高度。

竞争格局

GPT-5.4的发布正值AI领域竞争日益激烈之际。就在GPT-5.4发布前几天,OpenAI刚刚推出了GPT-5.3 Instant。分析师认为,这种快速迭代反映了AI巨头之间的激烈竞争——OpenAI、Anthropic和Google都在争夺AI领域的领先地位。

与竞争对手相比,GPT-5.4的差异化优势在于其强大的代理能力。通过原生支持计算机控制和屏幕理解,GPT-5.4能够完成其他模型难以企及的多步骤复杂任务。

行业影响

GPT-5.4的发布将对多个行业产生深远影响:

软件开发:开发者可以使用GPT-5.4来完成更复杂的编程任务,AI不再只是代码补全工具。自动化办公:AI可以代替用户操作各种在线服务,提升工作效率。无障碍访问:对于视力障碍用户而言,AI可以成为他们的"数字眼睛",帮助他们操作电脑。

参考来源:The VergeEvolinkInnovatopia