Grok 4深度评测：马斯克的“最强AI”，实力究竟如何？

面对Grok 4在基准测试中打败多个顶尖模型的成绩单，一位开发者尝试让它生成一个黑洞的可视化模拟，复杂的物理计算和视觉呈现被精准完成，而几分钟后，同一个模型却对着一个显示六根手指的表情符号，坚持说“这是五根”。

当埃隆·马斯克（Elon Musk）在发布会上宣称Grok 4“在所有学科上都比人类研究生更聪明”时，他不仅点燃了AI社区的热情，也设置了一个极高的公众预期。这位特立独行的企业家和他的xAI团队，在短短两年内将Grok推到了与OpenAI、谷歌等行业巨头竞争的舞台中央。

Grok 4的亮相伴随着一系列令人瞩目的数据：在包含2500个专家级问题的“人类最后考试”中取得高分，在权威测评机构的指数排名中位列第一。

01 模型溯源：从Grok-1到Grok 4的演进之路

Grok的起源可以追溯到2023年7月马斯克成立xAI公司之时。这个相对较晚的起步并没有阻碍其快速发展。Grok-1作为初代模型，是一个拥有3140亿参数的混合专家模型，在发布时便开源，显示出xAI的技术自信。

真正的飞跃发生在Grok 4。与Grok 2相比，Grok 4的训练量达到了惊人的100倍，在强化学习阶段投入的算力据称是“市面上其他任何模型的10倍以上”。

这场算力竞赛的背后是庞大的基础设施支持。马斯克在美国田纳西州孟菲斯建立了名为“Colossus”的超级计算中心，到2025年初已配备20万块英伟达H100 GPU，并计划扩展到100万块。如此庞大的算力储备，让Grok 4在短短5个月内就完成了从Grok 3到Grok 4的迭代，成为“暴力美学”的代名词。

02 性能实测：基准测试与真实场景的双面表现

在官方基准测试中，Grok 4的表现确实令人印象深刻。在极具挑战性的“人类最后考试”中，Grok 4在无需工具辅助的情况下取得了约26.9%的准确率，超过了谷歌Gemini 2.5 Pro和OpenAI o3。

在专业测评机构Artificial Analysis的评测中，Grok 4以73分的人工智能分析指数位列第一，领先于OpenAI o3、谷歌Gemini 2.5 Pro等竞争对手。

更专业的科学测评也证实了Grok 4的实力。中国科学院计算机网络信息中心建设的科学地平线平台评测显示，Grok 4以74.55的综合评分领跑，在数学、地球与空间科学和生命科学领域表现尤为突出。

然而，当离开精心设计的基准测试，进入网友的自由实测环节，Grok 4的表现则呈现出明显的两面性。

一方面，它在复杂任务中展现出了惊人的能力。博主@KettlebellDan仅用4个提示词，就让Grok 4创建了一个交互式工具来可视化欧拉恒等式，帮助他真正理解了这一复杂数学公式的美学与内在联系。开发者也成功用它生成了黑洞碰撞的可视化图像。

另一方面，它在一些看似简单的任务上却频频“翻车”。最典型的例子是视觉计数问题：当面对一个明确显示六根手指的表情符号时，Grok 4会毫不犹豫地回答“五根”。在绘制印度地图轮廓的任务中，它生成的SVG文件形状也严重失真。

03 核心能力：多面手AI的强项与短板

从多项测试来看，Grok 4已经发展成为一个能力多元的AI模型，在不同领域有不同表现。

数学与科学推理是Grok 4最突出的强项。它在AIME25数学竞赛中取得了满分，在科学地平线平台的数学学科评测中获得78.13的高分。这种能力延伸到代码生成上，尤其是在涉及物理模拟的编程任务中。当被要求创建受地球引力和摩擦力影响的小球在六边形内弹跳的模拟时，Grok 4能够从零开始实现物理引擎，生成运行良好的代码。

复杂逻辑与多步骤推理也是Grok 4的亮点。面对涉及法律和财务的多方责任梳理问题，它能够以表格加分步总结的形式清晰呈现条理。这种能力使它在处理需要深度分析的任务时，往往能超越同类模型。

与早期版本相比，Grok 4继承了独特的个性特征，但风格似乎更加收敛。初代Grok以其“幽默感”和“叛逆精神”著称，提供“常规模式”和“趣味模式”两种选择。

多模态能力是目前Grok 4的主要短板之一。马斯克在发布会上坦承：“Grok 4的基本弱点是它部分盲目地理解图像生成偏好。” 除了前面提到的计数错误外，在SVG绘图测试中，尽管在美国地图重绘任务中轮廓准确，但在漫画场景再现和原创设计任务中，它往往缺乏细节。

04 用户体验：接入方式与成本考量

对于普通用户而言，使用Grok 4的途径和成本是重要考量因素。

Grok 4目前主要通过两种方式提供服务：一是集成在X平台的订阅服务中，二是通过API供开发者调用。值得注意的是，由于网络限制和服务区域问题，国内用户无法直接访问原版Grok。

成本方面，Grok 4的定价在AI模型中处于高端区间。基础版Grok 4的订阅费为30美元/月，而更强大的Grok 4 Heavy版本则高达300美元/月。API调用费用也同样不菲，输入为3美元/百万token，输出为15美元/百万token。

xAI提供了相对清晰的路线图，计划在近期推出更多功能：8月发布编程模型，9月发布多智能体，10月发布视频生成模型。考虑到团队此前有延期记录，这些时间点的可靠性仍有待观察。

05 市场定位：Grok 4在AI生态中的位置

与主要竞争对手相比，Grok 4展现出了独特的产品定位和技术路径。

与OpenAI的GPT系列相比，Grok 4在复杂推理和科学任务上展现出优势，特别是在无需工具辅助的纯推理测试中。但在多模态能力、生态成熟度和价格可及性上，GPT系列仍占优。OpenAI预计2025年营收将达127亿美元，业务更加多元化，而xAI的主要营收来源目前仍主要是X Premium的订阅服务。

与谷歌的Gemini系列相比，Grok 4在多项基准测试中领先，但在多模态理解的稳定性和某些视觉任务上，Gemini 2.5 Pro仍表现更佳。

与国内模型如DeepSeek相比，Grok 4在综合能力上略占优势，但DeepSeek等国产模型在性价比和本地化支持方面具有明显优势。

值得特别注意的是，Grok 3在之前的测试中表现并不稳定。在《每日经济新闻》进行的高考数学测试中，Grok 3仅得91分，在10个模型中排名倒数第三。这提醒我们，Grok 4虽然表现出色，但xAI的模型迭代可能仍存在一定的不稳定性。

为了更直观地对比，以下是Grok 4与主要竞争对手在关键维度的比较：

维度	Grok 4	OpenAI o3	谷歌Gemini 2.5 Pro	DeepSeek-R1
复杂推理	优势明显	表现良好	表现良好	表现良好
数学能力	顶尖水平	优秀	优秀	优秀
多模态	正在改进，仍存短板	较为全面	较为全面	文本为主
实时信息	通过X平台获取	需联网功能	通过搜索获取	需联网功能
成本	高端（300美元/月）	中等	中等	低（有免费额度）