我们怎么给游戏打分

我们目录里的每款游戏都带一个 3.5 到 4.7 之间的分数,5 分制。有人合理地问过,这些数字到底意味着什么。诚实的答案是,它们反映了我们在五个具体维度上的内部判断,以透明的方式加权平均。这篇文章走一遍那个流程,以及我们就"评什么、不评什么"做出的有意识选择。

五个维度

每款游戏在以下五个维度上各评 1 到 5 分:

核心循环质量。核心动作是否令人满足?做起来是否感觉好 —— 物理上、感知上、认知上?这是权重最高的维度,因为它是玩家最先注意到、感受最久的。

技能表达。练习是否产生可见的进步?一个更用心的玩家能否有意义地胜过一个不太用心的玩家?在这里得分低的游戏,即使核心循环没问题,也无法维持第一次玩之后的兴趣。

失败的诚实性。当你输了,你知道为什么吗?你能识别下次该怎么做不同吗?失败模式不透明的游戏 —— 隐性随机、模糊时机、隐藏状态 —— 得分低。

设计的干净度。游戏里是不是没有不必要的元素?每条规则是否都对体验有贡献?或者有没有那种把游戏弄复杂却没让它更深的附加系统?

机制的原创性。底层想法是否新鲜,还是大家都玩过的东西的称职执行?我们把称职的重新实现评 3 分,小变体评 4 分,真正全新的机制评 5 分。多数游戏在这里得 3 或 4 —— 我们不声称发明了几十个新类型。

核心循环质量权重 30%;技能表达 25%;失败的诚实性 20%;设计的干净度 15%;原创性 10%。最终分数是加权平均,四舍五入到一位小数。这个权重反映了我们的观点:一款游戏玩起来的感受,比它的想法在纸面上有多聪明更重要 —— 以及原创性虽然真实,但作为推荐一款游戏的理由,常常被高估。

这就是为什么极简蛇评 3.7,尽管它是 1976 年游戏的字面重新实现。它在核心循环质量上很高(游戏出色),技能表达上不错(长局和短局明显不同),原创性上很低(它就是贪吃蛇) —— 但对核心循环的重权重让总分仍然体面。对比一款有新机制但核心循环弱的游戏,后者会得分更低,尽管"更原创"。

我们不评视觉打磨。很多游戏评测服务给图形质量很大权重,我们认为这在我们这种目录游戏的尺度上是错的。一款 15 KB 加载的游戏无法和 200 MB 加载的游戏在视觉打磨上竞争,把它们放在同一个轴上评对两者都不公平。我们的游戏视觉上刻意极简;那是我们一起工作的约束,不是我们忽略的缺陷。

我们不单独评重玩性。我们认为重玩性是技能表达的下游 —— 如果你能持续变好,你就会持续玩。把它作为单独的轴来评是重复计算。

我们不评难度。一款游戏可以难且好、难且差、易且好、易且差。难度本身既不是美德也不是缺陷;重要的是难度是否产生有意义的技能表达和诚实的失败。那些是我们评的东西。

另一种做法是发布没有分数的评测 —— 只有散文。我们考虑过。我们发布数字的原因是数字让读者能快速扫描。一个有五分钟的读者可以看我们的分数表,识别哪三款先试。一个必须读完 25 篇评测才能发现同样信息的读者,被要求做不必要的工作。分数是导航工具,不是判决。

它们确实要求的东西是编辑一致性。我们系统里的 4.0 在不同游戏间应该意味着同一件事 —— 而确保这点的唯一方式是同一两个人用同样的标准给每款游戏评分。那就是我们做的。分数不是客观的;它们反映我们的判断。但它们至少在反映方式上是一致的。

发布 · 2026 年 5 月 14 日 · 撰写并署名:Bill