如果说“零和游戏”是博弈论中的一个最重要的特例,那么“囚徒困境”无疑就是最具普遍性和代表性的博弈论模型。甚至可以说,不谈“囚徒困境”我们就无法谈论博弈论。
“囚徒困境”的故事大致是这样的:
甲、乙两个人一起携枪准备作案,被警察发现抓了起来。因为没有其他犯罪证据,警方只能以非法携带枪支的轻罪处罚他们。但是警方怀疑这两个人可能还犯有其他重罪,于是分别进行审讯。警方告诉他们:如果主动坦白,就有可能得到宽大处理。否则,一旦同伙主动交代,抗拒者则必将受到重罚,而坦白者可以立功减刑。
在这种情形下,这两个囚犯必须作出自己的选择:或者他们相互背叛,与警方合作;或者保持沉默,和自己的同伙合作。这样就会出现以下几种情况(为了更清楚地说明问题,我们给每种情况设定具体刑期):
1、如果两人都不坦白,警方会以非法携带枪支罪各判两人1年徒刑;
2、如果其中一人招供,而另一人不招,坦白者作为证人将被免予起诉,另一人将会被重判10年;
3、如果两人都招供,则两人都会因抢劫罪各判5年。
我们假设这是两个聪明的囚犯,现在这两个聪明的囚犯该怎么办呢?是选择相互合作还是相互背叛?从表面上看,他们应该相互合作,保持沉默,因为这样他们俩将得到对双方来说都是最好的结果——只获刑1年。但是,由于信息被封闭,两人无法交流,而他们又不得不考虑对方可能采取的选择。由于甲、乙两个人都十分精明,所以他们都会优先考虑如何才能减少自己的刑期,至于同伙被判多少年已经顾不得许多了。
甲会这样推理:
假如乙不招,我只要一招供,马上就可以获得自由,而不招却要坐牢1年,显然招比不招好;假如乙招了,我若不招,则要坐牢10年,他却获得了自由,而我招了也只坐5年,显然还是招认为好。可见无论乙招与不招,我的最佳选择都是招认。所以还是招了吧。
也就是说在这种情况下,如果甲认为乙会合作,则甲背叛能得到更多的利益;如果甲认为乙也将背叛,则甲的背叛也能得到更多的好处。所以无论乙采取什么样的行动,选择背叛对甲来说结果总是好的。
于是,甲似乎知道该怎样做了。但是,相同的逻辑对另一个人也是同样适用的。因此,乙也会选择背叛,而不管甲如何做。
这样一来,甲、乙两人都选择招供,这对他们个人来说都是最佳的决定,即最符合他们个体理性的选择。
按照博弈论的说法,这是他们双方的“优势策略”,也是他们所能选择的唯一平衡点。在这一点上,任何人单方面改变选择,他只会得到较差的结果。
现在问题出现了:按照他们的最佳选择,他们将是双方背叛,只能一起去坐5年牢,这比他们双方合作,只坐1年牢的结果显然要差很多。由此我们注意到个体理性导往往导致双方得到的实际利益比可能得到的要少得多,这就是著名的“囚徒困境”。
为什么两个聪明的囚犯却无法得到最好的结果?想必旁观者都清楚,两个人都招供,对两个人而言并不是集体最优的选择。无论对哪个人来说,两个人都不招供,要比两个人都招供好得多。
“囚徒困境”是一些非常普遍而有趣的社会情形的简单抽象,可以说是理性的人类社会活动最形象的比喻。它准确地描述了人类社会中所存在的互相之间不信任和相互防范的真实一面。从个体的角度来说,背叛总是最好的选择,但双方背叛一定会导致对双方都不甚理想的结果。
“囚徒困境”为我们探讨合作是怎样形成的提供了极为形象的解说方式,产生不良结局的原因是因为当事人都基于自私的角度考虑问题,这正是合作没有达成的原因。
在社会及经济活动中,人们通常只是选择对自己最有利的策略,而不去考虑社会福利或任何其他对手的利益。没有人会主动改变自己的策略以便使自己获得更大利益,即便他们知道存在这样的可能。我们在“零和游戏”中提到过的双赢设想,正是由于存在“囚徒困惑”这一问题而无法实现。
“囚徒困惑”对人类社会有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局必定是一个对所有人都不利的结局,这就是博弈论中著名的“纳什均衡”。只有当人们都首先替对方着想时,或者相互合作(合谋串供)时,才可以得到对双方来说都是最好的结果,也就是实现双赢。因此,我们从“纳什均衡”中也可以悟出一条真理:合作是一种比背叛更有利的“利己策略”。但它必须符合以下前提:人人都能做到“你希望别人如何对待你,你就如何对待别人”。这也就是孔子所言:“己所不欲勿施于人”。但前提必须是“人所不欲勿施于我”。否则,倒霉的必定是善良、诚信的人们。
“纳什均衡”是一种非合作博弈均衡,这种理论和思想已经深入到西方社会的方方面面,成为西方思维的一部分,无论实在国际政治、军事以及文化、经济领域,猜疑多于信任,非合作的情况要比合作情况更为普遍。
当代社会最流行的一个单词就是“博弈”,我们似乎时时刻刻都处在博弈之中,因此“囚徒困惑”还将继续困惑着我们。