宠文网 > 怪诞博弈论 > 第15章合作之道——合作中的惩罚与宽容(2)

第15章合作之道——合作中的惩罚与宽容(2)

书籍名:《怪诞博弈论》作者：孙恩棣

　　欧佩克如何达成合作？

　　欧佩克（ＯＰＥＣ，即石油输出国组织）控制着世界上绝大部分的石油供给——只有北海和前苏联系统的石油不在欧佩克控制范围内。

　　它是由世界产油大国所组成的联合机构，一度曾是最成功的价格联盟。

　　欧佩克之所以比较成功，很大的原因在于它的最大的成员国沙特阿拉伯“自律”较严。石油产量最大的沙特阿拉伯自律严了，在一段时间内就可以避免其他成员违反协议，造成危害卡特尔的结果。

　　然而，欧佩克一样被私下行动所害，势力才会大不如前。

　　石油输出国组织的国家会共同限制本身的产油量，以提高石油输出的利润总额。像科威特这样的石油输出国组织成员该不该限制本身的石油产量？要是减少产量，科威特显然得少卖好几桶油。供给和需求决定了全球的油价：油的供给愈少，油价就愈高。

　　假如科威特减少它的石油产量，全球的油量供给就会减少，油价也会因此而上涨。

　　但是无论科威特或沙特阿拉伯有没有跟着减产，油价要是跌了就是跌了，因此当石油输出国组织的其他成员都减产时，科威特理论上会想要大幅提高油产量，尽管石油输出国组织的所有成员都希望别的国家减少产油量。

　　当石油输出国组织的国家发现它们的困境后，便会达成一致的协议说，大家都应该减少油的产量。

　　不过，石油输出国组织的每个成员却是各怀私心。假如其他国家都降低本身的产油量，那么作弊的国家，便能得到全球油价上涨的好处。当然，假如每个国家都作弊，那么油价就会暴跌。

　　在这种情况下，石油输出国组织的成员便形成了没有明显最后一次的重复囚徒困境博弈。

　　无论就哪一次来说，作弊都符合各个国家的利益。某个国家这次之所以没有作弊，是因为假如它被抓到，以后其他国家就会接二连三地作弊。被抓到的机会愈低，作弊的动机就愈强。

　　由于石油输出国组织的国家无法完全掌握彼此的产量，因此经常会不按照协议的额度生产。

　　在重复的囚徒困境博弈中，参与者可能有办法靠合作而得到理想的结局。不过，私下行动、短期暴利和最后一次的问题还是可能使合作破裂。

　　在海湾战争中，伊拉克入侵科威特的其中一个理由就是，科威特没有遵守石油输出国组织所规定的产油额度。当石油输出国组织的成员作弊时，像美国这样的石油进口国当然就会得到好处。

　　一个一次性博弈没有办法达成互惠合作。

　　只有在一种持续的关系中才能够体现惩罚的力度，并因此成为督促合作的大棒。合作破裂自然就会付出代价，这一代价会以日后利润损失的形成出现。假如这个代价足够大，作弊就会受阻，合作就会继续。

　　依存策略和触发策略

　　在重复博弈中，互动关系具有序贯性，这意味着局中人可以根据先前双方的博弈行为，决定自己下一阶段的策略选择。具体来说，就是根据先前双方是否合作，决定自己下一阶段的策略是选择合作还是选择背叛等等。

　　这类策略在博弈论上被笼而统之地称为依存策略或者相机策略，后面一种翻译取自汉语“相机行事”的说法。

　　大多数依存策略都是所谓触发策略。一个局中人使用触发策略，意味着只要他的对手在博弈中一直采取合作策略，则该局中人也会在博弈中继续采取合作策略；但是，一旦对手在某一个阶段采取背叛策略，将会触发该局中人在往后的一段时期内采取不合作策略，甚至永远采取不合作策略，从而对对手实施惩罚。

　　两个最着名的触发策略分别是冷酷策略和“一报还一报”策略。

　　冷酷策略

　　冷酷策略，也称好战策略，它是无限重复博弈中的一种策略，是指双方一开始的时候选择合作，然后继续选择合作，直到有一方选择背叛，对手从此将永远选择背叛。

　　这个策略之所以冷酷，是因为任何局中人的一次性不合作将触发永远的不合作。

　　《君子》与《好逑》是两家男性时尚杂志，都有两种定价策略选择，即定高价与定低价。

　　如果两个参与者都定低价，则每个参与者的收益均为１０；如果两人都定高价，则每人的收益均为２０。

　　如果其中某一参与者定低价，而另一参与者定高价，那么定低价的参与者会占有更多的市场份额，获得３０的收益，定高价的参与者由于失去一部分市场份额而只获得５的收益。

　　假设这是个一次性完全信息静态博弈，那么两个参与者均有优势策略，优势策略均衡为《君子》、《好逑》双方都定低价。

　　如果《君子》、《好逑》之间的定价博弈是多次进行的，那么问题就不会这么简单。这里分析一下博弈重复次数为无限的情况。

　　如果《君子》、《好逑》双方都选择合作，都保持定高价，则双方在每个阶段的收益均为２０，记为（２０，２０，２０，…）。

　　如果《君子》、《好逑》中有一方，比如《君子》采取投机行为，在实际定价中选择不与对方合作，在第一阶段就通过选择定价策略使得选择高价策略的对手《好逑》受损，则受损的一方《好逑》一定会在第二阶段及其以后的定价中也选择低价策略，加以报复。

　　这样一来，首先选择不合作的一方《君子》在每个阶段的收益为（３０，１０，１０，…），显然其总收益远远小于合作、维持高价情况下的总收益。因为首先选择不合作的一方《君子》只是在第一阶段获得了“额外”收益，但在以后每个阶段的收益将因为对手《好逑》的报复性选择而减少，而且重复若干次之后，先选择不合作的一方《君子》将得不偿失。

　　在这里，《好逑》选择的策略就是冷酷策略，即重复博弈中的任何参与者的一次性不合作，将引起其他参与者的永远不合作，从而导致所有参与者的收益减少。因此，所有参与者具有维持合作的积极性。

　　“一报还一报”策略

　　所谓“一报还一报”策略，开始的时候和冷酷策略一样，即双方从合作开始，在以后的每个阶段，如果你的对手在最近的一次博弈中采取合作策略或者在最近连续Ｎ次博弈中采取合作的策略，则你继续跟他合作；如果你的对手在上一阶段的博弈中采取背叛策略，则你在下次的博弈中采取背叛策略报复他，或者在下面连续Ｎ次博弈中采取背叛策略报复他。

　　这里，自然数Ｎ，即被背叛以后，究竟连续惩罚或者报复几次，是策略本身的规定。为说话方便，我们把规定被背叛以后连续惩罚或者报复Ｎ次的“一报还一报”策略，叫做惩罚Ｎ次的“一报还一报”策略。惩罚１次的“一报还一报”策略，特别叫做严格的“一报还一报”策略。请注意，这里的“严格”，指的是严格于“一报还一报”的字面意思：你这次对我不好，下次我马上对你不好；你这次“改邪归正”了，下次我马上与你“和好如初”。

　　罗伯特·阿克塞尔罗德是密歇根大学的政治学教授，他曾邀请学者们为一个重复囚徒困境游戏设计策略。然后把所有人设计的策略输入电脑，每个人的策略分别和其余各人的策略博弈，重复３００次。

　　他要求每个参赛者把追求得分最多的策略写成电脑程序，然后用单循环赛的方式将参赛程序两个一对进行博弈，以找出什么样的策略得分最高，而什么时候结束游戏是未知的。

　　这次博弈有１４个程序参加，再加上罗伯特自己的一个随机程序即以５０％的概率选取合作或者不合作，运转了３００次。结果得分最高的程序是加拿大学者罗伯布写的“一报还一报”（ＴｉｔｆｏｒＴａｔ）。

　　这个程序的特点是，第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作；你上一次不合作，我这一次就不合作。罗伯特还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即“善良的”；第二，对于对方的背叛行为一定要报复，不能总是合作，即“可激怒的”；第三，不能人家一次背叛，你就没完没了地报复，以后人家只要改为合作，你也要合作，即“宽容性”。

　　为了进一步验证上述结论，罗伯特决定邀请更多的人再做一次游戏，并把第一次的结果公开发表。第二次征集到了６２个程序，加上他自己的随机程序，又进行了一次竞赛。结果，第一名的仍是“一报还一报”。

　　“一报还一报”策略相比冷酷策略要温和许多，“一报还一报”

　　策略既可以让重复的囚徒困境博弈“走出囚徒困境”，又无须借助于“永久受罚，不可挽回”的惩罚机制。

　　就博弈的对抗性而言，严格的“一报还一报”比非严格的“一报还一报”宽容得多，严格的“一报还一报”策略是最不严厉的“一报还一报”策略。

　　可以说，严格的“一报还一报”策略是一种“不记仇”的“一报还一报”策略。

　　相应地，冷酷策略也可以被叫做“记仇”的“一报还一报”

　　策略。

　　“一报还一报”策略也被翻译为“以牙还牙策略”或“针锋相对策略”，但严格说来，这种译法并不准确，以牙还牙、针锋相对只反映了惩罚的一面，没有体现宽容的一面。

　　以前面两家杂志的价格策略为例，严格的“一报还一报”策略是这样的：一开始，《君子》收缩产量，维持高价以便双方都得到较高的利润；如果《好逑》也这么“善意”，下次《君子》继续“善意”。

　　如果《好逑》这次以“恶意”把《君子》的“善意”当愚蠢，下次《君子》也就不用客气了。但是，如果《好逑》下次又重新表达“善意”，那么《君子》在再下次也会重新用“善意”对《好逑》

　　的“善意”。也就是说，只有当对手继续采取背叛策略的时候，惩罚才会继续下去。

　　“一报还一报”策略的优点

　　“一报还一报”策略具有较高的清晰性，能够让对方很快发现规律，从而不得不采取合作的态度进行博弈。

　　“一报还一报”策略还有一个非常引人注目的特征在于，虽然它在整个博弈取得突出的成绩，但是它实际上并没有（也不能）在一场正面较量中击败对手。因此，最好的结果是跟对手打成平局。

　　罗伯特·阿克塞尔罗德没有按照“赢者通吃”的原则给结对比赛的选手打分，只有比赛最后结束才打点总的得数。

　　假如当初阿克塞尔罗德是按照“赢者通吃”的原则打分，“一报还一报”策略怎么也不可能取得最后的胜利。

　　“一报还一报”策略的一大优点在于，它最坏的结果一直遭到背叛。在这种情况下，对方占了一次便宜，从此打成平局，重复次数越多，双方的得分越接近。

　　“一报还一报”策略之所以在两次游戏中都获胜，理由是它通常都能够十分有效地促成合作，同时避免相互背叛。

　　“一报还一报”策略的缺陷

　　但是，“一报还一报”策略并不是一个十全十美的策略，往往只要有一丁点儿的发生误解的可能性，“一报还一报”策略的优势就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛并不明显，因为电脑按照程序“照章办事”，根本不会出现误解。

　　但是，人是会犯错误的，任何具体的人都不是完美的人。一旦人们将“一报还一报”策略用于解决现实世界的问题，误解就难以避免，结局可能变成一场灾难。

　　１９８７年，美国就前苏联侦察和窃听设在莫斯科的美国大使馆一事做出回应，宣布缩小在美国工作的前苏联外交官的人数。前苏联的回应是调走设在莫斯科美国大使馆的后勤人员，同时对美国外交使团的规模设置更加严格限制。结果，双方都难以开展各自的外交工作。另一个引发一系列针锋相对行动的例子出现在１９８８年，当时加拿大发现前来访问的前苏联外交官从事侦察活动，当即宣布缩小前苏联外交使团的规模，而前苏联则以缩小加拿大设在莫斯科的外交使团的规模作为回应。到了最后，两个国家关系恶化，以后的外交合作也就更难上加难了。

　　“一报还一报”策略的问题在于，任何一个错误都会反复出现，犹如回声振荡。只要一次出错，一方惩罚另一方的背叛行为，从而引发连锁反应。对手受到惩罚之后，不甘示弱，进行反击。这一反击招致第二次惩罚。事实上，按照这个策略，无论什么时候都不会接受惩罚而不作任何反击。以色列由于巴勒斯坦发动袭击而进行惩罚，巴勒斯坦拒绝忍气吞声，采取报复行动。由此形成中东地区数十年时间的恶性循环，惩罚与报复就这样“自动”地永久持续下去。

　　以德报德，以直报怨在生活中，人们选择策略竞争的结果，往往是“善良”的“以合作为主”的策略大获全胜，“邪恶”的“以占便宜为主”的策略则成绩不佳。

　　人生博弈的最佳策略是“善良”加“一报还一报”。这个策略稳定成功的原因是它综合了善良性、惩罚性、宽容性、透明性，它的善良性防止其陷入不必要的麻烦，它的惩罚性使对方试着背叛一次以后就不敢再背叛，它的宽容性有助于重新恢复合作，它的透明性使它容易被对方理解，从而能够形成长期的合作，多方的共赢。

　　可见，良好的博弈策略往往总是以合作开局，但从此以后就采取以其人之道还治其人之身的策略，即实行“胡萝卜加大棒”的原则。这种人应具备善意、宽容、强硬、简明的特征，这种人往往是消解生存博弈困境的赢者。

　　其实，罗伯特的一些结论，在传统文化中也可以找到对应表达，比如“春秋大义”、“投桃报李”、“人不犯我，我不犯人”、“以眼还眼，以牙还牙”，就体现了“ＴｉｔｆｏｒＴａｔ”的思想。

　　但这些策略并不总是优势的，因为“真实的社会生活里总是充满了不确定性”。

　　孔子在几千年前就说出了“以德报德，以直报怨”这样精彩的修正策略，“直”就是公正，以公正来回报对方的背叛，这是一种修正了的“一报还一报”，修正的是报复的程度，本来可以给你１０个单位的惩罚，现在只给你６个单位的惩罚。这样有利于结束没完没了的报复，进而形成人类文明。

相关书籍：

第15章 合作之道——合作中的惩罚与宽容(2)

第15章合作之道——合作中的惩罚与宽容(2)