本文目录
- 纳什均衡点是什么,怎么求
- 纳什均衡点怎么找
- 怎么找到所有的纳什均衡
- 博弈论的纳什均衡
- 极简博弈论之一:极小极大与纳什均衡
- 如何判断是否存在混合策略纳什均衡以及求这种均衡的方法
- 纳什均衡点,应怎样理解 请举出具体的例子,
- 请问什么是纳什平衡
纳什均衡点是什么,怎么求
纳什均衡的定义:在博弈G={S1,…,Sn:u1,…,un}中,如果由各个博弈方的各一个策略组成的某个策论组合(s1*,…,sn*)中,任一博弈方i的策论si*,都是对其余博弈方策略的组合(s1*,…s*i-1,s*i+1,…,sn*)的最佳对策,也即ui(s1*,…s*i-1, si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1, sij*,s*i+1,…,sn*)对任意sij∈Si都成立,则称(s1*,…,sn*)为G的一个纳什均衡。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年.关于案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,首先应该是从心理学的角度来看,当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论,假设每个人都是“理性的经济人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:假如他坦白,我抵赖,得坐10年监狱,坦白最多才8年;他要是抵赖,我就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。 纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。
纳什均衡点怎么找
(1)如果是完全信息博弈 张三认为李四:左,中,右的策略概率设为p1,p2,1-p1-p2 张三上策略的期望收益为E1=12*p1+42*p2+42*(1-p1-p2) 同理 中:E2=24*p1+12*p2+60*(1-p1-p2) 下:E3=72*p1+36*p2+42*(1-p1-p2) 如果是完全信息博弈,则较优策略为三者相同,即E1=E2=E3 可解得p1=0.0370 p2=0.3700 1-p1-p2=0.5930 同理李四认为张三:上中下的策略概率为q1 q2 (1-q1-q2) 李四的左策略的期望收益为T1=83*q1+12*q2+47*(1-q1-q2) 中策略收益为T2=56*q1+42*q2+95*(1-q1-q2) 右策略的收益为T3=45*q1+76*q2+59*(1-q1-q2) 同理解得q1=0.6276 q2=0.0140 (1-q1-q2)=0.3584 综上所述 在完全信息博弈的情况下张三的混合策略的策略概率为上0.6276 中0.0140 下0.3584 李四的混合策略的策略概率为左0.0370 中0.3700 右0.5930 其中张三的期望收益为40.8900 李四的期望收益为50.4516 (2)如果是不完全信息无限重复博弈,开始时双方都是以0.333的自然混合概率预测,根据两者的信息背叛不同,回归结果也可不同,此题条件不足.但结果是会是纯策略,博弈次数则无法确定 作业2:纯策略纳什均衡的收益为(60,76)混合策略纳什均衡的收益为(40.8900,50.4516) 实际中应该是纯策略占优
怎么找到所有的纳什均衡
在作业帮里面就可以找到纳米技术
在百度上搜,搜到什么都可以回答
均衡的意思,然后找到下图中所有的纳什均
博弈论的纳什均衡
纳什均衡(Nash Equilibrium):在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中,当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人仍采取b*,而局中人A却采取另一种策略a,那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。这样,“均衡偶”的明确定义为:一对策略a*(属于策略集A)和策略b*(属于策略集B)称之为均衡偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总有:偶对(a, b*) ≤ 偶对(a*,b*) ≥偶对(a*,b)。对于非零和博弈也有如下定义:一对策略a*(属于策略集A)和策略b*(属于策略集B)称为非零和博弈的均衡偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总有:对局中人A的偶对(a, b*) ≤偶对(a*,b*);对局中人B的偶对(a*,b)≤偶对(a*,b*)。有了上述定义,就立即得到纳什定理:任何具有有限纯策略的二人博弈至少有一个均衡偶。这一均衡偶就称为纳什均衡点。纳什定理的严格证明要用到不动点理论,不动点理论是经济均衡研究的主要工具。通俗地说,寻找均衡点的存在性等价于找到博弈的不动点。 纳什均衡点概念提供了一种非常重要的分析手段,使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。但纳什均衡点定义只局限于任何局中人不想单方面变换策略,而忽视了其他局中人改变策略的可能性,因此,在很多情况下,纳什均衡点的结论缺乏说服力,研究者们形象地称之为“天真可爱的纳什均衡点”。塞尔顿(R·Selten)在多个均衡中剔除一些按照一定规则不合理的均衡点,从而形成了两个均衡的精炼概念:子博弈完全均衡和颤抖的手完美均衡。 囚徒困境在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoner’s dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。 囚徒困境博弈 A╲B 坦白 抵赖 坦白 8,8 0,10 抵赖 10,0 1,1 对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。但是,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡,即纳什均衡。不难看出,此处纳什均衡与帕累托存在冲突。单从数学角度讲,这个理论是合理的,也就是选择都坦白。但在这样多维信息共同作用的社会学领域显然是不合适的。正如中国古代将官员之间的行贿受贿称为“陋规”而不是想方设法清查,这是因为社会体系给人行为的束缚作用迫使人的策发生改变。比如,从心理学角度讲,选择坦白的成本会更大,一方坦白害得另一方加罪,那么事后的报复行为以及从而不会轻易在周围知情人当中的“出卖”角色将会使他损失更多。而8年到10年间的增加比例会被淡化,人的尊严会使人产生复仇情绪,略打破“行规”。我们正处于大数据时代,向更接近事实的处理一件事就要尽可能多地掌握相关资料并合理加权分析,人的活动动影像动因复杂,所以囚徒困境只能作为简化模型参考,具体决策还得具体分析。 智猪博弈 一、经济学中的“智猪博弈”(Pigs’payoffs) 这个例子讲的是:假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽(两猪均在食槽端),另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是在去往食槽的路上会有两个单位猪食的体能消耗,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时行动(去按按钮),收益比是7∶3;小猪先到槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。智猪博弈由纳什于1950年提出。实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,而小猪行动的话,则仅仅可以获得大猪吃剩的1个单位的纯收益,所以等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择: 小猪 行动 等待 大猪 行动 5,1 4,4 等待 9,-1 0,0 从矩阵中可以看出,当大猪选择行动的时候,小猪如果行动,其收益是1,而小猪等待的话,收益是4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益是-1,而小猪等待的话,收益是0,所以小猪也选择等待。综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略。在小企业经营中,学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候,如果能够注意等待,让其他大的企业首先开发市场,是一种明智的选择。这时候有所不为才能有所为!高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择,对它的留意和研究可以给企业节省很多不必要的费用,从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见,却很少为小企业的经理人所熟识。在智猪博弈中,虽然小猪的“捡现成”的行为从道义上来讲令人不齿,但是博弈策略的主要目的不正是使用谋略最大化自己的利益吗? 美女的硬币 一位陌生美女主动过来和你搭讪,并要求和你一起玩个游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”听起来不错的提议。如果我是男性,无论如何我是要玩的,不过经济学考虑就是另外一回事了,这个游戏真的够公平吗? 绅士/美女 女正面 女反面 正面 3,-3 -2,+2 反面 -2,+2 1,-1 假设我们出正面的概率是x,反面的概率是1-x。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等,不然对手总是可以改变正反面出现的概率让我们的总收入减少,由此列出方程就是3x+(-2)*(1-x)=(-2)*x+1*(1-x)这个方程通俗的说就是在对手一直出正面你得到的利益,和你对手一直出反面得到利益是一样的且最大。解方程得x=3/8,也就是说平均每八次出示3次正面,5次反面是我们的最优策略。而将x=3/8代入到收益表达式3*x+(-2)*(1-x)中就可得到每次的期望收入,计算结果是-1/8元。同样,设美女出正面的概率是y,反面的概率是1-y,列方程-3y+2(1-y)=2y+(-1)*(1-y)解得y也等于3/8,而美女每次的期望收益则是2(1-y)-3y=1/8元。这告诉我们,在双方都采取最优策略的情况下,平均每次美女赢1/8元。其实只要美女采取了(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。如果全部出正面,每次的期望收益是(3+3+3-2-2-2-2-2)/8=-1/8元如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略无非只是上面两种策略的线性组合,所以期望还是-1/8元。但是当你也采用最佳策略时,至少可以保证自己输得最少。否则,你肯定就会被美女采用的策略针对,从而赔掉更多。看起来这个博弈模型似乎没有什么用处,但是其实这可能牵涉了金融市场定价中最重要的一个模型:定价权重模型了。总的来说“博弈论”其本质是将日常生活中的竞争矛盾以游戏的形式表现出来,并使用数学和逻辑学的方法来分析事物的运作规律。既然有游戏的参与者那么也必然存在游戏规则的制定者。深入的了解竞争行为的本质,有助于我们分析和掌握竞争中事物之间的关系,更方便我们对规则进行制定和调整,使其最终按照我们所预期的目的进行运作。
极简博弈论之一:极小极大与纳什均衡
如果你是两个孩子的母亲,要给两个馋嘴的孩子分一块蛋糕,不管怎么分,最后的结果总是,有一个孩子(甚至是两个孩子)觉得自己的那块更小。 这是博弈论中的一个经典问题:分蛋糕。该怎么分才能让两个孩子都满意?博弈论可以帮我们破了这个局。 我们把分蛋糕问题暂且搁到一边,先来认识一下博弈论的两位大师——冯·诺依曼和约翰·纳什。 冯·诺依曼(后文简称冯)有两个领域的鼻祖,他被称为“计算机之父”,现代计算机的原型正是出自冯的设计,这个原型一直沿用到今天,他还被称为“博弈论之父”,因为他最早对零和博弈进行了深入研究,提出了“极小极大原理”。 约翰·纳什(后文简称纳什)比冯晚出生20多年,他年轻有为,在博士论文中便提出了著名的“纳什均衡”理论,可惜天妒英才,纳什的妄想症随着年龄的增长越发严重,然而他的妻子从未抛弃他,一直陪伴纳什到人生的最后一刻,方才有了震撼人心的电影《美丽心灵》。 回到分蛋糕的问题,我们请冯和纳什两位大师出场,来解决分蛋糕问题。 首先,我们要把分蛋糕问题需要转化为两个孩子博弈问题,博弈的规则是:两个孩子分蛋糕,一个切蛋糕,另一个先选蛋糕。 博弈论的目标就是寻找问题的理性解——不考虑情感因素,单从理性角度分析所得的答案。 我们先把两个孩子的策略和对应的结果做成一个表格。记切蛋糕的孩子为A,选蛋糕的孩子为B,用“A得到的蛋糕大小,B得到的蛋糕大小”表示分蛋糕的结果。 | B选大块 | B选小块 :----:|:-----:|:----: A切成两块一样大 | 一半,一半 | 一半,一半 A切成两块不一样大 | 小块,大块 | 大块,小块 先请冯来切蛋糕,即冯是A,他自然要运用“极小极大原理”。 “极小”指的是B一定会挑选大块,所以留给自己的肯定是小块,也就是表格中的左边一列; “极大”指的是A要使自己的蛋糕尽量大; “极小极大”组合起来的意思是,A已知B会选大块,所以会把较小的一块切得大一些,对A来说,最好的结果就是表格的左上角“一半、一半”,即两人各分得半块蛋糕,这就是这个问题的理性解。 这就是极小极大原理,是不是很简单? 纳什均衡也不难! 这次换做纳什来切蛋糕了(即纳什是A),他自然要运用“纳什均衡”来寻找理性解。A假设自己切成不一样大小的两块,B自然会选大块,也就是表格中左下角一格。 这时,A会分别问B和自己一个问题:你后悔吗? B想:我得到了大块,我不后悔! A想:如果我切成一样大的两块,能得到的更多,我后悔了! 于是A改变策略,切成一样大的两块,对应表格的左上角。还是重复刚才的问题,你后悔吗? B想:既然两块蛋糕一样大,后悔也没用,我不后悔! A想:既然B已经选了大块的,我能得到半块蛋糕已经是最好的结果了,我也不后悔! 当两人都不后悔时,纳什均衡就达成了! 寻找纳什均衡点一定要注意:“是否后悔”是对方不变更策略的前提下做出的选择。这很像球迷们看球时候的心情,每当看到空门不进,球迷们的心声总是:不会吧!这球换我也能射进啊! 单从分蛋糕的例子来看,两个理论得到的答案是一样的。二者的区别在于适用范围,极小极大原理只能用来分析零和博弈——双方利益总和不变的博弈问题,纳什均衡对零和博弈、非零和博弈都适用,这也是纳什均衡厉害的地方。不过,纳什均衡为的是找到“使双方都不后悔的理性解”,这个理性解未必会给博弈中的个体或集体带来利益最大化。 至此,我们认识了两位大师——冯·诺依曼和约翰·纳什,学习了两个原理——极小极大和纳什均衡。 接下来,我们就来学习一个熟悉又陌生的博弈问题—— 囚徒困境 。 还有哦: 极简博弈论之二:你我都是囚徒
如何判断是否存在混合策略纳什均衡以及求这种均衡的方法
在一个Normal form game里,是一定存在至少一个混合策略纳什均衡的。Normal form game简单地说就是常见的那种可以画出M*N的矩阵的game。证明如下:定义一个game:n个player,用i来表示;每个人有有限个策略,player i的策略集用表示,里有个元素;表示player i出第j个策略的概率,,;定义效用函数,是一个维simplex,代表了player i所有可能出的混合策略,是笛卡尔积。这里有一个非常重要的假定:是concave函数,可以理解成边际效用递减的效用函数。对于player i来说,我们把其他所有player的策略写成,所以player i的效用就是。定义best response,也就是给定别人的策略,player i的最优策略:;所以best response是一个correspondence:。注意:给定别人的策略,player i的best response可以是一个集合(不止一个best response)。可证是convex的。把所有人的best response写成,这是一个给定所有人的策略,每个个体都觉得更好的策略组合,我们可以写成,这是一个自己到自己的correspondence。同时可证是一个convex-valued correspondence。是n维欧几里得空间的子集,满足非空、紧(compact)、凸(convex)的性质;是一个自己到自己的correspondence,满足非空、凸(convex-valued)、closed-graph。根据Kakutani fixed-point theorem,有一个不动点,即存在满足,也就是说在所有人的决策是的情况下,任意player i都觉得,如果其他人策略不变,比较简单的game都可以用求出best response correspondence的方法解,这应该包括在你会的两种方法内。但比较复杂的或者决策集是连续的game,一般没有固定解法,很多情况下你找到某个game的纳什均衡就可以发paper了(比如Levitan & Shubik, 1972)。
纳什均衡点,应怎样理解 请举出具体的例子,
纳什平衡,又称为非合作赛局平衡,是博弈论的一个重要概念,以约翰·纳什命名. 如果某情况下无一参与者可以独自行动而增加收益,则此策略组合被称为纳什均衡点 经典的例子就是囚徒困境,囚徒困境是一个非零和博弈. 大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被立即释放,而对方将被判刑十年;如果两人均招供,将均被判刑两年.如果两人均不招供,将最有利,只被判刑半年. 于是,两人同时陷入招供还是不招供的两难处境. 但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供, 这种情况就称为纳氏均衡点. 这时,个体的理性利益选择是与整体的理性利益选择不一致的. 学术争议和批评 第一,纳什(Nash)的关于非合作(non-cooperative)博弈论的平衡不动点解(equilibrium/fixpoint)学术证明是非构造性的(non-constructive),就是说纳什用角谷静夫不动点定理(Kakutani fixed point theorem) 证明了平衡不动点解是存在的,但却不能指出以什么构造算法如何去达到这个平衡不动点解.这种非构造性的发现对现实生活里的博弈的作用是有限的,即使知道平衡不动点解存在,在很多情况下却找不到,因此仍不能解决问题.在数学意义上,纳什并没有超越角谷静夫不动点定理. 经过《美丽心灵》的Sylvia Nasar(书作者)和Ron Howard(电影作者)这样的主流媒体的介入,角谷静夫(Kakutani)在这些人的作品里被完全忽略.有人认为,“纳什平衡”(Nash equilibrium)的更合适的名字应该叫作“角谷静夫—纳什博弈论不动点”(Kakutani-Nash game-theoretic fixed point)或“角谷静夫—纳什平衡”(Kakutani-Nash equilibrium),没有角谷静夫不动点定理,纳什的证明没有多大学术意义.《美丽心灵》完全忽视角谷静夫之关键贡献的作法有待商榷. 第二,纳什的非合作(non-cooperative)博弈论模型仅仅是突破了博弈论中的一个局限.一个更大的局限是,博弈论面对的往往是由几十亿节点的庞大对象构成的社会、经济等复杂行为,但冯·诺伊曼(Von Neumann)和纳什的研究是针对两三个节点的小规模博弈论(有人称之为tiny-scale toy case). 这个假设的不完善处,可能比假设大家都是合作的(cooperative)更严重.因为在经济学里,一个庞大社会里的人极不可能全部都是合作的,非合作的情况通常在庞大对象的情形中更普遍,而在两三个节点的小规模经济中倒反而影响较小.既然改了合作前提为非合作前提,却仍然停留在两三个节点的小规模博弈论中,这是一个不可忽视的缺陷.最近香港城市大学和北京清华大学的学者群邓小铁、姚期智在基于复杂度理论的大规模博弈论上有所进展. MIT的一位计算机科学博士生的博士论文(PDF http://people.csail.mit.edu/costis/thesis.pdf )——获得2008年度美国计算机协会学位论文奖——认为经济学家的推测是错误的,找到纳什均衡点是几乎不可能的事. 目前担任MIT电机工程和计算机科学系助理教授的Constantinos Daskalakis与 UC伯克利的Christos Papadimitriou、英国利物浦大学的Paul Goldberg合作,证明对某些博弈来说,穷全世界所有计算机之力,在整个宇宙寿命的时间内也计算不出纳什均衡点.Daskalakis相信,计算机找不到,人类也不可能找到.纳什均衡属于NP问题,Daskalakis证明它属于NP问题的一个子集,不是通常认为的NP-完全问题,而是PPAD-完全问题.这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展. 不过在同一篇论文里,Daskalakis也指出,在参与者匿名的情况下,则仅需多项式时间即可逼近纳什均衡. 现实的例子 上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵.社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈.囚徒困境可以广为使用,说明这种博弈的重要性.以下为各界例子: 政治学例子:军备竞赛 在政治学中,两国之间的军备竞赛可以用囚徒困境来描述.两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作).两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备.似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等).这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平. 经济学例子:关税战 两个国家,在关税上可以有以两个选择: 提高关税,以保护自己的商品.(背叛) 与对方达成关税协定,降低关税以利各自商品流通.(合作) 当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果).然后二国又重新达成关税协定.(重复博弈的结果是将发现共同合作利益最大.) 商业例子:广告战 商业活动中亦会出现各种囚徒困境例子.以广告竞争为例. 两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入.但若二者同时期发出质量类似的广告,收入增加很少但成本增加.但若不提高广告质量,生意又会被对方夺走. 此二公司可以有二选择: 互相达成协议,减少广告的开支.(合作) 增加广告开支,设法提升广告的质量,压倒对方.(背叛) 若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境.在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中. 自行车赛例子 自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释.例如每年都举办的环法自行车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中.而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略.通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛).而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力. 与囚徒困境相关的各事件 异想 威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境.在新西兰,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸.当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生.这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境.并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果.这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”. “认罪减刑”不可行 囚徒困境的结论是许多国家中认罪减刑(英文:plea bargain)被禁止的原因之一.囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛).最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多. 公用品悲剧 现实的博弈参与者不只一方,会有多方参与的囚徒困境.加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果).但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境.就是说只有二方的囚徒困境,没有多方的.所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉. 重复的囚徒困境 罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD).在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗.阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争.参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等. 阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用.他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来. 最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法.它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛.这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略.更好些的策略是“宽恕地以牙还牙”.当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下.这是考虑到偶尔要从循环背叛的受骗中复原.当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的.这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了. 通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件. 友善 最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛.几乎所有的高分策略都是友善的.因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手. 报复 但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者.要始终报复.一个非报复策略的例子是始终合作.这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜. 宽恕 成功策略的另一个品质是必须要宽恕.虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作.这停止了报复和反报复的长期进行,最大化了得分点数. 不嫉妒 最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数). 因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒.阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易. 重新考虑经典的囚徒困境一节中给定的军备竞赛模型:结论是,只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上.有趣的是,企图说明对抗国家实际上以这种方式(在“重复囚徒困境假定”下的不同时期,军费支出在“高”和“低”之间反复)竞赛的尝试,却经常表明假定的军备竞赛并没有如预想的那样出现.(例如希腊人和土耳其人的军费支出,看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛,却更可能是被其国内的政策所驱使.)这可能是一次性博弈和重复性博弈中的理性行为不同的例子. 对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的.但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应.例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略.这个人处于一种轻微的不利地位,因为第一回合的损失.在这样的人群中,对这个人来说最佳策略就是每次都背叛.在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度. 一般有两种方法得到最佳策略: 贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50%以牙还牙,50%一直合作),就能从数学上获得最佳的相对策略. 已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法).决赛人群中的算法合成通常依赖于初赛人群中的算法合成. 尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings),这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置.虽然这个策略显著地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的.在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略. 如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实.纳什均衡就是每次都背叛.这很容易用归纳法证明.你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你.因此,你们都将在最后的回合背叛.这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛.依此类推.为了合作以保持请求,这时未来必须对两个参与者来说是不确定的.一个解决方案是让博弈总次数N变成随机的.对未来的预期必须是无法确定的长度. 另一个单独的案例是“永不停止”的囚徒困境.这个博弈被重复很多次,而且你的分数是一个平均数(当然是用计算机计算的). 囚徒困境博弈是某些人类合作和信任理论的基础.假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟.这从而引起了许许多多学者经久不衰的兴趣.1975年,格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的学术文章,数量超过2000篇. 学习心理学和博弈论 当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响.简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏.如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损.随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈.不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多.这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者. 群体中背叛的可能性,可以被合作的经验所削弱,因为先前的博弈建立了信任.因此自我牺牲行为可以,例如,加强团体的道德品质.如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈.这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足.这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及. 相关的博弈 封闭袋子交易 霍夫施塔特2曾提出像囚徒困境的问题.他提出“密封袋子交易”,他认为以这简单博弈题,有助人们理解此论题. “密封袋子交易”:甲、乙两人面对面交换密封的袋子,双方的共识是甲的袋放钱、乙的放商品.双方各自可以诚实地把东西放到袋子,然后交换;又或者交空袋子给对方,选择背叛. 在这场博弈中,由于背叛可获得巨大利益,必然有多人选择背叛.这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场. 是敌是友? “是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映.这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的.这个竞赛表演有三对人参与竞争.当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品.如果他们都合作(“朋友”),他们的奖品就被平分.如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到.如果双方互相背叛,那么两人都一无所获.注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“互相背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的.和标准囚徒困境的稳定均衡相比,“互相背叛”是不稳固的均衡(weak equilibrium).如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品.在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型. 这个支付矩阵是: 如果参与者都合作,每人得到 +1. 如果都背叛,每人得到 0. 如果甲合作而乙背叛,甲得到0而乙得到 +2. 是敌是友对于想对囚徒困境作现实分析的人将是有用的.注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来. 在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善.可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人.如果你相信我后来会和你分奖品的话,就选择做朋友.否则,如果你选择做敌人,我们都会空手而回.”一个更贪婪的版本将是:“我将选择做敌人.我会给你百分之X,剩下的百分之(100-X)归我.所以,要或不要,要么我们都得到一些,要么我们都一无所获.”(在最后通牒博弈中时.)现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友.基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话. 在竞赛中这个方法从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益.(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝.) http://ent.sina.com.cn/m/2002-03-21/76881.html
请问什么是纳什平衡
纳什均衡,属于经济学范畴,也属于博弈论范畴,当然,纳什教授是著名的数学学家。 特别是博弈论,是讲人和人群组的博弈问题,人性是至关重要的参数,而且是一个自变量。人性第一特点就是趋利避害。 假如我们已经找到了一个策略组合,其中,各方的行动就是针对对方行动而确定的最佳对策。一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学者把这么一个结果称为“均衡”。这个概念是由普林斯顿大学数学家约翰•纳什(也就是电影《美丽心灵》的主人公)提出的,因此被称为“纳什均衡”。 纳什均衡是博弈分析中的重要概念。1950年,还是一名研究生的纳什写了一篇论文,题为《n人博弈的均衡问题》,该文只有短短一页纸,可就这短短一页纸成了博弈论的经典文献。在这篇论文中,纳什给出了博弈均衡的定义,即纳什均衡。 那么,什么是纳什均衡呢?简单说就是,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。 在囚徒困境中存在惟一的纳什均衡点,即两个囚犯均选择“招认”,这是惟一稳定的结果。 有些博弈的纳什均衡点不止一个。如下述“夫妻博弈”(或称性别之战)中有两个纳什均衡点。丈夫和妻子商量晚上的活动。丈夫喜欢看拳击,而妻子喜欢欣赏歌剧。但两人都希望在一起度过夜晚。在这个“夫妻博弈”中有两个纳什均衡点:(歌剧,歌剧),(拳击,拳击)。在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在“夫妻博弈”中,我们无法知道,最后结果是一同欣赏歌剧还是一起去看拳击。 纳什均衡是博弈论中的重要概念,同时也是经济学的重要概念。 诺贝尔经济学奖获得者萨缪尔森有一句幽默的话:你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。博弈论专家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是“纳什均衡”。由此可见纳什均衡在现代经济学中的重要性。纳什均衡不仅对经济学意义重大,对其他社会科学意义也同样重大。 启示:通俗地说,纳什均衡含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。 纳什均衡有什么用 纳什的想法成为我们指导同时行动博弈的最后一个法则的基础。这个法则如下:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。 我们还要解释一下这个法则。为什么一个博弈的参与者非得达到这么一个结局呢?我们可以说出好几个理由。没有一个理由本身就有足够的说服力,不过,只要把几个理由结合起来,就能形成一个有力的答案。 首先,存在避免循环推理的必要,因为循环推理帮不上忙。均衡在没完没了的“我知道他知道我知道……”的循环里是稳定不变的,这使参与者对其他人的行动的估计能保持连贯性。各方正确预计别人的行动,并且确定自己的最佳对策。 均衡策略的第二个好处出现在零和博弈中。在这种博弈里,参与者的利益严格相悖。你的对手不能通过引诱你采取一个均衡策略而得到任何好处。你已经充分考虑到他们对你正在做的事情会有什么样的最佳对策。 第三个理由是,均衡方法注重实效。要想知道梨子的滋味,就要吃一吃。我们将会利用均衡方法讨论许多博弈。希望读者来检验它对博弈结果的预测以及这种思维方式产生的行为指导方针。相信这么做会使我们的分析更有意思,比抽象地讨论均衡方法的优点更有意义。 最后,可能存在一个对均衡概念的误解,希望各位可以避免。当我们说博弈的结果是均衡,并不一定是对参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。有利或者不利的评价永远属于另外一个问题,答案视各个案例的具体情况而各有不同。 在经济学中,均衡意即相关量处于稳定值。在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能将商品卖出去,此时我们就说,该商品的供求达到了均衡。此时的价格可称之为均衡价格,产量称之为均衡产量。均衡分析是经济学中的重要分析。 那么什么是博弈论的均衡呢?所谓博弈均衡,它是一稳定的博弈结果。均衡是博弈的一结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,因而是可以预测的。 纳什均衡是一最常见的均衡。它的含义是:在对方策略确定的情况下,每个参与者的策略都是最好的,此时没有人愿意先改变自己的策略。