安全生产科技创新型中小企业
国务院特贴教授级高工郭春平:机器人违章均衡作业状态分析预测(图文版)
来源: | 作者:郭春平 | 发布时间: 2019-05-15 | 968 次浏览 | 分享到:

摘要:为了分析预测未来智能与人类相当的机器人进行生产作业时会不会违章,以安全监管极其严格、用刑法等法律手段“反违章”的煤矿井下生产作业为样本,应用博弈论研究分析发现:任何煤矿井下的安全员与作业人员都要进行有限博弈,都符合纳什均衡存在定理要求的条件,都存在纳什均衡,即安全员与作业人员之间存在所谓违章均衡。参考监管博弈理论,推导出违章均衡的数学表达式,该式表明作业人员按照一定概率进行违章作业。应用大数定律分析得出:违章作业事件在足够长的时间和空间内一定发生,即:不仅遵章作业是作业人员的博弈策略,违章作业也是博弈策略之一。以智能与人类相当的机器人代替安全员或作业人员后,根据“等量代换原理”分析推理可知:违章均衡仍然存在。所以,智能与人类相当的机器人采煤时也必然会违章作业,只有“傻机器人”不会违章。所以,应当在设计机器人的初期,就同步设计机器人抗违章技术结构。社会上绝大部分行业监管严格程度远低于煤矿井下生产作业,违章作业更为方便,违章均衡的存在具有普遍性。

关键词:机器人 违章均衡 纳什均衡 智能 违章



山西省办公厅关于“煤矿井下电气设备抗违章保护技术及对策”建议的答复

        安全监管极其严格、用刑法等法律手段“反违章”的煤矿井下,违章作业已成为“第六大灾害”,2016年5月国家安监总局公布:90% 以上的事故由人的不安全行为造成,也就是“违章”作业造成;专家研究指出:95%的事故由违章原因造成;作者研究表明,违章带电作业造成90~95%的电气火源(花),引发约43.29~45.7%的瓦斯爆炸。在当前的煤矿安全生产中,预防违章主要方法是进行大规模安全检查,大打“人海战”,但违章事故仍时有发生。一些人把预防违章的希望寄托在机器人身上,认为“机器人听话”,机器人采煤时不会违章作业。本文认为:作业人员采煤时存在违章均衡规律,智能与人相当的机器人采煤时也会出现违章均衡状态,也必然有违章作业行为发生。

山西省省长楼阳生在山西“两会”上与山西省政协委员郭春平亲切握手

下面先分析井下作业人员存在违章均衡的必然性,然后预测智能与人相当的机器人作业时的工作状态。具体分析如下:

1.作业人员在煤矿井下作业时存在违章均衡

本文作者曾提出“违章概率不可能等于零”观点,意思是:任何一个煤矿、在一定时间内(如一个月、一季度、一年或三年等),一定会发生违章;任何一个井下作业人员、在足够长的时间内(如1年、3年或5年等),至少发生过一次违章作业。任何一个队阻,在一定时间内,至少有一个人会发生违章。

管理水平高的煤矿与一般煤矿相比,只有违章次数或违章概率大小的差别,没有不违章的煤矿;安全素质高的井下作业人员与一般作业人员相比,只有违章次数或违章概率大小的差别,没有不违章的井下作业人员。经多年观察,“违章不可能等于零”观点符合实际情况。如上所述“90~95%的事故由违章原因造成”,也说明在实际的安全生产中,违章的存在具有必然性。违章作业存在的必然性已被事实证明。但作者未见到理论上严密的证明,理论上能否予以证明?下面用博弈论中著名的纳什均衡理论试证明之。

为了便于理解纳什均衡理论,可先读一下两个著名故事,“囚徒困境”及“警察与小偷”。



囚徒困境:

  说是两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。

 于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。但这个条件却是无法达到的,因为它不能满足人类的理性要求。
       囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。


警察与小偷的故事:

说的是某个小镇上只有一名警察,他负责整个镇的治安。现在我们假定,小镇的一头有一家酒馆,另一头有一家银行。再假定该地只有一个小偷。因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能去一个地方。若警察选择了小偷偷盗的地方巡逻,就能把小偷抓住;而如果小偷选择了没有警察巡逻的地方偷盗,就能够偷窃成功。假定银行需要保护的财产价格为2万元,酒馆的财产价格为1万元。警察怎么巡逻才能使效果最好?

一种最容易被警察采用而且确实也更为常见的做法是,警察对银行进行巡逻。这样,警察可以保住2万元的财产不被偷窃。但是假如小偷去了酒馆,偷窃一定成功。这种做法是警察的最好做法吗?答案是否定的,因为我们完全可以通过博弈论的知识,对这种策略加以改进。

警察的一个最好的策略是,抽签决定去银行还是酒馆。因为银行的价值是酒馆的两倍,所以用两个签代表,比如抽到1、2号签去银行,抽到3号签去酒馆。这样警察有2/3的机会去银行进行巡逻,1/3的机会去酒馆。

而在这种情况下,小偷的最优策略是:以同样抽签的办法决定去银行还是去酒馆偷盗,与警察不同的是抽到1、2号签去酒馆,抽到3号签去银行。这样小偷有1/3的机会去银行,2/3的机会去酒馆。

 “囚徒困境”中囚徒互相揭发的行为,及“警察与小偷”中的双方博弈行为,都是纳什均衡,都有所谓“自觉遵守性”,这是一种是客观规律,不以人的意志为转移。如果参与博弈的各方构成某一个纳什均衡,由于纳什均衡具有“自觉遵守性”,各方在足够长的博弈过程中,一定会自觉采用该纳什均衡战略互相博弈。

注意,要求“足够长”的过程是因为实施完成纳什均衡战略,必须占用一定的时间和空间,其次是很多纳什均衡战略是随机函数,如“警察与小偷”的纳什均衡战略。随机函数表现出其随机规律,也需要“足够长”的时间和空间。下面将会多次用到“足够长”这个概念。

所以,只要是纳什均衡战略,那么,无论在理论上,还是在实际的“足够长的过程中”,就一定是客观存在的。下面用该逻辑分析研究“违章存在的必然性”。

逻辑是:如果博弈存在纳什均衡,那么,该纳什均衡战略必然存在。例:如果囚徒困境中两个囚徒之间的博弈存在纳什均衡,那么,经过足够长的过程,该纳什均衡战略“互相揭发”就会发生,换句话说,也就是“互相揭发”现象必然存在。按此逻辑分两步进行如下分析研究。

第一步,分析证明任何一个煤矿的安全员与专业人员之间都存在纳什均衡。

分析:任何一个煤矿都是根据其生产条件配备直接生产人员及服务生产的人员(下面统称:作业人员),并按一定比例配备相应的安全员。从他们在井下一起工作开始,就构成了博弈双方。安全员的具体工作方法虽然有定期(不定期)检查、突击抽查、巡回检查等多种多样,但总的看,在足够长的时间内(如一个月、一季度、一年或三年),安全员博弈战略只有检查不检查(包括不去检查、未检查到某地方或某人,或安全员休息不工作)两种;作业人员对付安全员的办法,即作业人员博弈战略,也是两种:违章与不违章,不违章包括:遵章作业和不工作休息。


安全员和作业人员都是按照劳动定额配置的,人员数量肯定是有限的,绝不会是无限的,并且各煤矿的安全员定额数量都比作业人员定额数量小的多,山西一些煤矿是按照煤矿年生产能力配备的,生产量大的煤矿安全员就多,北京的原煤矿规定一般约为3%左右。

根据博弈论可知,任何煤矿的安全员与作业人员都构成了博弈双方,并且是参与人数有限及博弈战略有限的有限博弈。进一步举例说明如下:

任选一个煤矿进行分析研究,其作业人员与安全员双方都是有限个人员参加:假如作业人员是x名,安全员就是约kx名左右,k是配备安全员的比例,如北京原煤矿的k=0.03。约kx名安全员与x名作业人员,就展开了博弈。若:x=1000名,安全员就是约1000k名,设k=0.03,安全员就是约30名。1000名作业人员与约30名安全员展开博弈。

其博弈战略有限:如上所述,各有两种:违章、不违章和检查、不检查。

根据以上分析,列出分析证明步骤如下:

∵任何煤矿的安全员与作业人员都构成了有限博弈。

而,纳什均衡存在定理指出:“每一个有限博弈至少存在一个纳什均衡(纯战略或混合战略)。且,据混合战略定义知,纯战略是混合战略的特例。

任何煤矿的安全员与作业人员之间至少存在一个纳什均衡

∵安全员与作业人员的博弈是“监督博弈”

∴其纳什均衡是监督博弈混合战略纳什均衡
即:监督博弈纳什均衡是:


a是作业人员应为煤矿作的贡献,贡献值=作业人员创造的总价值(元)-作业人员的实际总收入(元)。为了计算方便,也可用下式代替:

该矿作业人员实际工作时间(小时)*工资(元)/小时*煤矿平均利润率;

C是检查成本,为了计算方便,可按该矿每月安全员工资计算;

F是违章成本,可按该矿月罚款数量计算。

当然,也可以根据实际情况,用其他数据计算。

监督博弈纳什均衡表示:在足够长的时间内(如1年或3年等),安全员以 a/(a+F)的概率检查,作业人员以C/(a+F)的概率选择违章。或者说:任一煤矿井下都有许多作业人员,其中有C/(a+F)比例的工作人员选择违章,(1-C/(a+F))比例的工作人员选择不违章。安全员与作业人员“自觉遵守”,动态中稳定运行。为进行违 章行为深入研究,把该纳什均衡称作“违章均衡”


郭春平(左一)在北京大学国家发展研究院毕业典礼大会上获高级管理人员工商管理硕士(EMBA)学位

      第二步,用概率理论分析证明违章事件在足够长的时间和空间内一定发生。

据以上分析可知:违章事件γ发生的概率是:




发生违章的可能性;对任何一个井下作业人员(如电工),在足够长的时间内,如200天,实际发生违章的天数在200*C/(a+F)左右;对足够多的井下作业人员(如100个电工),在足够长的时间内,如一年内,实际违章电工人数在100*C/(a+F)左右波动。

根据大数定律,参照以上分析证明方法,可以证明所有混合战略纳什均衡都具有“自觉遵守性”。

“混合战略的纳什均衡战略自觉遵守性”的数学分析证明:

根据概率论与数理统计理论可知,所有混合战略的纳什均衡战略都是随机变量。如:纳什均衡战略警察按一定概率抓小偷,就是一个随机变量,而警察在具体的某时某地抓小偷是一个具体的事件。根据以上“大数定律”可知,在足够长的时间内,或足够大的空间内,混合战略的纳什均衡战略表现为具体的事件,一定会发生,其发生频率收敛于该纳什均衡战略的概率。也就是自觉遵守纳什均衡战略进行博弈。

因为,任何纳什均衡都有自觉遵守性,违章尽管对安全十分有害,但它与监管构成了“坏的纳什均衡” ,即:违章均衡,所以,作业人员就会“自觉”地违章。

2.与人的智能相当的机器人作业时也会出现违章均衡状态


当前,机器人智能离人类还有很大差距,尤其是创造性思维,机器人基本没有。但是,随着科技发展,总可以进行如下假设:

机器人的智能与人类的智能相当,为了分析研究方便,上述煤矿的其它条件不变,而把博弈的一方:“作业人员”用“与人的智能相当的机器人JZ”代换,即:

作业人员=JZ

根据数学中的“等量代换”理论,即:


其中:f是合式公式广义的等量代换,举例来说就是:“如果李四是张三的同义词,张三是人,那么李四也是人” 。

推理:如果用JZ等量代换作业人员后,因为作业人员要同安全员博弈,并存在纳什均衡,所以,JZ也要用“违章、不违章战略”同安全员进行博弈,并也存在纳什均衡,即存在违章均衡。在足够长的时间和空间内,JZ违章事件也一定会发生。

如果把博弈的另一方“安全员”用“与人的智能相当的机器人JA”代换,即:

安全员= JA

同理可证:JZ也要用“违章、不违章战略”同JA进行博弈,并也存在违章均衡。在足够长的时间和空间内,JZ违章事件也一定会发生。

因此,可得出:JZ和JA,与作业人员和安全员一样,也要博弈,也存在违章均衡,上述分析证明得出的结论都可适用在机器人上。


郭春平在北大学习期间与北大教授林毅夫合影

结论:

(1)违章均衡是纳什均衡的一种特例,在足够长的时间内安全员以某一概率检查,作业人员以另一概率选择违章。或者说:任一煤矿井下都有许多作业人员,其中有某一比例的工作人员选择违章,有另一比例的工作人员选择不违章。双方构成违章均衡,保持动态平衡。

(2)智能与人类相当的“机器人”作业时的也存在违章均衡,不论是那一个智能与人类相当的“机器人”,在煤矿井下或其它有利于违章的环境都会违章作业,只有违章概率大小的差别,而不可能不违章作业。只有“傻机器人”才不会违章作业。有软件就有杀毒软件,有发动机就有制动系统,有“机器人”,也必须有制约“机器人”的环节。在开发“机器人”初期,就应考虑机器人违章(或误操作)问题,同时考虑“抗违章”问题,同步开发可实现“抗违章”功能的人工智能环节,开发“抗违章机器人”,使“机器人”“想违章(或误操作)干不成,即使违章(或误操作)也造不成事故”。即使是“傻机器人”,也须注意预控“傻人办傻事”,即预控误操作。

(3)社会上绝大部分行业的监管严格程度远低于煤矿井下生产作业,这些行业的作业人员,主观认为通过违章作业可获得比煤矿井下更大的预期违章受益,所以,一定要与该行业的安全员进行更激烈的有限博弈。根据纳什均衡存在定理推理,绝大部分行业一定普遍存在违章均衡。智能与人类相当的机器人在这些行业作业时,违章作业也将普遍存在。

郭春平简介:

郭春平,国务院特殊津贴专家,北大EMBA,教授级高工,全国工商联执委,山西省政协委员,中国发明协会会员,发明了“开盖传感器”、“防治带电作业及瓦斯爆炸的抗违章系统”等40余项专利技术产品,入选“山西省新兴产业领军人物”,获“山西省中国特色社会主义建设者”称号。
手机:13513549806  邮箱:gcp.007@163.com


智能抗违章保护技术系统图