当前位置:2018刘伯温心水图库 > 软件错误 >

信号奔命:软件存致命错误早晚必然要出事

  “7·23”事故怎样祸起信号?高铁信号系统寡头供货者为何疲于奔命?决策者现在何以进退两难?

  中国铁路通信信号集团公司(下称通号集团)的总经理、业内视为中国高铁信号技术的带头人,死在了“7·23”甬台温动车追尾事故一月祭的前一天——8月22日。

  当天上午,马骋正在深圳,与前来检查广深港客运专线的国务院高速铁路安全大检查组成员一起开会。据多位知情人士称,刚讲完话,他就倒在桌上。

  马骋没有心脏病史,却突发心脏病去世。熟悉的同业为之唏嘘:“压力过大,责任也过大。”在他死之前,通号集团正面临前所未有的信任危机。下辖的北京全路通信信号研究设计院(下称通号院)正是甬台温信号系统的设计者,通号集团则是集成商。

  在7月23日晚,一个致命的简单软件设计错误,导致甬台温的列车控制中心(下称列控中心)不能实时采集外部数据,并向调度集中系统(下称CTC)传输了错误信息。D301次动车的车载自动控制设备因此接到错误信号,仍按正常速度行驶,与前车D3115次动车追尾,终酿成一场40人死亡的特大事故。

  事故发生以来一个月,通号集团成为众矢之的。作为通号集团领导的马骋不堪重负,病发身故。昔日的信号精英如此收场,令人感喟。但致命的设计错误究竟为何发生?还有多少隐患没有暴露?无人敢下断言。谁又该为高铁承担责任?

  短短七年,通号集团与中国高铁为不断攀向更高速度的努力同步冲刺,表面上不断攻克一个又一个技术难关,但光荣背后,技术人员疲于奔命,力有未逮,终致惨剧。“7·23”事故暴露的不仅是通号院的软件设计缺陷,也是整个高铁发展不顾科学规律和常识、盲目追求速度下的险象环生。

  这种封闭运行的发展模式,也使决策者现在进退两难。“现在全国的高铁信号集成多半是他们的,一棍子打死,高铁的运营和技术支持怎么办?总不能全停了重新搞吧!(这种模式)已经绑架了铁路!”一位接近事故调查组的人士表示。

  从9月1日起,铁路调整运行图,高铁普遍降速,武广、郑西等高铁线公里运行,对高铁安全的担忧笼罩了一切。国务院牵头的高铁安全大检查在继续。但通信信号行业乃至整个铁路行业的垄断问题及招投标灰幕,则非补漏这般简单。对整个铁路系统而言,已经暴露的各种问题不仅是跃进之祸,也是垄断之祸,积弊丛生,新规待立。

  “7·23”事故调查组预计在9月间正式披露详细调查结果,但财新《新世纪》记者从接近调查组的人士处获悉了事故发生的过程。

  7月23日19时44分,上海甬台温调度台的调度接温州南站报告:车站联锁显示下行三接近红光带,车站调度集中系统(CTC)界面无显示。

  在铁路控制系统中,以线路钢轨为导体,构成轨道电路,两条轨道被列车的轮对短接,在控制系统中就会显示为红色,从而指示车辆的位置。但在绝缘损坏、雷电等情况下,可能造成无车路段的路轨短接,或者信号设备系统本身有故障,显示异常红光带或“闪红”。出现红光带的原因很多,或为前方路段有车,或为故障所致,调度往往难以判断。在这种情况下,调度应该采取保守做法,将其当做前面有车来处理。

  所谓“三接近”,则是指还有接近三个闭塞分区的距离。在列车的行车调度上,站与站之间被分成若干段,叫闭塞分区。每个分区的开头结尾都有信号装置,以红绿灯显示。每段分区一次只允许一趟列车通行。温州南站通信车间工作人员称,在永嘉站至温州南站这个路段上,每个闭塞分区的长度为1.4公里。有列车运行的闭塞分区,禁止其他列车进入,所以它后面的灯是一个红灯。紧接着的一个闭塞分区是黄灯,其次是黄绿灯,再后面才能是绿灯。

  车站联锁设备反映的是温州南站站内信息,车站值班员可以看到,而上海的调度看不到。上海调度中心只能看到CTC,它的信息来自各个站的车站CTC,而车站CTC分别从车站联锁和列控中心(反映站与站之间的区间信息,包括列车占用信息)获取信息。

  当时两者搜集的信息显然不一致——联锁显示的是红光带,而列控中心反映的是正常,虽然它们都从轨道电路获取信息,但从同一个继电器的不同节点获取信息。

  联锁显示的信息一直是正确的(显示异常红光带),但CTC主要从列控中心获取闭塞区间的信息,从前述调度信息看,“车站CTC无显示”即意味着联锁和列控中心有一个已经出了问题,但调度当时或许还没有意识到问题在于列控中心的信息采集已经不是实时更新。

  这是非常少见的情况。上海与温州的值班员看到这点后,19时53分转入非常站控状态,即在非正常情况下改由车站人工办理出发列车和进站列车作业。

  直到事故发生之后复盘,才确认列控中心设在温州南站的信息采集板保险丝被雷电击坏,导致信息采集出问题。

  据前述消息人士介绍,数据包传上来,通常有特殊的标志位来显示数据正常、非正常,能否采用。但是,温州南站的列控中心在采集这些数据包时未能识别出来。

  “如果识别出来,按照故障导向安全原则,就要把数据清零,即老数据清除, 显示红光带,后车D301应以20公里时速目视运行。问题是它没有识别出来,老数据没有清零,还显示正常,结果后车以ATP(车载)模式运行,高速行驶,最终追尾。”

  如果这个解释成立,雷击只是外部诱因,真正的原因是软件设计出了大问题。按安全设计,后车距离前车还有三个闭塞分区时,前方会显示为红灯。由于软件的逻辑错误,导致了主控软件得到并传给CTC的不是实时外部数据。

  一位信号专业人士分析指出,如果调度负责一点,天气瞭望条件好一些,这次事故也许不会发生。但软件的缺陷却是必然,早晚要出事。

  值得注意的是,CTC显示异常在列车停在永嘉站时已经发现了。“列控中心传输给CTC的信息是错的,CTC不知道,但是放车进入区间的调度员怎么会不知道?他放车进去了,但在CTC上没看到,难道不该引起注意吗?”前述接近调查组的消息人士称。在他看来,转为非常站控后,调度员、车站值班员、司机信息交流失误是事故最终未能幸免的关键。

  一般情况下,调度台应有调度员和助理调度员,前者负责列车运行计划、调整及指挥;后者负责监控列车运行和操作设备,比如转非常站控。转入非常站控后,车站值班员负责通知司机,但其间车站和调度员按规定应加强联络。

  然而,7月23日从19时27分至事故发生,温州南站和永嘉站先后三次转为非常站控,主要的行车指挥随之三次转换,造成调度员、车站值班员、司机三方对车所处位置互相沟通错误,并严重违反规定,在前车还未越过区间故障点时,后车就进入了故障区间。

  8月11日,国务院“7·23”甬温线特别重大事故调查组在温州召开第三次全体会议。调查组组长、国家安监总局局长骆琳在会上表示,造成事故的原因既有软件设计问题,也有管理问题。8月22日国家安监总局新闻发言人黄毅称,“这起事故确实是一起不该发生的、可以避免和防范的一起责任事故”,“既暴露出信号系统设计上的缺陷,从而导致雷击造成的故障问题,同时也反映出故障发生之后,应急处置不力以及安全管理上存在的漏洞。”他称,下一步将进入事故责任的认定阶段,包括直接责任、间接责任、领导责任。

  据消息人士介绍,8月10日事故调查组人员调整后,铁路人员全部离开,只配合调查;随着路外专家、领导的大量介入,调查接近了真相。

  在多位业内人士看来,事故中暴露的软件设计缺陷是一个比较低级的错误。“各厂家对安全性要求不同,但故障导向安全是最基本的原则,设计绝对不应出现这样的问题。”一位铁科院的专家称。他很难理解人才济济的通号院为何铸下如此大错,他猜,“设计人员缺乏经验,没有想到这种可能性,大家把重点放在了硬件上,硬件比较难,要保证硬件采取的信息准确,而软件是补漏的,重视不够”。

  至于这一设计问题为何没有在测试时被发现,一位信号专业人士称,厂家在产品开发阶段就应该进行故障测试,但现在一般不会做雷击这种破坏性试验,而只做系统功能测试。这个软件设计问题属于产品中模块设计的问题,从研制报告中很难看出是否安全合规。

  另一位专业人士分析认为,测试时间太短也是一个原因。“一般测试组只测试一两天,之后就开评审会,主要关注系统和产品功能,不会深入产品设计的细节问题。”

  据了解,国内目前在故障测试方面并没有统一标准,厂家自己判断需要做哪些测试,同时承担相应风险。通号集团在甬台温线上提供的这款列控中心产品LKD2-T1,并不是在其已研制多年的联锁平台上开发,而是在新的硬件平台上开发出来的。铁道部披露,58个车站、18个中继站使用了与温州南站相同的采集驱动板软件,涉及甬温、温福、海南、广珠四条客运专线。

  接近调查组的知情人士称,LKD2-T1确实存在缺陷,“由于仅仅做了功能性试验,没做破坏性试验,所以是否还存在其他的问题,在当前这种非常时期,谁也不敢打保票。”按照铁道部的规定,厂家对内部设计问题要终身负责。

  据悉,7月27日通号院就完成了硬件调整——对采集板加强了防护保障,下一步是对软件进行升级测试,但目前这四条客专采取的整改措施是临时性的,按照站间闭塞行车,即站间只准走一列车,而非以前的自动闭塞行车,这是在故障状态下采用的后备模式或降级模式。在安全为速度付出惨重代价后,为了安全,终于开始牺牲速度。

  用于甬台温线、由通号集团研制的LKD2-T1型列控中心,获得过2008年度中国铁道学会科学技术奖一等奖

  C2、C3掌管着高铁的神经中枢。如果不是“7·23”事故,C2、C3这两个专业名称,对很多人来讲都非常陌生。

  C即CTCS,是中国列车控制系统的英文缩写,包括地面设备和车载设备两部分。2004年初,铁道部颁发了《CTCS技术规范—总则(暂行)》,决定在铁路既有线级列控系统,同时提出了从C0到C4的技术等级,并规划了每个等级的基本功能。第六次大提速之前的列车控制系统被定义为CTCS0级(下称C0),车载设备主要为运行监控记录装置(LKJ),地面设备包括轨道电路、信号机和车站联锁系统,适用于时速120公里以下线公里以上的列车控制系统分别被定义为CTCS1(下称C1)和CTCS2(下称C2)。

  在第六次大提速之前,国内铁路主要依靠轨道电路向铁路沿线的信号机传递行车命令,列车司机参照信号机显示的信号颜色操作列车运行。提速到160公里和200公里之后,列车司机对地面信号机的颜色已难以辨认,为此铁道部从2004年开始决定研制新一代列车运行控制系统。

  当时,铁道部运输局官员、通号院、和利时、铁科院、北方交大等专家组成C2攻关组。一位业内专家告诉财新《新世纪》记者,“地面部分(包括列控中心、联锁、CTC等)全部是我们自己搞的,没有合资”。攻关组先确定了基本框架,然后各家分头设计。当时有五家机构参与设计——通号集团、和利时、卡斯柯、北京交大微联、铁科院通号所。

  据介绍,上述CTCS技术规范是参照欧洲标准ETCS(即欧洲列车控制系统)制订的。 ETCS分为E0、E1、E2、E3四个级别。C3的功能与E2基本一致,而C2则是自主搭建起来的体系,比E1的等级要高。

  一位信号系统资深人士说,C2技术挑战不算太大,主要是缺乏经验。“中国当时已经铺完了统一制式轨道电路,传输行车许可是连续的,所以条件比E1要好,我们加上应答器、列控中心、车载设备就可以了,搭建比较简单,技术难点不多。”

  但实际操作起来,问题仍然很多,因为以前没有做过列控中心,并无经验,连需要出台哪些技术规范都不清楚。

  与地面列控系统自主研发不同,在当时紧急推进的状况下,列控车载设备(ATP,列车超速保护)是通过合资的方式引进。

  2005年6月,通过国际招标,铁道部分别与和利时/日立、铁科院/株洲所/CSEE(法国电气与信号设备公司)两个联合体签署了ATP采购和技术转让合同,从国外引进列控车载设备和技术,合作期限15年,最终全部在中国生产。同年10月,铁道部又通过国际招标的形式,分别与通号院/阿尔斯通、和利时/CSEE、西安西门子三家联合体签订应答器设备采购和技术转让合同。

  两次国际招标采购,实行设备采购与技术转让相结合的方式,外方技术转让的知识产权归铁道部所有;铁道部要求竞标人必须有国外合作伙伴,其自身应具备消化、吸收受让技术和设备制造的能力,同时竞标人的外方合作伙伴应具备系统集成、设备研发和制造能力,提供技术支持和服务,对系统设备负安全责任。

  2005年11月,铁道部建立了C2的技术标准体系。但2006年初,铁道部在试验时即发现列控系统软件设计不合理,车载设备异常输出紧急制动,车载通信设备出现故障。当年7月在胶济线进行的列控中心综合试验中,又发现列控车载设备ATP软件存在漏洞,轨道电路信息传递不稳定。对上述问题整改后,铁道部在当年8月进行了补充实验,并组织专家成立试验报告评审会,认定C2列控系统“基本满足”规定的技术规格要求。当年9月29日铁道部召开“第六次大面积提速胶济线现场会”,开始全面部署第六次大提速。

  铁道部最初引进的列控车载设备控车的最高速度,为时速200公里。但在第六次大提速现场会后,2006年11月又决定对既有提速线路的部分区段进行进一步改造,将动车组的最高运行速度提高到时速250公里,又完成了一个跨越!

  随后,铁道部组织了和外方的第二次技术谈判,以解决列控车载设备对动车进一步提速的限制问题,最终于2006年12月底签订补充合同,对列控车载设备和动车组进行升级,经过模拟运行试验,完成了ATP设备应对250公里时速的升级改造。

  C2的研发必须跟上提速的进程。试验中出现的所有问题,铁道部都要求专家们必须在极短的时间内解决。2006年底,在铁道部进行的动车组拉通检查和牵引试验中,应答器报文变差引起了列车紧急制动26次,常规制动25次。2007年4月18日铁路第六次大提速开始后,列控车载设备又暴露出设备软件和应答器信息接收单元不稳定等多种问题。

  C2攻关的核心力量,正是通号集团下属的通号院。其研制的列控中心、CTC和车站联锁等C2子系统,均通过了铁道部组织的可行性审查和技术鉴定。公开资料显示,2008年1月21日,经测试组仿真测试及铁道部评审委员会审查,通号集团研究设计院研制开发的LKD2-T1型列控中心“基本满足”铁道部规定的技术规范要求,顺利通过铁道部审查,并获得2008年度中国铁道学会科学技术奖一等奖。

  2008年7月底,全新的客专C2系统在合宁线上第一次应用,此后在其他高铁线路上被广泛采用。铁道部一位退休官员认为,C2系统“当时技术并不成熟,但为了赶工期,没有充分考核就急急忙忙地上了,问题一直没有暴露,没想到一个雷给爆了出来”。

  通号集团在信号系统技术升级路线上打拼,也只是勉强跟上了铁道部提速的步骤,最终以边运营边解决问题的方式仓促上马

  2007年12月底,铁道部成立了C3系统攻关组。相对于C2,C3增加了RBC(无线闭塞中心)和GSM-R通信基站,采用无线日,铁道部科技司、运输局在北京组织召开《客运专线级列控系统总体技术方案》专家评审会,认为方案符合C3技术规范中提出的系统设计、产品实现、测试验证及验收确认等四个阶段的系统评估,是科学合理的。随后铁道部建立了仿真测试实验室,要在车载设备和RBC等关键设备国产化的基础上,创建具有自主知识产权的C3列控标准体系和技术平台。

  中国高铁的过快推进,令国外同业感到担心。国内高铁信号系统招标一般和通信、电力供电、牵引供电系统招标同时进行,合称四电系统集成招标。2007年,中铁建电气化局在承接郑西客运专线四电系统集成时,曾邀请西门子提供技术支持,但被其拒绝,理由之一即是郑西高铁四电系统部件供货商分散在世界各地,“用的是不同国家不同企业的东西,这样的集成我们做不了”。

  除了部件繁杂,工期的限制也成为国内四电系统集成面临的一个主要障碍。以郑西高铁为例,西门子的技术人员认为,“在如此短的时间内,要完成这样的系统集成是根本不可能的。”和利时轨道事业部经理徐悦在接受媒体采访时也曾表示,为了赶工期,国内高铁信号施工项目经常是“边定需求,边开发产品,边工程施工”,因此被称为“三边工程”。

  作为C3研发的主力,通号院遇到了很多挑战。列控技术主要包含两方面,一是地面技术,一是车载技术。通号院做联锁起家,一直以来地面技术比较强,突出以全路统一制式的ZPW-2000A轨道电路技术为代表;其车载技术不强。随着列控技术的演进,车载技术越来越成为主体,即信号控制技术逐步由地面控制为主转到以车载系统控制为主。为此,通号院成立了列车自动控制研究所,陈锋华担任所长。

  根据通号集团网站上的信息,陈锋华把C3的复杂性归纳为“三多”。第一是子系统多。C3系统由地面RBC无线闭塞中心、车载ATP等十余个子系统组成,每个子系统又由众多模块组成,总计多达上百个。第二是控制对象多。京沪高铁全线不含移动体在内,仅地面固定控制点就达到上万个。第三是接口多。C3系统各子系统并不是简单的堆积就可以实现系统功能,每个子系统间通过多维度、多层次的网络接口有机连接,才能形成一个完整的控制系统。这样一个巨型系统,需要同步数万个控制对象,使之协同工作。

  那段时间,他剃了光头。“我们原本期望在2009年8月C3高级功能试验完成以后,有关系统开发的问题就要全部解决,10月开始转入工程阶段,主要精力来解决工程问题。可10月初的时候,咱们的高级功能试验大毛病没有小毛病太多。每次领导来添乘,咱们从咸宁跑试验段一小段儿,都跑得胆战心惊的。就怕中间有一些ATPCU故障不可控,压力非常大。由于没有按预期完全彻底地解决系统开发的问题,把这些问题带到工程阶段以后,就把科研开发和工程阶段两股道的问题纠缠在一起,这也是武广项目比较难的一个比较大的原因。”陈锋华透露,试验过程中有时一天发现26个问题,晚上分析到2点以后。

  陈锋华很早就认识到,信号系统不稳定,问题有硬件方面的,也有软件方面的,但“主要还是软件方面的原因”。“我们虽然走了引进路线,但其实对老外来说武广也是挑战。第一他们也没有C3系统,第二,他们也没有这么长的路线跑这么高速度的动车组。好多东西我们都需要根据新的需求和新的要求,做好多修改……因为我们整个时间比较紧”。

  C3遇到的困难比C2要大得多。在“7·23”事故中出现的现象其实早已出现过。通号集团旗下的北京信号厂是通信信号产品的生产厂,在距离京沪高铁上海段试车不到30个小时的时候,现场技术人员陈强、魏小飞接到通知,赶往蚌埠南站更换列控程序。当他们在交换机上搜索时,发现安全数据网的右网不通,为了保障在动车试验前解决故障,两人连夜赶到定远站通宵排查。最后确定是由于TSR测试人员在徐州做TSR初始化时,安装的临时交换机没有拆下来,其交换机地址和中继53站的地址重合,而中继53站恰好是安全数据网右网的第一个站,因此在安全数据网连通之后把中继53站屏蔽了,造成整个安全数据网的右网无法工作。

  从C2到C3,通号集团尽管压力巨大,但回报丰厚。在“7·23”之前,高铁的创造者们更多地是在忙碌中分享这一令人目眩的盛宴——业内人士估算,通号集团至少占据了地面信号控制设备70%的市场,是最大的受益者。

  铁道部对通信设备制造行业实行准入制度,许可证由铁道部颁发。地面控制系统是中国自己开发的,不要求合资,内资即可参与。在时速低于200公里的路线年国内获得许可证的有通号集团、和利时、交大微联、铁科院通信所和卡斯柯五家;而此后获得C2许可证的只有通号集团、和利时和铁科院三家;到了C3就只剩下通号集团和和利时两家——和利时还只做列控中心与RBC,不做联锁、CTC等。

  国内一家铁路信号设备供应商称:“2010年之前,四电系统集成商虽然负责项目招标,但还要上报铁道部,将参与竞标的三家公司及报价上报铁道部,原则上集成商自身也没决定权,只是推荐,最终由铁道部运输局确定。”2010之后情况有所好转,需要在二级市场即交易所挂出招标公告,铁道部将权限下放给甲方,透明度提高,但是C3项目仍然没有在二级市场上招标。

  1998年与铁道部政企分开时,通号集团利润只有1459万元。2007之后出现爆炸性增长。2007年-2009年间,总资产从48.5亿元增至102.2亿元,净资产从18.6亿元增至33.8亿元,主营收入从42亿元增至79.4亿元,年均增长率都超过20%;而归属于母公司所有者的净利润则从2.12亿元增至6.42亿元,年均增长44.7%。2009年净资产收益率已达22.45%。到2010年,通号集团收入已增至120.5亿元、利润12.6亿元。

  2010年通号集团启动整体改制,成立通号集团股份有限公司,准备在国内上市,并引入了其他投资者——在45亿元的股本中,通号集团以净资产入股占96.82%,中国机械工业集团有限公司、中国诚通控股集团有限公司、中国国新控股有限责任公司分别出资4190万元占0.93%,中国国际金融公司旗下的直投机构——中金佳成投资管理有限公司出资1676万元占0.37%。

  这个考验,基层员工感受不深,但作为“信号技术带头人”的通号集团总经理马骋深知背负责任之重,生前曾在内部多次强调信号系统的安全责任,提醒员工“不要做历史罪人”。但最终事与愿违,“7·23”事故之后,午夜梦回,这套中国自主研发的C2、C3信号控制系统,是否还存在其他没有暴露的隐患?这应该是马骋最担心的问题。

  根据国务院8月12日下发的《关于开展高速铁路安全大检查的通知》,此次高速铁路安全大检查从发展改革委、科技部等12部委抽调人员,共组织12个检查组,检查范围为时速200公里以上的正在运营的高速铁路和在建项目(包括客运专项),检查对象包括北京、沈阳、郑州、武汉、西安、济南、上海、南昌、广州、成都十个铁路局和

  集团公司、中国北方机车车辆工业集团公司、中国铁路通信信号集团公司等设备生产厂家。调查将从8月中旬持续到9月中旬,具体行程由各检查组自行确定。9月中旬,也将是“7·23”事故调查报告预计正式公布的时间。

  一位业内资深人士闻知马骋的遭遇,颇为感慨:“可怜的信号人!信号在整个高铁中不过九牛一毛,现在因为温州动车的事被推到了前台,他们并不是真正的决策者!谁在那个位置上都得干,不愿意搞,马上被拿下。刘志军的口头禅是:你能不能干?不能干让能干的人来!所以马骋作为信号的老前辈,还是既务实又拼命的人,现在也不幸了!”

  8月23日,通号集团发出讣告。8月24日上午9点,简朴的遗体告别仪式在深圳殡仪馆大礼堂举行。礼堂内摆满花圈。参加告别仪式的有200多人,包括国务院国资委副主任黄淑和、铁道部副部长卢春房,国务院副总理发来唁电并送花圈。一位领导在讲话中称,“他为中国通信事业鞠躬尽瘁、奉献一生……他一直把铁路安全放在首位。”

http://kingkaiju.com/ruanjiancuowu/285.html
点击次数:??更新时间2019-06-11??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】