用了三天的时间,吕辰等人,跑了6305厂产品中心、计算机所板卡设计室,又去了几家配套的电子元件厂。
每到一处,就是翻记录、看实物、问细节。
6305厂产品中心的戚工把厚厚一沓失效分析报告搬出来,堆在桌上像座小山。
吴国华一页一页翻,看到关键处就用红笔圈出来,在旁边写批注。
“金属线拐角断线,这个在KL-VU上出现了十几例,全是第二层金属拐弯的地方。”他指着电镜照片,“拐角内侧金属线明显变细,局部几乎断开。我们后来改了布线规则,拐弯处加宽线径,禁止小于135度的锐角拐弯。”
万人敌凑过来看了一眼,在本子上记了一笔:“拐角线径加宽,禁止锐角。”
“接触孔开路,三例。”吴国华翻到另一页,“钨塞填充不良,接触电阻比正常值大了两个数量级。原因是刻蚀深度不够,接触孔没有完全打开。后来调整了刻蚀时间,每批抽检孔深。”
郑长枫在一旁补充:“栅氧击穿,两例。针孔缺陷,漏电严重。这个不是工艺能解决的,是材料问题。硅片出厂时就有缺陷,后来换了供应商,加强了入检。”
万人敌把这些一条一条地记下来,字迹工整,每一个数字都核对了两遍。
计算机所板卡设计室,李工则把板卡设计中遇到的问题也摊了出来。
“电源板的IR drop最头疼。”李工画了一张图,“大电流走线太细,压降超标。仿真的时候用的理想模型,实际板卡做出来,远端电压比近端低了将近0.3伏。有些芯片在阈值边缘工作,时好时坏。”
“怎么解决的?”吕辰问。
“加粗电源线,多层板单独拿出一层做电源平面。”万人敌,“但这样板层数增加,成本上去了。后来折中,关键芯片就近放去耦电容,每个电源引脚一个0.1微法。”
郑长枫翻着图纸:“去耦电容的位置有讲究吗?”
“有。”李工从抽屉里拿出一张图纸,“越近越好,引线越短越好。我们后来的规范是,去耦电容到芯片电源引脚的距离不超过5毫米。”
郑长枫把这个数字也记了下来。
几家元件厂跑下来,问题清单越来越长。
晶体振荡器的温漂问题、连接器的接触电阻离散性、电阻电容的精度不足、继电器触点抖动……
每一条都被记录下来,按“工艺问题”“设计问题”“环境问题”“元器件问题”分类,标注严重程度和解决方案。
周五下午,五个人回到红星所,在吕辰办公室坐下,围着那张堆满资料的桌子。
吴国华把收集到的资料摞起来,用手拍了拍边角,码整齐。
“东西不少。得好好捋一捋。”
他话不多,但做事利索,这几天一直闷头记录,笔记本已经写满了大半本。
吕辰站起来,走到黑板前,拿起粉笔。
他先写了一个大标题,昆仑1硬件集成,紧急复盘与标准化。
“三天跑下来,问题摸得差不多了。”他转过身,“但问题是,这些东西不能只存在我们几个的脑子里。板卡设计五百多块,几十个人同时在画。每个人遇到同样的问题,都要重新踩一遍坑,那就完了。”
他用粉笔在黑板上画了几个方框。
“我提四个事,咱们今天定下来。”
第一件事,是建立《硬件设计禁忌清单》。
“昆仑1第三版芯片测试的所有故障模式,工艺的、设计的、环境的,全部整理成条目。”吕辰在黑板上写了几行字,金属线拐角断线、接触孔开路、栅氧击穿、硅片裂纹、封装键合线脱落。
“每一条禁忌,要写清楚现象、原因、解决方案、验证方法。”他顿了顿,“这不是参考,是红线。板卡设计的时候,每一条都要对照检查。违反红线的设计,一票否决。”
“这事我负责,芯片我最清楚。”吴国华把笔记本翻到新的一页,在上面写下“禁忌清单”三个字,画了个圈。
万人敌道:“禁忌清单要分等级。有些是致命的,犯了必死,比如源和地短路。有些是影响良率的,犯了不一定死,但可靠性下降。分等级,设计的时候就知道哪些绝对不能碰,哪些可以酌情处理。”
吕辰点头:“万工说得对。分三级。一级禁忌,绝对禁止,一票否决。二级禁忌,尽量避免,特殊情况下需要技术委员会批准。三级禁忌,建议遵守,作为设计优选的参考。”
吴国华在本子上记了一笔:“分级,一票否决。”
郑长枫补充:“还要配上典型案例。光写金属线拐角不能太锐没用,设计师不知道什么叫太锐。配图,把我们厂拍的电镜照片贴上去,拐角处金属线变细的那个,一看就懂。”
吕辰点点头:“禁忌清单,典型案例图,做成手册,人手一册。”
第二件事,是建立元器件库。
吕辰看着宇文坤德:“宇文工,这件事你牵头。所有元件的引脚定义、封装尺寸、电气特性、降额使用标准,全部标准化。”
宇文坤德点点头:“当前,板卡上能用到的元器件,都已经全部入库,电阻、电容、晶体、连接器、继电器等,我回头专门把昆仑1能用到的挑出来,再加上芯片,形成专库。”
万要敌问:“降额使用标准要细化,军用标准里降额因子分三级,我们按哪个执行?”
这个问题问到点子上了。
昆仑1可靠性要求高,但降额太狠,元器件数量就要增加,板卡面积不够。
吕辰想了想:“按一级降额的80%执行。电压降额20%,电流降额30%,功率降额40%。温度降额按工作环境上限再加20度。这是底线,不能更低。”
宇文坤德又道:“元器件库是动态更新的,设计师发现问题,填《元器件库问题反馈单》交给我。确认后修改库文件,版本号递增。所有历史版本都有保留,追溯方便方便。”
他想了想,又补充了一条:“芯片的封装尺寸是统一的,同一功能的芯片,封装一致。所有存储芯片都是24脚dIp,所有控制芯片都是40脚dIp,板卡设计可以复用布局布线。”
吕辰加了一句:“对,参照封装标准,板卡布局模块化。”
第三件事,是建立故障模式库。
吕辰在黑板上画了三个大括号,分别写上“工艺问题”“设计问题”“环境问题”。
“把所有收集到的故障模式,按这三类分类。”他用粉笔点着,“每一条故障,要附实测波形、切片照片、解决方案、验证结果。”
郑长枫点头:“这件事我负责,6305厂的失效分析报告我回去调用,万工,你帮忙提供板卡问题记录里,我整理出来,做成数据库。”
吴国华建议:“每条故障一个条目,编号、名称、分类、现象描述、根因分析、解决方案、验证方法、关联的禁忌清单条目,后面要打印存档。”
宇文坤德道:“故障模式库不光要有已解决的,还要有待解决的。有些问题现在没找到根因,但现象记录了,以后技术手段提升了再回头分析。”
郑长枫想了想:“未知原因的故障单独列一个分区,持续跟踪。”
第四件事,是建立测试向量库。
吕辰在黑板上写下最后一行字。
“昆仑1芯片第三版通过的测试向量,全部保留。”他转过身,“但不是按芯片组织,是按板卡功能重新组织。电源板、时钟板、总线背板、I/o板、存储板、运算板,每类板卡对应的测试向量,打包成独立的测试包。”
万人敌点头:“这个我来做。郑老师,6305厂的芯片级测试向量给我提供一套,我按板卡功能重新分类。有些测试需要跨板卡协同,要把相关向量组合起来。”
郑长枫点头:“没问题,依我看,测试向量库要和故障模式库联动。每个故障模式,对应的检测向量是什么?什么条件下能触发这个故障?这些信息也要整理进去。咱们两两互协作,以后做故障注入测试的时候,直接调对应的向量就行。”
万人敌在本子上记了一笔:“行,那咱们再做出来一个‘故障-向量映射表’。”
吕辰坐直了身子:“这四个库做出来,以后板卡设计、测试、排故,就不是靠个人经验了,是靠体系。我们不能让已有的成果归零。昆仑1不是做完了就完了,后面还有昆仑2、昆仑3。现在我们踩过的坑,以后的人不能再踩一遍。”
他看了看黑板上的四个方框,放下粉笔,拍了拍手上的灰。
“四个库,两周之内完成初稿。禁忌清单,国华牵头。元器件库,宇文工牵头。故障模式库,郑老师牵头。测试向量库,万工牵头。大家有没有问题?”
“没有。”
“行。周一正式开工。禁忌清单、元器件库、故障模式库、测试向量库,四个库,两周之内出初稿。这不是为了存档,是为了用。以后每块板卡的设计、测试、排故,都要基于这四个库来干。”
郑长枫站起来说:“我提个意见。”
他走到黑板前,拿起粉笔。
“星河cAd的使用时间,我想申请固定时段。”他在黑板上写了两行字,“每周二、周四晚上20:00到24:00,四个小时,固定给我们硬件组用。”
他转过身,看着吕辰:“昆仑1最复杂的电源板,IR drop分析和时序分析,手工根本做不了。星河cAd可以做,我想申请下来跑一下。只需要两周,就能把电源板的验证跑完,输出《电源分配网络设计规范》。”
吕辰想了想:“星河cAd现在被车载火控系统占着,现在机时紧张,但两周四天16个小时应该能协调出来,我去协调。”
吴国华肯定道:“两周足够了,电源板就那么大,关键的供电网络有限。我安排几个设计员配合上机,四个晚上,十六个小时,足够了。”
万人敌他站起来,走到黑板前,在白板笔写了几个字:火车头调试法。
“我提一个调试方案。”他转过身,“不需要等所有板卡就位再联调,先组装一条最小功能链。”
他在黑板上画了一个简图:“一块电源板,一块时钟板,一块总线背板,一块最简单的I/o板,一块存储板。五块板子,先装起来。”
他用粉笔点了点图上的几个模块:“先测电源,电压、纹波、上电时序。再测时钟,频率、抖动、各路相位差。然后加载最简单的微程序,比如‘读开关状态、点亮指示灯’这种。”
他顿了顿:“每增加一块板卡,就完整跑一遍已有的测试。这样,接口问题能尽早暴露,而不是等全装好了再黑盒排故。”
吴国华同意:“万工这个火车头思路好,咱们就从电源板、时钟板、总线背板开始,这三块最简单,可以先做。I/o板和存储板稍微复杂,但也可以提前。”
吕辰想了想:“电源板、时钟板、总线背板,多久能完成设计?”
万人敌笑道:“我回头去催催,争取在月内完成。”
“那就这么定了。”吕辰拍板,“电源板、时钟板、总线背板先做,做完马上加工。I/o板和存储板并行走,不拖后腿。”
万人敌坐回座位上:“板卡是没问题,芯片插座的设计得先出来!”
吕辰点了点头:“昆仑1只要5类芯片插座,我先安排下去,两周内能出来。”
宇文坤德:“我提一个训练方案。”
他在黑板上写了几行字:故障时间。
“每周五下午,两个小时,定为故障时间。”他转过身,“每次由一个人故意设置一个故障,拔松一颗芯片、断开一条信号线、降低一路供电电压、短路一个电容,然后在场的其他人,用示波器、逻辑分析仪定位故障。”
宇文坤德提高声音:“这不是折腾人,这是掐丝珐琅强电控制车间几年来摸索的道理,我们的强电控制控制柜在全国工业前线,面对恶劣的环境,能一直没出问题,皮实可靠,靠的就是这一套法子。”
郑长枫拍了拍手:“宇文工愿意贡献出独门绝计,我支持,这是训练大家的排故能力,设备出问题,没有时间翻手册、打电话求援。平时多练,战时才能快速定位。”
万人敌也点头:“故障模式库里的案例,可以直接拿来做素材。按真实的数据设置故障,排故的过程也能反过来验证故障模式库的准确性。”
吕辰在黑板上把“故障时间”几个字圈了起来:“这个方案我同意。周五下午,两个小时。故障设置人轮值,宇文工负责排班和记录。排故成绩计入月度考核。”
宇文坤德点了点头,坐下了。
最后,吕辰在黑板上写了一个词:信任界面。
“我再说一件事。”他转过身,“机柜正面,要设计一个诊断面板。”
他在黑板上画了一个机柜的正面图,在左上角画了一个小方块。
“面板上要有几排简单的LEd指示灯。”他用粉笔点着,“电源正常——绿灯。时钟正常——绿灯。总线空闲——黄灯。故障——红灯。”
他又在下面画了一个七段数码管:“故障板卡编号,用七段数码管显示。哪块板卡出了问题,扫一眼面板就知道编号,不用翻日志、不用接终端。”
他放下粉笔,转过身:“这是什么?这是信任界面。哪怕是技术领导来视察,也不需要看我们的日志、读波形。他站在机柜前面,扫一眼面板,就知道系统状态。”
他顿了顿:“更重要的是,这能让操作人员在第一时间知道系统出了什么问题,快速响应。不依赖终端,不依赖示波器,几个指示灯、一个数码管,就够了。”
郑长枫第一个点头:“吕工,这个诊断面板很有必要,LEd指示灯+七段数码管,显示系统状态和故障板卡编号。简单、直观、可靠。”
万人敌也同意:“这个对昆仑1的操作员很方便,他们不是工程师,他们不需要知道IR drop是什么,只需要知道哪块板卡坏了、换哪块,直观又迅速。”
吴国华用笔在本子上画了几下:“这个诊断面板设计成本低,效果好,我安排人做。”
吕辰点头:“行,国华记得告诉设计人员,诊断面板的设计原则就是傻瓜化,一眼看懂,不需要培训。”
他看了看黑板,上面密密麻麻写满了字。
禁忌清单、元器件库、故障模式库、测试向量库、星河cAd固定机时、火车头调试法、故障时间、诊断面板。
每一项后面都标注了负责人和完成时间。
“行了。”吕辰拍了拍手上的粉笔灰,“各就各位,干活。”
散会后,吕辰来到宋颜教授的办公室。
“小吕,什么事?”
“宋教授,星河cAd的机时,我想申请每周二、周四晚上20:00到24:00,四个小时,固定给硬件组用。昆仑1的电源板需要跑IR drop和时序分析,手工做不了。”
“行。我跟谢凯说,那四个小时给你们留着。但有一条,不能超时。到点就撤,后面的机时不能耽误。”
“明白。”
汇报完,吕辰回到办公室,他走到窗前,点了一支烟。
窗外,夜幕正在降临。
夕阳正把天边染成一片橘红。