第747章 计算机语言
精华书阁 www.jhsssd.com,最快更新重生之乘风而起最新章节!
第747章计算机语言
「或许还是需要进行人工干预,但是工作强度已经大大降低,我们可以通过拍照,扫描等方式,将生僻字的图片扫入计算机,让程序去分析它,最后得到标准点阵字,编码之后加入到字库当中,对字库进行扩充。」
「要实现这个功能需要有几个前提,第一就是字库当中要有足够的样本,这个我们已经已经完成,因为我们现在已经有了四万个标准点阵字的字稿。」
「还是拿《康熙字典》来举例,我们先将《康熙字典》上每一个单字的扫描图扫入文字识别系统,然后提取其字体参数特征,再将这些参数赋给已有的标准点阵字,让系统计算出根据这些参数产生的‘系统字"。」
「再拿这些生成的‘系统字",与‘扫描字"进行校验,通过四万个标准字生成的‘系统字",去验证参数的代表性,最后将参数调整到最佳。」
「得到参数体系之后,我们就能够将它套在扫描进来的生字上,最终得到《康熙字典》全部近六万个单字的标准点阵字,字库就从四万扩充到六万了。」
「这个思路倒是新颖,然而却也是可行的。」麦明川点头:「不过还是有问题,就是存储和运算。」
「我也拿《康熙字典》来举例,近六万个单字,就是近六万张图片,我们就拿一张图片五兆来计算,这就是300G的空间,这也太可怕了。」
「那王院长觉得,这个系统多大的图片存储容量,可以被接受呢?」
「一个G,」麦明川脱口而出,想了想觉得实在是有点欺负人:「最多最多,两个G。」
1G是1024,两百张5的图片,两G就是400张。
「也就是说,如果按照这个标准,这个系统能够一次同时完成四百个字的扫描分析和成字入库的工作?」
「那还得分串行并行。」李红江已经上套,开始思索程序的工作方式了:「涉及到时间成本,学校也不可能将有限的计算资源全拿来做这事儿。」
「那我们可不可以像上级求助呢?」周至问道:「我们先把基础工作做好,然后申请国家级的运算资源来完成它,有没有机会呢?」
「国家资源那更紧张,全国无数单位排队呢。」麦明川苦笑着摇头。
辜老说道:「那干脆这样,我们将工作再做细一点,肘子说的这个文字识别反向推算点阵字的程序咱们先缓一缓,第一步先集中精力把标准定出来。」
「与此同时,我们这边,再把现在的四万字稿扩到七万。」
「小李那边,抓紧先开发出读字稿的程序,咱们先把七万字稿的数字化工作完成。」
「之后再拿着这七万汉字的数字化成就,去跟那个统一码联盟谈判,并且要留够下一步继续拓展的空间,力争让我们的大字库成为全球统一标准。」
「有了这个大字库,咱们再制定出几个子集,满足国内国际不同应用场景的需求。到此我们的第一步工作是不是就算完成了?」
「至于肘子说的文字识别,那也相当重要。」辜振铎补充道:「这个可是我们下一步搞典籍数字化的神器啊!」
辜老不由得叹了一口气:「这不是资源有限,怕排不上嘛?」
「那也不一定。」周至说道:「咱们大可以将这些思路都给一股脑儿报上去,咱漫天要价,在等着部委落地还钱,取乎其上,得乎其中嘛!」
大佬们都哄笑起来,这肘子是懂部委的,要人家不拿捏你,百分之百满足你的要求,几乎都是不可能的,能够满足你五成那都是开恩了。
因此不妨将饼子划大一点,最后哪怕给砍(本章未完,请点击下一页继续阅读)
紧急通知:精华书阁启用新地址-www.jhsssd.com,请重新收藏书签!
为您提供大神二子从周的《重生之乘风而起》最快更新,为了您下次还能查看到本书的最快更新,请务必保存好书签!
第747章 计算机语言免费阅读.https://www.jhsssd.com