致力于数据治理领域的持续创新,为用户提升智能安全的价值分享!
联系电话:400 100 6790
行业动态
数据治理难题之图片数据如何分类?
发布时间:2018-12-26

2016 年,现任最高人民法院院长周强曾在 提出“智慧法院”这一概念,并于同年纳入了《国家信息化发展战略纲要》和《“十三五”国家信息化规划》。


智慧法院


充分发挥人工智能作用,以高度信息化方式支持司法审判、诉讼服务和司法管理,实现全业务网上办理、全流程透明化、全方位智能服务的人民法院管理运作模式。


2018 年以来,在宁波市中级人民法院的大力支持下,香港六宝大典资料大全以宁波市北仑区法院为试点,与法务人员通力合作开发法院电子卷宗管理系统,将人工智能技术与法院日常业务相结合,用以解决档案室卷宗堆积带来的困扰。


电子卷宗管理系统通过扫描将诉讼材料等转化为图像信息,再利用OCR文字识别技术将图像信息转化为可编写的电子文档,最后通过对这些文字进行语义分析等,完成所有卷宗的整理归档。


但是由于目前市场上OCR技术不够成熟,一些图片和手写字体的材料基本无法识别,影响了卷宗管理系统的工作效率。为此,我司联合国防科技大学共同开发了一款以机器学习为核心的软件——图片分类器。


相信大家都听说过谷歌的AlphaGo,它是第一个战胜围棋世界冠军的机器人,主要工作原理是“深度学习”(一种特殊的机器学习方法)——多层人工神经网络和训练方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。

这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。


那么话说回来,机器学习对我们遇到的图片分类问题有什么帮助呢?


在了解机器学习怎么实现对图片的分类的原理之前,我们首先的普及一个基本知识。


计算机并不认识图片,计算机的世界里面只有0和1,而图片由像素点组成,对于普通的位图(bitmap),每一个像素点的数据在计算机中是以红绿蓝(RGB)三色外加透明度(也就是Alpha通道,简记为A)进行存储的。


RGBA四项分别由0-255的值表示,不同的RGB配比将显示为不同的颜色,A值从0-255代表了从完全透明到完全不透明。


从0到255,恰好是256个数,也即2的8次方,也就是说本质是8位二进制数。所以说一个像素点在计算机中由32位二进制数表示。最终8的N倍位二进制数组成一张图片。


机器在对图片进行分类之前,首先需要进行模型训练:人工挑选一些图片,并将这些图片进行分类,机器拿到这些分类图片后,得到这些图片的二进制;通过卷积矩阵等多种计算方式,得到每一类型图片的特征值,在排除与其它类别的干扰后即得到关于特征值和分类模型之间的关系。


然后在识别某一张图片的时候,根据这张图片的特征值,与模型库对比,最终预测这张图片的结果。在程序的运行之中,还可以根据模型和特征值的匹配度以及预测结果来不断改进分类模型,使分类效果更准确,分类速度更快。

 

通过这个图片分类器,我们就可以识别OCR无法识别的图片,提高卷宗管理系统的识别准确率,极大地减轻人工工作量,也提高了法院工作人员的工作效率。


香港六宝大典资料大全(简称“世平信息”),致力于智能化数据管理与应用的深入开拓和持续创新,为用户提供数据安全、数据治理、数据共享和数据利用解决方案,帮助用户切实把握大数据价值与信息安全。


返回上级

  浙ICP备12037013号    浙公网安备 33010602004144号   版权所有:2010-2019 | 香港六宝大典资料大全  网站地图