版权所有:vwinbaby2018_vwin德赢app手机版_德赢vwin客户端世界杯版

AI说你的书法有咖喱味丨看字识国别

郭一璞 发自 凹非寺

在电影《大侦探福尔摩斯》中,福尔摩斯能够根据两个英文字母的笔迹,判断书写者的才能与性格特点,识破对手的伪装。

上图中,下面的表格是前人研究的方法测试结果,可以看出,针对数据集中的每个国家,笔迹识别准确率都在40%左右,没有过半;

降噪后提取笔画线条,识别字体数据的四种特征:距离因素、主成分分析(PCA Direction)、通过Cloud of Line Distribution软件进行的线分布特征、描边特征,通过分类器判断属于五个国家的哪一种。

正如上图的例子所示,每个国家的人写英文风格都有所不同。

而通过COLD分析笔迹关键点,可以变为极坐标系的展示形式,而五国笔迹的极坐标系图有巨大差别:

比如,中国人写英文就像写汉字,横平竖直,尤其是在“f”、“l”、“d”这些字幕上,竖着的笔画顶天立地一般。

75%的准确率并不是一个多么好看的数字,何况这是仅仅建立在5个国家的基础上的。

毕竟,人们对这项技术的应用还有疑虑。或许它可以用在刑侦领域,以字迹结合人脸识别、生物识别等技术来判断犯罪,但字迹的识别只能作为参考,有误判的可能性。

于是,他们根据笔画的特征,设计了下面这样一套方法:

不过,字迹作为个人的数据也可以被用来做营销。想想去银行填单子的时候留下了多少字迹,或许他们就会用字迹判断国家,进而给你推送理财产品呢。

但是,你听说过AI也能判断笔迹了么?

一个跨国研究团队通过机器学习的算法,让机器从英文手写的字迹中判断书写者来自中国、印度、马来西亚、孟加拉国和伊朗中的哪个国家。

垃圾短信是可能再不会收到了,可正常的各类通知短信同样也无法接收了。在实名认证普遍推行的今天,无法接收通知短信就意味着很多互联网服务无法使用,造成的困扰不可谓不大。也许正是以为抓住了用户的软肋,某些服务商才有底气在用户讨说法时,不是赶紧解封,而是需要用户保证不再举报,“店大欺客”姿态尽显无遗。

研究者们找了每个国家100份英文书写文本,总共500份数据。

五国人书写的英文描边特征有巨大的区别。

研究者们统计了一下这个方法的准确率:

当然,对于拉黑举报用户的做法,不能仅仅限于曝光与举报,职能部门应该迅速介入。当务之急是恢复用户接收通知短信的功能,确保用户能行使正当权利。其次,要对服务商拉黑举报用户的行为加以调查,责令其对给用户造成的损失加以赔偿,同时也要对其拉黑举报用户行为施以惩处,另外还要调查清楚是否还存在拉黑其他举报用户的行为。最后,要进一步加大对垃圾短信治理的力度,不仅要使举报渠道更加畅通,确保举报事项件件有回音,而且还要从源头着手,规范第三方短信发送服务商的行为。

而印度人和孟加拉人写的英文则完全不同,就像绣花一样,笔画圆润、上下起伏明显。

这个团队包含中国、印度和马来西亚研究人员,其中两名中国研究者分别来自河海大学和南京大学。

如此神奇的笔迹理论听起来像是玄学,恐怕只能在小说电影中出现。现实社会中,利用笔迹来破案倒不是一件稀罕事。

综合所有特征,五国笔迹就有了他们特有的矢量特征:

在最后的测试中,这套方法的确识别出了不少各种各样的字体:

识别笔迹的国家到底有什么用?

Cloud of Line Distribution(COLD)是一个分析笔画的软件,可以分解单个字母,测量笔画的垂直度和弯曲度,进而判断写字者的国别。

“将用户拉入黑名单是出于对投诉率的考虑”,可见用户的举报在服务商眼中颇具“杀伤力”。可其不是通过改进服务来降低投诉率,而是粗暴地将举报用户拉入黑名单。这种“不解决问题而是解决提出问题的人”的做法,是典型的鸵鸟思维和霸道行为,本以为能减少投诉,实则只会给自己招来更多的非议。这次被媒体曝光、舆论谴责,就是简单粗暴思维与做法的代价。

准确率比前人算法翻倍

这项研究的基础是来自中国、印度、马来西亚、孟加拉国、伊朗五个国家的数据集。

上方的表格则是这次研究者们的测试结果,每个国家的笔迹识别准确率都在60%以上,平均达到了75%。

用户举报是治理垃圾短信的重要组成力量,可如果举报的后果换来的是自己进入服务商的黑名单,正常的通知短信接收服务都无法使用,那无疑会消解这支重要的用户监督力量,从而让治理效果大打折扣。因而,有关部门有必要强化监督管理,来为举报用户撑腰,让服务商不敢再胡作非为。