阿里研制AI技能0.15秒辨认阻拦外语脏话图掩盖近30个语种

发布时间：2025-05-08　点此：948次

一年多前，阿里巴巴世界安全内容风控小二小荷（化名）在用户交互场景发现了特别的为躲避渠道检查的“脏话”事例。

她的作业是凭借技能和规矩辨认与打扫影响明亮清明环境的违规内容，刚开始，一些小广告和口吐芳香的脏话仅仅以文字方法呈现，后来跟着对立晋级，一些脏话嵌入到图片中，乃至会运用多国言语进行假装。

为处理这个问题，阿里安全进行了多语种辨认技能晋级。近来，阿里安全算法团队宣告，其研制用于网络脏话的AI（OCR）技能，已能辨认近30种言语，包括嵌入图片中的英文、阿拉伯、俄语、法语、西语、日语、韩语、泰语、越南语、波斯语、孟加拉、尼泊尔、僧伽罗、朝鲜、苏丹、德语、荷兰语，以及马来语、塔加洛语、土耳其语、意大利语、印尼语等国言语，乃至还包括三种我国少量民族言语。

在部分世界渠道中，“买家”在产品谈论中以英语谈论图谩骂，或许在交互场景中，买卖双方以俄语脏话图片对阵。世界渠道风控团队和算法团队复盘了许多事例，发现除了多语种脏话，多语种废物广告以及不良信息也会隐藏在图片中，企图对立风控。

全球有几百种言语，要点的言语也有几十种，一个作业人员最多知道三四种言语，在世界化场景下，靠人工辨认风险图片是不现实的，多言语辨认的技能需求应运而生。

图（左）为俄语脏话示意图图（右）为隐藏英语脏话的谩骂图

阿里安全高档算法工程师沄帆介绍，要辨认多语种文字，就要了解各个言语文字特色，以及影响算法辨认的问题。每种文字系统都有自己的字体，不同字领会导致同一字符呈现字形上的差异，例如下左图展现了汉字“字”在不同字体时的形状，以及手写文字中的字符改变。下右图则展现了俄语字母在手写体和印刷体时的差异，红框标出了部分字符会呈现字形上的巨大改变。

不同字领会导致同一字符呈现字形上的差异（图片来历：网络）

“字符衔接导致字形改变，不同文字系统，书写及阅览次序是不同的，这些都会影响AI辨认和对语义的判别。”沄帆说。例如，相同的单词在不同的语种里也或许有不同的意义，“jammer”在荷兰语里是“惋惜”的意思，但是在英语中是“信号屏蔽器”，或许触及违规。

“曾经没有多语种辨认功用的时分，咱们如果把这个口语词直接阻拦，或许会形成‘误杀’，脏话图辨认也是如此，要根据语种来判别。”小荷说。

除此之外，还有脏话图以置换正常字符次序，对立风控的状况呈现，如下图所示，即便互换字符次序，人仍是能够垂手可得地判别单词的意义，但这种“进犯”企图以打乱字母次序的方法骗过机器辨认。

对立的脏话图

当然，要练习如此多语种的辨认模型，并处理多种对立状况并不简单。技能团队既要确保好的辨认作用，又要尽或许进步核算功率及操控本钱，处理好练习样本及模型计划的问题。

经过一年多尽力研讨，阿里安全算法团队对这些点进行了逐一打破，经过改善多言语样本生成计划与多语种辨认模型结构，在多种图片言语的辨认上做到了高辨认率，以及做到辨认1张脏话图只需0.15秒的速度，现在该技能也已使用在阿里多项世界事务中，整体辨认准确率可达95%以上，并对各种艺术字体、杂乱布景以及手写图进行了针对性辨认优化。

其实，脏话阻拦仅仅多语种OCR辨认技能使用的场景之一，阿里安全世界风控小二文萱介绍，在交互场景里，违规信息中还有大部分归于废物信息。

现在，根据阿里安全的算法才能，每天仅单个世界渠道就为全球用户阻拦几万次包括风险、谩骂、废物文本的多言语脏话图片。阿里安全图灵实验室算法负责人薛晖表明：“等待以科技立异处理实践事务问题，协助造就更好的网络环境和网络安全。”

告发/反应