冷门行业,不用AI搞仙人跳的黑产没有梦想

无名渔夫 2020-06-22 4754

默认

摘要： 1邻近年关，各家商家公司都最先搞大促，羊毛党和黑产们的狂欢日也要来了。究竟年终奖是个好东西，人人都想要。科技在提高，羊毛党和黑灰产也在提高。很不幸的是，大多数做黑灰产的都要比做防御...

邻近年关，各家商家公司都最先搞大促，羊毛党和黑产们的狂欢日也要来了。

究竟年终奖是个好东西，人人都想要。

科技在提高，羊毛党和黑灰产也在提高。

很不幸的是，大多数做黑灰产的都要比做防御的加倍起劲，种种最新的手艺，最前沿的科技实现方式，他们都市在第一时间去拿来搞钱。

究竟在款项的驱动下，不是人才，也是人才。

（黑产的起劲，你想象不到。泉源：腾讯云2019年DDoS威胁攻击讲述）

说真心话，做防御这一行，很蛋疼，也挺反人性的。

由于若是不出问题的话，实在做防御很难看出价值的；

若是出了问题的话，那就更没什么价值了，除了被丢出来背锅。

有时刻我甚至以为搞风控平安拿的不是人为，而是精神损失费。

尤其从难度上，损坏永远是比建设要容易的，修一座城要几十年，损坏只需要一把火，防御系统也是这样，做防守永远是要比做进攻要难。

而且对大多数人而言，做进攻比做防御好玩，不用思量营业个感受，想怎么攻击都可以，而且赚钱真的多许多，以是看着许多老同事成了新对手，我也以为挺魔幻的。

现在整个行业面临的风险情形，也在逐渐加大。

（腾讯灵鲲大数据平台，实时反映风险营业匹敌）

现在是大数据和云的年月，云服务已经是无可置疑的趋势，大量企业的所有营业和数据都市上云，这一方面代表了效率的提高，另一方面，代表的就是一旦泛起问题，风险的影响是更大的。

已往黑产去搞企业，撑死也就是几个后台页面，能获益有限。

现在黑产去搞企业，一旦拿到云的权限，基本上想怎么玩儿就怎么玩儿，而且风险还低。

人人在看到云的高效率的时刻，也得意识到，平安的挑战更大了。

效率自己没有善恶，做好事的效率高，那么一定坏事的效率更高。

讲几个故事吧，和黑产攻防有关，现在黑产也喜欢搞仙人跳了。

（黑产现状规模统计）

某着名的大型阛阓，在自己的超市里搞了一堆免费WIFI，主顾过来就可以毗邻，然则需要手机注册会员。

用免费WIFI换超市会员，实在是一笔划算的生意，这个营销增进思绪也是OK的。

但很快就被黑产盯上。

黑产进入阛阓去部署自己的WIFI，使用的名字和阛阓是完全一致的，同样是要你的账号密码来登录，登录事后，可以联网。

固然，不管你输入什么，实在都是可以登录的，由于黑产并不知道你的会员账号密码。

与此同时，黑产部署了一个假基站。

只要你在这个范围内，毗邻了这个假的WIFI，填写了你的手机号，就会有剧本自动去登录阛阓的会员系统，同时这个假基站就会对你的GSM短信举行挟制，获取你的短信验证码。

登录之后会自动替你领券，然后用券来套取优惠的利差。

我们都知道阛阓拉新是会发很大额的新手券的，支出了大量的补助成本，黑产就是要赚这个福利。

这是很大一笔收益。

而作为用户，你被仙人跳了。

更有趣的是，假基站装备和假WIFI装备是放在书包里的，被他们直接背着在阛阓里逛来逛去，赚够了之后出门打车就走了，下次换个阛阓。

厥后这个方式被发现，是由于阛阓上云之后，被系统自动识别出问题，由于泛起了大量的异常WIFI装备登录（正常WIFI是在白名单的），阛阓支出的价值是天文数字。

收获的是一群虚伪的注册用户，而真实的用户在注册的时刻反而会被提醒已经注册。

大额补助打水漂，还冒犯了用户，鸡飞蛋打。

第二个故事泛起在内容行业。

在现在这个年月，异常内容风险始终是最大的风险。

对于一切支持用户公布内容的，实在内容失控的风险都是存在的。

话题广场，论坛，谈论区，用户昵称，甚至私人对话，语音连麦，只要可以录入文字，图片，语音和视频的地方，就存在着失控的风险。

除了垃圾信息外，社区的异常谈话，直播里的敏感内容，音频里的隐匿色情，视频中的问题素材，甚至电商质料详情页的产物先容，全都是风险。

以是换一个角度，若是你想进攻你的对手，有没有加倍隐秘的方式呢？

对竞争对手做内容攻击就好了。

（御见平安运营中央（SOC））

使用机械录入的方式，在对方平台中灌入大量异常内容（文字图片音频视频），导致对方产物下架或者用户负面，属于借刀杀人的新玩法。

某着名种草社区，就面临了这样的进攻，下架了良久。

针对垃圾信息进攻，第一重防御是在文本阶段。

现在搞垃圾进攻的，全都是变体字+中英夹杂的，传统的词库审核是拦不住这个的，你怎么可能穷举呢？

（腾讯内容风控手艺剖析）

业内经典的文本分类算法，也许三种。

TextCNN、RNN、FastText。

其中文本攻击的特点是，短时间高频录入，使用顺序调整（汉字的序顺并不定一能影阅响读，你仔细看看），以及使用大量的异型符号来曲线转达垃圾信息。

在这种场景下，最适合的是方案TextCNN，由于对顺序不敏感，抗滋扰强，且结构简朴，推理速度快，你不能让用户守候几个小时才发内容，这样营业也不用做了。

但与此同时，还要做针对性训练。

1.基于字符、拼音的Word2Vec来解决同音字问题，汉字穷举不可能，然则拼音穷举照样简朴的。

2.提升抗滋扰能力使用高频字做拆字，例如【威信】中的2个字，拆成2个单一字作为变量来做核验。

例如只要泛起【信】这个字的内容，都要走二级计谋。

3.模子训练增添分外的场景变量，同样一个词，【死鬼】，我妈说我是死鬼和我妈说我爸是死鬼就是完全差别的场景。

以是在设计模子计谋的时刻，一定要有场景这个观点。

许多模子欠好使的要害节点就是没有场景观点，导致许多数据效果实在是过拟合的。

（腾讯天御内容风控文本平安的袭击原理，作为海内最大的内容平台，腾讯天天都在面临高强度的攻防）

讲完文本讲图片。

图片面临战主要袭击场景是色情低俗类。

由于图片是存在表示的，而且图片的要素是要远远多于文字的，而且图片自己的敏感点也是隐藏的，单纯使用简朴的过滤方式是不行的。

很简朴的原理，你要过滤胸部，只用白，圆等特征，可能馒头也完犊子了。

现在针对图片，应用最广的照样图像分类/目的检测算法+要害要素识别。

（腾讯云，图片风险内容识别手艺原理）

想想看，人是怎么熟悉猫的？

实在就通过猫的脸部特征，例如鼻子到眼睛的距离，双眼的距离，尾巴的长度，耳朵的形状，皮肤的颜色等等等等一系列方式，人知道，这种形态的生物，叫做猫。

同理，人脑是怎么识别色情图片的？

就是色情图片上有大量的要害要素，这些要素，才是焦点，其他内容都是无关紧要的。

例如下图，一个穿白色衣服的性感照，颜色，靠山都不主要，主要的是焦点露出的要素。

（人类真的是很会找重点的生物）

你会本能性的关注亮点，这个亮点，就是要害要素。

在模子上，就是要用Attention让模子加倍关注特定要素，例如上图的热力区域，就是所谓【漏沟】要素。

（腾讯云，图片风险提防手艺原理）

固然，要让机械熟悉到这种要素，最主要的就是教给机械作甚【漏沟】。

就和人熟悉猫一样，机械熟悉【漏沟】这个观点，也是需要比对大量的要素，例如衣服和皮肤的色差，裂缝和皮肤的距离，颜色漫衍和靠山的比对，这些要素需要打上标签，让机械分辨。

最前沿的做法是，设置ignore label抑制高频标签，降Loss反向流传权值，可以有用提升低频标签召回率提升，进而提升整体的识别效果。

（腾讯天御模子效果，黄图克星）

讲完图片讲视频和音频。

视频判别实在主要难度在于效率。

视频可以简朴理解为是大量高速闪动的图片，一个1分钟的视频，若是是24帧尺度影戏画质，可以拆解为60（秒）X24=1440张图片。

若是是60帧画质，可以拆解为60秒X60=3600张图片。

以是视频核验本质上就是高效率的图片核验。

那么问题来了，一个1分钟的视频，就要核验这么多的图片，那么若是要核验许多视频，基本上所有的服务器什么事情都不用做了，尤其是直播领域，都是实时的。

以是视频检测的焦点点就是交给机械若何合理的偷懒。

3600张照片，不需要每张都看，现实上人的眼睛也看不出每张的区别，只要做算法抽帧就可以了，3600张照片里，只需要抽100到200张匹配就可以了。

至于选取哪200张，这就是模子的艺术了。

2019土地市场十宗“最”！【年度盘点丨土地市场】

（腾讯云：天御内容风控）

音频同理。

若是说视频是动态的图片，那么音频本质上就是动态的文字。

人的大脑处置音频的方式实在就是把声音转化成文字，然后大脑识别文字，然后再通过文字脑补画面。

固然，讲骚话实在不是音频处置的真正场景，真的场景是娇喘等色情应用。

处置色情音频也是这样的。

1.VAD 做静音检测，去掉静音内容，给长度减肥，同时将音频分段。

2.然后检测音频特征，提取音频特征 MFCC/Fbank，往往娇喘是有特定频段，特定内容的，由于人的大脑能吸收到的频段和频率是有限的，啊啊啊啊啊和来大兄弟你愁啥，显著会有差别的效果。

3.然后做特征工程，把监测到的素材天生标签，基于GMM或者TDNN。

4.然后把特征和色情样板举行比对，输出一堆效果字段。

5.最后把效果字段通过算法来输出可疑分数，和文字内容

6.文字内容做模子比对，可疑分数依据计谋来cut off。

（腾讯云-色情音频识别效果，娇喘党哭晕在茅厕嘤嘤嘤）

现在主流的社区和音视频平台，若是还没有接入内容风控的话，基本上算是裸奔，可以等着由于你的平台上有人裸奔而倒霉了。

别笑，这种事情天天都在发生。

第三个故事和羊毛党有关系。

只要电商搞促销，就一定有羊毛党群集。

（黑产全链路防御模子）

然则你们知道么，羊毛产业链里虽然有无数的水军和线报群，然则群里种种的羊毛信息的源头是那里漏出来的？

不否认，确实是有内鬼这个征象，但许多时刻，破绽和规则是用AI来挖掘的。

羊毛党最上游的那些大佬，基本都是专业风控平安和手艺身世的，他们的进攻才是最恐怖的。

曾经某家电商做了促销，有优惠券，满100-20。

然则系统设置存在破绽，若是你用了这张券，然则退货了，则会弥补你20元的无门槛券，这时刻你可以买一个21元的商品，只需要花1元就能买到。

再例如，某着名连锁餐厅，曾经泛起过一个BUG，使用了他们的某个代码的优惠券之后，购置特定金额的产物，优惠券数字会转变，可以只花很少的钱喂饱6小我私家。

再例如，某着名生鲜电商，曾经泛起过拉新BUG，允许相同地址的人来频频刷新人优惠。

再例如，某着名互联网公司做拉新流动，1人只能抽1次奖，多抽需要分享到朋友圈，然则实测在某个H5页面举行退回操作，可以不分享也能分外获取机遇，有人一天抽了几十万次。

这些规则，单靠人脑去挖掘是异常浪费时间的。

（腾讯云-电商风险解决计谋）

而且AI的特点是什么？是善于大规模高频盘算，只要你制订好要素和想要的效果，AI就会无限次的实验种种方式，直到越来越靠近你要的效果，最终输出方案。

这天生就是为破绽挖掘而生。

人脑对于破绽的认知以及特点是有限的，或者说是缺乏想象力的，但人知道自己想要什么，以是把资料和效果给到AI时，AI就会去穷举所有的可能性，许多细小的，人意识不到的破绽，就这么被挖掘出来了。

例如围棋，AI是若何暴打人类的？就是由于AI在每一步都市举行一次盘算，然后选取可能性最大的模式来操作，只管这个操作是不符合常理的，但最终的胜利说明晰一切。

进攻也是云云，手段再怎么奇葩都不主要，主要的是，效果。

进攻，往往就需要这种突破头脑。

云时代，若何阻挡掌握了AI手艺的羊毛党？

在我看来，一共3重方案。

第一重解决方案很简朴，拔电源。

别笑，这是一个很严肃的解决方式，当你在软件层面阻挡不了对方的时刻，拔电源属于硬件解决方案。

只要你的服务器设计是支持异地多活和断点数据珍爱的，断电是异常好的模式，就像数据库迁徙最快最平安的方式是什么？

把硬盘拆下来，用货车运走。

进攻方都是无所不用其极，防守方应该加倍天真。

第二重方案，不把自己当人。

简朴来说，既然对方的进攻使用AI，那么防守也要使用AI。

羊毛党的破绽挖掘手艺说真的防不了，也不用防，只要在执行阶段举行阻挡就可以。

羊毛党再怎么找破绽，找到了破绽总归要执行。

执行只有2种方式，机刷和肉刷。

机刷实在稀奇容易阻挡，不说装备号，IP，这样的批量相似点，就说操作频次，营业路径，进入链接，订单信息，都可以用AI来举行阻挡。

同时比对统一个时间节点所有下单用户的信息，然后聚类把可疑订单群集起来，然后提取订单中的特征，然后再依据特征抓第二批用户。

接下来阻挡发货，守候阻挡用户的后续操作，再依据后续操作提取新的特征，进一步阻挡。

这内里大量的盘算，都是AI来完成的。

肉刷相对庞大，由于用户都是真人，操作特征和机械有典型的差别，若是说提防机刷只需要比对统一时间内所有用户的特征，算是横向。

那么提防肉刷，除了在这个基础上，还要再比对统一小我私家，在差别的时间线内，举行操作的异常。

举个例子，一个用户下了100单，其中20单是有刷单嫌疑的，那么这实在是个好人，虽然爱占廉价，封号是不合理的。

然则当这人的第101单，通过和已往的特征比对（例如特定地址，特定收货人，特定跳转路径等等等等），判断也许率为刷单，于此同时，泛起了大量和他一样的可疑用户（包罗用户自己和自己的比对以及横向用户和用户的比对），那么这一单，就要阻挡。

这恐怖的盘算量，同样要靠AI来实现。

（腾讯云AI平安矩阵）

第三重方案，放羊，吃肉。

这是我常干的事情。

羊毛党要刷，就让他刷好了，干嘛费劲儿不让人刷呢。

只要踩死掉他们的赢利渠道，让他们支出价值就可以了。

例如特定的流动里，专门设置发货规则，而且在规则中中设置大量的异常判断，有问题的，所有阻挡，资金N天后再到账。

例如某些存在现金收益的产物，设计套利规则为需要先付钱再套利，例如满100减80，有问题的票据全都阻挡提现，想提现带着实人认证来，经常可以套一大笔钱沉淀在账户，这钱也不能动，然则足够恶心人。

例如提现中，克制多账号提现到统一个金融类账号中，而且要求账号必须和本人实名一一对应，然后再控制拉新的奖励成本，可以有用让羊毛党一通操作除了缔造廉价日活没有任何其他意义。

例如规则设置中，对同样的坏用户，接纳完全差别的处置计谋，让他们也吃不准是哪个节点出了问题，滋扰他们对于规则的试探，许多时刻和履历老道的黑产交锋，只用传统计谋没有意义的，人家比你懂的多了。

实在我也憎恶防守，防守必须要做，不想着反扑羊毛党的风控，显然更有趣一些。

真正的重点在第四重。

进攻，进攻，照样进攻。

从进攻者的角度找问题。

我始终坚持以为，不明白进攻的平安从业者，是做不出真正的防守的。

防守自己就足够被动了，还干巴巴在家里坐着等人打上门来，异常愚蠢。

每一个平安从业者，都应该先去进攻，自己来进攻自己的系统，做攻防演练，以攻破为目的，一针见血，只有在这样的过程中，才气有着更强的防守。

给人人看看真正的黑产可以做到什么境界。

现在的黑产入侵已经可以做到组织一段包罗随便下令的条码，并将其编码到激光中，条码阅读器吸收激光后，会误以为扫到条形码，同时执行隐藏在其中的随便下令，从而攻入系统。合适的激光发射装置甚至可以在很远的地方提议这种攻击。

腾讯玄武实验室已乐成实现这种进攻模式。

当今盛行的屏下指纹，现实存在【残迹重用】的破绽，玄武实验室首次破解并完成命名。

这一破绽源头并非手机厂商，而是屏下指纹芯片厂商，是屏下指纹手艺设计层面的问题，会险些无差别地影响所有使用屏下指纹手艺的装备。行使该破绽，攻击者只需一秒钟就可解锁手机。

黑客行使反射体诱骗的方式，通过残存指纹痕迹作案。

（腾讯平安玄武实验室破解并命名残迹重用破绽）

只有对进攻了如指掌，才气做好防守。

没有进攻履历的防御，都是纸上谈兵。

适才我提到了硬件提防，云时代的风控平安，是软硬连系的产物。

我提到的故事里，第一个故事显著就是黑产使用硬件来举行的进攻，其中的软件难度极低。

真正的平安，应该是从硬件阶段，就尽可能杜绝风险泛起的可能性。

我举几个例子，你做内容平安风控，再NB的AI手艺，再猛的规则词库，都是软功夫，如果不能把APP的外露接口加密，黑产随时写剧本改内容，累死风控你也干欠好，你改规则永远没有人家进攻方用接口来往里灌快。

再例如如果有全套的决议引擎，无敌的规则设置，然则服务器上有后门，人家走流程直接不需要走你的营业流，你还怎么防守？

一个上半身无比壮硕的大个子，吃了一个扫堂腿，长得越高，摔的越惨。

再例如如果有全套的数据监控系统，然则数据库跳板机存在问题，被人入侵后你的数据监控系统就成了对方的竞争对手监控报表，许多互联网公司对于竞争对手的数据都是精准到秒级别的。

以是要做平安，就是软硬一起做。

硬件是身体，软件是精神。

脑子欠好，再强壮的身体也过欠好。

身体欠好，再伶俐的脑子也活不久。

全栈平安系统，是云时代必须要做的，腾讯云就是一个典型。

最后，说了这么多，实在也照样看老板的价值观。

究竟风控本质上是为营业服务，而且要投入大量的成本。

我是无名渔夫（微信/QQ:181628402）轩鼎创业旗下讲师，官方网站:https://www.wumingyufu.com/,感谢您一直以来对轩鼎创业的大力支持！更多干货可访问创业课堂https://www.chuangyeketang.com

文章版权及转载声明

作者:无名渔夫本文地址：https://www.wumingyufu.com/blog/11247.html发布于 2020-06-22
文章转载或复制请以超链接形式并注明出处无名渔夫

海报

阅读

相关推荐

中视频日赚1000+方法揭秘，会抄作业就行！

普通人如何在相亲类项目分一块蛋糕？

steam互联网项目是真是假

烟盒回收项目，被丢掉的“财富密码