本文作者:无名渔夫

冷门行业,不用AI搞仙人跳的黑产没有梦想

无名渔夫 2020-06-22 4754
冷门行业,不用AI搞仙人跳的黑产没有梦想摘要: 1邻近年关,各家商家公司都最先搞大促,羊毛党和黑产们的狂欢日也要来了。究竟年终奖是个好东西,人人都想要。科技在提高,羊毛党和黑灰产也在提高。很不幸的是,大多数做黑灰产的都要比做防御...

1

邻近年关,各家商家公司都最先搞大促,羊毛党和黑产们的狂欢日也要来了。

究竟年终奖是个好东西,人人都想要。

科技在提高,羊毛党和黑灰产也在提高。

很不幸的是,大多数做黑灰产的都要比做防御的加倍起劲,种种最新的手艺,最前沿的科技实现方式,他们都市在第一时间去拿来搞钱。

究竟在款项的驱动下,不是人才,也是人才。


(黑产的起劲,你想象不到。泉源:腾讯云2019年DDoS威胁攻击讲述)

说真心话,做防御这一行,很蛋疼,也挺反人性的。

由于若是不出问题的话,实在做防御很难看出价值的;

若是出了问题的话,那就更没什么价值了,除了被丢出来背锅。

有时刻我甚至以为搞风控平安拿的不是人为,而是精神损失费。

尤其从难度上,损坏永远是比建设要容易的,修一座城要几十年,损坏只需要一把火,防御系统也是这样,做防守永远是要比做进攻要难。

而且对大多数人而言,做进攻比做防御好玩,不用思量营业个感受,想怎么攻击都可以,而且赚钱真的多许多,以是看着许多老同事成了新对手,我也以为挺魔幻的。

现在整个行业面临的风险情形,也在逐渐加大。


(腾讯灵鲲大数据平台,实时反映风险营业匹敌)

2

现在是大数据和云的年月,云服务已经是无可置疑的趋势,大量企业的所有营业和数据都市上云,这一方面代表了效率的提高,另一方面,代表的就是一旦泛起问题,风险的影响是更大的。

已往黑产去搞企业,撑死也就是几个后台页面,能获益有限。

现在黑产去搞企业,一旦拿到云的权限,基本上想怎么玩儿就怎么玩儿,而且风险还低。

人人在看到云的高效率的时刻,也得意识到,平安的挑战更大了。

效率自己没有善恶,做好事的效率高,那么一定坏事的效率更高。

讲几个故事吧,和黑产攻防有关,现在黑产也喜欢搞仙人跳了。


(黑产现状规模统计)

某着名的大型阛阓,在自己的超市里搞了一堆免费WIFI,主顾过来就可以毗邻,然则需要手机注册会员。

用免费WIFI换超市会员,实在是一笔划算的生意,这个营销增进思绪也是OK的。

但很快就被黑产盯上。

黑产进入阛阓去部署自己的WIFI,使用的名字和阛阓是完全一致的,同样是要你的账号密码来登录,登录事后,可以联网。

固然,不管你输入什么,实在都是可以登录的,由于黑产并不知道你的会员账号密码。

与此同时,黑产部署了一个假基站。

只要你在这个范围内,毗邻了这个假的WIFI,填写了你的手机号,就会有剧本自动去登录阛阓的会员系统,同时这个假基站就会对你的GSM短信举行挟制,获取你的短信验证码。

登录之后会自动替你领券,然后用券来套取优惠的利差。

我们都知道阛阓拉新是会发很大额的新手券的,支出了大量的补助成本,黑产就是要赚这个福利。

这是很大一笔收益。

而作为用户,你被仙人跳了。

更有趣的是,假基站装备和假WIFI装备是放在书包里的,被他们直接背着在阛阓里逛来逛去,赚够了之后出门打车就走了,下次换个阛阓。

厥后这个方式被发现,是由于阛阓上云之后,被系统自动识别出问题,由于泛起了大量的异常WIFI装备登录(正常WIFI是在白名单的),阛阓支出的价值是天文数字。

收获的是一群虚伪的注册用户,而真实的用户在注册的时刻反而会被提醒已经注册。

大额补助打水漂,还冒犯了用户,鸡飞蛋打。

3

第二个故事泛起在内容行业。

在现在这个年月,异常内容风险始终是最大的风险。

对于一切支持用户公布内容的,实在内容失控的风险都是存在的。

话题广场,论坛,谈论区,用户昵称,甚至私人对话,语音连麦,只要可以录入文字,图片,语音和视频的地方,就存在着失控的风险。

除了垃圾信息外,社区的异常谈话,直播里的敏感内容,音频里的隐匿色情,视频中的问题素材,甚至电商质料详情页的产物先容,全都是风险。

以是换一个角度,若是你想进攻你的对手,有没有加倍隐秘的方式呢?

对竞争对手做内容攻击就好了。


(御见平安运营中央(SOC))

使用机械录入的方式,在对方平台中灌入大量异常内容(文字图片音频视频),导致对方产物下架或者用户负面,属于借刀杀人的新玩法。

某着名种草社区,就面临了这样的进攻,下架了良久。

针对垃圾信息进攻,第一重防御是在文本阶段。

现在搞垃圾进攻的,全都是变体字+中英夹杂的,传统的词库审核是拦不住这个的,你怎么可能穷举呢?


(腾讯内容风控手艺剖析)

业内经典的文本分类算法,也许三种。

TextCNN、RNN、FastText。

其中文本攻击的特点是,短时间高频录入,使用顺序调整(汉字的序顺并不定一能影阅响读,你仔细看看),以及使用大量的异型符号来曲线转达垃圾信息。

在这种场景下,最适合的是方案TextCNN,由于对顺序不敏感,抗滋扰强,且结构简朴,推理速度快,你不能让用户守候几个小时才发内容,这样营业也不用做了。

但与此同时,还要做针对性训练。

1.基于字符、拼音的Word2Vec来解决同音字问题,汉字穷举不可能,然则拼音穷举照样简朴的。

2.提升抗滋扰能力使用高频字做拆字,例如【威信】中的2个字,拆成2个单一字作为变量来做核验。

例如只要泛起【信】这个字的内容,都要走二级计谋。

3.模子训练增添分外的场景变量,同样一个词,【死鬼】,我妈说我是死鬼和我妈说我爸是死鬼就是完全差别的场景。

以是在设计模子计谋的时刻,一定要有场景这个观点。

许多模子欠好使的要害节点就是没有场景观点,导致许多数据效果实在是过拟合的。


(腾讯天御内容风控文本平安的袭击原理,作为海内最大的内容平台,腾讯天天都在面临高强度的攻防)

4

讲完文本讲图片。

图片面临战主要袭击场景是色情低俗类。

由于图片是存在表示的,而且图片的要素是要远远多于文字的,而且图片自己的敏感点也是隐藏的,单纯使用简朴的过滤方式是不行的。

很简朴的原理,你要过滤胸部,只用白,圆等特征,可能馒头也完犊子了。

现在针对图片,应用最广的照样图像分类/目的检测算法+要害要素识别。


(腾讯云,图片风险内容识别手艺原理)

想想看,人是怎么熟悉猫的?

实在就通过猫的脸部特征,例如鼻子到眼睛的距离,双眼的距离,尾巴的长度,耳朵的形状,皮肤的颜色等等等等一系列方式,人知道,这种形态的生物,叫做猫。

同理,人脑是怎么识别色情图片的?

就是色情图片上有大量的要害要素,这些要素,才是焦点,其他内容都是无关紧要的。

例如下图,一个穿白色衣服的性感照,颜色,靠山都不主要,主要的是焦点露出的要素。


(人类真的是很会找重点的生物)

你会本能性的关注亮点,这个亮点,就是要害要素。

在模子上,就是要用Attention让模子加倍关注特定要素,例如上图的热力区域,就是所谓【漏沟】要素。


(腾讯云,图片风险提防手艺原理)

固然,要让机械熟悉到这种要素,最主要的就是教给机械作甚【漏沟】。

就和人熟悉猫一样,机械熟悉【漏沟】这个观点,也是需要比对大量的要素,例如衣服和皮肤的色差,裂缝和皮肤的距离,颜色漫衍和靠山的比对,这些要素需要打上标签,让机械分辨。

最前沿的做法是,设置ignore label抑制高频标签,降Loss反向流传权值,可以有用提升低频标签召回率提升,进而提升整体的识别效果。


(腾讯天御模子效果,黄图克星)

5

讲完图片讲视频和音频。

视频判别实在主要难度在于效率。

视频可以简朴理解为是大量高速闪动的图片,一个1分钟的视频,若是是24帧尺度影戏画质,可以拆解为60(秒)X24=1440张图片。

若是是60帧画质,可以拆解为60秒X60=3600张图片。

以是视频核验本质上就是高效率的图片核验。

那么问题来了,一个1分钟的视频,就要核验这么多的图片,那么若是要核验许多视频,基本上所有的服务器什么事情都不用做了,尤其是直播领域,都是实时的。

以是视频检测的焦点点就是交给机械若何合理的偷懒。

3600张照片,不需要每张都看,现实上人的眼睛也看不出每张的区别,只要做算法抽帧就可以了,3600张照片里,只需要抽100到200张匹配就可以了。

至于选取哪200张,这就是模子的艺术了。


2019土地市场十宗“最”!【年度盘点丨土地市场】


(腾讯云:天御内容风控)

音频同理。

若是说视频是动态的图片,那么音频本质上就是动态的文字。

人的大脑处置音频的方式实在就是把声音转化成文字,然后大脑识别文字,然后再通过文字脑补画面。

固然,讲骚话实在不是音频处置的真正场景,真的场景是娇喘等色情应用。

处置色情音频也是这样的。

1.VAD 做静音检测,去掉静音内容,给长度减肥,同时将音频分段。

2.然后检测音频特征,提取音频特征 MFCC/Fbank,往往娇喘是有特定频段,特定内容的,由于人的大脑能吸收到的频段和频率是有限的,啊啊啊啊啊和来大兄弟你愁啥,显著会有差别的效果。

3.然后做特征工程,把监测到的素材天生标签,基于GMM或者TDNN。

4.然后把特征和色情样板举行比对,输出一堆效果字段。

5.最后把效果字段通过算法来输出可疑分数,和文字内容

6.文字内容做模子比对,可疑分数依据计谋来cut off。


(腾讯云-色情音频识别效果,娇喘党哭晕在茅厕嘤嘤嘤)

现在主流的社区和音视频平台,若是还没有接入内容风控的话,基本上算是裸奔,可以等着由于你的平台上有人裸奔而倒霉了。

别笑,这种事情天天都在发生。

6

第三个故事和羊毛党有关系。

只要电商搞促销,就一定有羊毛党群集。


(黑产全链路防御模子)

然则你们知道么,羊毛产业链里虽然有无数的水军和线报群,然则群里种种的羊毛信息的源头是那里漏出来的?

不否认,确实是有内鬼这个征象,但许多时刻,破绽和规则是用AI来挖掘的。

羊毛党最上游的那些大佬,基本都是专业风控平安和手艺身世的,他们的进攻才是最恐怖的。

曾经某家电商做了促销,有优惠券,满100-20。

然则系统设置存在破绽,若是你用了这张券,然则退货了,则会弥补你20元的无门槛券,这时刻你可以买一个21元的商品,只需要花1元就能买到。

再例如,某着名连锁餐厅,曾经泛起过一个BUG,使用了他们的某个代码的优惠券之后,购置特定金额的产物,优惠券数字会转变,可以只花很少的钱喂饱6小我私家。

再例如,某着名生鲜电商,曾经泛起过拉新BUG,允许相同地址的人来频频刷新人优惠。

再例如,某着名互联网公司做拉新流动,1人只能抽1次奖,多抽需要分享到朋友圈,然则实测在某个H5页面举行退回操作,可以不分享也能分外获取机遇,有人一天抽了几十万次。

这些规则,单靠人脑去挖掘是异常浪费时间的。


(腾讯云-电商风险解决计谋)

而且AI的特点是什么?是善于大规模高频盘算,只要你制订好要素和想要的效果,AI就会无限次的实验种种方式,直到越来越靠近你要的效果,最终输出方案。

这天生就是为破绽挖掘而生。

人脑对于破绽的认知以及特点是有限的,或者说是缺乏想象力的,但人知道自己想要什么,以是把资料和效果给到AI时,AI就会去穷举所有的可能性,许多细小的,人意识不到的破绽,就这么被挖掘出来了。

例如围棋,AI是若何暴打人类的?就是由于AI在每一步都市举行一次盘算,然后选取可能性最大的模式来操作,只管这个操作是不符合常理的,但最终的胜利说明晰一切。

进攻也是云云,手段再怎么奇葩都不主要,主要的是,效果。

进攻,往往就需要这种突破头脑。

7

云时代,若何阻挡掌握了AI手艺的羊毛党?

在我看来,一共3重方案。

第一重解决方案很简朴,拔电源。

别笑,这是一个很严肃的解决方式,当你在软件层面阻挡不了对方的时刻,拔电源属于硬件解决方案。

只要你的服务器设计是支持异地多活和断点数据珍爱的,断电是异常好的模式,就像数据库迁徙最快最平安的方式是什么?

把硬盘拆下来,用货车运走。

进攻方都是无所不用其极,防守方应该加倍天真。

第二重方案,不把自己当人。

简朴来说,既然对方的进攻使用AI,那么防守也要使用AI。

羊毛党的破绽挖掘手艺说真的防不了,也不用防,只要在执行阶段举行阻挡就可以。

羊毛党再怎么找破绽,找到了破绽总归要执行。

执行只有2种方式,机刷和肉刷。

机刷实在稀奇容易阻挡,不说装备号,IP,这样的批量相似点,就说操作频次,营业路径,进入链接,订单信息,都可以用AI来举行阻挡。

同时比对统一个时间节点所有下单用户的信息,然后聚类把可疑订单群集起来,然后提取订单中的特征,然后再依据特征抓第二批用户。

接下来阻挡发货,守候阻挡用户的后续操作,再依据后续操作提取新的特征,进一步阻挡。

这内里大量的盘算,都是AI来完成的。

肉刷相对庞大,由于用户都是真人,操作特征和机械有典型的差别,若是说提防机刷只需要比对统一时间内所有用户的特征,算是横向。

那么提防肉刷,除了在这个基础上,还要再比对统一小我私家,在差别的时间线内,举行操作的异常。

举个例子,一个用户下了100单,其中20单是有刷单嫌疑的,那么这实在是个好人,虽然爱占廉价,封号是不合理的。

然则当这人的第101单,通过和已往的特征比对(例如特定地址,特定收货人,特定跳转路径等等等等),判断也许率为刷单,于此同时,泛起了大量和他一样的可疑用户(包罗用户自己和自己的比对以及横向用户和用户的比对),那么这一单,就要阻挡。

这恐怖的盘算量,同样要靠AI来实现。


(腾讯云AI平安矩阵)

第三重方案,放羊,吃肉。

这是我常干的事情。

羊毛党要刷,就让他刷好了,干嘛费劲儿不让人刷呢。

只要踩死掉他们的赢利渠道,让他们支出价值就可以了。

例如特定的流动里,专门设置发货规则,而且在规则中中设置大量的异常判断,有问题的,所有阻挡,资金N天后再到账。

例如某些存在现金收益的产物,设计套利规则为需要先付钱再套利,例如满100减80,有问题的票据全都阻挡提现,想提现带着实人认证来,经常可以套一大笔钱沉淀在账户,这钱也不能动,然则足够恶心人。

例如提现中,克制多账号提现到统一个金融类账号中,而且要求账号必须和本人实名一一对应,然后再控制拉新的奖励成本,可以有用让羊毛党一通操作除了缔造廉价日活没有任何其他意义。

例如规则设置中,对同样的坏用户,接纳完全差别的处置计谋,让他们也吃不准是哪个节点出了问题,滋扰他们对于规则的试探,许多时刻和履历老道的黑产交锋,只用传统计谋没有意义的,人家比你懂的多了。

实在我也憎恶防守,防守必须要做,不想着反扑羊毛党的风控,显然更有趣一些。

8

真正的重点在第四重。

进攻,进攻,照样进攻。

从进攻者的角度找问题。

我始终坚持以为,不明白进攻的平安从业者,是做不出真正的防守的。

防守自己就足够被动了,还干巴巴在家里坐着等人打上门来,异常愚蠢。

每一个平安从业者,都应该先去进攻,自己来进攻自己的系统,做攻防演练,以攻破为目的,一针见血,只有在这样的过程中,才气有着更强的防守。

给人人看看真正的黑产可以做到什么境界。

现在的黑产入侵已经可以做到组织一段包罗随便下令的条码,并将其编码到激光中,条码阅读器吸收激光后,会误以为扫到条形码,同时执行隐藏在其中的随便下令,从而攻入系统。合适的激光发射装置甚至可以在很远的地方提议这种攻击。

腾讯玄武实验室已乐成实现这种进攻模式。


当今盛行的屏下指纹,现实存在【残迹重用】的破绽,玄武实验室首次破解并完成命名。

这一破绽源头并非手机厂商,而是屏下指纹芯片厂商,是屏下指纹手艺设计层面的问题,会险些无差别地影响所有使用屏下指纹手艺的装备。行使该破绽,攻击者只需一秒钟就可解锁手机。

黑客行使反射体诱骗的方式,通过残存指纹痕迹作案。


(腾讯平安玄武实验室破解并命名残迹重用破绽)

只有对进攻了如指掌,才气做好防守。

没有进攻履历的防御,都是纸上谈兵。

9

适才我提到了硬件提防,云时代的风控平安,是软硬连系的产物。

我提到的故事里,第一个故事显著就是黑产使用硬件来举行的进攻,其中的软件难度极低。

真正的平安,应该是从硬件阶段,就尽可能杜绝风险泛起的可能性。

我举几个例子,你做内容平安风控,再NB的AI手艺,再猛的规则词库,都是软功夫,如果不能把APP的外露接口加密,黑产随时写剧本改内容,累死风控你也干欠好,你改规则永远没有人家进攻方用接口来往里灌快。

再例如如果有全套的决议引擎,无敌的规则设置,然则服务器上有后门,人家走流程直接不需要走你的营业流,你还怎么防守?

一个上半身无比壮硕的大个子,吃了一个扫堂腿,长得越高,摔的越惨。

再例如如果有全套的数据监控系统,然则数据库跳板机存在问题,被人入侵后你的数据监控系统就成了对方的竞争对手监控报表,许多互联网公司对于竞争对手的数据都是精准到秒级别的。

以是要做平安,就是软硬一起做。

硬件是身体,软件是精神。

脑子欠好,再强壮的身体也过欠好。

身体欠好,再伶俐的脑子也活不久。

全栈平安系统,是云时代必须要做的,腾讯云就是一个典型。


最后,说了这么多,实在也照样看老板的价值观。

究竟风控本质上是为营业服务,而且要投入大量的成本。

我是无名渔夫(微信/QQ:181628402)轩鼎创业旗下讲师,官方网站:https://www.wumingyufu.com/,感谢您一直以来对轩鼎创业的大力支持!更多干货可访问创业课堂https://www.chuangyeketang.com
文章版权及转载声明

作者:无名渔夫本文地址:https://www.wumingyufu.com/blog/11247.html发布于 2020-06-22
文章转载或复制请以超链接形式并注明出处无名渔夫

赞(12)
阅读
分享