上海证券交易:前程无忧手撕天风证券:大数据爬

  临近年末,在喜迎2019的一片祥和气氛之中,你周围有没有朋友被裁员?类似这样的:

  这样的新闻还有很多,反正就是一堆大公司其中不乏很多明星公司和独角兽都在进行组织结构的优化和人力资源的缩减。

  在11月的时候,有一家叫天风证券券商发布了一个宏观研究报告,这个报告主要是讲现在的就业情况的,名字叫做《消失的招聘广告——从招聘平台看就业状况》。

  报告里讲了,天风证券的宏观分析师经过爬虫数据分析,发现今年4月-9月共消失了202万个招聘广告,其中二线城市下降的最快,所以排除季节性因素之外,更应该关注二线城市的就业问题。

  天风证券还说,50-500人的中小企业的经营问题和可能带来的就业问题,比大型企业和微型企业更加严峻。民企招聘广告数量占比下降,国企占比不变。凭借招聘广告数据,我们既能看出短期政策和宏观风险的微观影响,也能看出长期的转型升级和产业趋势。

  其实,招聘广告的发布数量本来就跟企业的用人情况有一定的相关性,所以天风证券分析师的这个报告逻辑还是能够立得住的。

  这个报告的数据是怎么得来的呢?天风证券去找了一家第三方的数据公司,叫做造数科技,造数科技从4 月到9月,在前程无忧(51job)平台上共爬取了894万个招聘广告,其中一线%,二线%,三四五线%。

  所以,天风证券这个报告里所有的数据分析和结论,都是基于造数科技通过爬虫技术爬下来的这894万条招聘广告生成的。

  天风证券的这份报告一经发布,很多媒体纷纷跟进,到底受关注到什么程度呢?刚才来咖小编找了我们数据合作团队网矿科技,请他们帮忙爬了下这篇报告传播的数据,传播量还是比较大的。

  截至到2018年12月27日15时,针对《消失的招聘广告——从招聘平台看就业状况》这个报告,共有387篇报道。参与报道本事件的媒介渠道中,排名前3的分别是网络新闻(314篇,81.1%)、移动App(35篇,9%)、自媒体(28篇,7.2%)。在新闻渠道中,境内新闻占比99.72%,境外新闻占比0.28%。本事件的网民阅读量已经达到12,915,204次。

  涉及的媒体TOP5分别是搜狐、新浪财经、虎嗅网、东方财富300059股吧)网和凤凰网。

  另外,网民的参与度是指本事件传播过程中,网民参与有关点赞、转发、评论等行为方面的衡量指数。本事件中,网民参与度的主要高点为2018-12-07和2018-12-08。网民参与热度变化趋势如下图所示:

  从我们爬下来的数据看,本事件还没有中央媒体参与报道。参与报道的其他媒体类型中,商业门户有115篇(33.82%)、社交媒体有29篇(8.53%)、地方媒体有16篇(4.71%)境外媒体有1篇(0.29%)。

  好了,看到这里还是觉得天风证券宏观挺牛的。这几个月的时间也没有白费,通过公开的数据,出了一份影响力很大的报告。

  但是被爬数据的前程无忧前两天怒了。在自己的公众号上发布了一篇很长的diss天风证券的文章说,天风证券欠前程无忧一个道歉。

  1、天风证券拒不道歉,虽然删了报告,但是很多媒体都转载了,影响并没有消除(这点确实是,建议前程无忧的同学可以看下我们的报告);

  2、爬了前程无忧的数据虽然说的是就业,但是指向的中国经济,就连中央财办都来电询问相关情况,这个锅我们作为上市公司不能背;

  3、前程无忧作为一家上市公司,今年的业绩增长的非常迅猛,尤其是前三季度的招聘服务收入占到了总收入的67.5%,3Q的网络招聘收入达到了6.6个亿,同比增长了30%。

  4、天风证券不顾上市公司公开、经过审核的财务业务,在信息发布前也没有找前程无忧核实数据,至于采用的爬虫技术如何爬取和分析的数据也没有披露。

  其实天风证券和前程无忧的这次事件,可以是个很有趣的例子。随着越来越多的互联网公司上市,很多投资机构对于原始数据的获取需求越来越大。

  之前还有小道消息,某国内数一数二的电商平台,就对投资机构有偿出售某些行业和品类的原始销售数据,但进行得极其隐秘,对数据的交易对象有比较严格的要求。

  而且现在真实的情况是,通过三方数据公司和爬虫技术来获取数据的也不仅仅是天风证券这一家,很多券商分析师会根据自己的分析逻辑和框架去找数据,也会找第三方机构去爬数据。

  那么到底能不能用爬虫去网站上爬自己想要的数据呢?我们不得不搬出网络安全“葵花宝典”《网络安全法》,其中并没有说“爬取网络公开信息被认定为违法”。

  然后来咖小编又咨询了一下律师大哥,律师大哥说,如果网站自己采取了保密措施且数据本身是不能被公开的,被对方爬虫攻破,盗取了商业秘密,那这个数据获取方不仅有民事责任还有刑事责任。

  但是,如果网站的信息本身就是公开的,那双方就有得扯了。去爬数据的人可以说,这是公开数据,那就是可以随便爬。但是被爬的人又可以说,被爬下来的数据本身完整性有问题,质疑数据有没有被二次加工和处理,或者是双方对数据所代表的具体含义有争议。

  爬虫技术本身是中性的,并没有善恶之分。前两天去百度大搜,技术同学说,各站都希望百度的爬虫去爬,每个被扫到的网站都会觉得很开心。被搜索引擎索引收录,意味网民在使用关键词搜索时被收录的文章能被检索出来,就意味着有搜索引擎可以给网站带来的流量。

  但是不需要导流的人就一点儿也不开心,例如百度搜不到微信公众号文章的原因,因为腾讯不愿意被百度爬取并收录。

  爬虫的坏处就是会对被爬的网站造成访问流量拥堵,每年春运火车票购票网站12306都会被一些抢票的恶意爬虫搞得非常尴。

您可能还会对下面的文章感兴趣: