赵文捷网络爬虫技术泛化的涉刑风险
时代在进步,爆发式的数据信息铺天盖地而来,为获取有效信息,网络爬虫技术应运而生。“网络爬虫”技术,原本是一种中立的技术,是用设计的程序,在遵守robots协议的情况下对网站、手机APP、小程序或搜索引擎等进行数据的浏览和抓取,由此获得自己所需要的相关数据的过程。数据获得者从获得数据中分析数据并推测出互联网用户的喜好,将有关信息推送给互联网用户,以提高平台的客户粘性,从而达到提升知名度或盈利的目的。在数据抓取上,行业内通用的规则是robots协议,也称网络爬虫排除协议:通过爬虫技术可以访问和收集互联网站点的诸多信息,为了维护互联网秩序,尊重信息提供者的意志和隐私等,信息提供者可以在自己的站点设置robots协议,以告知爬虫控制者哪些信息是提供者不希望被爬取的。1
robots协议属于行业规则,其效力并未在法律上获得确认。一般认为只要遵守robots协议,就不涉及侵权问题。但是,在可观的数据红利面前,一些互联网公司往往选择挣脱该协议的束缚,强行爬取相关数据。因此,被强行爬取数据的公司便开始运用反爬技术以限制其他互联网企业的爬虫行为。随之而来是互联网数据安全的风险逐渐浮出水面,不仅互联网公司会被分流掉用户及流量,个人用户也将面临信息被盗用的风险。在这种背景下,互联网公司所得的数据及个人信息应受刑法保护的呼声与日俱增,而数据被广泛利用的现实与信息数据全面保护的需求间的冲突日渐凸显。笔者拟从非法获取计算机信息系统数据的相关案例,在刑法层面评价网络爬虫技术,并对其提出规制性建议,这在网络信息技术高速发展的时代具有重要意义。
研究大数据时代爬虫技术是否具备合法性基础的核心问题,是明确信息权益和数据产权的归属。基于数据与信息之间高度关联但又有所区别的特点,极易在概念上造成混淆,进而因权属不明引发争议,因此,有必要厘清数据与信息这一组概念的内涵与外延。
从信息与数据的概念界分角度出发,数据是信息的具体表现形式,是信息的载体,信息需要经过数据化转变成数据才能存储和运输,用公式化的语言表达也就是——“数据=信息+数据冗余”。2具体而言,以视频数据为例,指的是数字化的视频信息记忆处理、加工视频信息过程中冗余的计算机语言、文字、代码、字符等;而视频信息,指的是视频所反映的可视化内容。3
将数据进行分类有助于明确数据权益的归属问题。根据数据所承载的信息来源不同,数据可以分为获得数据和形成数据两大类,最通俗的说法就是原始数据和二次加工数据。获得数据是指,数据控制者对信息所有者授权的个人身份信息、系统设备权限、位置权限等相关信息进行数据化记载而产生的数据。此数据为原始数据,系基于信息所有者授权,数据控制者仅享有用户授权范围内的数据自用权,不能脱离授权范围进行利用或者对外再授权。而形成数据是指,数据控制者通过对信息所有者授权的信息进行整理、摘编、储存、分析之后所记载的数据,为二次加工后的数据。例如,美团对于用户储存于平台的购买记录中的消费品类、价格、购买位置等信息进行统计,经过算法加工整理出用户消费喜好的数据。美团对于此类数据享有自用权以及向第三方再授权的权益。
数据控制者在数据红利的驱使下尽可能地挖掘数据价值,并期待所承载的信息能够充分共享与关联利用,这就是一种对数据进行处分的行为。但对数据进行处分的过程中,所伴随的信息泄露、隐私侵害、数据不当采集、转移与使用乃至数据垄断或数据滥用等弊端,且个人用户也难以分享数据红利,造成了数据运用的广泛外部性,既数据泛化和信息保护的隐秘性需求极具对抗,在实践中不仅会引发民事纠纷,并极有可能涉及刑事犯罪。以非法获取计算机信息系统数据罪为例,在中国裁判文书网检索到的一审裁判文书2018年243篇,2019年244篇、2020年214篇、2021年97篇,均为有罪判决(下图所示)。
案例一:上海晟品网络科技有限公司等非法获取计算机信息系统数据案
2017年全国首例爬虫行为入罪案——上海晟品网络科技有限公司等非法获取计算机信息系统数据案,此典型案例预示着爬虫行为不仅存在民事违法的可能,已上升到刑事入罪的层面。该案中,上海晟品网络科技有限公司的主管人员,成功破解北京字节跳动公司的防范措施,采用爬虫技术抓取北京字节跳动公司服务器中存储的视频数据,造成北京字节跳动公司损失技术服务费人民币2万元。法院认为,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制,构成非法获取计算机信息系统数据罪。4
这种未经许可,未经允许强行突破或者绕过反爬技术,侵入“国家事务、国防建设、极端科学技术领域”之外的计算机信息系统,采用爬虫技术获取该计算机信息系统内部数据的行为,构成我国《刑法》第285条第2款非法获取计算机信息系统数据罪。
案例二:易某非法获取计算机信息系统数据、非法控制计算机信息系统案
被告人易某从华为公司线缆物控部调任后,未按公司的要求将ERP账户线缆类编码物料价格的查询权限清理,违反规定多次通过越权查询、借用同事账号登录的方式在ERP系统内获取线缆物料的价格信息。之后,易某发现ERP系统中的POL采购小程序存在漏洞,能通过特定操作绕过权限控制查看系统数据,便以此方式获取线缆物料的价格信息。易某将非法获取的价格数据以发短信、打电话、发电子邮件的方式告知深圳市金信诺高新技术股份有限公司(华为技术有限公司的供应商,以下简称金信诺公司),从而帮助金信诺公司在华为公司的招标项目中提高中标率。
法院认为,该行为符合最高人民检察院公布的第九批指导性案例检例第36号:卫梦龙、龚旭、薛东东非法获取计算机信息系统数据案评价的“侵入”行为,非法获取计算机信息系统数据罪中的“侵入”,是指违背被害人意愿、非法进入计算机信息系统的行为,其表现形式既包括采用技术手段破坏系统防护进入计算机信息系统,也包括未取得被害人授权擅自进入计算机系统,还包括超出被害人授权范围进入计算机信息系统。5
冯某在常某邀请其通过qq远程方式帮忙操作“阿希币”钱包参加空投项目期间,未经常某允许,将常某存放于电脑中的“阿希币”钱包密码非法获取,后将该钱包中的54868个“阿希币”分批次转走并变卖,法院最终以有利于上诉人的原则将财产损失按最低价值标准来计算被害人的经济损失。7
《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第十一条第三款规定:本解释所称“经济损失”,包括危害计算机信息系统犯罪行为给用户直接造成的经济损失,以及用户为恢复数据、功能而支出的必要费用。类似于“阿希币”、“比特币”等虚拟财产与金钱财物等有形财产、电力燃气等有相对恒定价值的无形财产存在明显差别,这些虚拟财产并不是我国认可流通领域的货币,不宜以侵犯财产法益的角度进行评价,应以侵犯公共秩序法益进行评价,且虚拟财产也存在相应价值,作为用户拥有的计算机数据而存在,其法律属性是计算机信息系统数据。对于被害人损失价值的认定,笔者认为从被害人购入价格、被告人变卖价格、案发时交易平台价格这三个价格中,根据有利于被告人原则,选取最低值来认定被害人的财产损失是适当的,且此类犯罪中被害人损失价值的认定对于定罪量刑至关重要,其中还涉及证据如何认定的问题。
1. 刘鹏:《利用网络爬虫技术获取他人数据行为的法律性质分析》,《信息安全研究》2019年第5期。
2. 徐宗新、陈沛文:《数据红利与信息危机——兼论网络爬虫的罪与罚》,《上海法学研究》集刊2021年第7卷。
3. 游涛、计莉卉:《使用网络爬虫获取数据行为的刑事责任认定———以“晟品公司”非法获取计算机信息系统数据罪为视角》,《法律适用》2019年第10期。
4. 参见北京市海淀区人民法院(2017)京0108刑初2384号刑事判决书。
5. 参见深圳市中级人民法院(2021)粤03刑终1657号刑事裁定书。
6. 刘艳红:网络爬虫行为的刑事规制研究——以侵犯公民个人信息犯罪为视角,《政治与法律》2019年第11期。
7. 参见河南省济源中级人民法院(2020)豫96刑终7号刑事裁定书。
8. 参见洪延清:《网路运营者隐私条款的多角色平衡和创新》,《中国信息安全》2017年第9期;郑佳宁:《知情同意原则在信息采 集中的适用与规则构建》,《东方法学》2020年第2期。
9. 徐宗新、陈沛文:《数据红利与信息危机——兼论网络爬虫的罪与罚》,《上海法学研究》集刊2021年第7卷。
10. 杨东、吴之洲:《数据抓取行为的法律性质———“马蜂窝事件”案例分析》,《中国社会科学报》2018年12月5日,第5版。