爬虫抓包顺序的选择
PC端
首先我们应该考虑的是网页端,因为网页端是最容易爬取的,我们可以直接通过浏览器的开发者工具来查看网页的源代码, 然后通过正则表达式或者xpath来提取我们需要的数据。
使用浏览器自带的F12开发者工具来查看一些网络请求的拦截,具体情况具体分析。
微信小程序
如果网页端无法爬取到我们需要的数据,我们可以考虑小程序端,小程序端的数据是通过接口请求来获取的, 我们可以通过抓包工具来查看小程序的接口请求,然后通过接口请求来获取我们需要的数据。
模拟器
如果小程序端无法爬取到我们需要的数据,获取该数据只能来源与app端,我们可以尝试考虑一下模拟器。 模拟器可以运行真实的app应用,然后使用工具进行抓包。
手机真机
一些大公司的app可能会对模拟器进行检测,如果检测到是模拟器就会拒绝服务,这个时候我们可以考虑使用手机真机来进行抓包。 这是最后的手段,因为手机真机的抓包相对来说比较麻烦,需要一些技术。包括解决安卓7.0以上的证书问题等等。
其他方式
使用一些大厂自带的应用市场,这些应用市场是可以直接下载app的,然后通过抓包工具来抓取数据。 不排除可以使用其他方式来爬取数据,比如通过一些第三方的接口来获取数据。