岗位职责:
1、负责网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取)、技术选型;
2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,so层,页面跳转等难点攻克,提升网页抓取的效率和质量;
3、对抓取后的数据进行清洗、存储等,并持续优化平台,以便满足各种爬取业务需求。
岗位要求:
1. 精通Python语言,至少熟练掌握主流爬虫框架中的一种;熟悉常用的库requests/gevent/scrapy等;
2. 了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决js反爬和模拟登陆问题;
3. 熟练掌握正则表达式、XPath、CSS等网页信息抽取技术以及jsonpath提取多层json结构数据;
4. 熟悉常见反爬机制,验证码识别,IP代理池、应用Ip池、headers认证和cookie等;
5. 熟练掌握应用Selenium、PhantomJS、Splash、Puppeteer实施动态抓取;
6. 熟悉熟练使用charles、fiddler等抓包工具者优先;
7. 熟悉数据清洗,能够用numpy、pandas、jieba等工具对数据进行处理者优先;
8. 熟悉mysql、mongodb、redis、rabbitMQ、kafka、spark者优先
Copyright C 2019-2020 All Rights Reserved 版权所有 51tjhr.com 津ICP备15005373号-1 津公网安备12010202000397号
地址:天津市河东区七纬路101号 EMAIL:kefu@51tjhr.com
ICP经营许可证:津B2-20200259 人力资源证: 120102163001号
Powered by 天津众搏人才网闪电招聘.