研究所爬虫项目服务器信息
7 分钟阅读
2 阅读
0 评论
研究所爬虫项目服务器信息
1.数据库服务器信息
数据库服务器IP:219.153.98.130 数据库服务器端口:13306 数据库连接用户名:xueyuan 数据库连接密码: c67aK65O^6zXY#@gY#xueyuan


1.1 mysql网页端UI
URL: https://mysql.gandalf.fun/


2.部署服务器信息(centos7.9)
IP: 10.8.15.157 loginUser: bigdata LoginPassword: 2cNU^jNWVSq2d@mCeHjzDr3GgaU7I*fk

2.1 部署服务器2
ip 10.8.15.176:22 用户:bigdata 密码: Suyyas7-o992121hh%sa
容器化部署
参考:http://121.40.254.222:10086/modify_doc/3/
crawlab
测试部署服务器crawlab url:http://10.8.15.157:8080/#/home 用户名/密码:bigdata/SFz5DuppGzZCQafpMfzC
protainer
http://10.8.15.157:9000/#!/2/docker/containers(废弃)
用户名/密码:bigdata/JN6yMUtDUA3WFRB2vYFD
http://10.8.15.176:9000/#!/2/docker/containers https://bigdata.gandalf.fun/ 账密是admin/123456789abcd
1panel 面板
https://1panel.gandalf.fun/20d3122c7d bigdata/a2d50767ee
3.MinIO服务器的配置信息(附仵上传)
MINIO ENDPOINT ="10.8.15.161:9002' MINIO ACCESS KEY="t9zAJorLjgbG15MJ9ZPy' MINIO SECRET KEY ="XCWSxINFx9NFKVyPECnUlfRvGpo9pstEphdGMWxM MINIO SECURE = False # 使用http而不是https MINIO BUCKET NAME="xueyuan-spider-file"
3.1 MiniO WebUI 登录
url: http://10.8.15.161:9001/browser 用户名/密码:college-admin/qU9zM9kaQBkjTBsJnNF3
4. Git 服务器信息(需要VPN)
VPN账号申请联系张芮(QQ:946186017) 【腾讯文档】VPN和gitlab申请信息 https://docs.qq.com/sheet/DQm5as1hvYnhQsG1v?tab=000001 提供以下信息! 姓名 姓名全拼(小写) 电话 邮箱 部门 VPN连接 安装运行vpn客户端(qq群文档下载) vpn用户名:姓名全拼 密码:1q@W3e$R 需配置HOSTS(C:\Windows\System32\drivers\etc\HOSTS),增加如下: 10.255.88.204 git.zdhrsoft.com GitLab项目地址: http://git.zdhrsoft.com/open-data-team/thematic_data_crawl GitLab 操作手册: https://docs.qq.com/doc/DQk9kcFJoWkFnY2dI?u=be3a6a10b50f4192a0d294ffa088d919
5. 项目其他文档
【腾讯文档】专题数据采集全流程管理: https://docs.qq.com/sheet/DQlZFY2N3eFhIbkhW?tab=000003 【腾讯文档】采集需求详情: https://docs.qq.com/sheet/DQmpYSERpZmh2Z29V?tab=vyvrci
6.爬虫通用函数
7.IP代理池
7.1 研究所提供的代理
apache
def get_proxy():
proxy_ports=[38268, 38299, 38277, 38271, 38298, 38282, 38242, 38290, 38283, 38289, 38291, 38255, 38288, 38296, 38256]
proxy_host=f"http://admin:m8cZfDwGw1EcQoa@219.152.200.124:{random.choices(proxy_ports)[0]}"
print(f"代理:{proxy_host}")
return proxy_host7.2 公共代理(仅供测试)
http://10.8.15.157:5010/get/ https代理: http://10.8.15.157:5010/get/?type=https 爬虫代码中加入以下代码
scss
def get_proxy():
return requests.get("http://10.8.15.157:5010/get/?type=https").json().get("proxy")requests.get(url, headers=headers,proxies={"https": "https://{}".format(proxy)})
分享到: