网络历史数据服务(文本大数据)

网络历史数据服务(文本大数据)
2019年8月2日 No Comments 网络公关公司新闻 admin

公司数据仓库从2012年就开始存储网络上面的所有历史数据,截止到目前位置,公司大数据仓库中存储了网络上面的上万亿条数据,同时每天还在不断的采集网络上面的数据。日采集数据5亿条左右(境内2亿,境外3亿)。甲壳虫将上万亿亿文本数据积累、数据处理的算法,各种应用类模型和行业类模型集为一体,打造甲壳虫数据平台。平台可以通过便捷的数据互动窗口,灵活的数据包等多种形式,为没有技术背景的的企业和个人提供数据服务。也可以通过多样的实时API接口为广大开发者提供数据支持。

公司拥有5千多台服务器、5G带宽高速网络、上百人专业技术人员提供服务保障。每年投入千万元以上资金,保障、提升数据采集能力。

采集能力:

独立研发协作式爬虫 专业数据采集团队
实时扫描全球IP,海量代理IP池 自然人模拟技术 逆向工程
自主研发打码,可攻克市面全部类型验证码
攻克不同类型热门站点/APP,包括:抖音、知乎、小红书、汽车之家、今日头条、大众点评、京东、淘宝……

优势数据能力:
10万+部署站点
100%+微博全量数据
100%+贴吧全量数据
100%+微信数据
全球境外数据
多语种机器翻译
OCR图片识别技术

新浪微博采集能力:
全量 数据采集(博文、评论、博主) 赞评转数 实时更新/按需刷新
774亿+ 博文存量数据 每日新增8000万+ 转发/评论趋势
每日新增监测用户14亿+ 4.7亿+用户信息
99%数据可在2分钟内采集 博文图片/视频链接采集
图片OCR识别

微信数据:
全面 数据采集(文章、公众号信息) 阅读、好看数 刷新 评论采集
11亿+ 文章存量数据 2100万+公众号监测 每日新增200万+
95%数据可在5分钟内采集 静态化链接转换,永不失效
图片OCR识别 详细公众号信息(个人、企业)

百度贴吧数据:
监测贴吧数:2200万+
漏采率:0% 每日新增发帖:1,207,567条(2019/06/26)
1分钟采集率:99.96% 2分钟采集率:100%

境外数据:
采集覆盖153个国家 73种语言
覆盖媒体包括Twitter、Facebook、Google、Youtube、BBC、AFP、VK、WSJ…
每日新增1.2亿+
机器翻译,自动翻译成中文

Twitter&Facebook数据:

监测8000万+个账号
每日新增数据1亿+
监测6000万+个公众号
每日新增数据1200万+

语音翻译能力:
支持100+种语言翻译(多于Google翻译),包括少数民族语言翻译(藏语、维语、蒙语、哈萨克语、朝鲜语、壮语、彝语…)

About The Author

Leave a reply

您的电子邮箱地址不会被公开。 必填项已用*标注