大佬们请教一个爬虫问题

yizhuohao79天前7 次点击

本帖最后由 yizhuohao7 于 2019-10-11 18:56 编辑

正在做一个大四的课程设计  目前技术很菜 全靠搜索引擎

主要是想对书签内容进行自动分类什么的

目前实现方法就是爬取页面的全部文字内容 丢到自然语言处理里面跑一跑 分个类 生成tag 返回分类

因为是面对所有页面的的,所以不能直接选对网页元素对象获取。

目前问题是怎么直接获取一个页面的所有文字内容啊?

初步想法是直接对整个页面做个截图,然后OCR就能获取全部内容了。

但这样肯定很耗资源,所以怎样能直接获取文字内容?

我试了替换掉一切html标签 但style标签的内容 一直在 有的时候script的也会去不干净 所以ocr感觉是去的最干净的方法

但这样太暴力了

所以就来找大佬们了!

最新回复 (9) 直到 2019-10-12 15:01
返回