摘要:这是 Java 爬虫系列博文的第五篇,在上一篇 "Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器" 中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是 IP 被封及其对应办法。前面几篇文章我们把爬虫相关的基本知识都讲的差不多啦。这一篇我们来聊一聊爬虫架构相关的内容。 前面几章内容我们的爬虫 阅读全文
posted @ 2019-10-16 09:29 平头哥的技术博文 阅读 (168) 评论 (0) 编辑
摘要:这是 Java 爬虫系列博文的第四篇,在上一篇 "Java 爬虫遇上数据异步加载,试试这两种办法!" 中,我们从内置浏览器内核和反向解析法两个角度简单的聊了聊关于处理数据异步加载问题。在这篇文章中,我们简单的来聊一聊爬虫时,资源网站根据用户访问行为屏蔽掉爬虫程序及其对应的解决办法。 屏蔽爬虫程序是资 阅读全文
posted @ 2019-10-15 12:54 平头哥的技术博文 阅读 (390) 评论 (0) 编辑
摘要:这是国外一机构调查了 7000 名开发者得出来的 Java 2019 年生态圈工具使用报告,主要调查了 Java 版本、开发框架、web 服务器等使用情况。虽然只有 7000 名开发者参与调查,这数目对于互联网从业者开始可以忽略不计,但是当你看完这份报告之后,再结合自身周围的情况,我相信你会非常认同 阅读全文
posted @ 2019-10-14 12:24 平头哥的技术博文 阅读 (127) 评论 (0) 编辑
摘要:这是 Java 爬虫系列博文的第三篇,在上一篇 "Java 爬虫遇到需要登录的网站,该怎么办?" 中,我们简单的讲解了爬虫时遇到登录问题的解决办法,在这篇文章中我们一起来聊一聊爬虫时遇到数据异步加载的问题,这也是爬虫中常见的问题。 现在很多都是前后端分离项目,这会使得数据异步加载问题更加突出,所以你 阅读全文
posted @ 2019-10-12 14:23 平头哥的技术博文 阅读 (338) 评论 (0) 编辑
摘要:这是 Java 网络爬虫系列博文的第二篇,在上一篇 "Java 网络爬虫,就是这么的简单" 中,我们简单的学习了一下如何利用 Java 进行网络爬虫。在这一篇中我们将简单的聊一聊在网络爬虫时,遇到需要登录的网站,我们该怎么办? 在做爬虫时,遇到需要登陆的问题也比较常见,比如写脚本抢票之类的,但凡需要 阅读全文
posted @ 2019-10-10 07:00 平头哥的技术博文 阅读 (715) 评论 (1) 编辑
摘要:这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看 "学 Java 网络爬虫,需要哪些基础知识" 。第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例,需要提取的内容如下图所示: 我们需要提取图中圈出来的文字及其对 阅读全文
posted @ 2019-10-09 10:29 平头哥的技术博文 阅读 (682) 评论 (0) 编辑
摘要:说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少。有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬虫而且还能做的非常好,在开源社区中有不少优秀的 Java 网络爬虫框架,例如 webmagic 。我 阅读全文
posted @ 2019-10-04 10:52 平头哥的技术博文 阅读 (368) 评论 (0) 编辑
摘要:int 是 Java 八大原始类型之一,是 Java 语言中为数不多不是对象的东西,Integer 是 int 的包装类,里面使用了一个 int 类型的变量来存储数据,提供了一些整数之间的常用操作,常规性的介绍就这么一点,程序员不喜欢说,程序员就喜欢源码,我们还是来看源码吧 上面这段源码是我截取出来 阅读全文
posted @ 2019-09-29 09:24 平头哥的技术博文 阅读 (397) 评论 (1) 编辑
摘要:什么是 equals 和 hashcode 方法? 这要从 Object 类开始说起,我们知道 Object 类是 Java 的超类,每个类都直接或者间接的继承了 Object 类,在 Object 中提供了 8 个基本的方法,equals 方法和 hashcode 方法就是其中的两个。 equal 阅读全文
posted @ 2019-09-27 09:47 平头哥的技术博文 阅读 (315) 评论 (0) 编辑
摘要:String 对象的实现 对象是 Java 中使用最频繁的对象之一,所以 Java 公司也在不断的对 对象的实现进行优化,以便提升 对象的性能,看下面这张图,一起了解一下 对象的优化过程。 1. 在 Java6 以及之前的版本中 对象是对 char 数组进行了封装实现的对象,主要有四个成员变量: c 阅读全文
posted @ 2019-09-24 10:14 平头哥的技术博文 阅读 (278) 评论 (0) 编辑