最近在写一个爬虫的小程序,编程语言为Java,过程中遇到许多的小问题,打算把这些问题及解决方法都记下来。
今天写第一更,我们往往感兴趣的是网页里边的内容,在我们抓取到网页的时候,真正需要的是抓取网页里边和主题相关的内容。
Java爬虫在抓取网页内容时,经常遇到的使用正则表达式来有选择性的抓取网页的内容。正则表达式在计算机科学中,是指一个用来描述或者符合某个句法规则的字符串的单个字符串。正则表达式在大多数情况下,被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串的操作。
正则表达式在网络爬虫中,主要的应用:
1.对URL链接进行发过滤,只提取符合特定格式的链接;
2.提取网页内容。
对于正则表达式的数学原理我就不在这里赘述了。。。。。
Java正则表达式:在JDK1.4以后java.util.regex包提供了对正则表达式的支持(好像是这个样子的),在爬虫常用的查找指定内容、去除指定内容、文字替换、截取等功能会比较常用(下面来举例一一说明):
查找:
Pattern pattern=Pattern.compile("Java.*");//查找以Java开头,任意字符结尾的字符串
Matcher matcher=pattern.matcher("Java是一种编程语言");
boolean b=matcher.matches();
System.out.println(b);
多条件分割字符串:
Pattern pattern=Pattern.compile("[,|]+");
String[] strs=pattern.split("Java Hello World Java ,Hello,,World|Sun");
for (int i=0;i<strs.length;i++){
System.out.println(strs[i]);
文字替换(首次出现字符):
Pattern pattern =Pattern.compile("正则表达式");
Matcher matcher=pattern.matcher("正则表达式 hello worle 正则表达式 hello world!!");
System.out.println(matcher.replaceFirst("Java"));//替换掉第一次出现的字符串
文字替换(全部):
Pattern pattern =Pattern.compile("正则表达式");
Matcher matcher=pattern.matcher("正则表达式 hello worle 正则表达式 hello world!!");
System.out.println(matcher.replaceAll("Java"));//替换掉所有出现的字符串
文字替换(置换字符):
Pattern pattern =Pattern.compile("正则表达式");
Matcher matcher=pattern.matcher("正则表达式 hello worle 正则表达式 hello world!!");
StringBuffer sbr=new StringBuffer();
while(matcher.find()){
matcher.appendRepalcement(sbr,"Java");
}
matcher.appendTail(sbr);
System.out.println(sbr.toString());
//appendReplacement()与appendAll()的区别:前者是一次性找到需要替换的再一次性全部替换,后者是找到一个替换一个。。。。
验证是否为邮件地址:
String str="denglinqiang@613.com";
Pattern pattern=Pattern.compile("[\\w\\.\\-]+@([\\w\\-])+[\\w\\- ]+"Pattern.CASE_INSENSITIVE);
Matcher matcher=pattern.matcher(str);
System.out.println(matcher.matcher());
去除html标记:
Pattern pattern=Pattern.compile("<.+?>",Pattern.DOTALL);
Matcher matcher =pattern.matcher("<a href=\"index.html\">主页</a>");
String string=matcher.replaceAll("");
System.out.println(string);
截取http://地址:
Pattern pattern=Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+");
Matcher matcher=pattern.matcher("dsdsds<http://dsds//gfgffdfd>fdf");
StringBuffer buffer=new StringBuffer();
while(matcher.find()){
buffer.append(matcher.group());
buffer.append("\r\n");
System.out.println(buffer.toString());
}
查找HTML中对应条件字符串:
Pattern pattern=Pattern.compile("href=\"(.+?)\"");
Matcher matcher=pattern.matcher("<a href=\"index.html\">主页</a>");
while(matcher.find()){
System.out.println(matcher.group());
}
替换{}中的文字
String str="Java目前的发展史是由{0}年到{3}年";
String[][] object={new String[] {"\\{0\\}","1995"},new String[]{"\\{1\\}","2007"}};
public static String replace(String sourceString,Object[] object){
String temp=sourceString;
for(int i=0;i<object.length;i++){
String[] result=(String[])object[i];
Pattern pattern=Pattern.compile(result[0]);
Matcher matcher=pattern.matcher(temp);
temp=matcher.replaceAll(result[1]);
}
return temp;
}
System.out.println(replace(str,object));
还有 。。。。。。。。。。。。。。
以正则表达式查询制定目录下的文件。。。。