jsoup取得html方法基本有三種
a. 從String b.從網路 c. 從檔案
以下就介紹其方法
1. 官網https://jsoup.org/cookbook/
2. String的例子
基本上就是String就是整個html的網頁
語法是Document doc = Jsoup.parse(String的html);
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
System.out.println(doc.toString());
3. 從檔案的例子
基本上和Java讀取特定檔案一樣
語法是Document doc = Jsoup.parse(檔案來源, 編碼方式);
try {
File input = new File("c://input.html");
Document docFromFile = Jsoup.parse(input, "UTF-8");
System.out.println(docFromFile.toString());
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
4. 從檔案的例子
基本上和Java讀取特定檔案一樣, 只是後面多了個網址
他的功用是在html內遇到連結的網址會將前面補上後面輸入的網址
語法是Document doc = Jsoup.parse(檔案來源, 編碼方式, 基礎網址);
try {
File input = new File("c://input.html");
//第三個參數代表在遇到連結時會自動添加的基礎網址
//如如 <a href=/a> link </a> 会被转换成 <a href=http://example.com/a>
Document docFromFile = Jsoup.parse(input, "UTF-8", "http://example.com/");
System.out.println(docFromFile.toString());
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
5. 從網路的例子
會自動連接網頁把html下載下來
語法是Document doc = Jsoup.connect(網址字串);
try {
Document docFromUrl;
docFromUrl = Jsoup.connect("http://example.com/").get();
System.out.println(docFromUrl.toString());
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
留言列表