[Java] 14-2 jsoup取得html

jsoup取得html方法基本有三種

a. 從String b.從網路 c. 從檔案

以下就介紹其方法

2. String的例子

基本上就是String就是整個html的網頁

語法是Document doc = Jsoup.parse(String的html);

  String html = "<html><head><title>First parse</title></head>"
      + "<body><p>Parsed HTML into a doc.</p></body></html>";
    Document doc = Jsoup.parse(html);
  System.out.println(doc.toString());

3. 從檔案的例子

基本上和Java讀取特定檔案一樣

語法是Document doc = Jsoup.parse(檔案來源, 編碼方式);

  try {
   File input = new File("c://input.html");
   Document docFromFile = Jsoup.parse(input, "UTF-8");
   System.out.println(docFromFile.toString());
  } catch (IOException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }

4. 從檔案的例子

基本上和Java讀取特定檔案一樣, 只是後面多了個網址

他的功用是在html內遇到連結的網址會將前面補上後面輸入的網址

語法是Document doc = Jsoup.parse(檔案來源, 編碼方式, 基礎網址);

  try {
   File input = new File("c://input.html");
   //第三個參數代表在遇到連結時會自動添加的基礎網址
   //如如 <a href=/a> link </a> 会被转换成 <a href=http://example.com/a>
   Document docFromFile = Jsoup.parse(input, "UTF-8", "http://example.com/");
   System.out.println(docFromFile.toString());
  } catch (IOException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }

5. 從網路的例子

會自動連接網頁把html下載下來

語法是Document doc = Jsoup.connect(網址字串);

  try {
   Document docFromUrl;
   docFromUrl = Jsoup.connect("http://example.com/").get();
   System.out.println(docFromUrl.toString());
  } catch (IOException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }