2009年1月1日 星期四

Linux Java支援Office狀況

前幾天小弟弄了AspriseOCR API成功的讀取pdf還有一些圖檔的辨識,本以為KMS在linux上是無法讀取pdf檔而已(我~太天真了),後來才搞清楚狀,原來iFilter支援很多格式(主要是常用的office).
當然知道之後我繼續花時間找出Linux上的替代品,不過找了兩天好像真的沒有人寫好類似iFilter的工具,
就算是付費的也好都沒有~~~最後只好去找api,小弟找了一下Java的Api現在有三個比較有名分別是:



1.Apache POI
2.Jacob
3.Javacom

那我也看了一下網路資料,目前網路評價比較好的是Apache POI ,因此我就找了POI 來試試
官方網頁:http://poi.apache.org/
根據官方最新說法,最近2008年11月放出新的支援(beta版),除了過去支援的Word、
Excel、Powerpoint、OLE之外 新增加Outlook、Visio、 Access 支援,所以我就想說那找不到現成用的工具自己根據Api寫來Linux用吧!我寫了小main來測試~



結果:
Word、Excel、PowerPoint都不錯、PDF(我用ApriseOCR) 而其他的檔案目前usermodel api支援都非常低 所以Visio、Outlook 測試都算失敗..根本讀不出來(看了很多資料才發現真的是目前支援非常差)
其他的格式需要找時間再試了...
附上範例程式source code

沒有留言:

張貼留言