吃掉和被吃

工作關係,這幾天在鑽研讀入 檔案的方法。如果是匯出的話,坊間有很多免費的工具和程式庫,而且就算是 Microsoft Office 也有相關插件,只要輕鬆按幾下,一張跟原本沒太大差異的 就會出現在硬碟裡,電郵附件中,螢光幕上。但是把 轉換為其他格式的檔案,又是另一回事。

如果有看過由 Adobe 提供的 PDF 格式定義(PDF),就會知道 PDF 跟其他文件格式有點不同:與其說它是文件資料,不如說它是把文件「畫」出來的指令。我們要做的事,其實簡單到不過,僅只是把文件裡的表單抓出來,直接匯到資料庫去了罷。奈何 PDF 不像 DOC 一樣有 table object,儲存在 PDF 檔案裡的,就只有「在座標 (3,4) 畫一條黑色的直線,然後旁邊留 5p 的空位」這種指令而已。

而且,如果表單的設計比較簡單,可能根本就不會有線的存在。我們又能憑甚麼分開處於不同儲存格裡的資料呢?阿哈哈,我不清楚。

2 thoughts on “吃掉和被吃

  1. 可以就好了,不過有太多不同格式要顧及,不是每一種格式都可以順利轉成純文字。有時候是編碼問題,有時候則是一堆字都黏在一起,分不清啊。

Leave a Reply to mk Cancel reply

Your email address will not be published. Required fields are marked *