Data

Data / Information

在計算機科學當中,數據的本身稱做「資料」,數據的含義稱作「資訊」。簡中翻譯成「数据」與「信息」。

Media / Multimedia

在計算機科學當中,「媒體」就是記載資訊的媒介,諸如文字、聲音、圖片、動畫都是媒體。「多媒體」就是複合多種媒體,例如網頁、影片、電玩都是多媒體。

每一種媒體都有專門的研究領域,而且分工相當細緻:

Data Processing 資料處理
應用:搜尋引擎、資料庫

Text Processing 文字處理
應用:文字編輯器、輸入法

Natural Language Processing 自然語言處理
應用:自動翻譯、自動寫作、搜尋引擎、智慧型輸入法

Audio Processing 音訊處理
應用:MP3播放軟體、混音、去除雜音(例如手機通話)

Speech Processing 語音處理
應用:語音輸入(例如手機的語音輸入法)
   語音輸出(例如語音客服專線、語音朗讀)
   辨識說話者、與電腦對話、歌唱評分

Image Processing 影像處理
應用:修圖、合成照片、數位相機、視覺特效、美術作品

Video Processing 視訊處理
應用:DVD、電視、攝影、Youtube、視訊會議、合成場景

Geometry Processing 幾何處理(3D模型處理)
應用:模型設計、3D掃描、3D列印

Computer Music 電腦音樂
應用:電子樂器、譜曲、網路合奏

Computer Graphics 電腦繪圖
應用:設計圖表、設計模型(例如建築、產品)、虛擬實境
   醫學影像(例如超音波、斷層掃描)、視覺特效、美術作品

Computer Animation 電腦動畫
應用:好萊塢電影特效、迪士尼卡通動畫、電視廣告、虛擬偶像

Computer Vision 電腦視覺
應用:圖片鑑識比對(例如指紋、人像、車牌號碼)、手寫輸入
   自動駕駛、國道收費系統、戰鬥力眼鏡、檢查產品瑕疵

語音處理不是研究麥克風、耳機,電腦繪圖不是研究螢幕。因為電腦的功能是數學計算,所以上述領域通通都是數學計算!將現實問題對應到數學問題,運用數學計算解決現實問題。

「懂得程式設計」與「懂得數學計算」是兩碼子事,上述這些領域通通是在鑽研後者。大多數民眾喜歡前者,卻完全忽略後者,進而影響了台灣資訊產業的發展方向。

Sensor

在計算機科學當中,「感測器」是獲取資料的設備。

想要創造資料,可以透過電腦設備,手動輸入資料;或者透過感測器,自動獲取資料。比方說氣象觀測、健康檢查、交通設備,就用上了各式各樣的感測器。維基百科整理了一份感測器大全:

https://en.wikipedia.org/wiki/List_of_sensors

對於不喜歡數學的民眾來說,也許是個不錯的發展方向。

Data Mining

Data Mining(Knowledge Discovery)

資料探勘。從資料獲得資訊,甚至從資訊獲得知識。經過組織、具備架構的資訊,稱作知識。

資料探勘的工程經驗遠多於科學理論。大多數的方法,缺乏理論依據、缺乏嚴謹的數學證明,想怎麼說、就怎麼說。

這裡收集形形色色的課程網站,專注的重點都不一樣:

http://www.mmds.org/
https://mycourses.aalto.fi/course/view.php?id=13081
http://www.csie.ntu.edu.tw/~htlin/mooc/
http://www.cs.columbia.edu/~blei/courses.html
http://people.seas.harvard.edu/~jthaler/COSC548.html
http://www.redbook.io/
http://ciir.cs.umass.edu/irbook/
http://www.csd.uoc.gr/~hy460/
http://www.csie.ntu.edu.tw/~tonytan/teaching/2015b-adb/2015b-adb.html

這裡收集一些乍聽是專業術語,但是其實缺乏內涵、或者無法使用數學描述、或者源自其他領域,看看就好:

Data Storage           存儲
Data Warehousing       倉儲
Data Integration       整合
Data Aggregation       聚合
Data Analysis          分析
Data Modeling          建模
Data Acquisition       擷取
Data Dredging          挖掘
Data Cleansing         清洗
Data Augmentation      增強
Data Publishing        發佈
Data Compression       壓縮
Data Transmission      傳輸
Data Integrity         完整
Information Security   安全
Information Retrieval  檢索
Information Seeking    尋求
Information Management 管理

Database

資料庫。存取資料的設備。知名工具如MySQLMongoDBElasticsearchRedis

Information System

資訊系統。資料庫系統加強版,供人分享資訊。用來收集、儲存、處理資料,甚至統計、分析、預測資料。

例如管理資訊系統Management Information System。運用電腦的儲存能力、傳輸能力,簡化公司行政管理流程,減少人工工作份量。諸如人員上下班簽到、會議室登記、會計財務、表單文件、……等等,都可以透過電腦來處理,增加公司的營運效率。另外還有ERP企業資源規劃、CRM客戶關係管理、SCM供應鏈管理、……等等,讓公司確切掌握資源、衡量成本。

MIS是為了減少成本而生──開發軟體、建構硬體的成本,低於雇用人力、管理資源的成本。有錢的大企業找專業公司打造MIS,沒錢的小公司雇用程式設計師自造MIS。雖然老闆都想導入MIS來省錢,但是MIS是不是方便合用,那又是另外一回事了。

另外,在台灣,MIS也經常是指負責維護這套系統的工作職位。系統上的疑難雜症,就找MIS處理,類似工友。

Knowledge-based System

知識系統。資訊系統加強版,供人活用知識。

Database Query Processing

查詢。從資料庫撈出想要的資料。兩大方向:

Database Query Processing:設計查詢指令、設計資料結構。

Top-k Query Processing:參考各欄位的數值大小,分析利弊,找到前幾名的資料。經典演算法是Fagin's Algorithm。

Data Stream Processing

串流。應付源源不絕的資料。兩大方向:

Data Stream Processing:平行處理、分散式處理的機制。

Data Stream Algorithm:即時處理資料,獲得各項統計指標。經典演算法是Count-Min SketchHyperLogLog

Association Rule Mining

關聯規則。找到資料欄位的關聯。

用於廣告投放、風險投資、社會研究。從大量資料當中得到資訊,決定政策方針,甚至利用資訊不對稱來獲利。經典範例是尿布、啤酒、星期五

經典演算法是Apriori AlgorithmFP-Growth Algorithm

UVa 12560

Information Recommendation(Collaborative Filtering)

推薦。找出值得關注的資訊。

用於購物平台、影音平台、社群平台、搜尋引擎。掌握流行趨勢,發掘第一名、最後一名。根據用戶喜好,推薦喜歡的人事物,以增加人流金流。經典範例是Netflix推薦系統

經典手法是Matrix Factorization和Implicit Feedback。

UVa 12420

Knowledge Representation

表示。組織資料,梳理思路,奠定架構。

目前尚無知名成果,關鍵字也許是Semantic WebSemantic Reasoner

Data Summarization

摘要。歸納資料重點。

下面這段1959年的影片,球隊經理高德納用電腦分析球員投籃位置,整理成一份統計報表。比賽關鍵時刻,教練依據統計報表,派出在某地點命中率最高、投籃最穩定的選手,實施戰術,一舉得勝。本來總是輸球的球隊,當年的勝率由6/16 (37.5%)進步到11/14 (78.6%)。

Data Visualization / Information Visualization

視覺化視覺化。將資料變成圖表。與其說是數學,不如說是藝術。已經有人整理成冊整理成表。知名工具如D3.js。

Data Sonification

聽覺化。將資料變成音效。