香港科技大學首席內地事務官、香港生成式人工智能研發中心(下稱HKGAI)首席運營官、香港科技大學人工智能媒體博士後研究員黃紅英博士1月20日應邀出席由香港特區政府數字辦公室舉辦的「網絡安全論壇」。面對生成式 AI(Generative AI)帶來的安全變局,黃紅英博士在會上分享了 HKGAI的研發實踐經驗。她強調,AI安全需實現從管控到主動預測的跨越,AI 安全需要透過嚴謹的工程化手段,讓 AI 行為做到「看得見、存得下、算得清」。
黃紅英博士首先介紹了由HKGAI研發的本地 AI 助手「港話通」的發展情況。她指出,「港話通」自去年 11 月 20 日正式上線以來,短短兩個月內,註冊用戶已突破 63 萬。面對大量用戶每日提出的本地化問題——從「哪裏的叉燒包最好吃?」到「如何由科大前往政府總部出席會議?」,黃博士坦言這是「壓力與動力並存」。她指出,用戶需要的不是通用的標準答案,而是比一般搜尋引擎更聰明、更實時且具備香港語境的精準回應。
在數據源頭構建本地可追溯知識庫
談及HKGAI的實踐經驗,黃紅英博士強調,實現主動預測的前提是築牢基礎能力。「很多時候AI安全風險難以預警,並非算法不足,而是系統『看不清、算不清』。」HKGAI在產品研發中,首先補齊日誌、調用鏈、輸入輸出全流程數據沉澱,確保模型行為可追溯、可監測;同時通過自研評測框架形成可分析、可復盤的安全數據體系,為主動預測提供數據支撐。
針對生成式AI面臨的數據風險、語言誘導、幻覺問題,黃紅英博士介紹了HKGAI的分層防控策略:在數據源頭構建本地可追溯知識庫,如「港法通」的嚴格回答是基於香港官方法條與判例,同時會強制引用來源;在系統層加入輸入約束、提示詞審核與安全重寫機制,抵禦越獄誘導;通過RAG、Agent搜索及輸出校驗機制,約束模型行為,降低幻覺風險。
推動「主動預測」落地
展望未來6至12個月,黃紅英博士認為推動網絡安全從「被動防禦」走向「主動預測」的最大障礙是在於未打好基礎建設。她建議業界應優先處理三大範疇:補齊可觀測性:完善日誌與調用鏈,確保模型行為從頭到尾都有跡可循。數據驅動評估:解決數據零碎問題,將評估從「人盯人」升級為數據驅動、可量化的體系。培養複合型團隊:建立「懂模型、懂數據且懂安全」的團隊,將安全考量前置於設計階段。
黃紅英博士特別提到「修復機制」,呼籲市民在使用「港話通」時,若發現資訊滯後或錯誤,可以即時作出反饋。她表示,來自真實用戶的指正是優化模型最寶貴的養分,HKGAI 亦期待與全港市民共同改進這款屬於香港的本土大模型。她表示,生成式AI的創新應用與安全防護是辯證統一的關係。HKGAI將持續以「看得見、存得下、算得清」為原則,培養「懂模型、懂數據、懂安全」的複合型人才,持續探索主動預測式AI安全體系,助力AI技術在更多領域安全落地。
