咨詢電話
021-80392549
今年1月份,蘇黎世聯邦理工學院的Stefan Feuerriegelc教授在 《Communications of the ACM》期刊上刊文“Artificial Intelligence Across Company Borders”,在文中教授指出了人工智能(AI)產業落地過程中常見挑戰:如何開展跨公司合作?
CACM觀點:超越聯邦學習,讓AI跨越公司邊界
教授表示:通過數據共享構造大規模的跨公司數據集是一種方式,但有數據保密和隱私泄漏風險,且受隱私相關法律的限制。
而保護隱私的分布式機器學習框架—聯邦學習,能讓數據不出本地,解決上述痛點。
但傳統的聯邦學習目前并不能提供規范的隱私保護證明,此外,其場景容易受到因果攻擊。
因此,教授指出,結合聯邦學習和領域自適應,能夠更大限度讓合作公司從協作AI模型中受益,同時將原始訓練數據保持在本地。
以下是Stefan Feuerriegelc教授對領域自適應聯邦學習的介紹,由星云Clustar高級算法工程師張瀧玲、楊柳翻譯整理。
近年來,以AI為核心的數字技術正在驅動經濟社會發展。數據顯示,2030年,AI將使全球工業部門的經濟活動增加13萬億美元。
然而,由于無法獲取或有效利用跨國公司數據,使得這一技術的潛力在很大程度上仍未得到完全開發。AI收益于大量具有代表性的數據(representative data),這些數據通常需要來自于多家公司,特別是在實際工業場景中,面對少見的意外事件或者關鍵系統狀態,想使AI模型取得良好的性能是極具挑戰性的。
實現跨公司AI技術的一種直接方式是通過數據共享構造大規模的跨公司數據集。但出于數據保密和隱私泄漏風險的考慮,大多數公司都不愿意直接共享數據。并且在大多數情況下,共享數據受到隱私相關法律的限制。因此,具有領域自適應的聯邦學習是解決跨公司AI問題的關鍵,一方面,聯邦學習能夠在不泄漏各公司數據隱私的前提下,實現模型訓練和推理;另一方面,領域自適應允許各公司按照自己特定的應用場景和條件,對聯邦模型做定制。
1
AI合作的障礙
跨公司AI主要存在兩個障礙:
首先是跨公司的數據隱私性。因為直接共享原始數據可能會給競爭對手公司暴露有關自身公司的運營流程或知識產權專有信息等。這一障礙常常出現在公司尋求與供應商、客戶或競爭對手公司想進行AI合作時。
例如,制造工廠的數據可以揭示參數設置、產品成分、產率、產量、路線和機器正常運行時間。如果此類數據被泄漏,它可能會被客戶在公司談判中濫用或進而幫助競爭對手提高生產力和改進產品。同時除了知識產權之外,一些深層的限制因素也會降低公司之間共享數據的意愿或傾向,例如公司間的信任程度、道德約束、保護公司用戶隱私權的法律法規以及網絡安全風險。因此我們需要一個保護數據隱私的解決方案,即在不暴露各公司的源數據前提下進行模型推斷。
其次是跨公司間的合作需要考慮到領域偏移(domain shifts)的影響。領域偏移是指為不同公司使用不同配置機器或操作系統采集得到的數據分布不匹配。例如,來自一家公司采集到的機器數據可能不能作為另一家公司的代表性數據由于不同機器數據采集條件不一樣。領域偏移給潛在的推論帶來了障礙:在一家公司的數據上訓練得到的模型可能表現不佳當部署到另一家數據分布明顯不同的公司時。