大語言模型數據泄露堪憂,超自動化Agent成解決之道
數據泄露成LLM應用最大障礙,看實在智能如何用AI Agent破解謎題
從實在RPA Agent智能體安全機制,看AI Agent如何破解LLM應用安全謎題
文/王吉偉
阻礙廣大企業應用大語言模型(LLM,Large Langeuage Models)的諸多因素中,無疑數據安全是最重要的。
3月份ChatGPT發生了用戶隱私數據泄露事件,OpenAI聲明由于開源代碼庫中存在一個漏洞,使得部分用戶能夠看到另一個用戶的聊天標題記錄,并把ChatGPT短暫下線緊急修補了此漏洞。
此事件,讓大家認識到大模型并不是“大安全”。
更要命的,是用戶使用LLM時會不經意輸入敏感數據。僅在三月份,三星內部就發生了三起誤用及濫用ChatGPT案例,其中兩起關于三星半導體設備,一起關于三星內部會議內容。
以致有網友調侃,三星再多幾次敏感數據泄露,ChatGPT就能教大家制造先進芯片了。
在三星等多家企業出現事故后,很多企業都意識到了LLM使用可能造成的數據泄露問題。就在5月份,蘋果公司也限制員工使用ChatGPT和其他外部AI工具。當然,蘋果公司也在開發自己的LLM產品。
不只是蘋果公司,摩根大通、美國電信運營商Verizon等公司都已經宣布禁止使用ChatGPT等應用,亞馬遜也希望工程師們使用內部AI工具。
就在11月10日,投資了OpenAI并為廣大企業提供OpenAI云服務的微軟,因為擔心公司機密數據泄露,竟然也開始禁止員工使用ChatGPT,建議員工使用自家的Bing Chat工具。
出于數據安全憂慮,美國銀行、花旗集團、德意志銀行、高盛集團等多家金融機構已經禁止員工使用ChatGPT聊天機器人處理工作任務,日本的軟銀、富士通、瑞穗金融集團、三菱日聯銀行、三井住友銀行等企業,同樣限制了ChatGPT和類似聊天機器人的商業用途。
現在,這些企業有的與OpenAI合作進行了私有化部署,有的已經研發了自有大語言模型。
數據泄露對企業的危害
多家機構如此重視,人為數據泄露到底能為企業造成多大傷害?
數據安全公司Cyberhaven曾在一個報告中,調查了不同行業客戶160萬員工的ChatGPT使用情況。
報告數據顯示,自ChatGPT推出以來至3月21日,8.2%的員工曾在工作場所使用過ChatGPT, 6.5%的員工曾將公司數據粘貼其中;僅3月14日一天,每10萬名員工就平均給ChatGPT發送了5267次企業數據。尤其是敏感數據,占到員工粘貼到ChatGPT的數據的11%。
這意味著,ChatGPT的使用率越高,敏感數據泄露的也就越多。
試想如果不加限制地使用LLM,隨著更多敏感數據被傳輸LLM服務器,并被用作模型訓練數據集,也就意味著競爭對手通過隨意的聊天對話就能獲悉了你的核心數據。如果競對用這些數據建模對你進行降維打擊,會對企業會造成多大損失?
數據泄露會造成嚴重的企業的信任度降低,讓業務連續性受到影響,并可能會帶來一定的法律責任。
看到這里,你就應該明白為何大型企業都在構建自有大語言模型了。
當然,凡事皆有利弊。雖然對話式交互的生成式AI會造成敏感數據泄露,但AI和自動化的使用,整體上正在降低數據泄露的成本。
IBM的《2023年數據泄露成本》全球調查數據顯示,廣泛使用人工智能(AI)和自動化的組織受益,平均節省了近1萬美元的數據泄露成本,并將數據泄露識別和遏制速度加快了8 天。
也就是說,只要恰當使用LLM,注意安全防控,它會對企業的增效降本起到明顯的作用。
LLM泄露數據的幾個原因
想要實現LLM的安全使用,需要分析數據泄露的相關因素。
從已經發生的實踐案例來看,造成ChatGPT等LLM數據泄露的主要原因,大概有以下幾點:
1、用戶隱私泄露:在使用ChatGPT進行客戶服務時,企業通常需要獲取用戶的個人信息,如姓名、地址、電話等。這些信息一旦被未經授權的第三方獲取,便可能導致用戶隱私泄露。
2、內部安全風險:ChatGPT作為一款人工智能語言模型,其生成和處理的敏感信息可能包括企業內部的商業機密、計劃、策略等。如果這些信息被惡意利用,可能會對企業造成嚴重損失。
3、系統漏洞:盡管ChatGPT具有強大的技術實力,但其系統仍可能存在漏洞。如果黑客利用這些漏洞入侵企業服務器,便可能導致數據泄露。
理論上,只要我們針對性的解決這幾個問題,LLM的安全使用也就不在話下。
現在,很多引入LLM的企業基本都建立了風控機制,按照LLM使用流程的先后順序,這些機制包括加強安全培訓、定期審查系統、加密處理敏感信息、使用可靠的人工智能服務提供商、建立應急預案等。
在這些安全措施中,大家會發現“使用可靠的人工智能服務提供商”這一點最為重要,畢竟引入一個具備高度安全機制的LLM會事半功倍。其他幾點也能起到一定的作用,但多是為了防患于未然以及事后補救,并且其中的很多人為因素難以避免。
與此同時,隨著技術的不斷發展,LLM的應用也進入到了AI Agent階段。
AI Agent有效避免LLM數據泄露
AI Agent是由AI驅動的程序,當給定目標時,能夠自己創建任務、完成任務、創建新任務、重新確定任務列表的優先級、完成新的頂級任務,并循環直到達到目標。
使用AI Agent,只需輸入一句話或者更簡單的指令,就能通過理解與分析獲悉用戶的意圖,進而規劃并執行一系列任務,最終輸出詳盡而具體的答案。
AI Agent不僅讓輸入更加簡單,也在一定程度上提高了安全系數,有效避免了數據泄露的可能,還能最大限度發揮LLM的能力。
AI Agent正在快速影響更多領域,超自動化領域也是如此。目前廠商們都在積極引入或自研大模型,并基于這些大模型打造Agent,以從安全、易用性等各方面提升超自動化的應用效率。
當然,超自動化Agent在數據安全方面遠不是減少提示詞輸入那么簡單。
超自動化Agent破解LLM安全謎題
超自動化領域如何通過AI Agent提升安全系數呢?
這里王吉偉頻道以實在智能業界首發的實在RPA Agent智能體為例,介紹超自動化Agents如何保障用戶數據安全。
實在RPA Agent智能體是基于實在智能自研垂直領域大模型TARS構建的RPA\超自動化智能體,是一種能夠自主拆解任務、感知當前環境、執行并且反饋、記憶歷史經驗的RPA全新模式。
為了讓用戶更安全的使用AI智能體,實在RPA Agent智能體在TARS大語言模型和RPA工具包都設置的多重安全機制。
TARS大語言模型的安全機制側重于敏感數據、內部政策和提示檢查。在預訓練或SFT階段通過數據處理和文本分類算法刪除敏感數據,在大模型的輸出結果之上疊加一個輔助安全模型,RLHF(人類反饋強化學習)階段使用內部策略,檢查用戶查詢并添加安全提示等。
這樣就能保證用戶輸入內容的多層過濾,防止敏感數據的外露。
TARS大型語言模型上基于充分細致的語料收集和清洗、數據處理及標注,超千億Tokens的預訓練語料和超百萬條指令微調數據,實在智能獨立完整復現大模型構建的預訓練、指令微調和RLHF三階段,使大模型具備完整能力。
同時實在智能自主研發用于中文不當言論判別和生成終止的Detoxify系統,也提升了TARS的安全性和無害性,讓大模型“既懂事,又懂法”。
在RPA工具包上,TARS-RPA-Agent安全機制側重于機器人授權繼承和指揮官分配或分發授權:
首先,RPA機器人的授權均繼承自創建機器人的用戶,同時其權限范圍也和所在賬號的權限是一致的,不會獲取超出其權限范圍的信息;
其次,RPA指揮官可以分配和控制TARS-RPA-Agent的授權;
第三,在開發過程中,實在智能設計了一個易于處理敏感數據的模塊,使得敏感數據更易于通過配置、刪除、導入等方式進行設置。
除了LLM和RPA,TARS-RPA-Agent還包含其他輔助模塊,其中的安全機制側重于內部知識庫認證、內部文檔訪問以及用戶確認。
有了面向LLM、RPA和輔助模塊的多重安全機制,在十幾層防護墻的共同作用下,想要泄露隱私數據都很難,徹底杜絕了前文所講的人為泄露數據的情況。再加上應對系統漏洞的相關安全機制,足以把LLM應用安全打造得固若金湯。
當然,這還是直接使用TARS大模型或者調用API的情況。如果你是現金流充沛的企業,采用本地部署大語言模型的方式,安全情況會更上一層樓。
需要說明的是,這種整體安全解決方案非常適用于一些大型企業的LLM應用安全過濾。
出于安全考慮,企業都希望在應用LLM時過濾內部敏感信息。
目前市面上的數據安全管理軟件,功能豐富但應用復雜且價格不菲。為了LLM數據過濾這種單一應用場景而斥巨資購買全數據監控軟件,顯然過于浪費,并不是LLM數據過濾的最優選。
事實上,這類需求更適合LLM技術供應商基于大語言模型技術路徑去做。只需在其LLM產品體系中添加隱私數據過濾功能,為企業用戶開放不斷更新或增刪敏感數據庫內容的權限。
這種模式,不僅能為本身大語言模型提供過濾安全功能,還能用于企業所使用的OpenAI、文心一言等第三方大語言模型,能夠在最大限度保護員工創造力的同時做好公司敏感數據的防護。
這樣,企業就能實現花一份錢去保障更多LLM的安全。
如果你的企業正在為LLM的應用安全及預算而發愁,不妨試試實在智能的這種安全解決方案,或許會讓你眼前一亮。
全文完
【王吉偉頻道,關注AIGC與IoT,專注數字化轉型、業務流程自動化與RPA,歡迎關注與交流?!?/p>
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!
不出意外,AI大模型浪潮卷到了智能手機領域,智能手機廠商爭先恐后地自研AI大模型或者聯手AI大模型廠商,挖掘智能手機與AI大模型的融合發展的巨大潛力
文|智能相對論作者|沈浪全球人工智能產業正被限制在了名為“算力”的瓶頸中,一側是供不應求的高端芯片,另一側則是激戰正酣的“百模大戰”,市場的供求兩端已然失衡。然而,大多數人的關注點仍舊還是在以英偉達為主導的高端芯片領域。半導體的創新固然關鍵,但是從現實處境來講,芯片從造出來到用起來,是一個龐大的系統
擁抱AI,賦能白糖產業創新發展隨著新一輪科技革命和產業變革深入發展,行業數字化轉型進入深水區,人工智能產業規??焖僭鲩L。大模型的出現,將躍升人工智能供給能力,更好應對行業數智化升級面臨的挑戰,帶來新發展機遇。2023年,隨著OpenAI公司大模型ChatGPT4.0的發布,今年科技領域乃至各行各業的
隨著計算機技術、數據存儲技術、網絡技術等的迅猛發展,人工智能快速發展并滲透到各個行業之中。人工智能成為企業數字化、智能化改革的重要抓手,落地人工智能應用對企業業務運營的商業價值和戰略意義越來越明確。近日,賽博威與中山大學數學學院合作,共同成立“人工智能算法產學研合作基地”。中山大學數學學院作為國內一
11月29日,由北京市科委中關村管委會、北京市經濟和信息化局、海淀區政府、浪潮信息主辦的2023人工智能計算大會在北京順利召開,循環智能(RecurrentAI)受邀參加大會,與現場領導、專家、學者和媒體探討了智算基礎設施、生成式AI與大模型技術、產業數智轉型成果等熱點話題,并就如何促進AI大模型技
12月1日,阿里云舉辦通義千問發布會,開源通義千問720億參數模型Qwen-72B。Qwen-72B在10個權威基準測評創下開源模型最優成績,成為業界最強開源大模型,性能超越開源標桿Llama2-70B和大部分商用閉源模型。未來,企業級、科研級的高性能應用,也有了開源大模型這一選項。通義千問還開源了
在全球數字化進程的浪潮中,擁有120年歷史的行業領導者西蒙公司站在了最前沿。近日,公司總裁兼首席執行官HenrySiemon先生接受了CDCC的獨家采訪,分享了公司的理念、價值觀以及環保舉措,并深入探討了行業和技術的未來發展趨勢,同時揭示了AI時代下數據中心的現狀與未來。秉持核心價值觀,引領企業發展
12月1日,首屆“通義千問AI挑戰賽”開賽,參賽者可免費暢玩通義開源模型家族,包括剛剛發布的720億參數模型Qwen-72B。主辦方為參賽者提供價值50萬元的免費云上算力和豐厚獎金。賽事分為算法和Agent兩大賽道,前者聚焦通義千問大模型的微調訓練,希望通過高質量的數據探索開源模型的代碼能力上限,后
12月1日通義千問發布會,阿里云開源通義千問720億參數模型Qwen-72B。Qwen-72B在10個權威基準測評創下開源模型最優成績,成為業界最強開源大模型,性能超越開源標桿Llama2-70B和大部分商用閉源模型,可適配企業級、科研級的高性能應用。通義千問當天還開源了18億參數模型Qwen-1.
隨著通信技術和大數據技術的快速發展,中國客服行業經歷了從傳統的電話呼叫中心、單一的網頁在線客服到如今客服系統多元化、智能化的發展變革。尤其是近年來移動互聯網、云計算、AI等技術的突破發展,使越來越多的企業投入建設自己的客服中心,中國智能客服規模逐年增長。中商產業研究院發布的《2023年中國智能客服市
11月25日,聚焦于國內AI創新應用的盛大賽事——2023黑馬AI創新大賽在第十五屆創業家年會上公布了獲獎名單。歷經81天的奮戰角逐,「靈動AI」憑借扎實的技術實力和優秀的服務能力,從200家參賽企業中沖出重圍,榮獲創業黑馬30強。本次大賽由黑馬AIGC產業服務聯盟發起,創業黑馬聯合百度智能云、阿里
當你看到這類是不是就明白一二了?只不過很多人是借了AI的手來回答了一些熱點問題,ChatGPT成了背鍋俠,而這個背鍋俠卻無法反抗。