
上海AI Lab邵婧课题组 投稿量子位 | 公众号 QbitAI开yun体育网
大模子“套壳”事件防不堪防,有莫得顺序不错检测套壳行动呢?
来自上海AI实验室、中科院、东说念主大和上交大的学者们,提议了一种大模子的“指纹识别”顺序——REEF(Representation Encoding Fingerprints)。
在不更变模子性能的前提下,哄骗REEF就不错精确识别未经授权的后续征战行动。
REEF依赖模子在微调后表征“不变性”的性情,基于表征编码已毕对大模子的“指纹辨认”。
况兼即使经由剪枝、合并、参数陈列和缩放变换等一系列操作,相同能让“套壳”行动无所遁形。
不错说,这项究诘给大模子征战团队提供了一种应酬大模子侵权问题的新技巧。
大模子表征具有“微调不变性”
注:不才文中,“源模子”是指从新践诺的LLM(即论文中victim model),如Llama、Qwen等;“被测模子”(即论文中的suspect model),分为两类——基于源模子征战/践诺的“繁衍模子”和其他“无关模子”。REEF的策画是,给定一个被测模子,检测其是否是来自“源模子”的“繁衍模子”,即所谓的“套壳”模子。
鉴于践诺大言语模子的参加浩瀚,模子通盘者和第三方坚苦需要一种准确高效的顺序,以判断被测模子是否来自某一源模子(举例Code-llama从Llama-2践诺而来)。
接洽词,现存的水印顺序不仅增多了零碎的践诺资本,还可能镌汰模子的通用性能,且水印容易被删除。更紧要的是,这些顺序无法应用于已公征战布的模子。
此外,基于权重的指纹识别缺少鲁棒性,坏心征战者不错通过不同权重修改技巧简略绕过检测。
由于不同模子在践诺数据和模子架构上的相反,不同的LLM的特征暗示有所不同。
如下图(a)所示,Llama的表征与Baichuan和Qwen赫然不同,但与其微调模子(如Llama-chat和Chinese-llama)更为接近。
这一惬心揭示了表征看成LLM“指纹”的后劲。
基于以下两点不雅察,作家在源模子的表征上践诺了一个二元分类器,并将其应用于各式被测模子的表征,包括繁衍模子和无关模子:
微调后的繁衍模子的表征与源模子的表征相似,而无关模子的表征线路出不同的溜达;一些高档语义见识在 LLM 的表征空间中“线性”编码,从而不错简略分类,如安全或不安全、老诚或不老诚等。具体而言,作家使用TruthfulQA数据集,差异选定 Llama-2-7B和 Llama-2-13B看成源模子,并在其数据集表征上践诺了多种深度神经网罗DNN分类器,举例线性分类器、多层感知器MLP、卷积神经网罗CNN 和图卷积网罗GCN。
然后,作家将践诺好的DNN分类器应用于被测模子的表征。
实验效果标明:在源模子的表征上践诺的分类器概况灵验搬动到其繁衍模子的表征上,但在无关模子的表征上失效。
这意味着,表征不错看成指纹来保护源模子的常识产权。
接洽词,使用DNN分类器识别源模子靠近以下挑战:
DNN具有固定的输入维度,若是对源模子进行更变表征维度的剪枝操作,分类器不再适用;DNN对表征的陈列缺少鲁棒性,坏心征战东说念主员可能通过变换矩阵已毕参数重排来躲闪检测。REEF:一种鲁棒的LLM指纹识别顺序
为了处治上述挑战,作家提议一种新的基于表征的指纹识别顺序——REEF,具备雅致的鲁棒性。
REEF哄骗中心查对王人CKA相似性,要点见原LLM的里面特征表征。
在评估被测模子是否来自源模子时,REEF狡计两个模子对调换样本的表征之间的CKA相似性。
该顺序浅薄高效,概况确保拿获到任何显贵的相似性,从而揭示模子之间的潜在繁衍关连。
CKA是基于希尔伯特-施密特安祥性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组连忙变量之间的安祥性。
X和Y之间的CKA相似度不错按如下模式狡计:
通过底下的定理1,论文在表面上评释了CKA相似度在职何列陈列和缩放变换下具有不变性。同期,CKA概况在不同维度的表征之间建立对应关连。
因此,REEF 对源模子的各式后续征战(包括模子剪枝和表征陈列)发扬出强鲁棒性,从而确保基于表征的指纹概况准确识别源模子。
无惧后续征战,稳稳识别“套壳”模子
作家将REEF应用于通过微调、剪枝、合并、陈列和缩放变换等模式从源模子繁衍出的被测模子。
这些模式可能显贵更变模子的结构或参数,使得现存顺序难以灵验识别源模子。
接洽词,REEF在这些情况下一经概况准确识别出源模子,进一步考证了其鲁棒性。
具体来说,从上头的表中,不错得出以下论断:
REEF对微调具有很强的鲁棒性,即使在使用多达700B tokens的微调情况下(Llama-7B),REEF仍能达到0.9962的高相似度;REEF对各式剪枝计策都发扬出鲁棒性,无论结构化剪枝还短长结构化剪枝,REEF都概况灵验识别源模子,即使剪枝比率高达90%,REEF一经概况到手识别;无论是基于权重或基于溜达的模子合并顺序,REEF均能在识别合并模子的开头方面遥远保执高准确性;REEF 对任何列陈列和缩放变换具有不变性,概况抵挡该类躲闪工夫。
鲁棒且高效:跨数据集和样本量
作家进一步分析了REEF在不同数据集和不相同本数目下的发扬。
一方面,除了前文提到的TruthfulQA数据集,作家还选定了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等数据集进行实验;
另一方面,关于每个数据集,别在样本数目从10到1000、每隔10的情况下进行采样,以测试REEF的发扬。
效果,REEF在不同数据集上均发扬出灵验性,对数据集不具强依赖性(图示在不同数据集上,源模子与繁衍模子之间的相似性显贵高于其与无关模子之间的相似性,标明REEF概况跨数据集强健识别源模子);
同期,REEF依赖极少样本即可稳重识别模子指纹,具有高效性(图示REEF在 200-300 个样本后效果趋于强健,标明其不错在较少的样本数目下已毕可靠的指纹识别)。
REEF它不仅保险了模子性能,还均衡了怒放性与常识产权之间的关连,概况确保繁衍模子的背负可追思。
作家战胜,REEF将为AI模子保护和常识产权经管配置新的法式,促进更透明、相助的AI社区。
作家简介
本文由上海AI Lab、中科院、东说念主大和上交大邻接完成。
主要作家包括中科院博士生张杰、上海AI Lab后生究诘员刘东瑞(共团结作)等。
通信作家邵婧为上海AI Lab后生科学家,究诘想法为AI安全确切。
论文地址:https://arxiv.org/abs/2410.14273名目主页:https://github.com/tmylla/REEF开yun体育网
