隨著近年來大模型的迅猛發展,知識蒸餾(Knowledge Distil ation)逐漸成為人工智能領域一個備受關注的話題。尤其是在近期,DeepSeek憑借其在技術上的突破和創新,不僅讓自身聲名鵲起,也將知識蒸餾這一概念帶入了公眾的視野。那么,何為知識蒸餾呢?它究竟是如何在人工智能領域發揮著重要作用并推動著技術的不斷進步,這值得深入探究。
作為一種強大的模型壓縮技術,知識蒸餾是人類社會中教師與學生關系在人工智能領域的延伸:在人類社會中,知識儲備較少、學習能力較弱的學生可以向知識儲備豐富、學習能力更強的教師學習以獲取知識,以此獲得比自學更高的學習效率。類比到人工智能領域,研究人員發現可以將一個參數量較小、學習能力較弱的模型作為“學生模型”,將一個參數量較大、學習能力較強的模型作為“教師模型”,通過讓學生模型學習教師模型,獲得比學生模型直接從數據中學習更高的效率。這一種模仿人類學習行為的算法在人工智能領域被稱為“知識蒸餾”。知識蒸餾由圖靈獎、諾貝爾獎得主杰弗里·辛頓(Geof-freyHinton)正式提出,成為人工智能領域最重要的基礎算法之一。
知識蒸餾最早被用于減少模型的參數量,以此降低人工智能模型的存儲成本和計算成本。當前的人工智能模型參數量大,其計算速度慢、存儲成本高,在實際應用中存在諸多不便。例如,在自動駕駛中,人工智能模型計算速度慢會導致自動駕駛汽車無法快速地感知周圍環境,容易造成交通事故;在手機應用上,人工智能存儲成本過高會導致其占用大量手機存儲空間,導致手機卡頓,影響用戶體驗。早期的知識蒸餾讓參數量小、性能不佳的學生模型學習參數量大、性能好的教師模型。理想情況下,如果學習成功,小的學生模型掌握了與教師模型相同的知識,那么就可以在繼承教師模型優良性能的同時維持參數量小的優勢,實現“又小又好”。研究人員將這一過程與物理學中的“蒸餾”聯系起來,意在通過此種方式將模型中無用的參數“蒸發”,將重要的知識保留,因此稱為知識蒸餾。
在大模型時代,知識蒸餾受到了更加廣泛的關注。一方面,大模型的參數量與傳統模型相比有了百倍、千倍乃至萬倍的增長,模型的參數成本和計算成本被進一步放大,因此對于它們的壓縮和加速需求也就更加顯著。例如,DeepSeek V3模型有6710億參數,是傳統人工智能模型BERT的2000多倍,這意味其計算耗時和存儲成本也增長了千倍以上。為了將類似DeepSeek的大模型在個人電腦、手機等小設備上部署,就需要進一步探索和利用知識蒸餾技術,將DeepSeek的知識提取出來,存到小的模型上。
另一方面,大模型時代的知識蒸餾不僅體現了參數上知識的傳遞,也體現了數據上知識的傳遞。具體來說,如果一個人類教師是學習過“數理化政史地”全科知識的教師,那么在授課過程中,即使他僅向學生教授單個科目的內容,也有可能潛在地向學生傳遞他所具備的其他領域知識。類似地,在人工智能中,如果教師模型學習了更加廣泛領域上的知識,那么,在知識蒸餾的過程中,學生模型也可以間接地學習這些領域上的信息。例如,如果教師模型學習過中文和英文的數據,而學生模型僅學習過中文的數據。那么,通過讓學生模型向教師模型學習,學生模型即可間接地學習到英文數據中的知識,實現能力的進一步提升。這一行為也導致知識蒸餾引發了許多知識產權的顧慮:如果教師模型的知識是具備獨特知識產權的內容,那么學生模型向教師模型學習的過程是否意味著對于知識產權的侵犯?對于這一問題,各界尚未達成一致的認知。從技術角度上看,判斷一個模型是否以其他模型為教師模型進行過知識蒸餾訓練也是非常困難的。因此,由知識蒸餾導致的侵權爭議也廣泛存在。
唐代文學家韓愈曾言,“弟子不必不如師,師不必賢于弟子”。這一現象在知識蒸餾領域同樣存在。人工智能領域對于知識蒸餾中的教師和學生的認知也有過三個不同的階段。早期的知識蒸餾通常認為教師模型應當有比學生模型更強的智力水平,即“師賢于弟子”,以此才可以讓學生學習得更好。隨后,一些研究人員提出“自蒸餾”的概念,即認為模型可以自我學習,達到“吾日三省吾身”的自我反思的學習效果。多個學習能力相當的模型也可以相互學習,以此達到比單個模型更好的效果。同時,有研究人員發現,如果讓學生模型過分學習智能水平遠遠超過它的教師模型,反而可能會損傷學生模型的性能,即人工智能中的學習行為也應當逐步進行,不可一步登天。近年來,包括OpenAI在內的一些研究人員又提出了“師不必賢于弟子”的思路,即認為教師模型不需要超過學生模型的智力水平,只需要在某個特定能力上優于學生,就可以繼續引導學生模型的學習。這一思路的提出為人工智能的進一步演化提供了可能。倘若以人類的知識作為教師模型,以人工智能模型作為學生模型,那么這種從以弱能力教師模型的引導實現更強能力學生模型的范式,也就意味著通過人類知識的引導得到超越人類智能水平的人工智能,這為通用人工智能的實現提供了一絲希望。
人類的學習過程講求取其精華、去其糟粕,意在對于教師所傳授的信息進行有選擇的學習,避免對于錯誤信息或不適于自身信息的盲目模仿。有趣的是,這一思路在人工智能中同樣是存在的。學者們發現,如果讓學生模型學習教師模型輸出的所有內容,往往無法達到最佳的學習效果。對于教師模型的知識進行篩選,并僅學習關鍵的部分,有時可以獲得更高的學習效率。同時,在大模型時代,學生模型向教師模型學習的過程可能會導致學生模型的價值觀受到教師模型的影響。例如,如果教師模型是由西方世界的數據為主所訓練的,那么向其學習的過程會導致學生模型的認知也受到西方世界的數據中的偏見影響,進而引入對于特定群體的刻板印象乃至偏見。因此,在大模型的知識蒸餾過程中如何避免價值觀的污染,也是知識蒸餾研究的重點問題。
綜上所述,知識蒸餾是人類社會中師生概念在人工智能領域的延伸,其研究思維和方法也與人類社會中的學習行為不謀而合,體現了人類智能和人工智能的呼應。在發展的過程中,知識蒸餾也引起了數據產權的爭議與人工智能價值觀問題的潛在風險。安全、可控、有效的知識蒸餾算法的實現需要社會各界的統一協作。
