取個名很難啊 作品

第470章 綠男集中地

 既然“模型崩潰”的問題癥結已經找到。 

 下一步的工作就要開始。 

 “我們可以先啟動備份語言模型,採用新的思路來培育語言模型。”蘇茨克維說: 

 “這一次,我們必須要用人類創造的真實數據來餵養模型。” 

 “對數據質量進行檢測、過濾,去除重複、錯誤、偏見的內容。” 

 “並注意增強數據的多樣性,提高和豐富生成數據的內容。” 

 “此外,還需要增強魯棒性技術,提高語言模型抗干擾能力,自動識別生成數據。” 

 “我認為,未來幾年隨著人工智能不斷發展,尋找真實數據將是語言模型面臨的主要挑戰之一。” 

 “魯棒性”,是指控制系統在一定參數攝動下,維持某些性能的特性。 

 比如:計算機軟件在輸入錯誤、磁盤故障、網絡過載或者有意攻擊情況下,不死機、不崩潰,就是該軟件的魯棒性。 

 “在這方面我們有優勢,我們的合作伙伴鵝廠,其App本身就是一個規模龐大的人類自然語言數據庫。”李飛說。 

 “但是,這還不夠,我們還需要更多的人類經典書籍、圖像數據和新聞數據等。”辛頓說: 

 “這些才是人類自然語言的精華。” 

 “另外,我們建議鵝廠適度限制各種應用程序接口扒數據的權限……”克里切夫斯基說: 

 “他們不僅下載數據,還會產生大量生成式數據,影響到我們的語言模型。” 

 “這些,我都會和鵝廠對接好,辛苦幾位抓緊訓練,把這段時間損失的進度補上來。”常樂說。 

 ………… 

 當天晚上,常樂將“模型崩潰”的情況通報給了小馬哥、任總等。 

 他們都很驚訝。 

 驚訝的是,模型即便產生問題,也與人類如此相似。 

 第二天上午。 

 小馬哥就出現在半山別墅。 

 “我可不可以這樣理解,隨著語言模型的發展和大面積推廣,今後人類創造生成的數據,會更加稀缺。”小馬哥問。 

 “可以這樣理解,人類天然的惰性,會助推語言模型生成數據的泛濫。”常樂點頭: 

 “至少在目前這個階段,模型生成的數據還是與人類數據有差距。” 

 “缺乏真實性和特徵的多樣性,存在重複、偏見、謬誤等。” 

 常樂倒了一杯茶給小馬哥: 

 “當這些數據用於語言模型訓練,就會使模型忽略、遺忘原始數據的特徵和信息,這就是模型崩潰的本質。”