2024年1月16日,美國商務部商業(yè)數據治理委員會發(fā)布《生成型AI和開放數據:指南和最佳實踐》,為發(fā)布供生成式AI系統(tǒng)使用的開放數據提供指導,確保商務部數據在生成式AI時代能有效利用。
一、背景
商務部與開放數據資產:美國商務部是主要的開放數據生產者,其數據涵蓋人口、經濟、環(huán)境等多領域,有超15萬個開放數據集,包括文本、表格、地理空間等多種格式。長期以來,商務部致力于提高數據質量和可訪問性,如40年前將數據電子化,近年依據法案以機器可讀格式發(fā)布數據。如今,為適應生成式AI應用發(fā)展,持續(xù)改進數據發(fā)布實踐。
人工智能與生成式人工智能發(fā)展:人工智能旨在使計算機算法具備類人智能行為,機器學習和深度學習是其重要分支,生成式AI則是深度學習中的模型子集,可生成新內容。生成式AI應用有潛力使開放數據更易用,但也存在如編造虛假信息等問題,且其基礎模型訓練資源消耗大。商務部希望通過本指南使開放數據適配生成式AI系統(tǒng),降低創(chuàng)新成本。
指南制定過程:鑒于生成式AI發(fā)展,商務部數據治理委員會于2023年成立工作組。因現(xiàn)有數據存在格式、元數據、文檔和可訪問性不一致及許可等問題,工作組發(fā)布信息請求(RFI)并舉辦研討會,收到37份來自各界的提交內容。本指南參考RFI回應及專家意見,雖主要針對商務部,但對其他數據發(fā)布者也有價值,且定義了相關術語如生成式模型、系統(tǒng)和應用等,并分析了商務部開放數據在生成式 AI 系統(tǒng)中的訓練、測試驗證、微調及數據檢索和實時響應等應用方式。
二、指南與最佳實踐
1、文檔記錄
提供全面數據資產背景:全面記錄數據集信息至關重要,包括數據用途、限制、偏差、數據字典、來源及處理步驟等,有助于深入理解數據,提升AI模型訓練與數據檢索的準確性和可靠性。實施持久標識符(PID)可確保數據及相關文檔的穩(wěn)定引用,即便數據更新也能準確追蹤。每次數據發(fā)布后及時更新文檔并進行版本控制,詳細記錄數據變化情況,同時提供數據處理的開源代碼,增強數據處理過程的透明度與可重復性。
最大化文檔可用性和可訪問性:采用人類和機器可讀的雙格式提供文檔,人類可讀格式便于研究人員等理解數據,機器可讀格式則利于自動化數據處理。在合適場景下優(yōu)先選用開源軟件格式,如R或Python,避免使用專有軟件,以增強數據的可獲取性、透明度和互操作性,促進生成式AI系統(tǒng)對數據的有效利用。
2、數據和元數據格式
發(fā)布全面結構化數據和元數據:在數據集元數據中納入如發(fā)布者、來源、權限、更新日期等與生成式AI相關的關鍵信息,同時添加詳細的變量級元數據,涵蓋應用邏輯、依賴信息、分布信息等,提升數據的機器可理解性,為AI模型訓練和數據處理提供有力支持。遵循常用元數據模式和標準(如DCAT-US、Schema.org等)發(fā)布數據和元數據,確保數據在不同系統(tǒng)間的互操作性。使用標準缺失數據值,避免因缺失值表示不一致導致的誤解,并確保文件命名規(guī)范、清晰,便于數據管理和檢索。
最大化數據和元數據可用性:以機器可讀格式生成數據和元數據,滿足開放數據法案要求,采用如CSV、JSON等常用開放數據格式,確保數據傳播不受特定軟件限制。對于地理空間數據、圖像和視頻數據等,分別選用合適的開放格式(如 shapefiles、GeoPackages、標準化圖像和視頻格式)進行發(fā)布,避免使用PDF和過度依賴專有軟件格式(如XLSX),以提高數據的可訪問性和互操作性。
3、數據存儲和傳播
以一致格式傳播開放數據:考慮到生成式AI系統(tǒng)對大量數據的需求,壓縮或提供便捷下載方式以減少大型數據集的訪問障礙,采用ZIP、Apache Parquet等開源且語言無關的文件格式進行壓縮,提高數據訪問效率。在數據發(fā)布中附帶詳細的書面文檔,為生成式AI模型訓練和微調提供豐富背景信息,增強數據的實用性。
將開放數據存儲在易于檢索位置:提供多種數據檢索方式,如RESTful API和直接下載。RESTful API便于數據科學家和開發(fā)者編程檢索特定數據子集,提高數據檢索的靈活性和效率;直接下載則適用于需要完整數據集進行本地處理的用戶。確保數據網站定期更新,優(yōu)化網站結構(如設置合理的sitemaps、一致的URL命名)、保證安全證書有效、合理配置robots.txt文件以及采用HTML格式發(fā)布文檔等,提高網站的可爬取性,方便搜索引擎和自動化工具發(fā)現(xiàn)和索引數據。
4、數據許可和使用
以易懂格式發(fā)布開放數據權利和許可:明確界定并以機器可讀格式發(fā)布生成式AI相關的數據使用政策,涵蓋專利、隱私等限制條件,協(xié)調部門間制定統(tǒng)一的知識產權聲明和許可模板,確保數據使用的一致性和規(guī)范性。在商務部網站根目錄設置robots.txt文件,規(guī)范網絡爬蟲對數據的訪問行為,同時結合其他機制(如API密鑰、訪問控制)有效管理數據檢索。在數據集元數據中準確鏈接數據許可證和權利信息,區(qū)分開放數據許可證和版權許可證,避免數據使用的混淆,確保數據使用符合法律規(guī)定和用戶預期。
協(xié)作開發(fā)和更新數據許可證和使用政策:商務部內部各實體應與法律部門緊密合作,共同制定和更新數據許可證和使用政策,加強部門間溝通協(xié)作,避免政策不一致。在更新政策時及時共享信息,提高政策的透明度和一致性。具體措施包括更新許可模板、制定詳細的元數據和機器可讀許可證應用指南,以及在商務部現(xiàn)有知識產權資源中設立專門的“IP 和數據許可”部分,為數據使用提供全面的模板和最佳實踐參考。
5、數據質量和完整性
為高質量數據檢索準備開放數據:在數據集元數據中明確指示數據質量評估情況,便于用戶篩選和理解數據可靠性。建立自動化數據質量控制流程,檢查數據缺失值、類型一致性和格式問題,并確保AI相關元數據完整,結合手動審查確保數據質量。優(yōu)化API設計,確保其高效返回相關信息,數據格式符合模型要求,提供豐富的元數據和上下文信息,并具備高并發(fā)處理能力和良好的文檔及工具支持,為基于檢索增強生成(RAG)架構的AI模型提供高質量數據。
持續(xù)評估開放數據準確性:開發(fā)針對AI/ML應用領域的基準數據集,用于評估模型性能和數據檢索、解釋效果,克服現(xiàn)有基準數據集的局限性。提供針對商務部常用數據集的提示庫,指導生成式AI模型如何與實時數據交互,提高模型響應的準確性和可靠性。與生成式AI應用開發(fā)者合作,通過優(yōu)化模型訓練和調整,確保在生成響應時優(yōu)先使用商務部的權威數據,避免因數據來源問題導致的錯誤信息傳播。
三、未來工作
1、探索數字簽名
在開放的商務部數據環(huán)境中,強烈建議實施數字簽名。數字簽名作為一種加密機制,能夠有效驗證數據來源的可信度,確保數據在傳輸和存儲過程中未被篡改。這對于維護數據集的完整性和準確性至關重要,因為被篡改或偽造的數據可能會給機器學習模型帶來嚴重的偏差和漏洞。通過采用數字簽名,商務部可以增強其數據集的真實性和可靠性,營造一個更安全的數據生態(tài)系統(tǒng),提升用戶對使用開放數據進行AI/ML系統(tǒng)開發(fā)(包括生成式AI應用)的信任度。
2、創(chuàng)建AI就緒性評估指標
盡管商務部期望在整個部門內推行現(xiàn)有的指南,但目前缺乏評估數據資產是否符合生成式AI就緒性的具體指標或清單。例如,需要建立一個技術標準來明確商務部應努力達到的AI就緒性水平,以及制定網站可爬取性的檢查清單等。通過確立這些評估指標,商務部將擁有清晰、可操作的目標,以便衡量工作進展并精準識別需要改進的領域,從而切實確保數據資產能夠滿足生成式AI的應用需求。
3、開發(fā)開放數據使用教育材料
商務部雖然已經擁有一定數量的教育資源,如各類教育網站和培訓項目,但隨著其開放數據與AI模型開發(fā)和使用的交集日益增多,仍需進一步加強對學生、研究人員和公眾的教育資源建設。這包括開發(fā)新的培訓課程、教程、材料,以及舉辦更多的研討會和培訓活動,以提升用戶對商務部開放數據在生成式AI應用中的理解和使用能力。
4、與其他機構合作開展開放數據和AI就緒性工作
商務部認識到其他聯(lián)邦機構也在積極探索實現(xiàn)AI就緒性,因此期待與這些機構分享自身經驗和成果。例如,國家科學基金會的NAIRR試點項目就是一個正在進行的合作案例,該項目整合了商務部下屬的NOAA和USPTO的AI就緒數據資產。通過與其他機構的合作,商務部能夠促進開放數據和AI就緒性工作在更廣泛范圍內的協(xié)同發(fā)展,實現(xiàn)資源共享和優(yōu)勢互補。
5、與AI和開放數據專家協(xié)作進行迭代
當前的指南僅僅是一個迭代過程的開端,為了持續(xù)改進商務部的開放數據以更好地適應生成式AI應用,需要與AI和開放數據專家進行定期的、廣泛的反饋交流。商務部歡迎來自公眾、政府、學術界、工業(yè)界和其他利益相關者的反饋意見,涵蓋數據和元數據格式、數據存儲和傳播、數據許可和使用以及數據完整性和質量等各個方面,以便不斷優(yōu)化指南內容,使其始終保持相關性和有效性。
6、創(chuàng)建與數據用戶溝通的標準渠道
商務部應建立標準化的方式向數據用戶傳達數據集的變更信息,例如創(chuàng)建一個可供用戶跟蹤的標準頁面或設立電子郵件列表。同時,提供通用的反饋機制(如在線表單)也至關重要,以便數據用戶能夠就數據變更提出疑問、報告問題或為即將發(fā)布的數據提供建議。此外,還應積極培育開放數據用戶社區(qū),鼓勵用戶參與數據的改進和優(yōu)化工作,例如通過舉辦類似Census Bureau 的 The Opportunity Project或NOAA的Open Data Dissemination Office Hours等活動,為數據用戶提供交流和反饋的平臺。

關注“廣東技術性貿易措施”,獲取更多服務。