Tin tức mới

GPT của OpenAI và hành trình của các mô hình xử lý ngôn ngữ tự nhiên

0 0
0 0
Read Time:7 Minute, 19 Second

Một phòng thí nghiệm nghiên cứu trí tuệ nhân tạo lớn tên là OpenAI. Nơi phát hành một công cụ mới; nó có thể tự động tạo ra các đoạn văn bản. Các nhà khoa học gần như không thể phân biệt được với các tác phẩm được viết bởi con người. Các nhà phát triển đã bị choáng bởi cách nó có thể viết mã. Khôg nhưng thế, nó còn bắt chước các tác giả nổi tiếng; viết ghi nhớ kinh doanh. Các mô hình Generative Transformer (GPT) là gì? Đây là các mô hình được đào tạo trước bởi OpenAI. Nó đã gây bão cộng đồng xử lý ngôn ngữ tự nhiên (NLP).

Bằng cách giới thiệu các mô hình ngôn ngữ rất mạnh mẽ như trả lời câu hỏi; đưa ra văn bản; tóm tắt văn bản, v.v.. So với người mẫu hiện đại được đào tạo về thời trang có giám sát. Các nhà khoa học nhận thấy những người mẫu ngôn ngữ thực hiện tương đương hoặc thậm chí tốt hơn.

GPT-1 sử dụng BooksCorpus dataset chứa 7000 cuốn sách

Trước công trình này, hầu hết các mô hình NLP state-of-the-art được huấn luyện; luyện tập chuyên biệt về một nhiệm vụ cụ thể như sentiment classification, textual entailment, v.v. Những mô hình này sử dụng phương pháp supervised learning. Tuy nhiên, các mô hình supervised có hai hạn chế chính. Hạn chế thứ nhất là cần một lượng lớn dữ liệu; chú thích để học một nhiệm vụ cụ thể mà thường không dễ dàng có được. Thứ hai không thể khái quát các nhiệm vụ khác với những gì đã được huấn luyện.

Đối với unsupervised learning, GPT-1 sử dụng hàm loss cho mô hình ngôn ngữ chuẩn:

Trong đó T là tập hợp các tokens trong dữ liệu unsupervised {t1,…, tn}, k là kích thước của cửa sổ context, θ là các tham số của mạng nơ-ron.
Trong đó T là tập hợp các tokens trong dữ liệu unsupervised {t1,…, tn}, k là kích thước của cửa sổ context, θ là các tham số của mạng nơ-ron.

Hàm loss cho finetuning được thiết kế để dự đoán nhãn y dựa vào các đặc trưng x1, … xn:

Trong đó C là tập dữ liệu được gắn nhãn.
Trong đó C là tập dữ liệu được gắn nhãn.

Thay vì chỉ tối đa hóa hàm mục tiêu được đề cập trong phương trình (ii) theo công thức:

Trong bài báo, λ có giá trị 0,5.
λ có giá trị 0,5.

GPT-1 sử dụng BooksCorpus dataset chứa 7000 cuốn sách để huấn luyện mô hình ngôn ngữ. Corpus này chứa các đoạn văn bản liền kề lớn. Nó giúp mô hình tìm hiểu các phụ thuộc trên phạm vi rộng. So với các mô hình state-of-the-art trên 9 trong số 12 nhiệm vụ thì GPT-1 đạt kết quả tốt hơn. Không những thế, bài báo đã chứng minh rằng mô hình ngôn ngữ; hành động đóng vai trò trừu tượng hóa các khái niệm; nó giúp cho GPT-1 có khả năng dự đoán zero-shot.

Cải tiến của GPT-2 chủ yếu là sử dụng dataset lớn hơn

GPT-2 là một mô hình ngôn ngữ dựa trên biến áp học sâu không giám sát được

GPT-2 là một mô hình ngôn ngữ dựa trên biến áp học sâu không giám sát được OpenAI tạo ra vào tháng 2 năm 2019. Nó được tạo ra với mục đích duy nhất là dự đoán (các) từ tiếp theo trong một câu. GPT-2 là từ viết tắt của ‘Generative Pretrained Transformer 2’. Mô hình là mã nguồn mở và được đào tạo trên 1,5 tỷ tham số để tạo chuỗi văn bản; tiếp theo cho một câu nhất định. Nhờ sự đa dạng của tập dữ liệu được sử dụng trong quá trình đào tạo, chúng tôi có thể có được sự tạo văn bản đầy đủ cho văn bản từ nhiều lĩnh vực khác nhau. GPT-2 gấp 10 lần thông số và 10 lần dữ liệu của GPT tiền nhiệm.

Những cải tiến của GPT-2

Cải tiến của GPT-2 chủ yếu là sử dụng dataset lớn hơn và dùng mô hình nhiều tham số hơn. Chúng ta đã biết, hàm mục tiêu của mô hình ngôn ngữ được xây dựng dưới dạng P(output|input). Tuy nhiên, GPT-2 hướng đến việc học nhiều tác vụ bằng cách sử dụng cùng một mô hình unsupervised. Để đạt được điều đó, hàm mục tiêu được sửa đổi thành P(output|input, task). Sửa đổi này được gọi là task conditioning.

Các tác giả rà soát nền tảng Reddit và lấy dữ liệu từ các liên kết ngoài. Các liên kết này là của các paper có uy tín. Điều này giúp tạo ra một tập dữ liệu lớn và chất lượng,  Tập dữ liệu kết quả được gọi là WebText, có 40GB dữ liệu văn bản từ hơn 8 triệu tài liệu. Tập dữ liệu này được sử dụng để huấn luyện GPT-2. Nó lớn hơn nhiều so với tập dữ liệu của Book Corpus được sử dụng để huấn luyện GPT-1.

Tập dữ liệu này được sử dụng để huấn luyện GPT-2
Tập dữ liệu này được sử dụng để huấn luyện GPT-2

Các tác giả đã huấn luyện bốn mô hình ngôn ngữ với số các tham số. Các tham số này lần lượt là 117 triệu (giống GPT-1); 345 triệu; 762 triệu và 1,5 tỷ tham số (GPT-2). Thông qua thực nghiệm, các mô hình sau có perplexity thấp hơn các mô hình trước. Điều này có nghĩa là có khả năng mô hình ngôn ngữ tốt hơn. GPT-2 sau đó được đánh giá trên 8 bộ dataset. Sau khi đánh giá, GPT-2 đạt kết quả tốt trên 7 bộ trong số chúng. Đối với tác vụ tóm tắt văn bản; GPT-2 hoạt động thậm chí chỉ ngang bằng hoặc kém hơn các cách tiếp cận cổ điển.

GPT-3 có số tham số gấp 10 lần so với mô hình ngôn ngữ Turing NLG

GPT-3 là ‘Generative Pre-Trained Transformer’ là phiên bản phát hành thứ 3

Nói một cách đơn giản, GPT-3 là ‘Generative Pre-Trained Transformer’ là phiên bản phát hành thứ 3 và là phiên bản nâng cấp của GPT-2. Phiên bản 3 đưa mô hình GPT lên một cấp độ hoàn toàn mới vì nó được đào tạo dựa trên 175 tỷ thông số khổng lồ (lớn hơn 10 lần so với người tiền nhiệm của nó, GPT-2). GPT-3 đã được đào tạo trên một tập dữ liệu nguồn mở có tên là ‘ Thu thập thông tin chung ‘ và các văn bản khác từ OpenAI, chẳng hạn như mục nhập Wikipedia.

GPT-3 thực hiện tốt các tác vụ NLP với zero-shot và few-shot setting

GPT-3 có số tham số gấp 10 lần so với mô hình ngôn ngữ Turing NLG mạnh mẽ của Microsoft. Khi so sánh, nhiều nhà hoa học nhận thấy GPT-3 gấp 100 lần so với GPT-2. Do có số lượng lớn các tham số và dataset phong phú; GPT-3 thực hiện tốt các tác vụ NLP với zero-shot và few-shot setting. Do dung lượng lớn, nó có khả năng viết các bài viết. Khi so sánh với bài viết của con người chúng ta khó có thể phân biệt. Nó cũng có thể thực hiện các tác vụ nhanh chóng. Những tác vụ mà nó chưa bao giờ được huấn luyện một cách rõ ràng.

GPT-3 chứng minh hiệu quả của mình trên một loạt các nhiệm vụ NLP
GPT-3 chứng minh hiệu quả của mình trên một loạt các nhiệm vụ NLP

Trong few-shot setting, mô hình được cung cấp mô tả nhiệm vụ; nhiều ví dụ phù hợp với cửa sổ ngữ cảnh của mô hình. Trong one-shot setting, mô hình được cung cấp chính xác một. Ví dụ và trong zero-shot setting thì không có ví dụ nào được cung cấp. Với việc tăng dung lượng, khả năng của mô hình trong few, one và zero-shot cũng được cải thiện.

GPT-3 chứng minh hiệu quả của mình trên một loạt các nhiệm vụ NLP. Ngoài ra, mô hình cũng được đánh giá về các tác vụ tổng hợp như cộng số học; giải mã từ; sinh tin tức; học và sử dụng từ mới v.v. Đối với những nhiệm vụ này, hiệu suất tăng lên cùng với sự gia tăng số lượng; các tham số và mô hình hoạt động tốt hơn trong few-shot setting hơn là one hay zero-shot.

Happy
Happy
0 %
Sad
Sad
0 %
Excited
Excited
0 %
Sleepy
Sleepy
0 %
Angry
Angry
0 %
Surprise
Surprise
0 %

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

2 + 2 =