Hiểu về GPT-4: Bước đột phá trong mô hình ngôn ngữ
Đã cập nhật: 30 thg 5, 2023
Understanding GPT-4: A Breakthrough in Language Model
OpenAI has recently announced the launch of their latest large language model, GPT-4, which is expected to be even bigger and better than their previous release, ChatGPT. However, the company has not disclosed any details about how much larger or what makes it better. This release is also the most secretive one yet, signaling OpenAI's full transition from a nonprofit research lab to a for-profit tech company.
OpenAI gần đây đã công bố ra mắt mô hình ngôn ngữ lớn mới nhất của họ, GPT-4, dự kiến sẽ còn lớn hơn và tốt hơn so với phiên bản trước đó của họ, ChatGPT. Tuy nhiên, công ty đã không tiết lộ bất kỳ chi tiết nào về việc lớn hơn bao nhiêu hoặc điều gì làm tốt hơn. Bản phát hành này cũng là bản bí mật nhất, báo hiệu sự chuyển đổi hoàn toàn của OpenAI từ một nghiệm nghiên cứu phi lợi nhuận sang một công ty công nghệ vì lợi nhuận.
GPT-4 is a multimodal language model, which means that it can understand and respond to both text and images. For instance, users can show GPT-4 a picture of the contents of their fridge and ask it to suggest recipes using the ingredients shown. According to Ilya Sutskever, OpenAI's chief scientist, GPT-4 is also proficient in explaining jokes and memes.
GPT-4 là một mô hình ngôn ngữ đa phương thức, có nghĩa là có thể hiểu và phản hồi cả văn bản và hình ảnh. Chẳng hạn, người dùng có thể cho GPT-4 xem một bức ảnh về nội dung trong tủ lạnh của họ và yêu cầu nó đề xuất công thức nấu ăn bằng cách sử dụng các thành phần được hiển thị. Theo Ilya Sutskever, nhà khoa học trưởng của OpenAI, GPT-4 cũng thành thạo trong việc giải thích những câu chuyện cười và meme.
Users who sign up for the waitlist and subscribers of the premium paid-for ChatGPT Plus will have limited access to GPT-4 in a text-only capacity.
Người dùng đăng ký danh sách chờ và người đăng ký ChatGPT Plus trả phí cao cấp sẽ có quyền truy cập hạn chế vào GPT-4 ở khả năng chỉ có văn bản.
Oren Etzioni from the Allen Institute for AI believes that the numerous improvements in GPT-4 are remarkable and that it will set the standard for all foundation models. Similarly, Thomas Wolf, the co-founder of Hugging Face, an AI startup behind an open-source language model called BLOOM, believes that GPT-4's multimodal capabilities have been the holy grail of many big tech companies in recent years.
Oren Etzioni từ Viện Allen về AI tin rằng nhiều cải tiến trong GPT-4 là rất đáng chú ý và nó sẽ thiết lập tiêu chuẩn cho tất cả các mô hình nền tảng. Tương tự, Thomas Wolf, người đồng sáng lập Hugging Face, một công ty khởi nghiệp AI đứng sau mô hình ngôn ngữ mã nguồn mở có tên BLOOM, tin rằng các khả năng đa phương thức của GPT-4 đã trở thành mục tiêu của nhiều công ty công nghệ lớn trong những năm gần đây.
Combining text and images could allow multimodal models to understand the world better, in theory. According to Thomas Wolf, cofounder of AI startup Hugging Face, “It might be able to tackle traditional weak points of language models, like spatial reasoning.”
Về mặt lý thuyết, việc kết hợp văn bản và hình ảnh có thể cho phép các mô hình đa phương thức hiểu thế giới tốt hơn. Theo Thomas Wolf, đồng sáng lập công ty khởi nghiệp AI Hugging Face, “Nó có thể giải quyết các điểm yếu truyền thống của các mô hình ngôn ngữ, như lý luận không gian.”
However, it is not yet clear if this is true for GPT-4. OpenAI’s new model seems to be better at basic reasoning than ChatGPT, as it can solve simple puzzles like summarizing blocks of text using words that start with the same letter. During a demo, GPT-4 was shown summarizing the announcement blurb from OpenAI’s website using words that begin with “g.” It was also able to answer questions about a document on taxes, citing reasons for its responses.
Tuy nhiên, vẫn chưa rõ liệu điều này có đúng với GPT-4 hay không. Mô hình mới của OpenAI dường như lý luận cơ bản tốt hơn ChatGPT, vì nó có thể giải các câu đố đơn giản như tóm tắt các khối văn bản bằng cách sử dụng các từ bắt đầu bằng cùng một chữ cái. Trong bản demo, GPT-4 đã được hiển thị tóm tắt thông báo giới thiệu từ trang web của OpenAI bằng cách sử dụng các từ bắt đầu bằng “g”. Nó cũng có thể trả lời các câu hỏi về một tài liệu về thuế, nêu lý do cho câu trả lời của nó.
GPT-4 outperforms ChatGPT on human tests such as the Uniform Bar Exam and the Biology Olympiad, ranking in the 90th and 99th percentiles, respectively. According to Wolf, “It’s exciting how evaluation is now starting to be conducted on the very same benchmarks that humans use for themselves.” However, without seeing the technical details, it’s hard to judge how impressive these results are.
GPT-4 vượt trội so với ChatGPT trong các bài kiểm tra của con người như Uniform Bar Exam và Olympic Sinh học, xếp hạng tương ứng ở phần trăm thứ 90 và 99. Theo Wolf, “Thật thú vị khi việc đánh giá hiện đang bắt đầu được tiến hành trên chính các tiêu chuẩn mà con người sử dụng cho chính họ.” Tuy nhiên, nếu không xem các chi tiết kỹ thuật, thật khó để đánh giá mức độ ấn tượng của những kết quả này.
OpenAI claims that GPT-4 performs better than ChatGPT because it is a larger model with more parameters. As with its previous models, GPT-3 outperformed GPT-2 because it was more than 100 times larger, with 175 billion parameters compared to GPT-2’s 1.5 billion. Jakub Pachocki, one of GPT-4’s developers, says, “That fundamental formula has not really changed much for years, but it’s still like building a spaceship, where you need to get all these little components right and make sure none of it breaks.”
OpenAI tuyên bố rằng GPT-4 hoạt động tốt hơn ChatGPT vì đây là mô hình lớn hơn với nhiều tham số hơn. Cũng như các mẫu trước đó, GPT-3 vượt trội so với GPT-2 vì nó lớn hơn 100 lần, với 175 tỷ tham số so với 1,5 tỷ của GPT-2. Jakub Pachocki, một trong những nhà phát triển của GPT-4, cho biết: “Công thức cơ bản đó đã không thực sự thay đổi nhiều trong nhiều năm, nhưng nó vẫn giống như việc chế tạo một con tàu vũ trụ, trong đó bạn cần sử dụng đúng tất cả các bộ phận nhỏ này và đảm bảo không bộ phận nào bị hỏng. ”
OpenAI has not disclosed the size of its latest language model, GPT-4, and has not provided any details on how it was built. This marks a departure from the company's previous releases, which included information on the data, computing power, and training techniques used. This lack of transparency has led some to criticize OpenAI for becoming a "fully closed company with scientific communication akin to press releases for products," according to Wolf.
OpenAI đã không tiết lộ quy mô của mô hình ngôn ngữ mới nhất của mình, GPT-4 và không cung cấp bất kỳ chi tiết nào về cách nó được xây dựng. Điều này đánh dấu sự khác biệt so với các bản phát hành trước đây của công ty, bao gồm thông tin về dữ liệu, sức mạnh tính toán và các kỹ thuật đào tạo được sử dụng. Theo Wolf, sự thiếu minh bạch này đã khiến một số người chỉ trích OpenAI vì đã trở thành một "công ty hoàn toàn khép kín với truyền thông khoa học giống như thông cáo báo chí về sản phẩm".
Despite this, OpenAI claims that GPT-4 is 82% less likely than its predecessor, GPT-3.5, to generate inappropriate content and 60% less likely to produce false information. The company used reinforcement learning via human feedback to achieve these results, asking human raters to score different responses from the model to improve future output.
Mặc dù vậy, OpenAI tuyên bố rằng GPT-4 có khả năng tạo ra nội dung không phù hợp thấp hơn 82% so với người tiền nhiệm GPT-3.5 và khả năng tạo ra thông tin sai lệch thấp hơn 60%. Công ty đã sử dụng phương pháp học tăng cường thông qua phản hồi của con người để đạt được những kết quả này, yêu cầu những người đánh giá là con người chấm điểm các phản hồi khác nhau từ mô hình để cải thiện kết quả đầu ra trong tương lai.
The OpenAI team also used GPT-4 to improve itself by asking it to generate biased, inaccurate, or offensive responses and then fixing the model so that it would avoid such inputs in the future.
Nhóm OpenAi đã sử dụng GPT-4 để tự cải thiện bằng cách yêu cầu nó tạo ra các phản hồi sai lệch, không chính xác hoặc xúc phạm, sau đó sửa mô hình để nó tránh các đầu vào như vậy trong tương lai.
While GPT-4 may be the best multimodal large language model yet built, it faces competition from other models, including Flamingo from DeepMind and an open-source multimodal model being developed by Hugging Face. OpenAI is treating the release of GPT-4 more as a product tease than a research update, with early versions shared with partners like Microsoft, which used GPT-4 to build Bing Chat. OpenAI is also working with Stripe, Duolingo, Morgan Stanley, and the government of Iceland, among others.
Mặc dù GPT-4 có thể là mô hình ngôn ngữ lớn đa phương thức tốt nhất chưa được xây dựng, nhưng GPT-4 phải đối mặt với sự cạnh tranh từ các mô hình khác, bao gồm Flamingo từ DeepMind và mô hình đa phương thức mã nguồn mở do Hugging Face phát triển. OpenAI coi việc phát hành GPT-4 giống như một sản phẩm trêu chọc hơn là một bản cập nhật nghiên cứu, với các phiên bản đầu tiên được chia sẻ với các đối tác như Microsoft, công ty đã sử dụng GPT-4 để xây dựng Bing Chat. OpenAI cũng đang làm việc với Stripe, Duolingo, Morgan Stanley và chính phủ Iceland.
The high cost of developing language models of this scale means that most companies cannot afford to do so, but OpenAI's approach has made large language models more accessible to startups, according to Sheila Gulati, cofounder of Tola Capital. This is expected to lead to innovation on top of GPT-4, which is likely to benefit many industries.
Theo Sheila Gulati, đồng sáng lập của Tola Capital, chi phí cao để phát triển các mô hình ngôn ngữ ở quy mô này có nghĩa là hầu hết các công ty không đủ khả năng chi trả, nhưng cách tiếp cận của OpenAI đã giúp các công ty khởi nghiệp dễ tiếp cận hơn với các mô hình ngôn ngữ lớn. Điều này dự kiến sẽ dẫn đến sự đổi mới trên GPT-4, có khả năng mang lại lợi ích cho nhiều ngành.
The speed at which powerful new AI is moving from labs to consumer-facing products is unprecedented. Google has announced that its own large language model PaLM is now available to third-party developers, and AI firm Anthropic has released a new large language model called Claude, which is already being tested by several companies.
Tốc độ mà AI mới mạnh mẽ đang chuyển từ phòng Lab sang các sản phẩm dành cho người tiêu dùng là chưa từng có. Google đã thông báo rằng mô hình ngôn ngữ lớn PaLM của riêng họ hiện có sẵn cho các nhà phát triển bên thứ ba và công ty AI Anthropic đã phát hành một mô hình ngôn ngữ lớn mới có tên là Claude, mô hình này đã được một số công ty thử nghiệm.
Despite these advancements, large language models are still flawed, as they can generate biased, false, and hateful text and be hacked to bypass safety measures. Although OpenAI has made improvements to the technology, it remains far from perfect. The company claims that its safety testing is sufficient for third-party apps to use GPT-4, but it also acknowledges that surprises may occur.
Bất chấp những tiến bộ này, các mô hình ngôn ngữ lớn vẫn còn thiếu sót, vì chúng có thể tạo ra văn bản thiên vị, sai lệch và gây thù hận cũng như bị tấn công để vượt qua các biện pháp an toàn. Mặc dù OpenAI đã có những cải tiến đối với công nghệ, nhưng nó vẫn chưa hoàn hảo. Công ty tuyên bố rằng thử nghiệm an toàn của họ là đủ để các ứng dụng của bên thứ ba sử dụng GPT-4, nhưng họ cũng thừa nhận rằng những điều bất ngờ có thể xảy ra.
OpenAI co-founder Sutskever emphasizes that safety is a process rather than a binary concept and that going slower with releases may sometimes be preferable. He suggests that companies should establish a process that allows for slower releases of models with unprecedented capabilities to ensure safety.
Người đồng sáng lập OpenAI Sutskever nhấn mạnh rằng an toàn là một quá trình chứ không phải là một khái niệm nhị phân và việc phát hành chậm hơn đôi khi có thể tốt hơn. Ông gợi ý rằng các công ty nên thiết lập một quy trình cho phép phát hành chậm hơn các mẫu có khả năng chưa từng có để đảm bảo an toàn.
FreFo Explained & Vocabulary
Large Language Model (LLM) (Mô hình ngôn ngữ lớn): đề cập đến một loại mô hình AI đã được đào tạo trên một lượng lớn dữ liệu văn bản để tạo ra đầu ra ngôn ngữ giống như con người.
Multimodal (Đa phương thức): đề cập đến các LLM có thể xử lý và tạo không chỉ văn bản mà còn các loại dữ liệu khác như hình ảnh, video và âm thanh.
Reinforcement learning (Học tăng cường): một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một khoản thưởng nào đó về lâu dài.
Bias (Xu hướng): đề cập đến xu hướng của các mô hình AI tạo ra đầu ra phản ánh những sai lệch có trong dữ liệu được sử dụng để huấn luyện chúng.
Chatbot: một chương trình máy tính được thiết kế để mô phỏng cuộc trò chuyện với người dùng, thường được sử dụng cho dịch vụ và hỗ trợ khách hàng.
Guardrails (Ranh giới/lan can): đề cập đến các tính năng an toàn được tích hợp trong mô hình AI để ngăn mô hình này tạo ra đầu ra có hại hoặc không phù hợp.
Binary (Nhị phân): đề cập đến một hệ thống chỉ có hai giá trị hoặc trạng thái có thể.
Unprecedented (: đề cập đến một vật/thứ đó chưa bao giờ được nhìn thấy hoặc thực hiện trước đây.
Yorumlar