The Chinese company claims to surpass OpenAI in long text processing

Baichuan2-192k là mô hình ngôn ngữ lớn (LLM) mới nhất của Baichuan – công ty đứng sau công cụ tìm kiếm nổi tiếng Trung Quốc Sogou. Người sáng lập Wang Xiaochuan cho biết LLM mới dựa trên “Cửa sổ ngữ cảnh” có thể xử lý khoảng 350.000 ký tự tiếng Trung, từ đó trở thành mô hình xử lý lệnh văn bản mạnh mẽ nhất thế giới. phiên bản dài.

Baichuan founder Wang Xiaochuan. Photo: Weibo — Người sáng lập Baichuan Wang Xiaochuan. Hình chụp: *weibo*

Cửa sổ ngữ cảnh là một khái niệm đề cập đến sự kết hợp giữa văn bản đầu vào và đầu ra mà mô hình có thể xử lý trong quá trình trò chuyện với người dùng. Theo bài đăng trên WeChat, Baichuan2-192k có sức mạnh xử lý cửa sổ ngữ cảnh cao gấp 14 lần so với GPT-4, mô hình ngôn ngữ lớn trong ChatGPT của OpenAI.

LLM đã đạt được thông số kỹ thuật về cửa sổ ngữ cảnh lớn nhất thế giới, trước đây do Claude 2 của Anthropic (được Amazon hậu thuẫn) nắm giữ, được giới thiệu vào tháng 7. Mô hình này có thể chứa dữ liệu cửa sổ ngữ cảnh của 75.000 từ tiếng Anh. Tiếng Anh, tương ứng với hàng trăm trang tài liệu hoặc một cuốn sách. Nếu tuyên bố của Baichuan là chính xác thì Baichuan2-192k mạnh hơn Claude 2 gần gấp 5 lần.

Baichuan tuyên bố mô hình của nó vượt qua Claude 2 về chất lượng phản hồi cũng như khả năng hiểu và tóm tắt văn bản dài. Tuyên bố này dựa trên kết quả thử nghiệm của LongEval, một dự án do Đại học California, Berkeley và các tổ chức khác của Hoa Kỳ khởi xướng nhằm đánh giá mức độ xử lý của một mô hình LLM cụ thể.

Theo Xiaochuan, Baichuan2-192k rất hữu ích cho các doanh nghiệp cần xử lý và tạo ra các tài liệu dài hàng ngày, chẳng hạn như ngành pháp lý và truyền thông. tài chính. Công ty đang thử nghiệm mô hình nội bộ cho một số đối tác.

Tuy nhiên, theo nghiên cứu của các học giả từ Đại học Stanford và UC Berkeley, việc xử lý nhiều thông tin hơn không nhất thiết làm cho mô hình AI trở nên tốt hơn. Trước Baichuan, một số LLM Trung Quốc cũng tuyên bố vượt qua ChatGPT. Ngày 31/10, Alibaba cho biết Tongyi Qianwen – một mô hình AI được đào tạo với hàng trăm tỷ thông số – đã vượt qua GPT-3.5 của OpenAI và Llama2 của Meta, đồng thời “thu hẹp đáng kể khoảng cách” với GPT-4. Trong khi đó, Zhipu AI, một công ty khởi nghiệp được Alibaba và Tencent hậu thuẫn, tuần trước đã ra mắt ChatGLM3 với nhiều cải tiến, bao gồm tốc độ suy luận nhanh hơn, chi phí đào tạo thấp hơn và bổ sung trợ lý mã hóa.

Bảo Lâm (dựa theo SCMP )

Công ty Trung Quốc tuyên bố vượt qua OpenAI trong xử lý văn bản dài

Trả lời Hủy

Bài viết mới

Phản hồi gần đây

Lưu trữ

Chuyên mục

Meta