Chức năng của công cụ tóm tắt văn bản tự động như thế nào
Một điều phổ biến được thực hiện những ngày này là lướt internet để tìm một chủ đề cụ thể. Lấy thông tin về bất cứ điều gì và mọi thứ trên mạng. Thông tin nhận được không phải luôn luôn là những gì bạn muốn. Tiếp theo chúng ta đọc nhanh qua các đoạn nhỏ bên dưới mỗi liên kết để tìm hiểu xem trang web nói về cái gì. Những đoạn này là tóm tắt các bài viết. Internet gồm nhiều tin tức, bài báo, nghiên cứu, trang web và blog và không thể tóm tắt thủ công. Có rất nhiều dữ liệu mới được tải lên mỗi phút.
Các công cụ tìm kiếm như yahoo, google và Bing sử dụng các công cụ tóm tắt văn bản tự động trong việc tóm tắt tất cả các tài liệu dài. Một tóm tắt có thể được định nghĩa là một thuật toán hình thành các câu từ một bài viết văn bản, chọn những gì được coi là quan trọng và đưa chúng trở lại ở dạng ngắn hơn, có cấu trúc và dễ đọc. Tóm tắt văn bản tự động bao gồm lĩnh vực xử lý ngôn ngữ tự nhiên của con người.
Các phương được sử dụng để tóm tắt tự động gồm:
- Phương pháp trích xuất
- Phương pháp trừu tượng
Các phần của tóm tắt văn bản được phân chia dựa trên loại đầu vào của nó, là một hoặc nhiều tài liệu, loại đầu ra theo phương pháp trừu tượng hoặc trích xuất, có thể cụ thể theo tên miền, dựa trên tài liệu gốc hoặc chung chung.
Trong tóm tắt văn bản trích xuất, câu và cụm từ được chọc lọc từ tài liệu ban đầu để tạo thành bản tóm tắt. Nó sử dụng các kỹ thuật khác nhau, từ việc đặt tầm quan trọng của các cụm từ để chỉ chọn những từ quan trọng từ nguồn.
Trong phương pháp trích xuất, các câu và cụm từ mới được hình thành để hiểu ý nghĩa của tài liệu nguồn. Kỹ thuật này khó hơn và cho kết quả khó hơn vì phức tạp. Đây là phương pháp được con người sử dụng. Cơ chế của nó là bằng cách chọn và nén nội dung trích xuất từ các tài liệu nguồn nhưng có thể có các từ bổ sung không có trong tài liệu gốc.
Các kỹ thuật trừu tượng được xem là có một giải pháp tổng quát hơn cho vấn đề nhưng kỹ thuật trích xuất thường được sử dụng hơn do tính sẵn có và cách tiếp cận dễ dàng hơn.
Print versionSender