Hướng Dẫn Chi Tiết Cách Lọc Dữ Liệu Trùng Trong Google Sheets

Trong quá trình làm việc với Google Sheets, việc dữ liệu bị trùng lặp là điều không thể tránh khỏi, đặc biệt khi bạn thu thập thông tin từ nhiều nguồn hoặc xử lý danh sách dài. Việc lọc dữ liệu trùng trong Google Sheets không chỉ giúp bảng tính của bạn gọn gàng, mà còn đảm bảo tính chính xác khi phân tích hay báo cáo. Vậy cách lọc dữ liệu trùng trong Google Sheets như thế nào? Bài viết này sẽ hướng dẫn bạn chi tiết từng bước, kèm theo mẹo hay giúp bạn tiết kiệm thời gian.
1. Vì Sao Cần Lọc Dữ Liệu Trùng Trong Google Sheets?
Dữ liệu trùng lặp có thể gây ra nhiều vấn đề như:
- Làm sai lệch kết quả thống kê, báo cáo.
- Làm bảng tính trở nên rối mắt, khó quản lý.
- Dễ gây nhầm lẫn khi làm việc nhóm.
- Làm lãng phí thời gian và tài nguyên xử lý dữ liệu.
Vì thế, việc lọc dữ liệu trùng nhau trong Google Sheets là bước quan trọng để đảm bảo dữ liệu luôn được cập nhật, chính xác và hiệu quả.
2. Cách Lọc Dữ Liệu Trùng Trong Google Sheets Bằng Tính Năng “Remove Duplicates”
Trong Google Sheets luôn cung cấp sẵn công cụ để bạn có thể loại bỏ dữ liệu trùng lặp một cách nhanh chóng. Và sử dụng "Remove Duplicates" là cách lọc dữ liệu trùng trong Google Sheets đơn giản nhất.
Các bước thực hiện:
Bước 1: Bôi đen toàn bộ vùng cần lọc dữ liệu trùng nhau.
Bôi đen toàn bộ vùng cần lọc dữ liệu
Bước 2: Trên thanh menu, chọn vào Data (Dữ liệu) > Data cleanup (Dọn sạch dữ liệu) > Remove duplicates (Xóa bỏ trùng lặp)
Cách lọc dữ liệu trùng nhau trong Google Sheets bằng Remove Duplicates - Bước 2
Bước 3: Khi hộp thoại xuất hiện, chọn vào các cột cần phân tích trùng dữ liệu > Chọn Remove Duplicates (Xóa bỏ trùng lặp)
Cách lọc dữ liệu trùng nhau trong Google Sheets bằng Remove Duplicates - Bước 3
Ưu điểm:
Nhanh chóng, không cần công thức.
Phù hợp với dữ liệu nhỏ và dễ kiểm soát.
Lưu ý:
Dữ liệu sau khi lọc sẽ bị xóa vĩnh viễn. Vậy nên bạn cần sao lưu trước khi thực hiện thao tác này.
3. Cách Lọc Dữ Liệu Trùng Nhau Trong Google Sheets Bằng Hàm UNIQUE
Nếu bạn muốn tạo ra bản sao không chứa dữ liệu trùng mà vẫn giữ nguyên bảng gốc, hãy dùng hàm UNIQUE.
Cách sử dụng:
Nhập công thức: =UNIQUE (range) vào ô trống trong sheets.
range: Phạm vi vùng tính cần lọc dữ liệu trùng nhau
Nhập công thức vào ô trống trong sheets
Kết quả:
Google Sheets sẽ trả về các dữ liệu đã được lọc, bắt đầu từ ô đã nhập hàm
Kết quả trả về sau khi lọc dữ liệu bằng Unique
Ưu điểm:
- Dữ liệu gốc không bị ảnh hưởng.
- Tự động cập nhật nếu dữ liệu thay đổi.
Nhược điểm:
- Không xóa dữ liệu trùng trong bảng gốc.
- Khó kiểm soát nếu cần thao tác trên nhiều cột.
4. Mẹo Quản Lý Dữ Liệu Trùng Lặp Hiệu Quả
Sử dụng Add-on: Google Workspace Marketplace có nhiều tiện ích mở rộng như Remove Duplicates, Power Tools hỗ trợ lọc nâng cao.
Tạo bản sao dữ liệu trước khi lọc, tránh mất dữ liệu quan trọng.
Kết hợp với Google App Script để tự động hóa quy trình lọc nếu bạn thường xuyên thao tác.
5. Những Lỗi Dễ Gặp Khi Lọc Dữ Liệu Trùng Nhau Trong Google Sheets
Mặc dù việc lọc dữ liệu trùng nhau trong Google Sheets không quá phức tạp, nhưng vẫn có nhiều người gặp phải lỗi khiến kết quả sai lệch hoặc mất dữ liệu quan trọng. Dưới đây là những lỗi phổ biến nhất và cách khắc phục:
5.1. Không chọn đúng vùng dữ liệu cần lọc
Lỗi thường gặp: Khi sử dụng chức năng Remove duplicates, nhiều người chỉ chọn một phần bảng, hoặc không chọn đủ cột để xác định trùng lặp một cách chính xác.
Hậu quả: Google Sheets chỉ kiểm tra trùng lặp trong vùng được chọn, dẫn đến bỏ sót hoặc xóa nhầm dữ liệu.
Cách khắc phục: Luôn chọn toàn bộ bảng dữ liệu hoặc các cột liên quan cần kiểm tra trước khi lọc.
5.2. Quên đánh dấu “Dữ liệu có dòng tiêu đề”
Lỗi thường gặp: Khi hộp thoại Remove duplicates hiện lên, người dùng quên tick vào ô “Dữ liệu có dòng tiêu đề” (Data has header row).
Hậu quả: Hàng tiêu đề sẽ bị coi như một dòng dữ liệu và có thể bị xóa nếu trùng với nội dung khác.
Cách khắc phục: Luôn kiểm tra kỹ xem bảng có tiêu đề không và đánh dấu đúng để tránh mất tiêu đề cột.
5.3. Dữ liệu giống nhau nhưng bị coi là khác nhau
Lỗi thường gặp: Một số giá trị nhìn giống nhau nhưng thực tế khác nhau do có dấu cách thừa, khác chữ hoa - thường, hoặc định dạng ẩn.
Ví dụ: “Nguyễn Văn A” và “Nguyễn Văn A ” (có dấu cách cuối).
Cách khắc phục: Dùng hàm TRIM, LOWER hoặc CLEAN để chuẩn hóa dữ liệu.
5.4. Xóa dữ liệu gốc khi không sao lưu
Lỗi phổ biến: Sử dụng chức năng xóa trùng (Remove duplicates) mà không sao lưu dữ liệu gốc.
Hậu quả: Dữ liệu bị mất vĩnh viễn, không thể khôi phục.
Cách khắc phục: Luôn tạo bản sao của bảng tính trước khi thao tác, hoặc dùng hàm UNIQUE để tạo bản mới, không ảnh hưởng bảng gốc.
5.5. Nhầm công thức khi lọc nâng cao
Lỗi phổ biến: Viết sai công thức hàm, dẫn đến sai kết quả hoặc lỗi #VALUE, #REF.
Ví dụ lỗi: Không khóa vùng tham chiếu trong công thức COUNTIF.
Cách khắc phục: Kiểm tra kỹ công thức. Sau đó nhấn phím F4 để cố định vùng khi cần thiết.
5.6. Không nhận biết trùng lặp theo nhiều cột
Lỗi phổ biến: Chỉ lọc trùng theo một cột (ví dụ theo tên), trong khi dữ liệu trùng thực sự cần xét theo tổ hợp nhiều cột (ví dụ: Tên + Số điện thoại).
Cách khắc phục: Tạo cột phụ kết hợp các cột liên quan, sau đó áp dụng công thức lọc hoặc xóa trùng trên cột này.
5.7. Không cập nhật khi dữ liệu thay đổi
Lỗi phổ biến: Dùng UNIQUE, nhưng không hiểu rằng hàm chỉ phản ánh dữ liệu tại thời điểm hiện tại và không xóa giá trị trùng trong bảng gốc.
Cách khắc phục: Nếu cần xóa vĩnh viễn dữ liệu trùng, hãy dùng Remove duplicates. Nếu chỉ muốn tham chiếu danh sách sạch để xử lý riêng, dùng UNIQUE.
6. Kết Luận
Việc lọc dữ liệu trùng trong Google Sheets là một kỹ năng cực kỳ quan trọng, nhất là khi làm việc với dữ liệu lớn. Tùy vào mục đích cụ thể, bạn có thể lựa chọn các công cụ và các nhóm hàm phù hợp.
Hy vọng với những cách lọc dữ liệu trùng nhau trong Google Sheets mà bài viết chia sẻ, bạn sẽ tiết kiệm được thời gian và làm việc hiệu quả hơn.
Bạn cũng có thể tham khảo qua cuốn sách Google Sheets - Ứng dụng văn phòng để biết thêm nhiều kiến thức hay và nâng cao trong Google Sheets bạn nha!