Khi công nghệ 4K/UHD bùng nổ trên thị trường cách đây chỉ vài năm, sự tập trung chủ yếu của mọi người là tăng số lượng pixel, đó là TV 4K, máy chiếu 4K, màn hình máy tính 4K…, từ 2,073,600 cho độ phân giải HD (1920×1080) lên 8,294,400 cho độ phân giải UHD (3840×2160). Trong tưởng tượng của nhiều người, số lượng pixel nhiều gấp 4 lần có nghĩa là chất lượng hình ảnh tốt gấp bốn lần, nhưng thực tế không phải vậy. Trừ khi bạn sở hữu một màn hình cực kỳ lớn hoặc ngồi rất gần màn hình, bạn có thể không cảm nhận được sự khác biệt lớn về độ phân giải giữa HD và UHD.
Tuy nhiên, UHD không chỉ là cải tiến về độ phân giải. Có những cải tiến khác quan trọng không kém, bao gồm tốc độ khung hình cao hơn (HFR), không gian màu rộng hơn (thường được gọi là wide color gamut hoặc WCG), độ sáng tối đa cao hơn và độ sâu bit màu lớn hơn, cung cấp các chuyển động mượt mà từ một màu sắc sang một màu sắc khác và từ một cấp độ sáng này sang một cấp độ độ sáng khác.
Hai cải tiến cuối cùng kết hợp lại làm mở rộng phạm vi hiển thị của thiết bị, xét về mặt màu sắc và độ sáng hay còn gọi là HDR. Điều này quan trọng hơn nhiều so với việc tăng số lượng pixel. Việc xem nội dung HDR từ đĩa Blu-ray UHD hoặc từ app xem phim online trên một màn hình hiển thị HDR là một trải nghiệm mới mẻ với hầu hết mọi người.
So với máy chiếu, việc phát HDR trên các TV UHD hiện đại dễ dàng hơn, bởi chúng có thể tạo ra nhiều ánh sáng hơn so với những gì yêu cầu từ chuẩn SDR. Trong thực tế, nội dung HDR được tạo ra chủ yếu dành cho các thiết bị TV và màn hình. Nếu bạn xem nội dung đó trên một chiếc TV có thông số phù hợp, bạn sẽ xem được chất lượng tương đối gần với những gì nhà sản xuất nhìn thấy trong quá trình mastering.
Tuy nhiên, với máy chiếu 4K, đó là câu chuyện khác hoàn toàn. Mặc dù ngày nay máy chiếu có cường độ sáng cao hơn nhờ công nghệ laser, nhưng chúng vẫn không thể tiếp cận được độ sáng của màn hình. Hơn nữa, việc đơn giản là tăng độ sáng của một máy chiếu thực sự có thể gây ra tác dụng phụ không mong muốn. Do đó, các nhà sản xuất máy chiếu phải điều chỉnh nội dung HDR để phù hợp với khả năng của sản phẩm của họ. Điều này đặt ra câu hỏi: ở thời điểm hiện tại máy chiếu 4K làm thế nào để xử lý nội dung HDR? Hãy tiếp tục đọc để tìm hiểu…
Kiến thức cơ bản Dynamic Range
Trước khi bàn về HDR và máy chiếu, hãy ôn lại một chút kiến thức cơ bản về HDR. Hiểu một cách đơn giản, đối với video, dynamic range là sự khác biệt, là tỷ lệ giữa màu đen tối nhất và màu trắng sáng nhất mà một hệ thống video có thể tái tạo.
Khái niệm này rất tương đồng với dynamic range trong audio, là tỷ lệ giữa âm thanh âm lượng nhỏ nhất và lớn nhất mà một hệ thống âm thanh có thể tái tạo. Trong tái tạo âm thanh, phần thấp của dynamic range là độ ồn nền của không gian, tương ứng với Black level của video, và phần cao nhất là maximum volume có thể phát ra, tương ứng với độ sáng cực đại của một màn hình.
Có thể nói dynamic range gần như đồng nghĩa với độ tương phản, là một thông số phổ biến cho cả màn hình và máy chiếu, sự khác nhau nằm ở ngữ cảnh sử dụng. Độ tương phản được sử dụng như là một thông số của các thiết bị hiển thị, trong khi dynamic range được sử dụng như là một thuật ngữ trong quá trình sản xuất nội dung. Độ tương phản của thiết bị càng cao, càng thể hiện được đầy đủ thông tin của đoạn phim được master bằng kỹ thuật High dynamic range.
Khi nói về độ sáng TV và HDR, người ta thường sử dụng đơn vị đo cường độ ánh sáng là nit. Dynamic range ngoài đời thực mà mắt người có thể thấy được là cực kỳ rộng lớn. Ở mức thấp nhất, ánh sáng của ngôi sao là 0,000001 nit, trong khi mặt trời phát ra hơn 1 tỷ nits. Nếu thể hiện ở dạng độ tương phản, đó là 10^15:1, trong nhiếp ảnh, đó là 50 stop! Có thể thấy mắt con người như một chiếc camera với thông số dynamic range rất lớn, nhưng không phải lúc nào cũng như vậy.
Hình 1: Hệ thống thị giác của mắt người thích nghi để nhìn được dynamic rất rộng của thế giới thực, nhưng không phải lúc nào mắt chúng ta cũng hoạt động ở mức cao nhất; khoảng dynamic range tức thời của mắt người được mô tả là khoảng Entertaiment Dynamic Range trong biểu đồ này. Chúng ta có thể thấy khoảng dynamic range của Future TV, cho thấy tham vọng của Dolby, đây là kết quả nghiên cứu về thị hiếu của người tiêu dùng. (Nguồn: Dolby)
Chính xác hơn, hệ thống thị giác của con người có dynamic range ở khoảng 10^4:1, tương đương 13 stop, và còn phụ thuộc vào lượng ánh sáng môi trường. Đôi mắt của chúng ta là cơ quan vô cùng tinh vi, được tiến hóa để thích ứng với nhiều loại điều kiện ánh sáng khác nhau. Một trong những bộ phận chủ chốt của mắt là đồng tử, có khả năng co và giãn để điều chỉnh lượng ánh sáng xâm nhập vào võng mạc. Nhờ vậy, chúng ta có thể nhìn rõ mà không bị chói lóa dưới ánh sáng mạnh hay vẫn nhận biết được hình ảnh trong điều kiện thiếu sáng.
Sự thay đổi dải dynamic range này của mắt người mất một chút thời gian, vì vậy khi bạn di chuyển từ một môi trường này sang môi trường khác, mắt của bạn cần một vài khoảnh khắc để điều chỉnh.
HDR là gì?
Trong thời kỳ HD Ready và Full HD, dynamic range của hầu hết các hệ thống trên thị trường từ khoảng 0.1 nit đến 100 nits, tương đương với 1,000:1 hoặc khoảng 10 stop (xem Hình 1). Điều này được gọi là “Standard dynamic range” (SDR). Trong rạp chiếu phim thương mại với máy chiếu chuyên nghiệp, độ sáng cực đại tiêu chuẩn của hình ảnh là 48 nits. (Dolby Cinema có độ sáng cực đại khoảng 100 nits và black level thấp hơn nhiều.) Do đó, một rạp chiếu phim thương mại chỉ hiển thị khoảng một nửa dynamic range của một chiếc TV SDR ở nhà.
Trong khi độ sáng cực đại của SDR được xác định là 100 nits, nhưng độ sáng tối thiểu, tức là black level thì không được xác định; nó có thể là bất kỳ giá trị nào mà màn hình có thể đạt được. Giá trị 0.1 nit là phổ biến, nhưng các màn hình như TV plasma Kuro của Pioneer đạt đến black level thấp hơn nhiều, đó là lý do tại sao chúng được đánh giá cao. (“Kuro” có nghĩa là “đen” trong tiếng Nhật). Black level càng thấp, dynamic range hiển thị càng lớn, và hình ảnh tương phản và nhiều chi tiết.
Tuy nhiên, thậm chí trên một màn hình với black level rất thấp, SDR vẫn không đạt tới giới hạn dynamic range tương đương với hệ thống thị giác của con người, chủ yếu do các hạn chế của máy ảnh và màn hình được sử dụng vào thời điểm đó. Kể từ đó, công nghệ đã tiến bộ đáng kể, cho phép một dynamic range lớn hơn được ghi lại và hiển thị. Vì vậy, khi UHD được phát triển, bao gồm cái được biết đến là “high dynamic range” (HDR) trong hệ sinh thái UHD.
Để chuẩn bị cho tiêu chuẩn mới này, Dolby đã tiến hành nghiên cứu một cách tỉ mỉ về thị giác của con người, bản chất tự nhiên của hình ảnh, và độ sáng tối đa để mắt người xem vẫn cảm thấy thoải mái. Một số kết luận đã được rút ra từ nghiên cứu đó, mục tiêu là tạo ra nền tảng HDR chung cho các nhà sản xuất TV.
Đầu tiên, phản ứng của hệ thống thị giác của con người đối với sự thay đổi độ sáng không phải là tuyến tính; nó được tính bằng phép luỹ thừa. Thông tin này không mới, chúng ta được biết từ lâu, đặc biệt là những người làm trong lĩnh vực nhiếp ảnh. Hiểu một cách đơn giản, mắt con người nhạy cảm hơn với môi trường ánh sáng thấp. Điều này quan trọng để thiết kế cách mà một màn hình điều chỉnh đầu phản ứng với các giá trị độ sáng khác nhau.
Thứ hai, quan trọng là phải hiểu rằng hầu hết các hình ảnh chỉ có một số vùng nhỏ có độ sáng cực cao – ví dụ như ánh sáng mặt trời phản chiếu từ một chiếc cánh cửa xe ô tô, được gọi là vùng highlight. Đa số phần còn lại xuất hiện trên hình ảnh có độ sáng thấp hơn rất nhiều. Thực tế, mức APL (mức độ trung bình của hình ảnh) trong hầu hết các cảnh của các bộ phim là dưới 100 nits – tức là nằm trong phạm vi của SDR.
Thứ ba, sau khi thực hiện kiểm tra một cách kỹ lưỡng, Dolby phát hiện rằng hầu hết người xem ưa thích vùng highligh có độ sáng lên đến 10,000 nits. Tuy nhiên, không có màn hình thương mại nào có thể đạt được độ sáng cực đại đó. Do đó, 10,000 nits được xác định là thông số được mà các thiết bị HDR sẽ đạt được trong tương lai. Thậm chí nếu công nghệ màn hình có thể đạt được độ sáng cao hơn nữa, nhưng cũng sẽ dừng lại ở 10,000 nits để bảo vệ mắt người tiêu dùng. Trên thực tế, việc xem màn hình ở mức 1,000 nits liên tục đã có thể đem lại sự khó chịu.
Tương tự như SDR, black level của HDR không được xác định. Tất nhiên, nó nên thấp nhất có thể, và lý tưởng là thấp hơn so với những gì màn hình SDR có thể tạo ra. Liên minh UHD có hai đặc điểm kỹ thuật tối thiểu. Một trong số đó đòi hỏi màn hình có độ sáng cực đại ít nhất là 1,000 nits và black level không cao hơn 0.05 nit. Điều này rõ ràng nhắm đến TV LCD, có độ sáng cao hơn so với màn hình OLED. Đặc điểm kỹ thuật khác đòi hỏi màn hình có độ sáng cực đại ít nhất là 540 nits và black level không cao hơn 0.0005 nit. Điều này rõ ràng nhắm đến TV OLED, có thể tắt pixel thành màu đen tuyệt đối nhưng không thể sáng bằng các màn hình phẳng LCD.
Thật không may, hầu hết các máy chiếu hiện nay không đáp ứng được những yêu cầu này, ít nhất là về độ sáng cực đại, và không có tiêu chuẩn nào phù hợp với thông số kỹ thuật của máy chiếu.
Ngoài việc có màu đen sâu hơn và điểm highlight sáng hơn, một lợi ích đi kèm của HDR là color space (color wide gamut) lớn hơn. Chúng ta sẽ có một bài viết riêng về chủ đề này, tuy nhiên, về cơ bản color space của SDR được biết đến là BT.709, trong khi của HDR là BT.2020. Trên thực tế, rất ít màn hình thực sự có thể hiển BT.2020 một cách trọn vẹn, vì vậy color space trung gian gọi là P3 thường được sử dụng trong nội dung HDR.
Biểu đồ 2: Color space của chuẩn SDR là REC.709, hay chính xác hơn là BT.709, nhỏ hơn nhiều so với color space của UHD là BT.2020. Nhưng trên thực tế có rất ít màn hình hoặc TV có thể đạt được 100% BT.2020, do đó hầu hết nội dung HDR sử dụng color space DCI, còn được gọi là P3.
Một điểm quan trọng khác về màu sắc trong HDR là độ sâu màu tương ứng với độ sáng nhất định. Vì HDR có độ sáng cao hơn nhiều, nên việc xem xét sự thay đổi ở các mức độ sáng của màu sắc trở nên quan trọng. Do đó khái niệm về color volume trở nên phổ biến hơn. Chúng ta dễ dàng đoán được color volume của của HDR lơn hơn nhiều so với SDR, màu sắc giữ được sự bão hoà ở các mức độ sáng.
Hình 3: Biểu đồ thể hiện cả color space và color depth. Khi độ sáng tiệm cận giá trị tối đa và tối thiểu, độ bão hoà màu sắc giảm dần cho đến khi chỉ còn màu đen và màu trắng.
Sự cải thiện về mặt hình ảnh khi chuyển từ SDR sang HDR là rất đáng kinh ngạc. Một trong những ví dụ xuất sắc nhất là một cảnh nhìn ra cửa sổ của một căn nhà, bên ngoài rất sáng vì đang là ban ngày (xem Hình 4). Trong SDR, nếu máy ảnh đo sáng đúng ở khung cảnh trong nhà, thì cảnh bên ngoài cửa sổ thường bị cháy sáng. Ngược lại, nếu máy ảnh đo sáng đúng ở bên ngoài cửa sổ, phần trong nhà của hình ảnh thường bị thiếu sáng nghiêm trọng, và bạn không thể nhìn thấy nhiều thứ trong phòng. Trong HDR, cảnh trong nhà và ngoài trời có thể được chụp với ánh sáng đúng cùng một lúc, cho phép bạn thấy rõ chi tiết ở cả hai phần của hình ảnh.
Hình 4: Nội dung SDR chỉ thể hiện được chi tiết trong vùng được đo đúng sáng, trong khi nội dung HDR thể hiện được cả chi tiết vùng tối và vùng sáng trong cùng một khung hình, nhằm tái tạo tối đa dải dynamic range của mắt người trong thế giới thực. (Nguồn: Business Insider)
Bit Depth
Trong video kỹ thuật số, độ sâu màu được biểu diễn bằng một số bit. Bit càng cao, các bước chuyển tiếp giữa các giá trị độ sáng càng nhỏ và mịn. Khi bit thấp, có thể dễ dàng nhìn thấy những bước chuyển tiếp này trên màn hình thành từng khối màu gây mất tự nhiên.
Hình 5: color depth càng cao, sự chuyển màu sắc càng mượt mà (Nguồn: ProjectorCentral)
Video SDR sử dụng độ sâu màu 8 bit, tương đương với 16 triệu màu, như vậy trên lý thuyết, mỗi màu đỏ, xanh lá, xanh dương sẽ có giá trị của các bước chuyển tiếp từ 0 đến 255. Nhưng thực tế, màu đen được tái tạo có giá trị 16 và màu trắng được tái tạo có giá trị 235. Thông số này được quy định từ 1982 nhằm mô phỏng lại độ sâu màu của TV CRT cũ, cắt bớt giá trị của màu trắng để đảm bảo TV hoạt động ổn định, và cắt bớt giá trị của màu đen trên mức black level bị ảnh hưởng bởi ánh sáng môi trường.
Đối với video HDR, dynamic range được mở rộng, 8 bit là không đủ để tạo ra các bước chuyển tiếp dải màu mượt mà, do đó cần phải dử dụng nhiều bit hơn để đảm bảo chất lượng hình ảnh. Việc sử dụng nhiều bit hơn đồng nghĩa với kích thước file lớn và yêu cầu băng thông cao hơn, thêm một vấn đề cần cân nhắc ở đây.
Quyết định cuối cùng là sử dụng độ sâu màu 10 bit, tương đương với 1 tỷ màu, mặc dù 12 bit sẽ tốt hơn nhưng quá mức cần thiết. Cũng bị cắt bớt tương tự 8 bit, giá trị của đen và màu trắng của 10 bit không phải là 0 và 1024, mà là 64 và 960.
Hình 6: Trong cả SDR (8-bit) và HDR (10-bit), màu đen và màu trắng không được xác định là 0 và giá trị tối đa.
EOTF
Hãy tìm hiểu cách mà màn hình kiểm soát lượng ánh sáng đầu ra dựa vào nội dung. Để phân phối giá trị độ sáng, bộ xử lý của màn hình sử dụng hàm số EOTF (Electro – Optical transfer function). Hàm số này định nghĩa mối quan hệ giữa tín hiệu video và độ sáng phát ra trên màn hình
Trong video SDR, EOTF được gọi là gamma. Nó bắt nguồn từ các màn hình CRT do cách mà các phosphors phản ứng với các cường độ khác nhau của tia electron kích thích chúng sáng lên. Khi tín hiệu giá trị độ sáng của video tăng dọc theo đường cong gamma, độ sáng của màn hình tăng lên tương ứng.
Hình 7: Các giá trị gamma khác nhau quyết định tốc độ “xuất hiện từ màu đen” của một màn hình SDR. Gamma thấp khiến cho hình ảnh nhanh chóng sáng lên khi độ sáng của tín hiệu tăng và có vẻ mờ nhạt hơn, trong khi gamma cao có thể làm mờ chi tiết bóng đổ, tùy thuộc vào lượng ánh sáng môi trường trong phòng. (Nguồn: BenQ)
Hầu hết các màn hình cho phép người dùng set up một giá trị gamma, điều này quyết định cách mà màn hình tương thích với ánh sáng môi trường. Ở các giá trị gamma thấp, màn hình sẽ sáng nhanh chóng khi các giá trị độ sáng tăng từ 16. Điều này giúp bạn dễ dàng nhìn thấy chi tiết trong bóng tối, tuy nhiên, hình ảnh sẽ trông nhạt nhòa thiếu tương phản. Ở các giá trị gamma cao, màn hình sẽ sáng chậm hơn khi các giá trị độ sáng tăng, khiến cho hình ảnh trông tối hơn với các chi tiết bóng tối bị che khuất. Việc thiết lập giá trị gamma phù hợp phần nào phụ thuộc vào lượng ánh sáng môi trường – gamma thấp cho các phòng sáng, gamma cao cho các phòng tối. Nội dung SDR hiện nay thường được hoàn thiện với một giá trị gamma là 2.4 trong một phòng tối. Tôi xin bổ sung so với bài viết gốc, đối với các máy chiếu home cinema, gamma 2.2 được khuyến nghị, bởi đây là giá trị gamma có đường cong gần nhất với phản ứng của mắt người.
Gamma chỉ là một hàm số được bộ xử lý sử dụng, nó không trực tiếp tính toán độ sáng cụ thể của màn hình là bao nhiêu nit. Nó phân phối độ sáng từ thấp nhất đến cao nhất mà không có thông tin về độ sáng peak mà màn hình có thể phát ra. Chúng ta đã biết rằng SDR được tạo ra với độ sáng cực đại là 100 nit, vì vậy màn hình nên được calibrate để phát ra lượng ánh sáng 100 nit khi gamma phân phối lượng ánh sáng cao nhất.
Một kết quả của nghiên cứu của Dolby về HDR là một EOTF mới được gọi là perceptual quantizer (PQ), sau đó đã được chuẩn hóa thành một tiêu chuẩn SMPTE gọi là ST 2084. Tương tự như gamma, PQ trông hơi giống một đường cong lũy thừa, dần dần nổi lên từ màu đen và sau đó trở nên dốc hơn khi giá trị độ sáng tăng. Tuy nhiên, PQ phù hợp hơn với phản ứng thị giác của con người.
Hình 8: Đường cong PQ xác định cường độ sáng trên màn hình ánh xạ với giá trị cụ thể trong nội dung. (Nguồn: Insight Media)
Khác với gamma, PQ chỉ có một đường cong, không thể chọn các đường cong khác tùy vào ánh sáng môi trường như gamma. Ngoài ra, đường cong PQ biểu diễn các mức độ sáng cụ thể theo đơn vị nit. Ví dụ, ở mức giá trị độ sáng là 480 (50% của 960), độ sáng tương ứng là 100 nit; ở mức giá trị độ sáng là 720 (75% của 960), độ sáng tương ứng là 1,000 nit. Phần lớn các giá trị độ sáng đại diện cho mức độ ánh sáng dưới 1,000 nit, mặc dù PQ mở rộng lên đến 10,000 nit ở mức giá trị độ sáng là 960.
Nội dung HDR được tạo ra như thế nào?
Được rồi, bây giờ sau khi chúng ta đã hiểu được tất cả những kiến thức nền, là lúc để tìm hiểu cách nội dung HDR được chuẩn bị cho phân phối thương mại, một quy trình gọi là mastering (xem Hình 9).
Hình 9: SDR “nén” rất nhiều dữ liệu trong quá trình master, trong khi HDR như là một định dạng losslesss, giữ lại lượng thông tin nhiều nhất có thể.
Nếu bạn đã chú ý cho đến bây giờ, bạn có thể thấy một vấn đề ở đây. Hãy nhớ rằng SDR giả định mức độ sáng tối đa là 100 nit, vì vậy đó là mức độ sáng tối đa mà nó được mastering và nó có thể dễ dàng được hiển thị trên các TV thương mại. Ngược lại, HDR mở rộng đến 10.000 nit, nhưng không có màn hình chuyên nghiệp hoặc tiêu dùng nào có thể đạt được mức độ sáng tối đa cao như vậy. Vì vậy, nội dung HDR phải được mastering với một mức độ sáng tối đa thấp hơn, phù hợp hơn với khả năng của đa số TV được bán trên thị trường.
Vậy, mức độ sáng tối đa nên được mastering là bao nhiêu? Nhiều TV LCD hiện nay cung cấp độ sáng peak lên đến 1000 nit hoặc hơn, và có nhiều màn hình monitor trong các studio có khả năng tương tự. Vì vậy, hầu hết nội dung HDR hiện tại được mastering với mức độ sáng tối đa là 1.000 nit. Cũng có một số nội dung được mastering ở mức 2.000 hoặc thậm chí 4.000 nit sử dụng một màn hình Dolby đặc biệt gọi là Pulsar (được làm mát bằng chất lỏng để ngăn chặn quá nhiệt!). Tại sao? Tôi nghi ngờ rằng đó là để sẵn sàng nội dung cho tương lai mà các màn hình tiêu dùng có thể đạt được mức độ sáng tối đa lên đến 4.000 nit. Cho đến thời điểm hiện tại là 2024, đã có các sản phẩm TV được giới thiệu là có thể lên đến 10,000 nit.
Hãy đến phần tiếp theo, tìm hiểu các định dạng khác nhau của HDR. Định dạng HDR đầu tiên của Dolby là HDR10, sử dụng PQ với giá trị độ sâu màu 10 bit. Ngoài ra, nó bao gồm hai metadata là MaxCLL và MaxFALL. MaxCLL (Maximum Content Light Level) là mức độ sáng tối đa của bất kỳ pixel nào trong toàn bộ nội dung, MaxFALL (Maximum Frame-Average Light Level) là mức độ sáng trung bình tối đa của bất kỳ khung hình nào trong toàn bộ nội dung. Vì các metadata này là một giá trị cố định, chúng được gọi chung là metadata tĩnh.
Mục đích của MaxCLL và MaxFALL là thông báo cho TV về các mức độ sáng tối đa được sử dụng để mastering nội dung. Điều này cho phép TV điều chỉnh hoạt động để phù hợp với các mức độ sáng vượt quá khả năng tự nhiên của nó, quá trình này gọi là tone mapping, tôi sẽ trình bày chi tiết hơn trong các phần tiếp theo.
Thật không may, việc chỉ định chỉ hai mức độ sáng trên không hữu ích cho lắm. Ví dụ, có thể có một pixel duy nhất trong một khung hình của một bộ phim với độ sáng là 4.000 nit, trong khi phần lớn nội dung ít hơn 1.000 nit (trong thực tế, phần lớn hình ảnh trong hầu hết các bộ phim và chương trình truyền hình đều trong khoảng từ 100-250 nit; xem Hình 10). Do đó, màn hình giảm độ sáng tổng thể để bù đắp cho pixel đó, và bộ phim trở nên tối hơn so với phiên bản SDR. Điều này là một vấn đề lớn với metadata tĩnh. Tuy nhiên, HDR10 có lẽ là định dạng HDR phổ biến nhất được sử dụng trong nội dung hiện nay, đơn giản là bởi nó miễn phí.
Hình 10: Biểu đồ này cho thấy cách PQ phân phối các giá trị độ sáng tuỳ vào thông số của mỗi màn hình. Trong tất cả các trường hợp, đa số các giá trị được sử dụng cho các trong dải midtone lên đến 250 nit. (Nguồn: Dolby)
Tuy nhiên, Dolby đã phát triển một định dạng nâng cấp gọi là Dolby Vision, bao gồm metadata về mức độ sáng trong từng cảnh hoặc thậm chí từng khung hình. Kỹ thuật này còn được gọi là metadata động, vì nó cho phép TV điều chỉnh độ sáng một cách linh hoạt khi nội dung được phát trong thời gian thực, giúp tái tạo màu sắc nguyên bản hơn với ý định của đạo diễn.
Tương tự, Samsung đã tích hợp metadata động vào HDR10, tạo ra HDR10+. Mặc dù không bổ biến như HDR10 hay Dolby Vision, nó được hỗ trợ trong một số nội dung từ Amazon, 20th Century Fox, Universal, và Warner Bros, và các nhà sản xuất TV như Samsung, Panasonic, và TCL.
Một định dạng HDR khác là HLG (Hybrid Log Gamma), được phát triển bởi các đài truyền hình Anh và Nhật Bản là BBC và NHK. Như tên gọi của nó, HLG là một định dạng kết hợp sử dụng gamma cho các giá trị sáng thấp và một đường cong lũy thừa cho các giá trị cao hơn, và không sử dụng metadata. Do đó, HLG hoàn toàn tương thích với các màn hình SDR. HLG thường được sử dụng cho các chương trình phát trực tiếp thay vì nội dung được phát lại.
Hình 11: Giống như gamma, HLG không sử dụng các giá trị độ sáng tuyệt đối; thay vào đó, nó liên quan đến khả năng của màn hình. Điều đó có nghĩa là nó hoàn toàn tương thích với các màn hình SDR ngược lại. (Nguồn: Eizo)
Có thể bạn nghĩ rằng việc có nhiều định dạng HDR sẽ tạo ra một cuộc chiến giữa các định dạng, tương tự như các định dạng âm thanh như Dolby Digital và DTS. Tuy nhiên, hầu hết các thiết bị TV hỗ trợ nhiều định dạng HDR khác nhau, hoặc tối thiểu là HDR10, vì vậy việc có nhiều định dạng trên thị trường không phải là vấn đề lớn.
Máy chiếu thì hạn chế hơn trong việc hỗ trợ các định dạng HDR. Tất cả các máy chiếu xem phim tại nhà có HDR đều hỗ trợ HDR10, và một số máy cũng hỗ trợ HLG. Ngoài ra, các máy chiếu siêu gần Samsung Premiere cũng hỗ trợ HDR10+. Gần đây máy chiếu đầu tiên hỗ trợ Dolby Vision đã xuất hiện trên thị trường, và tôi vẫn nghi ngờ sự hiệu quả của nó trừ khi được trải nghiệm tận mắt.
HDR trên máy chiếu 4K và TV 4K
Ngoài hạn chế về định dạng HDR, máy chiếu cũng đối mặt với vấn đề về độ sáng. Hầu hết các màn hình phẳng OLED có thể đạt đến độ sáng cực đỉnh khoảng 700 nits (một số được công bố tại CES 2021 cho là đạt được 1.000 nits), trong khi màn hình LCD có thể dễ dàng đạt 1.000 nits trở lên. Ngược lại, hầu hết các máy chiếu xem phim tại nhà chỉ đạt khoảng 100 đến 150 nits, tùy thuộc vào kích thước và loại màn hình mà chúng được kết hợp. Ngoài ra, black level cũng là một điểm yếu của các loại máy chiếu nói chung. Xem thêm bài viết Thách thức “tái tạo màu đen” của máy chiếu phim.
Mặt tích cực là, máy chiếu có thể duy trì độ sáng peak ngay cả khi phát 100% white. Trong khi đó, TV thường phải giảm độ sáng cực đỉnh nếu hơn một phần nhỏ của màn hình là 100% white để tránh quá nhiệt.
Bạn có thể nghĩ rằng tăng độ sáng của máy chiếu 4K sẽ giúp chúng tiến xa hơn trong thế giới HDR. Tuy nhiên, điều này chỉ đúng với một số ngoại lệ máy chiếu rất đắt tiền, với số đông hàng phổ thông, điều này là không thể. Nếu bạn tăng đáng kể độ sáng của một máy chiếu, điều đó thường dẫn đến việc tăng black level một cách tuyến tính. Trong tất cả các loại máy chiếu, ánh sáng từ nguồn sáng được điều hướng đến bộ cảm biến hình ảnh, có thể là DLP, 3LCD hoặc LCoS. Mặc dù nhà sản xuất đã nỗ lực hết sức, nhưng một phần ánh sáng thay vì đi vào ống kính và hiện thị trên màn chiếu, thì lại bị lọt ra ngoài vỏ máy, góp phần làm tăng ánh sáng gây nhiễu từ môi trường.
Vấn đề khác là các vật liệu phản chiếu trong phòng. Ánh sáng từ màn hình sẽ phản xạ xung quanh phòng và góp phần với ánh sáng môi trường, gẫy nhiễu nguồn sáng chính. Khi bạn tăng độ sáng của máy chiếu, bạn cũng trực tiếp tăng lượng ánh sáng gây nhiễu này. Tất nhiên, bạn có thể giảm thiểu vấn đề này bằng cách sử dụng tường và nội thất màu tối cũng như một màn hình quang học (ALR hoặc CLR), nhưng trong thực tế, không phải máy chiếu nào cũng được sử dụng trong một môi trường hoàn hảo như thế cả.
Sự phụ thuộc vào màn chiếu riêng biệt là một điểm khác biệt cơ bản giữa máy chiếu và TV khi nói đến HDR. TV là một thiết bị có thông số về độ sáng cụ thể được xác định rõ ràng, trong khi độ sáng của máy chiếu phụ thuộc nhiều vào màn chiếu. Bộ xử lý trong máy chiếu không được thông báo về kích thước và chất liệu của màn chiếu, điều này làm cho việc điều chỉnh tín hiệu HDR phù hợp với khả năng của nó trở nên khó khăn hơn. Ngoài ra, hầu hết các màn hình TV coasting một lớp chống phản chiếu, giảm thiểu các ánh sáng gây nhiễu trong phòng, ngược lại màn chiếu được sản xuất ra để hứng trọn và phản xạ lại ánh sáng từ nguồn phát, và nó vô tình hứng cả các ánh sáng môi trường không mong muốn.
Kế tiếp, hãy xem xét các công nghệ máy chiếu. Để tạo màu đen, DLP sử dụng các gương nhỏ trên chip DMD để điều hướng ánh sáng qua một bánh xe màu và ra khỏi ống kính chiếu, nhưng điều này đồng nghĩa với việc ánh sáng bị suy hao một phần khi bị chip DMD chặn lại. 2 công nghệ 3LCD và LCoS thì ngược lại, cho phép 100% lượng ánh sáng phát tới màn chiếu, nhưng lại gặp vấn đề về black level. TV LCD cũng gặp vấn đề tương tự, ánh sáng vẫn luôn rò rỉ qua các tinh thể đã tắt, đó là lý do tại sao TV LCD thường có black level cao.
Hiện nay, một số TV LCD sử dụng đèn nền array hoặc mini array, kiểm soát được độ sáng của các khu vực khác nhau trong cùng một khung hình. Điều này dẫn đến black level thấp hơn và dynamic range cao hơn.
Rất tiếc, gần như không có công nghệ máy chiếu nào có khả năng kiểm soát độ sáng cục bộ. Thay vào đó, hầu hết các máy chiếu chỉ có khả năng giảm ánh sáng toàn bộ khung hình bằng cách sử dụng lá khẩu tương tự ống kính máy ảnh hoặc điều chỉnh độ sáng của nguồn sáng laser. Điều này có thể cải thiện độ tương phản từ một khung cảnh này sang khung cảnh khác nhưng nó không không có tác dụng tăng dynamic range trên một khung hình duy nhất. Nhiều người đồn đoán rằng các máy chiếu Dolby Vision của Christie sử dụng 2 hệ thống DMD song song, một hệ thống DMD tạo hình ảnh trong khi một hệ thống kia kiểm soát lượng ánh sáng cục bộ đến màn chiếu, nhưng cả Dolby lẫn Christie đều không xác nhận điều này.
Các TV OLED và microLED là những công nghệ tự phát sáng trong đó mỗi điểm ảnh con màu đỏ, xanh lá cây và xanh lam phát sáng riêng biệt, có thể làm tối đến 0 hoặc làm sáng tối đa hoàn toàn độc lập. Như tôi đã đề cập trước đó, TV OLED có thể đạt đến khoảng 700 nits độ sáng cực đại, trong khi các màn hình microLED có thể đạt đến tới 1000 nits.
Nói thêm về điểm này, các màn hình OLED và microLED dẫn đến một đoạn tranh cãi về độ tương phản. Vì chúng có thể đạt được màu đen thực sự ở 0 nits, nhiều nhà sản xuất tuyên bố rằng điều đó có nghĩa là chúng có tỉ lệ tương phản vô hạn. Bởi vì, chia bất kỳ số nào cho 0 đều bằng vô hạn, phải không? Sai. Về toán học, việc chia cho 0 không được xác định. Hơn nữa, nếu một màn hình với mức đen là 0 nits có tỉ lệ tương phản vô hạn, nó có thể có độ sáng cực đại là 1 nit, và tỉ lệ tương phản vẫn sẽ là vô hạn!
Nói về độ tương phản, điều quan trọng là hiểu rằng hầu hết các nhà sản xuất màn hình chỉ định độ tương phản của sản phẩm của họ dựa trên việc đo màn hình đen hoàn toàn và màn hình trắng hoàn toàn một cách riêng biệt. Nhưng giá trị thực sự của HDR là trong việc mở rộng dynamic range trong một khung cảnh. Vì vậy độ tương phản ANSI dựa trên việc đo độ sáng trong các ô của một pattern caro đen và trắng, cung cấp một chỉ số tốt hơn về khả năng mở rộng dynamic range thực sự.
Tone Mapping là gì?
Trong khi SDR tuân thủ một tập hợp các thông số được xác định và chuẩn hóa cho việc tạo và hiển thị nội dung (ví dụ: độ sáng cực đại là 100 nits, gam màu BT.709), thì HDR không có những quy định như vậy. Nội dung có thể được tạo ra với độ sáng cực đại là 1.000 nits, 2.000 nits, 4.000 nits hoặc các mức độ khác. Color space là P3 được các nhà làm phim sử dụng, chứ nó không phải là tiêu chuẩn. Và người tiêu dùng sẽ xem nội dung trên một màn hình có độ sáng cực đại từ 100 nits đến hơn 1.000 nits.
Do đó, các thiết bị hiển thị cần có cách để xử lý nội dung được tạo ra ở các độ sáng khác nhau phù hợp với độ sáng peak của màn hình. Quá trình này, gọi là tone mapping.
Ví dụ, nếu một TV có độ sáng peak là 1,000 nits và nhận một tín hiệu HDR được mã hóa với một MaxCLL cũng là 1,000 nits, không cần thực hiện tone mapping. Tuy nhiên, nếu nội dung có MaxCLL là 4,000 nits, các giá trị vượt quá 1.000 nit và các giá trị gần đó sẽ được điều chỉnh đường cong PQ để phạm vi độ sáng của nội dung phù hợp với khả năng độ sáng của màn hình.
Cách điều chỉnh đường cong PQ hoàn toàn tùy thuộc vào từng nhà sản xuất, không may là không có tiêu chuẩn chung nào cho quy trình này. Với metadata tĩnh, một số nhà sản xuất chọn cách chỉ điều chỉnh các giá trị gần và trên ngưỡng peak của màn hình, kết quả là tạo ra hình ảnh tuy sáng nhưng với các vùng highlight không quá nổi bật so với với phần còn lại. Một số nhà sản xuất khác chọn cách điều chỉnh từ dưới ngưỡng peak của màn hình, dẫn đến tổng thể tối hơn nhưng với các vùng highlight nổi bật, cách này gây được sự ấn tượng hơn. Xem Hình 12 để xem ví dụ về cả hai phương pháp này.
Hình 12: Ví dụ với dữ liệu metadata tĩnh HDR10, MaxCLL là 1.000 nit, trong khi độ sáng peak của màn hình chỉ là 500 nit. Sơ đồ ở trên mô tả phương pháp tone mapping duy trì độ sáng nguyên bản của tín hiệu càng nhiều càng tốt, dẫn đến vùng highlight mất hẳn chi tiết. Trong hình dưới, đường cong PQ lài xuống mượt hơn, vùng highlight giữ được chi tiết trong khi toàn bộ khung hình trông có vẻ tối đi.
Metadata động trong Dolby Vision và HDR10+ tránh được sự hy sinh độ sáng này bằng cách cho phép hiển thị điều chỉnh độ sáng cho mỗi cảnh hoặc thậm chí từng khung hình (xem Hình 13).
Hình 13: Ví dụ về tone mapping với metadata động, màn hình điều chỉnh đường cong tone-mapping để phù hợp với các khung cảnh khác nhau tùy vào mức APL.
Một tác dụng quan trọng khác của tone mapping là bảo toàn color space nằm trong phạm vi của TV hiển thị. Ví dụ, nếu bạn làm mất màu xanh dương, nó có thể trở thành một chút màu tím. Do đó, một thuật toán điều chỉnh độ sáng tốt phải xem xét điều này.
Tone Mapping trên máy chiếu 4K
Vấn đề trở nên nghiêm trọng hơn đối với các máy chiếu phòng chiếu phim gia đình thông thường, có thể chỉ đạt được tối đa từ 100 đến 150 nits ở kích thước hình ảnh lớn có thể chấp nhận được. Trong tình huống này, toàn bộ phạm vi độ sáng trong nội dung HDR phải được tone mapping một cách mạnh mẽ. Có hai phương pháp cơ bản để tone mapping trên máy chiếu.
Phương pháp 1, kỹ sư so sánh nội dung HDR hiển thị trên một màn hình tham chiếu và máy chiếu, sau đó điều chỉnh đường cong tone mapping của máy chiếu sao cho hình ảnh của nó gần đạt được như màn hình tham chiếu. Trong hầu hết các trường hợp, các chi tiết trong vùng highlight và chi tiết vùng tối được ưu tiên hơn là hiệu ứng của ánh sáng. Phương pháp này làm cho hình ảnh trông có vẻ giả tạo.
Phương pháp 2 khác là mô phỏng lại quá trình mastering nội dung phù hợp với độ sáng peak của máy chiếu. Cách làm này còn được gọi là “trim pass”, kỹ sư thực hiện lại quá trình color grading nội dung HDR cho một độ sáng cực đại nào đó, ví dụ như 100 nits sử dụng đường cong EOTF giống như gamma. Tất nhiên, điều này đồng nghĩa với việc nội dung HDR đã được convert thành SDR về mặt độ sáng peak, nhưng những lợi ích bổ sung của độ phân giải 4K/UHD như phổ màu rộng và độ sâu màu 10 bit vẫn được giữ lại. Phương pháp này cho kết quả tự nhiên hơn.
Trong cả hai phương pháp này, đường cong tone mapping có lẽ được thực hiện trong một phòng tối, được kiểm soát ánh sáng tương tự như một studio. Tuy nhiên, máy chiếu sau đó thường được lắp đặt trong một môi trường sáng hơn, ví dụ, một phòng gia đình, hình ảnh sẽ trông rất tối. Do đó, nhiều máy chiếu HDR cung cấp tùy chỉnh đường cong tone mapping cho các mức độ ánh sáng môi trường khác nhau. Epson gọi tính năng này là HDR10 Setting hoặc HLG Setting (tùy thuộc vào định dạng của tín hiệu), JVC gọi HDR Level, và Sony gọi là Contrast (HDR). Ngoài ra, tính năng Theater Optimizer của JVC tự động điều chỉnh thông số để có độ sáng tối ưu do kích thước màn chiếu, chất liệu, khoảng cách, và tuổi thọ đèn.
Ngoài ra, một số nhà sản xuất đã phát triển công nghệ điều chỉnh độ sáng động của riêng họ, tương tự như cách HDR10+ và Dolby Vision hoạt động. Ví dụ, Frame Adapt HDR của JVC bỏ qua các metadata, thay vào đó, nó đo lường mỗi khung hình trong thời gian thực để tính độ sáng trung bình và độ sáng peak, điều chỉnh đường cong tone mapping tương ứng. LG cũng cung cấp tính năng tương tự, gọi là Dynamic Tone Mapping, đối với Sony, tính năng này gọi là Dynamic HDR Enhancer.
Thông tin phụ bên lề, nội dung HDR sử dụng cho rạp chiếu phim của Dolby được color grading đặc biệt cho máy chiếu Dolby Vision mà họ sử dụng, điều này tương tự với các rạp IMAX. Do đó, những máy chiếu phim thương mại hoàn toàn không cần các tính năng điều chỉnh Tone Mapping tuỳ biến theo từng khung hình, mà nội dung HDR đã được mastering để nằm trong khả năng của máy chiếu có thể phát được.
Kết luận
Như đã đề cập ở đầu, HDR kết hợp độ sáng peak cao hơn, độ sâu màu color depth lớn hơn và dải màu color space rộng hơn, tạo ra một hình ảnh ấn tượng vượt xa hình ảnh SDR, đặc biệt là trên các TV hiện đại.
Tiếc thay, sự khác biệt giữa SDR và HDR không được thể hiện rõ ràng trên máy chiếu 4K, chủ yếu do yếu điểm về độ sáng peak cũng như black level. Mặc dù ngày nay đã có một số máy chiếu phim cao cấp có độ sáng rất cao, và black level cũng được cải thiện, nhưng vẫn chưa đủ để thể hiện HDR trọn vẹn. Thậm chí cả Dolby Vision trong rạp chiếu phim của Dolby cũng không được coi là HDR thực sự theo nhiều người trong ngành đánh giá, mà họ gọi đó là EDR (Extended Dynamic Range).
Điều đó không có nghĩa là nội dung HDR là hoàn toàn tương đương với SDR từ một máy chiếu, chúng ta hoàn toàn có cơ sở để có những kỳ vọng cao hơn. Ngoài ra, chất lượng của máy chiếu còn phụ thuộc rất nhiều vào điều kiện phòng. Nếu có quá nhiều ánh sáng môi trường gây nhiễu, các chi tiết chi tiết vùng tối sẽ biến mất trên màn chiếu mà chỉ để lại một mảng xám xịt. Và nếu chúng ta cố tình điều chỉnh EOTF để tác động đến lượng ánh sáng đầu ra, một lần nữa chúng ta phá vỡ mục tiêu của HDR.
Điều này tương tự như vấn đề dynamic range trong âm thanh. Để hệ thống loa có được mức dynamic range lý tưởng, có 2 cách xử lý, một là cấp công suất thật to để hệ thống đạt được mức volume vượt xa ngưỡng noise floor, hay là xử lý cách âm căn phòng để kéo noise floor xuống thấp nhất có thể, lúc này hệ thống loa không cần siết volume quá lớn, và vì thế loại bỏ hiện tượng méo tiếng và cải thiện chất lượng âm thanh.
Một chiếc máy chiếu khi lắp đặt ở căn phòng không được kiểm soát ánh sáng môi trường như phòng khách, phòng sinh hoạt chung, dĩ nhiên chúng chỉ có thể phát độ sáng tối đa để lấn át ánh sáng môi trường mà bỏ qua chi tiết vùng tối và black level. Để đảm bảo chiếc máy chiếu đắt tiền mà bạn sở hữu được phát huy toàn bộ tiềm năng, hãy đặt chúng trong một căn phòng được kiểm soát ánh sáng nghiêm ngặt, đó là lãnh địa riêng cho các cinemaphiles.
Nội dung được tham khảo từ một bài viết trên projectorcentral.com