Fuzzy Match https://psbt.org.pl/ pl Tłumaczenia maszynowe od kuchni https://psbt.org.pl/blog/tlumaczenia-maszynowe-od-kuchni <span>Tłumaczenia maszynowe od kuchni</span> <span><span lang="" about="/uzytkownik/michal-tyszkowski" typeof="schema:Person" property="schema:name" datatype="">Michał Tyszkowski</span></span> <span>26/01/2021 - 17:57</span> <div class="field__blog-featured-image padding-y-1"><div> <div class="padding-y-1"> <div class="usa-sr-only">Image</div> <div> <a href="https://psbt.org.pl/sites/default/files/images-multimedia/photo-1553881781-4c55163dc5fd.jpg"><img src="/sites/default/files/images-multimedia/photo-1553881781-4c55163dc5fd.jpg" width="1350" height="900" typeof="foaf:Image" /> </a> </div> </div> </div> </div> <div class="field__blog-category padding-y-1"><a href="/taxonomy/term/178" hreflang="pl">Tłumaczenia</a></div> <div class="padding-y-1"><p class="paragraph-intro"><strong><span><span><span><span><span><span>Tak, używam tłumaczeń maszynowych, bardzo często. Ostatnio prawie zawsze. Mimo to uznawany jestem za niezłego tłumacza, nie ma reklamacji dotyczących mojej pracy, a nawet dostaję pochwały. Jak to możliwe i jak się stało, że wszedłem w pakt z diabłem?</span></span></span></span></span></span></strong></p> <p>Przede wszystkim piszę to nie jako szef firmy, bo jako firma z certyfikatem ISO 17100 nie możemy oferować tłumaczeń maszynowych ani post-edycji, ale jako indywidualny tłumacz, którym też jestem, a więc nie popełniam żadnego odstępstwa od normy.</p> <p>Traktuję MT nie jako gotowy produkt, ale jako półprodukt, który sam w sobie nie nadaje się do użytku, natomiast znakomicie przyspiesza wytworzenie ostatecznego produktu.</p> <p>Dość dobrym porównaniem jest gotowanie zupy. Można to zrobić tradycyjnie, od podstaw, to znaczy kupić warzywa, kurze skrzydełka (jeśli ktoś lubi i nie jest vege), pokroić wszystko w kostkę, gotować, dodać makaronu lub kaszy, przyprawić i tak dalej. Efekt będzie na pewno doskonały, ale zajmie nam godzinę albo dłużej. Na drugim biegunie jest kupienie zupy w puszce. Wystarczy włożyć do mikrofalówki i gotowe w minutę. Efekt będzie… no cóż, jak ktoś lubi, może i niezły, ale na pewno bardzo powtarzalny. Istnieje jednak rozwiązanie pośrednie — można kupić półprodukty, takie jak mrożonkę, kostkę bulionową, mieszankę przypraw. Po odpowiednim doprawieniu, dodaniu śmietany i zielonej pietruszki uzyskamy efekt nieodróżnialny od zupy gotowanej od podstaw, ale w 15 minut zamiast godziny.</p> <p>To ostatnie podejście jest metaforą stosowanego przeze mnie, i moim zdaniem właściwego, podejścia do MT.</p> <h2>Jak to wygląda technicznie?</h2> <p>Przede wszystkim trzeba ocenić, czy mamy odpowiednie źródło. Nie każdą zupę da się zrobić z mrożonki (próbowaliście na przykład barszcz?) i nie każdy tekst nadaje się do wspomagania MT. Najlepiej nadają się do tego teksty prawne, typowo techniczne i naukowe. Zupełnie nie nadają się teksty marketingowe, finansowe, interfejs oprogramowania, czy katalogi części lub narzędzi. Żeby tekst nadawał się do wspomagania MT powinien składać się z dość długich zdań, pisanych w miarę łatwym językiem, bez przenośni i gier słów.</p> <p>Jeśli już mamy odpowiedni tekst, trzeba z niego wygenerować pamięć tłumaczeniową za pomocą MT. Można to zrobić na wiele sposobów, ja ma do tego własny program. Dobrze jest do niej zajrzeć i zrobić trochę zmian globalnych. Można na przykład zamienić wszędzie formę osobową na bezosobową, jest to łatwe i szybkie.</p> <p>Taką pamięć należy następnie wczytać do narzędzia CAT ustawiając co najmniej 10% penalty. To bardzo ważne. <strong>Nie możemy pozwolić, aby segmenty z MT podstawiały się same, bez żadnej kontroli</strong>. Wydaje się, że tak jest szybciej, ale wtedy na pewno przeoczymy jakiś błąd.</p> <p>Teraz można zacząć tłumaczyć, oczywiście w tym samym narzędziu CAT. Tłumaczymy, jak zwykle, segment po segmencie. Ponieważ mamy ustawione penalty, segment MT będzie podstawiał się z pamięci jako fuzzy match. Pozwalamy mu się podstawić i czytamy go. Czytania powinny być co najmniej 3, jak w Sejmie. Pierwsze czytanie jest bardzo pobieżne, polega na skanowaniu w poszukiwaniu ewidentnych błędów — takie się czasem zdarzają. I tu jest taka zasada – jeżeli znajdziemy ewidentną bzdurę, to segment usuwamy i tłumaczymy od zera. Jeśli bzdur nie znaleźliśmy, następuje drugie czytanie — tym razem dokładne. Czytając od razu poprawiamy mniejsze błędy, gramatykę, składnię itp. Na koniec robimy trzecie czytanie już całego, poprawionego segmentu. Jeśli wszystko jest w porządku, zatwierdzamy go i przechodzimy dalej. Tak samo postępujemy do końca tekstu. W ten sposób uzyskujemy tłumaczenie jakości „ludzkiej”, ale znacznie szybciej, zupełnie jak z zupą.</p> <p>Jakie są wady i zalety? Wynikają one z natury obowiązującego obecnie standardu Neural Machine Translation (NMT).</p> <h2>Najpierw zalety.</h2> <p>Zdania są zazwyczaj poprawne gramatycznie (czasem trzeba zrobić drobne zmiany) i ortograficznie (nie ma literówek). Oczywiście niezaprzeczalną zaletą jest szybkość. To tyle o zaletach.</p> <h2>Teraz wady.</h2> <p>Największą wadą NMT jest „nietrzymanie terminologii”. Zdarza się, że jakiś termin jest prawidłowo przetłumaczony w dziesięciu kolejnych zdaniach, a w jedenastym zupełne inaczej. Na terminologię trzeba zwracać szczególną uwagę. Najlepiej zrobić sobie słowniczek terminów występujących w konkretnym tekście i sprawdzać je w każdym segmencie.</p> <p>Inną wadą jest zależność jakości od długości segmentu. Generalnie, im dłuższy segment tym lepsza jakość. W bardzo długich segmentach zdarza się, że trochę posypie się gramatyka, ale terminologicznie i składniowo jest zazwyczaj poprawnie. W krótkich, 2,3-wyrazowych segmentach zdarzają się prawdziwe brednie, dlatego trzeba bardzo na nie uważać i dlatego NMT nie bardzo nadaje się do tekstów podzielonych na krótkie segmenty, takich jak interfejs oprogramowania, czy katalog części.</p> <p>Trzecia, bodaj najpoważniejsza wada jest taka, że w maszynowym tłumaczeniu zdarzają się czasem zdania poprawne gramatycznie i składniowo, ale kompletnie odbiegające od oryginału. <strong>Dlatego czytając podpowiedzi z MT należy uczulić się na sytuacje, w których „coś nie gra” i wtedy bardzo dokładnie sprawdzić oryginał</strong>.</p> <p>Tyle porad dotyczących używania MT. Nikogo do tego nie zachęcam, ale uważam, że jest to narzędzie, jak każde inne. Jeśli jest używane prawidłowo, bardzo ułatwia życie przyspieszając pracę, w przeciwnym wypadku może doprowadzić do tragedii. Ale to dotyczy większości narzędzi. Nożem kuchennym można kroić chleb, ale można też poderżnąć komuś gardło.</p> </div> <div class="field__blog-tag field field--name-field-tag field--type-entity-reference field--label-inline clearfix"> <h6 class="field__label inline">Tagi</h6> <ul class="links field__items"> <li><a href="/taxonomy/term/186" hreflang="pl">Machine Translation</a></li> <li><a href="/taxonomy/term/187" hreflang="pl">Fuzzy Match</a></li> </ul> </div> Tue, 26 Jan 2021 16:57:41 +0000 Michał Tyszkowski 927 at https://psbt.org.pl