Аутор тема: Word Lens  (Прочитано 18796 пута)

0 корисника и 1 гост прегледају ову тему.

Ван мреже Đorđe

  • Староседелац
  • *****
  • Поруке: 874
Одг.: Word Lens
« Одговор #30 : 20. 12. 2010. у 21.09 »
Ne razumeš, lingvisti imaju algoritme već decenijama unazad! [osmeh] Mi smo naš dio posla maltene uradili (danas su još samo nijanse ostale, da se iskristaliziraju). Vidi kako zaista izgleda jedna gramatička analiza: http://www.sil.org/mexico/ling/E002-IntroGB.pdf.

Problem je u tome što kompjuterdžije, negde od osamdesetih—devedesetih pa naovamo sami prave te algoritme, umesto da konsultuju lingviste. A ja mislim da je to zato što su se oni malo bili uobrazili. [osmeh2] Odjednom je informatika postala tako aktualna i progresivna, i prestižan zanat itd., i oni su se malčice ipak umislili… [namig] (Osim pojedinih svetlih izuzetaka, naravno!)

Hoće, recimo, naš kompjuteraš da napravi program za prevođenje — sedne, krene da programira, i sve odradi on sâm, jer zaboga, ko se bolje razume u programiranje nego on? Neki lingvist da mu pravi algoritam? Ha, ha, onaj što broji reči stranog porekla i ispravlja ljude kad „pogrešno“ govore? Ma daj, nemoj se zezati… :P

I otuda problem.
„Either you repeat the same conventional doctrines everybody is saying, or else you say something true, and it will sound like it's from Neptune.“ (Noam Chomsky)

Ван мреже Belopoljanski

  • Староседелац
  • *****
  • Поруке: 2.251
Одг.: Word Lens
« Одговор #31 : 21. 12. 2010. у 01.56 »
Ne razumeš, lingvisti imaju algoritme već decenijama unazad! [osmeh] Mi smo naš dio posla maltene uradili (danas su još samo nijanse ostale, da se iskristaliziraju). Vidi kako zaista izgleda jedna gramatička analiza: http://www.sil.org/mexico/ling/E002-IntroGB.pdf.

Problem je u tome što kompjuterdžije, negde od osamdesetih—devedesetih pa naovamo sami prave te algoritme, umesto da konsultuju lingviste. A ja mislim da je to zato što su se oni malo bili uobrazili. [osmeh2] Odjednom je informatika postala tako aktualna i progresivna, i prestižan zanat itd., i oni su se malčice ipak umislili… [namig] (Osim pojedinih svetlih izuzetaka, naravno!)

Hoće, recimo, naš kompjuteraš da napravi program za prevođenje — sedne, krene da programira, i sve odradi on sâm, jer zaboga, ko se bolje razume u programiranje nego on? Neki lingvist da mu pravi algoritam? Ha, ha, onaj što broji reči stranog porekla i ispravlja ljude kad „pogrešno“ govore? Ma daj, nemoj se zezati… :P

I otuda problem.


Не слажем се. Поготов са овом последњом констатацијом и предрасудама о елитизму компјутерџија. Какав престижан занат, далеко је то од тога.

Ако алгоритми постоје (надам се да под алгоритмом мислимо на исто), онда се сав посао своди на имплементацију и унос речничке и фразеолошке базе података и не постоји никаква препрека да се ствар реализује. А ту постоје две опције, да саме лингвистичке институције ангажују програмере да одраде посао за њих, или да неко треће лице као финансијер пројекта ангажује обоје.

Ван мреже Шоми

  • Саркастични згубидан
  • Староседелац
  • *****
  • Поруке: 3.679
  • People, what a bunch of bastards!
  • Говорим: енглески, немачки
    • Српски ми је матерњи језик
Одг.: Word Lens
« Одговор #32 : 21. 12. 2010. у 02.06 »
Нити језикословци зарезују компјутераше, нити ови њих. Уображени су и једни и други. Што каже Белопољански, зашто се нека језикословна установа не одважи да унајми програмера, него се ови добровољно лаћају посла, више из хобија, и притом, наравно, греше. Е, тек онда упадају језикословци да критикују… Мислим, неки дрвосеча се разболи и дође сусед или пријатељ да му нацепа дрва да се загреје, а овај узме да му попује како их је то нацепао.
Wook Karadzhitj, savremenik Jerneja Kompjutera.

Ван мреже Belopoljanski

  • Староседелац
  • *****
  • Поруке: 2.251
Одг.: Word Lens
« Одговор #33 : 21. 12. 2010. у 03.18 »
Нека ми Ђорђе опрости што нисам отворио још онај линк ка ПДФ-у, али ја још увек сумњам да ти алгоритми постоје. На страну српски и други мали језици, али да неко тако нешто не спроведе у дело када су у питању велики језици (то јест језици са значајно већим бројем говорника и литературе исписане на њима), а да постоји – ту ми се већ укључује моја лампица за сумњу.

Ван мреже Đorđe

  • Староседелац
  • *****
  • Поруке: 874
Одг.: Word Lens
« Одговор #34 : 21. 12. 2010. у 12.15 »
Нека ми Ђорђе опрости што нисам отворио још онај линк ка ПДФ-у, али ја још увек сумњам да ти алгоритми постоје. На страну српски и други мали језици, али да неко тако нешто не спроведе у дело када су у питању велики језици (то јест језици са значајно већим бројем говорника и литературе исписане на њима), а да постоји – ту ми се већ укључује моја лампица за сумњу.

Zato što pod pojmom "lingvistika" podrazumevaš ono značenje od pre sto godina — jedan sedi, lista i proučava knjige ispisane na jednom jeziku, drugi putuje po selima i brdima i beleži dijalekte i kako ko sve govori taj jezik, a treći onda od svega toga lepo napravi rečnik, i to je to. [osmeh] I nijedan jezik nije isti, nego za neki drugi jezik moraju neka druga trojica to da rade; za neki četvrti jezik neka četvrta trojica itd. Ništa se ne generalizira i ne formalizuje, nego se nabrojava i opisuje. Tako sigurno i ne može. [namig]

Međutim, krajem pedesetih (tačnije, 1957. godine) profesor Chomsky objavio je svoju knjižicu i disertaciju Syntactic Structures. Otad naovamo, lingvistika je dobila sasvim drugačije značenje i novu teorijsku osnovu.

U lingvistici od pedesetih naovamo, pokazalo se da svi ljudski jezici jesu isti, da imaju istu dubinsku strukturu. To je bila i ključna revolucionarna teza profesora Chomskog, koja je promenila tok lingvistike. Jer, to znači da sad ne moram, da bih opisao gramatiku jezika, tražiti svaku moguću rečenicu zapisanu ili izgovorenu na tom jeziku i svaku posebno opisivati (to bi bilo i nemoguće, jer mogućih rečenica ima beskonačno). Već se sve rečenice generiraju određenim formulama — rečenica ima beskonačno, ali je broj tih formula (skup gramatičkih pravila) ograničen. Dovoljno je, dakle, opisati gramatička pravila u vidu algoritma, i samo ubaciti leksikon jezika u takav program, i voilà — imaš robota koji generira sve rečenice toga jezika. (Problem će tu biti, naravno, što će robot generirati i besmislene i deo negramatičnih rečenica, ali to se rešava uvođenjem novih ograničenja u algoritam.)

(Jesu uobraženi i jezokoslovci malo, i to jest tačno. [osmeh] I oni misle da se niko ne može — čuj, tamo neki kompjuteraš! — baviti jezikom bolje nego, zaboga, oni. I što preskriptivističkije opredeljenje, to naravno, i veći uobraziluk. [namig])
„Either you repeat the same conventional doctrines everybody is saying, or else you say something true, and it will sound like it's from Neptune.“ (Noam Chomsky)

Ван мреже Belopoljanski

  • Староседелац
  • *****
  • Поруке: 2.251
Одг.: Word Lens
« Одговор #35 : 21. 12. 2010. у 15.01 »
Уображеност нема никакве везе са тим, ради се о нечему што је високо исплативо, а, ако је истина да готови алгоритми већ постоје, и релативно лако за реализацију.

Ево, ја ако будем имао нека новчана средства за улагање, сакупићу пар уображених да за своју сарадњу приме плату и проценат од продаје готовог производа и има све сујете да нестану у моменту. Знам човека који је зарадио право мало богатство продајом и дистрибуцијом неких дискова са интерактивном школом језика за децу, где су он, један графички дизајнер и један програмер завршили посао за пар недеља. Српско-енглески преводилац који би био „близу савршенству“ како си описао, био би једна врло корисна ствар која би се могла гарантовано добро продати. Баш због тог фактора исплативости и сумњам да ти алгоритми већ постоје, бар онако како их ја замишљам, а да их нико не реализује.

Ван мреже Đorđe

  • Староседелац
  • *****
  • Поруке: 874
Одг.: Word Lens
« Одговор #36 : 21. 12. 2010. у 15.27 »
Баш због тог фактора исплативости и сумњам да ти алгоритми већ постоје, бар онако како их ја замишљам, а да их нико не реализује.

Previše su komplikovani, valjda. Zbog tih ograničenja koja pomenuh: nije teško napraviti osnovne algoritme kojim se generiraju rečenice i tekstovi u bilo kom jeziku, ali uz to treba još deset puta više ograničenja (manjih "podalgoritama") eda bi se generiralo ono što se u lingvistici popularno zove "all and only" — sve gramatične rečenice nekog jezika, ali samo gramatične rečenice tog jezika.

Zato Blackwellova Sintaksa ima pet debelih tomova. Onda zamisli računarski program sa svime time u sebi koliki bi bio. [osmeh] Zato se, valjda, mašinsko prevođenje danas radije tako „površno“ radi — uz par algoritmića uglavnom je to prepisivanje reči jednog jezika u reči drugog jezika. Šalim se ja malo kad zezam kompjuterdžije; oni koji se bave mašinskim prevođenjem, naravno, znaju i za Chomskoga i bave se i lingvistikom takođe, ali uglavnom se danas — da bi, naravno, proizvod što prije došao na tržište — to radi tako, prostije i površnije.

Evo, vidi ovaj dijagram: http://upload.wikimedia.org/wikipedia/commons/a/af/Direct_translation_and_transfer_translation_pyramind.svg; ono što je na vrhu trokuta, to je mašinsko prevođenje „blizu savršenstva“, sa lingvističkim međujezikom koji gramatički analizira uneti tekst i gramatički generira prevod na ciljani jezik. Google Translate i slični „brzinski“ projekti su, međutim, po metodologiji mašinskog prevođenja pri dnu toga trokuta, s nimalo ili jako malo analize i generativne gramatike. Zato što su i namenjeni upravo tome — da „brzinski“ shvatiš o čemu je reč u tekstu na stranom jeziku. Naročito što je, pri tome, i besplatan program (pa onda shvaćaš koliko se truda uložilo u njega i koliko je bilo bitno da on radi „blizu savršenstva“).
„Either you repeat the same conventional doctrines everybody is saying, or else you say something true, and it will sound like it's from Neptune.“ (Noam Chomsky)

Ван мреже Duja

  • Администратор
  • Староседелац
  • *****
  • Поруке: 2.851
Одг.: Word Lens
« Одговор #37 : 21. 12. 2010. у 16.08 »
Цитат: Đorđe via Google Translate
Serbian to English translation
They are too complicated, I guess. Because of these limitations that remembered the: it is not difficult to make the basic algorithms that generate sentences and texts in any language, but in addition to ten times the limit (small "podalgoritama") is generated there so what is popularly called in linguistics "all and only "- all the grammatical sentences of a language, but only the grammatical sentences of that language.

That is why syntax Blackwell has five large volumes. Then imagine a computer program with all this to himself what would have been. So smile, I guess, machine translation still prefer that "superficial" to - with a few algoritmića mainly to rewriting the words of one language into words of another language. I’m joking a bit when zezam kompjuterdžije; those engaged in machine translation, of course, know for Chomsky and deal with, and linguistics as well, but mostly today - that, of course, as soon as the product come to market - it does so, simpler and superficial.

Here, see this diagram: http://upload.wikimedia.org/wikipedia/commons/a/af/Direct_translation_and_transfer_translation_pyramind.svg; what is at the top of the triangle, it is a machine translation "close to perfection, with linguistic interlanguage analysis of the grammatical enter text and grammar generates a translation in target language. Google Translate and similar "speed" projects, however, the methodology of machine translation at the bottom of this triangle, with no or very little analysis and generative grammar. Because they are designed for just that - to "speed" understand what the word in the text in a foreign language. Especially as, in fact, a free program (and then you realize how much effort invested in it and how it was important that he is "close to perfection").

Mislim da si malo previše kritičan prema Google Translateu. Evo šta je dao od tvog komentara gore. Daleko je to od savršenog, ali bogme nije baš "superficial", i solidno je razumljiv (poslednji pasus je odličan), pogotovo uzevši u obzir da je srpski relativno mali jezik (pretpostavljam da se više pažnje posvećuje prevodima između "velikih" svetskih jezika).

Ван мреже Đorđe

  • Староседелац
  • *****
  • Поруке: 874
Одг.: Word Lens
« Одговор #38 : 21. 12. 2010. у 17.12 »
Ma ne, daleko bilo, ne kažem da Google Translate loše radi, i sâm se koristim njime ponekad, kad mi zatreba nešto s jezika koji ne poznajem dovoljno dobro da mogu čitati bez pomoći.

Kriticizirao sam metodologiju po kojoj on radi — ona je đene-đene, jer se suviše oslanja „na sreću“; on će ti svakako izbaciti neki prevod onoga što si uneo, ali ne garantira ti da je to značenjski i gramatički zaista tako; nego ako se slučajno pogodi da rečenica na izvornom i rečenica na ciljanom jeziku imaju istu strukturu — ispašće i prevod okej („all the grammatical sentences of a language, but only the grammatical sentences of that language“); a ako slučajno ne, to će biti: „Then imagine a computer program with all this to himself what would have been“.

A da je samo metod rada drugačiji — da program prvo analizira strukturu (i semantiku) rečenice na unetom jeziku, pa tek onda tu strukturu, izraženu odgovarajućim lingvističkim međujezikom, popuni odgovarajućim rečima iz ciljanog jezika, ni rezultat ne bi morao u tolikoj meri zavisiti od slučajnosti, već mnogo manje. [osmeh] Dakle, ne kažem da se ni ovom vrstom prevođenja kojom se koristi Google Translate nikad ne dobijaju dobri rezultati, ali kažem da bi se dobijao još veći procenat dobrih rezultata samo da je metodologija drugačija (da postoji lingvistički „međukorak“ u tome).

Ali to jeste mnogo kompliciranije od ovoga načina kojim se koristi Google Translate, i zahteva mnogo više rada i truda uloženog u izradnju programa. Možda i previše, kad se nakraju povuče crta, za korporacije koje se time bave. (Većini korisnika nekog takvog aparata kao što je ovaj Word Lens ili kao što je Google Translate verovatno nije ni bitno da prevod bude 100% korektan, koliko im je bitnije samo da shvate smisao teksta na stranom jeziku i dobiju neki prevod, kakav-takav. Zato se verovatno i ne isplati raditi deset godina na nečemu, sa čitavim timom ljudi, zarad rezultata koji će biti, ajde da kažemo, tek nekih tridesetak—četrdesetak posto bolji od trenutnoga, kad može, eto, i ovako na prostiji način, za dosta manje vremena i dosta manje para, a skoro pa sa istim rezultatom. [roll])

Serbian to English translation

Kada sam isprobavao Google Translate da vidim kako radi, davao mi je različite prevode na engleski u zavisnosti od toga da li jezik izvornika označim kao „Croatian“ ili kao „Serbian“. [osmeh2]

Sa ovom metodologijom za koju se ja zalažem, to naravno, ne bi moglo da se desi. [namig]
„Either you repeat the same conventional doctrines everybody is saying, or else you say something true, and it will sound like it's from Neptune.“ (Noam Chomsky)

Ван мреже Бруни

  • Девојчица!!!
  • Администратор
  • Староседелац
  • *****
  • Поруке: 9.820
  • Сајбер зевзек…
  • Говорим: шпански, енглески
  • Родно место: Београд
    • Српски ми је матерњи језик
    • Српски језички атеље
Одг.: Word Lens
« Одговор #39 : 21. 12. 2010. у 19.14 »
Izvini Dujo, ali GT je  [bljak]. Turi mu to isto na ćirilici, i videćeš šta ćeš dobiti. Pa na mom sajtu su Servantesa preveli kao Lindzi Logan!!!  [iznenadjen]


Цитат
(Većini korisnika nekog takvog aparata kao što je ovaj Word Lens ili kao što je Google Translate verovatno nije ni bitno da prevod bude 100% korektan, koliko im je bitnije samo da shvate smisao teksta na stranom jeziku i dobiju neki prevod, kakav-takav.

Djole… Znaš li ti da se na njiki članci prevode uz pomoć GT?  [lol]
« Последња измена: 21. 12. 2010. у 19.16 Бруни »
Don’t ask me why I am a vegan, ask yourself why you’re not.

Ван мреже Đorđe

  • Староседелац
  • *****
  • Поруке: 874
Одг.: Word Lens
« Одговор #40 : 2. 01. 2011. у 08.38 »
Evo jednoga zgodnog člančića na našem jeziku: http://www.unige.ch/lettres/linguistique/samardzic/Samardzic-8-10-08.pdf
„Either you repeat the same conventional doctrines everybody is saying, or else you say something true, and it will sound like it's from Neptune.“ (Noam Chomsky)

Тагови: