12.00.41
Штучний інтелект виграв турнір з покеру у чотирьох кращих гравців
      У минулому році штучний інтелект здолав чемпіона по грі го Лі Седоля. Початок 2017 року ознаменувався поразкою чотирьох кращих гравців в покер, вони програли програмі Libratus за підсумками 20-денного матчу близько $ 1,8 млн.

Програму Libratus ( «баланс» латинською) створили вчені з Університету Карнегі Меллон - професор Тумас Сандхольм і його студент Ноам Браун. Це умовний спадкоємець програми Claudico, яка в 2015 році програла професійним гравцям в покер.

Спочатку Libratus знала тільки правила покеру - які карти є, які комбінації сильніше, в якій послідовності ходять гравці. Творці програми дали їй завдання - грати самій з собою в покер, і вона вчилася на своїх помилках. Після кількох трильйонів роздач комп'ютер навчився розуміти, які дії ведуть до виграшу, а які до програшу - і діяв так, щоб отримати найбільший прибуток. Як запевняє Тумас Сандхольм, програмою ніколи не показували історію роздач, зіграних людьми.

Проти Libratus грали четверо професіоналів, які заробили на покері мільйони доларів. Донг Кім, Джейсон Леc, Джиммі Чу і Деніел МакАлей - фахівці з гри в покерн. Ліс і Кім в 2015 році грали проти Claudico. Кім тоді виграв, Ліс - програв. Матч проходив протягом 20 днів. Кожен день кожен з чотирьох гравців проводив за комп'ютером по 12 і більше годин. Вони повинні були зіграти 120 тисяч роздач. При кожній роздачі противникам давалося по 20 тисяч фішок. У турнірі застосовувалася різновид покеру під назвою Техаський холдем.


Правила безлімітного Техаського холдема наступні. Пояснимо на прикладі варіанту з двома гравцями, оскільки з комп'ютером грали саме так. Кожен гравець отримує на руки дві карти. Той, хто ходить першим, вибирає з двох дій: скинути карти і зробити ставку. Той, хто відповідає, може скинути, поставити стільки ж або зробити ставку ще вище. Коли ставки зрівнялися, гравцям показують три карти. За допомогою цих карт і карт на руках суперники збирають різні за силою комбінації. Коли на столі виявляються три карти, перший гравець може зробити ставку або передати хід супернику - той повинен знову вибрати між ставкою або передачею ходу. Таке коло торгівлі відбувається всякий раз, поки на столі не з'явиться п'ять карт - і потім ще раз, останній. Якщо хтось зробив ставку, а інший не відповів - цю роздачу виграє той гравець, кому не відповіли. Якщо торгівля доходить до кінця, виграє той, у кого сильніше комбінація.

У перші дні гравці думали, що їм легко вдасться знайти вада в програмі. Згодом вони переконалися - це неможливо або як мінімум непросто. Libratus почала вигравати з першого ж дня. Тільки на шостий день людям вдалося скоротити перевагу, але днем пізніше виявилося, що комп'ютер став грати ще краще. І так відбувалося раз по раз.

В один із днів гравці від відчаю стали піднімати ставки комп'ютера в 80 відсотках випадків. І це не спрацювало.

У підсумку на всіх люди програли $ 1,8 млн. Гра йшла не на справжні гроші, хоча і проходила в казино. Гравці поділять між собою $ 200 тис., надані спонсорами.

Libratus працював на суперкомп'ютері з десятками процесорів, але Сандхольм впевнений, що 99% гравців Libratus обіграє навіть якщо її запустити на звичайному комп'ютері. Як підкреслюють творці програми, їх алгоритм не заточені під покер: технологію можна застосовувати для будь-яких ігор з неповною інформацією - для оцінки ризиків на біржі, при переговорах і в інших областях.

Джерело: Meduza
Переглядів: 534 | Додав: dvi | Рейтинг: 0.0/0
Всього коментарів: 0
der="0" width="100%" cellspacing="1" cellpadding="2" class="commTable">
Ім'я *:Email:WWW:
Код *:
close