Pozvané prednášky
Michal Valko – Gamification of Large Language Models
Abstrakt: Reinforcement learning from human feedback (RLHF) is a go-to solution for aligning large language models (LLMs) with human preferences; it passes through learning a reward model that subsequently optimizes the LLM's policy. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In the first part we turn to an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF) and give a new algorithmic solution, Nash-MD, founded on the principles of mirror descent. NLHF is compelling for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences. In the second part of the talk we delve into a deeper theoretical understanding of fine-tuning approaches as RLHF with PPO and offline fine-tuning with DPO (direct preference optimization) based on the Bradley-Terry model and come up with a new class of LLM alignment algorithms with better both practical and theoretical properties. We finish with the newest work showing links between and building on top of them.
Bio: Michal Valko je absolventom magisterského štúdia na našej fakulte, ktoré ukončil v roku 2005 pod vedením Radoslava Haramana. PhD získal v roku 2011 na University of Pittsburgh pod vedením Miloša Hauskrechta. Bol postdocom na Rémi Munos a od roku 2012 má trvalé miesto v Inria. Je tiež prednášajúcim na univerzite ENS Paris-Saclay. V minulosti pracoval v Google DeepMind Paris in 2018. V súčasnosti je principal Llama engineer v Meta Paris. Je ambasádorom ESET Science Award. Zaujíma sa najmä o viaceré aspekty algoritmov strojového učenia, vrátane veľkých jazykových modelov.
Jiří Šilha – Astronómia sa stretáva s priemyslom
Abstrakt: Astronómia je bežne spájaná so základným výskumom, jej odbor vytvára expertov v oblasti výskumu malých telies slnečnej sústavy, slnečnej fyziky, galaktickej astrofyziky a podobne. Použité vedecké metódy a prístroje využité počas astronomického výskumu majú aj praktickú aplikáciu z pohľadu planetárnej obrany a prevencie pred zrážkou družíc s kozmickým odpadom. Táto aplikácia je priamym záujmom Európskej vesmírnej agentúry, ktorá vývoj a výskum v tejto oblasti silne podporuje. Vďaka práve projektom tohto typu sa na Slovensku vytvoril špecifický typ priemyslu venujúci sa vesmírnej bezpečnosti. Príspevok bude venovaný témam vesmírnej bezpečnosti, úlohe akadémie a priemyslu v tejto oblasti a príležitostiam vytvoreným pre študentov a nové profesie na Slovensku.
Bio: Jiří Šilha pôsobí na našej fakulte na Katedre astronómie, fyziky Zeme a meteorológie od roku 2017. Predtým pôsobil na Astronomickom inštitúte Univerzity v Berne, Švajčiarsko. Úzko spolupracuje s Európskou vesmírnou agentúrou (ESA) a je členom Slovenskej a Medzinárodnej astronomickej únie (IAU) a tiež delegátom Slovenskej republiky pre Vedecký a Technický Podvýbor Výboru Organizácie spojených národov pre mierové využitie vesmíru (COPUOS). Venuje sa problematike vesmírneho odpadu a kozmickej bezpečnosti. V roku 2019 založil spinoff Astros Solutions, ktorý sídli na FMFI UK.